第三章分層隨機抽樣_第1頁
第三章分層隨機抽樣_第2頁
第三章分層隨機抽樣_第3頁
第三章分層隨機抽樣_第4頁
第三章分層隨機抽樣_第5頁
已閱讀5頁,還剩143頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2023/2/61第三章分層隨機抽樣3.1概述

3.2簡單估計量及其性質(zhì)

3.3樣本量在各層的分配

3.4回歸估計量及其性質(zhì)

3.5各層樣本量的分配

3.6總樣本量的確定2023/2/62簡單隨機抽樣只適合小型的抽樣調(diào)查:1.抽樣框

2.代表性如:了解中國各民族的情況:(鄂倫春族)2023/2/63第一節(jié)概述

一.定義與作用

(一)分層抽樣和分層隨機抽樣先將總體N個單元劃分成L個互不重復的子總體,每個子

總體稱為層,它們的大小分為別,這L個層合起來就是整個總體(N=)。

然后,在每個層中分別獨立進行抽樣,這種抽樣就是分層抽樣,所得到的樣本稱為分層樣本。如果每層都是簡單隨機抽樣,則稱為分層隨機抽樣,所得到的樣本稱為分層隨機樣本。不重不漏2023/2/64

各層中的抽樣是獨立進行的,因此,在各層中所采取的抽樣手段完全可以不相同,在一個層進行簡單隨機抽樣,在另一層則可采用更復雜一些的抽樣,完全視各層的情況不同而定,這種因地制宜的手段將使樣本盡可能反映總體的特性以及子總體的特性。分層抽樣有時也稱為類型抽樣或分類抽樣。2023/2/65

分層隨機抽樣三原則:(1)每層都抽樣;(2)各層都獨立地抽樣;(3)各層的抽樣都是簡單隨機抽樣。2023/2/66

(二)特點:1.分層抽樣的抽樣效率較高,也就是說分層抽樣的估計精度較高。

注意:分層抽樣估計量的方差只和層內(nèi)方差有關,和層間方差無關。2.分層抽樣不僅能對總體指標進行推算,而且能對各層指標進行推算。如:消費物價指數(shù)(全國和各省)

3.層內(nèi)抽樣方法可以不同,而且便于抽樣工作的組織。2023/2/67(三)作用可以對各層的參數(shù)進行估計,

有助于提高估計精度。2023/2/68二.使用場合

應用條件:適合于各層差異較大,有進行分層的輔助信息。

層的劃分原則:1.層內(nèi)單元具有相同性質(zhì),通常按調(diào)查對象的不同類型進行劃分,這時,分層抽樣能夠?qū)γ恳活惖哪繕肆窟M行估計。2.盡可能使層內(nèi)單元的標志值相近,層間單元的差異盡可能大,從而達到提高抽樣估計精度的目的。3.既按類型又按層內(nèi)單元標志值相近的原則進行多重分層,同時達到實現(xiàn)估計類值以及提高估計精度的目的。4.為了抽樣組織實施的方便,通常按行政管理機構設置進行分層。2023/2/69如:對全國汽車貨運量調(diào)查,目的是不僅要了解全國貨運量,而且推算不同經(jīng)濟成分貨運量。首先為組織方便,按省分層;各省再按經(jīng)濟成分分層;為提高抽樣效率,再按噸位分層。2023/2/610三.符號說明層號:h(h=1,2…,L)第h層的記號如下:單元總數(shù):樣本單位數(shù):第i個單元標志值為:

從該層中抽取的樣本的單元值為:層權:抽樣比:總體均值:樣本均值:2023/2/611

層內(nèi)方差:樣本方差:2023/2/612第二節(jié)簡單估計量及其性質(zhì)

一.總體均值的估計

(一)簡單估計量的定義對于分層樣本,對總體均值的估計是通過對各層的的估計,按層權加權平均得到的。公式為:

2023/2/613

如果得到的是分層隨機樣本,則總體均值的簡單估計為:(二)估計量的性質(zhì)性質(zhì)1對于一般的分層隨機抽樣,如果是的無偏估計(h=1,2,…L),則是的無偏估計。即對各層估計是無偏的,則對總體的估計也是無偏的。的方差為:

由于各層的抽樣是相互獨立的2023/2/614證明:因各層抽樣是相互獨立,則也相互獨立,則有2023/2/615性質(zhì)2對于分層隨機抽樣

,

是的無偏估計,

的方差為:

2023/2/616

性質(zhì)3對于分層隨機抽樣,的一個無偏估計為:2023/2/617注:

當適當?shù)拇?,各層樣本平均?shù)均可適用正態(tài)近似,因此一般地也適用于正態(tài)近似其置信區(qū)間。2023/2/618二.總體總量的估計

(一)簡單估計量的定義

總體總量Y的估計為:

分層隨機樣本:

(二)估計量的性質(zhì)性質(zhì)4對于一般的分層抽樣,如果是偏估計,則是Y的無偏估計。的方差為:2023/2/6192023/2/620

性質(zhì)5對于分層隨機抽樣,的方差為:性質(zhì)6對于分層隨機抽樣,的一個無偏估計為:2023/2/621【例3.1】調(diào)查某地區(qū)的居民奶制品年消費支出,以居民戶為抽樣單元,根據(jù)經(jīng)濟及收入水平將居民戶劃分為4層,每層按簡單隨機抽樣抽?。保皯?,調(diào)查獲得如下數(shù)據(jù)(單位:元),估計該地區(qū)居民奶制品年消費總支出及估計的標準差。2023/2/622樣本戶奶制品年消費支出層居民戶總數(shù)樣本戶奶制品年消費支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252023/2/623解:N=200+400+750+1500=2850=10(h=1,2,3,4)各層的層權及抽樣比為:

2023/2/624各層樣本均值及樣本方差為:2023/2/625該地區(qū)居民奶制品年消費總支出:估計量方差及標準差的樣本估計為:2023/2/626

在95%的概率保證下該地區(qū)居民

奶制品年消費總支出區(qū)間為:2023/2/627【例3.2】某市進行家庭收入調(diào)查,分城鎮(zhèn)居民和農(nóng)村居民兩部分抽樣,在全部城鎮(zhèn)23560戶中抽取300戶,在全部農(nóng)村148420戶中抽取250戶(均按簡單隨機抽樣進行),調(diào)查結(jié)果是城鎮(zhèn)年平均戶收入為15180元,標準差為2972元;農(nóng)村年平均收入為9856元,標準差為2546元。求全市年平均戶收入的估計及其90%的置信區(qū)間。2023/2/628解:2023/2/6292023/2/630全市年戶均收入的置信區(qū)間:10585.391.645142.287,即

10351.33—10819.45(元)注:由于城鎮(zhèn)居民與農(nóng)村居民收入水平,抽樣比不同(前者大于后者)。如果不分層,計算樣本平均數(shù)作為全市戶均年收入是不合理的:2023/2/631三.總體比例的估計(一)簡單估計量的定義總體比例P的估計為:(二)估計量的性質(zhì)如果定義

1,第i個單元具有所考慮的特征

0,其他i=1,2…N

2023/2/632性質(zhì)7對于一般的分層抽樣,如果是的無偏估計(h=1,2,…L),則是P的無偏估計.

的方差為:

性質(zhì)8對于分層隨機抽樣,是P的一個無偏估計,的方差為:

因為:及

2023/2/633

2023/2/634

性質(zhì)9對于分層隨機抽樣,的一個無偏估計為:

2023/2/635【例3.3】了解某地區(qū)居民戶擁有家庭電腦的情況如下,估計該地區(qū)家庭擁有電腦的比例及估計的標準差。樣本戶擁有家庭電腦情況層居民戶總數(shù)樣本戶擁有家庭電腦情況1234567891012000001000100240001000000103750110000101041500100000000

02023/2/636解:2023/2/637

該地區(qū)家庭擁有電腦的比例的估計、估計量的方差、估計的標準差為:2023/2/638(三)總體具有所考慮特征單元總數(shù)A的估計它的方差及方差估計分別是:2023/2/639【例3.4】為調(diào)查某個高血壓高發(fā)病地區(qū)青少年與成年人高血壓的患病率,對14歲以上的人分四個年齡組進行分層隨機抽樣,調(diào)查結(jié)果如下,求總體高血壓的患病率P的估計及其標準差的估計。

高血壓患病率調(diào)查數(shù)據(jù)年齡組(歲)層權層樣本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.5362023/2/640解:P的估計量為:

為求的方差估計,取2023/2/6413.3比率估計及其性質(zhì)(一)分別比率估計條件:各層的樣本量都比較大的情況下方法:各層分別進行比率估計,將各層加權匯總得到總體指標的估計。(先比后加權)總體均值和總體總量Y的分別比率估計量:已知各層的均值和總量2023/2/642對分別比估計,若各層樣本量都比較大,則有:為第h層X與Y的相關系數(shù)注:公式中S、R、用樣本數(shù)據(jù)替代2023/2/643證明:根據(jù)比估計量的性質(zhì),當比較大時,則有:所以2023/2/644總量:2023/2/645(二)聯(lián)合比率估計條件:各層的樣本量不是都很大的情況方法:先分別對作分層估計,然后再采用比估計方法。(先加權后比)總體均值和總體總量Y的聯(lián)合比率估計量:已知總體的均值和總量2023/2/646的均方誤差為:對聯(lián)合比估計,若總樣本量n比較大,則有:證明:p75注意與分別比估計方差公式的差異(Rh)2023/2/647(三)分別比率估計量與聯(lián)合比率估計量的比較

如果各層的樣本量都較大,且有理由認為各層的比率差異較大,則分別比率估計優(yōu)于聯(lián)合比率估計。當各層的樣本量不大,或各層比率差異很小,則聯(lián)合比率估計更好些。

【例4.4】某市1996年對950家港口生產(chǎn)單位完成的吞吐量進行了調(diào)查,1997年欲對全市港口生產(chǎn)單位完成的吞吐量進行抽樣調(diào)查。對港口生產(chǎn)單位按非國有(h=1)和國有(h=2)分為兩層,單位數(shù)分別為800家和150家,分別在兩層中調(diào)查了10家、15家港口生產(chǎn)單位,調(diào)查數(shù)據(jù)如下表,試估計1997年全市港口生產(chǎn)單位完成的吞吐量。2023/2/6491997年非國有和國有企業(yè)調(diào)查數(shù)據(jù)ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465接上表128176501391911601411601070157356982023/2/651h=1,非國有H=2,國有合計1015258001509500.8421050.15789510.01250.1171400102900274300214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.0497252023/2/6521.按分別比率估計量估計:2023/2/6532.按聯(lián)合比率估計量估計2023/2/654兩種途徑:分別回歸估計:對每層樣本分別求取回歸估計量,然后對各層的回歸估計量進行加權平均,即先“回歸”后“加權”;聯(lián)合回歸估計:對兩個變量先分別計算出總體總值或總體均值的分層簡單估計量,然后再對它們的分層估計量來構造回歸估計,即先“加權”后“回歸”。3.3回歸估計量及其性質(zhì)分別回歸估計量同樣要求每層的樣本量都比較大,如果達不到這個要求,加之各層的簡單隨機抽樣誤差較大,整個分層隨機抽樣就會產(chǎn)生較大的偏差,這時要使用聯(lián)合比估計量。2023/2/6563.3分層隨機抽樣下的回歸估計

(一)

分別回歸估計

適用:各層樣本量不小的情況方法:先對各層的平均數(shù)或總和作回歸估計,然后按層權平均或相加,得到總體指標的估計。(先回歸再加權)定義3.6分別回歸估計是指在分層隨機抽樣中,先在每層中對層均值或?qū)涌偤妥龌貧w估計,然后再對各層的回歸估計按總體層權進行加權平均。對的分別回歸估計為:2023/2/657總體均值的分別估計量:總體總量的分別估計量:

1、當各層的回歸系數(shù)為給定的常數(shù)時,分別估計量是無偏的,其方差為:2023/2/658并且當時,達到最小,即2、通常未知,可以用樣本回歸系數(shù)作為的估計:這時分別估計量是有偏的,但當每一層的樣本量2023/2/659都較大時,估計的偏倚可以忽略,其方差近似為:方差的樣本估計為:式中,第h層樣本相關系數(shù)的平方2023/2/661(二)聯(lián)合回歸估計條件:各層樣本量不大聯(lián)合回歸估計是對作分層估計;然后構造總體均值和總量的聯(lián)合估計量。(先分層再回歸)總體均值、總量的聯(lián)合估計量:

其中:2023/2/6621、當回歸系數(shù)為事先給定的常數(shù)時,聯(lián)合估計量是無偏的,其方差為:2023/2/663當取時,達到最小。

2、當回歸系數(shù)未知時,取為的樣本估計:

第h層樣本相關系數(shù)的平方2023/2/665這時聯(lián)合估計是有偏的,但當樣本量n較大時,估計量的偏倚趨于零,回歸估計是漸近無偏的,且

方差的樣本估計為:2023/2/666(三)分別回歸估計與聯(lián)合回歸估計的比較

當回歸系數(shù)事先設定時,分別回歸估優(yōu)于聯(lián)合回歸估計,尤其在各層回歸系數(shù)相差較大時,分別回歸估計更好。當回歸系數(shù)由樣本估計時,如果各層的樣本量不太小,且各層的回歸系數(shù)相差較大,還是采用分別回歸估計為宜。若各層的樣本量不太大,且各層的回歸系數(shù)大致相同,則采用聯(lián)合回歸估計較好。若層內(nèi)的回歸系數(shù)差別不太大,而每層的樣本量并非都相當大時,聯(lián)合回歸估計可能更保險些。2023/2/667【例4.6】P45:(續(xù)前例)利用回歸估計量估計該市港口生產(chǎn)單位1997年完成的吞吐量。解:樣本回歸系數(shù):(1)按分別回歸估計量估計:=163421.10+107135.19=270556.30h=1,非國有h=2,國有1.070170.8564022023/2/668

(2)按聯(lián)合回歸估計量估計:

2023/2/6692023/2/670小結(jié)比估計量與回歸估計量的異同:1.從形式上看,比估計量是一個簡單估計量的線性組合,而回歸估計量兩個簡單估計量的線性組合;但實質(zhì)上都是利用兩個簡單估計量和輔助變量來估計總體指標。2.比估計量借助主要變量與輔助變量之間的比值關系;回歸估計量借助兩者之間的線性相關關系。2023/2/671

第四節(jié)樣本量在各層的分配簡單隨機抽樣只需要根據(jù)調(diào)查精度的要求與費用的限制來確定抽樣容量的大小,而分層抽樣則提出另一個重要的問題,一旦確定n,又如何在各層中分配抽樣容量,其中有些問題要考慮,比如在各層中各有精度的要求以及費用的限制,由于各層具有各自的鮮明特征,其花費自然不同,因而在樣本容量分配上必須帶有經(jīng)濟觀點。另一個重要考慮因素是由于的不同而帶來數(shù)據(jù)處理的困難。樣本量的分配必須盡可能地使估計量及其方差具有較簡單的形式,從而使數(shù)據(jù)匯總工作量小,做到省時省力。2023/2/672樣本量分配對精度的影響2023/2/673

某個總體分為三層,其層權及層標準差見下表,設總樣本量為300,考慮四種不同的樣本量分配,并計算出每一種分配下,總體均值估計量的方差:樣本量的不同分配對方差的影響h常數(shù)分配與成正比與成正比與成正比10.22010049604020.330100110909030.5341001411501703.863.113.093.002023/2/6742023/2/675(一)比例分配(proportionalallocation)即在分層抽樣中,若每層的樣本量nh

都與層的大小Nh

成比例,即

也就是按各層的層權進行分配,即大的子總體多抽一些,小的子總體少抽一些。比例分配時,也與層權成比例。簡單隨機抽樣中總體的每一個單元入樣的概率即為抽樣比f。因而按比例分配而在各層中進行簡單隨機抽樣的分層方法,任何一層中的樣本被抽中的概率都為f。因此比例分配的分層隨機抽樣是一種等概率抽樣?;?023/2/676

總體均值的估計是:

顯然估計量有相當簡單的形式。2023/2/677自加權:如果總體總量(或均值)的無偏估計量可以寫成樣本觀測值的總和(或平均數(shù))的常數(shù)倍(如:Y=ky或),那么這種樣本(或估計量)稱作自加權的或等加權的。按比例分配的分層抽樣就是自加權的。簡單隨機抽樣(放回的和不放回的)也是自加權的。2023/2/678的方差為:注意:是各層方差按層權的加權平均!2023/2/679二.最優(yōu)分配(一)最優(yōu)分配在分層隨機抽樣中,在總費用給定的條件下,估計量的方差達到最?。换蛟诮o定估計量方差的條件下,使總費用最小的各層樣本量的分配稱為最優(yōu)分配(optimumallocation)。簡單線性費用函數(shù):2023/2/680建立目標函數(shù):根據(jù)柯西-許瓦茲(Cauchy-Schwarz)不等式,對于任意的,有通過極小化目標函數(shù),可同時達到給定方差下費用最小和給定費用下方差最小的效果。2023/2/681當且僅當(K為常數(shù))時,上式等號成立。所以對于目標函數(shù)則有:上式成立的條件是:2023/2/682所以則使目標函數(shù)達到最小時的最優(yōu)分配為:2023/2/683

上式表明,越大(即層越大),則層內(nèi)抽樣應越多;又若越大(即層內(nèi)變差越大),則層內(nèi)抽樣也應越多;但如果越大(即層內(nèi)平均每單元費用越大),則在該層中的抽樣應少一些。即最優(yōu)分配的與或成正比,與成反比。2023/2/684

由此得出下面的行為準則,如果某一層:單元數(shù)較多內(nèi)部差異較大費用比較省則對這一層的樣本量分配較多些。2023/2/685(二)Neyman(內(nèi)曼)分配條件:如果每層抽樣的費用相同,即時,最優(yōu)分配可簡化為:將代入即得:2023/2/686達到最小:

【例3.5】(續(xù)例3.1)p69如果樣本量為n=40,則按比例分配和Neyman分配,各層的樣本量應為多少?

解:按比例分配時,各層的樣本量為:即各層的樣本量分別為:3,6,11,20(公式計算結(jié)果如果帶小數(shù),這時樣本容量不按四舍五入法則取整數(shù),取比這個數(shù)大的最小整數(shù)代替。如:n=56.03則n=57)2023/2/687按Neyman分配:2023/2/688各層的樣本量為:即各層的樣本量分別為:3,7,23,7。2023/2/689【例3.6】在例3.2中若固定n=550不變,城鎮(zhèn)居民與農(nóng)村居民年收入的標準差估計分別為元,元,對城鎮(zhèn)居民與農(nóng)村居民抽樣平均每戶的費用比1:2,試求城鎮(zhèn)與農(nóng)村兩層比例分配與最優(yōu)分配的樣本量。又若不考慮費用因素,那么最優(yōu)分配的結(jié)果又有何變化?如何計算呢?2023/2/690解:

城鎮(zhèn)與農(nóng)村居民年收入調(diào)查樣本量分配的計算h12356000411.021484200.863250022157.51525.61719802568.51936.62023/2/691(1)比例分配(2)最優(yōu)分配(3)內(nèi)曼分配

2023/2/692

不考慮費用的內(nèi)曼分配在農(nóng)村的樣本量比考慮費用的最優(yōu)分配在農(nóng)村的樣本量更大。這是因為農(nóng)村調(diào)查費用較高,因此最優(yōu)原則是適當增加城鎮(zhèn)樣本量,減少農(nóng)村樣本量。2023/2/693(三)某些層要求大于100%抽樣時的修正

按最優(yōu)分配時,當某些層的標準差特別大,而層的大小相對指定的總樣本量n又小很多,若加上對這些層抽樣的平均單位費用又很低,而抽樣比f比較大,則可能出現(xiàn)按最優(yōu)分配計算的這個層的樣本量超過的情況。實際工作中,如果第k層出現(xiàn)這種情況,最優(yōu)分配是對這個層進行100%的抽樣,即取,然后,將剩下的樣本量按最優(yōu)分配分到各層。2023/2/694以不考慮費用的內(nèi)曼分配為例,實際操作步驟如下:

2023/2/695

在這種情況下,對于方差的一般公式,可以直接將修正后的最優(yōu)分配所得的帶入,而內(nèi)曼分配最小方差公式則需必要的調(diào)整:

其中,是僅對最后實際分配的樣本量嚴格小于的各層求和,也只是這些層中抽取的單元總數(shù)。修正的含義可理解為:因為對于那些實施普查()的層來說,已經(jīng)不存在所謂的抽樣誤差了,自然需要從原來的公式中將它們舍去。2023/2/696【例3.7】某個模擬的總體分為4層,和的值見下表,設n=80,請問該如何進行內(nèi)曼分配?

一個模擬總體的分配情況h154002000210500500032001020004400208000合計615—170002023/2/697解:計算各層的樣本量:(1)第一層樣本量的分配:而,可見,則(2)將個待分配的樣本量分到2—4層:2023/2/698而,可見,則(3)將個待分配的樣本量分到3、4層:因為,,所以(4)將個待分配的樣本量分到第4層:

2023/2/699因為,,所以因此,各層所分配的樣本量是:

5,10,13,52

此時上題計算總體均值估計量的最小方差為:對第三、四層計算2023/2/6100第五節(jié)總樣本量的確定

一.影響樣本總量n的因素

1.估計量精度的要求:(1)對總體參數(shù)估計的精度

(2)對各層參數(shù)估計的精度

2.費用的限制

(1)總費用的限制

(2)不同層中平均抽取一個單元的費用

3.

層的劃分和層的樣本量的分配形式2023/2/6101

由于估計量的精度實際上取決于每層樣本量的大小,因此在總樣本量給定的情況下,對層樣本量的不同分配,其精度也不同。反之對同一精度要求,對不同的樣本量分配形式,計算得到的總樣本量也有差異,因此在確定總樣本時,要求先確定樣本量的分配形式。2023/2/6102

二.估計總體均值情形1.一般公式令其中已經(jīng)選定,在調(diào)查的目標是估計總體均值時,當給定方差V的上限或d時,2023/2/6103

如果估計精度是由誤差限的形式給出,則

這時上式可以表示為:

由上式可得:

2023/2/6104(1)當按比例分配時,即則上式為:2023/2/6105實際工作中,n的計算可以分兩步:

先計算,當不能忽略不計時,再計算:(2)當按內(nèi)曼分配時,即2023/2/6106【例3.7】(續(xù)例3.1)

如果在95%置信度下,相對誤差不超過10%,則按比例分配和Neyman分配時,總樣本量分別為多少?

解:按比例分配時:2023/2/61072023/2/6108對進行修正得n:按Neyman分配時:2023/2/6109(3)最優(yōu)分配需要考慮費用時簡單線性函數(shù):C=將代入n的一般公式,得:2023/2/6110當總費用C給定時:(P92式3.139)2023/2/61112023/2/6112第六節(jié)分層時的若干問題

一.抽樣效果分析與簡單隨機抽樣相比。分層隨機抽樣的精度與樣本量的分配及各層的方差有關。在固定樣本的情況下,如果相對1可以忽略,則分別為分層隨機抽樣最優(yōu)分配、分層隨機抽樣按比例分配、簡單隨機抽樣簡單估計的方差。2023/2/6113

如果各層的均值差異越大,則用比例分配法較好,而當各層的標準差較大時,用最優(yōu)分配法較好。在調(diào)查多個目標量時,按比例分配的分層抽樣可能更好些。通常用比例分配法較多,因為:(1)最優(yōu)分配并不是對每個指標都是最優(yōu)的。(2)由于最優(yōu)分配時需對層標準差進行估計,估計又不可能十分精確,加上計算時樣本量必須取整數(shù),因此理論上的最優(yōu)分配的最小方差并不一定能達到。(3)而且當實際分配偏離最優(yōu)分配時,方差增加并不明顯??紤]到比例分配樣本的自加權性質(zhì)的簡單性,除非層標準差異十分明顯從而考慮最優(yōu)分配有較大的改進,否則還是可以采用比例分配法。對于最優(yōu)分配,需要各層標準差Sh的值,可以用調(diào)查指標的歷史數(shù)據(jù)或通過輔助指標的信息推算。2023/2/61141.簡單隨機抽樣與分層隨機抽樣的效果比較(1)與比例分配的分層隨機抽樣的效果比較前提:相同樣本量的情況下簡單隨機抽樣(對均值估計量)的方差:

比例分配的分層隨機抽樣相應估計量的方差:2023/2/6115根據(jù)總體單元指標的平方和分解,簡單隨機抽樣的方差分解如下:層內(nèi)方差層間方差2023/2/6116

故若所有的都比較大,則從而2023/2/6117

上式右邊的第二項是層間平方和,它一定是非負的,因此有

上式意味著,當所有的都比較大時,比例分配的分層隨機抽樣的方差小于簡單隨機抽樣的方差,也就是說,比例分配分層隨機抽樣的精度比后者高,設計效應小于1。2023/2/6118

方差差值為:

這表明層平均數(shù)的差異越大,分層的效果就越好,若層平均數(shù)都相等,那么分層的效果與不分層的一樣。事實上正因為層間的這種變異不進入分層隨機抽樣的方差,因此才有分層隨機抽樣精度高于簡單隨機抽樣的結(jié)果。2023/2/6119(2)與最優(yōu)分配的分層隨機抽樣的比較按定義,最優(yōu)分配的精度應高于相同樣本量的任何其他分配,當然也高于比例分配的精度,但最優(yōu)分配在精度上的改進究竟有多大?為此比較比例分配方差與最優(yōu)分配(內(nèi)曼情形)方差之差.2023/2/6120從上式可以看出,最優(yōu)分配在精度取決于各層標準差的差異,差異越大,最優(yōu)分配的效果越好,反之若各層間標準差(方差)差別不大,那么最優(yōu)分配的效果就不會比比例分配的效果好很多。2023/2/6121

使用條件:

最優(yōu)分配:各層標準差差異大,尤其是調(diào)查多個目標量時。比例分配:各層的均值差異大

二.層的劃分

基本原則:

使層內(nèi)差異盡可能小---各層有自己鮮明特色,使層間差異明顯地較大---各層之間有顯著不同。在多指標問題中可采用聚類分析的手段進行分層,在此我們考慮單指標如何分層。2023/2/6122(一)最優(yōu)分層

目的不同,分層方法不同,構造層的原則如下:1.若為了便于組織、估計子總體的參數(shù),則按自然層或單元的類型劃分。2.若是提高抽樣效率,減少估計量的方差,則按目標量分層,但在調(diào)查之間目標量是未知的,因此分層通常選擇一個與調(diào)查指較大線性相關的指標來進行。這個標志可以是目標量的前期值,也可以完全是另一個變量。2023/2/6123

如何利用一個分層標志具體分層呢?實際上也就是說如何確定各層的分點。思路:

設總體分成h層,假定與分別為總體的最小與最大可能值。按數(shù)值分層即為在與之間插上(h-1)個分點:

如果各層的抽樣分配方案已定,即設法求這些分點以使得達到最小。2023/2/6124

確定層界的快速近似法:累積平方根法:

由戴倫紐斯(Daleniues)與霍捷斯(Hodges)提出的根據(jù)等分分層變量分布的累積平方根的最優(yōu)分層方法,簡稱累積平方根法。累積平方根法2023/2/6125【例3.9】某地區(qū)電信部門在對利用電話上網(wǎng)的居民家庭安裝ADSL意愿進行調(diào)查時,以轄區(qū)內(nèi)最近三個月有電話上網(wǎng)支出的居民用戶為總體(上網(wǎng)電話費為0.02元/分鐘),并準備按上網(wǎng)電話支出(x)進行分層,試確定各層的分點。2023/2/6126范圍x

頻數(shù)f累計0~565328255.5934255.59345~1089240298.7306554.324110~1536128190.0737744.397715~2077525278.43311022.83120~2562407249.81391272.64525~3024591156.81521429.4630~4024586221.74761651.20840~509582138.43411789.64250~6015761177.54441967.18660~708099127.27142094.45770~805676106.54582201.003不等距678135620342023/2/612780~90345383.102352284.10690~100425692.26052376.366100~1501246111.62442487.99150~20080089.442722577.433200~25036560.415232637.848250~30090302667.848300~3503518.708292686.557350~40057.0710682693.628400~4501210.954452704.582450以上78.36662712.9492023/2/6128

最終累計頻數(shù)是2712.949,如果取層數(shù)為4,則應每隔分一層.因此應該使得累計最接近678.237,1356.474,2034.712,即較合理的分層是:2023/2/6129(二)層數(shù)的確定

層數(shù)的增加能提高估計的精度,但當層數(shù)增加到一定的時候,在精度上的收益將很小;若樣本量n已確定,由于每層至少必須抽取一個樣本單元,因此最多的層數(shù)為n,如果要給出估計量方差的無偏估計,則每層至少2個樣本單元,那么層數(shù)不能超過n/2。分層時應考慮:1.分層考慮精度的要求。

一般以目標量作為分層指標,但未知,一般通過與高度相關的輔助指標來進行。根據(jù)研究,除非Y與X的相關系數(shù),層數(shù)一般不超過6為宜。2.分層考慮費用。2023/2/6130三.事后分層(或抽樣后分層)

前面討論的分層抽樣是建立在抽樣之前總體已經(jīng)分好層,但有時這種事先分層會遇到較大困難,而我們又很想利用分層抽樣的優(yōu)勢之處,此時可以采用事后分層的方法。

適用情況:

沒有層的抽樣框,或總體特別大來不及事先分層,或幾個變量都適合于分層?;虼嬖跇O大(小)值。條件:

需知各層的大小或?qū)訖?。不適合:層權與實際情況相差很大層權

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論