第三章分層隨機(jī)抽樣_第1頁
第三章分層隨機(jī)抽樣_第2頁
第三章分層隨機(jī)抽樣_第3頁
第三章分層隨機(jī)抽樣_第4頁
第三章分層隨機(jī)抽樣_第5頁
已閱讀5頁,還剩144頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023/5/111第三章分層隨機(jī)抽樣3.1概述

3.2簡(jiǎn)單估計(jì)量及其性質(zhì)

3.3樣本量在各層的分配

3.4回歸估計(jì)量及其性質(zhì)

3.5各層樣本量的分配

3.6總樣本量的確定第一頁,共一百四十九頁。2023/5/112簡(jiǎn)單隨機(jī)抽樣只適合小型的抽樣調(diào)查:1.抽樣框

2.代表性如:了解中國各民族的情況:(鄂倫春族)第二頁,共一百四十九頁。2023/5/113第一節(jié)概述

一.定義與作用

(一)分層抽樣和分層隨機(jī)抽樣先將總體N個(gè)單元?jiǎng)澐殖桑虃€(gè)互不重復(fù)的子總體,每個(gè)子

總體稱為層,它們的大小分為別,這L個(gè)層合起來就是整個(gè)總體(N=)。

然后,在每個(gè)層中分別獨(dú)立進(jìn)行抽樣,這種抽樣就是分層抽樣,所得到的樣本稱為分層樣本。如果每層都是簡(jiǎn)單隨機(jī)抽樣,則稱為分層隨機(jī)抽樣,所得到的樣本稱為分層隨機(jī)樣本。不重不漏第三頁,共一百四十九頁。2023/5/114

各層中的抽樣是獨(dú)立進(jìn)行的,因此,在各層中所采取的抽樣手段完全可以不相同,在一個(gè)層進(jìn)行簡(jiǎn)單隨機(jī)抽樣,在另一層則可采用更復(fù)雜一些的抽樣,完全視各層的情況不同而定,這種因地制宜的手段將使樣本盡可能反映總體的特性以及子總體的特性。分層抽樣有時(shí)也稱為類型抽樣或分類抽樣。第四頁,共一百四十九頁。2023/5/115

分層隨機(jī)抽樣三原則:(1)每層都抽樣;(2)各層都獨(dú)立地抽樣;(3)各層的抽樣都是簡(jiǎn)單隨機(jī)抽樣。第五頁,共一百四十九頁。2023/5/116

(二)特點(diǎn):1.分層抽樣的抽樣效率較高,也就是說分層抽樣的估計(jì)精度較高。

注意:分層抽樣估計(jì)量的方差只和層內(nèi)方差有關(guān),和層間方差無關(guān)。2.分層抽樣不僅能對(duì)總體指標(biāo)進(jìn)行推算,而且能對(duì)各層指標(biāo)進(jìn)行推算。如:消費(fèi)物價(jià)指數(shù)(全國和各省)

3.層內(nèi)抽樣方法可以不同,而且便于抽樣工作的組織。第六頁,共一百四十九頁。2023/5/117(三)作用可以對(duì)各層的參數(shù)進(jìn)行估計(jì),

有助于提高估計(jì)精度。第七頁,共一百四十九頁。2023/5/118二.使用場(chǎng)合

應(yīng)用條件:適合于各層差異較大,有進(jìn)行分層的輔助信息。

層的劃分原則:1.層內(nèi)單元具有相同性質(zhì),通常按調(diào)查對(duì)象的不同類型進(jìn)行劃分,這時(shí),分層抽樣能夠?qū)γ恳活惖哪繕?biāo)量進(jìn)行估計(jì)。2.盡可能使層內(nèi)單元的標(biāo)志值相近,層間單元的差異盡可能大,從而達(dá)到提高抽樣估計(jì)精度的目的。3.既按類型又按層內(nèi)單元標(biāo)志值相近的原則進(jìn)行多重分層,同時(shí)達(dá)到實(shí)現(xiàn)估計(jì)類值以及提高估計(jì)精度的目的。4.為了抽樣組織實(shí)施的方便,通常按行政管理機(jī)構(gòu)設(shè)置進(jìn)行分層。第八頁,共一百四十九頁。2023/5/119如:對(duì)全國汽車貨運(yùn)量調(diào)查,目的是不僅要了解全國貨運(yùn)量,而且推算不同經(jīng)濟(jì)成分貨運(yùn)量。首先為組織方便,按省分層;各省再按經(jīng)濟(jì)成分分層;為提高抽樣效率,再按噸位分層。第九頁,共一百四十九頁。2023/5/1110三.符號(hào)說明層號(hào):h(h=1,2…,L)第h層的記號(hào)如下:單元總數(shù):樣本單位數(shù):第i個(gè)單元標(biāo)志值為:

從該層中抽取的樣本的單元值為:層權(quán):抽樣比:總體均值:樣本均值:第十頁,共一百四十九頁。2023/5/1111

層內(nèi)方差:樣本方差:第十一頁,共一百四十九頁。2023/5/1112第二節(jié)簡(jiǎn)單估計(jì)量及其性質(zhì)

一.總體均值的估計(jì)

(一)簡(jiǎn)單估計(jì)量的定義對(duì)于分層樣本,對(duì)總體均值的估計(jì)是通過對(duì)各層的的估計(jì),按層權(quán)加權(quán)平均得到的。公式為:

第十二頁,共一百四十九頁。2023/5/1113

如果得到的是分層隨機(jī)樣本,則總體均值的簡(jiǎn)單估計(jì)為:(二)估計(jì)量的性質(zhì)性質(zhì)1對(duì)于一般的分層隨機(jī)抽樣,如果是的無偏估計(jì)(h=1,2,…L),則是的無偏估計(jì)。即對(duì)各層估計(jì)是無偏的,則對(duì)總體的估計(jì)也是無偏的。的方差為:

由于各層的抽樣是相互獨(dú)立的第十三頁,共一百四十九頁。2023/5/1114證明:因各層抽樣是相互獨(dú)立,則也相互獨(dú)立,則有第十四頁,共一百四十九頁。2023/5/1115性質(zhì)2對(duì)于分層隨機(jī)抽樣

,

是的無偏估計(jì),

的方差為:

第十五頁,共一百四十九頁。2023/5/1116

性質(zhì)3對(duì)于分層隨機(jī)抽樣,的一個(gè)無偏估計(jì)為:第十六頁,共一百四十九頁。2023/5/1117注:

當(dāng)適當(dāng)?shù)拇螅鲗訕颖酒骄鶖?shù)均可適用正態(tài)近似,因此一般地也適用于正態(tài)近似其置信區(qū)間。第十七頁,共一百四十九頁。2023/5/1118二.總體總量的估計(jì)

(一)簡(jiǎn)單估計(jì)量的定義

總體總量Y的估計(jì)為:

分層隨機(jī)樣本:

(二)估計(jì)量的性質(zhì)性質(zhì)4對(duì)于一般的分層抽樣,如果是偏估計(jì),則是Y的無偏估計(jì)。的方差為:第十八頁,共一百四十九頁。2023/5/1119第十九頁,共一百四十九頁。2023/5/1120

性質(zhì)5對(duì)于分層隨機(jī)抽樣,的方差為:性質(zhì)6對(duì)于分層隨機(jī)抽樣,的一個(gè)無偏估計(jì)為:第二十頁,共一百四十九頁。2023/5/1121【例3.1】調(diào)查某地區(qū)的居民奶制品年消費(fèi)支出,以居民戶為抽樣單元,根據(jù)經(jīng)濟(jì)及收入水平將居民戶劃分為4層,每層按簡(jiǎn)單隨機(jī)抽樣抽取10戶,調(diào)查獲得如下數(shù)據(jù)(單位:元),估計(jì)該地區(qū)居民奶制品年消費(fèi)總支出及估計(jì)的標(biāo)準(zhǔn)差。第二十一頁,共一百四十九頁。2023/5/1122樣本戶奶制品年消費(fèi)支出層居民戶總數(shù)樣本戶奶制品年消費(fèi)支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025第二十二頁,共一百四十九頁。2023/5/1123解:N=200+400+750+1500=2850=10(h=1,2,3,4)各層的層權(quán)及抽樣比為:

第二十三頁,共一百四十九頁。2023/5/1124各層樣本均值及樣本方差為:第二十四頁,共一百四十九頁。2023/5/1125該地區(qū)居民奶制品年消費(fèi)總支出:估計(jì)量方差及標(biāo)準(zhǔn)差的樣本估計(jì)為:第二十五頁,共一百四十九頁。2023/5/1126

在95%的概率保證下該地區(qū)居民

奶制品年消費(fèi)總支出區(qū)間為:第二十六頁,共一百四十九頁。2023/5/1127【例3.2】某市進(jìn)行家庭收入調(diào)查,分城鎮(zhèn)居民和農(nóng)村居民兩部分抽樣,在全部城鎮(zhèn)23560戶中抽取300戶,在全部農(nóng)村148420戶中抽取250戶(均按簡(jiǎn)單隨機(jī)抽樣進(jìn)行),調(diào)查結(jié)果是城鎮(zhèn)年平均戶收入為15180元,標(biāo)準(zhǔn)差為2972元;農(nóng)村年平均收入為9856元,標(biāo)準(zhǔn)差為2546元。求全市年平均戶收入的估計(jì)及其90%的置信區(qū)間。第二十七頁,共一百四十九頁。2023/5/1128解:第二十八頁,共一百四十九頁。2023/5/1129第二十九頁,共一百四十九頁。2023/5/1130全市年戶均收入的置信區(qū)間:10585.391.645142.287,即

10351.33—10819.45(元)注:由于城鎮(zhèn)居民與農(nóng)村居民收入水平,抽樣比不同(前者大于后者)。如果不分層,計(jì)算樣本平均數(shù)作為全市戶均年收入是不合理的:第三十頁,共一百四十九頁。2023/5/1131三.總體比例的估計(jì)(一)簡(jiǎn)單估計(jì)量的定義總體比例P的估計(jì)為:(二)估計(jì)量的性質(zhì)如果定義

1,第i個(gè)單元具有所考慮的特征

0,其他i=1,2…N

第三十一頁,共一百四十九頁。2023/5/1132性質(zhì)7對(duì)于一般的分層抽樣,如果是的無偏估計(jì)(h=1,2,…L),則是P的無偏估計(jì).

的方差為:

性質(zhì)8對(duì)于分層隨機(jī)抽樣,是P的一個(gè)無偏估計(jì),的方差為:

因?yàn)?及

第三十二頁,共一百四十九頁。2023/5/1133

第三十三頁,共一百四十九頁。2023/5/1134

性質(zhì)9對(duì)于分層隨機(jī)抽樣,的一個(gè)無偏估計(jì)為:

第三十四頁,共一百四十九頁。2023/5/1135【例3.3】了解某地區(qū)居民戶擁有家庭電腦的情況如下,估計(jì)該地區(qū)家庭擁有電腦的比例及估計(jì)的標(biāo)準(zhǔn)差。樣本戶擁有家庭電腦情況層居民戶總數(shù)樣本戶擁有家庭電腦情況1234567891012000001000100240001000000103750110000101041500100000000

0第三十五頁,共一百四十九頁。2023/5/1136解:第三十六頁,共一百四十九頁。2023/5/1137

該地區(qū)家庭擁有電腦的比例的估計(jì)、估計(jì)量的方差、估計(jì)的標(biāo)準(zhǔn)差為:第三十七頁,共一百四十九頁。2023/5/1138(三)總體具有所考慮特征單元總數(shù)A的估計(jì)它的方差及方差估計(jì)分別是:第三十八頁,共一百四十九頁。2023/5/1139【例3.4】為調(diào)查某個(gè)高血壓高發(fā)病地區(qū)青少年與成年人高血壓的患病率,對(duì)14歲以上的人分四個(gè)年齡組進(jìn)行分層隨機(jī)抽樣,調(diào)查結(jié)果如下,求總體高血壓的患病率P的估計(jì)及其標(biāo)準(zhǔn)差的估計(jì)。

高血壓患病率調(diào)查數(shù)據(jù)年齡組(歲)層權(quán)層樣本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.536第三十九頁,共一百四十九頁。2023/5/1140解:P的估計(jì)量為:

為求的方差估計(jì),取第四十頁,共一百四十九頁。2023/5/11413.3比率估計(jì)及其性質(zhì)(一)分別比率估計(jì)條件:各層的樣本量都比較大的情況下方法:各層分別進(jìn)行比率估計(jì),將各層加權(quán)匯總得到總體指標(biāo)的估計(jì)。(先比后加權(quán))總體均值和總體總量Y的分別比率估計(jì)量:已知各層的均值和總量第四十一頁,共一百四十九頁。2023/5/1142對(duì)分別比估計(jì),若各層樣本量都比較大,則有:為第h層X與Y的相關(guān)系數(shù)注:公式中S、R、用樣本數(shù)據(jù)替代第四十二頁,共一百四十九頁。2023/5/1143證明:根據(jù)比估計(jì)量的性質(zhì),當(dāng)比較大時(shí),則有:所以第四十三頁,共一百四十九頁。2023/5/1144總量:第四十四頁,共一百四十九頁。2023/5/1145(二)聯(lián)合比率估計(jì)條件:各層的樣本量不是都很大的情況方法:先分別對(duì)作分層估計(jì),然后再采用比估計(jì)方法。(先加權(quán)后比)總體均值和總體總量Y的聯(lián)合比率估計(jì)量:已知總體的均值和總量第四十五頁,共一百四十九頁。2023/5/1146的均方誤差為:對(duì)聯(lián)合比估計(jì),若總樣本量n比較大,則有:證明:p75注意與分別比估計(jì)方差公式的差異(Rh)第四十六頁,共一百四十九頁。2023/5/1147(三)分別比率估計(jì)量與聯(lián)合比率估計(jì)量的比較

如果各層的樣本量都較大,且有理由認(rèn)為各層的比率差異較大,則分別比率估計(jì)優(yōu)于聯(lián)合比率估計(jì)。當(dāng)各層的樣本量不大,或各層比率差異很小,則聯(lián)合比率估計(jì)更好些。

第四十七頁,共一百四十九頁?!纠?.4】某市1996年對(duì)950家港口生產(chǎn)單位完成的吞吐量進(jìn)行了調(diào)查,1997年欲對(duì)全市港口生產(chǎn)單位完成的吞吐量進(jìn)行抽樣調(diào)查。對(duì)港口生產(chǎn)單位按非國有(h=1)和國有(h=2)分為兩層,單位數(shù)分別為800家和150家,分別在兩層中調(diào)查了10家、15家港口生產(chǎn)單位,調(diào)查數(shù)據(jù)如下表,試估計(jì)1997年全市港口生產(chǎn)單位完成的吞吐量。第四十八頁,共一百四十九頁。2023/5/11491997年非國有和國有企業(yè)調(diào)查數(shù)據(jù)ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465第四十九頁,共一百四十九頁。接上表12817650139191160141160107015735698第五十頁,共一百四十九頁。2023/5/1151h=1,非國有H=2,國有合計(jì)1015258001509500.8421050.15789510.01250.1171400102900274300214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.049725第五十一頁,共一百四十九頁。2023/5/11521.按分別比率估計(jì)量估計(jì):第五十二頁,共一百四十九頁。2023/5/11532.按聯(lián)合比率估計(jì)量估計(jì)第五十三頁,共一百四十九頁。2023/5/1154第五十四頁,共一百四十九頁。兩種途徑:分別回歸估計(jì):對(duì)每層樣本分別求取回歸估計(jì)量,然后對(duì)各層的回歸估計(jì)量進(jìn)行加權(quán)平均,即先“回歸”后“加權(quán)”;聯(lián)合回歸估計(jì):對(duì)兩個(gè)變量先分別計(jì)算出總體總值或總體均值的分層簡(jiǎn)單估計(jì)量,然后再對(duì)它們的分層估計(jì)量來構(gòu)造回歸估計(jì),即先“加權(quán)”后“回歸”。3.3回歸估計(jì)量及其性質(zhì)分別回歸估計(jì)量同樣要求每層的樣本量都比較大,如果達(dá)不到這個(gè)要求,加之各層的簡(jiǎn)單隨機(jī)抽樣誤差較大,整個(gè)分層隨機(jī)抽樣就會(huì)產(chǎn)生較大的偏差,這時(shí)要使用聯(lián)合比估計(jì)量。第五十五頁,共一百四十九頁。2023/5/11563.3分層隨機(jī)抽樣下的回歸估計(jì)

(一)

分別回歸估計(jì)

適用:各層樣本量不小的情況方法:先對(duì)各層的平均數(shù)或總和作回歸估計(jì),然后按層權(quán)平均或相加,得到總體指標(biāo)的估計(jì)。(先回歸再加權(quán))定義3.6分別回歸估計(jì)是指在分層隨機(jī)抽樣中,先在每層中對(duì)層均值或?qū)涌偤妥龌貧w估計(jì),然后再對(duì)各層的回歸估計(jì)按總體層權(quán)進(jìn)行加權(quán)平均。對(duì)的分別回歸估計(jì)為:第五十六頁,共一百四十九頁。2023/5/1157總體均值的分別估計(jì)量:總體總量的分別估計(jì)量:

1、當(dāng)各層的回歸系數(shù)為給定的常數(shù)時(shí),分別估計(jì)量是無偏的,其方差為:第五十七頁,共一百四十九頁。2023/5/1158并且當(dāng)時(shí),達(dá)到最小,即2、通常未知,可以用樣本回歸系數(shù)作為的估計(jì):這時(shí)分別估計(jì)量是有偏的,但當(dāng)每一層的樣本量第五十八頁,共一百四十九頁。2023/5/1159都較大時(shí),估計(jì)的偏倚可以忽略,其方差近似為:方差的樣本估計(jì)為:式中,第五十九頁,共一百四十九頁。第h層樣本相關(guān)系數(shù)的平方第六十頁,共一百四十九頁。2023/5/1161(二)聯(lián)合回歸估計(jì)條件:各層樣本量不大聯(lián)合回歸估計(jì)是對(duì)作分層估計(jì);然后構(gòu)造總體均值和總量的聯(lián)合估計(jì)量。(先分層再回歸)總體均值、總量的聯(lián)合估計(jì)量:

其中:第六十一頁,共一百四十九頁。2023/5/11621、當(dāng)回歸系數(shù)為事先給定的常數(shù)時(shí),聯(lián)合估計(jì)量是無偏的,其方差為:第六十二頁,共一百四十九頁。2023/5/1163當(dāng)取時(shí),達(dá)到最小。

2、當(dāng)回歸系數(shù)未知時(shí),取為的樣本估計(jì):

第六十三頁,共一百四十九頁。第h層樣本相關(guān)系數(shù)的平方第六十四頁,共一百四十九頁。2023/5/1165這時(shí)聯(lián)合估計(jì)是有偏的,但當(dāng)樣本量n較大時(shí),估計(jì)量的偏倚趨于零,回歸估計(jì)是漸近無偏的,且

方差的樣本估計(jì)為:第六十五頁,共一百四十九頁。2023/5/1166(三)分別回歸估計(jì)與聯(lián)合回歸估計(jì)的比較

當(dāng)回歸系數(shù)事先設(shè)定時(shí),分別回歸估優(yōu)于聯(lián)合回歸估計(jì),尤其在各層回歸系數(shù)相差較大時(shí),分別回歸估計(jì)更好。當(dāng)回歸系數(shù)由樣本估計(jì)時(shí),如果各層的樣本量不太小,且各層的回歸系數(shù)相差較大,還是采用分別回歸估計(jì)為宜。若各層的樣本量不太大,且各層的回歸系數(shù)大致相同,則采用聯(lián)合回歸估計(jì)較好。若層內(nèi)的回歸系數(shù)差別不太大,而每層的樣本量并非都相當(dāng)大時(shí),聯(lián)合回歸估計(jì)可能更保險(xiǎn)些。第六十六頁,共一百四十九頁。2023/5/1167【例4.6】P45:(續(xù)前例)利用回歸估計(jì)量估計(jì)該市港口生產(chǎn)單位1997年完成的吞吐量。解:樣本回歸系數(shù):(1)按分別回歸估計(jì)量估計(jì):=163421.10+107135.19=270556.30h=1,非國有h=2,國有1.070170.856402第六十七頁,共一百四十九頁。2023/5/1168

(2)按聯(lián)合回歸估計(jì)量估計(jì):

第六十八頁,共一百四十九頁。2023/5/1169第六十九頁,共一百四十九頁。2023/5/1170小結(jié)比估計(jì)量與回歸估計(jì)量的異同:1.從形式上看,比估計(jì)量是一個(gè)簡(jiǎn)單估計(jì)量的線性組合,而回歸估計(jì)量?jī)蓚€(gè)簡(jiǎn)單估計(jì)量的線性組合;但實(shí)質(zhì)上都是利用兩個(gè)簡(jiǎn)單估計(jì)量和輔助變量來估計(jì)總體指標(biāo)。2.比估計(jì)量借助主要變量與輔助變量之間的比值關(guān)系;回歸估計(jì)量借助兩者之間的線性相關(guān)關(guān)系。第七十頁,共一百四十九頁。2023/5/1171

第四節(jié)樣本量在各層的分配簡(jiǎn)單隨機(jī)抽樣只需要根據(jù)調(diào)查精度的要求與費(fèi)用的限制來確定抽樣容量的大小,而分層抽樣則提出另一個(gè)重要的問題,一旦確定n,又如何在各層中分配抽樣容量,其中有些問題要考慮,比如在各層中各有精度的要求以及費(fèi)用的限制,由于各層具有各自的鮮明特征,其花費(fèi)自然不同,因而在樣本容量分配上必須帶有經(jīng)濟(jì)觀點(diǎn)。另一個(gè)重要考慮因素是由于的不同而帶來數(shù)據(jù)處理的困難。樣本量的分配必須盡可能地使估計(jì)量及其方差具有較簡(jiǎn)單的形式,從而使數(shù)據(jù)匯總工作量小,做到省時(shí)省力。第七十一頁,共一百四十九頁。2023/5/1172樣本量分配對(duì)精度的影響第七十二頁,共一百四十九頁。2023/5/1173

某個(gè)總體分為三層,其層權(quán)及層標(biāo)準(zhǔn)差見下表,設(shè)總樣本量為300,考慮四種不同的樣本量分配,并計(jì)算出每一種分配下,總體均值估計(jì)量的方差:樣本量的不同分配對(duì)方差的影響h常數(shù)分配與成正比與成正比與成正比10.22010049604020.330100110909030.5341001411501703.863.113.093.00第七十三頁,共一百四十九頁。2023/5/1174第七十四頁,共一百四十九頁。2023/5/1175(一)比例分配(proportionalallocation)即在分層抽樣中,若每層的樣本量nh

都與層的大小Nh

成比例,即

也就是按各層的層權(quán)進(jìn)行分配,即大的子總體多抽一些,小的子總體少抽一些。比例分配時(shí),也與層權(quán)成比例。簡(jiǎn)單隨機(jī)抽樣中總體的每一個(gè)單元入樣的概率即為抽樣比f。因而按比例分配而在各層中進(jìn)行簡(jiǎn)單隨機(jī)抽樣的分層方法,任何一層中的樣本被抽中的概率都為f。因此比例分配的分層隨機(jī)抽樣是一種等概率抽樣。或第七十五頁,共一百四十九頁。2023/5/1176

總體均值的估計(jì)是:

顯然估計(jì)量有相當(dāng)簡(jiǎn)單的形式。第七十六頁,共一百四十九頁。2023/5/1177自加權(quán):如果總體總量(或均值)的無偏估計(jì)量可以寫成樣本觀測(cè)值的總和(或平均數(shù))的常數(shù)倍(如:Y=ky或),那么這種樣本(或估計(jì)量)稱作自加權(quán)的或等加權(quán)的。按比例分配的分層抽樣就是自加權(quán)的。簡(jiǎn)單隨機(jī)抽樣(放回的和不放回的)也是自加權(quán)的。第七十七頁,共一百四十九頁。2023/5/1178的方差為:注意:是各層方差按層權(quán)的加權(quán)平均!第七十八頁,共一百四十九頁。2023/5/1179二.最優(yōu)分配(一)最優(yōu)分配在分層隨機(jī)抽樣中,在總費(fèi)用給定的條件下,估計(jì)量的方差達(dá)到最小;或在給定估計(jì)量方差的條件下,使總費(fèi)用最小的各層樣本量的分配稱為最優(yōu)分配(optimumallocation)。簡(jiǎn)單線性費(fèi)用函數(shù):第七十九頁,共一百四十九頁。2023/5/1180建立目標(biāo)函數(shù):根據(jù)柯西-許瓦茲(Cauchy-Schwarz)不等式,對(duì)于任意的,有通過極小化目標(biāo)函數(shù),可同時(shí)達(dá)到給定方差下費(fèi)用最小和給定費(fèi)用下方差最小的效果。第八十頁,共一百四十九頁。2023/5/1181當(dāng)且僅當(dāng)(K為常數(shù))時(shí),上式等號(hào)成立。所以對(duì)于目標(biāo)函數(shù)則有:上式成立的條件是:第八十一頁,共一百四十九頁。2023/5/1182所以則使目標(biāo)函數(shù)達(dá)到最小時(shí)的最優(yōu)分配為:第八十二頁,共一百四十九頁。2023/5/1183

上式表明,越大(即層越大),則層內(nèi)抽樣應(yīng)越多;又若越大(即層內(nèi)變差越大),則層內(nèi)抽樣也應(yīng)越多;但如果越大(即層內(nèi)平均每單元費(fèi)用越大),則在該層中的抽樣應(yīng)少一些。即最優(yōu)分配的與或成正比,與成反比。第八十三頁,共一百四十九頁。2023/5/1184

由此得出下面的行為準(zhǔn)則,如果某一層:?jiǎn)卧獢?shù)較多內(nèi)部差異較大費(fèi)用比較省則對(duì)這一層的樣本量分配較多些。第八十四頁,共一百四十九頁。2023/5/1185(二)Neyman(內(nèi)曼)分配條件:如果每層抽樣的費(fèi)用相同,即時(shí),最優(yōu)分配可簡(jiǎn)化為:將代入即得:第八十五頁,共一百四十九頁。2023/5/1186達(dá)到最小:

【例3.5】(續(xù)例3.1)p69如果樣本量為n=40,則按比例分配和Neyman分配,各層的樣本量應(yīng)為多少?

解:按比例分配時(shí),各層的樣本量為:即各層的樣本量分別為:3,6,11,20(公式計(jì)算結(jié)果如果帶小數(shù),這時(shí)樣本容量不按四舍五入法則取整數(shù),取比這個(gè)數(shù)大的最小整數(shù)代替。如:n=56.03則n=57)第八十六頁,共一百四十九頁。2023/5/1187按Neyman分配:第八十七頁,共一百四十九頁。2023/5/1188各層的樣本量為:即各層的樣本量分別為:3,7,23,7。第八十八頁,共一百四十九頁。2023/5/1189【例3.6】在例3.2中若固定n=550不變,城鎮(zhèn)居民與農(nóng)村居民年收入的標(biāo)準(zhǔn)差估計(jì)分別為元,元,對(duì)城鎮(zhèn)居民與農(nóng)村居民抽樣平均每戶的費(fèi)用比1:2,試求城鎮(zhèn)與農(nóng)村兩層比例分配與最優(yōu)分配的樣本量。又若不考慮費(fèi)用因素,那么最優(yōu)分配的結(jié)果又有何變化?如何計(jì)算呢?第八十九頁,共一百四十九頁。2023/5/1190解:

城鎮(zhèn)與農(nóng)村居民年收入調(diào)查樣本量分配的計(jì)算h12356000411.021484200.863250022157.51525.61719802568.51936.6第九十頁,共一百四十九頁。2023/5/1191(1)比例分配(2)最優(yōu)分配(3)內(nèi)曼分配

第九十一頁,共一百四十九頁。2023/5/1192

不考慮費(fèi)用的內(nèi)曼分配在農(nóng)村的樣本量比考慮費(fèi)用的最優(yōu)分配在農(nóng)村的樣本量更大。這是因?yàn)檗r(nóng)村調(diào)查費(fèi)用較高,因此最優(yōu)原則是適當(dāng)增加城鎮(zhèn)樣本量,減少農(nóng)村樣本量。第九十二頁,共一百四十九頁。2023/5/1193(三)某些層要求大于100%抽樣時(shí)的修正

按最優(yōu)分配時(shí),當(dāng)某些層的標(biāo)準(zhǔn)差特別大,而層的大小相對(duì)指定的總樣本量n又小很多,若加上對(duì)這些層抽樣的平均單位費(fèi)用又很低,而抽樣比f比較大,則可能出現(xiàn)按最優(yōu)分配計(jì)算的這個(gè)層的樣本量超過的情況。實(shí)際工作中,如果第k層出現(xiàn)這種情況,最優(yōu)分配是對(duì)這個(gè)層進(jìn)行100%的抽樣,即取,然后,將剩下的樣本量按最優(yōu)分配分到各層。第九十三頁,共一百四十九頁。2023/5/1194以不考慮費(fèi)用的內(nèi)曼分配為例,實(shí)際操作步驟如下:

第九十四頁,共一百四十九頁。2023/5/1195

在這種情況下,對(duì)于方差的一般公式,可以直接將修正后的最優(yōu)分配所得的帶入,而內(nèi)曼分配最小方差公式則需必要的調(diào)整:

其中,是僅對(duì)最后實(shí)際分配的樣本量嚴(yán)格小于的各層求和,也只是這些層中抽取的單元總數(shù)。修正的含義可理解為:因?yàn)閷?duì)于那些實(shí)施普查()的層來說,已經(jīng)不存在所謂的抽樣誤差了,自然需要從原來的公式中將它們舍去。第九十五頁,共一百四十九頁。2023/5/1196【例3.7】某個(gè)模擬的總體分為4層,和的值見下表,設(shè)n=80,請(qǐng)問該如何進(jìn)行內(nèi)曼分配?

一個(gè)模擬總體的分配情況h154002000210500500032001020004400208000合計(jì)615—17000第九十六頁,共一百四十九頁。2023/5/1197解:計(jì)算各層的樣本量:(1)第一層樣本量的分配:而,可見,則(2)將個(gè)待分配的樣本量分到2—4層:第九十七頁,共一百四十九頁。2023/5/1198而,可見,則(3)將個(gè)待分配的樣本量分到3、4層:因?yàn)?,,所以?)將個(gè)待分配的樣本量分到第4層:

第九十八頁,共一百四十九頁。2023/5/1199因?yàn)椋?,所以因此,各層所分配的樣本量是?/p>

5,10,13,52

此時(shí)上題計(jì)算總體均值估計(jì)量的最小方差為:對(duì)第三、四層計(jì)算第九十九頁,共一百四十九頁。2023/5/11100第五節(jié)總樣本量的確定

一.影響樣本總量n的因素

1.估計(jì)量精度的要求:(1)對(duì)總體參數(shù)估計(jì)的精度

(2)對(duì)各層參數(shù)估計(jì)的精度

2.費(fèi)用的限制

(1)總費(fèi)用的限制

(2)不同層中平均抽取一個(gè)單元的費(fèi)用

3.

層的劃分和層的樣本量的分配形式第一百頁,共一百四十九頁。2023/5/11101

由于估計(jì)量的精度實(shí)際上取決于每層樣本量的大小,因此在總樣本量給定的情況下,對(duì)層樣本量的不同分配,其精度也不同。反之對(duì)同一精度要求,對(duì)不同的樣本量分配形式,計(jì)算得到的總樣本量也有差異,因此在確定總樣本時(shí),要求先確定樣本量的分配形式。第一百零一頁,共一百四十九頁。2023/5/11102

二.估計(jì)總體均值情形1.一般公式令其中已經(jīng)選定,在調(diào)查的目標(biāo)是估計(jì)總體均值時(shí),當(dāng)給定方差V的上限或d時(shí),第一百零二頁,共一百四十九頁。2023/5/11103

如果估計(jì)精度是由誤差限的形式給出,則

這時(shí)上式可以表示為:

由上式可得:

第一百零三頁,共一百四十九頁。2023/5/11104(1)當(dāng)按比例分配時(shí),即則上式為:第一百零四頁,共一百四十九頁。2023/5/11105實(shí)際工作中,n的計(jì)算可以分兩步:

先計(jì)算,當(dāng)不能忽略不計(jì)時(shí),再計(jì)算:(2)當(dāng)按內(nèi)曼分配時(shí),即第一百零五頁,共一百四十九頁。2023/5/11106【例3.7】(續(xù)例3.1)

如果在95%置信度下,相對(duì)誤差不超過10%,則按比例分配和Neyman分配時(shí),總樣本量分別為多少?

解:按比例分配時(shí):第一百零六頁,共一百四十九頁。2023/5/11107第一百零七頁,共一百四十九頁。2023/5/11108對(duì)進(jìn)行修正得n:按Neyman分配時(shí):第一百零八頁,共一百四十九頁。2023/5/11109(3)最優(yōu)分配需要考慮費(fèi)用時(shí)簡(jiǎn)單線性函數(shù):C=將代入n的一般公式,得:第一百零九頁,共一百四十九頁。2023/5/11110當(dāng)總費(fèi)用C給定時(shí):(P92式3.139)第一百一十頁,共一百四十九頁。2023/5/11111第一百一十一頁,共一百四十九頁。2023/5/11112第六節(jié)分層時(shí)的若干問題

一.抽樣效果分析與簡(jiǎn)單隨機(jī)抽樣相比。分層隨機(jī)抽樣的精度與樣本量的分配及各層的方差有關(guān)。在固定樣本的情況下,如果相對(duì)1可以忽略,則分別為分層隨機(jī)抽樣最優(yōu)分配、分層隨機(jī)抽樣按比例分配、簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)單估計(jì)的方差。第一百一十二頁,共一百四十九頁。2023/5/11113

如果各層的均值差異越大,則用比例分配法較好,而當(dāng)各層的標(biāo)準(zhǔn)差較大時(shí),用最優(yōu)分配法較好。在調(diào)查多個(gè)目標(biāo)量時(shí),按比例分配的分層抽樣可能更好些。通常用比例分配法較多,因?yàn)椋海?)最優(yōu)分配并不是對(duì)每個(gè)指標(biāo)都是最優(yōu)的。(2)由于最優(yōu)分配時(shí)需對(duì)層標(biāo)準(zhǔn)差進(jìn)行估計(jì),估計(jì)又不可能十分精確,加上計(jì)算時(shí)樣本量必須取整數(shù),因此理論上的最優(yōu)分配的最小方差并不一定能達(dá)到。(3)而且當(dāng)實(shí)際分配偏離最優(yōu)分配時(shí),方差增加并不明顯??紤]到比例分配樣本的自加權(quán)性質(zhì)的簡(jiǎn)單性,除非層標(biāo)準(zhǔn)差異十分明顯從而考慮最優(yōu)分配有較大的改進(jìn),否則還是可以采用比例分配法。對(duì)于最優(yōu)分配,需要各層標(biāo)準(zhǔn)差Sh的值,可以用調(diào)查指標(biāo)的歷史數(shù)據(jù)或通過輔助指標(biāo)的信息推算。第一百一十三頁,共一百四十九頁。2023/5/111141.簡(jiǎn)單隨機(jī)抽樣與分層隨機(jī)抽樣的效果比較(1)與比例分配的分層隨機(jī)抽樣的效果比較前提:相同樣本量的情況下簡(jiǎn)單隨機(jī)抽樣(對(duì)均值估計(jì)量)的方差:

比例分配的分層隨機(jī)抽樣相應(yīng)估計(jì)量的方差:第一百一十四頁,共一百四十九頁。2023/5/11115根據(jù)總體單元指標(biāo)的平方和分解,簡(jiǎn)單隨機(jī)抽樣的方差分解如下:層內(nèi)方差層間方差第一百一十五頁,共一百四十九頁。2023/5/11116

故若所有的都比較大,則從而第一百一十六頁,共一百四十九頁。2023/5/11117

上式右邊的第二項(xiàng)是層間平方和,它一定是非負(fù)的,因此有

上式意味著,當(dāng)所有的都比較大時(shí),比例分配的分層隨機(jī)抽樣的方差小于簡(jiǎn)單隨機(jī)抽樣的方差,也就是說,比例分配分層隨機(jī)抽樣的精度比后者高,設(shè)計(jì)效應(yīng)小于1。第一百一十七頁,共一百四十九頁。2023/5/11118

方差差值為:

這表明層平均數(shù)的差異越大,分層的效果就越好,若層平均數(shù)都相等,那么分層的效果與不分層的一樣。事實(shí)上正因?yàn)閷娱g的這種變異不進(jìn)入分層隨機(jī)抽樣的方差,因此才有分層隨機(jī)抽樣精度高于簡(jiǎn)單隨機(jī)抽樣的結(jié)果。第一百一十八頁,共一百四十九頁。2023/5/11119(2)與最優(yōu)分配的分層隨機(jī)抽樣的比較按定義,最優(yōu)分配的精度應(yīng)高于相同樣本量的任何其他分配,當(dāng)然也高于比例分配的精度,但最優(yōu)分配在精度上的改進(jìn)究竟有多大?為此比較比例分配方差與最優(yōu)分配(內(nèi)曼情形)方差之差.第一百一十九頁,共一百四十九頁。2023/5/11120從上式可以看出,最優(yōu)分配在精度取決于各層標(biāo)準(zhǔn)差的差異,差異越大,最優(yōu)分配的效果越好,反之若各層間標(biāo)準(zhǔn)差(方差)差別不大,那么最優(yōu)分配的效果就不會(huì)比比例分配的效果好很多。第一百二十頁,共一百四十九頁。2023/5/11121

使用條件:

最優(yōu)分配:各層標(biāo)準(zhǔn)差差異大,尤其是調(diào)查多個(gè)目標(biāo)量時(shí)。比例分配:各層的均值差異大

二.層的劃分

基本原則:

使層內(nèi)差異盡可能小---各層有自己鮮明特色,使層間差異明顯地較大---各層之間有顯著不同。在多指標(biāo)問題中可采用聚類分析的手段進(jìn)行分層,在此我們考慮單指標(biāo)如何分層。第一百二十一頁,共一百四十九頁。2023/5/11122(一)最優(yōu)分層

目的不同,分層方法不同,構(gòu)造層的原則如下:1.若為了便于組織、估計(jì)子總體的參數(shù),則按自然層或單元的類型劃分。2.若是提高抽樣效率,減少估計(jì)量的方差,則按目標(biāo)量分層,但在調(diào)查之間目標(biāo)量是未知的,因此分層通常選擇一個(gè)與調(diào)查指較大線性相關(guān)的指標(biāo)來進(jìn)行。這個(gè)標(biāo)志可以是目標(biāo)量的前期值,也可以完全是另一個(gè)變量。第一百二十二頁,共一百四十九頁。2023/5/11123

如何利用一個(gè)分層標(biāo)志具體分層呢?實(shí)際上也就是說如何確定各層的分點(diǎn)。思路:

設(shè)總體分成h層,假定與分別為總體的最小與最大可能值。按數(shù)值分層即為在與之間插上(h-1)個(gè)分點(diǎn):

如果各層的抽樣分配方案已定,即設(shè)法求這些分點(diǎn)以使得達(dá)到最小。第一百二十三頁,共一百四十九頁。2023/5/11124

確定層界的快速近似法:累積平方根法:

由戴倫紐斯(Daleniues)與霍捷斯(Hodges)提出的根據(jù)等分分層變量分布的累積平方根的最優(yōu)分層方法,簡(jiǎn)稱累積平方根法。累積平方根法第一百二十四頁,共一百四十九頁。2023/5/11125【例3.9】某地區(qū)電信部門在對(duì)利用電話上網(wǎng)的居民家庭安裝ADSL意愿進(jìn)行調(diào)查時(shí),以轄區(qū)內(nèi)最近三個(gè)月有電話上網(wǎng)支出的居民用戶為總體(上網(wǎng)電話費(fèi)為0.02元/分鐘),并準(zhǔn)備按上網(wǎng)電話支出(x)進(jìn)行分層,試確定各層的分點(diǎn)。第一百二十五頁,共一百四十九頁。2023/5/11126范圍x

頻數(shù)f累計(jì)0~565328255.5934255.59345~1089240298.7306554.324110~1536128190.0737744.397715~2077525278.43311022.83120~2562407249.81391272.64525~3024591156.81521429.4630~4024586221.74761651.20840~509582138.43411789.64250~6015761177.54441967.18660~708099127.27142094.45770~805676106.54582201.003不等距67813562034第一百二十六頁,共一百四十九頁。2023/5/1112780~90345383.102352284.10690~100425692.26052376.366100~1501246111.62442487.99150~20080089.442722577.433200~25036560.415232637.848250~30090302667.848300~3503518.708292686.557350~40057.0710682693.628400~4501210.954452704.582450以上78.36662712.949第一百二十七頁,共一百四十九頁。2023/5/11128

最終累計(jì)頻數(shù)是2712.949,如果取層數(shù)為4,則應(yīng)每隔分一層.因此應(yīng)該使得累計(jì)最接近678.237,1356.474,2034.712,即較合理的分層是:第一百二十八頁,共一百四十九頁。2023/5/11129(二)層數(shù)的確定

層數(shù)的增加能提高估計(jì)的精度,但當(dāng)層數(shù)增加到一定的時(shí)候,在精度上的收益將很??;若樣本量n已確定,由于每層至少必須抽取一個(gè)樣本單元,因此最多的層數(shù)為n,如果要給出估計(jì)量方差的無偏估計(jì),則每層至少2個(gè)樣本單元,那么層數(shù)不能超過n/2。分層時(shí)應(yīng)考慮:1.分層考慮精度的要求。

一般以目標(biāo)量作為分層指標(biāo),但未知,一般通過與高度相關(guān)的輔助指標(biāo)來進(jìn)行。根據(jù)研究,除非Y與X的相關(guān)系數(shù),層數(shù)一般不超過6為宜。2.分層考慮費(fèi)用。第一百二十九頁,共一百四十九頁。2023/5/11130三.事后分層(或抽樣后分層)

前面討論的分層抽樣是建立在抽樣之前總體已經(jīng)分好層,但有時(shí)這種事先分層會(huì)遇到較大困難,而我們又很想利用分層抽樣的優(yōu)勢(shì)之處,此時(shí)可以采用事后分層的方法。

適用情況:

沒有層的抽樣框,或總體特別大來不及事先分層,或幾個(gè)變量都適合于分層?;虼嬖跇O大(小)值。條件:

需知各層的大小或?qū)訖?quán)。不適合:層權(quán)與實(shí)際情況相差很大層權(quán):用近似層權(quán)進(jìn)行校正或重新抽樣

第一百三十頁,共一百四十九頁。2023/5/11131,則用估計(jì)量來替代先抽取一個(gè)樣本量n的簡(jiǎn)單隨機(jī)樣本,然后將樣本按某個(gè)特征進(jìn)行分層,落到第h層的單元數(shù)為樣本均值。式中第一百三十一頁,共一百四十九頁。2023/5/11132

當(dāng)固定且都大于零的條件下,落到各層的樣本可以看成是獨(dú)立地從各層中抽取的簡(jiǎn)單隨機(jī)樣本,這時(shí),事后分層估計(jì)量的方差為:

式中,

第一百三十二頁,共一百四十九頁。2023/5/11133

事后分層的合理性,即認(rèn)為既然簡(jiǎn)單隨機(jī)樣本是總體的一個(gè)惟妙惟肖地刻畫,那么按樣本特征所聚的類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論