整群抽樣很重要一_第1頁
整群抽樣很重要一_第2頁
整群抽樣很重要一_第3頁
整群抽樣很重要一_第4頁
整群抽樣很重要一_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、關(guān)于整群抽樣很重要的一第一張,PPT共七十九頁,創(chuàng)作于2022年6月第四章 整群抽樣教學(xué)目的 通過本章的教學(xué),使學(xué)生明確整群抽樣的定義與特點;掌握群規(guī)模相等時的估計與群規(guī)模不等時的估計方法;了解總體比例的估計 。重點與難點 本章的重點是群規(guī)模相等時的估計與群規(guī)模不等時的估計方法;難點是群規(guī)模相等時的估計與群規(guī)模不等時的估計方法。第二張,PPT共七十九頁,創(chuàng)作于2022年6月本章結(jié)構(gòu) 4.1 引言 4.2 群規(guī)模相等時的估計3. 4.3 群規(guī)模不等時的估計 4.4 總體比例的估計第三張,PPT共七十九頁,創(chuàng)作于2022年6月 假設(shè)省教育廳想了解西安中學(xué)生的體質(zhì)狀況,抽樣調(diào)查是既省錢又省時的辦法,

2、顯然西安地區(qū)的中學(xué)生均是總體的單元,從全體學(xué)生中隨機無放回地抽取若干樣本是理想的概率抽樣方法,但是編制全體中學(xué)生的抽樣框本身是件麻煩事,況且一個合理的有代表性的樣本一般應(yīng)該遍布全市,在對如此分散的中學(xué)生樣本逐個進行訪問,其工作量之大可想而知。一個方便的方法是在西安地區(qū)按學(xué)校抽樣,在抽得的幾所學(xué)校中對該校所有中學(xué)生進行普遍調(diào)查。這就是本章要講述的整群抽樣。第四張,PPT共七十九頁,創(chuàng)作于2022年6月 若總體可分為N個群(也稱為初級抽樣單元,用PSU表示),每個初級單元包含若干個次級單元(也稱二級抽樣單元,用SSU表示)。按照某種方式從總體中抽取n個初級單元,對這些單元中的所有二級單元全部進行調(diào)

3、查。這種抽樣方法稱為整群抽樣。第五張,PPT共七十九頁,創(chuàng)作于2022年6月黃色為總體藍(lán)色為樣本紅色為群白點為基本單元整群抽樣事例: 第六張,PPT共七十九頁,創(chuàng)作于2022年6月4.1 引言一、整群抽樣的定義與特點(一)定義 整群抽樣(cluster sampling)是將總體劃分為若干群,然后以群(cluster)為抽樣單元,從總體中隨機抽取一部分群,對中選群中的所有基本單元進行調(diào)查的一種抽樣技術(shù)。第七張,PPT共七十九頁,創(chuàng)作于2022年6月例如,對某城市居民進行生活水平調(diào)查,如果不是從全部城市住戶中直接抽選住戶進行調(diào)查,而是從城市全部居民委員會中隨機抽選若干居委會,對被抽中的居委會所有

4、住戶都進行調(diào)查,這就是整群抽樣。該城市的每一居委會就是一群。第八張,PPT共七十九頁,創(chuàng)作于2022年6月再如,對連續(xù)生產(chǎn)的企業(yè),每小時都抽選10分鐘生產(chǎn)的全部產(chǎn)品進行調(diào)查。那么,每10分鐘生產(chǎn)的全部產(chǎn)品就是一群。如果一天24小時連續(xù)生產(chǎn),生產(chǎn)的全部產(chǎn)品構(gòu)成總體,則總體有144群,樣本有24群。第九張,PPT共七十九頁,創(chuàng)作于2022年6月抽樣過程可以分為以下幾個步驟:總體R4R3R2R1R130分群R1R4R33R98R110抽樣樣本第十張,PPT共七十九頁,創(chuàng)作于2022年6月 在實際工作中,整群抽樣方法被廣泛采用。例如,在社會經(jīng)濟調(diào)查中的人口調(diào)查、家計調(diào)查、農(nóng)林牧業(yè)調(diào)查以及工業(yè)產(chǎn)品質(zhì)量檢

5、驗等等都經(jīng)常采用整群抽樣調(diào)查。第十一張,PPT共七十九頁,創(chuàng)作于2022年6月采用整群抽樣調(diào)查的原因有二: 其一是在某些情況下,往往由于不適合采用一個個地抽取樣本單位,不得不采用整群抽樣。例如,某些工業(yè)產(chǎn)品的質(zhì)量檢驗,事實上不能逐個抽取樣本單位來進行,只能在某一時間內(nèi),成批地抽取產(chǎn)品來檢驗。第十二張,PPT共七十九頁,創(chuàng)作于2022年6月 其二,即使抽樣調(diào)查能夠一個個地取樣,但由于經(jīng)濟的考慮也會選擇整群抽樣。例如,職工家庭生活水平調(diào)查中,如果不是以居委會為群進行整群抽樣調(diào)查,而是以居民戶為單位抽樣,這些被抽到的居民戶一般分散地居住,必然增加交通費、延長調(diào)查時間等。所以出于對工作時間、經(jīng)費等客觀

6、條件的考慮,也得采用整群抽樣調(diào)查。采用整群抽樣調(diào)查的原因有二:第十三張,PPT共七十九頁,創(chuàng)作于2022年6月(二)整群抽樣的特點 1、調(diào)查單位比較集中,進行調(diào)查比較方便,可以減少調(diào)查人員來往于調(diào)查單位之間的時間和費用。例如,在進行農(nóng)村居民戶收入情況調(diào)查時,在一個縣抽千分之五的村莊,對其所有居民戶進行調(diào)查,明顯地比從全縣直接抽千分之五的農(nóng)戶進行調(diào)查,更便于組織,節(jié)省人力、旅途往返時間及費用。第十四張,PPT共七十九頁,創(chuàng)作于2022年6月(二)整群抽樣的特點 2、設(shè)計和組織抽樣比較方便。例如,調(diào)查農(nóng)村居民住戶,不必列出農(nóng)村所有居民住戶的抽樣框,可以利用現(xiàn)成的行政區(qū)域,如縣、鄉(xiāng)、村,將農(nóng)村劃分為

7、若干群,這給抽樣設(shè)計方案帶來很大方便。尤其是對那些無法事先掌握總體單位情況的總體,采用整群抽樣更為合適。第十五張,PPT共七十九頁,創(chuàng)作于2022年6月 然而,整群抽樣由于調(diào)查單位只能集中在若干群上,而不能均勻分布在總體的各個部分,因此,它的精度比起簡單隨機抽樣來要低一些。第十六張,PPT共七十九頁,創(chuàng)作于2022年6月 例如,在一個有500個村莊、100000個農(nóng)戶的縣,抽取1的農(nóng)戶就是1000戶,而抽1的村莊則只有5個村莊,也許抽到的5個村莊農(nóng)戶多于1000,但由于樣本單位只集中在5個村莊,顯然不如在全縣范圍內(nèi)簡單隨機抽取1000戶分布均勻,代表性一般要差一些,抽樣誤差較大。第十七張,PP

8、T共七十九頁,創(chuàng)作于2022年6月 當(dāng)然我們可以通過多抽幾個群來彌補這一缺陷,但最關(guān)鍵的一條還是在于總體內(nèi)群的劃分。為了使整群抽樣的樣本具有一定的代表性,應(yīng)當(dāng)使群與群之間盡可能地差異小,而群內(nèi)單元之間的差異應(yīng)當(dāng)大(注意:這一點與分層抽樣中總體內(nèi)層的劃分有著極大的差別),這意味著每個群均具有足夠的代表性。如果劃分的群相互之間頗多相似之處,那么少量群的抽取足以提供良好的精度。一個總體劃分成多少個群,每個群的規(guī)模大小如何又是一個新問題,通常我們面臨的總體會有自然的初級單元,例如本章開頭所說的各所中學(xué)它們互相之間關(guān)于學(xué)生的體質(zhì)很相似,但在一個學(xué)校里每個學(xué)生之間有一定的差異。第十八張,PPT共七十九頁,

9、創(chuàng)作于2022年6月二、群的劃分(一)群的劃分 一類是根據(jù)行政或者是地域形成的群體,如學(xué)校、社區(qū)、企業(yè)等; 另一類就是調(diào)查人員人為的確定的。第十九張,PPT共七十九頁,創(chuàng)作于2022年6月(二)分群的原則:群內(nèi)差異盡可能大,群間差異盡可能小 當(dāng)總體劃分為若干個群以后,總體方差可以分為群間方差和群內(nèi)方差兩個部分,這兩個部分是此消彼長的關(guān)系。群間方差大,則群內(nèi)方差小;反之,群間方差小則群內(nèi)方差大。由于整群抽樣是對抽中群內(nèi)所有單元都進行調(diào)查,因此影響整群抽樣誤差大小的主要是群間方差。 可見,整群抽樣是和分層抽樣是針對不同總體結(jié)構(gòu)而提出的兩種不同的抽樣方式。 第二十張,PPT共七十九頁,創(chuàng)作于2022

10、年6月三、群的規(guī)模 群的規(guī)模是指組成群的單元的數(shù)量。在整群抽樣中,群的規(guī)模具有相當(dāng)?shù)撵`活性。群的規(guī)模大,估計的精度差但費用??;群的規(guī)模小,估計的精度比較高但費用大。在實踐中,群的規(guī)模大小,涉及很多因素:結(jié)構(gòu)、精度、費用、調(diào)查組織實施、管理等問題。 群的規(guī)模又有兩種情況:一是總體中的各個群規(guī)模相等;二是總體中各個群的規(guī)模不等。第二十一張,PPT共七十九頁,創(chuàng)作于2022年6月一、符號說明 N: 總體群數(shù)(PSU數(shù)) n: 樣本群數(shù) Yij: 總體第i群的第j單元數(shù)值 yij: 樣本中第i群的第j單元數(shù)值 Mi: 第i群規(guī)模(單元個數(shù),即SSU數(shù)量) 本節(jié)中,M1 M2 MN M 4.2 群規(guī)模大

11、小相等時的估計第二十二張,PPT共七十九頁,創(chuàng)作于2022年6月 4.2 群規(guī)模大小相等時的估計M0: 總體單位總數(shù)Yi: 總體中第i群的總值yi: 樣本中第i群的總值Y : 總體總值第二十三張,PPT共七十九頁,創(chuàng)作于2022年6月 : 總體中第i群的個體均值 : 樣本中第i群的個體均值 : 總體中的群總值的均值 : 樣本中的群總值的均值 4.2 群規(guī)模大小相等時的估計第二十四張,PPT共七十九頁,創(chuàng)作于2022年6月 : 總體中的個體均值 (各群Mi M ) : 樣本中的個體均值 (總體均值的估計) 4.2 群規(guī)模大小相等時的估計第二十五張,PPT共七十九頁,創(chuàng)作于2022年6月 : 總體

12、方差 : 總體群間方差 : 總體群內(nèi)方差 4.2 群規(guī)模大小相等時的估計第二十六張,PPT共七十九頁,創(chuàng)作于2022年6月 : 樣本方差 : 樣本群間方差 : 樣本群內(nèi)方差 4.2 群規(guī)模大小相等時的估計第二十七張,PPT共七十九頁,創(chuàng)作于2022年6月二、估計量1. 均值估計量SRS,群規(guī)模相同,均為M,則 的估計為:總值估計量 4.2 群規(guī)模大小相等時的估計第二十八張,PPT共七十九頁,創(chuàng)作于2022年6月 4.2 群規(guī)模大小相等時的估計2. 估計量 的性質(zhì) 性質(zhì)1: 是 的無偏估計,即因為是按簡單隨機方法抽取群,所以樣本群均值是總體群均值 的無偏估計,因而第二十九張,PPT共七十九頁,創(chuàng)

13、作于2022年6月性質(zhì)2: 的方差為 4.2 群規(guī)模大小相等時的估計第三十張,PPT共七十九頁,創(chuàng)作于2022年6月已知 ,又 故 4.2 群規(guī)模大小相等時的估計第三十一張,PPT共七十九頁,創(chuàng)作于2022年6月性質(zhì)3: 的樣本估計為 因為 是的 無偏估計,所以 是 的無偏估計 4.2 群規(guī)模大小相等時的估計第三十二張,PPT共七十九頁,創(chuàng)作于2022年6月總體總值據(jù)此,可直接推出其估計量及相應(yīng)的方差 4.2 群規(guī)模大小相等時的估計第三十三張,PPT共七十九頁,創(chuàng)作于2022年6月三、整群抽樣效率分析群內(nèi)相關(guān)系數(shù) 表達(dá)式為:上式中的分子為(P119) 4.2 群規(guī)模大小相等時的估計第三十四張,

14、PPT共七十九頁,創(chuàng)作于2022年6月上式中的分母為:故 又可寫為: 4.2 群規(guī)模大小相等時的估計第三十五張,PPT共七十九頁,創(chuàng)作于2022年6月事實上, 的方差可用群內(nèi)相關(guān)系數(shù)近似表示 4.2 群規(guī)模大小相等時的估計第三十六張,PPT共七十九頁,創(chuàng)作于2022年6月簡單隨機抽樣的方差公式為由此可計算出等群抽樣的設(shè)計效應(yīng)為 4.2 群規(guī)模大小相等時的估計第三十七張,PPT共七十九頁,創(chuàng)作于2022年6月整群抽樣的估計效率,與群內(nèi)相關(guān)系數(shù) 的關(guān)系密切 當(dāng) 1時,deffM 當(dāng) 0時,deff1 當(dāng) 為負(fù)時,deff1 的取值范圍是群內(nèi)方差為群內(nèi)方差與總體方差相等群間方差為 4.2 群規(guī)模大小

15、相等時的估計第三十八張,PPT共七十九頁,創(chuàng)作于2022年6月群內(nèi)相關(guān)系數(shù)也可由樣本統(tǒng)計量 估計例一 4.2 群規(guī)模大小相等時的估計第三十九張,PPT共七十九頁,創(chuàng)作于2022年6月當(dāng)N很大,而M相對于NM很小時, 第四十張,PPT共七十九頁,創(chuàng)作于2022年6月i 240,187,162,185,206,197,154,173 188.00 27.19 210,192,184,148,186,175,169,180 180.50 17.98 149,168,145,130,170,144,125,167 149.75 17.32 202,187,166,232,205,263,198,210

16、 207.88 29.17 210,285,308,198,264,275,183,231 244.25 45.20 394,256,192,280,267,334,216,289 278.50 63.87 192,121,172,165,152,224,195,241 182.75 38.77 230,205,187,176,212,253,189,240 211.50 27.48 274,208,195,307,264,258,210,309 253.13 44.52 232,187,150,182,175,212,169,222 191.13 28.29 342,294,267,309,

17、258,198,244,286 274.75 43.70 228,294,182,312,267,254,232,298 258.38 43.52 第四十一張,PPT共七十九頁,創(chuàng)作于2022年6月解:已知N510,n12,M8,fn/N=0.0235故 4.2 群規(guī)模大小相等時的估計第四十二張,PPT共七十九頁,創(chuàng)作于2022年6月 4.2 群規(guī)模大小相等時的估計于是 的置信度為95的置信區(qū)間為也即第四十三張,PPT共七十九頁,創(chuàng)作于2022年6月例2 由例1數(shù)據(jù),計算群內(nèi)相關(guān)系數(shù)與設(shè)計效應(yīng)解:由前已算出樣本群間方差 而群內(nèi)方差為 4.2 群規(guī)模大小相等時的估計第四十四張,PPT共七十九頁,

18、創(chuàng)作于2022年6月 4.2 群規(guī)模大小相等時的估計第四十五張,PPT共七十九頁,創(chuàng)作于2022年6月若 令為簡單隨機抽樣的樣本量則即可達(dá)到整群抽樣96戶樣本量相同的估計精度 4.2 群規(guī)模大小相等時的估計第四十六張,PPT共七十九頁,創(chuàng)作于2022年6月 4.3 群規(guī)模不等時的估計當(dāng)群Mi規(guī)模不等時,有不同的抽取方法和估計方法一、等概抽樣,簡單估計對總體均值 的估計為可以看出,此公式與上節(jié)(1)式同 的方差估計為第四十七張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計此法特點估計量 是有偏的操作簡便,易于掌握和使用適用條件,群之間的規(guī)模差異不大時 第四十八張,PPT共七十

19、九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計二、等概抽樣,加權(quán)估計思路:以群規(guī)模Mi為權(quán)數(shù),得到群總和yi, 進而求得群總和均值 ,再除以群 平均規(guī)模第四十九張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計估計公式為:若 未知,可用樣本群平均規(guī)模代替第五十張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計總體總量Y的估計為總量估計的另一公式為第五十一張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計估計量的方差為它的無偏估計為均值估計 的方差為第五十二張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計三、等概抽樣

20、,比率估計總體均值估計為這里輔助變量不是Xi而是群規(guī)模Mi總體總量估計為第五十三張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計估計量的方差分別是第五十四張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計 與 的樣本估計分別是第五十五張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計 第五十六張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計四、與群規(guī)模成比例不等概率抽樣估計按與Mi成比例的PPS抽樣每次第i群入選概率為根據(jù)漢森赫維茨估計量 和 是 和 的無偏估計第五十七張,PPT共七十九頁,創(chuàng)作于2022年6月4.3

21、群規(guī)模不等時的估計 估計量的方差為第五十八張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計五、案例分析 背景:某縣有33個鄉(xiāng),726個村,該年度某種作物總種植面積30525畝,現(xiàn)采用等概抽樣隨機抽出10個鄉(xiāng),要求估計全縣總產(chǎn)量,計算抽樣誤差。 調(diào)查資料如下:第五十九張,PPT共七十九頁,創(chuàng)作于2022年6月樣本鄉(xiāng)編號村莊數(shù) Mi作物總產(chǎn)量(鄉(xiāng)) yi(萬公斤)種植面積(鄉(xiāng)) xi(畝)123456789101518261420282119311722.022.830.221.725.331.226.020.533.823.68007801000700880110085080

22、012008301.46671.26671.16151.551.2651.11431.23811.0791.09031.3882合計 209 257.1 8940 第六十張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計分別采用幾種方法估計1. 等概抽樣,簡單估計第六十一張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計評價:方法雖簡單,卻是有偏估計。第六十二張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計2. 等概抽樣,加權(quán)估計第六十三張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計評價:雖是無偏估計量,但方差估計沒

23、有改觀。第六十四張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計3. 等概抽樣,比率估計評價:有偏,n較大時比較理想。第六十五張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計4. 其它輔助變量的估計 已知:種植面積X30525(畝) 用種植面積為輔助變量評價:和 相比, 更小,因而有更好的估計效果。選擇關(guān)系密切的輔助變量。第六十六張,PPT共七十九頁,創(chuàng)作于2022年6月例2 有下列資料分廠編號 職工人數(shù) Mi 累積區(qū)間123456781200450210086028401910390320011200120116501651375037514610461174507451936093619750975112950第六十七張,PPT共七十九頁,創(chuàng)作于2022年6月4.3 群規(guī)模不等時的估計n3,采用PPS抽樣,隨機抽取的3個數(shù)為02011,07972,10281。調(diào)查結(jié)果如下:第六十八張,PPT共七十九頁,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論