抽樣調(diào)查基本原理_第1頁(yè)
抽樣調(diào)查基本原理_第2頁(yè)
抽樣調(diào)查基本原理_第3頁(yè)
抽樣調(diào)查基本原理_第4頁(yè)
抽樣調(diào)查基本原理_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二章抽樣調(diào)查基本原理第一節(jié)有關(guān)基本概念一、總體總體也叫母體,它是所要認(rèn)識(shí)對(duì)象的全體,是具有同一性質(zhì)的許多單位的集合。組成總體的每個(gè)個(gè)體叫做單位??傮w可以是有限的, 也可以是無(wú)限的。如果總體中所包含個(gè)體的數(shù)目為有限多個(gè), 則該 總體就是有限總體,反之是無(wú)限總體??傮w也可區(qū)分成計(jì)量總體(由測(cè)量值組成的)和計(jì)數(shù)總 體(由品質(zhì)特征組成的)。在抽樣以前,必須根據(jù)實(shí)際情況把總體劃分成若干個(gè)互不重疊并且能組合成總體的部 分,每個(gè)部分稱(chēng)為一個(gè)抽樣單元,不論總體是否有限,總體中的抽樣單元數(shù)一定是有限的, 而且是已知的,因此說(shuō)抽樣調(diào)查的總體總是有限的。抽樣單元又有大小之分,一個(gè)大的抽樣單元可以分成若干個(gè)小的抽樣

2、單元,最小的抽樣單元就是每一個(gè)個(gè)體。如一項(xiàng)全國(guó)性的調(diào)查, 如果把省作為一級(jí)單元, 則可以把縣作為二級(jí)單元,鄉(xiāng)作為三級(jí)單元,村作為四級(jí)單元等等。又如在流動(dòng)人口抽樣中, 可以以居委會(huì)作為抽樣單元, 而在家計(jì)調(diào)查中,則以戶為抽樣單元??傮w應(yīng)具備同質(zhì)性、大量性和差異性的特征。在抽樣調(diào)查中,通常將反映總體數(shù)量特征 的綜合指標(biāo)稱(chēng)為總體參數(shù)。常見(jiàn)的總體參數(shù)主要有:1 .總體總和Y:例如全國(guó)人口數(shù)。Y=E yi =yi+y2+yN2 .總體均值Y :例如職工平均工資。Y =Y/N=E yi /N3 .總體比率R:是總體中兩個(gè)不同指標(biāo)的總和或均值的比值。如總收入與總支出之比。R=Y/X=Y / X4 .總體比例

3、P:是總體中具有某種特性的單元數(shù)目所占比重。如產(chǎn)品的合格率。二、樣本樣本是由從總體中所抽選出來(lái)的若干個(gè)抽樣單元組成的集合體。抽樣前,樣本是一個(gè)n維隨機(jī)變量,屬樣本空間;抽樣后,樣本是一個(gè)n元數(shù)組,是樣本空間的一個(gè)點(diǎn)。樣本是總體的縮影, 是總體的代表。抽樣的效果好不好, 依賴(lài)于樣本對(duì)總體是否有充分 的代表性。樣本的代表性愈強(qiáng),用樣本指標(biāo)對(duì)總體全面特征的推斷就愈精確,即推斷的誤差就愈??;反之,如果樣本的代表性愈弱,推斷的誤差就愈大,推斷結(jié)果就愈不可靠。如何增強(qiáng)樣本的代表性,使其能達(dá)到估計(jì)或推斷的預(yù)期效果,就必須分析影響樣本代表性的因素,以便加強(qiáng)控制。一般情況下,影響樣本代表性的因素有以下幾個(gè)方面:

4、(1)總體標(biāo)志值分布的離散程度。 若總體標(biāo)志值的分布很集中, 即平均離散程度(標(biāo)準(zhǔn)差) 很小,從中任抽部分單元做樣本,樣本特征很近似于總體特征,樣本的代表性就強(qiáng);反之, 如果標(biāo)志值的分布很分散, 即平均離散程度很大, 從中抽取樣本單元的隨機(jī)波動(dòng)也很大,必將影響樣本的代表性。(2)抽樣單元數(shù)的多少(或稱(chēng)樣本容量的大小)。抽樣單元數(shù)的多少,影響樣本對(duì)總體的 代表性。一般說(shuō)來(lái),樣本容量以大為好,但要根據(jù)實(shí)際情況,以掌握適度為宜,要在保證一 定可靠程度的情況下,盡可能滿足及時(shí)性和經(jīng)濟(jì)性的要求,取得好的效益。(3)抽樣方法。抽樣方法一般分為放回抽樣和不放回抽樣。放回抽樣也叫重置抽樣,或重復(fù)抽樣。它是在總

5、體N個(gè)單元中隨機(jī)抽取 n個(gè)單元時(shí),每次抽取一個(gè)單元進(jìn)行記錄后又放 回原來(lái)的總體,參加下一個(gè)單元的抽取,即下一個(gè)單元仍然在原來(lái)的全部抽樣單元中抽取, 依此類(lèi)推,直到抽足所需單元數(shù)為止,因而同一個(gè)抽樣單元有被重復(fù)抽中的可能。不放回抽樣也叫不重置抽樣,或不重復(fù)抽樣。它是在每次抽取一個(gè)新的單元之前,將已抽中的單元不再放回原來(lái)的總體,下一個(gè)單元的抽取在剩余的抽樣單元中進(jìn)行,依次類(lèi)推,直到抽足所需單元數(shù)為止,因而每個(gè)抽樣單元最多只能被抽中一次,不可能重復(fù)被抽中。放回抽樣與不放回抽樣相比,不放回抽樣的樣本代表性?xún)?yōu)于放回抽樣。因?yàn)榉呕爻闃又?,有些單位有被重?fù)抽取的可能,從而使樣本單元數(shù)在總體中的散布面縮小,樣

6、本的代表性減弱,故在實(shí)際工作中常采用不放回抽樣。有鑒于此,在本書(shū)以后內(nèi)容中,如沒(méi)有特別的聲明,則一般只涉及不放回抽樣。 理解了不放回抽樣的方法及有關(guān)內(nèi)容,也就容易理解和掌握放回抽樣的方法。以上三種影響因素中,第一個(gè)因素即離散程度的大小,是由事物內(nèi)部和外部聯(lián)系決定的, 是客觀性的因素,人們只能認(rèn)識(shí)了解,不能調(diào)節(jié)控制。第二、三兩因素是人們可以選擇和控制的,為主觀因素,只要掌握和控制了這兩個(gè)因素,在一定程度上,人們也就能控制樣本的 代表性,以期達(dá)到抽樣數(shù)目盡可能小,使估計(jì)和推斷結(jié)論達(dá)到預(yù)定的精確程度和可靠程度的要求。另外,等概率抽樣與不等概率抽樣相比,以不等概率抽樣的樣本代表性較等概率抽樣為好。一般

7、將反映樣本數(shù)量特征的綜合指標(biāo)稱(chēng)之為統(tǒng)計(jì)量。統(tǒng)計(jì)量是n元樣本的一個(gè)實(shí)值函數(shù),是一個(gè)隨機(jī)變量,統(tǒng)計(jì)量的一個(gè)具體取值即為統(tǒng)計(jì)值。主要的樣本統(tǒng)計(jì)量有:1 .樣本總和V:y=二 yi =yi+y2+y n2 .樣本均值V :V =y/n= Eyi /n3 .樣本比率r:r=y/x= y / x4 .樣本比例p:是樣本中具有某種特性的單元數(shù)目所占比重。三、必要樣本容量和樣本可能數(shù)目樣本中包含的抽樣單元個(gè)數(shù)稱(chēng)為樣本容量,又稱(chēng)樣本含量或樣本大小(后面還要進(jìn)一步討論關(guān)于必要樣本容量的問(wèn)題 )。總體中所含抽樣單元個(gè)數(shù)稱(chēng)為總體容量,樣本容量與總體 容量之比為抽樣比,用 f表示,即f=n/N。樣本可能數(shù)目則是在容量為

8、 N的總體中抽取容量為 n的樣本時(shí),所有可能被抽中的不同樣本的個(gè)數(shù)。用 A表示。當(dāng)N和n一定時(shí),A的多少與抽樣方法有關(guān),其計(jì)算方法列表如下:抽樣方法放回抽樣不放回抽樣考慮順序八a . nAN八f nAPNN!(N n)!不考慮順序A CnA C N n 1A CnN!n!(N n)!正確理解樣本可能數(shù)目的概念,對(duì)于準(zhǔn)確理解和把握抽樣誤差的計(jì)算、樣本統(tǒng)計(jì)量的抽樣分布、抽樣估計(jì)的優(yōu)良標(biāo)準(zhǔn)等一系列理論和方法問(wèn)題都有十分重要的幫助。四、抽樣框抽樣框是在抽樣前,為便于抽樣工作的組織,在可能條件下編制的用來(lái)進(jìn)行抽樣的、記錄或表明總體所有抽樣單元的框架,在抽樣框中,每個(gè)抽樣單元都被編上號(hào)碼。抽樣框可以是一份

9、清單(名單抽樣框)、一張地圖(區(qū)域抽樣框)。在與時(shí)間有關(guān)的調(diào)查中, 也可以按時(shí)間先后順序排列總體中的單元,這樣得到的抽樣框稱(chēng)為時(shí)序抽樣框。抽樣框是設(shè)計(jì)實(shí)施一個(gè)抽樣方案所必備的基礎(chǔ)資料,一旦某個(gè)單元被抽中,也需依抽樣框在實(shí)際中找到這個(gè)單元,從而實(shí)施調(diào)查。編制抽樣框是一個(gè)實(shí)際的、重要的問(wèn)題,因此必須要認(rèn)真對(duì)待。一般而言,如果總體中的每個(gè)元素在清單上分別只出現(xiàn)一次,且清單上又沒(méi)有總體以外的其他元素出現(xiàn),則該清單就是一個(gè)完備的抽樣框。在完備的抽樣框中,每個(gè)元素必須且只能同一個(gè)號(hào)碼對(duì)應(yīng)。但是, 在實(shí)際中,完備的抽樣框是很少見(jiàn)的, 我們常??赡鼙仨毷褂靡恍┯袊?yán)重缺陷的抽樣框,而又必須發(fā)現(xiàn)這些缺陷并加以補(bǔ)救

10、,在這一過(guò)程中,可以充分體現(xiàn)出抽樣的藝術(shù)性。常見(jiàn)的抽樣框問(wèn)題可以概括為四種基本類(lèi)型:(1)缺失一些元素,即抽樣框涵蓋不完全;(2)多個(gè)元素對(duì)應(yīng)一個(gè)號(hào)碼;(3)空白(一些號(hào)碼沒(méi)有與之對(duì)應(yīng)的元素 )或存在異類(lèi)元素;(4) 重復(fù)號(hào)碼,即一個(gè)元素對(duì)應(yīng)多個(gè)號(hào)碼。抽樣框存在缺陷時(shí),我們首先想到的是如何去避免上述問(wèn)題:如果已知由這此問(wèn)題引起的誤差比其他原因產(chǎn)生的誤差小,并且糾正起來(lái)又花費(fèi)太大的話,可以忽略不管,但在描述樣本時(shí),應(yīng)對(duì)此加以說(shuō)明;重新定義總體以適應(yīng)抽樣框;改正整個(gè)總體清單,也即找出全部缺失元素、分開(kāi)每一個(gè)群、清除所有的空白和異類(lèi)元素、刪掉重復(fù)號(hào)碼。當(dāng)上述方法 不能有效利用時(shí),就應(yīng)該采取其它一些補(bǔ)

11、救措施來(lái)抵消抽樣框中存在的缺陷。對(duì)此問(wèn)題的進(jìn)一步討論將在第十一章進(jìn)行。第二節(jié)樣本統(tǒng)計(jì)量的抽樣分布標(biāo)準(zhǔn)的統(tǒng)計(jì)問(wèn)題為:總體未知,故需從總體中抽取一個(gè)較小的、花費(fèi)不多的隨機(jī)樣本, 然后構(gòu)造樣本統(tǒng)計(jì)量,并以其估計(jì)總體。問(wèn)題是用樣本指標(biāo)估計(jì)總體指標(biāo)的可靠程度如何 為此要研究樣本統(tǒng)計(jì)量的抽樣分布。在此之前,有必要先回顧一下有關(guān)正態(tài)分布的知識(shí)。、正態(tài)分布如果總體各個(gè)體的標(biāo)志值以總體平均數(shù)為中心,形成鐘型對(duì)稱(chēng)分布,其分布曲線向兩側(cè)擴(kuò)展,逐漸向橫軸逼近,無(wú)限延伸出去,但不接觸橫軸,則這種分布就叫做正態(tài)分布,或高 斯分布、常態(tài)分布。服從正態(tài)分布的總體稱(chēng)為正態(tài)總體。正態(tài)分布是由德國(guó)數(shù)學(xué)家高斯 (Carl Fried

12、rich Gauss 17771855)首先發(fā)現(xiàn)的,故此得名。一個(gè)正態(tài)分布完全由總體的理論平均數(shù)和理論方差這兩個(gè)參數(shù)所決定。其數(shù)學(xué)特征為:如果一個(gè)隨機(jī)變量 X服從正態(tài)分布,則其分布的密度函數(shù)(分布曲線方程)為:/1 x 21,2( )f (x) e= e, ( -<x< )2式中:和(T2.7183。當(dāng)=0,(r2=1時(shí),稱(chēng)該分布為標(biāo)準(zhǔn)正態(tài)分布。標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)為1I2f(x)甲e2,(-<x< )我們知道,全部可能事件發(fā)生的概率之和等于 積表明著全部可能的事件,因此,分布曲線下1。代表各個(gè)體事物分布的正態(tài)曲線內(nèi)面x軸以上的面積總保持為1,也即2分別為隨機(jī)變量 X

13、的數(shù)學(xué)期望和方差,兀 3.1416 , e為自然對(duì)數(shù)的底,e-f(x)dx 1因此,當(dāng)b不相同時(shí),f(x)的形狀也不相同,b愈小,分布就愈集中在X附近,b愈大,分布就愈平坦。利用正態(tài)曲線的數(shù)學(xué)性質(zhì),依平均數(shù)與標(biāo)準(zhǔn)差,可以計(jì)算出平均數(shù)與某一數(shù)值之間的面積,如圖2.1中由a到b的面積為:b F(x) f (x)dx a任何正態(tài)分布,它的木本落在任意區(qū)間(a,b)內(nèi)的概率等于直線 x=a, x=b,橫坐標(biāo)和曲線f(x)所夾的面積(可由正態(tài)分布概率積分表查得 )。經(jīng)計(jì)算,正態(tài)總體的樣本落在:(X-* X + b)概率是 68.27 %;( X-2 d , X+2(7)概率是 95.45 %;(X-3(

14、T , X+3d )概率是 99.73 %;( X-1.96 d , X +1.96 b)概率是 95%;正態(tài)分布的應(yīng)用范圍很廣,是最常見(jiàn)、最重要的分布,居于基礎(chǔ)的地位。在生產(chǎn)實(shí)踐和 科學(xué)研究中,凡是處于控制狀態(tài)的數(shù)據(jù)和測(cè)定隨機(jī)誤差的分布,大多是近似地服從正態(tài)分布的。所以正態(tài)分布的理論對(duì)開(kāi)展社會(huì)經(jīng)濟(jì)調(diào)查和科學(xué)研究具有十分重大的意義。二、抽樣分布如前所述,在容量為 N的總體中,抽取容量為 n的樣本時(shí),可能抽到的樣本不止一個(gè)。 對(duì)每一個(gè)可能的樣本,都可獲得統(tǒng)計(jì)量 y、p和s等的一個(gè)具體數(shù)值。可見(jiàn),樣本統(tǒng)計(jì)量是 個(gè)隨機(jī)變量。我們把根據(jù)所有可能樣本計(jì)算出來(lái)的某一統(tǒng)計(jì)量的數(shù)值分布,稱(chēng)為抽樣分布。抽樣分布

15、理論是理解抽樣調(diào)查基本原理的基礎(chǔ)。 常見(jiàn)的抽樣分布有極限分布和精確分布兩類(lèi)。極限分布也叫做大樣本分布, 它只有正態(tài)分布一種形式; 精確分布又叫做小樣本分布, 其前提是總 體服從正態(tài)分布,它是正態(tài)分布的導(dǎo)出分布,包括有 t分布、F分布和x 2分布等形式。(一)樣本統(tǒng)計(jì)量的極限分布樣本統(tǒng)計(jì)量有很多,這里只考察關(guān)于樣本均值和樣本比例的抽樣分布。例2.1 :現(xiàn)從正態(tài)分布總體 YN(100,625)中抽取容量為n=5的所有可能樣本,經(jīng)計(jì)算 得知樣本平均數(shù)的分布為yN(100,125)。當(dāng)n=20時(shí),樣本平均數(shù)的分布為yN(100,31.25)。一般地,可以證明如果總體服從正態(tài)分布,且總體均值和方差均為已

16、知,即YN(p,一),則不論樣本量大小如何,樣本均值均圍繞總體均值而服從正態(tài)分布,并且其抽樣分布 的方差等于總體方差的 n分之一,即yN(小。2/n)。而對(duì)于非正態(tài)總體, 若均值科和b 2有限,則根據(jù)中心極限定理,當(dāng)樣本量n充分大時(shí),樣本均值仍然圍繞著總體均值而近似地服從正態(tài)分布,即 yN( - b 2/n)。例2.2 :總體N=5,Y= 40, 50, 60, 70, 80,則其次數(shù)分布為:Y | 40 50 60 70 80f 1 1 1 1 1用圖形表示則為:若取n=2,用放回抽樣則可抽 M=52=25個(gè)簡(jiǎn)單隨機(jī)樣本,其樣本均值如下:y240 50 60 70 80y14040 45 5

17、0 55 605045 50 55 60 656050 55 60 65 707055 60 65 70 758060 65 70 75 80進(jìn)一步整理后,即可得出關(guān)于樣本均值y的次數(shù)分布情況為:40 45 50 55 60 65 70 75 801 2 3 4 5 4 3 2 1y f 用圖形表示,則為:(Ey=60, Dy=i00,可見(jiàn) y n(60, 100)如果總體容量較大,則當(dāng)樣本容量逐步擴(kuò)大時(shí),樣本平均數(shù)的分布趨于正態(tài)分布的趨勢(shì) 更加明顯。上面的結(jié)論在樣本比例的抽樣分布中同木¥成立。即對(duì)任意一個(gè)成數(shù)為p的二項(xiàng)分布總體,當(dāng)n足夠大(np>5,n(1-p)>5)時(shí)

18、,則樣本成數(shù) P趨于服從正態(tài)分布,其平均數(shù)為p,方差為 MPl o因此,標(biāo)準(zhǔn)隨機(jī)變量 z j P p趨于服從標(biāo)準(zhǔn)正態(tài)分布。np(1 p), n(二)樣本統(tǒng)計(jì)量的精確分布2 ,1、X分布設(shè)隨機(jī)變量 YN(0,1)(i=1,2,,n),且相互獨(dú)立,則Y也Y2i服從自由度為n的/分布,記作Yx 2(n)。X 2分布的概率密度函數(shù)為式中n是正整數(shù),r (n/2)f(x)0,1n22y 0y2, y0是r (伽馬)函數(shù)(y)0 etty 1dt(y 0)當(dāng)y=n/2時(shí)的函數(shù)值。X 2分布的主要性質(zhì)有: 增大而逐漸趨于正態(tài)分布??梢宰C明,x 2分布xf(y)恒為正;x 2分布呈右偏形態(tài);2分布隨n的不斷2

19、(n)的數(shù)學(xué)期望和方差分別為EY=n, DY=2n.2、t分布若 XN(0, 1), 丫x2(n),且X與Y相互獨(dú)立,則稱(chēng)隨機(jī)變量T Un服從自由度為n的t分布, 由此也可以推論出關(guān)于記作:Tt(n)。t分布的如下定義方式:若(T2)(T2未知,則服從自由度為n-1的t分布,記作:T t(n-1),其中:S2(XiX)2。t分布t(n)的概率密度函數(shù)為f(t)(囁.n (n(1t分布具有如下性質(zhì):t分布對(duì)稱(chēng)于縱軸,與N(0,1)相似;在n<30(小樣本)時(shí),t分布的方差大于 N(0, 1)的方差;在n> 30(大樣本)時(shí),t分布隨n的增大而趨于N(0 , 1)??梢宰C明,t分布t(

20、n)的數(shù)學(xué)期望與方差分別為ET=0, DT=n/(n-2).(n>2)3、F分布若Xx 2(n 1) , 丫x 2(n 2),且X與丫相互獨(dú)立,則稱(chēng)隨機(jī)變量X /n1 X n2F LY/n2 Y n1服從第一自由度為 Q,第二自由度為n2的F分布,記作:FF(n1,n2)。如果XF(n1,n2),則其概率密度函數(shù)為0,尸n2()nini n2f(x) 2(上)(工 x)L(1 n1x)k,x0尸 n2、n2 n2n2(萬(wàn))JF分布的主要性質(zhì)有: F分布呈右偏態(tài);f(x)恒為正;在F0乜一2處n1n22取最大值(ni>2, fovi);隨ni,n2的不斷增大,F(xiàn)分布的右偏程度逐漸減弱

21、,但不會(huì)趨向 正態(tài);具有倒數(shù)性質(zhì),即若XF(ni,n2),則1/XF(ni,n2);若tt(n),則t2(n)F(1,n)。若XF(ni,n2),則其數(shù)學(xué)期望和方差分別為2n22n2(ni也 2)EX , DX ;. (n2 4)n2 2n(n2 2) n 4)第三節(jié)抽樣誤差一、抽樣調(diào)查中的誤差來(lái)源誤差就是調(diào)查結(jié)果與現(xiàn)象的實(shí)際結(jié)果之間的偏差, 它幾乎在所有的統(tǒng)計(jì)調(diào)查中都或大或 小的存在著。在抽樣調(diào)查中,按照形成原因的不同, 一般可將誤差分成抽樣誤差和非抽樣誤 差兩大類(lèi)。抽樣誤差是用樣本統(tǒng)計(jì)量推斷總體參數(shù)時(shí)的誤差,它屬于一種代表性誤差。抽樣調(diào)查是用樣本來(lái)估計(jì)總體,對(duì)任何一種抽樣方案, 可能的樣本

22、會(huì)有許多, 而實(shí)際抽到的只是其中的 一個(gè)樣本,在概率抽樣中,哪個(gè)樣本會(huì)被抽到完全是隨機(jī)的,抽到的樣本不同,則對(duì)總體的估計(jì)就可能不同,這就是抽樣誤差產(chǎn)生的根本原因。因此,在抽樣調(diào)查中抽樣誤差是不可避免的。但同非抽樣誤差不同的是,抽樣誤差可以計(jì)算,并且可以被控制在任意小的范圍內(nèi)。抽樣誤差通常會(huì)隨樣本量的大小而增減。在某些情形下,抽樣誤差與樣本量大小的平方根成反比關(guān)系,即在開(kāi)始階段抽樣誤差隨樣本量的增加而迅速減少,但在一定階段后,這種趨勢(shì)便趨于穩(wěn)定。這表明,在經(jīng)過(guò)一定階段后,再努力減少抽樣誤差通常是不合算的。所以過(guò)了這個(gè)階段只要稍微降低一點(diǎn)精度,就可以省下可觀的費(fèi)用。 普查的目的不過(guò)是想使抽樣誤差降

23、低為零,要是允許存在誤差,當(dāng)然就值得用抽樣調(diào)查。另外,影響抽樣誤差的因素還有:所研究現(xiàn)象總體變異程度的大小,一般而言,總體變 異程度越大,則抽樣誤差可能越大;抽樣的方式方法,如放回抽樣的誤差大于不放回抽樣, 各種不同的抽樣組織方式也常會(huì)有不同的抽樣誤差。在實(shí)際工作中,樣本量和抽樣方式方法的影響是可以控制的, 總體變異程度雖不可以控制, 但卻可通過(guò)設(shè)計(jì)一些復(fù)雜的抽樣技術(shù)而 將其影響加以控制。非抽樣誤差不是由于抽樣引起的。它又包括調(diào)查誤差、 無(wú)回答誤差、抽樣框誤差以及登記性誤差。它在各種統(tǒng)計(jì)調(diào)查中都可能會(huì)存在。調(diào)查誤差是調(diào)查所得的觀測(cè)值與被調(diào)查單元真值不一致所造成的誤差。 造成這類(lèi)誤差的原因可能是

24、測(cè)量手段 (或儀器)不完善,也可能是 被調(diào)查者記憶不準(zhǔn)確, 或?qū)λ{(diào)查內(nèi)容缺乏全面了解或不愿意如實(shí)回答等。無(wú)回答誤差是因樣本中的一部分單元或一部分項(xiàng)目的資料沒(méi)有調(diào)查到,致使實(shí)際樣本較設(shè)計(jì)樣本縮小而引起的誤差。其產(chǎn)生原因有被調(diào)查者拒絕回答問(wèn)題,或者正好缺乏所需要的信息,或者找不到被抽中的單元等。抽樣框誤差是由于抽樣框不完善所造所的誤差。抽樣框不完善具體表現(xiàn)為存在著抽樣單元的重復(fù)或遺漏,這會(huì)破壞抽樣的隨機(jī)性。 登記性誤差是在觀測(cè)數(shù)據(jù)的填寫(xiě)、計(jì)算機(jī)數(shù)據(jù)錄入、 傳輸、計(jì)算等環(huán)節(jié)的差錯(cuò)引起的誤差。非抽樣誤差的控制, 須經(jīng)過(guò)改進(jìn)抽查表的設(shè)計(jì)或測(cè)試方式, 嚴(yán)密組織調(diào)查, 提高調(diào)查員的素質(zhì), 以及加強(qiáng)調(diào)查整理

25、等各環(huán)節(jié)的質(zhì)量檢查監(jiān)督,或設(shè)計(jì)特殊調(diào)查方式進(jìn)行處理,才能見(jiàn)效。具體的論述見(jiàn)后面有關(guān)章節(jié)。同抽樣誤差相反, 非抽樣誤差是隨著樣本量的增加而增大的。 由于抽樣調(diào)查的訪問(wèn)和資料整理都比普查更便于進(jìn)行, 因此非抽樣誤差也遠(yuǎn)遠(yuǎn)小于普查。 有時(shí), 普查中的非抽樣誤差甚至大于抽樣調(diào)查中抽樣誤差與非抽樣誤差的總和。二、抽樣誤差的計(jì)算由于從一個(gè)總體中抽取容量為 n 的樣本時(shí),有多種可能的結(jié)果,所以樣本指標(biāo)是隨機(jī)變量,而總體指標(biāo)是唯一確定的常量,故抽樣誤差也是一個(gè)隨機(jī)變量。設(shè)9為總體的某個(gè)待估參數(shù),?是通過(guò)樣本資料計(jì)算而得到的關(guān)于9的估計(jì)量,則估計(jì)的實(shí)際誤差為?- 8 ,由于8是未知,故?-8是未知的。這表明根據(jù)

26、某一個(gè)確定的樣本,無(wú)法確定抽樣誤差的大小,因此,關(guān)于抽樣誤差的計(jì)算, 是建立在誤差分布理論基礎(chǔ)上,從統(tǒng)計(jì)平均意義角度來(lái)考慮的。 因?yàn)椋?對(duì)一個(gè)確定的總體按同一種抽樣方法可能得到一系列不同的樣本,對(duì)每一個(gè)樣本都會(huì)有一個(gè)估計(jì)的實(shí)際誤差?-8 ,因此,抽樣誤差可以用所有這些可能的實(shí)際誤差的均方誤差表示。也即將抽樣誤差表示為MSE( ?)E( ?)2其中MSE( ?)為估計(jì)量.的均方誤差。由于 9未知,所以在通常情況下,MSE( ?)仍然是未知的。但MSE ( ?) 可以分解成:MSE( ?)E(?)2 E ? E( ?)E(?)2E ? E(?)2EE?)2 2E(?)E ? E( ?)E ? E(

27、?)2EE(?)2式中第一項(xiàng)是估計(jì)量?的方差, 記作 V ( ?) 。 V ( ?) 的平方根稱(chēng)為估計(jì)量?的標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)差,記作S( ?) 。 S( ?) 與 E( ?) 之比稱(chēng)為估計(jì)量的變異系數(shù),記為 C( ?) 。式中第二項(xiàng)是估計(jì)量?的偏倚B( ?) 的平方 (即 B( ?) E( ?) 。一般情況下, 均方誤差說(shuō)明了估計(jì)量的準(zhǔn)確性, 而估計(jì)量的方差則表明了其估計(jì)結(jié)果的精確性。 通常將精確度定義為估計(jì)量方差的倒數(shù), 而將準(zhǔn)確度定義為估計(jì)量均方誤差的倒數(shù)。當(dāng)偏倚B( ?)為零時(shí),稱(chēng)?為9的無(wú)偏估計(jì)量。此時(shí),?的方差就等于它的均方誤差,即V( ?)MSE( ?)如果?隨樣本容量n的增大趨近于

28、0 ,則稱(chēng)?為0的一致估計(jì)。需要說(shuō)明的是:上面所給出的V(?)的計(jì)算公式仍然屬于一個(gè)理論公式或叫作定義公式,在實(shí)際中是無(wú)法直接應(yīng)用的。因此,實(shí)際中計(jì)算 V( ?)是依據(jù)調(diào)查變量的總體方差(T2進(jìn)行的,當(dāng)”未知時(shí),一般用樣本方差s2代替,以對(duì)V(?)做出估計(jì)。有偏的估計(jì)并非都是不可用的, 有時(shí)有偏估計(jì)量在某些方面反而比無(wú)偏估計(jì)量更好。 有研究認(rèn)為, 在實(shí)踐中當(dāng)偏倚小于標(biāo)準(zhǔn)誤的十分之一時(shí),偏倚對(duì)估計(jì)量準(zhǔn)確度的影響可以忽略不計(jì)。第四節(jié) 抽樣估計(jì)要達(dá)到對(duì)總體的正確認(rèn)識(shí), 樣本的充分代表性和樣本資料的準(zhǔn)確性都是必要的前提, 然而從樣本到總體的估計(jì)方法在這里卻居于突出的重要地位。 抽樣估計(jì)就是以樣本的實(shí)際

29、資料為依據(jù), 計(jì)算一定的樣本統(tǒng)計(jì)量, 并按照一定的方法對(duì)總體參數(shù)作出估計(jì)和推斷。 這也是抽樣調(diào)查的目的之所在。一、抽樣估計(jì)的特點(diǎn)第一 , 抽樣估計(jì)在邏輯上運(yùn)用的是歸納推理而不是演繹推理。演繹推理是在封閉的系統(tǒng)中從一般性命題導(dǎo)出特殊結(jié)論的邏輯方法, 其結(jié)論的正確性已全部包含在前提的正確性之中。 如在本章第二節(jié)中, 我們從一個(gè)已知總體開(kāi)始, 討論樣本具有怎么樣的性質(zhì),樣本統(tǒng)計(jì)量是如何接近總體參數(shù)的,這就是運(yùn)用了演繹推理的方法。歸納推理與之正好相反, 它是在開(kāi)放的系統(tǒng)中, 從研究個(gè)別命題達(dá)到一般性的結(jié)論。 其前提正確不一定就能得出正確的結(jié)論, 結(jié)論的正確性還決定于前提以外的許多事實(shí), 所以結(jié)論必須經(jīng)

30、過(guò)事實(shí)驗(yàn)證。統(tǒng)計(jì)的認(rèn)識(shí)過(guò)程正是從對(duì)大量個(gè)別事件的認(rèn)識(shí)上升到現(xiàn)象總體的認(rèn)識(shí)。 本節(jié)將要討論的抽樣估計(jì)即是從抽取的一個(gè)已知樣本出發(fā), 對(duì)被抽樣未知總體推斷出一般結(jié)論,所采用的是歸納推理法。第二 , 抽樣估計(jì)在方法上運(yùn)用不確定的概率估計(jì)法而不是運(yùn)用確定的數(shù)學(xué)分析法。雖然抽樣估計(jì)也是利用一定的樣本數(shù)據(jù)來(lái)推論總體的數(shù)量特征, 但由于樣本數(shù)據(jù)和總體數(shù)量特征之間并不存在嚴(yán)格對(duì)應(yīng)的自變量和因變量的關(guān)系, 因此, 不可能運(yùn)用數(shù)學(xué)函數(shù)關(guān)系建立一定的數(shù)學(xué)模型, 用輸入樣本的具體觀察值來(lái)推算總體特征值。 抽樣估計(jì)原則上把由樣本觀察值所決定的統(tǒng)計(jì)量看作是隨機(jī)事件。 在實(shí)踐中, 抽取一個(gè)樣本, 并計(jì)算出相應(yīng)的樣本指標(biāo),接

31、著需研究的問(wèn)題便是用這一樣本指標(biāo)來(lái)代表相應(yīng)的總體指標(biāo)的可靠程度究竟有多大, 這就是概率估計(jì)所要解決的。 如果說(shuō)歸納推理不保證從正確的前提一定得到正確的結(jié)論,只肯定從正確的前提得到的結(jié)論有一定程度的可靠性, 那么概率估計(jì)就是要具體確定這個(gè)一定程度的可靠性是多大。第三 , 抽樣估計(jì)的結(jié)論存在著一定程度的抽樣誤差。如前所述, 抽樣誤差指是由隨機(jī)抽樣中偶然性因素的影響, 使得樣本指標(biāo)和總體指標(biāo)間存在的某種程度的離差。 這種誤差是抽樣估計(jì)所固有的, 不可避免。 抽樣估計(jì)結(jié)論的可靠程度總是和一定的抽樣誤差聯(lián)系在一起的。 通常情況下, 總是指出樣本指標(biāo)和總體指標(biāo)的誤差在一定范圍內(nèi)的概率保證程度。二、抽樣估計(jì)

32、的方法抽樣估計(jì)的方法多種多樣。 如果以估計(jì)中所依據(jù)的資料不同來(lái)區(qū)分, 一般可以有簡(jiǎn)單估計(jì)、 比估計(jì)和回歸估計(jì)等三種方法。 簡(jiǎn)單估計(jì)是單純依靠樣本調(diào)查變量的資料估計(jì)總體參數(shù),其估計(jì)結(jié)果稱(chēng)為簡(jiǎn)單估計(jì)量; 比估計(jì)和回歸估計(jì)是同時(shí)依據(jù)樣本調(diào)查變量以及已知的有關(guān)輔助變量的資料來(lái)對(duì)總體參數(shù)做出估計(jì), 其結(jié)果分別稱(chēng)為比估計(jì)量和回歸估計(jì)量。 簡(jiǎn)單估計(jì)是最簡(jiǎn)單、 最基本的一種估計(jì)方法, 在實(shí)際中應(yīng)用也最為廣泛。 后面各章節(jié)所討論的估計(jì)量若沒(méi)有特別的說(shuō)明一般都是指簡(jiǎn)單估計(jì)量。 同簡(jiǎn)單估計(jì)相比, 比估計(jì)和回歸估計(jì)比較復(fù)雜, 但在某些情況下,其估計(jì)的效果卻比較好。關(guān)于比估計(jì)和回歸估計(jì)將在第五章作進(jìn)一步討論。如果以估計(jì)

33、結(jié)果的表示方式來(lái)區(qū)分,則抽樣估計(jì)可以有兩種形式,即定值估計(jì)和區(qū)間估計(jì)。定值估計(jì)是指給所要估計(jì)的總體參數(shù)只給出一個(gè)明確的點(diǎn)估計(jì)值,同時(shí)確定出估計(jì)結(jié)果的誤差(一般用方差V( ?)來(lái)表示)。區(qū)間估計(jì)則是在一定的概率保證程度(置信度)之下,根據(jù)允許的最大絕對(duì)誤差范圍 (一般稱(chēng)之為抽樣極限誤差,記作A,它常以抽樣標(biāo)準(zhǔn)誤差為標(biāo)準(zhǔn)單位來(lái)計(jì)量,即A e=KS( ?),其中K稱(chēng)之為概率度,其值同置信度的大小有關(guān),可通過(guò)查相關(guān)的概率積分表求得。),確定出一個(gè)以點(diǎn)估計(jì)值?為中心的區(qū)間作為總體待估參數(shù)0的估計(jì)區(qū)間(也稱(chēng)為置信區(qū)間)。可見(jiàn)在區(qū)間估計(jì)中,不但要考慮抽樣誤差的可能范圍有多大,而且還必須考慮落到這一范圍的概率

34、是多少。前者是估計(jì)的準(zhǔn)確性問(wèn)題,后者是估計(jì)的可靠性問(wèn)題,兩者既相互矛盾又密不可分。計(jì)算可靠性的依據(jù)是樣本統(tǒng)計(jì)量的抽樣分布理論。在實(shí)際問(wèn)題的研究中常常需要在估計(jì)的準(zhǔn)確性和可靠性之間進(jìn)行協(xié)調(diào),一般是先確定其中的一個(gè),然后再推算出另外一個(gè)。 三、置信區(qū)間在抽樣估計(jì)中,是用樣本統(tǒng)計(jì)量來(lái)推斷對(duì)應(yīng)的總體參數(shù), 根據(jù)前面第二節(jié)的分析, 樣本 統(tǒng)計(jì)量的極限分布呈正態(tài), 而在社會(huì)經(jīng)濟(jì)現(xiàn)象的抽樣研究中, 通常所使用的又是大樣本, 因 此,可以按照正態(tài)分布的理論,來(lái)構(gòu)造總體參數(shù)估計(jì)量的置信區(qū)間。一般地說(shuō),若估計(jì)量 ?是無(wú)偏的,且呈正態(tài)分布,則參數(shù)。的置信度為1- “的置信區(qū)間可以寫(xiě)成(?-KS( ?) , ?+KS

35、( ?)當(dāng)調(diào)查變量的總體方差b 2已知時(shí),上述置信區(qū)間可表示為(?-Z“/2S( ?) , ?+ Za/2S( ?)即取K= Z” /2, Z“/2的值可以通過(guò)查正態(tài)分布雙側(cè)臨界值表加以確定。常用的幾組置信度同Z" /2的對(duì)應(yīng)值如下表1- a0.800.900.950.95450.9973Za/21.281.641.9623當(dāng)調(diào)查變量的總體方差b 2未知時(shí),則用相應(yīng)的樣本方差S2代替。然而,這時(shí)有可能會(huì)使誤差產(chǎn)生一個(gè)增量,特別是當(dāng)樣本較小時(shí),更容易影響估計(jì)的精度。因此,為了保持1- a的置信度,就應(yīng)該適當(dāng)加寬置信區(qū)間,即用較大的t“/2值來(lái)彳t替 乙/2。此時(shí),置信區(qū)間就可以表不成(?jg ( ?), ?+ta/2g ( ?)其中t ”/2的值可通過(guò)查t分布臨界值表來(lái)確定,在這里自由度為df=n-1 ; §( ?)表示以s2代替b 2后對(duì)抽樣標(biāo)準(zhǔn)誤S(飛的估計(jì)量。我們注意到,當(dāng)樣本量充分大時(shí),Z值和t值十分接近,因此,即使b 2未知,也仍

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論