版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
抽樣講義
壹、導(dǎo)論
抽樣的意思顧名思義,就是從全體之中抽取一部分個(gè)體做為樣本,借著
對(duì)樣本的觀察,再對(duì)全體做出推論。譬如說(shuō),我們想知道某個(gè)地區(qū)七歲到十
二歲的小孩在除夕夜平均每人收了多少壓歲錢,這些錢乂跑到那里去了;或
是我們的商品檢驗(yàn)單位想要知道有一批貨柜的棒球是不是每一個(gè)都符合使用
標(biāo)準(zhǔn):或是水庫(kù)管理當(dāng)局想要知道到底水庫(kù)里有多少他。在理論上,我們當(dāng)
然可以不厭其煩地針對(duì)母體所有成員一個(gè)一個(gè)觀察以取得數(shù)據(jù),但在實(shí)際上
我們知道這很不容易做到,事實(shí)上在有些情況下我們還非得做抽樣調(diào)查不可。
一、為什么要抽樣?
(-)因?yàn)橐?jié)省經(jīng)費(fèi),(二)因?yàn)橐?jié)省時(shí)間。這兩個(gè)理由很容易了解,
如果要訪問(wèn)全體,則所耗費(fèi)的時(shí)間和經(jīng)費(fèi)是相當(dāng)可觀的,而且有許多調(diào)查性
質(zhì)具有時(shí)間性,如果拖得太長(zhǎng)就會(huì)失去時(shí)效。例如想知道學(xué)生們對(duì)某一項(xiàng)考
試的反應(yīng)如何,就非得打鐵趁熱,在短時(shí)間內(nèi)完成調(diào)直不可。(三)四為要提
高資料的準(zhǔn)確性,這是由于全體調(diào)杳牽涉到相當(dāng)大量而又繁雜的作業(yè),動(dòng)員
不少人力、物力和行政管道,增加許多犯錯(cuò)的機(jī)會(huì),導(dǎo)致取得的數(shù)據(jù)質(zhì)量不
佳,而抽樣調(diào)查工作涉及的作業(yè)負(fù)擔(dān)相對(duì)地輕松許多,參與人員因?yàn)檩^少,
好控制,使得數(shù)據(jù)的品質(zhì)也較好。事實(shí)上聯(lián)合國(guó)的專家們也發(fā)現(xiàn),在一些教
育較不發(fā)達(dá)的地區(qū),人口普查的資料就不如抽樣調(diào)查來(lái)得好。(網(wǎng))因?yàn)橐?/p>
得較詳盡的數(shù)據(jù),譬如我們想要知道七歲到卜二歲小孩的壓歲錢流到那里去,
如果進(jìn)行全體調(diào)查的話,由于人力和物力的限制,我們只能針對(duì)每一個(gè)小孩
取得一點(diǎn)點(diǎn)資料,但是如果是抽樣調(diào)查,則因?yàn)檎{(diào)查對(duì)象不多,反而可以很
從容的取得細(xì)節(jié)資料提供分析之用。每十年一次的人口普瓷,除了全體都查
之外,總是還要再抽取少數(shù)樣本做更詳盡的訪問(wèn)就是這個(gè)道理。(五)因?yàn)橐?/p>
減輕損失,例如汽車車身的耐撞試驗(yàn),罐頭食品的安全檢查,或是電燈泡壽
命的質(zhì)量管理檢驗(yàn)。這些調(diào)查本身就具有破壞性,總不能每部汽車都撞一撞,
或是每個(gè)罐頭都打開(kāi)檢查,這種情形非得進(jìn)行抽樣檢驗(yàn)不可,而且樣本數(shù)目
還要控制到越少越好。
二、機(jī)率抽樣與非機(jī)率抽樣
在談抽樣設(shè)計(jì)之前,讓我們先厘清一下這里所談的抽樣是指機(jī)率抽樣,
也就是說(shuō):「在完整定義的母體之中,每一個(gè)個(gè)體都有一個(gè)不為零的中選機(jī)
會(huì)」。凡不屬于這個(gè)定義范圍的都是非機(jī)率抽樣。常見(jiàn)的非機(jī)率抽樣方法,
綜合Kish(1965)和CochranQ977)的說(shuō)法,有下列幾種:
(一)偶遇樣本(haphazardsample)或便利抽樣(convenientsample)?
是碰到誰(shuí)就選誰(shuí)的抽樣,做研究的人并不在乎調(diào)查對(duì)象是否有代表性,例如
生物學(xué)家解剖青蛙,心理學(xué)家觀察人們對(duì)聲光刺激的反應(yīng),醫(yī)生征求自愿者
做藥物反應(yīng)的實(shí)驗(yàn)等等。
(―)立意選樣(purposivesampling)或判斷選樣(judgmentsampling),批注[al]:要照顧好個(gè)省的情況。不得己而為之。造
成了不等機(jī)率抽樣。所以要加權(quán)。立意選樣按照母體的
這是經(jīng)由專家主觀判斷,立意選定他們認(rèn)為「有代表性」的樣本來(lái)觀察。例資料來(lái)分層,事后分層把母體的結(jié)構(gòu)找出來(lái)
如人類學(xué)家或社會(huì)學(xué)家會(huì)選定一個(gè)或幾個(gè)村莊來(lái)代表鄉(xiāng)村地區(qū),交通專家選
定幾個(gè)路口來(lái)計(jì)算交通流量,教育專家選定兒個(gè)學(xué)校班級(jí)的學(xué)生來(lái)代表所有
的學(xué)生等等。
(三)自愿樣本(volunteersubjects)?聽(tīng)任自動(dòng)送上門來(lái)的人組成
樣本群。
(四)配額選樣(quo:asampling),依照母體的人口特征按比例分
配樣本數(shù),在配額之內(nèi)進(jìn)行非機(jī)率抽樣,也就是把調(diào)查對(duì)象依照特征分類后,
根據(jù)各類別的百分比每類立意選樣至額滿為止。例如某個(gè)地區(qū)七歲到十二歲
的小孩之中,約有一半是男的,另一半是女的,有四分之一住在都市,四分
之三住在鄉(xiāng)村。如果樣本數(shù)是一千,則根據(jù)上述各類別的比例先算出各種特
征交叉匯編后每一組合的配額,在配額內(nèi)立意選出符合該類別的人即可。這
樣做可以節(jié)省時(shí)間和資源,而又維持了樣本的「代表性」。
(五)雪球抽樣(snowballedsample),先找到原始受訪者,然后再
從受訪者所提供的信息找到其它受訪者。
以上這些非機(jī)率抽樣方法由于沒(méi)有機(jī)率做推論基礎(chǔ),大多只能做描
述性的用途,而不能對(duì)全體做科學(xué)的估計(jì)或驗(yàn)證理論的假設(shè)檢定,因?yàn)樗鼈?/p>
提不出確切的誤差數(shù)據(jù),無(wú)法計(jì)算樣本數(shù)據(jù)的準(zhǔn)確程度。
貳、抽樣的基本原理
假設(shè)某個(gè)地區(qū)七歲到十二歲的小孩共有兩百四十萬(wàn)人,如果我們要抽取
一「?jìng)€(gè)人來(lái)調(diào)瓷有關(guān)他們的壓歲錢收入和支出情形,怎么抽才會(huì)「準(zhǔn)」呢?
用常識(shí)來(lái)判斷,總要有一些都市人,一些多下人,要男生,也要女生,耍富
豪子弟,也要清寒子弟等等。這些顧慮都是擔(dān)心萬(wàn)一抽得不好,變成瞎子摸
象,整個(gè)推論就失效了。
在談抽樣原理之前,首先讓我們先熟悉幾個(gè)名詞和符號(hào)。
一、資料的中心點(diǎn)和離散程度:平均數(shù)和標(biāo)準(zhǔn)差
大家都知道平均數(shù)是什么,它是所有個(gè)案觀察值的總和除以累加的個(gè)案
數(shù),也就是我們通常說(shuō)的一組資料的中心點(diǎn)。我們把全體的平均數(shù)寫成u(念
成mu).它的定義是:
p=(xi+X2+...+XN)/N..........................(2.1)
式中N是全體的總個(gè)案數(shù),x,是第i個(gè)個(gè)案的觀察值。
其次一個(gè)名詞是標(biāo)準(zhǔn)差。(念成sigma),是衡量一組資料中各個(gè)點(diǎn)和中
心點(diǎn)之間的「標(biāo)準(zhǔn)距離」。也就是衡量一組數(shù)據(jù)中各點(diǎn)的集中或離散程度。
它的定義是:
2
b=+J[(X|-〃)2+(x2-A)+…+(XJV(22)
從定義上來(lái)看,它是每一個(gè)點(diǎn)和中心點(diǎn)R的差,平方后累加起來(lái)取平均數(shù),
再開(kāi)根號(hào)還原。平方的原因是要避免各點(diǎn)和中心點(diǎn)的差正負(fù)相抵。
二、正態(tài)分布和中央極限定理
假設(shè)這個(gè)地區(qū)兩百多萬(wàn)個(gè)七歲到十二歲小孩的壓歲錢平均數(shù)是U,標(biāo)準(zhǔn)
差是?!,F(xiàn)在我們要抽取一千個(gè)樣本,從樣本觀察值來(lái)估計(jì)U,一個(gè)很自然
的選擇是用樣本的平數(shù)來(lái)估計(jì),讓我們把樣本的平均數(shù)寫成又(念成XBar,
Bar是橫杠的意思),它的定義是:
x=(芭+$+…(23)
式中n是樣本數(shù)。
如果我們使用一套機(jī)率抽樣的作業(yè)程序抽出一千人,取得他們的觀察值
后會(huì)得到一個(gè)平均數(shù),把它寫成表示是第一次抽樣得到的結(jié)果。現(xiàn)在把
整個(gè)作業(yè)重做一遍,我們可能得到不同的一千個(gè)人,因?yàn)樵跈C(jī)率抽樣之下每
個(gè)人都有中選的機(jī)會(huì),重新做一遍就可能抽到不同的人。我們把第二次抽樣
的結(jié)果寫成高。當(dāng)然這個(gè)工不一定會(huì)和T相同,就像兩顆子彈不會(huì)射中相
LI
同的一點(diǎn)一樣。如此一直做下去,如果我們做K次的話,會(huì)有,…,“一
共有K個(gè)樣本平均數(shù)。在數(shù)學(xué)上有個(gè)中央極限定理,它的內(nèi)容是:在樣本數(shù)
足夠大的情況下,如果把這K個(gè)又排起來(lái),它們會(huì)形成正態(tài)分布,而這些樣
本平均數(shù)的平均數(shù)會(huì)等1I,這些樣本平均數(shù)的標(biāo)準(zhǔn)差會(huì)等于
什么是正態(tài)分布呢?它是一種鐘形,以平均數(shù)為中心、左右對(duì)稱的圖形
分布。譬如說(shuō),全校同學(xué)的身高由低而高排列起來(lái),會(huì)有少數(shù)人很矮或很高,
大部分人集中在中間,而越靠近平均身高的人會(huì)越多,形成像鐘形的樣子。
并實(shí)上,我們可以利用正態(tài)分布的特性計(jì)克出身高在某一高度之間者到底有
多少人。這是因?yàn)楦鶕?jù)正態(tài)分布,有68%的人會(huì)落在平均數(shù)左右一個(gè)標(biāo)準(zhǔn)差
距離之內(nèi),有95%的人會(huì)落在平均數(shù)左右兩個(gè)標(biāo)準(zhǔn)差之內(nèi),而有99.7%的人
會(huì)落在平均數(shù)左右三個(gè)標(biāo)準(zhǔn)差范圍之內(nèi)的緣故。
三、點(diǎn)估計(jì)、區(qū)間估計(jì)、和信賴系數(shù)
根據(jù)中央極限定理,我們知道如果做很多次抽樣的話會(huì)得到很多個(gè)滅,
而這些又排起來(lái)會(huì)形成正態(tài)分布,它們的平均數(shù)是u,標(biāo)準(zhǔn)差是。/冊(cè)。換
句話說(shuō),有68%的%會(huì)落在〃±o7冊(cè)之間,有95%的X會(huì)落在〃±2b/之
間,有99.7%的又會(huì)落在〃±3c6之間。
把上述的說(shuō)法稍為轉(zhuǎn)換一下就變成:有68%的又不b/會(huì)包含著U,
有95%的又干2。/新會(huì)包含著u,有99.7%的又不3o7?會(huì)包含著口,而這
就是抽樣和估計(jì)最根本的道理。我們從全體之中以機(jī)率抽樣方式抽取n個(gè)樣
本,取得樣本觀察值,計(jì)算它們的平均數(shù)又,然后加減兩倍的品得到'
組上下區(qū)間,然后說(shuō):我們有95%的信心,這個(gè)上下區(qū)間一定會(huì)包含著全體
的平均數(shù)口。如果我們?nèi)圆环判牡脑?,可以用又加減三倍的。/石,那么這
組區(qū)間包含著u的信賴度就有99.7%。
用樣本平均數(shù)天來(lái)估計(jì)全體的平均數(shù)u稱為點(diǎn)估計(jì)。點(diǎn)估計(jì)命中目標(biāo)的
機(jī)會(huì)是很低的,因?yàn)橹粦{著少數(shù)樣本觀察值得到的結(jié)果要和全體的平均數(shù)吻
合幾乎是不可能的事,所以我們最好不要用點(diǎn)估計(jì),而要用區(qū)間估計(jì)。根據(jù)
中央極限定理和正態(tài)分布的特性我們知道又士。/4這個(gè)區(qū)間包含著全體平
均數(shù)口的機(jī)會(huì)有68%,'±2。/新的機(jī)會(huì)有95%,而又±3CT/4的機(jī)會(huì)有
99.7%!真正可靠的估計(jì)勢(shì)必要用區(qū)間估計(jì),只有這樣做我們才可以知道估
計(jì)準(zhǔn)確的程度,而這68%,95%,99.7%就稱做是信賴系數(shù)。說(shuō)得更確切一點(diǎn),
以95%信賴系數(shù)為例,它的意思是:如果我們進(jìn)行一百次獨(dú)立的抽樣估計(jì),
會(huì)有一百個(gè)樣本平均數(shù),也會(huì)有一百個(gè)區(qū)間估計(jì),而這一百個(gè)區(qū)間估計(jì)里會(huì)
有95個(gè)正確地包含著全體平均數(shù)口。實(shí)際上我們不會(huì)做一百次抽樣,而是只
做一次,所以說(shuō)這一次抽樣而興的區(qū)間估計(jì)會(huì)包含著口的機(jī)會(huì)是95%,信賴
系數(shù)越高?,估計(jì)的區(qū)間也就越寬,這是高信賴系數(shù)所必須付出的代價(jià)。譬如
我們估計(jì)全國(guó)七歲到十二歲小孩的壓歲錢平均數(shù)是在10元到100()元之間。這
個(gè)估計(jì)即使有99.7%的信賴度也沒(méi)有什么用,因?yàn)檫@段區(qū)間實(shí)在太寬了,如
果是100元到120元之間,而且信賴系數(shù)是99.7%,這就是個(gè)非常好的估計(jì)。我
們學(xué)習(xí)抽樣方法就是要使這個(gè)信賴區(qū)間盡可能的縮小。
剛剛提到過(guò)一個(gè)好的估計(jì)必須既準(zhǔn)又穩(wěn),我們用又來(lái)估計(jì)口,如果做很
多次的話,會(huì)有很多個(gè)又。中央極限定理已經(jīng)給我們保證,這些亍的平均數(shù)
會(huì)等于口,所以是I■準(zhǔn)」的估計(jì)已無(wú)問(wèn)題,但是這些刀是否都靠近在?起,
稱得上是「穩(wěn)」呢?這就要看這些天的標(biāo)準(zhǔn)差了。我們已經(jīng)知道刀的標(biāo)準(zhǔn)差
是。/五,其中。是全體的標(biāo)推差,n是樣本數(shù),把樣本數(shù)加大會(huì)使得標(biāo)準(zhǔn)
差變小,所以我們馬上領(lǐng)悟到樣本數(shù)越大,估計(jì)也就越穩(wěn)。其次,。是全體
數(shù)據(jù)的標(biāo)準(zhǔn)差,我們并不知道它到底是多少,在區(qū)間估計(jì)里我們也需要用到
它,因此為了要知道估計(jì)的準(zhǔn)確程度,連全體資料的。也要一起估計(jì)才行。
至少有兩種方法來(lái)估計(jì)。,一是用樣本觀察值的標(biāo)準(zhǔn)差,它的定義是:
222
S=7((-v)-x)+(x,-x)+...+i>n-x)]Z(/?-l)..............(2.4)
在數(shù)學(xué)上可以證明用$2來(lái)估計(jì)三是合乎「準(zhǔn)」的要求的,但是這個(gè)方法必須
做完抽樣,取得樣本數(shù)據(jù)后才能派上用場(chǎng),有時(shí)很不方便事前的規(guī)劃和設(shè)計(jì)一。
二是用速向方式,我們知道通禽的數(shù)據(jù)若以平均數(shù)為中心,左右各二個(gè)標(biāo)準(zhǔn)
差的距離大概可以網(wǎng)羅絕大部分的數(shù)據(jù)。所以我們可以用常識(shí)判斷,找出這
組資料可能的最大數(shù)和最小數(shù)的差,再除以六,即是我們對(duì)。的速簡(jiǎn)估計(jì),
因?yàn)閺淖钚?shù)到最大數(shù)之間大概有六個(gè)標(biāo)準(zhǔn)差的距離。舉例來(lái)說(shuō):壓歲錢最
少的大概是零,最大的大概有一萬(wàn)元,差距是一萬(wàn),除以六得1667元,這就
是我們對(duì)。的估計(jì)。先不論我們抽樣得到的又是多少,在規(guī)畫作業(yè)時(shí)我們就
可以知道,如果樣本數(shù)是一千,那么95%信賴度的區(qū)間寬度是±2。/4,估
計(jì)是±2XI667/Viood或是±105元,這個(gè)寬度通常也叫做抽樣誤差。
四、抽樣誤差和樣本數(shù)的決定
習(xí)慣上我們都以95%的信賴系數(shù)做為一般抽樣設(shè)計(jì)的常模,因此公式
就成為我們決定樣本數(shù)和誤差大小的依據(jù)。上述的例子說(shuō)明了如果樣
本數(shù)是一千,則抽樣誤差是±105元。若希望把誤差控制在±50元之內(nèi),那么
至少需要多少樣本呢?我們可以代入公式,計(jì)算50=2x1667/祈得至Un應(yīng)
該是4446人。
另外一個(gè)比較快速的估計(jì)方式是使用百分比。假設(shè)我們想調(diào)杳的是全體
國(guó)民之中有多少百分比的人吸煙,則以前的平均數(shù)現(xiàn)在變成百分比,亦即從
0至IJ1之間的一個(gè)數(shù)字。樣本百分比的標(biāo)準(zhǔn)差則跟著這個(gè)百分比變化,但是
絕對(duì)不會(huì)超過(guò)05/4,為了保險(xiǎn)起見(jiàn),我們就用05/4來(lái)代入,換句話說(shuō),【批注不2]:P(l-P)開(kāi)方,最大值0.5制.晨~
原來(lái)的公式2。/而現(xiàn)在變成2Ko.5/6=1/6,這是估計(jì)的最大抽樣誤差。
例如樣本數(shù)為400時(shí),抽樣誤差為±1/20=±0.05;樣本數(shù)為900時(shí),抽樣誤差
是±0.033:同理,樣本數(shù)一千六百時(shí),抽樣誤差是正負(fù)二點(diǎn)五個(gè)百分點(diǎn);樣
本數(shù)二千五百時(shí)抽樣誤差是正負(fù)二個(gè)百分點(diǎn)。我們可以看到樣本數(shù)在一千到
一千六百時(shí)最劃得來(lái):若再往上加,經(jīng)費(fèi)會(huì)增加很多,但抽樣誤差卻減少得
很有限,并不經(jīng)濟(jì),所以一千到一千六百是最常見(jiàn)到的樣本數(shù)。
還有一件值得注意的事情是:樣本數(shù)的大小和母體總數(shù)的大小并沒(méi)有什
么關(guān)系。這似乎出乎一般人的意料之外。在理論上,如果樣本數(shù)和母體數(shù)的
比例,也就是抽取率,在百分之五以下的話,樣本數(shù)的決定幾乎不受母體數(shù)
的影響。美國(guó)有三億人,蓋洛普民意調(diào)查經(jīng)常把樣本數(shù)定在一千二百左右,
英國(guó)有六千萬(wàn)人,要達(dá)到相同的準(zhǔn)確度也需要相同的樣本數(shù),北京大學(xué)有三
萬(wàn)學(xué)生,同樣的也需要一樣多的樣本數(shù)。
參、單純隨機(jī)抽樣
在介紹抽樣方法之前,讓我們先認(rèn)識(shí)一下隨機(jī)數(shù)表(如附錄表一)。這
個(gè)表是根據(jù)兩個(gè)原則做出來(lái)的:(一)從0到9任何一個(gè)數(shù)字在任何位置出現(xiàn)
的機(jī)會(huì)都是一樣的。(二)每一個(gè)數(shù)字出現(xiàn)在任何一個(gè)位置并不影響其它數(shù)字
出現(xiàn)在其它的位置。換句話說(shuō),每一個(gè)數(shù)字的出現(xiàn)都是獨(dú)立的,從這兩個(gè)特
性我們可以引申到:(三)從00,01,02,......到98,99任何兩位數(shù)
出現(xiàn)在一-起的機(jī)會(huì)都是相等的。(四)從000,001,……到998,99
9任何三位數(shù)出現(xiàn)在一起的機(jī)會(huì)都是相等的。(五)以此類推到更多位數(shù)。
我們將透過(guò)以下抽樣方法的介紹來(lái)熟悉隨機(jī)數(shù)表的使用。
一、單純隨機(jī)抽樣的定義
單純隨機(jī)抽樣(simplerandomsampling,srs)的定義是:任何樣本數(shù)為n
的樣本組合中選的機(jī)率都是相等的。這個(gè)方法有理論上的用途,但實(shí)際上使
用的并不多。
二、單純隨機(jī)抽樣的執(zhí)行
把全體所有成員從1到N編號(hào),然后依隨機(jī)數(shù)表抽取n個(gè)號(hào)碼。例如從
四千人中抽五個(gè)人,把所有人自1到4000編號(hào),然后用隨機(jī)數(shù)表隨便選
一行開(kāi)始,假設(shè)我們選第三行,由于4000是四位數(shù),所以我們一次要用
四個(gè)數(shù)字以使得從0001到4000之間的每一個(gè)號(hào)碼都有相同的中選機(jī)
會(huì)。自上至下第.三行起自左向右,所有的數(shù)字都依次算入,它們是4546,
7717,0977,5580,0095,3286,3294,858
2,2269,0056,5271等。把超過(guò)4000的號(hào)碼舍去,
我們有0977.0095,3286,3294,2269五人號(hào)碼中選,
代表這五個(gè)號(hào)碼的人就是我們的樣本。
三、對(duì)母體平均數(shù)的估計(jì)
y=Z"n....................(3.1)
/'=1
四、y的變異數(shù)估計(jì)(抽出不放回)
A
V(y)=s2/n((N-n)/N)....(3.2)
22
式中s=£(y.-y)/(n-1)是樣本變異數(shù)。
五、對(duì)母體百分比的估計(jì)
P=.............(3.3)
7=1
式中y.=l如果第i個(gè)個(gè)案具備該特征,
y.=0如果第i個(gè)個(gè)案不具備該特征。
六、P的變異數(shù)估計(jì)(抽出不放回)
P(p)=(p(1-p)/n-1)((N-n)/N)......(3.4)
肆、等距抽樣SYS比較好J
一、等距抽樣的定義
等距抽樣(systematicsampling)也有人稱它為系統(tǒng)抽樣?它是先把全體
,N除以樣本數(shù)n,得到再用隨機(jī)
數(shù)表自1到K選一個(gè)隨機(jī)數(shù)R,則R,R+K,R+2K,……,R+(n-
1)K等號(hào)碼中選。例如四千人抽五人,K=4000/5=800,每隔
800個(gè)抽一個(gè),自1到800選一個(gè)隨機(jī)數(shù)。假設(shè)我們自隨機(jī)數(shù)表第五行
開(kāi)始,800是三位數(shù),所以我們要用三位數(shù),自上至下第五行,自左向右,
第一個(gè)是955太大舍去,第二個(gè)是929,也太大舍去,第三個(gè)是400,
所以編號(hào)400,1200,2000,2800,3600,這五個(gè)人中
選。
如果K不是整數(shù),我們可以四舍五入取整數(shù),也可以用「借一位小數(shù)I
的方法,也就是把所有的數(shù)字都向后挪一位數(shù),包括K值、隨機(jī)數(shù)值在內(nèi),
抽出之后再將此一小數(shù)去掉,如此則不會(huì)出現(xiàn)多抽或少抽一個(gè)樣本的情形。
例如N=50,n=6,K=8.33,借1位小數(shù),取K=83,由1到83取一個(gè)
隨機(jī)隨機(jī)數(shù)53,則得到53、136、219、302、385、468等五個(gè)樣本,將個(gè)位
數(shù)無(wú)條件刪去,則中選的樣本是第5,13,21,30,38,46等五個(gè)。
二、母體清冊(cè)(抽樣框可以有形也可以無(wú)形)(frame)的排列次序批注(a3]:無(wú)次序汽車通過(guò)十字路口可以亂抽p=o\有
次療p奐design<l(周期性p正)
公共汽車的乘客,百貨公司的顧客無(wú)形學(xué)校的學(xué)生?形
等距抽樣的效果和據(jù)以抽樣的母體清冊(cè)(frame)的排列次序有很大的關(guān)
系。理論上,等距抽樣的樣本平均數(shù)變異數(shù)是
2
V(yty)=[1+(n-1)p)a/n................(4.1)
Jp是[群內(nèi)相關(guān)系數(shù)」(intraclustcrcorrelation)
(4.2)
理論上,
_£(區(qū)-4)2
var(F)=------------
k
var(")=£(北--〃)-
kt=t,ij=、
var(r9)==火'(力-〃)/
kn/=i;=i
var(J)=二£[£3-〃)2+2£(?廣〃)儲(chǔ)-“)]
k,l/WI4?IJ?I
A〃八〃
var(rs>)=—(為-42+2£Z(%-匕廠〃)]
kn~r-l>1r-lj-1
P,vuy、之楚匕廠〃)%-〃)化廠〃)的一〃)
i=ij<fi、<=ij</
":p=----------------------=———------------------------------x--=2x------------------------------------
化/S+Drr2%(“+1內(nèi)2
2
/=ij<r
r=lJ=1
z£(匕廠1
...±L±!---------“
nk
-10*>
var(F,vv)=-r[kna~+phi(n+\]a~]=^-|i+(M-|)p]
hr
當(dāng)母體清冊(cè)呈無(wú)次序狀態(tài)完全隨機(jī)方式排列時(shí),p=0,樣本平均數(shù)的變異
數(shù)完全等于單純隨機(jī)抽樣下樣本平均數(shù)的變異數(shù),估計(jì)公式可以直接引用上
一節(jié)的所有公式(3.1)至(3.4)op,?負(fù)?,
樣本平均數(shù)的變異數(shù)比單純隨機(jī)抽樣下樣本平均數(shù)的變異數(shù)還要小,引用上
述公式形成高估。■樣本平均數(shù)的變
異數(shù)比單純隨機(jī)抽樣下樣本平均數(shù)的變異數(shù)還要大,引用上述公式形成低估。
例如在有次序排列的情況下:
N=9,n=3,K=3,
N,二l,2,3,4,5,6,7,8,9;
〃二5,
r=l時(shí),中選1,4,7,平均數(shù)為4,其群內(nèi)組合為(1,4)(1,7)(4,7):
r=2時(shí),中選2,5,8,平均數(shù)為5,其群內(nèi)組合為(2,5)(2,8)(5,8):
r=3時(shí),中選3,6,9,平均數(shù)為6,其群內(nèi)組合為(3,6)(3,9)(6,9)。
分子=3片-〃)="[(〃_『—
kx----------
2
分母=夙為-4)2=ZZ(yiy
kn
-〃)()號(hào)"-5)(4-5i+(1-5)(7-5)+(4-5)(7-5)+(2-5)(5-5)+(2-5)(8-5)
+(5-5)(8-5)+(3-5)(6-5)+(3-5)(9-5)+(6-5)(9-5)|
=-21
22。;廠”)2=(>5)2+(4-5)2+(7-5)2+(2-5)2+15-5)2+(8-5)2+(3-5)2+(6-5)2+
(9?—=60
……r〃x(〃-I).
-21/{八[\Hi
291
-——=-0.35
P=60|(?i-l)/2|x60[(3-l)/2|x60
~kn
222
va皈)=—[1+(M-1)/?]=—[14-(3-1)X(-0.35)]=—x().3
nnn
另一個(gè)例子是母體清冊(cè)在周期性排列的情況下:
N=9,n=3,K=3.
H尸1,4,7,2,5,8,3,6,9;
〃二5,
r=l時(shí),中選1,2,3,平溝數(shù)為2,其群內(nèi)組合為(1,2)(1,3)(2,3);
r=2時(shí),中選4,5,6,平均數(shù)為5,其群內(nèi)組合為(4,5)(4,6)(5,6):
r=3時(shí),中選7,8,9.平均數(shù)為8,其群內(nèi)組合為(7,8)(7,9)(8,9);
ZZ(匕-〃)(%-〃)=[。-5)(2-5)+(1-5)(3-5)+(2-5)(3-5)+...+(8-5)(9-5)]
ZZ化一〃)(%—〃)=51
ZZ(七一〃尸=(>5尸+(2-5)2+(3-5『+…+(9-5尸=60
p=---------------=0.85
[(3-l)/2Jx60
___22
var(rZ)=-[1+(/7-1)/?]=—x2.7
nn
所以在母體清冊(cè)有次序排列的情況下,等距抽樣的中選樣本[,i,以11
動(dòng)反映母體的代表性■在幾
乎大部分的母體清冊(cè)都計(jì)算機(jī)化之后,排序容易,等距抽樣勢(shì)將成為主流趨
勢(shì)。從另一方面來(lái)看,母體清冊(cè)如果是在周期性排列的情況下,這種情況大
多是時(shí)間序列或是經(jīng)濟(jì)方面的數(shù)據(jù),也有可能是有規(guī)則性的組合如軍隊(duì)、中
小學(xué)生等,〃為正值,抽樣誤差可能非常大,解決的辦法是抽取多個(gè)隨機(jī)數(shù),
例如有一組周期性排列的數(shù)據(jù),N=1000,n=10.K=100>若利用等距抽樣,
原為1至k抽一個(gè)隨機(jī)數(shù),現(xiàn)在改采1至rk抽r個(gè)隨機(jī)數(shù)。若r=2,則為1-200
抽2個(gè)r,假設(shè)抽到隨機(jī)數(shù)036和147,則中選的樣本是:36,147,236,347,
436,547,636,747,836,847.
等距抽樣的好處是快速方便,所以用得很多。有時(shí)候不知道N和n,只
知道K也可以用。譬如以百貨公司顧客、汽車乘客或球場(chǎng)觀眾為對(duì)象,若決
定卷三十人抽一人,則馬上即可進(jìn)行而不必事先知道全體有多少人,樣本要
多少等等。它的缺點(diǎn)是最怕遇到具有周期性的數(shù)據(jù),萬(wàn)一這一個(gè)周期和K成
比例,則樣本死守一個(gè)規(guī)則,完全失去代表性。例如每七天查一次帳,結(jié)果
永遠(yuǎn)查到一星期內(nèi)的同一天,后果必然不堪設(shè)想。
伍、分層隨機(jī)抽樣座[a4]:不分白不分,物以類聚
分層隨機(jī)抽樣(stralifiedrandomsampling)是先把母群體的所有個(gè)體依某
些特征分類,也就是分層,然后在各層之內(nèi)再進(jìn)行獨(dú)立的隨機(jī)抽樣。譬如某
個(gè)地區(qū)七歲到十二歲的小孩,我們可以先區(qū)分為都和鄉(xiāng)村兩大層,然后各自
以各層為新的全體進(jìn)行抽樣。這個(gè)方法的好處很多,不但可以減化工作量,
而且可以提高估計(jì)的精確度,只要分層時(shí)守著「同層之內(nèi)同構(gòu)型取其最大,
異層之間異質(zhì)性取其最大J的原則即可。如此可使得層內(nèi)的數(shù)據(jù)一致而集中,
標(biāo)準(zhǔn)差愈小,則抽樣誤差也愈個(gè)。
一、對(duì)母體平均數(shù)的估計(jì)
-1X-
/..........................(5.1)
二、八的變異數(shù)估計(jì)(抽出不放回)
*1A
P(八))((N.-n.)/N.)......(5.2)
A詢
三、對(duì)母體百分比的估計(jì)
吁....................(5.3)
IVJ-1
四、八的變異數(shù)估計(jì)(抽出不放回)
V3)=占之AY("(1?小)/n「1)((N;-n.)/N.)....(5.4)
N'占
五、各層樣本數(shù)的分配:紐曼的最佳分配(NeymaiTsoptimum
allocation)
如果不考慮各層的抽樣調(diào)查費(fèi)用或是各層的費(fèi)用沒(méi)有差別,則
n.=n(N.o./£/V.a)................(5.5)
/=]
可導(dǎo)致最小的抽樣誤差。
陸、比率估計(jì)
比率估計(jì)并不是抽樣方法的一種,卻是常用的一種估計(jì)方式。它借著輔
助變量當(dāng)作分母提出一些比前幾節(jié).直接估計(jì)較為間接但卻可能更好的估計(jì)方
法,譬如回歸就是其中一個(gè)例子。在接下來(lái)要介紹的集體抽樣方法用的也是
比率估計(jì)。
一、對(duì)母體比率值的估計(jì)
r=(之八)/(尤?。?y!x....................(6.1)
二、r的變異數(shù)估計(jì)
V(r)=———rv.......................(6.2)
'nN)M
式中Sr=Y(y-?。?/(n-1)................(6.3)
/=]
三、對(duì)母體平均數(shù)的估計(jì)
//?=((£匕)/(Z「))=rji<................(6.4)
/=i/=i
四、對(duì)〃,變異數(shù)的估計(jì)
柒、集體抽樣批注[a5]:能不用就不用
「'?,口祥|■徉.把■■小批注[a6]:數(shù)育、公共衛(wèi)生?般用得獎(jiǎng)J
譬如學(xué)校的班級(jí)就是常用的集群。
主要的功能是節(jié)省時(shí)間、人力和經(jīng)費(fèi),是很
不得已的作法,非萬(wàn)不得已不要采用。即使要用,也要守著「集群內(nèi)部異質(zhì)批注[a7]:樣本數(shù)失控,只適合政府用不適含學(xué)術(shù)界
用,因?yàn)橘Y料只能估計(jì)不能分析,只有柒體數(shù)據(jù)沒(méi)有個(gè)
性越大越好」的原則來(lái)做。體數(shù)據(jù)。不能做個(gè)案分析,一個(gè)學(xué)校4萬(wàn)人,一個(gè)學(xué)校
3000人,每個(gè)學(xué)校H來(lái)一個(gè)數(shù)據(jù)。每個(gè)學(xué)校的個(gè)案不
相等
一、對(duì)母體平均數(shù)的估計(jì)
(7.1)
式中y-是第i個(gè)集體所有樣本觀察值的加總,
n是抽出的樣本集體數(shù),
m:是第i個(gè)集體的個(gè)體數(shù)。
二、y的變異數(shù)估計(jì)
(7.2)
式中S;=Z(y--ym.)'!(n-1)(7.3)
/=!
N是母體總集體數(shù),
M是母體平均每一集體的個(gè)體數(shù)。
捌、多階段集體抽樣
一、兩段集體抽樣(two-stageclustersampling)
兩段或多段集體抽樣其實(shí)并沒(méi)有「集體全查」的意思,它是指在第一個(gè)
階段先抽出一部分集體(PrimarySamplingUnii,PSU),譬如說(shuō)大學(xué),然后在批注[a8]:蘇伊少需?階段可以抽上層的比如省級(jí),
但樣本代表性不好。經(jīng)費(fèi)多可以從種菜抽比如縣級(jí)。不
下?個(gè)階段自中選的集體抽出第一階段的集體(SecondarySamplingUnit,SSU)過(guò)要從整體上思考??梢詮娜丝诿芏瓤紤],按照密度排
序,再抽100個(gè)縣
譬如說(shuō)系所,其次在,譬如說(shuō)學(xué)生。
(-)對(duì)母體平均數(shù)的估計(jì)(假設(shè)每個(gè)階段都是SRS抽出)
〃=(N/M)XM'"兒..............................(8.1)
f=l
式中M,是母體笫i個(gè)集體的總個(gè)體數(shù),
M是母體所有個(gè)體數(shù),
》是第i個(gè)集體的樣本平均數(shù)。
(二)〃的變異數(shù)估計(jì)
N-nM,一m,
V(//)=(sJ/m.)
式中S;=S(NLy:-M4)'/(n-1)
/=]
2
(8.2)
-yt!(m>-1)
二、抽取率與單位大小成比例的多階段抽樣(probability批注(a9]:階段越少越好.誤差越小??紤]代表性、
錢、人、時(shí)間.例如選校、系、人.三階段“我們可以
proportionaltosize,沖)才常巧妙的■■可以■■■樣■選中的斷■選20*2*50=2000資金玳之的做法,小在乎學(xué)校和學(xué)校
的差異,在乎人的差異;50*2*20=2000資金充足的做
法。在乎學(xué)校和學(xué)校的差異,不在乎人的差異。第一階
這個(gè)方法大多用在規(guī)模比較大的抽樣工作。譬如調(diào)查對(duì)象是某個(gè)地區(qū)七段可以按照省將學(xué)校擇序或者按照學(xué)校規(guī)模.甚至按女
生人數(shù)排序.然后等幣抽樣.第二階段隴后按系排
歲到十二歲的小孩,我們?cè)诘谝浑A段先抽取一部分鄉(xiāng)鎮(zhèn)市區(qū),第二階段再自A"b=k然后抽人.Bj/C=k
中選的鄉(xiāng)鎮(zhèn)市區(qū)抽村或居委會(huì),第三階段再自中選的村或居委會(huì)抽戶或直接
抽人。在抽樣過(guò)程中每一階段各單位的中選機(jī)率和那個(gè)單位的大小成比例,
也就是單位越大的中選機(jī)率越高。但是到最后結(jié)算下來(lái),所有全體的每一個(gè)
成員都有相等的機(jī)會(huì)被抽中。讓我們看一個(gè)多階段抽樣的例子(如表&1):
表8.1
區(qū)個(gè)案數(shù)累積個(gè)案數(shù)
110001000
220003000
320005000
415006500
530009500
6400013500
7250016000
現(xiàn)在要從全體七個(gè)區(qū)總共16000人中第一階段先抽取兩個(gè)區(qū),然后再自
中選區(qū)中每區(qū)各抽50人,也就是自全部16000人中抽取100人。
第一階段要抽兩個(gè)區(qū),意思是每隔16000/2—8000人抽一個(gè)
區(qū),自1至8000選一個(gè)隨機(jī)數(shù),假設(shè)自隨機(jī)數(shù)表第八行開(kāi)始,我們需要
四位數(shù),結(jié)果6094中選,其次6094+8000|=14094中選。批注(alO]:防止隨機(jī)數(shù)落在同一個(gè)選區(qū))
這兩個(gè)號(hào)碼一個(gè)落在第四區(qū),另一個(gè)在第七區(qū),所以兩個(gè)區(qū)中選。這個(gè)階段
各區(qū)中選的機(jī)率要看各區(qū)的大個(gè)而定。其次,我們?cè)俜謩e自第四區(qū)和第七區(qū)
各抽50人,方法可以自行決定,單純隨機(jī)方式或■■均可。為什么說(shuō)
全體之中的每一個(gè)人中選機(jī)會(huì)都相等呢?譬如李先生位在第三區(qū),他中選的
機(jī)率是:批注[all]:a*Ai/R*b/Ai=n/N)
2x2(X)0501(X)
-----------------X------------=------------
1600()2(XX)16(X)0
(把第一階段的中選率看做是2000/8000可能較容易了解)而王先
生位在第六區(qū),他中選的機(jī)率是
_2_x_4_0_0_0x__5_0_=__1_0_0_
16(X)04(XX)-16(XX)
很顯然的,到最后每一個(gè)人中選的機(jī)率都是100/16000,也就是早
先決定的抽取率。
<-)對(duì)母體平均數(shù)的估計(jì)
(8.3)
(二)的變異數(shù)估計(jì)
V〃修)2.....(8.4)
玖、其它抽樣方法
全查沒(méi)有代表性,有時(shí)可以利用交情全查,查回來(lái)后用PPS處理,個(gè)案就有代表性了
一、雙重抽樣(doublesampling,ortwophasesampling)
這是先以低廉的代價(jià)先自全體之中抽取大量的樣本,然后再向這群樣本批注[al2]:快速低康的方式通常是電話訪問(wèn)。篩選.
對(duì)公共汽車的乘客.
中抽取第二次樣本。在流行病學(xué)的研究里比較常見(jiàn)到這種方法。通常是先用
很快的方法初步選取大量的樣本驗(yàn)血,然后再自有反應(yīng)的血液中追溯抽樣,
選取少數(shù)的樣本進(jìn)行詳細(xì)的查驗(yàn)工作。
在設(shè)計(jì)?流程中,有時(shí)會(huì)遇到定義母體困難或抽樣清冊(cè)無(wú)從建立的情況,
譬如汽車使用者的意見(jiàn)調(diào)查,或?qū)W校畢業(yè)生的成就調(diào)查,最常見(jiàn)到的則是某
項(xiàng)服務(wù)或某項(xiàng)產(chǎn)品的消費(fèi)者意見(jiàn)調(diào)查。這些調(diào)查的共同困難是建立抽樣清冊(cè)
極不可能或代價(jià)極高。在實(shí)務(wù)上就可以使用雙重抽樣來(lái)解決,先以較快速低
廉的代價(jià)進(jìn)行抽樣調(diào)查,如電話訪問(wèn)或信件回郵,只詢問(wèn)受訪者資格方面的
問(wèn)題,其次再自合格的樣本中第二次抽樣,進(jìn)行訪問(wèn)。
二、「捉一放一捉」式的野生動(dòng)物抽樣(capture-rec即toremethod)
這種方法主要用來(lái)估計(jì)野生動(dòng)物的數(shù)目。通常是選定某些地區(qū)在一定的
時(shí)間內(nèi)捕捉動(dòng)物。在動(dòng)物身上記上標(biāo)志后放走,隔了一陣時(shí)間后再于同一地
區(qū)捕捉動(dòng)物,打上標(biāo)記后再放走,如此一再重復(fù)進(jìn)行。統(tǒng)計(jì)專家們可以用重;批注[al3]:在相M的地點(diǎn)可笈
復(fù)被捉的機(jī)率來(lái)推完該區(qū)動(dòng)物的總數(shù)。批注[al4]:也可以研究城市,把大地區(qū)切割成小格
子。評(píng)估治安。每季或者每月調(diào)杳一次,是否是犯罪的
被擊者。重復(fù)被擊率.FBI的網(wǎng)站上公布官方數(shù)字。地
下賭場(chǎng)的估計(jì).
三、敏感性問(wèn)題的隨機(jī)反應(yīng)估計(jì)(randomizedresponse)
有時(shí)候研究者必須對(duì)敏感性的問(wèn)題做出合理的估計(jì),售如同性戀傾向,批注(al5]:比如買票.但是電話調(diào)查很難.生日是單
數(shù)回答。血型是0型的回答.生日是0123,456,789
考試舞弊,或是墮胎等議題。一個(gè)可行的方式是準(zhǔn)備一迭卡片,其中有。百誠(chéng)實(shí)何答考試有沒(méi)有作弊,面訪容易成功a
分比的卡片是正面陳述,例如「我考試作弊」,其余卡片則是反面陳述,例
如「我考試沒(méi)有作弊」。訪員可以請(qǐng)受訪者過(guò)目所有卡片后洗牌抽出一張,
然后問(wèn)受訪者I■是不是同意抽中卡片上所說(shuō)的事」,假設(shè)所有回答「是」的
受訪者人數(shù)為m,則母體考試作弊的百分比估計(jì)為:
"____)_幺1-0
(9.1)
2^-17-10-\
1
V(p)=z...................(9.2)
(26>-1)'nn\n)
通常。值不等于0.5以免分母為零,此外這種估計(jì)通常都放在問(wèn)卷最后一題,
而且不能進(jìn)行交叉分析。
區(qū)域抽樣(area,sampling)
用地圖來(lái)抽樣,采用PPS抽樣,psu為county.第二階段為戶LI普查區(qū)或者鄉(xiāng)鎮(zhèn),
然后選街道(在美國(guó)四個(gè)街道圍起來(lái)為一個(gè)Block。估計(jì)Block的單位的規(guī)模
Size人口數(shù),不用很準(zhǔn)就是排序累加。抽完后?定要真的調(diào)查每個(gè)街道的戶
數(shù),然后抽第一戶。戶中選樣。每戶選一個(gè)人利用KISHTABLE找人。8+12個(gè)
表(在訪員身上輪)問(wèn)戶中合格人數(shù)年齡最大的、中的小的。
拾、抽樣設(shè)計(jì)與執(zhí)行步驟
在我們面臨一個(gè)抽樣調(diào)查或研究案時(shí),通常會(huì)依照下列步驟進(jìn)行:
一、決定數(shù)據(jù)的搜集方式:面訪、郵寄問(wèn)卷、電話訪問(wèn)、或混合使用。
二、定義母體。
三、決定操作性定義及據(jù)以抽樣的母體清冊(cè),如會(huì)員名單、戶籍?dāng)?shù)據(jù)、或電
話簿。
四、決定樣本數(shù)。
五、分層。
六、決定各層樣木數(shù)。
七、各層獨(dú)立進(jìn)行抽樣設(shè)計(jì)。
八、分段。
九、決定各段抽出單位數(shù)。
十、執(zhí)行。
十一、列出母體參數(shù)的推估公式及其變異數(shù)之估計(jì)式:如有必要加權(quán),列出
加權(quán)公式。
以下我們將討論其中的一些考慮因素。
一、面訪、郵寄問(wèn)卷、與電話訪問(wèn)
一般說(shuō)來(lái),面訪所需經(jīng)費(fèi)最大,行政作業(yè)繁雜,訪問(wèn)失敗問(wèn)題嚴(yán)重,數(shù)
據(jù)質(zhì)量亦難監(jiān)控,其抽樣設(shè)計(jì)著重在如何有效率地運(yùn)用有限資源,使得訪員
順利接近受訪者。因此在初步對(duì)調(diào)查對(duì)象的操作性定義上,通常先把困難度
高、耗費(fèi)大、工作負(fù)荷重的地區(qū)排除在外,或單獨(dú)列為一次母體另行處理。
郵寄問(wèn)卷和電話訪問(wèn)滲透力強(qiáng),無(wú)遠(yuǎn)弗屆,行政作業(yè)易于掌握,抽樣設(shè)計(jì)束
縛條件極少。然而郵寄問(wèn)卷右回收率的問(wèn)題,電話訪問(wèn)自不完整包羅性和問(wèn)
卷不能深入的問(wèn)題,抽樣設(shè)計(jì)邑然容易,非抽樣的問(wèn)題則難以解決。
二、樣本數(shù)的決定
數(shù)據(jù)搜集方式和調(diào)查對(duì)象確定之后,第一件要做的事就是決定樣本數(shù)。
一般要考慮的因素有:
(-)抽樣誤差
假設(shè)非抽樣誤差(譬如問(wèn)卷設(shè)計(jì)不當(dāng)、訪員作假、數(shù)據(jù)鍵入錯(cuò)誤)不存
在,只計(jì)算因抽樣而來(lái)的估計(jì)。和母體參數(shù)。的差異量,通常用平均差方
(MeanSquaredError,MSE)表示,MSE-E(O-Oy,E表示期待值或平均數(shù),
則MSE=va@)+/>52,第一項(xiàng)是0的變異數(shù),表示每次抽樣都會(huì)得到不同
的。,如果做很多次,這些。就會(huì)有集中或分散的現(xiàn)象,用var(G)示之,是對(duì)
母體參數(shù)估計(jì)的穩(wěn)定程度或可靠度的意思;bias表示偏差,如果做許多次抽樣
的話,會(huì)有許多個(gè)0,這些°的平均數(shù)和被估計(jì)的母體參數(shù)6的差即是偏差。
一般情況下,偏差均可透過(guò)統(tǒng)計(jì)方法控制為零,所以抽樣誤差一般也指估計(jì)
的穩(wěn)定程度。不同的抽樣設(shè)計(jì)和估計(jì)方法會(huì)有不同的抽樣誤差,直接影響到
對(duì)母體推估的精確程度。樣本數(shù)越大,得到的估計(jì)值越穩(wěn)定,抽樣誤差也越
小,但它們之間并不成簡(jiǎn)單的比例,所以必須咨詢專家,決定最有效率的樣
本數(shù)和可以容忍的推論誤差。常見(jiàn)到的抽樣誤差表達(dá)方式,是換算成對(duì)母體
參數(shù)區(qū)間估計(jì)的上下限,例如我們常會(huì)見(jiàn)到「以95%信賴度估計(jì),對(duì)母體
的各項(xiàng)推論最大抽樣誤差不會(huì)超過(guò)正負(fù)3%J即是。
(-)經(jīng)費(fèi)、工作量、和時(shí)效
在現(xiàn)實(shí)世界里資源有限,樣本數(shù)的大小通常由可運(yùn)用資源的多彩來(lái)決定,
必須和前一項(xiàng)抽樣誤差妥協(xié)。
(三)次母體推論的精確度
抽樣調(diào)查的目的有時(shí)也包括對(duì)次母體的推論,譬如以某個(gè)地區(qū)民眾為對(duì)
象的抽樣調(diào)查,會(huì)以地區(qū)內(nèi)各縣市?為推論次母體,若每一縣巾的推論都要達(dá)
到相當(dāng)程度的精確度,則每一縣市就需要相當(dāng)于那個(gè)精確度的樣本數(shù),如此
一來(lái),整個(gè)調(diào)查地區(qū)的樣本數(shù)勢(shì)必要膨脹。同樣的道理,這些次母體有時(shí)候
可以是地區(qū)、城鄉(xiāng)、行業(yè)、公私立別等等.
(四)深入研究的必要性
有時(shí)候整個(gè)調(diào)查計(jì)劃的目的在做深入的比較分析,例如民眾的吸煙行為
會(huì)和教育程度、性別、行職業(yè)、地區(qū)、收入、年齡等有密切的關(guān)系。欲深入
研究其間之交互作用,則這些因素交叉之后每個(gè)組合交集必須要有起碼的樣
本數(shù),以此最低要求反向推估所需的樣本總數(shù)。這種性質(zhì)的調(diào)查比起單純的
母體百分比推估所需的樣本數(shù)顯然較大。
(五)抽取率
從理論上來(lái)看,樣本數(shù)的決定和抽取率并無(wú)太大關(guān)系,實(shí)際上,每100
人抽1人和每500人抽1人,如果樣本數(shù)相同,雖然母體大小相差很大,
但兩者的抽樣精確度是可認(rèn)定為完全相同的。只有在抽取率高于每20人抽
1人時(shí),才要考慮到這個(gè)囚索。
(六)樣本的累積
有些按月、季、年調(diào)查的抽樣設(shè)計(jì),每次調(diào)查的樣本數(shù)是可以累積的,
譬如國(guó)民營(yíng)養(yǎng)狀況調(diào)杳、健康衛(wèi)生和疾病調(diào)存、傳播媒體閱聽(tīng)調(diào)杳等??梢?/p>
累積的理由是:這些性質(zhì)的調(diào)查對(duì)象生活習(xí)慣不會(huì)在短期內(nèi)有重大的改變。
不過(guò)要注意的是每次調(diào)查的母體定義必須相同,以免每次推論都是以偏概全,
造成嚴(yán)重的偏差。
(七)抽出樣本數(shù)與有效樣本數(shù)
由于實(shí)務(wù)作業(yè)上必然會(huì)有訪問(wèn)失敗的現(xiàn)象.郵寄問(wèn)卷時(shí)這種情況尤其嚴(yán)
重,使得有效樣本數(shù)只能成為抽出樣本數(shù)的一個(gè)比例而己。如果僅以有效樣
本來(lái)對(duì)母體進(jìn)行推論的話,則會(huì)產(chǎn)生偏差,其幅度等于失敗率乘上有效樣本
和失敗樣本的差異。筆者(1989)建議依照預(yù)估的成功率擴(kuò)大抽出樣本數(shù),使得
最后完成的有效樣本數(shù)接近原先的規(guī)劃數(shù),并對(duì)失敗樣本進(jìn)行抽樣追蹤訪問(wèn),
得到有效樣本和失敗樣本之間差異的估計(jì),藉以修正以有效樣本來(lái)做推論所
造成的偏差。
三、分層與分段
(-)分層
母體定義清楚,樣本數(shù)決定后,接下來(lái)便是搜集有關(guān)資料進(jìn)行分層的
工作;這是因?yàn)閺某闃永碚搧?lái)看,分層抽樣可以很有效地降低推論的誤差。
另外一個(gè)重要的原因是行政上的考量,以推論次母體來(lái)分層(如各縣市或公
私匯學(xué)校)可使抽樣調(diào)查的目的易于達(dá)成。有關(guān)工商業(yè)界或各行業(yè)的抽樣調(diào)
杳尤其需要分層。有些調(diào)杳不但要依次母體分層,而且還不能合并做統(tǒng)一推
論,例如對(duì)各行業(yè)的抽樣調(diào)查就是一個(gè)典型的例子,由于絕大部分的企業(yè)單
位規(guī)模極小,而少數(shù)企業(yè)單位規(guī)模極大,不論以人或以企業(yè)單位做為推論的
個(gè)案基礎(chǔ)都有缺點(diǎn),最合理的做法是以行業(yè)和企業(yè)單位規(guī)模交叉分層,然后
以各層為次母體獨(dú)立進(jìn)行推論。
分層工作的原則是:「同層之內(nèi)同構(gòu)型愈大愈好,不同層之間各層平
均數(shù)差異星愈大愈好。」如此可以使得推估的誤差降至最小。分層之后各層
視同一個(gè)獨(dú)立的母體,分別進(jìn)行各層的抽樣設(shè)計(jì)。第一件要決定的事是如何
分配各層的樣本數(shù)。如果我們看望有一個(gè)等機(jī)率抽樣的設(shè)計(jì),則采用等比例
方式,依照各層母體人數(shù)占母體總?cè)藬?shù)的百分比分配樣本數(shù),亦即ni=nNi/N,
i=l.........K。其次,我們亦可依各層內(nèi)部的同質(zhì)程度來(lái)分配樣本數(shù),同構(gòu)
型越高者,分配樣本數(shù)越少,如此可使樣本數(shù)做最有效率的運(yùn)用,亦稱最適
分配或紐曼分配。第三種分配方式是立意分配,以主觀判斷給予各層樣本數(shù),批注[al6]:抽樣的時(shí)候同質(zhì)性少選擇的樣本少.差異
大標(biāo)準(zhǔn)差大的選擇樣本多
常見(jiàn)的做法是各層樣本數(shù)相等。
以上第二和笫三種方式都會(huì)造成不等機(jī)率抽樣,對(duì)母體的推論必須加
權(quán)處理。如果先分別計(jì)算各層平均數(shù)再合并推論母體,則各層之權(quán)值為
Wi=Ni/N,亦即各層人數(shù)占母體總數(shù)的比重,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度醫(yī)療設(shè)備存貨質(zhì)押擔(dān)保及租賃合同3篇
- 二零二五年度多功能廳租賃合同8篇
- 2025版高端公寓租賃管理合同4篇
- 二零二五年度酒吧舞臺(tái)承包及酒吧會(huì)員制度合作合同4篇
- 2025年度個(gè)人藝術(shù)品投資擔(dān)保合同范本
- 2025年度個(gè)人消費(fèi)貸款保證合同范本大全2篇
- 2025年度大型餐飲廚房設(shè)備升級(jí)改造工程合同4篇
- 二零二五年度打井工程安全應(yīng)急預(yù)案合同4篇
- 2025年度農(nóng)業(yè)生態(tài)環(huán)境保護(hù)合同4篇
- 2025年度南京住宅租賃押金管理合同4篇
- 2024年山東省泰安市高考物理一模試卷(含詳細(xì)答案解析)
- 護(hù)理指南手術(shù)器械臺(tái)擺放
- 腫瘤患者管理
- 2025年中國(guó)航空部附件維修行業(yè)市場(chǎng)競(jìng)爭(zhēng)格局、行業(yè)政策及需求規(guī)模預(yù)測(cè)報(bào)告
- 2025春夏運(yùn)動(dòng)戶外行業(yè)趨勢(shì)白皮書
- 《法制宣傳之盜竊罪》課件
- 通信工程單位勞動(dòng)合同
- 2024年醫(yī)療器械經(jīng)營(yíng)質(zhì)量管理規(guī)范培訓(xùn)課件
- 零部件測(cè)繪與 CAD成圖技術(shù)(中職組)沖壓機(jī)任務(wù)書
- 2024年計(jì)算機(jī)二級(jí)WPS考試題庫(kù)380題(含答案)
- 高低壓配電柜產(chǎn)品營(yíng)銷計(jì)劃書
評(píng)論
0/150
提交評(píng)論