抽樣理論講義_第1頁(yè)
抽樣理論講義_第2頁(yè)
抽樣理論講義_第3頁(yè)
抽樣理論講義_第4頁(yè)
抽樣理論講義_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

抽樣講義

壹、導(dǎo)論

抽樣的意思顧名思義,就是從全體之中抽取一部分個(gè)體做為樣本,借著

對(duì)樣本的觀察,再對(duì)全體做出推論。譬如說(shuō),我們想知道某個(gè)地區(qū)七歲到十

二歲的小孩在除夕夜平均每人收了多少壓歲錢,這些錢乂跑到那里去了;或

是我們的商品檢驗(yàn)單位想要知道有一批貨柜的棒球是不是每一個(gè)都符合使用

標(biāo)準(zhǔn):或是水庫(kù)管理當(dāng)局想要知道到底水庫(kù)里有多少他。在理論上,我們當(dāng)

然可以不厭其煩地針對(duì)母體所有成員一個(gè)一個(gè)觀察以取得數(shù)據(jù),但在實(shí)際上

我們知道這很不容易做到,事實(shí)上在有些情況下我們還非得做抽樣調(diào)查不可。

一、為什么要抽樣?

(-)因?yàn)橐?jié)省經(jīng)費(fèi),(二)因?yàn)橐?jié)省時(shí)間。這兩個(gè)理由很容易了解,

如果要訪問(wèn)全體,則所耗費(fèi)的時(shí)間和經(jīng)費(fèi)是相當(dāng)可觀的,而且有許多調(diào)查性

質(zhì)具有時(shí)間性,如果拖得太長(zhǎng)就會(huì)失去時(shí)效。例如想知道學(xué)生們對(duì)某一項(xiàng)考

試的反應(yīng)如何,就非得打鐵趁熱,在短時(shí)間內(nèi)完成調(diào)直不可。(三)四為要提

高資料的準(zhǔn)確性,這是由于全體調(diào)杳牽涉到相當(dāng)大量而又繁雜的作業(yè),動(dòng)員

不少人力、物力和行政管道,增加許多犯錯(cuò)的機(jī)會(huì),導(dǎo)致取得的數(shù)據(jù)質(zhì)量不

佳,而抽樣調(diào)查工作涉及的作業(yè)負(fù)擔(dān)相對(duì)地輕松許多,參與人員因?yàn)檩^少,

好控制,使得數(shù)據(jù)的品質(zhì)也較好。事實(shí)上聯(lián)合國(guó)的專家們也發(fā)現(xiàn),在一些教

育較不發(fā)達(dá)的地區(qū),人口普查的資料就不如抽樣調(diào)查來(lái)得好。(網(wǎng))因?yàn)橐?/p>

得較詳盡的數(shù)據(jù),譬如我們想要知道七歲到卜二歲小孩的壓歲錢流到那里去,

如果進(jìn)行全體調(diào)查的話,由于人力和物力的限制,我們只能針對(duì)每一個(gè)小孩

取得一點(diǎn)點(diǎn)資料,但是如果是抽樣調(diào)查,則因?yàn)檎{(diào)查對(duì)象不多,反而可以很

從容的取得細(xì)節(jié)資料提供分析之用。每十年一次的人口普瓷,除了全體都查

之外,總是還要再抽取少數(shù)樣本做更詳盡的訪問(wèn)就是這個(gè)道理。(五)因?yàn)橐?/p>

減輕損失,例如汽車車身的耐撞試驗(yàn),罐頭食品的安全檢查,或是電燈泡壽

命的質(zhì)量管理檢驗(yàn)。這些調(diào)查本身就具有破壞性,總不能每部汽車都撞一撞,

或是每個(gè)罐頭都打開(kāi)檢查,這種情形非得進(jìn)行抽樣檢驗(yàn)不可,而且樣本數(shù)目

還要控制到越少越好。

二、機(jī)率抽樣與非機(jī)率抽樣

在談抽樣設(shè)計(jì)之前,讓我們先厘清一下這里所談的抽樣是指機(jī)率抽樣,

也就是說(shuō):「在完整定義的母體之中,每一個(gè)個(gè)體都有一個(gè)不為零的中選機(jī)

會(huì)」。凡不屬于這個(gè)定義范圍的都是非機(jī)率抽樣。常見(jiàn)的非機(jī)率抽樣方法,

綜合Kish(1965)和CochranQ977)的說(shuō)法,有下列幾種:

(一)偶遇樣本(haphazardsample)或便利抽樣(convenientsample)?

是碰到誰(shuí)就選誰(shuí)的抽樣,做研究的人并不在乎調(diào)查對(duì)象是否有代表性,例如

生物學(xué)家解剖青蛙,心理學(xué)家觀察人們對(duì)聲光刺激的反應(yīng),醫(yī)生征求自愿者

做藥物反應(yīng)的實(shí)驗(yàn)等等。

(―)立意選樣(purposivesampling)或判斷選樣(judgmentsampling),批注[al]:要照顧好個(gè)省的情況。不得己而為之。造

成了不等機(jī)率抽樣。所以要加權(quán)。立意選樣按照母體的

這是經(jīng)由專家主觀判斷,立意選定他們認(rèn)為「有代表性」的樣本來(lái)觀察。例資料來(lái)分層,事后分層把母體的結(jié)構(gòu)找出來(lái)

如人類學(xué)家或社會(huì)學(xué)家會(huì)選定一個(gè)或幾個(gè)村莊來(lái)代表鄉(xiāng)村地區(qū),交通專家選

定幾個(gè)路口來(lái)計(jì)算交通流量,教育專家選定兒個(gè)學(xué)校班級(jí)的學(xué)生來(lái)代表所有

的學(xué)生等等。

(三)自愿樣本(volunteersubjects)?聽(tīng)任自動(dòng)送上門來(lái)的人組成

樣本群。

(四)配額選樣(quo:asampling),依照母體的人口特征按比例分

配樣本數(shù),在配額之內(nèi)進(jìn)行非機(jī)率抽樣,也就是把調(diào)查對(duì)象依照特征分類后,

根據(jù)各類別的百分比每類立意選樣至額滿為止。例如某個(gè)地區(qū)七歲到十二歲

的小孩之中,約有一半是男的,另一半是女的,有四分之一住在都市,四分

之三住在鄉(xiāng)村。如果樣本數(shù)是一千,則根據(jù)上述各類別的比例先算出各種特

征交叉匯編后每一組合的配額,在配額內(nèi)立意選出符合該類別的人即可。這

樣做可以節(jié)省時(shí)間和資源,而又維持了樣本的「代表性」。

(五)雪球抽樣(snowballedsample),先找到原始受訪者,然后再

從受訪者所提供的信息找到其它受訪者。

以上這些非機(jī)率抽樣方法由于沒(méi)有機(jī)率做推論基礎(chǔ),大多只能做描

述性的用途,而不能對(duì)全體做科學(xué)的估計(jì)或驗(yàn)證理論的假設(shè)檢定,因?yàn)樗鼈?/p>

提不出確切的誤差數(shù)據(jù),無(wú)法計(jì)算樣本數(shù)據(jù)的準(zhǔn)確程度。

貳、抽樣的基本原理

假設(shè)某個(gè)地區(qū)七歲到十二歲的小孩共有兩百四十萬(wàn)人,如果我們要抽取

一「?jìng)€(gè)人來(lái)調(diào)瓷有關(guān)他們的壓歲錢收入和支出情形,怎么抽才會(huì)「準(zhǔn)」呢?

用常識(shí)來(lái)判斷,總要有一些都市人,一些多下人,要男生,也要女生,耍富

豪子弟,也要清寒子弟等等。這些顧慮都是擔(dān)心萬(wàn)一抽得不好,變成瞎子摸

象,整個(gè)推論就失效了。

在談抽樣原理之前,首先讓我們先熟悉幾個(gè)名詞和符號(hào)。

一、資料的中心點(diǎn)和離散程度:平均數(shù)和標(biāo)準(zhǔn)差

大家都知道平均數(shù)是什么,它是所有個(gè)案觀察值的總和除以累加的個(gè)案

數(shù),也就是我們通常說(shuō)的一組資料的中心點(diǎn)。我們把全體的平均數(shù)寫成u(念

成mu).它的定義是:

p=(xi+X2+...+XN)/N..........................(2.1)

式中N是全體的總個(gè)案數(shù),x,是第i個(gè)個(gè)案的觀察值。

其次一個(gè)名詞是標(biāo)準(zhǔn)差。(念成sigma),是衡量一組資料中各個(gè)點(diǎn)和中

心點(diǎn)之間的「標(biāo)準(zhǔn)距離」。也就是衡量一組數(shù)據(jù)中各點(diǎn)的集中或離散程度。

它的定義是:

2

b=+J[(X|-〃)2+(x2-A)+…+(XJV(22)

從定義上來(lái)看,它是每一個(gè)點(diǎn)和中心點(diǎn)R的差,平方后累加起來(lái)取平均數(shù),

再開(kāi)根號(hào)還原。平方的原因是要避免各點(diǎn)和中心點(diǎn)的差正負(fù)相抵。

二、正態(tài)分布和中央極限定理

假設(shè)這個(gè)地區(qū)兩百多萬(wàn)個(gè)七歲到十二歲小孩的壓歲錢平均數(shù)是U,標(biāo)準(zhǔn)

差是?!,F(xiàn)在我們要抽取一千個(gè)樣本,從樣本觀察值來(lái)估計(jì)U,一個(gè)很自然

的選擇是用樣本的平數(shù)來(lái)估計(jì),讓我們把樣本的平均數(shù)寫成又(念成XBar,

Bar是橫杠的意思),它的定義是:

x=(芭+$+…(23)

式中n是樣本數(shù)。

如果我們使用一套機(jī)率抽樣的作業(yè)程序抽出一千人,取得他們的觀察值

后會(huì)得到一個(gè)平均數(shù),把它寫成表示是第一次抽樣得到的結(jié)果。現(xiàn)在把

整個(gè)作業(yè)重做一遍,我們可能得到不同的一千個(gè)人,因?yàn)樵跈C(jī)率抽樣之下每

個(gè)人都有中選的機(jī)會(huì),重新做一遍就可能抽到不同的人。我們把第二次抽樣

的結(jié)果寫成高。當(dāng)然這個(gè)工不一定會(huì)和T相同,就像兩顆子彈不會(huì)射中相

LI

同的一點(diǎn)一樣。如此一直做下去,如果我們做K次的話,會(huì)有,…,“一

共有K個(gè)樣本平均數(shù)。在數(shù)學(xué)上有個(gè)中央極限定理,它的內(nèi)容是:在樣本數(shù)

足夠大的情況下,如果把這K個(gè)又排起來(lái),它們會(huì)形成正態(tài)分布,而這些樣

本平均數(shù)的平均數(shù)會(huì)等1I,這些樣本平均數(shù)的標(biāo)準(zhǔn)差會(huì)等于

什么是正態(tài)分布呢?它是一種鐘形,以平均數(shù)為中心、左右對(duì)稱的圖形

分布。譬如說(shuō),全校同學(xué)的身高由低而高排列起來(lái),會(huì)有少數(shù)人很矮或很高,

大部分人集中在中間,而越靠近平均身高的人會(huì)越多,形成像鐘形的樣子。

并實(shí)上,我們可以利用正態(tài)分布的特性計(jì)克出身高在某一高度之間者到底有

多少人。這是因?yàn)楦鶕?jù)正態(tài)分布,有68%的人會(huì)落在平均數(shù)左右一個(gè)標(biāo)準(zhǔn)差

距離之內(nèi),有95%的人會(huì)落在平均數(shù)左右兩個(gè)標(biāo)準(zhǔn)差之內(nèi),而有99.7%的人

會(huì)落在平均數(shù)左右三個(gè)標(biāo)準(zhǔn)差范圍之內(nèi)的緣故。

三、點(diǎn)估計(jì)、區(qū)間估計(jì)、和信賴系數(shù)

根據(jù)中央極限定理,我們知道如果做很多次抽樣的話會(huì)得到很多個(gè)滅,

而這些又排起來(lái)會(huì)形成正態(tài)分布,它們的平均數(shù)是u,標(biāo)準(zhǔn)差是。/冊(cè)。換

句話說(shuō),有68%的%會(huì)落在〃±o7冊(cè)之間,有95%的X會(huì)落在〃±2b/之

間,有99.7%的又會(huì)落在〃±3c6之間。

把上述的說(shuō)法稍為轉(zhuǎn)換一下就變成:有68%的又不b/會(huì)包含著U,

有95%的又干2。/新會(huì)包含著u,有99.7%的又不3o7?會(huì)包含著口,而這

就是抽樣和估計(jì)最根本的道理。我們從全體之中以機(jī)率抽樣方式抽取n個(gè)樣

本,取得樣本觀察值,計(jì)算它們的平均數(shù)又,然后加減兩倍的品得到'

組上下區(qū)間,然后說(shuō):我們有95%的信心,這個(gè)上下區(qū)間一定會(huì)包含著全體

的平均數(shù)口。如果我們?nèi)圆环判牡脑?,可以用又加減三倍的。/石,那么這

組區(qū)間包含著u的信賴度就有99.7%。

用樣本平均數(shù)天來(lái)估計(jì)全體的平均數(shù)u稱為點(diǎn)估計(jì)。點(diǎn)估計(jì)命中目標(biāo)的

機(jī)會(huì)是很低的,因?yàn)橹粦{著少數(shù)樣本觀察值得到的結(jié)果要和全體的平均數(shù)吻

合幾乎是不可能的事,所以我們最好不要用點(diǎn)估計(jì),而要用區(qū)間估計(jì)。根據(jù)

中央極限定理和正態(tài)分布的特性我們知道又士。/4這個(gè)區(qū)間包含著全體平

均數(shù)口的機(jī)會(huì)有68%,'±2。/新的機(jī)會(huì)有95%,而又±3CT/4的機(jī)會(huì)有

99.7%!真正可靠的估計(jì)勢(shì)必要用區(qū)間估計(jì),只有這樣做我們才可以知道估

計(jì)準(zhǔn)確的程度,而這68%,95%,99.7%就稱做是信賴系數(shù)。說(shuō)得更確切一點(diǎn),

以95%信賴系數(shù)為例,它的意思是:如果我們進(jìn)行一百次獨(dú)立的抽樣估計(jì),

會(huì)有一百個(gè)樣本平均數(shù),也會(huì)有一百個(gè)區(qū)間估計(jì),而這一百個(gè)區(qū)間估計(jì)里會(huì)

有95個(gè)正確地包含著全體平均數(shù)口。實(shí)際上我們不會(huì)做一百次抽樣,而是只

做一次,所以說(shuō)這一次抽樣而興的區(qū)間估計(jì)會(huì)包含著口的機(jī)會(huì)是95%,信賴

系數(shù)越高?,估計(jì)的區(qū)間也就越寬,這是高信賴系數(shù)所必須付出的代價(jià)。譬如

我們估計(jì)全國(guó)七歲到十二歲小孩的壓歲錢平均數(shù)是在10元到100()元之間。這

個(gè)估計(jì)即使有99.7%的信賴度也沒(méi)有什么用,因?yàn)檫@段區(qū)間實(shí)在太寬了,如

果是100元到120元之間,而且信賴系數(shù)是99.7%,這就是個(gè)非常好的估計(jì)。我

們學(xué)習(xí)抽樣方法就是要使這個(gè)信賴區(qū)間盡可能的縮小。

剛剛提到過(guò)一個(gè)好的估計(jì)必須既準(zhǔn)又穩(wěn),我們用又來(lái)估計(jì)口,如果做很

多次的話,會(huì)有很多個(gè)又。中央極限定理已經(jīng)給我們保證,這些亍的平均數(shù)

會(huì)等于口,所以是I■準(zhǔn)」的估計(jì)已無(wú)問(wèn)題,但是這些刀是否都靠近在?起,

稱得上是「穩(wěn)」呢?這就要看這些天的標(biāo)準(zhǔn)差了。我們已經(jīng)知道刀的標(biāo)準(zhǔn)差

是。/五,其中。是全體的標(biāo)推差,n是樣本數(shù),把樣本數(shù)加大會(huì)使得標(biāo)準(zhǔn)

差變小,所以我們馬上領(lǐng)悟到樣本數(shù)越大,估計(jì)也就越穩(wěn)。其次,。是全體

數(shù)據(jù)的標(biāo)準(zhǔn)差,我們并不知道它到底是多少,在區(qū)間估計(jì)里我們也需要用到

它,因此為了要知道估計(jì)的準(zhǔn)確程度,連全體資料的。也要一起估計(jì)才行。

至少有兩種方法來(lái)估計(jì)。,一是用樣本觀察值的標(biāo)準(zhǔn)差,它的定義是:

222

S=7((-v)-x)+(x,-x)+...+i>n-x)]Z(/?-l)..............(2.4)

在數(shù)學(xué)上可以證明用$2來(lái)估計(jì)三是合乎「準(zhǔn)」的要求的,但是這個(gè)方法必須

做完抽樣,取得樣本數(shù)據(jù)后才能派上用場(chǎng),有時(shí)很不方便事前的規(guī)劃和設(shè)計(jì)一。

二是用速向方式,我們知道通禽的數(shù)據(jù)若以平均數(shù)為中心,左右各二個(gè)標(biāo)準(zhǔn)

差的距離大概可以網(wǎng)羅絕大部分的數(shù)據(jù)。所以我們可以用常識(shí)判斷,找出這

組資料可能的最大數(shù)和最小數(shù)的差,再除以六,即是我們對(duì)。的速簡(jiǎn)估計(jì),

因?yàn)閺淖钚?shù)到最大數(shù)之間大概有六個(gè)標(biāo)準(zhǔn)差的距離。舉例來(lái)說(shuō):壓歲錢最

少的大概是零,最大的大概有一萬(wàn)元,差距是一萬(wàn),除以六得1667元,這就

是我們對(duì)。的估計(jì)。先不論我們抽樣得到的又是多少,在規(guī)畫作業(yè)時(shí)我們就

可以知道,如果樣本數(shù)是一千,那么95%信賴度的區(qū)間寬度是±2。/4,估

計(jì)是±2XI667/Viood或是±105元,這個(gè)寬度通常也叫做抽樣誤差。

四、抽樣誤差和樣本數(shù)的決定

習(xí)慣上我們都以95%的信賴系數(shù)做為一般抽樣設(shè)計(jì)的常模,因此公式

就成為我們決定樣本數(shù)和誤差大小的依據(jù)。上述的例子說(shuō)明了如果樣

本數(shù)是一千,則抽樣誤差是±105元。若希望把誤差控制在±50元之內(nèi),那么

至少需要多少樣本呢?我們可以代入公式,計(jì)算50=2x1667/祈得至Un應(yīng)

該是4446人。

另外一個(gè)比較快速的估計(jì)方式是使用百分比。假設(shè)我們想調(diào)杳的是全體

國(guó)民之中有多少百分比的人吸煙,則以前的平均數(shù)現(xiàn)在變成百分比,亦即從

0至IJ1之間的一個(gè)數(shù)字。樣本百分比的標(biāo)準(zhǔn)差則跟著這個(gè)百分比變化,但是

絕對(duì)不會(huì)超過(guò)05/4,為了保險(xiǎn)起見(jiàn),我們就用05/4來(lái)代入,換句話說(shuō),【批注不2]:P(l-P)開(kāi)方,最大值0.5制.晨~

原來(lái)的公式2。/而現(xiàn)在變成2Ko.5/6=1/6,這是估計(jì)的最大抽樣誤差。

例如樣本數(shù)為400時(shí),抽樣誤差為±1/20=±0.05;樣本數(shù)為900時(shí),抽樣誤差

是±0.033:同理,樣本數(shù)一千六百時(shí),抽樣誤差是正負(fù)二點(diǎn)五個(gè)百分點(diǎn);樣

本數(shù)二千五百時(shí)抽樣誤差是正負(fù)二個(gè)百分點(diǎn)。我們可以看到樣本數(shù)在一千到

一千六百時(shí)最劃得來(lái):若再往上加,經(jīng)費(fèi)會(huì)增加很多,但抽樣誤差卻減少得

很有限,并不經(jīng)濟(jì),所以一千到一千六百是最常見(jiàn)到的樣本數(shù)。

還有一件值得注意的事情是:樣本數(shù)的大小和母體總數(shù)的大小并沒(méi)有什

么關(guān)系。這似乎出乎一般人的意料之外。在理論上,如果樣本數(shù)和母體數(shù)的

比例,也就是抽取率,在百分之五以下的話,樣本數(shù)的決定幾乎不受母體數(shù)

的影響。美國(guó)有三億人,蓋洛普民意調(diào)查經(jīng)常把樣本數(shù)定在一千二百左右,

英國(guó)有六千萬(wàn)人,要達(dá)到相同的準(zhǔn)確度也需要相同的樣本數(shù),北京大學(xué)有三

萬(wàn)學(xué)生,同樣的也需要一樣多的樣本數(shù)。

參、單純隨機(jī)抽樣

在介紹抽樣方法之前,讓我們先認(rèn)識(shí)一下隨機(jī)數(shù)表(如附錄表一)。這

個(gè)表是根據(jù)兩個(gè)原則做出來(lái)的:(一)從0到9任何一個(gè)數(shù)字在任何位置出現(xiàn)

的機(jī)會(huì)都是一樣的。(二)每一個(gè)數(shù)字出現(xiàn)在任何一個(gè)位置并不影響其它數(shù)字

出現(xiàn)在其它的位置。換句話說(shuō),每一個(gè)數(shù)字的出現(xiàn)都是獨(dú)立的,從這兩個(gè)特

性我們可以引申到:(三)從00,01,02,......到98,99任何兩位數(shù)

出現(xiàn)在一-起的機(jī)會(huì)都是相等的。(四)從000,001,……到998,99

9任何三位數(shù)出現(xiàn)在一起的機(jī)會(huì)都是相等的。(五)以此類推到更多位數(shù)。

我們將透過(guò)以下抽樣方法的介紹來(lái)熟悉隨機(jī)數(shù)表的使用。

一、單純隨機(jī)抽樣的定義

單純隨機(jī)抽樣(simplerandomsampling,srs)的定義是:任何樣本數(shù)為n

的樣本組合中選的機(jī)率都是相等的。這個(gè)方法有理論上的用途,但實(shí)際上使

用的并不多。

二、單純隨機(jī)抽樣的執(zhí)行

把全體所有成員從1到N編號(hào),然后依隨機(jī)數(shù)表抽取n個(gè)號(hào)碼。例如從

四千人中抽五個(gè)人,把所有人自1到4000編號(hào),然后用隨機(jī)數(shù)表隨便選

一行開(kāi)始,假設(shè)我們選第三行,由于4000是四位數(shù),所以我們一次要用

四個(gè)數(shù)字以使得從0001到4000之間的每一個(gè)號(hào)碼都有相同的中選機(jī)

會(huì)。自上至下第.三行起自左向右,所有的數(shù)字都依次算入,它們是4546,

7717,0977,5580,0095,3286,3294,858

2,2269,0056,5271等。把超過(guò)4000的號(hào)碼舍去,

我們有0977.0095,3286,3294,2269五人號(hào)碼中選,

代表這五個(gè)號(hào)碼的人就是我們的樣本。

三、對(duì)母體平均數(shù)的估計(jì)

y=Z"n....................(3.1)

/'=1

四、y的變異數(shù)估計(jì)(抽出不放回)

A

V(y)=s2/n((N-n)/N)....(3.2)

22

式中s=£(y.-y)/(n-1)是樣本變異數(shù)。

五、對(duì)母體百分比的估計(jì)

P=.............(3.3)

7=1

式中y.=l如果第i個(gè)個(gè)案具備該特征,

y.=0如果第i個(gè)個(gè)案不具備該特征。

六、P的變異數(shù)估計(jì)(抽出不放回)

P(p)=(p(1-p)/n-1)((N-n)/N)......(3.4)

肆、等距抽樣SYS比較好J

一、等距抽樣的定義

等距抽樣(systematicsampling)也有人稱它為系統(tǒng)抽樣?它是先把全體

,N除以樣本數(shù)n,得到再用隨機(jī)

數(shù)表自1到K選一個(gè)隨機(jī)數(shù)R,則R,R+K,R+2K,……,R+(n-

1)K等號(hào)碼中選。例如四千人抽五人,K=4000/5=800,每隔

800個(gè)抽一個(gè),自1到800選一個(gè)隨機(jī)數(shù)。假設(shè)我們自隨機(jī)數(shù)表第五行

開(kāi)始,800是三位數(shù),所以我們要用三位數(shù),自上至下第五行,自左向右,

第一個(gè)是955太大舍去,第二個(gè)是929,也太大舍去,第三個(gè)是400,

所以編號(hào)400,1200,2000,2800,3600,這五個(gè)人中

選。

如果K不是整數(shù),我們可以四舍五入取整數(shù),也可以用「借一位小數(shù)I

的方法,也就是把所有的數(shù)字都向后挪一位數(shù),包括K值、隨機(jī)數(shù)值在內(nèi),

抽出之后再將此一小數(shù)去掉,如此則不會(huì)出現(xiàn)多抽或少抽一個(gè)樣本的情形。

例如N=50,n=6,K=8.33,借1位小數(shù),取K=83,由1到83取一個(gè)

隨機(jī)隨機(jī)數(shù)53,則得到53、136、219、302、385、468等五個(gè)樣本,將個(gè)位

數(shù)無(wú)條件刪去,則中選的樣本是第5,13,21,30,38,46等五個(gè)。

二、母體清冊(cè)(抽樣框可以有形也可以無(wú)形)(frame)的排列次序批注(a3]:無(wú)次序汽車通過(guò)十字路口可以亂抽p=o\有

次療p奐design<l(周期性p正)

公共汽車的乘客,百貨公司的顧客無(wú)形學(xué)校的學(xué)生?形

等距抽樣的效果和據(jù)以抽樣的母體清冊(cè)(frame)的排列次序有很大的關(guān)

系。理論上,等距抽樣的樣本平均數(shù)變異數(shù)是

2

V(yty)=[1+(n-1)p)a/n................(4.1)

Jp是[群內(nèi)相關(guān)系數(shù)」(intraclustcrcorrelation)

(4.2)

理論上,

_£(區(qū)-4)2

var(F)=------------

k

var(")=£(北--〃)-

kt=t,ij=、

var(r9)==火'(力-〃)/

kn/=i;=i

var(J)=二£[£3-〃)2+2£(?廣〃)儲(chǔ)-“)]

k,l/WI4?IJ?I

A〃八〃

var(rs>)=—(為-42+2£Z(%-匕廠〃)]

kn~r-l>1r-lj-1

P,vuy、之楚匕廠〃)%-〃)化廠〃)的一〃)

i=ij<fi、<=ij</

":p=----------------------=———------------------------------x--=2x------------------------------------

化/S+Drr2%(“+1內(nèi)2

2

/=ij<r

r=lJ=1

z£(匕廠1

...±L±!---------“

nk

-10*>

var(F,vv)=-r[kna~+phi(n+\]a~]=^-|i+(M-|)p]

hr

當(dāng)母體清冊(cè)呈無(wú)次序狀態(tài)完全隨機(jī)方式排列時(shí),p=0,樣本平均數(shù)的變異

數(shù)完全等于單純隨機(jī)抽樣下樣本平均數(shù)的變異數(shù),估計(jì)公式可以直接引用上

一節(jié)的所有公式(3.1)至(3.4)op,?負(fù)?,

樣本平均數(shù)的變異數(shù)比單純隨機(jī)抽樣下樣本平均數(shù)的變異數(shù)還要小,引用上

述公式形成高估。■樣本平均數(shù)的變

異數(shù)比單純隨機(jī)抽樣下樣本平均數(shù)的變異數(shù)還要大,引用上述公式形成低估。

例如在有次序排列的情況下:

N=9,n=3,K=3,

N,二l,2,3,4,5,6,7,8,9;

〃二5,

r=l時(shí),中選1,4,7,平均數(shù)為4,其群內(nèi)組合為(1,4)(1,7)(4,7):

r=2時(shí),中選2,5,8,平均數(shù)為5,其群內(nèi)組合為(2,5)(2,8)(5,8):

r=3時(shí),中選3,6,9,平均數(shù)為6,其群內(nèi)組合為(3,6)(3,9)(6,9)。

分子=3片-〃)="[(〃_『—

kx----------

2

分母=夙為-4)2=ZZ(yiy

kn

-〃)()號(hào)"-5)(4-5i+(1-5)(7-5)+(4-5)(7-5)+(2-5)(5-5)+(2-5)(8-5)

+(5-5)(8-5)+(3-5)(6-5)+(3-5)(9-5)+(6-5)(9-5)|

=-21

22。;廠”)2=(>5)2+(4-5)2+(7-5)2+(2-5)2+15-5)2+(8-5)2+(3-5)2+(6-5)2+

(9?—=60

……r〃x(〃-I).

-21/{八[\Hi

291

-——=-0.35

P=60|(?i-l)/2|x60[(3-l)/2|x60

~kn

222

va皈)=—[1+(M-1)/?]=—[14-(3-1)X(-0.35)]=—x().3

nnn

另一個(gè)例子是母體清冊(cè)在周期性排列的情況下:

N=9,n=3,K=3.

H尸1,4,7,2,5,8,3,6,9;

〃二5,

r=l時(shí),中選1,2,3,平溝數(shù)為2,其群內(nèi)組合為(1,2)(1,3)(2,3);

r=2時(shí),中選4,5,6,平均數(shù)為5,其群內(nèi)組合為(4,5)(4,6)(5,6):

r=3時(shí),中選7,8,9.平均數(shù)為8,其群內(nèi)組合為(7,8)(7,9)(8,9);

ZZ(匕-〃)(%-〃)=[。-5)(2-5)+(1-5)(3-5)+(2-5)(3-5)+...+(8-5)(9-5)]

ZZ化一〃)(%—〃)=51

ZZ(七一〃尸=(>5尸+(2-5)2+(3-5『+…+(9-5尸=60

p=---------------=0.85

[(3-l)/2Jx60

___22

var(rZ)=-[1+(/7-1)/?]=—x2.7

nn

所以在母體清冊(cè)有次序排列的情況下,等距抽樣的中選樣本[,i,以11

動(dòng)反映母體的代表性■在幾

乎大部分的母體清冊(cè)都計(jì)算機(jī)化之后,排序容易,等距抽樣勢(shì)將成為主流趨

勢(shì)。從另一方面來(lái)看,母體清冊(cè)如果是在周期性排列的情況下,這種情況大

多是時(shí)間序列或是經(jīng)濟(jì)方面的數(shù)據(jù),也有可能是有規(guī)則性的組合如軍隊(duì)、中

小學(xué)生等,〃為正值,抽樣誤差可能非常大,解決的辦法是抽取多個(gè)隨機(jī)數(shù),

例如有一組周期性排列的數(shù)據(jù),N=1000,n=10.K=100>若利用等距抽樣,

原為1至k抽一個(gè)隨機(jī)數(shù),現(xiàn)在改采1至rk抽r個(gè)隨機(jī)數(shù)。若r=2,則為1-200

抽2個(gè)r,假設(shè)抽到隨機(jī)數(shù)036和147,則中選的樣本是:36,147,236,347,

436,547,636,747,836,847.

等距抽樣的好處是快速方便,所以用得很多。有時(shí)候不知道N和n,只

知道K也可以用。譬如以百貨公司顧客、汽車乘客或球場(chǎng)觀眾為對(duì)象,若決

定卷三十人抽一人,則馬上即可進(jìn)行而不必事先知道全體有多少人,樣本要

多少等等。它的缺點(diǎn)是最怕遇到具有周期性的數(shù)據(jù),萬(wàn)一這一個(gè)周期和K成

比例,則樣本死守一個(gè)規(guī)則,完全失去代表性。例如每七天查一次帳,結(jié)果

永遠(yuǎn)查到一星期內(nèi)的同一天,后果必然不堪設(shè)想。

伍、分層隨機(jī)抽樣座[a4]:不分白不分,物以類聚

分層隨機(jī)抽樣(stralifiedrandomsampling)是先把母群體的所有個(gè)體依某

些特征分類,也就是分層,然后在各層之內(nèi)再進(jìn)行獨(dú)立的隨機(jī)抽樣。譬如某

個(gè)地區(qū)七歲到十二歲的小孩,我們可以先區(qū)分為都和鄉(xiāng)村兩大層,然后各自

以各層為新的全體進(jìn)行抽樣。這個(gè)方法的好處很多,不但可以減化工作量,

而且可以提高估計(jì)的精確度,只要分層時(shí)守著「同層之內(nèi)同構(gòu)型取其最大,

異層之間異質(zhì)性取其最大J的原則即可。如此可使得層內(nèi)的數(shù)據(jù)一致而集中,

標(biāo)準(zhǔn)差愈小,則抽樣誤差也愈個(gè)。

一、對(duì)母體平均數(shù)的估計(jì)

-1X-

/..........................(5.1)

二、八的變異數(shù)估計(jì)(抽出不放回)

*1A

P(八))((N.-n.)/N.)......(5.2)

A詢

三、對(duì)母體百分比的估計(jì)

吁....................(5.3)

IVJ-1

四、八的變異數(shù)估計(jì)(抽出不放回)

V3)=占之AY("(1?小)/n「1)((N;-n.)/N.)....(5.4)

N'占

五、各層樣本數(shù)的分配:紐曼的最佳分配(NeymaiTsoptimum

allocation)

如果不考慮各層的抽樣調(diào)查費(fèi)用或是各層的費(fèi)用沒(méi)有差別,則

n.=n(N.o./£/V.a)................(5.5)

/=]

可導(dǎo)致最小的抽樣誤差。

陸、比率估計(jì)

比率估計(jì)并不是抽樣方法的一種,卻是常用的一種估計(jì)方式。它借著輔

助變量當(dāng)作分母提出一些比前幾節(jié).直接估計(jì)較為間接但卻可能更好的估計(jì)方

法,譬如回歸就是其中一個(gè)例子。在接下來(lái)要介紹的集體抽樣方法用的也是

比率估計(jì)。

一、對(duì)母體比率值的估計(jì)

r=(之八)/(尤?。?y!x....................(6.1)

二、r的變異數(shù)估計(jì)

V(r)=———rv.......................(6.2)

'nN)M

式中Sr=Y(y-?。?/(n-1)................(6.3)

/=]

三、對(duì)母體平均數(shù)的估計(jì)

//?=((£匕)/(Z「))=rji<................(6.4)

/=i/=i

四、對(duì)〃,變異數(shù)的估計(jì)

柒、集體抽樣批注[a5]:能不用就不用

「'?,口祥|■徉.把■■小批注[a6]:數(shù)育、公共衛(wèi)生?般用得獎(jiǎng)J

譬如學(xué)校的班級(jí)就是常用的集群。

主要的功能是節(jié)省時(shí)間、人力和經(jīng)費(fèi),是很

不得已的作法,非萬(wàn)不得已不要采用。即使要用,也要守著「集群內(nèi)部異質(zhì)批注[a7]:樣本數(shù)失控,只適合政府用不適含學(xué)術(shù)界

用,因?yàn)橘Y料只能估計(jì)不能分析,只有柒體數(shù)據(jù)沒(méi)有個(gè)

性越大越好」的原則來(lái)做。體數(shù)據(jù)。不能做個(gè)案分析,一個(gè)學(xué)校4萬(wàn)人,一個(gè)學(xué)校

3000人,每個(gè)學(xué)校H來(lái)一個(gè)數(shù)據(jù)。每個(gè)學(xué)校的個(gè)案不

相等

一、對(duì)母體平均數(shù)的估計(jì)

(7.1)

式中y-是第i個(gè)集體所有樣本觀察值的加總,

n是抽出的樣本集體數(shù),

m:是第i個(gè)集體的個(gè)體數(shù)。

二、y的變異數(shù)估計(jì)

(7.2)

式中S;=Z(y--ym.)'!(n-1)(7.3)

/=!

N是母體總集體數(shù),

M是母體平均每一集體的個(gè)體數(shù)。

捌、多階段集體抽樣

一、兩段集體抽樣(two-stageclustersampling)

兩段或多段集體抽樣其實(shí)并沒(méi)有「集體全查」的意思,它是指在第一個(gè)

階段先抽出一部分集體(PrimarySamplingUnii,PSU),譬如說(shuō)大學(xué),然后在批注[a8]:蘇伊少需?階段可以抽上層的比如省級(jí),

但樣本代表性不好。經(jīng)費(fèi)多可以從種菜抽比如縣級(jí)。不

下?個(gè)階段自中選的集體抽出第一階段的集體(SecondarySamplingUnit,SSU)過(guò)要從整體上思考??梢詮娜丝诿芏瓤紤],按照密度排

序,再抽100個(gè)縣

譬如說(shuō)系所,其次在,譬如說(shuō)學(xué)生。

(-)對(duì)母體平均數(shù)的估計(jì)(假設(shè)每個(gè)階段都是SRS抽出)

〃=(N/M)XM'"兒..............................(8.1)

f=l

式中M,是母體笫i個(gè)集體的總個(gè)體數(shù),

M是母體所有個(gè)體數(shù),

》是第i個(gè)集體的樣本平均數(shù)。

(二)〃的變異數(shù)估計(jì)

N-nM,一m,

V(//)=(sJ/m.)

式中S;=S(NLy:-M4)'/(n-1)

/=]

2

(8.2)

-yt!(m>-1)

二、抽取率與單位大小成比例的多階段抽樣(probability批注(a9]:階段越少越好.誤差越小??紤]代表性、

錢、人、時(shí)間.例如選校、系、人.三階段“我們可以

proportionaltosize,沖)才常巧妙的■■可以■■■樣■選中的斷■選20*2*50=2000資金玳之的做法,小在乎學(xué)校和學(xué)校

的差異,在乎人的差異;50*2*20=2000資金充足的做

法。在乎學(xué)校和學(xué)校的差異,不在乎人的差異。第一階

這個(gè)方法大多用在規(guī)模比較大的抽樣工作。譬如調(diào)查對(duì)象是某個(gè)地區(qū)七段可以按照省將學(xué)校擇序或者按照學(xué)校規(guī)模.甚至按女

生人數(shù)排序.然后等幣抽樣.第二階段隴后按系排

歲到十二歲的小孩,我們?cè)诘谝浑A段先抽取一部分鄉(xiāng)鎮(zhèn)市區(qū),第二階段再自A"b=k然后抽人.Bj/C=k

中選的鄉(xiāng)鎮(zhèn)市區(qū)抽村或居委會(huì),第三階段再自中選的村或居委會(huì)抽戶或直接

抽人。在抽樣過(guò)程中每一階段各單位的中選機(jī)率和那個(gè)單位的大小成比例,

也就是單位越大的中選機(jī)率越高。但是到最后結(jié)算下來(lái),所有全體的每一個(gè)

成員都有相等的機(jī)會(huì)被抽中。讓我們看一個(gè)多階段抽樣的例子(如表&1):

表8.1

區(qū)個(gè)案數(shù)累積個(gè)案數(shù)

110001000

220003000

320005000

415006500

530009500

6400013500

7250016000

現(xiàn)在要從全體七個(gè)區(qū)總共16000人中第一階段先抽取兩個(gè)區(qū),然后再自

中選區(qū)中每區(qū)各抽50人,也就是自全部16000人中抽取100人。

第一階段要抽兩個(gè)區(qū),意思是每隔16000/2—8000人抽一個(gè)

區(qū),自1至8000選一個(gè)隨機(jī)數(shù),假設(shè)自隨機(jī)數(shù)表第八行開(kāi)始,我們需要

四位數(shù),結(jié)果6094中選,其次6094+8000|=14094中選。批注(alO]:防止隨機(jī)數(shù)落在同一個(gè)選區(qū))

這兩個(gè)號(hào)碼一個(gè)落在第四區(qū),另一個(gè)在第七區(qū),所以兩個(gè)區(qū)中選。這個(gè)階段

各區(qū)中選的機(jī)率要看各區(qū)的大個(gè)而定。其次,我們?cè)俜謩e自第四區(qū)和第七區(qū)

各抽50人,方法可以自行決定,單純隨機(jī)方式或■■均可。為什么說(shuō)

全體之中的每一個(gè)人中選機(jī)會(huì)都相等呢?譬如李先生位在第三區(qū),他中選的

機(jī)率是:批注[all]:a*Ai/R*b/Ai=n/N)

2x2(X)0501(X)

-----------------X------------=------------

1600()2(XX)16(X)0

(把第一階段的中選率看做是2000/8000可能較容易了解)而王先

生位在第六區(qū),他中選的機(jī)率是

_2_x_4_0_0_0x__5_0_=__1_0_0_

16(X)04(XX)-16(XX)

很顯然的,到最后每一個(gè)人中選的機(jī)率都是100/16000,也就是早

先決定的抽取率。

<-)對(duì)母體平均數(shù)的估計(jì)

(8.3)

(二)的變異數(shù)估計(jì)

V〃修)2.....(8.4)

玖、其它抽樣方法

全查沒(méi)有代表性,有時(shí)可以利用交情全查,查回來(lái)后用PPS處理,個(gè)案就有代表性了

一、雙重抽樣(doublesampling,ortwophasesampling)

這是先以低廉的代價(jià)先自全體之中抽取大量的樣本,然后再向這群樣本批注[al2]:快速低康的方式通常是電話訪問(wèn)。篩選.

對(duì)公共汽車的乘客.

中抽取第二次樣本。在流行病學(xué)的研究里比較常見(jiàn)到這種方法。通常是先用

很快的方法初步選取大量的樣本驗(yàn)血,然后再自有反應(yīng)的血液中追溯抽樣,

選取少數(shù)的樣本進(jìn)行詳細(xì)的查驗(yàn)工作。

在設(shè)計(jì)?流程中,有時(shí)會(huì)遇到定義母體困難或抽樣清冊(cè)無(wú)從建立的情況,

譬如汽車使用者的意見(jiàn)調(diào)查,或?qū)W校畢業(yè)生的成就調(diào)查,最常見(jiàn)到的則是某

項(xiàng)服務(wù)或某項(xiàng)產(chǎn)品的消費(fèi)者意見(jiàn)調(diào)查。這些調(diào)查的共同困難是建立抽樣清冊(cè)

極不可能或代價(jià)極高。在實(shí)務(wù)上就可以使用雙重抽樣來(lái)解決,先以較快速低

廉的代價(jià)進(jìn)行抽樣調(diào)查,如電話訪問(wèn)或信件回郵,只詢問(wèn)受訪者資格方面的

問(wèn)題,其次再自合格的樣本中第二次抽樣,進(jìn)行訪問(wèn)。

二、「捉一放一捉」式的野生動(dòng)物抽樣(capture-rec即toremethod)

這種方法主要用來(lái)估計(jì)野生動(dòng)物的數(shù)目。通常是選定某些地區(qū)在一定的

時(shí)間內(nèi)捕捉動(dòng)物。在動(dòng)物身上記上標(biāo)志后放走,隔了一陣時(shí)間后再于同一地

區(qū)捕捉動(dòng)物,打上標(biāo)記后再放走,如此一再重復(fù)進(jìn)行。統(tǒng)計(jì)專家們可以用重;批注[al3]:在相M的地點(diǎn)可笈

復(fù)被捉的機(jī)率來(lái)推完該區(qū)動(dòng)物的總數(shù)。批注[al4]:也可以研究城市,把大地區(qū)切割成小格

子。評(píng)估治安。每季或者每月調(diào)杳一次,是否是犯罪的

被擊者。重復(fù)被擊率.FBI的網(wǎng)站上公布官方數(shù)字。地

下賭場(chǎng)的估計(jì).

三、敏感性問(wèn)題的隨機(jī)反應(yīng)估計(jì)(randomizedresponse)

有時(shí)候研究者必須對(duì)敏感性的問(wèn)題做出合理的估計(jì),售如同性戀傾向,批注(al5]:比如買票.但是電話調(diào)查很難.生日是單

數(shù)回答。血型是0型的回答.生日是0123,456,789

考試舞弊,或是墮胎等議題。一個(gè)可行的方式是準(zhǔn)備一迭卡片,其中有。百誠(chéng)實(shí)何答考試有沒(méi)有作弊,面訪容易成功a

分比的卡片是正面陳述,例如「我考試作弊」,其余卡片則是反面陳述,例

如「我考試沒(méi)有作弊」。訪員可以請(qǐng)受訪者過(guò)目所有卡片后洗牌抽出一張,

然后問(wèn)受訪者I■是不是同意抽中卡片上所說(shuō)的事」,假設(shè)所有回答「是」的

受訪者人數(shù)為m,則母體考試作弊的百分比估計(jì)為:

"____)_幺1-0

(9.1)

2^-17-10-\

1

V(p)=z...................(9.2)

(26>-1)'nn\n)

通常。值不等于0.5以免分母為零,此外這種估計(jì)通常都放在問(wèn)卷最后一題,

而且不能進(jìn)行交叉分析。

區(qū)域抽樣(area,sampling)

用地圖來(lái)抽樣,采用PPS抽樣,psu為county.第二階段為戶LI普查區(qū)或者鄉(xiāng)鎮(zhèn),

然后選街道(在美國(guó)四個(gè)街道圍起來(lái)為一個(gè)Block。估計(jì)Block的單位的規(guī)模

Size人口數(shù),不用很準(zhǔn)就是排序累加。抽完后?定要真的調(diào)查每個(gè)街道的戶

數(shù),然后抽第一戶。戶中選樣。每戶選一個(gè)人利用KISHTABLE找人。8+12個(gè)

表(在訪員身上輪)問(wèn)戶中合格人數(shù)年齡最大的、中的小的。

拾、抽樣設(shè)計(jì)與執(zhí)行步驟

在我們面臨一個(gè)抽樣調(diào)查或研究案時(shí),通常會(huì)依照下列步驟進(jìn)行:

一、決定數(shù)據(jù)的搜集方式:面訪、郵寄問(wèn)卷、電話訪問(wèn)、或混合使用。

二、定義母體。

三、決定操作性定義及據(jù)以抽樣的母體清冊(cè),如會(huì)員名單、戶籍?dāng)?shù)據(jù)、或電

話簿。

四、決定樣本數(shù)。

五、分層。

六、決定各層樣木數(shù)。

七、各層獨(dú)立進(jìn)行抽樣設(shè)計(jì)。

八、分段。

九、決定各段抽出單位數(shù)。

十、執(zhí)行。

十一、列出母體參數(shù)的推估公式及其變異數(shù)之估計(jì)式:如有必要加權(quán),列出

加權(quán)公式。

以下我們將討論其中的一些考慮因素。

一、面訪、郵寄問(wèn)卷、與電話訪問(wèn)

一般說(shuō)來(lái),面訪所需經(jīng)費(fèi)最大,行政作業(yè)繁雜,訪問(wèn)失敗問(wèn)題嚴(yán)重,數(shù)

據(jù)質(zhì)量亦難監(jiān)控,其抽樣設(shè)計(jì)著重在如何有效率地運(yùn)用有限資源,使得訪員

順利接近受訪者。因此在初步對(duì)調(diào)查對(duì)象的操作性定義上,通常先把困難度

高、耗費(fèi)大、工作負(fù)荷重的地區(qū)排除在外,或單獨(dú)列為一次母體另行處理。

郵寄問(wèn)卷和電話訪問(wèn)滲透力強(qiáng),無(wú)遠(yuǎn)弗屆,行政作業(yè)易于掌握,抽樣設(shè)計(jì)束

縛條件極少。然而郵寄問(wèn)卷右回收率的問(wèn)題,電話訪問(wèn)自不完整包羅性和問(wèn)

卷不能深入的問(wèn)題,抽樣設(shè)計(jì)邑然容易,非抽樣的問(wèn)題則難以解決。

二、樣本數(shù)的決定

數(shù)據(jù)搜集方式和調(diào)查對(duì)象確定之后,第一件要做的事就是決定樣本數(shù)。

一般要考慮的因素有:

(-)抽樣誤差

假設(shè)非抽樣誤差(譬如問(wèn)卷設(shè)計(jì)不當(dāng)、訪員作假、數(shù)據(jù)鍵入錯(cuò)誤)不存

在,只計(jì)算因抽樣而來(lái)的估計(jì)。和母體參數(shù)。的差異量,通常用平均差方

(MeanSquaredError,MSE)表示,MSE-E(O-Oy,E表示期待值或平均數(shù),

則MSE=va@)+/>52,第一項(xiàng)是0的變異數(shù),表示每次抽樣都會(huì)得到不同

的。,如果做很多次,這些。就會(huì)有集中或分散的現(xiàn)象,用var(G)示之,是對(duì)

母體參數(shù)估計(jì)的穩(wěn)定程度或可靠度的意思;bias表示偏差,如果做許多次抽樣

的話,會(huì)有許多個(gè)0,這些°的平均數(shù)和被估計(jì)的母體參數(shù)6的差即是偏差。

一般情況下,偏差均可透過(guò)統(tǒng)計(jì)方法控制為零,所以抽樣誤差一般也指估計(jì)

的穩(wěn)定程度。不同的抽樣設(shè)計(jì)和估計(jì)方法會(huì)有不同的抽樣誤差,直接影響到

對(duì)母體推估的精確程度。樣本數(shù)越大,得到的估計(jì)值越穩(wěn)定,抽樣誤差也越

小,但它們之間并不成簡(jiǎn)單的比例,所以必須咨詢專家,決定最有效率的樣

本數(shù)和可以容忍的推論誤差。常見(jiàn)到的抽樣誤差表達(dá)方式,是換算成對(duì)母體

參數(shù)區(qū)間估計(jì)的上下限,例如我們常會(huì)見(jiàn)到「以95%信賴度估計(jì),對(duì)母體

的各項(xiàng)推論最大抽樣誤差不會(huì)超過(guò)正負(fù)3%J即是。

(-)經(jīng)費(fèi)、工作量、和時(shí)效

在現(xiàn)實(shí)世界里資源有限,樣本數(shù)的大小通常由可運(yùn)用資源的多彩來(lái)決定,

必須和前一項(xiàng)抽樣誤差妥協(xié)。

(三)次母體推論的精確度

抽樣調(diào)查的目的有時(shí)也包括對(duì)次母體的推論,譬如以某個(gè)地區(qū)民眾為對(duì)

象的抽樣調(diào)查,會(huì)以地區(qū)內(nèi)各縣市?為推論次母體,若每一縣巾的推論都要達(dá)

到相當(dāng)程度的精確度,則每一縣市就需要相當(dāng)于那個(gè)精確度的樣本數(shù),如此

一來(lái),整個(gè)調(diào)查地區(qū)的樣本數(shù)勢(shì)必要膨脹。同樣的道理,這些次母體有時(shí)候

可以是地區(qū)、城鄉(xiāng)、行業(yè)、公私立別等等.

(四)深入研究的必要性

有時(shí)候整個(gè)調(diào)查計(jì)劃的目的在做深入的比較分析,例如民眾的吸煙行為

會(huì)和教育程度、性別、行職業(yè)、地區(qū)、收入、年齡等有密切的關(guān)系。欲深入

研究其間之交互作用,則這些因素交叉之后每個(gè)組合交集必須要有起碼的樣

本數(shù),以此最低要求反向推估所需的樣本總數(shù)。這種性質(zhì)的調(diào)查比起單純的

母體百分比推估所需的樣本數(shù)顯然較大。

(五)抽取率

從理論上來(lái)看,樣本數(shù)的決定和抽取率并無(wú)太大關(guān)系,實(shí)際上,每100

人抽1人和每500人抽1人,如果樣本數(shù)相同,雖然母體大小相差很大,

但兩者的抽樣精確度是可認(rèn)定為完全相同的。只有在抽取率高于每20人抽

1人時(shí),才要考慮到這個(gè)囚索。

(六)樣本的累積

有些按月、季、年調(diào)查的抽樣設(shè)計(jì),每次調(diào)查的樣本數(shù)是可以累積的,

譬如國(guó)民營(yíng)養(yǎng)狀況調(diào)杳、健康衛(wèi)生和疾病調(diào)存、傳播媒體閱聽(tīng)調(diào)杳等??梢?/p>

累積的理由是:這些性質(zhì)的調(diào)查對(duì)象生活習(xí)慣不會(huì)在短期內(nèi)有重大的改變。

不過(guò)要注意的是每次調(diào)查的母體定義必須相同,以免每次推論都是以偏概全,

造成嚴(yán)重的偏差。

(七)抽出樣本數(shù)與有效樣本數(shù)

由于實(shí)務(wù)作業(yè)上必然會(huì)有訪問(wèn)失敗的現(xiàn)象.郵寄問(wèn)卷時(shí)這種情況尤其嚴(yán)

重,使得有效樣本數(shù)只能成為抽出樣本數(shù)的一個(gè)比例而己。如果僅以有效樣

本來(lái)對(duì)母體進(jìn)行推論的話,則會(huì)產(chǎn)生偏差,其幅度等于失敗率乘上有效樣本

和失敗樣本的差異。筆者(1989)建議依照預(yù)估的成功率擴(kuò)大抽出樣本數(shù),使得

最后完成的有效樣本數(shù)接近原先的規(guī)劃數(shù),并對(duì)失敗樣本進(jìn)行抽樣追蹤訪問(wèn),

得到有效樣本和失敗樣本之間差異的估計(jì),藉以修正以有效樣本來(lái)做推論所

造成的偏差。

三、分層與分段

(-)分層

母體定義清楚,樣本數(shù)決定后,接下來(lái)便是搜集有關(guān)資料進(jìn)行分層的

工作;這是因?yàn)閺某闃永碚搧?lái)看,分層抽樣可以很有效地降低推論的誤差。

另外一個(gè)重要的原因是行政上的考量,以推論次母體來(lái)分層(如各縣市或公

私匯學(xué)校)可使抽樣調(diào)查的目的易于達(dá)成。有關(guān)工商業(yè)界或各行業(yè)的抽樣調(diào)

杳尤其需要分層。有些調(diào)杳不但要依次母體分層,而且還不能合并做統(tǒng)一推

論,例如對(duì)各行業(yè)的抽樣調(diào)查就是一個(gè)典型的例子,由于絕大部分的企業(yè)單

位規(guī)模極小,而少數(shù)企業(yè)單位規(guī)模極大,不論以人或以企業(yè)單位做為推論的

個(gè)案基礎(chǔ)都有缺點(diǎn),最合理的做法是以行業(yè)和企業(yè)單位規(guī)模交叉分層,然后

以各層為次母體獨(dú)立進(jìn)行推論。

分層工作的原則是:「同層之內(nèi)同構(gòu)型愈大愈好,不同層之間各層平

均數(shù)差異星愈大愈好。」如此可以使得推估的誤差降至最小。分層之后各層

視同一個(gè)獨(dú)立的母體,分別進(jìn)行各層的抽樣設(shè)計(jì)。第一件要決定的事是如何

分配各層的樣本數(shù)。如果我們看望有一個(gè)等機(jī)率抽樣的設(shè)計(jì),則采用等比例

方式,依照各層母體人數(shù)占母體總?cè)藬?shù)的百分比分配樣本數(shù),亦即ni=nNi/N,

i=l.........K。其次,我們亦可依各層內(nèi)部的同質(zhì)程度來(lái)分配樣本數(shù),同構(gòu)

型越高者,分配樣本數(shù)越少,如此可使樣本數(shù)做最有效率的運(yùn)用,亦稱最適

分配或紐曼分配。第三種分配方式是立意分配,以主觀判斷給予各層樣本數(shù),批注[al6]:抽樣的時(shí)候同質(zhì)性少選擇的樣本少.差異

大標(biāo)準(zhǔn)差大的選擇樣本多

常見(jiàn)的做法是各層樣本數(shù)相等。

以上第二和笫三種方式都會(huì)造成不等機(jī)率抽樣,對(duì)母體的推論必須加

權(quán)處理。如果先分別計(jì)算各層平均數(shù)再合并推論母體,則各層之權(quán)值為

Wi=Ni/N,亦即各層人數(shù)占母體總數(shù)的比重,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論