第10章 非抽樣誤差_第1頁
第10章 非抽樣誤差_第2頁
第10章 非抽樣誤差_第3頁
第10章 非抽樣誤差_第4頁
第10章 非抽樣誤差_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

Chap10

nonsamplingerror一、非抽樣誤差的來源

非抽樣誤差就是由抽樣誤差以外因素引起的,因樣本觀察數(shù)據(jù)非同質(zhì)、或殘缺、或不真實而產(chǎn)生的誤差。為了使非抽樣誤差問題簡單化,我們可以按照抽樣調(diào)查的過程來考察其來源?!舫闃臃桨冈O計階段

◆數(shù)據(jù)收集階段

◆數(shù)據(jù)處理階段

抽樣誤差與非抽樣誤差非抽樣誤差的特點不隨樣本量增加而減少造成估計偏差難以測定與識別理論相對薄弱◆在抽樣方案設計階段,非抽樣誤差的來源:

(1)抽樣框的編制與準備不夠充分完善;

(2)問卷設計不夠科學合理。

◆在數(shù)據(jù)收集階段,非抽樣誤差的來源:

(1)調(diào)查數(shù)據(jù)的殘缺(無回答);

(2)調(diào)查數(shù)據(jù)的錯誤?!粼跀?shù)據(jù)處理階段,非抽樣誤差存在于對調(diào)查資料的整理、分組、計算、編碼和計算機錄入等過程中,是一種工作上的差錯。

◆把上述三個階段的各種非抽樣誤差加以歸納,可以概括為框誤差、無回答誤差和計量誤差三類。

其中計量誤差包括抽樣方案設計階段有缺陷的問卷設計、數(shù)據(jù)收集階段有錯誤的調(diào)查數(shù)據(jù)和數(shù)據(jù)處理階段工作上的差錯所帶來的誤差,也就是調(diào)查性誤差。

二、非抽樣誤差的特點非特有性:為非抽樣調(diào)查所特有;

非一致性:使抽樣估計結果產(chǎn)生偏差,并且樣本越大產(chǎn)生偏差的可能性越大;難測定性:難以對其進行描述和測定,具有很強的隱蔽性;難評價性:非抽樣誤差的存在使得對抽樣效果的評價與衡量復雜化;全過程性:存在于抽樣調(diào)查的所有階段。第一節(jié)無回答誤差

一、無回答誤差的成因

(一)無回答的含義

無回答(Nonresponse)是指未能取得所要搜集資料的一種現(xiàn)象,它包括兩種情況:個體無回答和項目無回答。個體無回答也稱全無回答,是指被調(diào)查者沒有接受調(diào)查、造成整張問卷出現(xiàn)空白的現(xiàn)象;項目無回答也稱部分無回答,是指被調(diào)查者回答了問卷中的部分調(diào)查項目未能回答其它調(diào)查項目的現(xiàn)象。不論是個體無回答還是項目無回答,都將導致調(diào)查數(shù)據(jù)殘缺不全,從而最終影響估計結果,降低估計精度或可靠程度。因無回答而造成的估計誤差,就稱為無回答誤差。

(二)無回答的成因1、遺漏了被調(diào)查者;2、被調(diào)查者地址不詳;3、調(diào)查內(nèi)容未達被調(diào)查者;4、被調(diào)查者拒絕回答;5、回答不準確或不知如何回答;6、忘記回答。以上各種原因,有的屬于客觀性,有的則屬于主觀性;有的屬于有意識,有的則屬于無意識;有的屬于調(diào)查人員方,有的則屬于被調(diào)查者方。樣本單位回答狀況分類(2)明確單位(3)其它(不明確單位)(1)全部單位(4)合格單位(5)不合格單位(3A)估計的合格單位(3B)估計的不合格單位(6)回答單位(7)無回答單位(8)不存在的單位(9)暫時不合格單位(10)永久性不合格單位(12)其他回答者(11)拒答轉(zhuǎn)變者(13)拒答者(14)未征尋者(15)其它無回答者回答率的計算回答單位數(shù)/全部樣本數(shù)回答單位數(shù)/明確樣本數(shù)回答單位數(shù)/合格樣本數(shù)回答單位數(shù)/(合格樣本數(shù)-拒答數(shù))二、無回答誤差的統(tǒng)計影響

為了測定無回答對抽樣的影響,先把總體分為兩層:回答層與無回答層。

就調(diào)查項目而言,如果無回答不是故意造成的(即與調(diào)查內(nèi)容無直接關系),且無回答現(xiàn)象不集中于某類特殊單位組成的群體,那么就可以認為這種無回答是由隨機因素引起的,這時無回答對抽樣的影響是因?qū)嶋H有效的樣本容量減少而使估計量方差增大,但卻不會造成估計量偏差。估計量方差增大的程度取決于無回答率。如果無回答是故意造成的(即與調(diào)查內(nèi)容直接有關),或無回答現(xiàn)象集中于某類特殊的群體,那么無回答層與回答層之間就存在明顯的非隨機性差異,這時,無回答對抽樣效果的影響,除了會增加估計量方差外,還會帶來較嚴重的估計量偏差。二、無回答誤差的統(tǒng)計影響導致估計量估計偏差若無回答者與回答者在調(diào)查項目的數(shù)量特征上存在差異,這種無回答就會導致無回答偏差

降低估計效率無回答減少了實際調(diào)查的樣本數(shù)量,因而擴大估計量的方差,導致估計效率降低

完全數(shù)據(jù)統(tǒng)計方法無法使用一般統(tǒng)計方法都適用于完整的矩陣數(shù)據(jù),無回答造成數(shù)據(jù)缺失,可能導致一些標準的完全數(shù)據(jù)統(tǒng)計方法不能直接用于數(shù)據(jù)分析。

如果在調(diào)查中出現(xiàn)個無回答、個有回答(+=),那么當總體無回答層與回答層之間無差異時,估計量方差就變?yōu)椋?/p>

=

從而估計量方差增大的量為:

===

其中==1-為樣本無回答率。

估計量方差增大的程度則為:

-1=

在這種情況下,為了達到抽樣方案所規(guī)定的抽樣估計效果,就需要增加樣本容量。如果總體無回答率為=,那么樣本容量應該確定為=。

如果令=為總體回答率,+=1,總體中回答層與無回答層的均值分別為和,樣本中回答層的均值為,那么當以來估計總體均值時,就會有偏差為:E()-=-

=-(+)

=(-)

偏差率為:

=其中=為回答層均值與無回答層均值之比。不難發(fā)現(xiàn),越接近于1(即無回答率越高),越遠離于1(即回答層與無回答層之間的均值差異越大),那么估計量的偏差就會越大,偏差率就會越高,估計結果就越不準確、越不可信。

還要注意的一個問題是,雖然從理論上講無回答會使估計量方差增大(即>),但在實際上卻難以得到客觀的反映,因為我們所能計算的只是(此處的是總體中的回答層方差,未知時要以樣本方差估計)。這樣,與相比,當>時就會高估,當<時就會低估。與相比,則還有一個回答率的問題,因為

=

所以當>時估計量方差高估,當<時低估。如果>,那么當=1時,必然會有=,估計量方差低估或高估的現(xiàn)象也就自然會消除??梢?,提高回答率是消除無回答影響的關鍵所在。例Thomsen和Siring(1983)的報告展示了挪威統(tǒng)計局于1969年進行的有關投票行為調(diào)查的結果。這次調(diào)查主要采取郵寄調(diào)查方式,并輔助以三次電話訪問,最終獲得9.9%的無回答率,這個數(shù)字通常被認為是比較小的。那么無回答者與回答者是否存在差異呢?無回答者與選中樣本之間在投票率上的差異在年輕的年齡群體中體現(xiàn)得較為顯著。無回答原因不同投票率也不同。拒絕參與調(diào)查的人群的投票率為81%,由于不在家而沒能參與調(diào)查的人群的投票率為65%,因病未參與的人群則為55%。小于10%的無回答率就導致了對挪威投票率的高估??傮w20-24歲25-29歲30-49歲50-69歲70-79歲無回答者715956727874選中樣本888184909184投票率(%)HoltandElliot(1991)討論了英國關于無回答的一系列研究結果,并指出“較低的回答率與以下特征有關:倫敦居民;無車家庭;單身;沒有子女的夫婦;老年人;離婚或鰥寡者;新英聯(lián)邦血統(tǒng);教育程度低;個體經(jīng)營者”。三、無回答誤差的控制

(一)事前準備充分,爭取盡量高的首

次回答率;(二)搞清無回答的原因,有針對性地

進行復調(diào)查;

(三)必要時,對無回答者進行替換;(四)對于一些敏感性問題,可以采用隨

機化回答技術(沃納模型,西蒙斯模型,格林伯格模型等);(五)當無回答不可避免時,可采用一些專門技術來調(diào)整估計結果,以減少估計偏差。四、無回答的補救措施替代法漢森與赫維茨(HansenandHurwitz,1946)方法復制估算法加權調(diào)整法插補法1.替代法訪員可以在實際調(diào)查現(xiàn)場選擇一個替代單位或使用事先準備的指定替代單位1975年密歇根州進行的物品濫用情況調(diào)查(MichiganSurveyofSubstanceAbuse)就是為了估計在前一年內(nèi)使用過16類物品的人數(shù)。根據(jù)抽樣設計,該調(diào)查采用分層多階段抽樣對2100個住戶進行了訪問。對每一個住處都重復訪問3次,若仍沒有人則嘗試其右側的住戶,接下來再嘗試左側住戶。2.漢森與赫維茨(HansenandHurwitz,1946)方法。

這種方法是先對抽中的被調(diào)查者進行郵寄(問卷)調(diào)查,然后從那些無回答者中抽選出一個子樣本進行訪問調(diào)查并盡量取得完整資料,最后把郵寄調(diào)查結果與子樣本訪問調(diào)查結果綜合起來得出總體指標的估計值。

這種方法的優(yōu)點是比多次復調(diào)查法節(jié)省費用,且估計量無偏、估計精度容易掌握和控制,因此當子樣本的個體資料能全部取得時比較適用。但所花的時間較長,且要保證取得子樣本的完整資料也不容易。3.復制估算法

這種方法是當無回答出現(xiàn)時,用其它已有的數(shù)據(jù)來頂替無回答的缺失數(shù)據(jù),進而對總體作出估計。用來頂替的數(shù)據(jù)可以從同次調(diào)查的回答者數(shù)據(jù)中抽選,也可以從以前的同類調(diào)查數(shù)據(jù)中選取或推算而得。在實踐中最常用的是從同次調(diào)查已取得的數(shù)據(jù)中隨機抽取。復制估算法的特點是,當頂替數(shù)據(jù)與無回答缺失數(shù)據(jù)充分接近時(這就要求與這兩者數(shù)據(jù)相對應的單位來自于同一類別,具有相似的特征),能有效減少估計偏差,但卻會增大估計量方差(均方誤差)。因此,如果我們能對總體進行分層且適當增大樣本容量,那么復制估算法就能很好地解決無回答偏差問題,且保證有較高的估計精度。這種方法尤其適用于“項目無回答”。4.加權調(diào)整法

這種方法是通過一定的權數(shù)對調(diào)查中的回答數(shù)據(jù)進行加權來達到對數(shù)據(jù)進行調(diào)整、減少因無回答造成的估計偏差的目的。權數(shù)由調(diào)查中的回答概率來確定,一般是該概率的倒數(shù)。即回答概率大的賦予較小的權,回答概率小的賦予較大的權,從而使估計量的偏差得到一些糾正。具體的加權調(diào)整法又有PolitzSimmons調(diào)整法、加權組調(diào)整法和事后分層調(diào)整法等。加權法(weighting):

主要用于單位無回答這種方法假定無回答與受訪者/受查者在家的概率有關。設在調(diào)查時間中受訪者/受查者在家的頻率為,則在估計變量的總體均值時,以作為回答概率的估計值,并使用其倒數(shù)來加權。關于加權的一些注意事項要求很高:即假定每一個加權單元中,回答者和無回答者是相似的,也就是說不管同一加權組中各單位的回答值是否相等,它們回答的可能性都相等。加權法可能會改進估計量,但它并不能消除所有的無回答偏差。常用于處理單位無回答,而非項目無回答5.插補法(imputationmethod)適用于解決項目無回答問題對每個缺失值都尋找一個或多個盡可能與其類似的插補值。一般的插補模型可以表示為:

Z=f(X)+e式中,Z是插補值,X是無回答單位的輔助變量向量,f()是輔助數(shù)據(jù)的某一函數(shù),e是殘差。插補法的效率如何,取決于插補值與原無回答數(shù)據(jù)的相似程度。

插補法根據(jù)插補值是否包括殘差,插補法可分為確定性插補和隨機性插補。根據(jù)確定插補值時是否使用輔助變量,將插補法分為使用輔助變量插補法和不使用輔助變量插補法。使用輔助信息的插補法又可根據(jù)信息來源分為熱卡法和冷卡法。熱卡法(Hot-Deck)中的輔助信息來自當前調(diào)查,冷卡法(Cold-Deck)中的輔助信息來自以前的同類調(diào)查或其它已有的關于無回答單位的相關資料。根據(jù)對每個缺失值的插補值的數(shù),插補法又可分為單一插補法(singleimputation)和多重插補法(multipleimputation)。演繹插補法(Deductiveimputation,DI)通過輔助資料的演繹,找出插補值,也是一種使用輔助變量的插補法。該輔助資料可能就來自本次調(diào)查,也可能來自其余調(diào)查或其他資料。冷卡法應用較多。該方法對輔助信息的要求比較高,使用時要注意演繹方法的正確性。例如:沒有受到過任何犯罪侵害,因此暴力犯罪受害者一項也應為0。在縱向調(diào)查中,如果一個女人在第1年和第3年訪問時都有2個孩子,而第2年的數(shù)據(jù)是缺失的,那么邏輯上的插補值就應該是2。均值插補法(Meanimputation,MI)利用回答單位的項目均值作為無回答項目的插補值。總均值差補法(Meanimputationoverall,MO)分層均值差補法(Meanimputationwithinclasses,MC)方便實施,但會破壞分布,低估方差。適于點估計為了避免尖峰的出現(xiàn),可以采用隨機單元均值插補法。假設條件為:各單元中的缺失項目為完全隨機缺失(MCAR)。熱卡法(Hot-deckimputation)輔助信息來自同一樣本的插補方法按照輔助變量,將回答單位分成為若干的“插補層”,然后,對每一個無回答單位,依據(jù)其輔助變量值,從相對應的“插補層”中尋找一個回答單位,以其變量值對無回答數(shù)據(jù)集進行插補。順序性熱卡插補法、最近距離熱卡插補、以及組內(nèi)隨機替代法等回歸法通過建立y與輔助變量間的回歸方程來補入缺失的y值。優(yōu)點:方法簡單,對無回答的估計效果好,對每個被插補變量,可以利用不同的預測變量缺點:如果沒有隨機誤差項,可能導致高估;可能造成多重共線性;可能降低方差。第二節(jié)

抽樣框誤差抽樣框誤差:目標總體與抽樣總體不一致目標總體,即作為調(diào)查研究對象的全體抽樣總體,即從中抽選樣本的總體抽樣框誤差類型:

1.丟失目標總體單元,威脅性較大。

2.包含非目標總體單元。

3.復合聯(lián)接。這是指抽樣框中的單元與目標總體單元不完全是一一對應關系。例如一個門牌號內(nèi)居住兩戶或多戶家庭,一戶擁有兩處或多處住房。

4.不正確的輔助信息。二、抽樣框誤差的影響

(一)丟失單位的影響在假定不存在其他原因的抽樣框誤差時,丟失單位對抽樣效果的影響主要取決于兩個方面:丟失單位的分布特征和丟失單位數(shù)所占的比重。其中,對總體均值的估計只與前者有關,而對總體總值的估計則與兩者都有關。

(1)丟失單位是目標總體中的一個隨機樣本,具有與目標總體相同的期望與方差,則其對總體均值的估計影響不大,但對總體總值的估計會低估。(2)丟失的單位是特殊群體,不具有與目標總體相同的期望與方差,那么對目標總體總值、均值的估計會產(chǎn)生偏差。(二)包含異質(zhì)單位的影響

如果是目標總體總值的估計,則其估計量偏差和偏差率分別為:很顯然,這時的偏差或偏差率都是正的,即若抽樣框中包含了異質(zhì)單位必定會使目標總體總值的估計偏高。

均值估計量方差會被高估或低估,總值估計量方差則一定是高估,即:

如果在調(diào)查中異質(zhì)單位可以被識別并被予以剔除的,可以把目標總體看成抽樣框中的一個子總體或域。異質(zhì)單位的標志值就取0。

在調(diào)查中剔除異質(zhì)單位會增加估計量的方差,原因在于它使實際的樣本容量變小了。三、抽樣框誤差的控制重在預防積極補救心理準備

第三節(jié)計量誤差范圍廣,分類:設計誤差:問卷設計,抽樣過程被調(diào)查者誤差:無意識誤差和有意識誤差調(diào)查者誤差其它誤差:測量工具,編碼,錄入等一、計量誤差的成因

計量誤差(ErrorsofMeasurement)是指樣本結果(如樣本均值,樣本方差)與實際情況(真實的樣本均值,樣本方差)不一致而產(chǎn)生的誤差。這種誤差可能存在于調(diào)查過程中,也可能存在于整理和計算過程中,主要就是任何調(diào)查都可能產(chǎn)生的調(diào)查性誤差。這種誤差是由人有意或無意所造成的,且會隨調(diào)查范圍的增大而增加產(chǎn)生的可能性。具體原因如下:

(一)因設計不完善引起的計量誤差;(二)調(diào)查員原因引起的計量誤差;

(三)被調(diào)查者原因引起的計量誤差;

(四)其他原因引起的計量誤差。

(一)因設計不完善引起的計量誤差

一是問卷設計不完善,包括用詞不準確;問句具有誘導性或傾向性;問句排列順序欠妥;調(diào)查內(nèi)容不完整(尤其是缺了重要的項目);調(diào)查變量選擇有誤;問句的切入點不準確;問句給被調(diào)查者預備的回答空間不合理;問句的語氣太軟或太強;問卷的長度太冗長等原因。二是設計的抽樣程序有偏,使樣本結構非隨機地與總體結構不符。三是估計量的構造有問題,主要是該加權的未加權,不該加權的卻加權,從而產(chǎn)生偏差。(二)調(diào)查員原因引起的計量誤差

一是調(diào)查員責任心不強、工作粗心,使觀察結果不準或登記、填寫、計算發(fā)生差錯。二是調(diào)查員在調(diào)查時偷工減料,不按規(guī)定操作,用其他數(shù)據(jù)來代替調(diào)查數(shù)據(jù)。三是調(diào)查員本身弄虛作假,由自己來偽造填寫調(diào)查表。四是調(diào)查員業(yè)務水平不夠高,在觀察或測量時難以搞準數(shù)據(jù)。這些誤差成因,有的是無意識的,有的則是故意的。(三)被調(diào)查者原因引起的計量誤差

一是被調(diào)查者對調(diào)查內(nèi)容的理解(包括問句的含義等)有誤。二是被調(diào)查者對于需要回憶才能回答的問題,可能存在記憶差錯。三是被調(diào)查者對于調(diào)查中的一些相似或者相近內(nèi)容無法準確區(qū)分而出現(xiàn)回答差錯。四是被調(diào)查者接受調(diào)查時心境不佳、身體不適、家中很忙或有急事和意外,使調(diào)查質(zhì)量受到影響。五是被調(diào)查者對調(diào)查不感興趣而敷衍了事。六是被調(diào)查者為了不讓他人知道實情而故意提供不真實的數(shù)據(jù)(有的夸大,如文化程度、高雅文化消費支出、公益捐款及工作業(yè)績等;有的縮小,如收入、煙酒消費量及工作過程等)。七是被調(diào)查者為了保持同一調(diào)查內(nèi)容在不同時間上的一致性或家庭成員回答口徑的一致性而提供相同但不真實的數(shù)據(jù)。

(四)其他原因引起的計量誤差如計量工具不準確、計算機編碼及輸入錯誤、資料整理中的歸類錯誤等。

二、計量誤差的影響

計量誤差存在于調(diào)查單位之中。如果設為被觀測單位的真實值,為其觀測值,那么當時,就存在計量誤差,若以表示之,可得計量誤差模型為:

=+其中>0或<0。1、如果調(diào)查單位的計量誤差是隨機出現(xiàn)的,那么總正差與總負差大致相等,即E()=E(),也即E()=0

。這時,計量誤差的存在不會改變估計量的偏差性,但會改變估計量方差的大小。設為總體均值,E()=,那么有:

=+=+2

()+E=E+E()+2E[

()]

由于E()=0,E()=E=V(),故

MSE()=V()+V()+2E[

()]其中E[

()]為調(diào)查單位計量誤差與真實離差之間的協(xié)方差。

當樣本容量為時,無計量誤差的總體均值估計量方差為:()=

有計量誤差的估計量方差(均方誤差)為:MSE()=(1

)即:MSE()=(

)+〔V()+2E[

()]

若2E[()]+V()<0,那么MSE()<V(),MSE()<(),即估計量方差被低估了。如果2E[()]+V()>0,那么MSE()>V(),MSE()>(),即估計量方差被高估了。不論是高估還是低估,估計效果都不能得到真實的反映。2、如果調(diào)查單位的計量誤差不是隨機出現(xiàn)、而是存在一定的系統(tǒng)性,那么就會正差大于負差,這時計量誤差就變成為估計量的計量偏差,即E

()E()=,從而計量誤差的存在既改變了估計量的偏差性,也改變了估計量方差的大小。在這種情況下,我們可以得到:

=E()+E()-uE=E+MSE()=V()+

其中V()為有計量誤差時的觀測值的估計量方差。注意到E()0,E()V(),可得:

()=V()+〔E()+2E[()]〕

如果>〔E()+2E[()]〕,則V()<(),估計量方差低估。如果相反,則估計量方差高估。非隨機性的計量誤差越嚴重,估計量方差低估或高估的程度就越強。三、計量誤差的控制(一)精心設計;(二)對調(diào)查員要嚴格要求,精心挑選,加強培訓;(三)在每次調(diào)查中,都要對被調(diào)查者作耐心的宣傳說服工作;(四)加強統(tǒng)計執(zhí)法,規(guī)范統(tǒng)計調(diào)查活動;(五)要合理確定調(diào)查時間、調(diào)查方式和調(diào)查周期;(六)必要的檢查和調(diào)整;(七)控制計量工具或技術設備原因的誤差;(八

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論