版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
抽樣調查設計中國人民大學統(tǒng)計學院金勇進抽樣調查設計課件1生活在調查中的現代人調查無所不在抽樣調查是應用最廣泛的調查方式在國外,抽樣調查幾乎應用于所有領域在國內,抽樣調查應用發(fā)展迅速如人口變動調查,勞動力調查,社會問題研究,電視收視率調查,滿意度調查,以及各種民意調查等。生活在調查中的現代人2調查能測準嗎?也能,也不能??磶讉€相關的例子調查能測準嗎?3全球性調查報告:中國人均性伴侶數全球排第一
“近日,2004年杜蕾斯全球性調查報告向社會發(fā)布。引人注目的是報告中顯示中國人的平均性伴侶數最多,為19.3人,遠遠高于全球的平均數10.5人;而中國人平均每年性生活的頻率卻只有90次,排全球倒數第7位,低于全球平均水平103次。同時,報告還顯示中國首次接受性教育的年齡為13.7歲,最接近世界平均水平,然而卻只有22%的調查對象認為青少年性教育由家人或監(jiān)護人完成?!辟Y料來源:北京晨報,2004年11月25日矛盾:為什么性伴侶最多,性頻率卻不高?首次接受性教育的年齡走低,卻不是由家長來完成性教育任務?問題在于,樣本是怎樣產生的?全球性調查報告:中國人均性伴侶數全球排第一4
傳統(tǒng)觀念被顛覆了嗎?雪兒·海蒂(ShereHite)在1987年出版的《女性與愛情:前進中的文化之旅》一書中,給出了一些數據:84%的女性“在情感上對兩性關系不滿意”(第804頁)。70%的女性“在結婚五年或者更久后發(fā)生了婚外性關系”(第856頁)。95%的女性“在戀愛時會因男友而出現情感及心理上的煩惱”(第81頁)。84%的女性在與男友的戀愛中有屈尊感(第809頁)。這本書遭到全美報刊及雜志文章的廣泛批評。例如,《時代周刊》的封面故事“后退,巴迪”里認為海蒂的研究結論是“模糊的”、“沒有價值的”。“是試圖顛覆人們傳統(tǒng)觀念中的女性”。資料來源:SharonL.Lohr2002,Sampling:DesignandAnalysis,中國統(tǒng)計出版社,P1傳統(tǒng)觀念被顛覆5上述調查結果都是被社會廣泛質疑的。從技術層面講,被質疑的一個重要原因是沒有說明樣本的產生過程。成功的案例也有。如美國總統(tǒng)競選的預測。上述調查結果都是被社會廣泛質疑的。從技術層面6美國總統(tǒng)競選預測:民主黨候選人共和黨候選人實際1968漢佛萊(50%)尼克松(50%)尼(50.3%)1972尼克松(62%)尼(61.8%)1976卡特(51%)卡(51.1%)1980里根(52%)里(55.3%)1984里根(59%)里(59.2%)1988布什(56%)布(53.9%)
對人的評價比對物的評價要更困難抽樣調查設計課件7二.什么是好的調查策劃調查要有策劃,策劃的好,調查質量就高。通過調查解決一些需要研究的問題。例如,就企業(yè)而言1.存在的問題或機會調查能否回答最高層次問題策略價值2觀念創(chuàng)新最高層次策略價值1價值附加較高層次經營基本本體價值較低層次二.什么是好的調查策劃策略價值2觀念創(chuàng)新最高層次策略價值182.各種可能的決策如產品發(fā)展是擴大規(guī)模,還是技術創(chuàng)新,還是發(fā)展銷售渠道?設計的內容調查的目的,為什么要進行這項調查調查的對象,明確被調查群體(研究總體的確定)調查的內容,明確所需信息,需求應當是具體的而不是抽象的,通過調查問卷反映調查的方式和手段:方式,抽樣?重點?全面?2.各種可能的決策9手段:什么手段采集數據,面訪?電話調查?自填問卷?實驗?觀察?等。調查執(zhí)行:如何保證數據質量?樣本量:樣本量多大?回答這樣一些問題:為什么做這項調查?調查的價值有多大?費用支持足夠嗎?這項調查值得做嗎?手段:什么手段采集數據,面訪?電話調查?自填問卷?實驗?觀察10三.幾個關系1.概率抽樣和非概率抽樣概率抽樣的特點與價值隨機性,每個單位入樣概率已知隨機與隨便,隨機要有程序實現隨機抽樣是抽樣方式中的“王冠”。三.幾個關系112.非概率抽樣如:方便選樣,有目的選樣,自愿樣本,配額樣本,滾雪球選樣等非概率抽樣的特點與價值不能只有海鮮,還要有白菜研究中的挑戰(zhàn):非概率樣本的推斷問題2.非概率抽樣123.概率抽樣的幾個挑戰(zhàn)概率抽樣挑戰(zhàn)之一:目標總體與抽樣總體總體與樣本目標總體:要研究的總體抽樣總體:產生樣本的總體抽樣總體的具體體現——抽樣框良好抽樣框的標志:關聯,一對一聯接準確,涵蓋狀況時效,信息是最新的3.概率抽樣的幾個挑戰(zhàn)13概率抽樣挑戰(zhàn)之二:抽樣誤差與非抽樣誤差抽樣誤差:抽樣隨機性帶來的,無法避免可以計算可以控制計算抽樣誤差的水平(誤差計算正確)可以體現設計人員的專業(yè)水平概率抽樣挑戰(zhàn)之二:抽樣誤差與非抽樣誤差14非抽樣誤差:什么是非抽樣誤差體現在以下幾個方面:抽樣框誤差回答誤差,無回答誤差,調查員誤差計量誤差非抽樣誤差特點:難以測度,成因復雜非抽樣誤差的控制可以體現調查方的執(zhí)行能力非抽樣誤差:什么是非抽樣誤差15完美的調查是科學和藝術的結合科學體現在對抽樣誤差的把握藝術體現在對非抽樣誤差的掌控目前我國很多抽樣調查項目,科學性不足,藝術性欠缺。誤差的計算與控制是我們面臨的嚴重挑戰(zhàn)完美的調查是科學和藝術的結合16概率抽樣挑戰(zhàn)之三:平衡的藝術——精度與費用之關系概率抽樣挑戰(zhàn)之三:平衡的藝術——精度17精度與費用精度100%95%60%20%40%……..…………..費用精度與費用精度100%95%60%20%40%……..18概率抽樣挑戰(zhàn)之四:樣本量的“陷阱”
問題一.估計精度越高越好嗎?簡單隨機抽樣估計比例P的樣本量與誤差(當P=0.5時)樣本量誤差500.141000.105000.04510000.032對精度要求的判斷十分重要。為得到最小誤差而選擇最大樣本量不是好的選擇。概率抽樣挑戰(zhàn)之四:樣本量的“陷阱”19問題二.樣本量與總體規(guī)模N有關嗎?例:簡單隨機抽樣估計P,置信度95%,允許誤差5%,在P=0.5條件下總體規(guī)模(N)所需樣本量(n)5044100805002221000286500037010000385100000398100000040010000000400問題二.樣本量與總體規(guī)模N有關嗎?20由此可知,在精度要求相同條件下,在北京市進行一項調查和在全國進行一項調查,樣本量的差別并不大??傮w規(guī)模越大,進行抽樣調查的效率越高。若分類、分區(qū)、分層分別進行估計則另當別論。由此可知,在精度要求相同條件下,在北京21四.常用抽樣方法1.簡單隨機抽樣對總體不了解抽樣框資料沒有更多的輔助信息總體分布均勻與其他抽樣方式的結合四.常用抽樣方法222.分層抽樣總體單位之間存在明顯差異有進行分層的輔助信息分層抽樣可以有效提高估計的效率好的分層應該實現:層數確定最優(yōu)層之間切點最優(yōu)各層樣本量的分配最優(yōu)2.分層抽樣233.系統(tǒng)抽樣便于操作便于審核(具有可重復性)在有些情況下可以提高估計的效率估計量方差計算復雜,可以采用不同的方法近似計算。3.系統(tǒng)抽樣244.整群抽樣構造抽樣框容易調查成本低多以地域分群一般而言,整群抽樣估計效率會受到影響,對某些特定調查內容,整群抽樣效率更高。4.整群抽樣255.多階段抽樣抽樣框構造成本低節(jié)省人力、物力某些條件下可以滿足各級政府需要估計精度與階段多少有關,所以階段劃分越少越好。5.多階段抽樣26五.關于調查方法調查方法有多種,如文檔調查,入戶調查,電話調查,郵寄調查,觀察法,實驗法等。不同方法有不同特點,如何選擇恰當的方法?下面有幾個案例:
案例一:人口密度和人的行為的關系研究假說:人口密度過高可能產生負效應,引發(fā)犯罪和精神病五.關于調查方法27理論依據:馬爾薩斯人口論,其論點有“人口過剩是貧困的主要原因”,“過剩人口會造成社會病態(tài)”。實證依據:老鼠實驗,隨著實驗籠里老鼠密度增高,老鼠表現煩躁不安,母鼠不愿看護自己幼鼠,搶食現象加劇,最后導致自相殘殺。需研究的問題:這類現象在人類中是否存在?難點:對人類無法使用象老鼠那樣進行自相殘殺的實驗。兩組設計人員分別提出了各自的方法?????理論依據:馬爾薩斯人口論,其論點有“人口過剩是28組A:采用問卷法,具體做法是1.確定房間面積,招聘應試人員2.設計調查問卷,反映受訪者心態(tài)變化,如是否喜歡新增加的陌生人,是否容忍活動區(qū)域的減小3.剛開始是一人一間房,以后逐次增加,每增加新人,就回答一次問題4.實驗結果發(fā)現,高密度人群增加了人與人之間相互厭惡的傾向組A:采用問卷法,具體做法是29組B:文檔調查,具體做法是1.按人口密度將分析區(qū)域劃出若干塊(實驗區(qū)域為芝加哥市)2.查閱“芝加哥地方公眾記事錄”,里面有人口密度,犯罪率,精神病患者人數等寶貴資料存在的問題,表象上看,人口密度和犯罪數量相關但人口密度和犯罪數量又與另外變量,如職業(yè)、種族、教育、收入等要素相關,人口密度高的地方犯罪率高,但人口密度高的地方居住者的教育水平、收入水平偏低,黑人比例高,職業(yè)差。是職業(yè)、文化程度、收入水平影響犯罪率?還是人口密度影響犯罪率?組B:文檔調查,具體做法是30案例二壞血病的原因調查17世紀初,英國海軍患壞血病背景:海上帝國,壞血病的威脅,國防部進行研究懷疑:維生素攝入量少實驗方法:四艘軍艦離港,一艘有橙汁供應,三艘沒有結果:有橙汁供應水手身體狀況良好,沒有橙汁供應水手開始成批生病結論:缺乏維生素攝入是導致產生疾病的原因如何完善上述實驗?案例二壞血病的原因調查31問題一:患病原因可能是那三艘船上有導致生病的物質問題二:上有橙汁船的人可能就喜歡喝橙汁問題三:上船之前水手身體狀況一樣嗎?問題一:患病原因可能是那三艘船上有導致32實驗法關鍵:分為實驗組和對照組兩組其他情況相同,只有檢測因素(是否喝橙汁)不同。實驗者在哪個組應隨機產生。實驗應采用“雙盲”原則。如實驗一種新藥療效,受試者不知道自己是在服藥還是服替代品,醫(yī)生也不應知道受試者的分組情況。市場調查中很難嚴格控制其他因素,如想知道飲料顏色對銷量是否有影響,如何設計實驗就是一個挑戰(zhàn)。實驗法關鍵:分為實驗組和對照組33案例三固體雞汁調查關鍵的一環(huán),產品的價格定位,面訪法問卷中設計了四個問題:1.請問該種袋裝調料(100克)的價格為多少,您認為是物有所值(較低價格)2.請問該種袋裝調料價格低到什么程度,您將懷疑其質量而不敢購買(最低價格)3.請問該種袋裝調料價格為多少,您認為雖然偏高,但仍可能購買(較高價格)案例三固體雞汁調查344.請問該種袋裝調料價格高到什么程度,您肯定不買(最高價格)將調查結果統(tǒng)計,將形成如下圖形4.請問該種袋裝調料價格高到什么程度,您肯定不買35acdb問題一
問題二受訪者累積百分比圖2價格敏感度示意圖價格問題三問題四acdb問題一問題二受訪者累積百分比圖2價格敏感度示36形成a,b,c,d4個交叉點如果價格低于a點,相當多人會因為價格過低,懷疑其質量而不敢購買;如果價格高于b點,也會有相當多人因為價格過高而不去購買;c,d是兩個均衡點,在c點上認為價格較高和價格較低的比例相同;在d點上認為價格最高和價格最低的比例相同。形成a,b,c,d4個交叉點37定價的最后決策當然需要考慮眾多要素,但調查結果無疑可以為決策提供參考依據。定價的最后決策當然需要考慮眾多要素,38六.政府統(tǒng)計中需要研究的一些課題在政府統(tǒng)計中,抽樣調查需要研究一些問題1.樣本輪換問題涉及:輪換周期,輪換比例,輪換層次,輪換程序,數據的銜接等問題。關于使用永久隨機數抽樣方法的討論《永久隨機數法樣本輪換初探》,統(tǒng)計教育,2004,2《不同樣本輪換方法的比較》,統(tǒng)計與預測,2005,1六.政府統(tǒng)計中需要研究的一些課題392.抽樣調查滿足多層次需要問題抽樣方法改進的思路:層層抽樣追加樣本如何在估計方法上做文章“小區(qū)域”估計問題《論抽樣調查中的域估計》,統(tǒng)計與決策2003,12《對抽樣調查解決多層次估計問題的探討》,統(tǒng)計研究,2003,122.抽樣調查滿足多層次需要問題403.抽樣調查后的數據分析盲目使用統(tǒng)計軟件的陷阱,抽樣方法與分析方法不對應。例如權數的調整問題抽樣估計中的權數調整《全國統(tǒng)計科學研討會學術論文集》2002,8多變量聯合加權應用研究《統(tǒng)計理論、方法、應用研究》2002.10《多變量與規(guī)模成比例概率抽樣的有關問題》,統(tǒng)計與信息論壇,2004,1
3.抽樣調查后的數據分析414.數據的質量——缺失數據問題無回答,失真數據的剔除等處理缺失數據中輔助信息的利用《統(tǒng)計研究》1998,1不同插補方法的比較《數理統(tǒng)計與管理》2000,4缺失數據的偏差校正《數理統(tǒng)計與管理》2001,4缺失數據的加權調整《數理統(tǒng)計與管理》2001,5缺失數據的插補調整《數理統(tǒng)計與管理》2001,6處理無回答的校準估計《統(tǒng)計研究》2002,6調查中缺失數據的統(tǒng)計處理,《市場統(tǒng)計與信息》2005,44.數據的質量——缺失數據問題42抽樣調查是科學和藝術的結合需要本本,但不能“本本主義”需要經驗,但不能“經驗主義”抽樣調查是科學和藝術的結合43案例分析:極小信息情況下如何進行樣本量分配案例分析:44調查目的:了解亞洲血統(tǒng)人口對某些問題的看法,并和其他血統(tǒng)人口看法進行對比分析。調查對象:美籍居民調查方式:電話調查,電話號碼需購買樣本要求:Asian1200Hispanic600Non_H_B300NON_H_W600Total2700需要解決的問題:購買電話號碼數量及該數量在各地區(qū)的分配(回答率60%)。調查目的:了解亞洲血統(tǒng)人口對某些問題的看法,并和其他血45
表1:美國不同地區(qū)亞洲血統(tǒng)人口所占比重(1)地區(qū)(2)人口數(3)地區(qū)人口比重(4)亞裔人數(5)=(4)/(2)亞裔比重S.F.7239590.28420715528.614Seattle5162590.2026081911.781L.A.88631643.47192556110.443N.Y.73225642.8685099556.964Chicago27837261.091029383.698Balance23510353692.08451022102.17total25531320810069086382.706(1)地區(qū)(2)人口數(3)地區(qū)人口比重(4)亞裔人數(5)46分析:如果樣本量按人口比例在全國各地區(qū)鋪開,所需要的電話號碼個數為:
如何充分利用各地區(qū)亞洲血統(tǒng)人口比重不同這個輔助信息?如果采用采用比重高的地區(qū)(如舊金山,28.614%),則但這已經不是全國樣本。分析:如果樣本量按人口比例在全國各地區(qū)鋪開,所需要的電47
設計:按前表資料,將全部地區(qū)劃分為6個域,于是要解決的問題是在僅有有限的輔助信息(人口數,戶數,種族分類)條件下,如何在各域中分配樣本量,使得調查費用盡可能少(即盡可能少地購買電話號碼),同時保證樣本具有一定的代表性。為便于分析,將有關符號作如下說明:N:Asian總戶數,N=總戶數×Asian人口比重Nh:第h域中Asian戶數(h=1,2,…,6)Nh=第h域總人數×第h域Asian人口比重,則
抽樣調查設計課件48n:完成的Asian樣本戶數,即n=1200nh:第h域完成的Asian樣本戶數Th:第h域需抽取的電話號碼數
ω:擴張系數
ωh:第h層擴張系數
n:完成的Asian樣本戶數,即n=120049
Rh:第h域亞洲血統(tǒng)人口比重σ:研究變量總體標準差σh:研究變量第h域標準差,由于σ,σh未知,故假定σ=σh為求得各層樣本量的最優(yōu)分配方案,利用設計效應(DesignEffect,簡寫作Deff),結合樣本量的分配,設定一個目標函數T×Deff,希望使其最??;再依前述條件設置約束s.t.,形成一個規(guī)劃問題,即:min(T×Deff)s.t.0<nh≤Nh(i=1,2,…,6)
抽樣調查設計課件50
其中:由設計效應定義有:
抽樣調查設計課件51于是:根據柯西不等式,容易推出按(Nh﹒√Rh)的比例分配Th,可使(P)的目標函數達到最優(yōu)(忽略nh必須取整數)。于是得到下表中的計算結果:
抽樣調查設計課件52
表2.應抽樣本量Th和完成Asian樣本量nh單位:戶
(1)地區(qū)(2)總戶數(3)S.F.30558428.61446773.814115.32671.70Seattle23670211.7819571.04623.60333.84L.A.298955210.443100885.907248.743969.82N.Y.28194016.96451815.521127.753057.37Chicago10251743.6987289.89817.97810.08Balance845709972.170270377.285666.6251195.01Total919474102.706(7)486713.471120060037.83(4)Nh﹒√Rh=(2)×(Rh)3/2
(5)nh=1200×(4)÷(7)
(6)Th=(5)÷(0.6×Rh)
表2.應抽樣本量Th和完成Asian樣本量nh53由表2知,T=60037.83,根據前面公式,可以計算出Deff=1.1404,故:T×Deff=60037.83×1.1404=68467.34在簡單隨機抽樣條件下,T=1200/(0.02706×0.6=73910。利用有限信息進行分區(qū)域后,在同樣估計精度條件下,所需抽取的樣本量減少了將近8%在這種抽樣分配方案下,其它血統(tǒng)人口的樣本量肯定可以滿足(驗證略)。
由表2知,T=60037.83,根據前面公式,可以54
此外,還可以分析不同設計要求下各域所需要的樣本量。此案是把規(guī)劃方法引入抽樣設計。調查實踐中,特別是一次性的抽樣調查中,類似的信息量極小的情況是會經常遇到的,對輔助信息充分有效的利用,以提高抽樣效率,是我們努力的方向。
抽樣調查設計課件55謝謝大家謝謝大家56抽樣調查設計中國人民大學統(tǒng)計學院金勇進抽樣調查設計課件57生活在調查中的現代人調查無所不在抽樣調查是應用最廣泛的調查方式在國外,抽樣調查幾乎應用于所有領域在國內,抽樣調查應用發(fā)展迅速如人口變動調查,勞動力調查,社會問題研究,電視收視率調查,滿意度調查,以及各種民意調查等。生活在調查中的現代人58調查能測準嗎?也能,也不能??磶讉€相關的例子調查能測準嗎?59全球性調查報告:中國人均性伴侶數全球排第一
“近日,2004年杜蕾斯全球性調查報告向社會發(fā)布。引人注目的是報告中顯示中國人的平均性伴侶數最多,為19.3人,遠遠高于全球的平均數10.5人;而中國人平均每年性生活的頻率卻只有90次,排全球倒數第7位,低于全球平均水平103次。同時,報告還顯示中國首次接受性教育的年齡為13.7歲,最接近世界平均水平,然而卻只有22%的調查對象認為青少年性教育由家人或監(jiān)護人完成。”資料來源:北京晨報,2004年11月25日矛盾:為什么性伴侶最多,性頻率卻不高?首次接受性教育的年齡走低,卻不是由家長來完成性教育任務?問題在于,樣本是怎樣產生的?全球性調查報告:中國人均性伴侶數全球排第一60
傳統(tǒng)觀念被顛覆了嗎?雪兒·海蒂(ShereHite)在1987年出版的《女性與愛情:前進中的文化之旅》一書中,給出了一些數據:84%的女性“在情感上對兩性關系不滿意”(第804頁)。70%的女性“在結婚五年或者更久后發(fā)生了婚外性關系”(第856頁)。95%的女性“在戀愛時會因男友而出現情感及心理上的煩惱”(第81頁)。84%的女性在與男友的戀愛中有屈尊感(第809頁)。這本書遭到全美報刊及雜志文章的廣泛批評。例如,《時代周刊》的封面故事“后退,巴迪”里認為海蒂的研究結論是“模糊的”、“沒有價值的”。“是試圖顛覆人們傳統(tǒng)觀念中的女性”。資料來源:SharonL.Lohr2002,Sampling:DesignandAnalysis,中國統(tǒng)計出版社,P1傳統(tǒng)觀念被顛覆61上述調查結果都是被社會廣泛質疑的。從技術層面講,被質疑的一個重要原因是沒有說明樣本的產生過程。成功的案例也有。如美國總統(tǒng)競選的預測。上述調查結果都是被社會廣泛質疑的。從技術層面62美國總統(tǒng)競選預測:民主黨候選人共和黨候選人實際1968漢佛萊(50%)尼克松(50%)尼(50.3%)1972尼克松(62%)尼(61.8%)1976卡特(51%)卡(51.1%)1980里根(52%)里(55.3%)1984里根(59%)里(59.2%)1988布什(56%)布(53.9%)
對人的評價比對物的評價要更困難抽樣調查設計課件63二.什么是好的調查策劃調查要有策劃,策劃的好,調查質量就高。通過調查解決一些需要研究的問題。例如,就企業(yè)而言1.存在的問題或機會調查能否回答最高層次問題策略價值2觀念創(chuàng)新最高層次策略價值1價值附加較高層次經營基本本體價值較低層次二.什么是好的調查策劃策略價值2觀念創(chuàng)新最高層次策略價值1642.各種可能的決策如產品發(fā)展是擴大規(guī)模,還是技術創(chuàng)新,還是發(fā)展銷售渠道?設計的內容調查的目的,為什么要進行這項調查調查的對象,明確被調查群體(研究總體的確定)調查的內容,明確所需信息,需求應當是具體的而不是抽象的,通過調查問卷反映調查的方式和手段:方式,抽樣?重點?全面?2.各種可能的決策65手段:什么手段采集數據,面訪?電話調查?自填問卷?實驗?觀察?等。調查執(zhí)行:如何保證數據質量?樣本量:樣本量多大?回答這樣一些問題:為什么做這項調查?調查的價值有多大?費用支持足夠嗎?這項調查值得做嗎?手段:什么手段采集數據,面訪?電話調查?自填問卷?實驗?觀察66三.幾個關系1.概率抽樣和非概率抽樣概率抽樣的特點與價值隨機性,每個單位入樣概率已知隨機與隨便,隨機要有程序實現隨機抽樣是抽樣方式中的“王冠”。三.幾個關系672.非概率抽樣如:方便選樣,有目的選樣,自愿樣本,配額樣本,滾雪球選樣等非概率抽樣的特點與價值不能只有海鮮,還要有白菜研究中的挑戰(zhàn):非概率樣本的推斷問題2.非概率抽樣683.概率抽樣的幾個挑戰(zhàn)概率抽樣挑戰(zhàn)之一:目標總體與抽樣總體總體與樣本目標總體:要研究的總體抽樣總體:產生樣本的總體抽樣總體的具體體現——抽樣框良好抽樣框的標志:關聯,一對一聯接準確,涵蓋狀況時效,信息是最新的3.概率抽樣的幾個挑戰(zhàn)69概率抽樣挑戰(zhàn)之二:抽樣誤差與非抽樣誤差抽樣誤差:抽樣隨機性帶來的,無法避免可以計算可以控制計算抽樣誤差的水平(誤差計算正確)可以體現設計人員的專業(yè)水平概率抽樣挑戰(zhàn)之二:抽樣誤差與非抽樣誤差70非抽樣誤差:什么是非抽樣誤差體現在以下幾個方面:抽樣框誤差回答誤差,無回答誤差,調查員誤差計量誤差非抽樣誤差特點:難以測度,成因復雜非抽樣誤差的控制可以體現調查方的執(zhí)行能力非抽樣誤差:什么是非抽樣誤差71完美的調查是科學和藝術的結合科學體現在對抽樣誤差的把握藝術體現在對非抽樣誤差的掌控目前我國很多抽樣調查項目,科學性不足,藝術性欠缺。誤差的計算與控制是我們面臨的嚴重挑戰(zhàn)完美的調查是科學和藝術的結合72概率抽樣挑戰(zhàn)之三:平衡的藝術——精度與費用之關系概率抽樣挑戰(zhàn)之三:平衡的藝術——精度73精度與費用精度100%95%60%20%40%……..…………..費用精度與費用精度100%95%60%20%40%……..74概率抽樣挑戰(zhàn)之四:樣本量的“陷阱”
問題一.估計精度越高越好嗎?簡單隨機抽樣估計比例P的樣本量與誤差(當P=0.5時)樣本量誤差500.141000.105000.04510000.032對精度要求的判斷十分重要。為得到最小誤差而選擇最大樣本量不是好的選擇。概率抽樣挑戰(zhàn)之四:樣本量的“陷阱”75問題二.樣本量與總體規(guī)模N有關嗎?例:簡單隨機抽樣估計P,置信度95%,允許誤差5%,在P=0.5條件下總體規(guī)模(N)所需樣本量(n)5044100805002221000286500037010000385100000398100000040010000000400問題二.樣本量與總體規(guī)模N有關嗎?76由此可知,在精度要求相同條件下,在北京市進行一項調查和在全國進行一項調查,樣本量的差別并不大??傮w規(guī)模越大,進行抽樣調查的效率越高。若分類、分區(qū)、分層分別進行估計則另當別論。由此可知,在精度要求相同條件下,在北京77四.常用抽樣方法1.簡單隨機抽樣對總體不了解抽樣框資料沒有更多的輔助信息總體分布均勻與其他抽樣方式的結合四.常用抽樣方法782.分層抽樣總體單位之間存在明顯差異有進行分層的輔助信息分層抽樣可以有效提高估計的效率好的分層應該實現:層數確定最優(yōu)層之間切點最優(yōu)各層樣本量的分配最優(yōu)2.分層抽樣793.系統(tǒng)抽樣便于操作便于審核(具有可重復性)在有些情況下可以提高估計的效率估計量方差計算復雜,可以采用不同的方法近似計算。3.系統(tǒng)抽樣804.整群抽樣構造抽樣框容易調查成本低多以地域分群一般而言,整群抽樣估計效率會受到影響,對某些特定調查內容,整群抽樣效率更高。4.整群抽樣815.多階段抽樣抽樣框構造成本低節(jié)省人力、物力某些條件下可以滿足各級政府需要估計精度與階段多少有關,所以階段劃分越少越好。5.多階段抽樣82五.關于調查方法調查方法有多種,如文檔調查,入戶調查,電話調查,郵寄調查,觀察法,實驗法等。不同方法有不同特點,如何選擇恰當的方法?下面有幾個案例:
案例一:人口密度和人的行為的關系研究假說:人口密度過高可能產生負效應,引發(fā)犯罪和精神病五.關于調查方法83理論依據:馬爾薩斯人口論,其論點有“人口過剩是貧困的主要原因”,“過剩人口會造成社會病態(tài)”。實證依據:老鼠實驗,隨著實驗籠里老鼠密度增高,老鼠表現煩躁不安,母鼠不愿看護自己幼鼠,搶食現象加劇,最后導致自相殘殺。需研究的問題:這類現象在人類中是否存在?難點:對人類無法使用象老鼠那樣進行自相殘殺的實驗。兩組設計人員分別提出了各自的方法?????理論依據:馬爾薩斯人口論,其論點有“人口過剩是84組A:采用問卷法,具體做法是1.確定房間面積,招聘應試人員2.設計調查問卷,反映受訪者心態(tài)變化,如是否喜歡新增加的陌生人,是否容忍活動區(qū)域的減小3.剛開始是一人一間房,以后逐次增加,每增加新人,就回答一次問題4.實驗結果發(fā)現,高密度人群增加了人與人之間相互厭惡的傾向組A:采用問卷法,具體做法是85組B:文檔調查,具體做法是1.按人口密度將分析區(qū)域劃出若干塊(實驗區(qū)域為芝加哥市)2.查閱“芝加哥地方公眾記事錄”,里面有人口密度,犯罪率,精神病患者人數等寶貴資料存在的問題,表象上看,人口密度和犯罪數量相關但人口密度和犯罪數量又與另外變量,如職業(yè)、種族、教育、收入等要素相關,人口密度高的地方犯罪率高,但人口密度高的地方居住者的教育水平、收入水平偏低,黑人比例高,職業(yè)差。是職業(yè)、文化程度、收入水平影響犯罪率?還是人口密度影響犯罪率?組B:文檔調查,具體做法是86案例二壞血病的原因調查17世紀初,英國海軍患壞血病背景:海上帝國,壞血病的威脅,國防部進行研究懷疑:維生素攝入量少實驗方法:四艘軍艦離港,一艘有橙汁供應,三艘沒有結果:有橙汁供應水手身體狀況良好,沒有橙汁供應水手開始成批生病結論:缺乏維生素攝入是導致產生疾病的原因如何完善上述實驗?案例二壞血病的原因調查87問題一:患病原因可能是那三艘船上有導致生病的物質問題二:上有橙汁船的人可能就喜歡喝橙汁問題三:上船之前水手身體狀況一樣嗎?問題一:患病原因可能是那三艘船上有導致88實驗法關鍵:分為實驗組和對照組兩組其他情況相同,只有檢測因素(是否喝橙汁)不同。實驗者在哪個組應隨機產生。實驗應采用“雙盲”原則。如實驗一種新藥療效,受試者不知道自己是在服藥還是服替代品,醫(yī)生也不應知道受試者的分組情況。市場調查中很難嚴格控制其他因素,如想知道飲料顏色對銷量是否有影響,如何設計實驗就是一個挑戰(zhàn)。實驗法關鍵:分為實驗組和對照組89案例三固體雞汁調查關鍵的一環(huán),產品的價格定位,面訪法問卷中設計了四個問題:1.請問該種袋裝調料(100克)的價格為多少,您認為是物有所值(較低價格)2.請問該種袋裝調料價格低到什么程度,您將懷疑其質量而不敢購買(最低價格)3.請問該種袋裝調料價格為多少,您認為雖然偏高,但仍可能購買(較高價格)案例三固體雞汁調查904.請問該種袋裝調料價格高到什么程度,您肯定不買(最高價格)將調查結果統(tǒng)計,將形成如下圖形4.請問該種袋裝調料價格高到什么程度,您肯定不買91acdb問題一
問題二受訪者累積百分比圖2價格敏感度示意圖價格問題三問題四acdb問題一問題二受訪者累積百分比圖2價格敏感度示92形成a,b,c,d4個交叉點如果價格低于a點,相當多人會因為價格過低,懷疑其質量而不敢購買;如果價格高于b點,也會有相當多人因為價格過高而不去購買;c,d是兩個均衡點,在c點上認為價格較高和價格較低的比例相同;在d點上認為價格最高和價格最低的比例相同。形成a,b,c,d4個交叉點93定價的最后決策當然需要考慮眾多要素,但調查結果無疑可以為決策提供參考依據。定價的最后決策當然需要考慮眾多要素,94六.政府統(tǒng)計中需要研究的一些課題在政府統(tǒng)計中,抽樣調查需要研究一些問題1.樣本輪換問題涉及:輪換周期,輪換比例,輪換層次,輪換程序,數據的銜接等問題。關于使用永久隨機數抽樣方法的討論《永久隨機數法樣本輪換初探》,統(tǒng)計教育,2004,2《不同樣本輪換方法的比較》,統(tǒng)計與預測,2005,1六.政府統(tǒng)計中需要研究的一些課題952.抽樣調查滿足多層次需要問題抽樣方法改進的思路:層層抽樣追加樣本如何在估計方法上做文章“小區(qū)域”估計問題《論抽樣調查中的域估計》,統(tǒng)計與決策2003,12《對抽樣調查解決多層次估計問題的探討》,統(tǒng)計研究,2003,122.抽樣調查滿足多層次需要問題963.抽樣調查后的數據分析盲目使用統(tǒng)計軟件的陷阱,抽樣方法與分析方法不對應。例如權數的調整問題抽樣估計中的權數調整《全國統(tǒng)計科學研討會學術論文集》2002,8多變量聯合加權應用研究《統(tǒng)計理論、方法、應用研究》2002.10《多變量與規(guī)模成比例概率抽樣的有關問題》,統(tǒng)計與信息論壇,2004,1
3.抽樣調查后的數據分析974.數據的質量——缺失數據問題無回答,失真數據的剔除等處理缺失數據中輔助信息的利用《統(tǒng)計研究》1998,1不同插補方法的比較《數理統(tǒng)計與管理》2000,4缺失數據的偏差校正《數理統(tǒng)計與管理》2001,4缺失數據的加權調整《數理統(tǒng)計與管理》2001,5缺失數據的插補調整《數理統(tǒng)計與管理》2001,6處理無回答的校準估計《統(tǒng)計研究》2002,6調查中缺失數據的統(tǒng)計處理,《市場統(tǒng)計與信息》2005,44.數據的質量——缺失數據問題98抽樣調查是科學和藝術的結合需要本本,但不能“本本主義”需要經驗,但不能“經驗主義”抽樣調查是科學和藝術的結合99案例分析:極小信息情況下如何進行樣本量分配案例分析:100調查目的:了解亞洲血統(tǒng)人口對某些問題的看法,并和其他血統(tǒng)人口看法進行對比分析。調查對象:美籍居民調查方式:電話調查,電話號碼需購買樣本要求:Asian1200Hispanic600Non_H_B300NON_H_W600Total2700需要解決的問題:購買電話號碼數量及該數量在各地區(qū)的分配(回答率60%)。調查目的:了解亞洲血統(tǒng)人口對某些問題的看法,并和其他血101
表1:美國不同地區(qū)亞洲血統(tǒng)人口所占比重(1)地區(qū)(2)人口數(3)地區(qū)人口比重(4)亞裔人數(5)=(4)/(2)亞裔比重S.F.7239590.28420715528.614Seattle5162590.2026081911.781L.A.88631643.47192556110.443N.Y.73225642.8685099556.964Chicago27837261.091029383.698Balance23510353692.08451022102.17total25531320810069086382.706(1)地區(qū)(2)人口數(3)地區(qū)人口比重(4)亞裔人數(5)102分析:如果樣本量按人口比例在全國各地區(qū)鋪開,所需要的電話號碼個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 萬能補充協(xié)議
- 足底發(fā)麻病因介紹
- (2024)高速吹膜機項目可行性研究報告?zhèn)浒干暾埬0?一)
- 云南省曲靖市沾益區(qū)2024-2025學年七年級9月月考道德與法治試題(原卷版)-A4
- 2024秋新滬科版物理8年級上冊教學課件 第6章 熟悉而陌生的力 第4節(jié) 探究:滑動摩擦力大小與哪里因素有關
- 2023年智能電能表及配件項目融資計劃書
- 2023年原料藥機械及設備項目融資計劃書
- 《OJT推進與實施》課件
- 《珠心算基本功訓練》課件
- 湖北省黃石市大冶市2023-2024學年七年級上學期期末考試數學試卷(含答案)
- 汽車文化課件 第一章 汽車的前世今生
- 2024贊助合同模板
- 自來水施工方案
- 理賠基礎知識培訓
- 商務禮儀課件教學課件
- 高中語文《荷花淀》隨堂練習(含答案)
- 小學勞動教育實施情況調查問卷(含教師卷和學生卷)及調查結論
- 江西省南昌市雷式學校2024-2025學年八年級上學期第一次月考物理試卷
- 深信服aDesk桌面云實施方案
- 【部編】人教版六年級上冊道德與法治全冊知識點總結梳理
- 期末測評卷-2024-2025學年語文四年級上冊統(tǒng)編版
評論
0/150
提交評論