版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
市場(chǎng)調(diào)查課程第十章定量調(diào)查資料的整理(二)學(xué)習(xí)目標(biāo)理解調(diào)查資料整理的作用
熟悉調(diào)查數(shù)據(jù)整理的一般流程
理解編碼的作用,掌握編碼表的設(shè)計(jì)技巧
了解確實(shí)數(shù)據(jù)的處理方法
了解調(diào)查數(shù)據(jù)中的權(quán)數(shù)設(shè)計(jì)本講內(nèi)容3調(diào)查資料整理概述01調(diào)查問卷的回收及審核02調(diào)查資料的編碼0304調(diào)查數(shù)據(jù)的清潔和預(yù)處理調(diào)查數(shù)據(jù)的清潔和預(yù)處理045數(shù)據(jù)的清潔包括一致性檢查、邏輯檢查和缺失數(shù)據(jù)的處理等。6審核階段進(jìn)行的初步的一致性審核主要采用手工形式,此階段的一致性檢查主要通過計(jì)算機(jī)進(jìn)行,更加全面廣泛。調(diào)查數(shù)據(jù)的一致性檢查和邏輯檢查一致性檢查變量的取值是否超出合理范圍有無邏輯錯(cuò)誤有無極端值若超出合理范圍,則必須給予矯正。對(duì)于超出范圍的變量取值,應(yīng)核對(duì)原始問卷進(jìn)行改正檢查數(shù)據(jù)有無邏輯錯(cuò)誤,邏輯錯(cuò)誤的形式是多樣的。并非所有的極端值都來自誤差,但有時(shí)通過極端值可以找出有問題的數(shù)據(jù)例如,在要求被調(diào)查者給出滿意度的5級(jí)量表中,表達(dá)滿意度的選項(xiàng)從1~5,假設(shè)用9表示缺失值,則如果出現(xiàn)6,7,8,0這些數(shù)字,就說明超出了取值范圍。例如,在商品房租賃市場(chǎng)調(diào)查中,沒有租房卻填寫房屋租金。又如,不知道某個(gè)品牌的產(chǎn)品卻又頻繁使用該產(chǎn)品。還有年齡為15歲的人文化程度為碩士以上。這些數(shù)據(jù)都有邏輯錯(cuò)誤,需要核對(duì)改正。例如,某被調(diào)查者對(duì)某品牌的評(píng)價(jià)非常低,原因是他對(duì)所有問題一律都答1。7如果數(shù)據(jù)空缺或無效,一般視為缺失值。如果缺失數(shù)據(jù)比例較大,或者缺失數(shù)據(jù)的分布與總體分布有明顯差異,就可能使分析有偏。缺失數(shù)據(jù)的處理在收集階段盡量減少無回答,在審核階段嚴(yán)把關(guān),并采取再次回訪調(diào)查或核實(shí)數(shù)據(jù)等在數(shù)據(jù)清潔階段對(duì)缺失數(shù)據(jù)的處理處理方法事前控制事后控制8四種事后控制缺失值處理方法刪除個(gè)案刪除缺失值加權(quán)組調(diào)整法插補(bǔ)法將有缺失數(shù)據(jù)的個(gè)案都刪除掉,不參加數(shù)據(jù)分析適用于樣本量很大、有缺失數(shù)據(jù)個(gè)案比例較小,且有缺失數(shù)據(jù)個(gè)案與無缺失數(shù)據(jù)個(gè)案在分布上無顯著差異如果許多被調(diào)查者都有一些問題沒有回答,將刪除大量的數(shù)據(jù)導(dǎo)致小樣本,可能會(huì)使結(jié)果產(chǎn)生嚴(yán)重偏差不刪除有缺失數(shù)據(jù)的所有個(gè)案,僅在計(jì)算時(shí)刪除相應(yīng)變量的缺失值,即對(duì)變量有完整回答的個(gè)案才能參加計(jì)算,對(duì)變量有缺失值的個(gè)案不參加該次計(jì)算如果某變量有缺失值個(gè)案與無缺失值個(gè)案在分布上有明顯差異,可能導(dǎo)致偏差樣本量較大、缺失數(shù)據(jù)較少并且變量間不是高度相關(guān)的情況下,可使用對(duì)回答數(shù)據(jù)使用加權(quán)因子,降低缺失值的偏差影響利用其他數(shù)據(jù)替代或估算缺失值常用的插補(bǔ)法主要有均值插補(bǔ)法、回歸插補(bǔ)法、最近鄰插補(bǔ)法、隨機(jī)插補(bǔ)法等例如,被調(diào)查家庭對(duì)某產(chǎn)品的購(gòu)買量有缺失數(shù)據(jù),可以根據(jù)回答數(shù)據(jù)建立購(gòu)買量與家庭人口、家庭收入等變量的多元回歸模型,然后根據(jù)估計(jì)的回歸方程預(yù)測(cè)缺失的產(chǎn)品購(gòu)買量數(shù)據(jù)。9常用的插補(bǔ)法[1]均值插補(bǔ)法用回答單元觀測(cè)值的均值對(duì)缺失值進(jìn)行插補(bǔ)如果利用輔助信息對(duì)樣本進(jìn)行分層,,然后在每一層中,用層內(nèi)回答單元的均值插補(bǔ)該層的缺失值,則稱為分層均值插補(bǔ)法均值插補(bǔ)法不會(huì)改變估計(jì)量的均值,但可能會(huì)導(dǎo)致估計(jì)量方差的低估回歸插補(bǔ)法利用回歸模型對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè)插補(bǔ)例如,被調(diào)查家庭對(duì)某產(chǎn)品的購(gòu)買量有缺失數(shù)據(jù),可以根據(jù)回答數(shù)據(jù)建立購(gòu)買量與家庭人口、家庭收入等變量的多元回歸模型,然后根據(jù)估計(jì)的回歸方程預(yù)測(cè)缺失的產(chǎn)品購(gòu)買量數(shù)據(jù)。10常用的插補(bǔ)法[2]最近鄰插補(bǔ)法根據(jù)樣本單元在輔助變量上的接近程度來選擇缺失值的賦值單元即在變量Y的無回答單元鄰近的回答單元中,利用輔助變量定義樣本單元間的距離函數(shù),選擇滿足所設(shè)定距離條件的回答單元的變量Y取值為插補(bǔ)值隨機(jī)插補(bǔ)法在前面的確定性插補(bǔ)基礎(chǔ)上加入隨機(jī)成分,其基本表達(dá)式為:
11與大部分?jǐn)?shù)值相比有較大差別的數(shù)據(jù)被稱為異常值或離群值。異常值的出現(xiàn)可能是隨機(jī)波動(dòng)的極端情況,也可能是源于調(diào)查過程的測(cè)量誤差或過程誤差。異常值的診斷異常值的存在對(duì)抽樣估計(jì)誤差有很大影響,因此在數(shù)據(jù)整理過程中,需要對(duì)異常值進(jìn)行識(shí)別診斷和處理異常值診斷貝克曼和庫(kù)克在1986年指出,異常值一般被理解為數(shù)據(jù)集明顯不協(xié)調(diào)、出現(xiàn)概率非常小的數(shù)據(jù)點(diǎn),
或者為不是與數(shù)據(jù)集來自同一部分摻入該數(shù)據(jù)集中的“雜質(zhì)”
異常值的異常之處是相對(duì)于數(shù)據(jù)集的總體或假定的模型而言的基礎(chǔ)的
數(shù)據(jù)集有異常值時(shí),直接使用數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析將影響分析的準(zhǔn)確性,甚至得出錯(cuò)誤的結(jié)論,因此
需要判斷異常值的類型,然后決定是否提出異常值或做其他平滑處理12異常值診斷的常用方法:統(tǒng)計(jì)分布法與回歸診斷法
統(tǒng)計(jì)分布法利用輔助變量對(duì)檢測(cè)變量構(gòu)建回歸模型,通過估計(jì)的回歸模型進(jìn)行殘差檢驗(yàn),如果出現(xiàn)異常大的殘差或Cook距離,判斷是異常值點(diǎn)回歸檢驗(yàn)法13異常值診斷的常用方法:戈羅伯斯檢驗(yàn)法與四位分?jǐn)?shù)法將所有數(shù)據(jù)按數(shù)值大小排序,計(jì)算上四分位數(shù)UQ、下四分位數(shù)LQ以及四分位差I(lǐng)QR=UQ-LQ,不在區(qū)間
(LQ
-
k
×
IQR,
UQ
+
k
×
IQR)
內(nèi)的樣本數(shù)據(jù)被判定為異常值。系數(shù)
k
可以根據(jù)具體情況自己設(shè)定,實(shí)踐中通常設(shè)為1.5
四位分?jǐn)?shù)法
戈羅伯斯檢驗(yàn)法14對(duì)于被檢測(cè)出來的異常值不能簡(jiǎn)單采用提出的方法,具體選擇處理方法之前應(yīng)該判斷可能的產(chǎn)生原因。異常值產(chǎn)生原因判斷判斷原因示例測(cè)量誤差是異常值最常見的來源。可能是問卷的設(shè)計(jì)不夠規(guī)范,例如測(cè)量距離時(shí)計(jì)量單位標(biāo)注不清楚,有受訪者把公里誤解為米。也有可能是主題敏感導(dǎo)致受訪者自己故意高報(bào)或低報(bào)數(shù)值。
在數(shù)據(jù)收集、記錄、錄入、處理過程中經(jīng)常會(huì)出現(xiàn)人為錯(cuò)誤導(dǎo)致數(shù)據(jù)出現(xiàn)異常值,例如家庭常住人口數(shù)出現(xiàn)55很可能是重復(fù)錄入5導(dǎo)致的
抽樣錯(cuò)誤:例如規(guī)模以下企業(yè)調(diào)查中由于編碼錯(cuò)誤,抽取了大規(guī)模企業(yè),導(dǎo)致產(chǎn)值數(shù)據(jù)中出現(xiàn)異常數(shù)據(jù)。
自然異常值,異常值也可能不是錯(cuò)誤導(dǎo)致的自然數(shù)據(jù),例如大學(xué)生身高調(diào)查中可能會(huì)訪問到身高2米的籃球特長(zhǎng)生,住戶收支調(diào)查也可能訪問到億萬富翁。
15異常值的處理(1)刪除法(2)縮尾法(6)穩(wěn)健估計(jì)(5)插補(bǔ)法(4)調(diào)整權(quán)數(shù)(3)變換變量適用于抽樣錯(cuò)誤的異常值以及異常值比較少的情況把樣本數(shù)據(jù)y1,…,yn從小到大依次排序?yàn)閥(1),…,y(n),如果排在第k位的數(shù)據(jù)y(k)至最大值y(n)被認(rèn)為是離群值,則在估計(jì)時(shí)將所有離群值的數(shù)值y(k),…,y(n)均替換為y(k-1)的數(shù)值參與計(jì)算比如自然對(duì)數(shù)變換可以減少由極值引起的變化,分組合并也是一種變換方式,決策樹算法允許變量的合并也可很好地處理異常值降低異常值的權(quán)數(shù),使得異常值的影響變小。將異常值單獨(dú)分組賦予很小的抽樣權(quán)數(shù)可以有效降低抽樣方差,但主觀降低權(quán)數(shù)也可能導(dǎo)致低估總體參數(shù)將異常值直接刪除,視為缺失數(shù)據(jù)進(jìn)行插補(bǔ)處理采用對(duì)異常值不太敏感的穩(wěn)健估計(jì)量,比如中位數(shù)比均值更為穩(wěn)健,四分位數(shù)間距比方差估計(jì)量更為穩(wěn)健16設(shè)計(jì)權(quán)數(shù)是由抽樣設(shè)計(jì)所規(guī)定的每個(gè)樣本單元所代表研究總體的單元數(shù),也就是樣本單元入樣概率的倒數(shù)。設(shè)計(jì)權(quán)數(shù)用Wdi
表示第
i
個(gè)單元的設(shè)計(jì)權(quán)數(shù),則總體總值的估計(jì)為:
所以總體總值的估計(jì)又可以寫為:在多階段抽樣條件下,設(shè)計(jì)權(quán)數(shù)由每個(gè)單元在不同階段的入樣概率相乘而得。例如,對(duì)于二階段的抽樣設(shè)計(jì),令P1i
代表第i
個(gè)單位在第一個(gè)階段的入樣概率,P2i
代表第i
個(gè)單元在第二個(gè)階段的入樣概率,則i
單元的設(shè)計(jì)權(quán)數(shù)為:以此可以推演到更多階段抽樣設(shè)計(jì)的情況17權(quán)數(shù)的結(jié)構(gòu)調(diào)整包括的范圍比較廣,主要指調(diào)查現(xiàn)場(chǎng)出現(xiàn)與抽樣設(shè)計(jì)不同的情況,為了保證抽樣設(shè)計(jì)方案的落實(shí)而進(jìn)行的某些權(quán)數(shù)調(diào)整。
權(quán)數(shù)的結(jié)構(gòu)調(diào)整我國(guó)勞動(dòng)力抽樣調(diào)查是多階段分層整群抽樣,最后階段抽取群,群由30個(gè)家庭戶組,對(duì)抽中群內(nèi)的家庭戶全部進(jìn)行調(diào)查。在調(diào)查實(shí)施中,不可能保證所有的群都正好為30戶,如在農(nóng)村有自然村,對(duì)于很小的自然村(遠(yuǎn)少于30戶)可以合并為群,對(duì)于規(guī)模差不多的自然村(30戶左右),該自然村就是一個(gè)群。在城市通常取某棟住宅樓或某個(gè)單元為一個(gè)群。有些群的規(guī)模與抽樣設(shè)計(jì)相同(正好30戶)或相仿(30戶左右),有些群的規(guī)模則與抽樣設(shè)計(jì)要求相差較大,需要對(duì)入樣單元的設(shè)計(jì)權(quán)數(shù)進(jìn)行調(diào)整。例:
18調(diào)查中都會(huì)遇到無回答的情況,只能得到回答者的數(shù)據(jù);此時(shí)如果不對(duì)原有的設(shè)計(jì)權(quán)數(shù)進(jìn)行調(diào)整,哪些無回答單位的權(quán)數(shù)就會(huì)喪失,總體的規(guī)模就會(huì)被低估。權(quán)數(shù)的無回答調(diào)整權(quán)數(shù)的無回答調(diào)整可以計(jì)算無回答調(diào)整系數(shù):令Wnri
為無回答調(diào)整系數(shù),
Wri
為調(diào)查中回答單元的權(quán)數(shù)和,。Wni
為調(diào)查中無回答單元的權(quán)數(shù)和,則無回答調(diào)整系數(shù)為
調(diào)整的思路是把無回答單元的設(shè)計(jì)權(quán)數(shù)在回答單元之間進(jìn)行重新分配,無回答調(diào)整系數(shù)Wnri就是分配比例。如果是大規(guī)模調(diào)查,無回答調(diào)整系數(shù)應(yīng)該分別計(jì)算(如按群,按層等)19最終權(quán)數(shù)是對(duì)目標(biāo)量進(jìn)行估計(jì)所使用的權(quán)數(shù),是設(shè)計(jì)全是、結(jié)構(gòu)調(diào)整系數(shù)、無回答調(diào)整系數(shù)的最終結(jié)合體。最終權(quán)數(shù)最終權(quán)數(shù)設(shè)計(jì)權(quán)數(shù)結(jié)構(gòu)調(diào)整系數(shù)無回答調(diào)整系數(shù)=xx令最終權(quán)數(shù)位Wi,則有:=xx20變量重新定義根據(jù)數(shù)據(jù)分析的需要,在分析之前可能要對(duì)現(xiàn)有的變量進(jìn)行一定的修改或生成新變量。變量的轉(zhuǎn)換[1]某些分析方法可能對(duì)變量的數(shù)學(xué)特性有一定要求,因此可能要改變數(shù)據(jù)的測(cè)量水平,把定距、定比變量轉(zhuǎn)為定序、定類變量。例:進(jìn)行交叉列聯(lián)分析時(shí),必須先將某變量(如收入)劃分為高、中、低三組。另外,同測(cè)度內(nèi)有時(shí)還需要進(jìn)行再分組,如年齡最初分為10組,但實(shí)際分析中分組過細(xì)反而不便于分析,因而要把小類合并為大類
變量轉(zhuǎn)換為了模型的擬合程度在分析前把變量標(biāo)準(zhǔn)化,并且對(duì)變量進(jìn)行對(duì)數(shù)變換等措施。例:①
進(jìn)行聚類分析、因子分析時(shí),必須消除量綱的影響,要在分析前先把變量標(biāo)準(zhǔn)化。②
進(jìn)行回歸分析時(shí),為了改進(jìn)模型的擬合程度,要對(duì)變量進(jìn)行對(duì)數(shù)變換、平方根變換等。
21定類變量轉(zhuǎn)化為0-1變量根據(jù)數(shù)據(jù)分析的需要,在分析之前可能要對(duì)現(xiàn)有的變量進(jìn)行一定的修改或生成新變量。變量的轉(zhuǎn)換[2]重新組合新變量為便于分析,有時(shí)要把定類變量轉(zhuǎn)換為0-1變量。這種轉(zhuǎn)換便于進(jìn)行定量分析。例:被調(diào)查者的居住地包括北京、上海、廣州和杭州這四類,,可以將其轉(zhuǎn)變?yōu)閄1,X2,和
X3
這三個(gè)0-1變量。一般在正式進(jìn)行統(tǒng)計(jì)分析之前,為了定量分析的方便,常把一些定類變量轉(zhuǎn)換為若干個(gè)0-1變量。一般來說,含K個(gè)類別的變量可以用K-1個(gè)0-1變量來表示。某些特定的統(tǒng)計(jì)分析(如你和模型)需要把幾個(gè)變量重新組合為一個(gè)新的變量,重新進(jìn)行定義。例:根據(jù)被調(diào)查者對(duì)耐用消費(fèi)品在若干方面的評(píng)價(jià),把各方面的評(píng)價(jià)值加權(quán)平均,就可以得到一個(gè)新變量“綜合評(píng)價(jià)得分”
22為了保證數(shù)據(jù)的可比性,便于進(jìn)行數(shù)據(jù)分析,有時(shí)候還要做一些量表的變換。量表的轉(zhuǎn)換一些量表可能會(huì)分別從正、反兩個(gè)方向設(shè)計(jì)問題。分析時(shí)需要注意統(tǒng)一方向,便于比較。例:從一下6個(gè)角度調(diào)查觀眾對(duì)某廣告的看法在分析數(shù)據(jù)前,應(yīng)把量表問題的方向統(tǒng)一,這樣才能進(jìn)行比較分析,否則各題的答案之間沒有可加性為了合乎人們比較的習(xí)慣或滿足其他分析需要,要對(duì)量表數(shù)據(jù)進(jìn)行轉(zhuǎn)換為了使不同單位或不同量表的變量在分析中具有可比性,可以對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化
正正正反反反例如同樣都選2,對(duì)D為正面評(píng)價(jià),對(duì)F則是反面評(píng)價(jià)。假設(shè)將以上問題統(tǒng)一為正面問題,則要改變A,C,F。以F為例,改為F1“天天播此廣告,不會(huì)讓我產(chǎn)生反感”,當(dāng)然該題的取值也應(yīng)該顛倒位置,原來選1現(xiàn)在改為4,原來選4現(xiàn)在改為1,原來選2現(xiàn)在改為3,原來選3現(xiàn)在改為2。這樣,同樣都選2,對(duì)D和F1都為正面評(píng)價(jià)。23數(shù)據(jù)的變換處理
標(biāo)準(zhǔn)化轉(zhuǎn)換規(guī)格化轉(zhuǎn)換【小結(jié)】124市場(chǎng)調(diào)查數(shù)據(jù)收集回來以后,必須經(jīng)過整理才能進(jìn)行分析。調(diào)查數(shù)據(jù)的整理主要依據(jù)調(diào)查資料的整理方案來進(jìn)行,數(shù)據(jù)整理的步驟一般包括:對(duì)原始資料進(jìn)行審核、訂正;編碼;數(shù)據(jù)的錄入;數(shù)據(jù)的清潔;進(jìn)行統(tǒng)計(jì)預(yù)處理。調(diào)查問卷的回收是一項(xiàng)非常具體的工作,問卷回收中登記和編號(hào)工作很重要。對(duì)調(diào)查資料進(jìn)行審核是保證調(diào)查工作質(zhì)量的關(guān)鍵。審核的內(nèi)容一般包括完整性的審核、正確性的審核、一致性的審核、及時(shí)性的審核以及清楚易懂等幾個(gè)方面。審核的主要方法有經(jīng)驗(yàn)判斷、邏輯檢查、計(jì)算審核等。以最常見的中心辦公室審核為例,審核的基本步驟是接收核查問卷(又稱一審)、編輯檢查(又稱二審)及采取相應(yīng)處理措施等?!拘〗Y(jié)】225編碼是將問卷信息(包括調(diào)查問題和答案)轉(zhuǎn)化為統(tǒng)一設(shè)計(jì)的計(jì)算機(jī)可識(shí)別的代碼,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《如何回訪客戶》課件
- 船員管理培訓(xùn)課件
- 《浪微博新媒體營(yíng)銷》課件
- 防火用電安全知識(shí)
- 七年級(jí)生物上冊(cè)第三單元生物圈中的綠色植物第四章綠色植物是生物圈中有機(jī)物的制造者教案新版新人教版1
- 七年級(jí)語(yǔ)文上冊(cè)第四單元寫作思路要清晰教案新人教版
- 三年級(jí)數(shù)學(xué)上冊(cè)六乘法去游樂場(chǎng)說課稿北師大版
- 《黨的群眾路線》課件
- 小學(xué)生宿舍衛(wèi)生檢查制度
- 一元一次方程應(yīng)用題復(fù)習(xí)
- 五級(jí)(程控交換)職業(yè)技能鑒定理論考試題及答案
- 醫(yī)療救護(hù)合作協(xié)議
- 《微元法的應(yīng)用》課件
- 文職-管理學(xué)基礎(chǔ)知識(shí)點(diǎn)
- 標(biāo)準(zhǔn)門面租房合同范本
- 江蘇省高中名校2025屆高三下學(xué)期一模考試數(shù)學(xué)試題含解析
- 2024年上海市16區(qū)高考英語(yǔ)一模試卷聽力部分匯編(附14區(qū)聽力音頻)含答案與文本
- 《無人機(jī)飛行操控技術(shù)(微課版)》全套教學(xué)課件
- 2023-2024學(xué)年廣東省深圳高級(jí)中學(xué)七年級(jí)(上)期末歷史試卷
- 2024年房屋租賃補(bǔ)充協(xié)議參考模板(四篇)
- 婦科宮腔鏡技術(shù)風(fēng)險(xiǎn)評(píng)估預(yù)案
評(píng)論
0/150
提交評(píng)論