統(tǒng)計學(xué)數(shù)據(jù)預(yù)處理演示文稿_第1頁
統(tǒng)計學(xué)數(shù)據(jù)預(yù)處理演示文稿_第2頁
統(tǒng)計學(xué)數(shù)據(jù)預(yù)處理演示文稿_第3頁
統(tǒng)計學(xué)數(shù)據(jù)預(yù)處理演示文稿_第4頁
統(tǒng)計學(xué)數(shù)據(jù)預(yù)處理演示文稿_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計學(xué)數(shù)據(jù)預(yù)處理演示文稿當(dāng)前1頁,總共45頁。(優(yōu)選)統(tǒng)計學(xué)數(shù)據(jù)預(yù)處理當(dāng)前2頁,總共45頁。數(shù)據(jù)預(yù)處理把混在原始數(shù)據(jù)中的“異常數(shù)據(jù)”排除、把真正有用的“信息”提取出來,有助于推斷統(tǒng)計得出正確分析結(jié)論。1:異常數(shù)據(jù)取舍2:未檢出值和/或缺失值估算

采用異常數(shù)據(jù)進行推斷統(tǒng)計得到的結(jié)論誤導(dǎo)帶給科研與統(tǒng)計控制判斷出錯的隱患不可小視。當(dāng)前3頁,總共45頁。異常數(shù)據(jù)單個異常值:是指單個樣本觀測數(shù)據(jù)組內(nèi)隱含的個別異常數(shù)據(jù)。同義詞有:可疑值、異常值、極端值、端值、離群值、逸出值、奇異值、超限值、粗值…異常均數(shù):三個以上(k≥3)樣本多均數(shù)要作統(tǒng)計分析比較時,無疑也要檢查其中是否隱含可疑均數(shù)。當(dāng)前4頁,總共45頁。研究者對7例糖尿病患者給某種藥物后,測量其血中胰島素(/ml,X1)和血糖(mg%,X2)作者采用直線相關(guān)分析結(jié)論:血液中胰島素與血糖兩者含量之間無直線相關(guān)患者編號1234567胰島素(X1)241718121512110血糖(X2)142170194213214238249當(dāng)前5頁,總共45頁。剔出第6對數(shù)據(jù)前后的Pearson相關(guān)系數(shù),前者是0.314,后者是-0.936,顯示有相關(guān)性!當(dāng)前6頁,總共45頁。異常數(shù)據(jù)的判別法物理判別法:根據(jù)人們對客觀事物已有的認識,判別由于外界干擾、人為誤差等原因造成實測數(shù)據(jù)偏離正常結(jié)果,在實驗過程中隨時判斷,隨時剔除統(tǒng)計判別法:給定一個置信概率,并確定一個置信限,凡超過此限的誤差,就認為它不屬于隨機誤差范圍,將其視為異常數(shù)據(jù)剔除能用物理判別法判定異常數(shù)據(jù)有時不易做到,此時只能用統(tǒng)計判別法當(dāng)前7頁,總共45頁。統(tǒng)計判別法拉依達準則肖維勒準則格拉布斯準則狄克遜準則t檢驗(羅馬諾夫斯基準則)極差法

當(dāng)前8頁,總共45頁。統(tǒng)計判斷對異常數(shù)據(jù)的區(qū)分異常數(shù)據(jù)有兩種情況:1.異常值不屬于該總體,抽樣抽錯了,從另外一個總體抽出一個(一些)數(shù)據(jù),其值與總體平均值相差較大;2.異常值雖屬于該總體,但可能是該總體固有隨機變異性的極端表現(xiàn),比如說超過3σ的數(shù)據(jù),出現(xiàn)的概率很小。當(dāng)前9頁,總共45頁。犯錯誤1:將本來屬于該總體的、出現(xiàn)的概率小的、第二種情況的異常值判斷出來舍去,就會犯錯誤。----去真犯錯誤2:不屬于該總體但數(shù)值又和該總體平均值接近的數(shù)據(jù)被抽樣抽出來,統(tǒng)計檢驗方法判斷不出它是異常值,就會犯另外一種錯誤。----存?zhèn)萎?dāng)前10頁,總共45頁。統(tǒng)計判別法之一:拉依達準則如果實驗數(shù)據(jù)的總體x是服從正態(tài)分布的,則根據(jù)上式對于大于μ+3σ或小于μ-3σ的實驗數(shù)據(jù)作為異常數(shù)據(jù),予以剔除。剔除后,對余下的各測量值重新計算偏差和標準偏差,并繼續(xù)審查,直到各個偏差均小于3σ為止。無需查表,使用簡便當(dāng)前11頁,總共45頁。對某一長度L測量10次,其數(shù)據(jù)如下:試用拉依達準則剔除壞值。解:20.33不能用拉依達準則剔除例:次數(shù)12345678910L(cm)10.3510.3810.310.3210.3510.3310.3710.3110.3420.33當(dāng)前12頁,總共45頁。對某一長度L測量10次,其數(shù)據(jù)如下:試用拉依達準則剔除壞值。解:20.33用拉依達準則剔除例:次數(shù)1234567891011L(cm)10.3510.3810.310.3210.3510.3310.3710.3110.3420.3310.37當(dāng)前13頁,總共45頁。對于服從正態(tài)分布的測量結(jié)果,其偏差出現(xiàn)在±3σ附近的概率已經(jīng)很小,如果測量次數(shù)不多,偏差超過±3σ?guī)缀醪豢赡?,因而,用拉依達判據(jù)剔除疏失誤差時,往往有些疏失誤差剔除不掉。另外,僅僅根據(jù)少量的測量值來計算σ,這本身就存在不小的誤差。因此拉依達準則不能檢驗樣本量較小的情況。(顯著性水平為0.1時,n必須大于10)當(dāng)前14頁,總共45頁。統(tǒng)計判別法之二:肖維勒準則肖維勒準則又稱為等概率原則,以正態(tài)分布為前提,假設(shè)多次重復(fù)測量所得n個測量值中,某個測量值的殘余誤差|vi|=>Zcσ,則剔除此數(shù)據(jù)。實用中Zc<3,所以在一定程度上彌補了3σ準則的不足,另外考慮了測量次數(shù)的因素,在一定程度上比拉依達準則更合理。Zc是一個與測量次數(shù)相關(guān)的系數(shù),可以查表獲取。肖維勒準則可用于n<10時粗大誤差的判定。當(dāng)前15頁,總共45頁。Zc系數(shù)表

n

Zc

n

Zc

n

Zc

3

1.38

11

2.00

25

2.33

4

1.54

12

2.03

30

2.39

5

1.65

13

2.07

40

2.49

6

1.73

14

2.10

50

2.58

7

1.80

15

2.13

100

2.80

8

1.86

16

2.15

9

1.92

18

2.20

10

1.96

20

2.24當(dāng)前16頁,總共45頁。統(tǒng)計判別法之三:格拉布斯準則格拉布斯準則是在未知總體標準差情況下,對正態(tài)樣本或接近正態(tài)樣本異常值的一種判別方法。某個測量值的殘余誤差|vi|=>Tσ,則判斷此值中含有粗大誤差,應(yīng)予剔除。T值與重復(fù)測量次數(shù)n和置信概率α均有關(guān),因此格拉布斯準則是比較好的判定準則。格拉布斯準則理論較嚴密,概率意義明確,可用于嚴格要求的場合,當(dāng)n=20-100時,判別效果較好。T值通過查表獲得。當(dāng)前17頁,總共45頁。T0(n,α)值表

當(dāng)前18頁,總共45頁。采用格拉布斯方法判定異常數(shù)據(jù)的過程如下:1.選定危險率αα是一個較小的百分數(shù),例如1%,2.5%,5%,它是采用格拉布斯方法判定異常數(shù)據(jù)出現(xiàn)誤判的幾率。2.計算T值

如果x(n)是可疑數(shù)據(jù),則令

當(dāng)前19頁,總共45頁。3.根據(jù)n及α,查表得到T0(n,α)值4.如果T≥T0(n,α),則所懷疑的數(shù)據(jù)是異常數(shù)據(jù),應(yīng)予剔除。如果T0(n,α),則所懷疑的數(shù)據(jù)不是異常數(shù)據(jù),不能剔除。5.余下數(shù)據(jù)重復(fù)操作至無異常數(shù)據(jù)格拉布斯準則可以檢驗較少的數(shù)據(jù)當(dāng)前20頁,總共45頁。狄克遜準則亦稱Q檢驗法,狄克遜準則是通過極差比判定和剔除異常數(shù)據(jù)。該準則認為異常數(shù)據(jù)應(yīng)該是最大數(shù)據(jù)和最小數(shù)據(jù),因此該其基本方法是將數(shù)據(jù)按大小排隊,檢驗最大數(shù)據(jù)和最小數(shù)據(jù)是否異常數(shù)據(jù)。當(dāng)前21頁,總共45頁。將實驗數(shù)據(jù)xi按值的大小排成順序統(tǒng)計量x(1),≤x(2),≤x(3),……≤x(n)計算f0值

或根據(jù)狄克遜系數(shù)表將f0與f(n,α)進行比較如果f0>f(n,α),說明x(n)離群遠,則判定該數(shù)據(jù)為異常數(shù)據(jù),予以剔除。當(dāng)前22頁,總共45頁。狄克遜系數(shù)f(n,a)與f0的計算公式當(dāng)前23頁,總共45頁。t檢驗準則(羅馬諾夫斯基準則)t檢驗準則與狄克遜準則相似,也是檢驗最大實驗數(shù)據(jù)和最小實驗數(shù)據(jù)。首先將實驗數(shù)據(jù)按大小排列

x(1),≤x(2),≤x(3),……≤x(n)對最小數(shù)據(jù)和最大數(shù)據(jù)分別進行檢驗,如果

或則x(1)或x(n)是異常數(shù)據(jù),應(yīng)予剔除式中及分別為不包括x(1)或x(n)的n-1個數(shù)據(jù)的均值和標準差。當(dāng)前24頁,總共45頁。t檢驗中的K(n,α)

當(dāng)前25頁,總共45頁。應(yīng)注意的問題:①

所有的檢驗法都是人為主觀擬定的,至今無統(tǒng)一的規(guī)定。以數(shù)據(jù)按正態(tài)分布為前提的,當(dāng)偏離正態(tài)分布和測量次數(shù)少時檢驗不一定可靠。②

若有多個可疑數(shù)據(jù)同時超過檢驗所定置信區(qū)間,應(yīng)逐個剔除,重新計算,再行判別。若有兩個相同數(shù)據(jù)超出范圍時,應(yīng)逐個剔除。③在一組測量數(shù)據(jù)中,可疑數(shù)據(jù)應(yīng)很少。反之,說明系統(tǒng)工作不正常。④為了減少犯錯誤的概率,可以將3種以上統(tǒng)計檢驗法結(jié)合使用,根據(jù)多數(shù)方法的判斷結(jié)果,確定可疑值是否為異常值當(dāng)前26頁,總共45頁。拉依達準則不能檢驗樣本量較小的情況,格拉布斯準則則可以檢驗較少的數(shù)據(jù)。在國際上,常推薦格拉布斯準則和狄克遜準則。但對于異常數(shù)據(jù)一定要慎重,不能任意的拋棄和修改。往往通過對異常數(shù)據(jù)的觀察,可以發(fā)現(xiàn)引起系統(tǒng)誤差的原因,進而改進過程和試驗。當(dāng)前27頁,總共45頁。SPSS實現(xiàn)研究者對7例糖尿病患者給某種藥物后,測量其血中胰島素(/ml,X1)和血糖(mg%,X2)作者采用直線相關(guān)分析結(jié)論:血液中胰島素與血糖兩者含量之間無直線相關(guān)患者編號1234567胰島素(X1)241718121512110血糖(X2)142170194213214238249當(dāng)前28頁,總共45頁。SPSS實現(xiàn)本例為小樣本,單擊Analyze,后單擊Descriptivestatistics選擇[Explore]主對話框中,再單擊[Plots…]選項→進入[Explore:Plots]對話框:在Boxplots項下點選⊙DependentsTogether,在Descriptive項下勾選Stem-and-leaf,其余各項可以不要勾選和點選;單擊[Continue]返回[Explore]對話框,單擊OK,SPSS運行、輸出結(jié)果當(dāng)前29頁,總共45頁。當(dāng)前30頁,總共45頁。FrequencyStem&Leaf2.001.03.001.781.002.41.00Extremes(>=121)Stemwidth:10Eachleaf:1case(s)胰島素檢出離群值121葉莖圖和箱須圖提示有極端值(≥121)當(dāng)前31頁,總共45頁。缺失數(shù)據(jù)的處理當(dāng)前32頁,總共45頁。數(shù)據(jù)缺失的機制將數(shù)據(jù)集中不含缺失值的變量(屬性)稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量,Little和Rubin定義了以下三種不同的數(shù)據(jù)缺失機制:

1)完全隨機缺失:數(shù)據(jù)的缺失與不完全變量以及完全變量都是無關(guān)的。

2)隨機缺失:數(shù)據(jù)的缺失僅僅依賴于完全變量。

3)非隨機、不可忽略缺失:不完全變量中數(shù)據(jù)的缺失依賴于不完全變量本身,這種缺失是不可忽略的。當(dāng)前33頁,總共45頁。缺失數(shù)據(jù)預(yù)處理思想1.直接丟棄含缺失數(shù)據(jù)的記錄2.補缺

A.用平均值來代替所有缺失數(shù)據(jù)B.K-最近距離鄰居法:先根據(jù)歐式距離或相關(guān)分析來確定距離具有缺失數(shù)據(jù)樣本最近的K個樣本,將這K個值加權(quán)平均來估計該樣本的缺失數(shù)據(jù)。C.用預(yù)測模型來預(yù)測每一個缺失數(shù)據(jù):該方法最大限度地利用已知的相關(guān)數(shù)據(jù),是比較流行的缺失數(shù)據(jù)處理技術(shù)。當(dāng)前34頁,總共45頁。(一)個案剔除法(ListwiseDeletion)最常見、最簡單的處理缺失數(shù)據(jù)的方法,也是很多統(tǒng)計軟件(如SPSS)默認的缺失值處理方法。如果缺失值所占比例比較小,這一方法十分有效。至于具體多大的缺失比例算是“小”比例,專家們意見也存在較大的差距。有學(xué)者認為應(yīng)在5%以下,也有學(xué)者認為20%以下即可。這種方法卻有很大的局限性。它是以減少樣本量來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些對象中的信息。當(dāng)缺失數(shù)據(jù)所占比例較大,特別是當(dāng)缺數(shù)據(jù)非隨機分布時,這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,從而得出錯誤的結(jié)論。當(dāng)前35頁,總共45頁。(二)均值替換法(MeanImputation)缺失值是數(shù)值型的:平均值來填充該缺失的變量值缺失值是非數(shù)值型的,眾數(shù)來補齊該缺失的變量值。均值替換法也是一種簡便、快速的缺失數(shù)據(jù)處理方法。使用均值替換法插補缺失數(shù)據(jù),對該變量的均值估計不會產(chǎn)生影響。但這種方法是建立在完全隨機缺失(MCAR)的假設(shè)之上的,而且會造成變量的方差和標準差變小。當(dāng)前36頁,總共45頁。(三)熱卡填充法(Hotdecking)在數(shù)據(jù)庫中找到一個與最相似的對象,然后用這個相似對象的值來進行填充。不同的問題可能會選用不同的標準來對相似進行判定。變量Y與變量X相似,把所有個案按Y的取值大小進行排序。那么變量X的缺失值就可以用排在缺失值前的那個個案的數(shù)據(jù)來代替了。與均值替換法相比,利用熱卡填充法插補數(shù)據(jù)后,其變量的標準差與插補前比較接近。但在回歸方程中,使用熱卡填充法容易使得回歸方程的誤差增大,參數(shù)估計變得不穩(wěn)定,而且這種方法使用不便,比較耗時。當(dāng)前37頁,總共45頁。(四)回歸替換法(RegressionImputation)回歸替換法首先需要選擇若干個預(yù)測缺失值的自變量,然后建立回歸方程估計缺失值,即用缺失數(shù)據(jù)的條件期望值對缺失值進行替換。該方法也有諸多弊端,第一,容易忽視隨機誤差,低估標準差和其他未知性質(zhì)的測量值,而且這一問題會隨著缺失信息的增多而變得更加嚴重。第二,研究者必須假設(shè)存在缺失值所在的變量與其他變量存在線性關(guān)系,很多時候這種關(guān)系是不存在的。當(dāng)前38頁,總共45頁。(五)多重替代法(MultipleImputation)由Rubin等人于1987年建立起來的作為簡單估算的改進產(chǎn)物。首先,用一系列可能的值來替換每一個缺失值,以反映被替換的缺失數(shù)據(jù)的不確定性。然后,用標準的統(tǒng)計分析過程對多次替換后產(chǎn)生的若干個數(shù)據(jù)集進行分析。最后,把來自于各個數(shù)據(jù)集的統(tǒng)計結(jié)果進行綜合,得到總體參數(shù)的估計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論