非參數(shù)統(tǒng)計方法簡介.ppt_第1頁
非參數(shù)統(tǒng)計方法簡介.ppt_第2頁
非參數(shù)統(tǒng)計方法簡介.ppt_第3頁
非參數(shù)統(tǒng)計方法簡介.ppt_第4頁
非參數(shù)統(tǒng)計方法簡介.ppt_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

非參數(shù)統(tǒng)計方法簡介,廖海仁 2011.3.17,提 綱,統(tǒng)計的穩(wěn)健性 參數(shù)統(tǒng)計 vs 非參數(shù)統(tǒng)計 單總體位置參數(shù)的檢驗 1)中位數(shù)的符號檢驗 2)符號秩和檢驗 分布的一致性檢驗: 2檢驗 兩總體的比較與檢驗 多總體的比較與檢驗,統(tǒng)計之都論壇的一個帖子,標題:心理統(tǒng)計求教,方差分析還是T檢驗?zāi)兀?內(nèi)容: 問題是這樣的:對我校4個年級的大學生適應(yīng)心理進行分析,每個年級得出50組數(shù)據(jù),現(xiàn)在要比較不同年級之間適應(yīng)性的差異性,到底要用什么檢驗,用spss這樣操作呢?小妹在此求教求真理,謝謝各位大哥了! 回答一: 一般與人的行為相關(guān)的數(shù)據(jù)都是偏態(tài)的分布,方差分析和t-test就不適用了吧,統(tǒng)計的穩(wěn)健性,指統(tǒng)計的一種性質(zhì):當真實模型與理論模型有不大的偏離時,統(tǒng)計方法仍能維持較為良好的性質(zhì),至少不致變得太壞。 實際應(yīng)用中總體的分布的假定的分布常略有偏離;大量的觀測數(shù)據(jù)中常存在部分異常數(shù)據(jù)。 (1)對總體分布的穩(wěn)健性 若性能與總體的正態(tài)性有較強的依賴關(guān)系者,如F檢驗,其穩(wěn)健性較差;而與總體均值相關(guān)的統(tǒng)計方法,如t檢驗之類,其穩(wěn)健性相對較好。 (2)對異常數(shù)據(jù)的穩(wěn)健性 典型例子:樣本均值估計總體均值,受異常數(shù)據(jù)影響較大,相對中位數(shù)與截斷均值更不穩(wěn)健。 獲得對異常數(shù)據(jù)穩(wěn)健性的途徑:a) 設(shè)計有效的方法發(fā)現(xiàn)并剔除異常值;b) 設(shè)計對個別異常數(shù)據(jù)不敏感的統(tǒng)計方法,參數(shù)統(tǒng)計 vs 非參數(shù)統(tǒng)計,參數(shù)統(tǒng)計 假設(shè)總體分布函數(shù)已知(大多數(shù)基于正態(tài)假設(shè))或只帶有一些未知參數(shù) 非參數(shù)統(tǒng)計 如果在一個統(tǒng)計問題中,如果其總體分布不能用有限個實數(shù)來刻畫,只能對它做一些分布連續(xù)、有密度、具有某些矩等一般性的假定,則稱為非參數(shù)統(tǒng)計問題。,非參數(shù)方法的特點,方法的適用面廣而效率可能較低 大樣本理論占重要位置 所謂大樣本統(tǒng)計方法是指根據(jù)統(tǒng)計量的極限性質(zhì)而得出的統(tǒng)計方法 大樣本理論依賴于概率論的極限理論 從數(shù)據(jù)本身獲取信息 具有良好的穩(wěn)健性,基本概念,秩(Rank): 把樣本X1,X2,Xn按大小排列為X(1) = X(2) = X(n), 若Xi=X (Ri) ,則稱Ri為Xi的秩, 全部n個秩構(gòu)成秩統(tǒng)計量。秩統(tǒng)計量是非參數(shù)統(tǒng)計的一個主要工具。 Statistical Methods Based on RankE.L. Lehmann Order Statistics H.A. David 中位數(shù)(Median) 均值(Mean) 優(yōu)點:(1)有時比數(shù)學期望更有代表性; (2)受少數(shù)異常值的影響很小 (3)理論上總是存在 性質(zhì):設(shè)X有概率密度函數(shù)f(x), 另h(a)=E|X-a|, 當a為X的中位數(shù)m時,h(a)達到最小值。 缺點:(1)X1+X2的中位數(shù)與X1,X2的中位數(shù)缺乏簡單聯(lián)系,數(shù)學上處理復(fù)雜且不方便 (2)中位數(shù)可能不唯一,對于離散型,定義可能不理想 (3)實際計算的復(fù)雜度遠大于均值計算的復(fù)雜度,樣本數(shù)據(jù)分析的一般步驟,數(shù)據(jù)探查 R: plot, hist, boxplot 分布的檢驗 使用QQ圖 R:qqnorm, qqline Shapiro-Wilk Normality test(正態(tài)分布檢驗)(適合小樣本 N2000) R: shapiro.test(x) Kolmogorov-Smironov test (K-S分布檢驗) (適合大樣本) ks.test(x, “pnorm“, mean = mean(x), sd = sqrt(var(x) 使用具體的假設(shè)檢驗方法:方差分析、T檢驗、非參數(shù)方法等,中位數(shù)的符號檢驗,在總體分布為正態(tài)分布時,要檢驗其均值是否為,使用t檢驗: T= (X- ) / (s/sqrt(n) t(n-1)。當分布未知時,此方法可能有風險 中位數(shù)檢驗:檢驗其中位數(shù)是否為M0 H0: M=M0 H1: M M0 (雙邊假設(shè)檢驗) 符號檢驗檢驗統(tǒng)計量: S+ = #Xi: Xi-M0 0, i=1,2,3,n 將其轉(zhuǎn)化為二項分布檢驗: S+ binom(n, ) R實現(xiàn):無直接函數(shù),自己借用binom.test(s, n, p=0.5, ),符號秩和檢驗,符號檢驗不足:不考察值的大小,不能檢驗出偏度非常大的分布(實例中的值明顯偏大于6064,卻沒有檢驗出來)。 符號秩和檢驗(又稱Wilcoxon符號秩檢驗)基本思想:考察 |xi-M0| 的秩,假定總體是連續(xù)的,且對其中位數(shù)是對稱的,則 W+ = Ri(+) 服從中點為n(n+1)/4的對稱分布。 符號秩和檢驗一般比符號檢驗更有效(強勢) R: wilcox.test()可用來進行符號秩和檢驗 wilcox.test(x, y = NULL, alternative = c(“two.sided“, “l(fā)ess“, “greater“), mu = 0, paired = FALSE, exact = NULL, correct = TRUE, = FALSE, conf.level = 0.95, .),分布的一致性檢驗:2檢驗,用來檢驗數(shù)據(jù)分布是否與假設(shè)分布是否一致(擬合優(yōu)度檢驗) H0: X具有分布F H1: X不具有分布F 理論(Pearson定理):若F(x)完全已知,則 K = m(ni- npi)2 / npi 2(m-1) 其中n= ni, pi是第i個區(qū)間的理論概率, m為區(qū)間數(shù)。 (區(qū)間的選擇:不宜太大,也不宜太小,每個區(qū)間一般至少要有5個數(shù)據(jù),總區(qū)間數(shù)可選5-10個) R: chisq.test chisq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x), rescale.p = FALSE, simulate.p.value = FALSE, B = 2000),r x c 列聯(lián)表,一般,若總體中的個體可按兩個屬性A與B分類,A有r個等級A1,A2,Ar;B有個等級B1,B2,Bc,從總體中抽取大小為n的樣本設(shè)其中有nij個屬于等級Ai和Bj,nij稱為頻數(shù),將r個nij(i=1,2,r; j=1,2,)排列為一個r行列的二維列聯(lián)表(表2),簡稱r 表。,兩總體獨立性的2檢驗,統(tǒng)計量 的漸近分布是自由度為 (r1)(1) 的2分布,式中Eijninj/n 稱為期望頻數(shù)。 假設(shè): H0(零假設(shè)): 對任意的i, j, 事件“一個觀測值在行i”與事件”同樣的觀測在列j”是獨立性。 H1(備擇假設(shè)): 行與列不獨立 R: wilcox.test,Fisher精確檢驗,2檢驗只允許20%以下的個子的期望頻數(shù)小于5,如果不滿足此條件,則應(yīng)該使用Fisher精確檢驗 基本思想:固定各邊緣和的條件下,根據(jù)超幾何分布,可以計算觀測頻數(shù)出現(xiàn)任一種特定排列的條件概率。把實際出現(xiàn)的觀測頻數(shù)排列以及比它呈現(xiàn)更多關(guān)聯(lián)跡象的所有可能排列的條件概率算出來并相加,若所得結(jié)果小于給定的顯著水平,則判定所考慮的兩個屬性存在關(guān)聯(lián),從而拒絕H0。 fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE, control = list(), or = 1, alternative = “two.sided“, = TRUE, conf.level = 0.95, simulate.p.value = FALSE, B = 2000),兩樣本W(wǎng)ilcoxon秩和檢驗,在正態(tài)總體的假定下,兩樣本的均值檢驗通常使用t檢驗,但t檢驗并不穩(wěn)健 基本思想:將樣本X1,X2,Xm和Y1,Y2,Yn混合起來,并把N=(m+n)個觀測值從小到大排列起來每一個觀察在混合排列中都有自己的秩。計算X與Y樣本的秩和Wx與Wy. 假設(shè)檢驗(檢驗兩樣本中值是否相等):H0: Mx=My H1: Mx My R: wilcox.test,兩樣本尺度參數(shù)的Mood檢驗,兩獨立樣本方差之比的F檢驗對于總體非正態(tài)或數(shù)據(jù)有嚴重污染時不一定適用。 設(shè)兩連續(xù)總體X與Y獨立,樣本X1, X2, ,XmF(x-1/1) Y1, Y2, , YmF(x-2/2) , 而且F(0)=1/2, 1 = 2 (若不相等,可以通過平移來使它們相等) 假設(shè)檢驗: H0: 1 = 2 H1: 1 2 構(gòu)造統(tǒng)計量:記R11, R12, , R1m為X的觀察值在混合樣本中的秩, M = m(R1i-(N+1)/2)2 R: mood.test(x, y, alternative = c(“two.sided“, “l(fā)ess“, “greater“), .) 注意:做檢驗時必須保證兩樣本中值相等!,兩樣本尺度參數(shù)的Ansari-Bradley檢驗,檢驗兩樣本方差是否相等(相當于F檢驗) R: ansari.test(x, y, alternative = c(“two.sided“, “l(fā)ess“, “greater“), exact = NULL, = FALSE, conf.level = 0.95, .),多樣本位置

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論