非參數(shù)統(tǒng)計(jì)教學(xué)課件_第1頁
非參數(shù)統(tǒng)計(jì)教學(xué)課件_第2頁
非參數(shù)統(tǒng)計(jì)教學(xué)課件_第3頁
非參數(shù)統(tǒng)計(jì)教學(xué)課件_第4頁
非參數(shù)統(tǒng)計(jì)教學(xué)課件_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

非參數(shù)統(tǒng)計(jì)非參數(shù)統(tǒng)計(jì)非參數(shù)統(tǒng)計(jì)目錄

原假設(shè)H0:me=21700備擇假設(shè)H1:me>21700

前面中位數(shù)的計(jì)算太過于復(fù)雜,而符號檢驗(yàn)的計(jì)算很簡單,只需將每一個樣本數(shù)據(jù)與21700比較,然后計(jì)算一下,有多少個樣本數(shù)據(jù)大于21700.本例中由32個樣本數(shù)據(jù)大于221700.不妨假設(shè)P(X<me)=P(X>me)=1/2,其中X為該行業(yè)高級技師的年收入。

于是若me>21700,則P(X<21700)<P(X<me)=1/2,P(X>21700)>P(X>me)=1/2.所以一般來說,觀察到的大于21700的樣本數(shù)據(jù)的個數(shù)比較多,而小于21700的樣本數(shù)據(jù)的個數(shù)比較少,即S+比較大。因而我們拒絕原假設(shè)H0:me=21700,從而認(rèn)為總體中該行業(yè)高級技師的年收入的中位數(shù)me>21700.

中位數(shù)的符號檢驗(yàn)問題的一般提法如下.樣本x1,x2,....,xn獨(dú)立同分布,總體為X.符號檢驗(yàn)對于總體X的分布不妨作假設(shè):P(X<me)=P(X>me)=1/2.由此可見P(X=me)=0符號檢驗(yàn)問題的原假設(shè)和備擇假設(shè)有三種情景:原假設(shè)H0me=me0備擇假設(shè)H1me>me0

由于P(X=me)=0,所以不妨假設(shè)樣本單元x1,x2,.....xn都不等于me0。符號檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量為

(3.1)

記號“#”表示計(jì)數(shù)

S+也可以等價的表示為

(3.2)若me>me0,則P(X<me)<P(X<me0)=1/2,P(X>me)>P(X>me0)=1/2,即S+比較大,此時拒絕原假設(shè)H0:me=me0,而認(rèn)為me>me0.

由于在me=me0時,S+~b(n,1/2),所以檢測的水平為α的拒絕域?yàn)镾+>=c,其中c滿足條件:

(3.3)也可以通過p值來完成檢驗(yàn)P值等于二項(xiàng)分布b(n,1/2)的隨機(jī)變量大于等于S+的概率:P(b(n,1/2)>=S+)。P值越小,表示S+越大。若p值≤α,則拒絕原假設(shè)H0;若p值>α,則接受原假設(shè)H0.由Excel可以算得p值。如果在excel中輸入“=binomdist(k,n,p,1)”,就可以求得累計(jì)概率P(b(n,p)≤k)的值;如果在excel中輸入“=binomdist(k,n,p,0)”,則求得概率P(b(n,p)=k)的值。所以在excel中輸入“=binomdist(S+—1,n,0.5,1)”就可以得到符號檢驗(yàn)的p值,即P(b(n,1/2)≥S+)的值。前面第二章我們已經(jīng)用到了excel,大家可以回去操作一下,計(jì)算一下例3.1,可以算得p值為P(b(50,1/2)≥32)=0.03245.由于p值較小,我們可以拒絕原假設(shè),級認(rèn)為在總體中該行業(yè)高級技師年收入的中位數(shù)me比全市高級技師年收入的中位數(shù)21700高。若根據(jù)觀察值所得的S+拒絕原假設(shè),那么p值也可以用來度量犯第一類錯誤的概率。如果me<me0

P(X<me0)>P(X<me)=1/2P(X>me0)>P(X>me)=1/2

一般來說,這時觀察到的大于me0的樣本數(shù)據(jù)的個數(shù)比較少,小于me0的樣本數(shù)據(jù)的個數(shù)比較多,及S+比較小

∴我們在S+比較小的時候拒絕原假設(shè)H0:me=me0,而認(rèn)為me<me0.由于在me=me0時,S+~b(n,1/2),∴檢驗(yàn)的水平位α的拒絕域?yàn)镾+≤d,期中d滿足條件:(3.4)因?yàn)樵趐=1/2時二項(xiàng)分布b(n,p)是對稱分布,所以(3.3)式的c和(3.4)的d有這樣的關(guān)系:d=n-c也可以通過p值完成檢驗(yàn)的程序:

由于在S+比較小的時候拒絕原假設(shè)∴p值等于二項(xiàng)分布b(n,1/2)的隨機(jī)變量小于等于S+的概率:P(b(n,1/2)≤S+).如果p值≤α,則在水平α下拒絕原假設(shè),認(rèn)為me<me0;如果p值>α,則在水平α下不拒絕原假設(shè).如果me=me0,則P(X<me0)=P(X>me0)=1/2一般來說,這時觀察到的大于me0的樣本數(shù)據(jù)的個數(shù)與小于me0的樣本數(shù)據(jù)個數(shù)沒有太大的差別,即S+不是很大,也不是很小,所以我們在S+比較大或者比較小的時候拒絕原假設(shè)H0:me=me0,而認(rèn)me≠me0.由于在me=me0時,S+~b(n,1/2),所以在水平α下,當(dāng)S+≥c,或S+≤d時,我們拒絕原假設(shè),期中c和d滿足條件:

也可以通過計(jì)算p值完成檢驗(yàn)的程序:我們是在S+比較大或比較小的時候拒絕原假設(shè),所以p值等于兩端的概率.∵在p=1/2時二項(xiàng)分布b(n,p)是對稱分布,

∴在S+≥n/2時,即S+平均水平之上時,p值等于2P(b(n,1/2)≥S+)在S+<n/2時,即S+在水平之下時,p值等于2P(b(n,1/2)≤S+).

如果p值≤α,則在水平α下拒絕原假設(shè),認(rèn)為me≠me0;如果p值>α,則在水平α下不拒絕原假設(shè).原假設(shè)H0備擇假設(shè)H1水平α的拒絕域P值的計(jì)算me=me0me>me0S+≥c,c滿足(3.3)P(b(n,1/2)≥S+)me<me0S+≤d,d滿足(3.4)P(b(n,1/2)≤S+)

me≠me0S+≥c,或S+≤d,c和d滿足(3.5)S+≥n/2時,2P(b(n,1/2)≥S+)S+<n/2時,2P(b(n,1/2)≤S+)符號檢驗(yàn)問題的解在實(shí)際問題中有可能有某一些觀測值xi正好等于me0這時有以下兩種處理方法:①將這些正好等于me0的觀察值舍去,并相應(yīng)地減少樣本容量n的值(Minitab中的符號檢驗(yàn)法采用此法);②為什么這些觀察值正好等于me0,這很可能與我們使用的計(jì)量單位有關(guān).如果使用更小的計(jì)量單位,這些觀察值就有可能不會正好等于me0了,可能比me0大,也有可能比me0小,第2種處理方法就是將符號檢驗(yàn)統(tǒng)計(jì)量S+修正為符號檢驗(yàn)在定性數(shù)據(jù)分析中的應(yīng)用有時候,我們得到的觀察值是一些定性數(shù)據(jù)。如果定性數(shù)據(jù)取兩個值,就可以用符號檢驗(yàn)進(jìn)行統(tǒng)計(jì)分析。定性數(shù)據(jù)的概念:統(tǒng)計(jì)學(xué)上的定性數(shù)據(jù)包括分類數(shù)據(jù)和順序數(shù)據(jù),是一組表示事物性質(zhì)、規(guī)定事物類別的文字表述型數(shù)據(jù),不能將其量化,只能將其定性。例3.2某項(xiàng)調(diào)查詢問了2000名青年人,問題是:“你認(rèn)為我們的生活環(huán)境是比過去更好、更差,還是沒有變化?!闭{(diào)查結(jié)果如下:越來越好一天不如一天沒有變化,一直如此不知道人數(shù)80072040080根據(jù)調(diào)查結(jié)果,你是否相信,在總體中,認(rèn)為“我們的生活環(huán)境比過去更好”的人比認(rèn)為“我們的生活環(huán)境比過去更差”的人多呢?帶著這個問題,我們用符號檢驗(yàn)來進(jìn)行分析。前面提到,本節(jié)是對僅取兩個值得定性數(shù)據(jù)進(jìn)行的統(tǒng)計(jì)分析,所以我們將回答“沒有變化,一直如此”和說“不知道”的人舍去,只需要回答“越來越好”和“一天不如一天”的人。該項(xiàng)調(diào)查中回答“越來越好”和“一天不如一天”的人數(shù)共有800+720=1520人,我們認(rèn)為該項(xiàng)研究所用的樣本容量n=1520.為了方便起見,我們常用數(shù)據(jù)1和0,或+1和-1,或符號“+”和“-”分別表示“越來越好”和“一天不如一天”,于是問題就成了僅取兩個值的定性數(shù)據(jù)的分析,結(jié)合上節(jié)所學(xué)的內(nèi)容,我們可以用符號檢驗(yàn)來作出統(tǒng)計(jì)分析。實(shí)際上這個問題是二項(xiàng)分布的p是否等于的假設(shè)檢驗(yàn)問題。我們令p表示認(rèn)為“生活環(huán)境越來越好”和“一天不如一天”的青年人中認(rèn)為“生活環(huán)境越來越好”的人所占的比例。則該假設(shè)檢驗(yàn)問題的原假設(shè)和備擇假設(shè)分別為:

例3.2檢驗(yàn)問題的檢驗(yàn)統(tǒng)計(jì)量為1520個人中認(rèn)為“生活環(huán)境更好”的人數(shù)

,根據(jù)上節(jié)符號檢驗(yàn)的知識,在比較大的時候拒絕原假設(shè),認(rèn)為

也即

越大,我們越是相信:認(rèn)為“生活環(huán)境更好”的人比認(rèn)為“生活環(huán)境更差”的人多。由調(diào)查得=800.因?yàn)樵僭O(shè)成立時,

故檢驗(yàn)的p值等于

本例中樣本容量n=1520很大,不能用Excel計(jì)算p值,故使用二項(xiàng)分布的正態(tài)近似。n較大時,若,則

的漸近分布為標(biāo)準(zhǔn)正態(tài)分布

近似服從正態(tài)分布

,記為

回到例中,

,所以故p值等于

另外由于二項(xiàng)分布為離散型分布,所以故p值也等于

這兩個p值互不相等,是因?yàn)槎?xiàng)分布是離散型分布,而正態(tài)分布是連續(xù)型分布。在離散型分布用連續(xù)型分布近似時,要作連續(xù)性修正。(見課本)按照英國統(tǒng)計(jì)學(xué)家F.Yates(1934)提出的,在二項(xiàng)分布用正態(tài)分布近似時的連續(xù)性修正方法,符號檢驗(yàn)的p值近似地取為

由于p值很小,我們相信:認(rèn)為“生活環(huán)境比過去更好”的人比認(rèn)為“生活環(huán)境更差”的人多。本例中假設(shè)檢驗(yàn)問題,檢驗(yàn)的假設(shè)是:認(rèn)為“我們的生活環(huán)境比過去更好”的人是否比認(rèn)為“我們的生活環(huán)境比過去更差”的人多,所以將回答“沒有變化,一直如此”和“不知道”的人舍去,只需回答“越來越好”和“一天不如一天”的樣本。

如果要估計(jì)青年人中認(rèn)為“生活環(huán)境越來越好”的人所占的比例和認(rèn)為“一天不如一天”的人所占的比例的差就不能將回答“沒有變化,一直如此”和“不知道”的人舍去,而將估計(jì)為顯然的估計(jì)為成對數(shù)據(jù)的比較問題比較成對數(shù)據(jù)是測驗(yàn)?zāi)称贩N農(nóng)作物(或某品種飼料,某種生產(chǎn)方式等)的一個有效方法.符號檢驗(yàn)可用于成對數(shù)據(jù)檢驗(yàn)的問題如:農(nóng)作物的產(chǎn)量與它的生長環(huán)境密切相關(guān),所以比較兩個不同品種農(nóng)作物產(chǎn)量有沒有差異,必須為它們選擇相同的生長環(huán)境,通常采用的方法如下:挑選n塊田,同一塊田上作物生長環(huán)境相同,不同塊田上作物生長環(huán)境可以互不相同每一塊田一分為二,分別同時種上這兩個品種的作物假設(shè)它們的產(chǎn)量分別如下表所示:其中Xji是第i塊上品種j作物的產(chǎn)量,j=1,2i=1,2,…n假設(shè)所有的觀察值都相互獨(dú)立由于這n塊田的作物生長環(huán)境并不完全相同,所以我們可以假設(shè)x11,x12...x1n.相互獨(dú)立,但不能假設(shè)它們同分布,關(guān)于x21,x22,.....x2n

我們同樣也只能假設(shè)它們相互獨(dú)立,但不能假設(shè)它們同分布。所以兩樣本的統(tǒng)計(jì)比較的方法如t檢驗(yàn)方法等都不能用于這類型的數(shù)據(jù)第一塊田第二塊田……第n塊田品種1x11x12……x1n品種2x21x22……x2n同一塊田的作物生長環(huán)境相同,不同塊田的作物生長環(huán)境不一定相同,所以這批數(shù)據(jù)寫成成對數(shù)據(jù)的形式:…

同一對里的兩個數(shù)

的差異除了與隨機(jī)誤差有關(guān)之外,還可能與品種1和2的差異有關(guān)。不同對里的兩個數(shù)

的差異不僅與隨機(jī)誤差和品種有關(guān),還與作物生長環(huán)境有關(guān)分析成對數(shù)據(jù)的關(guān)鍵即作同一對里的兩個數(shù)

的差值:關(guān)于

不僅假設(shè)相互獨(dú)立,還假設(shè)同分布基于差值

的中位數(shù)的符號檢驗(yàn),將說明這兩個不同品種的農(nóng)作物的產(chǎn)量有沒有顯著地差異用可加模型解釋成對數(shù)據(jù),假設(shè)第i塊田上品種j作物的產(chǎn)量:其中

表示品種j的效應(yīng),或者將

理解為品種j作物的平均產(chǎn)量(j=1,2)表示第i塊田的作物生長環(huán)境的效應(yīng),或者

理解為第i塊田生長的作物的平均產(chǎn)量(i=1,2,…..n)一般來說誤差分布為對稱分布利用非參數(shù)型數(shù)據(jù)分析方法,假設(shè)

相互獨(dú)立,

...

,同關(guān)于原點(diǎn)0對稱的連續(xù)型分布,

,...

同關(guān)于原點(diǎn)0對稱的連續(xù)型分布由可加模型的假設(shè)其中表示品種1和2的效應(yīng)的差

所以這兩個不同品種的農(nóng)作物有沒有顯著性差異的檢驗(yàn)問題,就等價于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論