統(tǒng)計假設(shè)檢驗的思想_第1頁
統(tǒng)計假設(shè)檢驗的思想_第2頁
統(tǒng)計假設(shè)檢驗的思想_第3頁
統(tǒng)計假設(shè)檢驗的思想_第4頁
統(tǒng)計假設(shè)檢驗的思想_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計假設(shè)檢驗的思想第一頁,共十五頁,編輯于2023年,星期三引言

前一章中我們討論了如何根據(jù)樣本去得到總體分布中所含參數(shù)的最優(yōu)(優(yōu)良)估計。用參數(shù)估計方法得到的總體參數(shù)的優(yōu)良估計值,去代替總體分布的未知參數(shù)而得到的“總體”,與真的總體作比較,就要考察它們之間是否在統(tǒng)計意義上相擬合,盡管這種比較也只能在樣本的基礎(chǔ)上進(jìn)行。那么,怎樣在樣本的基礎(chǔ)上做出一個有較大把握的結(jié)論,就是統(tǒng)計假設(shè)檢驗問題。事實上,實際中很多統(tǒng)計問題都可以作為統(tǒng)計假設(shè)檢驗問題予以解決。第二頁,共十五頁,編輯于2023年,星期三一.假設(shè)檢驗的概念我們來看一個例子。

例1:設(shè)某廠生產(chǎn)一種燈泡,其壽命服從的正態(tài)分布,從過去較長一段時間的生產(chǎn)情況看,燈泡的平均壽命小時。現(xiàn)在采取新工藝后,在所生產(chǎn)的燈管中抽取25只測得平均壽命為1650小時。

問:采用新工藝后,燈管的壽命是否有顯著提高?

本例的問題就是要我們判斷:新產(chǎn)品的壽命是:

1、服從

正態(tài)分布呢?還是2、仍然服從的正態(tài)分布呢?若新產(chǎn)品的壽命是服從的正態(tài)分布,就說“新產(chǎn)品的壽命

有顯著提高”;若新產(chǎn)品的壽命是仍然服從的正態(tài)分布,就說“

新產(chǎn)品的壽命沒有顯著提高”

。第三頁,共十五頁,編輯于2023年,星期三在上面的例子中,我們可以把涉及到的兩種情況用統(tǒng)計假設(shè)的形式表示出來。第一個統(tǒng)計假設(shè):。稱為原假設(shè),用符號:表示。,表示“采用新工藝后,燈管壽命沒有顯著提高?!奔础昂屠袭a(chǎn)品一樣,服從均值為1500的正態(tài)分布”。第二個統(tǒng)計假設(shè):。稱為備選假設(shè),用符號:表示。,表示“采用新工藝后,燈管壽命有顯著提高。”即“不同于老產(chǎn)品,服從均值大于1500的正態(tài)分布”。今后,我們把任意一個有關(guān)總體分布不確定的假設(shè)

稱為統(tǒng)計假設(shè)或簡稱假設(shè)。第四頁,共十五頁,編輯于2023年,星期三

至于在兩個假設(shè)中用哪個作為原假設(shè),哪個作為備選假設(shè)呢?

要看具體的目的和要求而定。(1)一般,假如我們的目的是希望從樣本觀測值對某一陳述取得強有力的支持,我們就將這一陳述的否定作為原假設(shè),而把陳述本身作為備選假設(shè)。對例1我們作的統(tǒng)計假設(shè)就是這樣的。因為,新工藝是延長燈泡壽命的一種革新,我們當(dāng)然希望新工藝能使燈泡的壽命確有提高,但它又不象老產(chǎn)品那樣有較多的數(shù)據(jù)。為此,我們以“即壽命沒有提高”作為原假設(shè),以“壽命顯著提高”作為備選假設(shè)。(2)有時,原假設(shè)的選定還要考慮數(shù)學(xué)上的處理方便。

在許多問題中,總體分布的類型為已知,僅僅是其分布函數(shù)中的一個或幾個參數(shù)為未知,只要對這一個或幾個參數(shù)的值作出假設(shè),就可以完全確定總體的分布。如上例只要對作出假設(shè)即可。這種僅涉及到總體分布的未知參數(shù)的統(tǒng)計假設(shè)稱為:參數(shù)假設(shè)。

在有些實際問題中,我們不知道總體分布的具體類型。比如:某種蔬菜的農(nóng)藥殘留量,它可能服從對數(shù)正態(tài)分布,也可能服從其它分布。因此,對它的統(tǒng)計假設(shè)就只能對未知分布的類型或它的某些特征提出某種假設(shè)。這種不同于參數(shù)假設(shè)的統(tǒng)計假設(shè)稱為:非參數(shù)假設(shè)。

例如:設(shè)某種蔬菜的農(nóng)藥殘留量X的分布函數(shù)為F(x),

F(x){對數(shù)正態(tài)分布族};F(x){正態(tài)分布族}

都是非參數(shù)假設(shè)。第五頁,共十五頁,編輯于2023年,星期三

從上面我們看到,一個統(tǒng)計假設(shè)是對總體分布狀態(tài)的一種陳述。如果一個統(tǒng)計假設(shè)可完全確定總體的分布,則稱這種假設(shè)為:簡單統(tǒng)計假設(shè)

簡單假設(shè)。否則,稱為:復(fù)合統(tǒng)計假設(shè)或簡稱復(fù)合假設(shè)。例如:完全確定總體的分布,是簡單假設(shè);而:是復(fù)合假設(shè)。

統(tǒng)計假設(shè)檢驗問題的一般提法是:

在給定備選假設(shè)下,對原假設(shè)作出判斷。若拒絕原假設(shè),那就意味著接受備選假設(shè);否則,就接受原假設(shè)。簡單地說,統(tǒng)計假設(shè)檢驗問題,就是要在原假設(shè)備選假設(shè)中作出拒絕哪一個接受哪一個的判斷。這類假設(shè)檢驗問題常稱為對的檢驗問題。小結(jié):統(tǒng)計假參數(shù)假非參數(shù)假復(fù)合假設(shè)簡單假設(shè)原假設(shè)備選假設(shè)第六頁,共十五頁,編輯于2023年,星期三拒絕

在對的檢驗問題中,要作出某種判斷,必須從樣本出發(fā),制定出一個“法則”,一旦樣本觀測值確定后,我們就可以用所構(gòu)造的“法則”作出:拒絕,還是拒絕的判斷。

那么我們的檢驗“法則”是什么呢?

它應(yīng)該是以定義在樣本空間上的一個樣本函數(shù)為依據(jù)所構(gòu)成的一個“準(zhǔn)則”。一旦樣本觀測值確定后,我們就可以根據(jù)這個“準(zhǔn)則”作出:“拒絕”,還是“拒絕的”判斷。

二、假設(shè)檢驗的思想方法我們的檢驗準(zhǔn)則本質(zhì)上就是:把樣本空間劃分成兩個互不相交的子集和,(子空間)

使得當(dāng)樣本觀測值點時,我們就將拒絕原假設(shè)(也即接受備選假設(shè));否則,我們將接受原假設(shè)(也即拒絕備選假設(shè))。這樣的劃分構(gòu)成一個準(zhǔn)則,我們稱這樣的樣本空間的子集為假設(shè)檢驗的臨界域(或拒絕域)。拒絕接受接受n維空間拒絕劃分第七頁,共十五頁,編輯于2023年,星期三反之,一旦我們給出了某個檢驗“準(zhǔn)則”,也就給出了樣本空間的一個“劃分”。

由于樣本的隨機(jī)性,在進(jìn)行判斷時,我們還是有可能犯兩類錯誤:

拒絕接受接受n維空間拒絕第一類錯誤拒真、棄真第二類錯誤受假、受偽

判斷屬于拒絕(接受)拒絕(接受)總體假設(shè)當(dāng)為真(為假)

犯第一類錯誤

正確

當(dāng)

為真(為假)

正確犯第二類錯誤劃分第八頁,共十五頁,編輯于2023年,星期三第一類(棄真、拒真)錯誤發(fā)生的概率稱為犯第一類錯誤的概率或拒真概率。

通常記為,即:P(

拒絕|為真)=第二類(受假、受偽)錯誤發(fā)生的概率稱為犯第二類錯誤的概率或受偽概率。

通常記為,即:

P(接受|為假)=。

也就是:P(

拒絕|為真)=

對于給定的一對假設(shè)和,總可以找出許多臨界域。當(dāng)然,我們希望尋得這種臨界域---使犯兩類錯誤的概率和都很小。但在樣本容量固定時,要使和都很小是不可能的。否則,將會導(dǎo)致樣本容量的無限增大,這又是不現(xiàn)實的。基于這種情況,奈曼與皮爾遜(Neyman—Pearson)提出了一個原則:在控制犯第一類錯誤的概率的條件下,盡量使犯第二類錯誤的概率小。之所以提出這樣的原則,是因為人們常常把錯誤地拒絕比錯誤地接受看得更重要些。盡管基于奈曼與皮爾遜的這一原則可以去討論尋找最優(yōu)檢驗的問題,但是有時最優(yōu)檢驗法則很難找到,甚至可能不存在。因而,我們不得不將奈曼與皮爾遜的這一原則放寬:只對犯第一類錯誤的概率加以限制,而不考慮犯第二類錯誤的概率。如此,在尋找臨界域時只涉及原假設(shè),而不涉及備選假設(shè)。這種只涉及原假設(shè)的統(tǒng)計假設(shè)檢驗問題稱為顯著性假設(shè)檢驗問題。

第九頁,共十五頁,編輯于2023年,星期三

下面我們來討論,對給定的犯第一類錯誤的概率(顯著性水平)在顯著性假設(shè)檢驗問題中,如何來構(gòu)造一個檢驗“法則”?如果一個檢驗法則已經(jīng)確定,那么臨界域及其補集就完全確定了。在實踐中為了能簡化數(shù)據(jù),總是去尋找這樣一個統(tǒng)計量或樣本函數(shù),并記及于是P(為真)=P(

|為真)=這樣就可以做出等價的判斷:當(dāng)時,就拒絕;否則,就接受。如此,就把對樣本空間的劃分問題轉(zhuǎn)化為對統(tǒng)計量的值域空間的劃分問題。由于樣本空間是n維的,而統(tǒng)計量的值域空間是1

維的,所以通過構(gòu)造合適的統(tǒng)計量可以使尋找臨界域的問題變得簡單多了。第十頁,共十五頁,編輯于2023年,星期三拒絕拒絕接受接受n維空間拒絕劃分第十一頁,共十五頁,編輯于2023年,星期三值得注意的是,如果我們構(gòu)造的統(tǒng)計量t

的分布類型已知,只是它的分布參數(shù)不確定,那么在原假設(shè)成立的條件下,對給定的顯著水平a,可以通過等式P(為真)=a

來定出區(qū)域,從而得到臨界域C

。譬如,我們還拿例1來看:如果原假設(shè):成立(為真),那么在新工藝下的燈泡的平均壽命。在重復(fù)取樣下,的取值偏離1500較大的較少。那么由抽取的樣本觀測值算出的比1500大到什么程度,我們才認(rèn)為這組樣本觀測值已經(jīng)不是從成立所規(guī)定的總體中抽出的呢?我們?nèi)z驗統(tǒng)計量,易知,在為真時,。對給定的顯著水平a,由,可定出一個值,使得由樣本觀測值算出的時就拒絕,否則就接受。那么,臨界域第十二頁,共十五頁,編輯于2023年,星期三比如取,查標(biāo)準(zhǔn)正態(tài)分布表知,從而得到臨界域:

={

}

而實際上,在采用新工藝后,對25只燈泡的平均壽命觀測值;顯然>1566,這組樣本落入了臨界域(拒絕域)C,因此我們就拒絕原假設(shè),并且說:與1500有顯著差異。第十三頁,共十五頁,編輯于2023年,星期三那么,為什么能做出拒絕的決定呢?或者,換句話說,為什么能把{}作為臨界域C呢?因為,在下,,,這意味著“”是一個小概率事件。根據(jù)小概率事件在一次試驗中實際不可能發(fā)生的推斷原理,現(xiàn)在在一次試驗(觀察)中竟然出現(xiàn)了,所以我們甘愿冒犯第一類錯誤的風(fēng)險而拒絕原假設(shè)。下面,我們來歸納一下解題的思路和步驟:1.根據(jù)問題的要求建立原假設(shè)和備選假設(shè)。2.選取一個合適的統(tǒng)計量,一般以簡單為好,并且它的分布已知(不含未知參數(shù))從而可算出或查出分位點。3.給定顯著性水平(一般較小,如0.05,0.01等),并在原假設(shè)為真時求出能使成立的值,從而求出臨界域

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論