Chap08_非參數(shù)檢驗(yàn)_第1頁
Chap08_非參數(shù)檢驗(yàn)_第2頁
Chap08_非參數(shù)檢驗(yàn)_第3頁
Chap08_非參數(shù)檢驗(yàn)_第4頁
Chap08_非參數(shù)檢驗(yàn)_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、南京財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)系高等教育出版社高等教育出版社 高等教育電子音像出版社高等教育電子音像出版社一、非參數(shù)檢驗(yàn)概述二、單樣本非參數(shù)檢驗(yàn)三、兩個(gè)樣本的非參數(shù)檢驗(yàn)四、等級相關(guān)分析 一、參數(shù)檢驗(yàn):如果已知總體分布的形式,對總體分布中的某些參數(shù)建立假設(shè)并進(jìn)行檢驗(yàn)。這種形式的檢驗(yàn)稱為參數(shù)檢驗(yàn)。二、非參數(shù)檢驗(yàn):假定總體分布的具體形式未知,而是從樣本數(shù)據(jù)本身來獲得所需信息,對總體分布的類型和位置進(jìn)行檢驗(yàn),這稱為非參數(shù)檢驗(yàn)。三、非參數(shù)檢驗(yàn)的特點(diǎn): 特點(diǎn)一 特點(diǎn)二 特點(diǎn)三特點(diǎn)一從非參數(shù)檢驗(yàn)的前提條件看,僅要求“觀測值是獨(dú)立的”、“變量具有連續(xù)性”等簡單假設(shè)不要求確保樣本所屬的總體符合某種理論分布。檢驗(yàn)不受總體分布

2、形狀的限制,使得適用范圍更為廣泛。特點(diǎn)二從非參數(shù)檢驗(yàn)方法對原始數(shù)據(jù)的要求看:它不要求有很精確的計(jì)量值,可以使用分類數(shù)據(jù)和順序數(shù)據(jù),非參數(shù)檢驗(yàn)的處理方法大都基于低精度數(shù)據(jù),因而它幾乎可以處理任何類型的數(shù)據(jù)。特點(diǎn)特點(diǎn) 從非參數(shù)檢驗(yàn)方法的效率看,雖然非從非參數(shù)檢驗(yàn)方法的效率看,雖然非參數(shù)檢驗(yàn)的計(jì)算方法名目繁多,有時(shí)對某參數(shù)檢驗(yàn)的計(jì)算方法名目繁多,有時(shí)對某類數(shù)據(jù)的算法就有多種,但其表現(xiàn)形式一類數(shù)據(jù)的算法就有多種,但其表現(xiàn)形式一般比較簡單并易于理解,依照不同類型數(shù)般比較簡單并易于理解,依照不同類型數(shù)據(jù)的不同算法,效率也不同。據(jù)的不同算法,效率也不同。問題的提出:對獲取的樣本資料,往往最希望問題的提出:對

3、獲取的樣本資料,往往最希望了解其所屬總體的分布形態(tài)是否與已知的理論了解其所屬總體的分布形態(tài)是否與已知的理論分布相吻合,或它們是否具有隨機(jī)性。分布相吻合,或它們是否具有隨機(jī)性。 擬合優(yōu)度檢驗(yàn)擬合優(yōu)度檢驗(yàn)(Chi-Square Goodness-of-Fit TestChi-Square Goodness-of-Fit Test) 單樣本單樣本K-SK-S檢驗(yàn)檢驗(yàn)(1-Sample K-S Test1-Sample K-S Test)符號檢驗(yàn)符號檢驗(yàn)(Sign TestSign Test)游程檢驗(yàn)游程檢驗(yàn)(Runs TestRuns Test)1.適用的條件: 擬合優(yōu)度檢驗(yàn)適用于具有明顯分類特征的

4、數(shù)據(jù),根據(jù)這些樣本數(shù)據(jù)來判斷樣本所屬的總體分布與某一設(shè)定分布是否有顯著差異,所謂設(shè)定分布可以是我們熟悉的理論分布,如正態(tài)分布、均勻分布等,也可以是任何想象的分布。 2.需要建立的零假設(shè):樣本所屬總體其分布形態(tài)與設(shè)定分布無顯著差異。 即: kipAPHii, 2 , 1)(:0kieieiifff1202)( k是樣本分類的個(gè)數(shù) if0表示實(shí)際觀察到的頻數(shù) eif表示設(shè)定頻數(shù) 式中:3. 統(tǒng)計(jì)量的選擇*選擇統(tǒng)計(jì)量的基本標(biāo)準(zhǔn): 第一,該統(tǒng)計(jì)量對原假設(shè)H0成立與否要非常敏感(即其值的大小直接關(guān)系到H0是否成立)。 第二,要求該統(tǒng)計(jì)量的分布不含任何未知參數(shù)。 *統(tǒng)計(jì)量的構(gòu)造:第一,依據(jù)2分布表,給出所

5、對應(yīng)的概率值,如果該概率值小于或等于給定的顯著性水平,則應(yīng)拒絕0H,認(rèn)為樣本所屬的總體分布形態(tài)與設(shè)定的分布存在顯著差異;如果該概率值大于給定的顯著性水平,則不能拒絕0H,認(rèn)為樣本所屬的總體分布形態(tài)與設(shè)定分布無顯著差異。 5. 兩點(diǎn)說明一是: 由于奠定檢驗(yàn)基礎(chǔ)的皮爾遜定理要求樣本是充分大,所以在搜集資料時(shí)必須要保證樣本容量不小于50。二是:每個(gè)單元中的期望頻數(shù)不能太小,如果第一次分類時(shí)有單元中的頻數(shù)小于5,則需要將它與相鄰的組進(jìn)行合并,如果20%的單元期望頻數(shù)小于5,則不能用卡方檢驗(yàn)了。例題一例題一例題二例題二【解】0H:樣本所屬總體的分布是均勻分布;1H:樣本所屬總體的分布不是均勻分布。 由于

6、不合格品數(shù)的實(shí)際數(shù)是 134,所以其理論值為 1345 = 26.8。表8.1 是相關(guān)數(shù)據(jù)的計(jì)算。 表 8.1 2統(tǒng)計(jì)量的計(jì)算表 工作日工作日 不合格品數(shù)不合格品數(shù) 實(shí)際值實(shí)際值 不合格品數(shù)不合格品數(shù) 理論值理論值 星期一 36 26.8 9.2 3.1582 星期二 32 26.8 5.2 1.0090 星期三 16 26.8 -10.8 4.3522 星期四 15 26.8 -11.8 5.1955 星期五 35 26.8 8.2 2.5090 合計(jì)合計(jì) 134 134 16.2239 2統(tǒng)計(jì)量為 16.2239,其對應(yīng)的近似概率值為 0.0027。由于 0.00270.05,故拒絕0H,

7、認(rèn)為樣本所屬的總體不是均勻分布,也就是說,五天工作日中各天的產(chǎn)品不合格率是不相同的。 eieiifff20)(eiiff 0【例8.2】 接上題, 有人認(rèn)為產(chǎn)品的不合格率與工人的情緒有關(guān), 星期一剛來上班情緒最不穩(wěn), 不合格率為30%, 星期二、五的不合格率次之,為 25%,而星期三、四的不合格率僅為10%,這種觀點(diǎn)有道理嗎?以顯著性水平=0.05 來檢驗(yàn)這種說法的正確性。 【解】0H:%25%,10%,10%,25%,3054321 1H:至少有一個(gè)) 5 , 4 , 3 , 2 , 1( ii與上述比例不同。 計(jì)算在各設(shè)定的比例為真的情況下, 每天的不合格品數(shù), 如星期一的不合格品數(shù)為:1

8、3430%=40.2,星期二的不合格品數(shù)為:13425%=33.5,依次類推。相關(guān)計(jì)算可借助Excel數(shù)據(jù)表,結(jié)果見圖8.1。 圖 8.1 2統(tǒng)計(jì)量的計(jì)算表 由于實(shí)際的2統(tǒng)計(jì)量 1.2687 小于=0.05 對應(yīng)的臨界值 9.4877,或根據(jù)2統(tǒng)計(jì)量對應(yīng)的概率0.8667 大于,所以不能拒絕 H0,即沒有理由認(rèn)為假想的比例是錯(cuò)的。 1. 檢驗(yàn)的目的檢驗(yàn)的目的:K-S檢驗(yàn)是一種擬合優(yōu)度檢驗(yàn),研究樣本觀察值的分布和設(shè)定的理論分布間是否吻合,通過對兩個(gè)分布差異的分析確定是否有理由認(rèn)為樣本的觀察結(jié)果來自所設(shè)定的理論分布總體。 兩者均屬擬合優(yōu)度檢驗(yàn),2檢驗(yàn)常用于分類數(shù)據(jù),而 K-S 檢驗(yàn)還可以運(yùn)用于順序

9、數(shù)據(jù)。當(dāng)預(yù)期頻數(shù)較小時(shí),2檢驗(yàn)常需合并鄰近的類別才能計(jì)算,K-S 檢驗(yàn)則不需要,因而它能比2檢驗(yàn)保留更多的信息。 例題三例題三【例 8.3】 隨機(jī)抽取 100 名生產(chǎn)線上的工人,調(diào)查他們的日產(chǎn)量,資料情況如下表,判斷生產(chǎn)線上工人的日產(chǎn)量是否為正態(tài)分布?(=0.05) 工人日產(chǎn)量工人日產(chǎn)量 500500 以下以下 500500- -540540 540540- -580580 580580- -620620 620620- -640640 640640 以上以上 合計(jì)合計(jì) 組中值組中值 480 520 560 600 640 680 人數(shù)人數(shù) 6 23 27 19 15 10 100 第三步,查

10、表得136. 010036. 1D, 第四步,作出判斷:由于maxD= 0.0430 D,所以,不能拒絕0H,即生產(chǎn)線上工人的日產(chǎn)量服從正態(tài)分布。 1. 概念:符號檢驗(yàn)是一種利用正、負(fù)號的數(shù)目對某種假設(shè)作出判斷的非參數(shù)檢驗(yàn)方法。它不要求知道被檢驗(yàn)量的分布規(guī)律,僅依據(jù)某種特定的正負(fù)號的數(shù)目多少來對某種假設(shè)做出檢驗(yàn)。常被用于檢驗(yàn)總體分布有無變化和總體的均值、中位數(shù)等參數(shù)是否為某一數(shù)值。 設(shè) ,是具有分布函數(shù)F1(x)與F2(x)的兩個(gè)連續(xù)型總體,現(xiàn)從兩總體各抽取容量都為n的樣本 , ,且兩樣本獨(dú)立。在顯著性水平下,檢驗(yàn)假設(shè):),(21n ),(21n xxFxFH),()(:210根據(jù)一定的顯著性

11、水平和符號總數(shù)目 n 查符號檢驗(yàn)界域表 (也稱為符號檢驗(yàn)表 ) ,求得臨界值 S,(符號檢驗(yàn)界域表見附錄七) ,根據(jù)以下法則進(jìn)行判斷: 若 S= Snn),min(則拒絕0H: 認(rèn)為 F1(x)與 F2(x)有顯著的差異;否則,接受0H。 優(yōu)點(diǎn): (1)簡單、直觀; (2)并不要求知道被檢驗(yàn)的量所服從的分布。缺點(diǎn): (1)精確程度較差; (2)沒有充分利用樣本所提供的信息; (3)要求數(shù)據(jù)搭配成對。例題四例題四A14.715.015.214.815.514.614.914.815.115.0B14.615.115.414.715.214.714.814.615.215.0符號+-+-+-0A1

12、4.914.814.715.014.914.915.214.715.415.3B14.614.614.815.314.714.614.814.915.215.0符號+-+-+問兩人分析有無顯著差異(=0.05)?【例8.4】 為了分析某種氣體的CO2含量的百分?jǐn)?shù),取了這種氣體的20個(gè)樣品,每個(gè)樣品由A、B兩人分別進(jìn)行分析,得數(shù)據(jù)如下表:1.游程檢驗(yàn)的目的:是檢驗(yàn)取值為二分類,并且按時(shí)間或某種順序排列的數(shù)列資料是否確實(shí)是隨機(jī)出現(xiàn)的,即各觀察對象是否來自同一個(gè)總體,并且取值各自獨(dú)立。 因此游程檢驗(yàn)的假設(shè)為 :總體某個(gè)變量的變量值出現(xiàn)是隨機(jī)的 1H:總體某個(gè)變量的變量值出現(xiàn)是非隨機(jī)的。 0H或等價(jià)地

13、設(shè)為:)()(:210 xFxFH根據(jù)1n、2n和直接查游程檢驗(yàn)臨界值表求得相應(yīng)的游程臨界上限1cR和下限2cR(游程檢驗(yàn)臨界值表見附錄八) 。如果 R1cR或 R2cR,則表明游程數(shù)太多或太少,應(yīng)當(dāng)拒絕0H;否則不能拒絕0H。 2.兩個(gè)重要概念: 游程:連續(xù)的相同取值的記錄; 游程長度:一個(gè)游程所含元素的個(gè)數(shù)。3.檢驗(yàn)的統(tǒng)計(jì)量:游程的總個(gè)數(shù)R4.檢驗(yàn)方法(給定顯著性水平):例題五例題五【例8.5】為了考察兩種生產(chǎn)方法對生產(chǎn)效率是否有顯著影響,隨機(jī)抽取了9人用方法A進(jìn)行生產(chǎn),抽取11人用方法B進(jìn)行生產(chǎn),并記錄下這20個(gè)人的日產(chǎn)量:A方法:75 69 58 79 69 68 57 89 79B方

14、法:78 89 98 95 75 78 46 78 96 60 70 問兩種方法對生產(chǎn)效率的影響不同嗎?(=0.05)列聯(lián)表與卡方的獨(dú)立性檢驗(yàn)兩樣本的K-S檢驗(yàn)1.列聯(lián)表的基本概念(1)由兩個(gè)以上的變量進(jìn)行交叉分類的頻數(shù)分布表;頻數(shù)分布表;(2)行變量的類別用 r 表示, ri 表示第 i 個(gè)類別;(3)列變量的類別用 c 表示, cj 表示第 j 個(gè)類別;(4)每種組合的觀察頻數(shù)用 fij 表示;(5)表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表;(6)一個(gè) r 行 c 列的列聯(lián)表稱為 r c 列聯(lián)表.表 8.2 列聯(lián)表示意圖 縱縱 向向 劃劃 分分 1 2 c 合合計(jì)計(jì) 1 1

15、1f 12f cf1 1f 2 21f 22f cf2 2f 橫橫 向向 劃劃 分分 r 1rf 2rf rcf rf 合合計(jì)計(jì) 1f 2f cf n 1.邊緣分布行邊緣分布:列觀察值的合計(jì)數(shù)的分布例如,喜歡飲白酒的有100人,啤酒有120人列邊緣分布:行觀察值的合計(jì)數(shù)的分布例如,喜歡飲酒的男女性的人數(shù)分別為100人,120人2.條件分布與條件頻數(shù)變量 X 條件下變量 Y 的分布,或在變量 Y 條件下變量 X 的分布每個(gè)具體的觀察值稱為條件頻數(shù)例題六例題六【例 8.6】 下表 8.3 是一個(gè)由 220 名飲酒者組成的隨機(jī)樣本,對飲酒者進(jìn)行酒類型偏好的調(diào)查,這是一個(gè)最為簡單的 22 列聯(lián)表:橫向

16、看,反映了在固定性別的條件下,對白酒與啤酒的偏好人數(shù);縱向看,反映了在固定酒類型的條件下,各性別的人數(shù)。 表 8.3 性別與飲酒偏好調(diào)查表 飲酒偏好飲酒偏好 性別性別 白酒 啤酒 合計(jì)合計(jì) 男性 60 50 110 女性 40 70 110 合計(jì)合計(jì) 100 120 220 直觀看似乎飲酒偏好與性別有關(guān),是這樣嗎? 1. 用于檢驗(yàn)列聯(lián)表中目標(biāo)變量(行變量或列變量)之間是否存在顯著性差異,或者用于檢驗(yàn)兩變量(行變量與列變量)之間是否獨(dú)立.2. 計(jì)算公式為利用列聯(lián)表的形式,用2統(tǒng)計(jì)量可以完成對分類數(shù)據(jù)或順序數(shù)據(jù)之間是否獨(dú)立的檢驗(yàn)?;静襟E如下: 1. 建立假設(shè): 0H:兩個(gè)分類變量之間獨(dú)立; 1H

17、:兩個(gè)分類變量之間不獨(dú)立。 就本例而言,0H:性別與飲酒偏好無關(guān); 1H:性別與飲酒偏好有關(guān)。 2. 計(jì)算與列聯(lián)表中實(shí)際次數(shù)相對應(yīng)的期望次數(shù): 相對于每一個(gè)條件次數(shù)),.,2 , 1,.,2 , 1(cjrifij的理論次數(shù)即期望次數(shù)記作ije,則:nffejiij 就本例而言,根據(jù)公式(9.3)計(jì)算的期望次數(shù)如表 8.4。 表 8.4 性別與飲酒偏好的期望次數(shù) 飲飲酒酒偏偏好好 性性別別 白酒 啤酒 合合計(jì)計(jì) 男性 50 60 110 女性 50 60 110 合合計(jì)計(jì) 100 120 220 例題七例題七【例 8.7】甲乙兩所學(xué)校期末統(tǒng)考的成績?nèi)缦卤恚瑔杻伤鶎W(xué)??荚嚦煽兊姆植际欠裼胁町??(=0.05) 統(tǒng)統(tǒng)考考成成績績 甲甲學(xué)學(xué)校校 乙乙學(xué)學(xué)校校 60 以下 25 15 60-70 58 97 70-80 186 187 80-90 214 157 90 以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論