獨立性檢驗的思想和初步應用93372ppt課件_第1頁
獨立性檢驗的思想和初步應用93372ppt課件_第2頁
獨立性檢驗的思想和初步應用93372ppt課件_第3頁
獨立性檢驗的思想和初步應用93372ppt課件_第4頁
獨立性檢驗的思想和初步應用93372ppt課件_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、獨立性檢驗的根本思想獨立性檢驗的根本思想及其初步運用及其初步運用定量變量的取值一定是實數(shù),它們的取值大小有特定定量變量的取值一定是實數(shù),它們的取值大小有特定的含義,不同取值之間的運算也有特定的含義的含義,不同取值之間的運算也有特定的含義. .如身高、體重、考試成果、溫度等等如身高、體重、考試成果、溫度等等.變量變量定量變量定量變量分類變量分類變量例如身高、體重、考試成果等,張明的身高是例如身高、體重、考試成果等,張明的身高是180cm180cm,李立的身高是李立的身高是175cm175cm,闡明張明比李立高,闡明張明比李立高180-175=5180-175=5cmcm. .兩個定量變量的相關關

2、系分析:回歸分析畫散點圖、兩個定量變量的相關關系分析:回歸分析畫散點圖、相關系數(shù)相關系數(shù)r、相關指數(shù)、相關指數(shù)R2、殘差分析、殘差分析對于性別變量,其取值為男和女兩種,這種變量的不對于性別變量,其取值為男和女兩種,這種變量的不同同“值表示個體所屬的不同類別,像這樣的變量稱為值表示個體所屬的不同類別,像這樣的變量稱為分類變量分類變量. .在日常生活中,主要思索分類變量之間能否有關系:在日常生活中,主要思索分類變量之間能否有關系:例如,吸煙能否與患肺癌有關系?例如,吸煙能否與患肺癌有關系? 性別能否對于喜歡數(shù)學課程有影響?等等性別能否對于喜歡數(shù)學課程有影響?等等. .分類變量也稱為屬性變量或定性變

3、量,它們的取值一分類變量也稱為屬性變量或定性變量,它們的取值一定是離散的,而且不同的取值僅表示個體所屬的類別,定是離散的,而且不同的取值僅表示個體所屬的類別,如性別變量,只取男、女兩個值,商品的等級變量只如性別變量,只取男、女兩個值,商品的等級變量只取一級、二級、三級等等取一級、二級、三級等等. .兩個分類變量的相關關系的分析:經過圖形直觀判兩個分類變量的相關關系的分析:經過圖形直觀判別兩個分類變量能否相關;獨立性檢驗別兩個分類變量能否相關;獨立性檢驗.不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙77757775424278177817吸煙吸煙20992099494921482148總計總

4、計98749874919199659965由列聯(lián)表可以粗略估計出,在不吸煙者中,有由列聯(lián)表可以粗略估計出,在不吸煙者中,有0.54%0.54%患患有肺癌;在吸煙者中,有有肺癌;在吸煙者中,有2.28%2.28%患有肺癌。因此,直觀患有肺癌。因此,直觀上可以得到結論:吸煙者和不吸煙者患肺癌的能夠性上可以得到結論:吸煙者和不吸煙者患肺癌的能夠性存在差別存在差別. .與表格相比,等高條形圖能更直觀地反映出相關數(shù)據與表格相比,等高條形圖能更直觀地反映出相關數(shù)據的總體情況的總體情況. .為調查吸煙能否對患肺癌有影響,某腫瘤研討所隨機為調查吸煙能否對患肺癌有影響,某腫瘤研討所隨機地調查了地調查了9965人

5、,得到如下結果單位:人:人,得到如下結果單位:人:吸煙與患肺癌列聯(lián)表列出兩個分類變量的頻數(shù)表:吸煙與患肺癌列聯(lián)表列出兩個分類變量的頻數(shù)表:不吸煙吸煙00.10.20.30.40.50.60.70.80.91不吸煙不吸煙吸煙吸煙患肺癌比例不患肺癌比例等高條形圖等高條形圖等高條形圖更明晰地表達了兩種情況下患肺癌的比例等高條形圖更明晰地表達了兩種情況下患肺癌的比例.上面我們經過分析數(shù)據和圖形,得到的直觀印象是吸上面我們經過分析數(shù)據和圖形,得到的直觀印象是吸煙和患肺癌有關,那么現(xiàn)實能否真的如此呢?這需求煙和患肺癌有關,那么現(xiàn)實能否真的如此呢?這需求用統(tǒng)計觀念來調查這個問題用統(tǒng)計觀念來調查這個問題. .

6、如今想要知道可以以多大的把握以為如今想要知道可以以多大的把握以為“吸煙與患肺癌吸煙與患肺癌有關,為此先假設:有關,為此先假設:H0H0:吸煙與患肺癌沒有關系:吸煙與患肺癌沒有關系不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙a ab ba+ba+b吸煙吸煙c cd dc+dc+d總計總計a+ca+cb+db+da+b+c+da+b+c+d把數(shù)字用字母替代,得到如下用字母表示的列聯(lián)表:把數(shù)字用字母替代,得到如下用字母表示的列聯(lián)表:不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙a ab ba+ba+b吸煙吸煙c cd dc+dc+d總計總計a+ca+cb+db+da+b+c+da+b+c+d吸

7、煙與患肺癌的列聯(lián)表:吸煙與患肺癌的列聯(lián)表:假設假設“吸煙與患肺癌沒有關系,那么在吸煙者中不吸煙與患肺癌沒有關系,那么在吸煙者中不患肺癌的比例應該與不吸煙者中相應的比例應差不多,患肺癌的比例應該與不吸煙者中相應的比例應差不多,即即()()0aca cdc abadbcabcd |ad-bc|ad-bc|越小,闡明吸煙與患肺癌之間關系越弱;越小,闡明吸煙與患肺癌之間關系越弱;|ad-bc|ad-bc|越大,闡明吸煙與患肺癌之間關系越強越大,闡明吸煙與患肺癌之間關系越強. .以以A表示不吸煙,表示不吸煙,B表示不患肺癌,那么表示不患肺癌,那么a表示事件表示事件AB發(fā)生的頻數(shù);發(fā)生的頻數(shù);a+b和和a

8、+c恰好分別為事件恰好分別為事件A和和B發(fā)發(fā)生的頻數(shù)生的頻數(shù).問題2:差別大到什么程度才干作出“吸煙與患病有關的判別?問題問題3 3:能否用數(shù)量描寫出:能否用數(shù)量描寫出“有關的程度?有關的程度?初步結論:初步結論:為了使不同樣本容量的數(shù)據有一致的評判規(guī)范,基于為了使不同樣本容量的數(shù)據有一致的評判規(guī)范,基于上述分析,我們構造一個隨機變量上述分析,我們構造一個隨機變量 假設假設H0H0成立,即成立,即“吸煙與患肺癌沒有關系,那么吸煙與患肺癌沒有關系,那么K2K2應應很小很小. .由列聯(lián)表中數(shù)據,利用公式由列聯(lián)表中數(shù)據,利用公式1 1計算得計算得K2K2的觀測值為:的觀測值為:22()()()()(

9、)n adbcKab cd ac bd 1 129965(7775 49422099)56.632.78172148 9874 91k 其中其中n=a+b+c+d為樣本容量為樣本容量.在在H0成立的情況下,統(tǒng)計學家估算出如下的概率:成立的情況下,統(tǒng)計學家估算出如下的概率:2(6.635)0.01P K 也就是說,在也就是說,在H0H0成立的情況下,對隨機變量成立的情況下,對隨機變量K2K2進展多進展多次觀測,觀測值超越次觀測,觀測值超越6.6356.635的頻率約為的頻率約為0.010.01,是一個小,是一個小概率事件概率事件. .如今如今K2K2的觀測值的觀測值 ,遠遠大于,遠遠大于6.63

10、56.635,所以有理由斷定,所以有理由斷定H0H0不成立,即以為不成立,即以為“吸煙與患吸煙與患肺癌有關系肺癌有關系 56.632k 但這種判別會犯錯誤,犯錯誤的概率不會超越但這種判別會犯錯誤,犯錯誤的概率不會超越0.01,即,即我們有我們有99的把握以為的把握以為“吸煙與患肺癌有關系吸煙與患肺癌有關系.利用隨機變量利用隨機變量K2K2來確定在多大程度上可以以為來確定在多大程度上可以以為“兩個分兩個分類變量有關系的方法稱為兩個分類變量的獨立性檢類變量有關系的方法稱為兩個分類變量的獨立性檢驗驗. .獨立性檢驗:獨立性檢驗:假設假設 ,就判別,就判別H0不成立;否那么就判別不成立;否那么就判別H

11、0成立成立.6.635k (6.635)0.01P k 類比了解:類比了解:反證法原理:反證法原理: 在一個知假設在一個知假設下,假設推出下,假設推出一個矛盾,就一個矛盾,就證明了這個假證明了這個假設不成立。設不成立。假設檢驗原理:假設檢驗原理:在一個知假設在一個知假設下,假設一個下,假設一個與該假設矛盾與該假設矛盾的小概率事件的小概率事件發(fā)生,就推斷發(fā)生,就推斷這個假設不成這個假設不成立。立。獨立性檢驗的根本思想:獨立性檢驗的根本思想:類似于數(shù)學上的反證法,對類似于數(shù)學上的反證法,對“兩個分類變量有關系兩個分類變量有關系這一結論成立的可信程度的判別:這一結論成立的可信程度的判別:1 1假設該

12、結論不成立,即假設結論假設該結論不成立,即假設結論“兩個分類變量兩個分類變量沒有關系成立沒有關系成立. .2 2在假設條件下,計算構造的隨機變量在假設條件下,計算構造的隨機變量K2K2,假設有,假設有觀測數(shù)據計算得到的觀測數(shù)據計算得到的K2K2很大,那么在一定程度上闡明很大,那么在一定程度上闡明假設不合理假設不合理. .3 3根據隨機變量根據隨機變量K2K2的含義,可以經過的含義,可以經過2 2式評價式評價假設不合理的程度,由實踐計算出的假設不合理的程度,由實踐計算出的k6.635k6.635,闡明假,闡明假設不合理的程度約為設不合理的程度約為99%99%,即,即“兩個分類有關系這一兩個分類有

13、關系這一結論成立的可信程度約為結論成立的可信程度約為99%.99%.y y1 1y y2 2總計總計x x1 1a ab ba+ba+bx x2 2c cd dc+dc+d總計總計a+ca+cb+db+da+b+c+da+b+c+d普通地,假設有兩個分類變量普通地,假設有兩個分類變量X X和和Y Y,它們的能夠取值,它們的能夠取值分別為分別為x1,x2x1,x2和和y1,y2,y1,y2,其樣本頻數(shù)列聯(lián)表稱為其樣本頻數(shù)列聯(lián)表稱為2x22x2列聯(lián)表為:列聯(lián)表為:假設要判別結論為:假設要判別結論為:H1H1:“X X與與Y Y有關系,可按如下步有關系,可按如下步驟判別驟判別H1H1成立的能夠性:成

14、立的能夠性:2) 在二維條形圖中,可以估計滿足條件在二維條形圖中,可以估計滿足條件X=x1的個體中的個體中具有具有Y=y1的個體所占的比例的個體所占的比例 ,也可以估計滿足條,也可以估計滿足條件件X=x2的個體中具有的個體中具有Y=y1的個體所占的比例的個體所占的比例 ,兩,兩個比例的值相差越大,個比例的值相差越大,H1成立的能夠性就越大成立的能夠性就越大.aab ccd 1 1, ,可以經過頻率直觀判別兩個條件概率可以經過頻率直觀判別兩個條件概率P(Y=y1|X=x1P(Y=y1|X=x1和和P PY=y1|X=x2Y=y1|X=x2能否相等,斷定能否相等,斷定X X和和Y Y沒有關系;否那

15、么它們就以為它們有關系。沒有關系;否那么它們就以為它們有關系。利用獨立性檢驗來調查兩個分類變量能否有關系,能利用獨立性檢驗來調查兩個分類變量能否有關系,能較準確地給出這種判別的可靠程度較準確地給出這種判別的可靠程度. .詳細作法是:詳細作法是:1 1根據實踐問題需求的可信程度確定臨界值根據實踐問題需求的可信程度確定臨界值k0k0;2由觀測數(shù)據計算得到隨機變量由觀測數(shù)據計算得到隨機變量K2的觀測值的觀測值k;3假設假設kk0,就以,就以1-P(K2k0)100%的把握的把握以為以為“X與與Y有關系;否那么就說樣本觀測數(shù)據沒有有關系;否那么就說樣本觀測數(shù)據沒有提供提供“X與與Y有關系的充分證據有關

16、系的充分證據.數(shù)據整理;列數(shù)據整理;列2 2聯(lián)表聯(lián)表做出相反的假設;做出相反的假設;“患病與吸煙沒有關系患病與吸煙沒有關系計算計算 ;查臨界值表;查臨界值表;下結論。下結論。數(shù)據整理;列數(shù)據整理;列2 2聯(lián)表聯(lián)表做出相反的假設;做出相反的假設;“患病與吸煙沒有關系患病與吸煙沒有關系計算計算 ;查臨界值表;查臨界值表;下結論。下結論。)()()()(22dbcadcbabcadn)(為樣本量dcban22 由于抽樣的隨機性,由樣本得到的推斷由于抽樣的隨機性,由樣本得到的推斷有能夠正確,也有能夠錯誤。利用有能夠正確,也有能夠錯誤。利用 進進展獨立性檢驗,可以對推斷的正確性的概展獨立性檢驗,可以對推

17、斷的正確性的概率作出估計,樣本量率作出估計,樣本量n n越大,估計越準確。越大,估計越準確。22210.8287.8796.6355.0243.8412.7062.0721.3230.7080.445 k0.0010.0050.0100.0250.050.100.150.50.400.502()P Kk1 1假設假設k10.828k10.828,就有,就有99.9%99.9%的把握以為的把握以為“X X與與Y Y有關系;有關系;2 2假設假設k7.879k7.879,就有,就有99.5%99.5%的把握以為的把握以為“X X與與Y Y有關系;有關系;3 3假設假設k6.635k6.635,就有

18、,就有99%99%的把握以為的把握以為“X X與與Y Y有關系;有關系;4 4假設假設k5.024k5.024,就有,就有97.5%97.5%的把握以為的把握以為“X X與與Y Y有關系;有關系;5 5假設假設k3.841k3.841,就有,就有95%95%的把握以為的把握以為“X X與與Y Y有關系;有關系;6 6假設假設k2.706k2.706,就有,就有90%90%的把握以為的把握以為“X X與與Y Y有關系;有關系;7 7假設假設k=2.706k=2.706,就以為沒有充分的證據顯示,就以為沒有充分的證據顯示 “X X與與Y Y有關系有關系. .在某醫(yī)院,由于患心臟病而住院的在某醫(yī)院,

19、由于患心臟病而住院的665665名男性病人中,有名男性病人中,有214214人人禿頂;而另外禿頂;而另外772772名不是由于患心臟病而住院的男性病人中有名不是由于患心臟病而住院的男性病人中有175175人禿頂。分別利用圖形和獨立性檢驗方法判別禿頂與患心人禿頂。分別利用圖形和獨立性檢驗方法判別禿頂與患心臟病能否有關系?他所得的結論在什么范圍內有效?臟病能否有關系?他所得的結論在什么范圍內有效?解:根據標題所給數(shù)據得到如以下聯(lián)表:解:根據標題所給數(shù)據得到如以下聯(lián)表:患心臟病患心臟病 不患心臟病不患心臟病總計總計禿頂禿頂214214175175389389不禿頂不禿頂451451597597104

20、81048總計總計66566577277214371437根據列聯(lián)表中的數(shù)據,得到:根據列聯(lián)表中的數(shù)據,得到:221437 (214 597175 451)16.3736.635.389 1048 665 772K 所以有所以有99%99%的把握以為的把握以為“禿頂患心臟病有關禿頂患心臟病有關. .在某醫(yī)院,由于患心臟病而住院的在某醫(yī)院,由于患心臟病而住院的665665名男性病人中,名男性病人中,有有214214人禿頂;而另外人禿頂;而另外772772名不是由于患心臟病而住院名不是由于患心臟病而住院的男性病人中有的男性病人中有175175人禿頂。分別利用圖形和獨立性人禿頂。分別利用圖形和獨立性檢驗方法判別禿頂與患心臟病能否有關系?他所得的檢驗方法判別禿頂與患心臟病能否有關系?他所得的結論在什么范圍內有效?結論在什么范圍內有效?解:根據標題所給數(shù)據得到如以下聯(lián)表:解:根據標題所給數(shù)據得到如以下聯(lián)表:患心臟病患心臟病 不患心臟病不患心臟病總計總

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論