32獨(dú)立性檢驗的基本思想及其應(yīng)用_第1頁
32獨(dú)立性檢驗的基本思想及其應(yīng)用_第2頁
32獨(dú)立性檢驗的基本思想及其應(yīng)用_第3頁
32獨(dú)立性檢驗的基本思想及其應(yīng)用_第4頁
32獨(dú)立性檢驗的基本思想及其應(yīng)用_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、3.2 獨(dú)立性檢驗的基獨(dú)立性檢驗的基本思想及其初步應(yīng)用本思想及其初步應(yīng)用高二數(shù)學(xué)高二數(shù)學(xué) 選修選修2-3 第三章第三章 統(tǒng)計案例統(tǒng)計案例兩個相關(guān)的概念兩個相關(guān)的概念 對于性別變量,其取值為男和女兩種,這種變量的不同對于性別變量,其取值為男和女兩種,這種變量的不同“值值”表示個體所屬的不同類別,像這樣的變量稱為分類變量,表示個體所屬的不同類別,像這樣的變量稱為分類變量,也稱為屬性變量或定性變量,它們的取值一定是離散的,其不也稱為屬性變量或定性變量,它們的取值一定是離散的,其不同的取值僅表示個體所屬的不同類別,除了起分類作用外,無同的取值僅表示個體所屬的不同類別,除了起分類作用外,無其他含義,有時

2、也把分類變量的不同取值用數(shù)字表示,但這些其他含義,有時也把分類變量的不同取值用數(shù)字表示,但這些數(shù)字只起區(qū)分作用,無數(shù)值意義數(shù)字只起區(qū)分作用,無數(shù)值意義. .(1 1)分類變量)分類變量 定量變量的取值一定是實(shí)數(shù),它們的取值大小有特定的定量變量的取值一定是實(shí)數(shù),它們的取值大小有特定的含義,不同取值之間的運(yùn)算也有特定的含義含義,不同取值之間的運(yùn)算也有特定的含義. .(2 2)定量變量)定量變量 例如身高、體重、考試成績等,張明的身高是例如身高、體重、考試成績等,張明的身高是180cm180cm,李立的,李立的身高是身高是175cm175cm,說明張明比李立高,說明張明比李立高180-175=518

3、0-175=5(cmcm). .性別是否喜歡數(shù)學(xué)課程吸煙患肺癌在日常生活中,我們常常關(guān)心在日常生活中,我們常常關(guān)心分類變量之間是否有關(guān)系分類變量之間是否有關(guān)系2 2定定量量變變量量回回歸歸分分析析(畫畫散散點(diǎn)點(diǎn)圖圖、相相關(guān)關(guān)系系數(shù)數(shù)r r、變變量量 相相關(guān)關(guān)指指數(shù)數(shù)R R 、殘殘差差分分析析)分分類類變變量量獨(dú)立性檢驗獨(dú)立性檢驗本節(jié)研究的是本節(jié)研究的是兩個分類變量的獨(dú)立性檢驗問題兩個分類變量的獨(dú)立性檢驗問題. .定量變量:體重、身高、溫度、考試成績等等定量變量:體重、身高、溫度、考試成績等等. .變量變量 分類變量:性別、是否吸煙、是否患肺癌、分類變量:性別、是否吸煙、是否患肺癌、 宗教信仰、

4、國籍等等宗教信仰、國籍等等. .5 5月月3131日是世界無煙日,有關(guān)醫(yī)學(xué)研究表日是世界無煙日,有關(guān)醫(yī)學(xué)研究表明,許多疾病,如:心臟病、癌癥、腦血明,許多疾病,如:心臟病、癌癥、腦血管病、慢性阻塞性肺病等都與吸煙有關(guān),管病、慢性阻塞性肺病等都與吸煙有關(guān),吸煙已成為繼高血壓之后的第二號全球殺吸煙已成為繼高血壓之后的第二號全球殺手手. .這些疾病與吸煙有關(guān)的結(jié)論是怎么得這些疾病與吸煙有關(guān)的結(jié)論是怎么得出的呢?我們來看下面的問題出的呢?我們來看下面的問題. .吸煙與患肺癌列聯(lián)表吸煙與患肺癌列聯(lián)表列聯(lián)表列聯(lián)表%54. 0%100781742%28. 2%100214849吸煙是否對患肺癌有影響?思考思

5、考1)1)通過圖形直觀判斷兩個分類變量是否相關(guān):通過圖形直觀判斷兩個分類變量是否相關(guān):三維柱形圖三維柱形圖從三維柱形圖能清晰看出各個頻數(shù)的相對大小從三維柱形圖能清晰看出各個頻數(shù)的相對大小.2)2)通過圖形直觀判斷兩個分類變量是否相關(guān):通過圖形直觀判斷兩個分類變量是否相關(guān):二維條形圖二維條形圖從二維條形圖能看出,吸煙者中患肺癌的比例高于從二維條形圖能看出,吸煙者中患肺癌的比例高于不患肺癌的比例不患肺癌的比例.3)3)通過圖形直觀判斷兩個分類變量是否相關(guān):通過圖形直觀判斷兩個分類變量是否相關(guān):等高條形圖等高條形圖患病患病比例比例不患病不患病比例比例等高條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例等高

6、條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例.通過數(shù)據(jù)和圖形分析,我們得到的直觀判斷是通過數(shù)據(jù)和圖形分析,我們得到的直觀判斷是“吸煙和患肺癌吸煙和患肺癌有關(guān)有關(guān)”.吸煙患肺癌吸煙與患肺癌列聯(lián)表 為了回答上述問題,我們先假設(shè)為了回答上述問題,我們先假設(shè) H0:吸煙與患肺癌沒有關(guān)系吸煙與患肺癌沒有關(guān)系. . 用用A表示不吸煙,表示不吸煙,B表示不患肺癌,則表示不患肺癌,則“吸煙與患肺癌吸煙與患肺癌沒有關(guān)系沒有關(guān)系”等價于等價于“吸煙與患肺癌獨(dú)立吸煙與患肺癌獨(dú)立”,即假設(shè),即假設(shè)H0等價于等價于 P(AB)=P(A)P(B).把表中的數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表把表中的數(shù)字用字母代替,得

7、到如下用字母表示的列聯(lián)表(a+b+c+d)a(a+b)(a+c)adbc0|ad-bc|越小吸煙與患肺癌之間的關(guān)系越弱|ad-bc|越大吸煙與患肺癌之間的關(guān)系越強(qiáng)在表中,在表中,a恰好為事件恰好為事件AB發(fā)生的頻數(shù);發(fā)生的頻數(shù);a+b和和a+c恰好分別為事件恰好分別為事件A和和B發(fā)生的頻數(shù)發(fā)生的頻數(shù). .由于頻率接近于概率,所以在由于頻率接近于概率,所以在H0成立的條件下成立的條件下應(yīng)該有應(yīng)該有ncanbana(n=a+b+c+d)dbcadcbabcadnK22獨(dú)立性檢驗其中其中n=a+b+c+d為樣本容量為樣本容量. .若H0成立K2應(yīng)該很小632.56919874214878172099

8、4249777599652kK2的觀察值 為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn),基于上述為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn),基于上述分析,我們構(gòu)造一個隨機(jī)變量分析,我們構(gòu)造一個隨機(jī)變量-卡方統(tǒng)計量卡方統(tǒng)計量(1)根據(jù)前面表格中的數(shù)據(jù),利用公式(根據(jù)前面表格中的數(shù)據(jù),利用公式(1)計算得到)計算得到K2的觀測值為:的觀測值為:那么這個值到底能告訴我們什么呢?那么這個值到底能告訴我們什么呢? 統(tǒng)計學(xué)家經(jīng)過研究后發(fā)現(xiàn),在統(tǒng)計學(xué)家經(jīng)過研究后發(fā)現(xiàn),在H H0 0成立的情況下,成立的情況下,即在即在H H0 0成立的情況下,成立的情況下,K K2 2的值大于的值大于6.6356.635的概率非常

9、小,近似的概率非常小,近似于于0.010.01,是一個小概率事件,是一個小概率事件. .2(6.635)0.01.P K (2) 也就是說,在也就是說,在H H0 0成立的情況下,對隨機(jī)變量成立的情況下,對隨機(jī)變量K K2 2進(jìn)行多次觀測,進(jìn)行多次觀測,觀測值超過觀測值超過6.6356.635的頻率約為的頻率約為0.010.01思考 206.635?KH如果,就斷定不成立,這種判斷出錯的可能性有多大 在(在(2 2)中,)中,n越大,近似程度越高,在實(shí)際應(yīng)用中,通常越大,近似程度越高,在實(shí)際應(yīng)用中,通常要求要求a,b,c,d都不小于都不小于5.5. .%99,%99.01. 02,635. 6

10、632.5600吸煙與肺癌有關(guān)系的把握認(rèn)為即有不成立的把握認(rèn)為因此我們有觀測值的概率不超過式可知能夠出現(xiàn)這樣的由成立的條件下在遠(yuǎn)遠(yuǎn)大于現(xiàn)在觀測值HHk 上面解決問題的想法類似于反證法.要判斷“兩個分類變量有關(guān)系” ,首先假設(shè)該結(jié)論不成立,即“兩個分類變量沒有關(guān)系” ,在該假設(shè)成立的條件下隨機(jī)變量 k2的值應(yīng)該很小,如果由觀測數(shù)據(jù)計算得到的 K2的觀測值 k 很大,則在一定程度上說明假設(shè)不合理,即認(rèn)為“兩個分類變量有關(guān)系”;如果觀測值 k 很小,則說明在樣本數(shù)據(jù)中沒有發(fā)現(xiàn)足夠證據(jù)拒絕“兩個分類變量沒有關(guān)系”怎樣判斷怎樣判斷K2的觀測值的觀測值k是大還是小呢?是大還是小呢? 這僅需要確定一個正數(shù)這

11、僅需要確定一個正數(shù) ,當(dāng),當(dāng) 時就認(rèn)為時就認(rèn)為K2的觀測的觀測值值 k大大.此時相應(yīng)于此時相應(yīng)于 的判斷規(guī)則為:的判斷規(guī)則為:0k0kk0k 如果如果 ,就認(rèn)為,就認(rèn)為“兩個分類變量之間有關(guān)系兩個分類變量之間有關(guān)系”;否則;否則就認(rèn)為就認(rèn)為“兩個分類變量之間沒有關(guān)系兩個分類變量之間沒有關(guān)系”.我們稱這樣的我們稱這樣的 為一為一個判斷規(guī)則的臨界值個判斷規(guī)則的臨界值.0kk0k 按照上述規(guī)則,把按照上述規(guī)則,把“兩個分類變量之間沒關(guān)系兩個分類變量之間沒關(guān)系”錯誤的判錯誤的判斷為斷為“兩個分類變量之間有關(guān)系兩個分類變量之間有關(guān)系”的概率為的概率為P( ).20Kk 上面這種利用隨機(jī)變量上面這種利用隨

12、機(jī)變量K2來確定在多大程度來確定在多大程度上可以認(rèn)為上可以認(rèn)為“兩個分類變量有關(guān)系兩個分類變量有關(guān)系”的方法稱為的方法稱為兩個分類變量的兩個分類變量的. .反證法原理與獨(dú)立性檢驗原理的比較反證法原理與獨(dú)立性檢驗原理的比較反證法原理:在假設(shè)反證法原理:在假設(shè)H0下,如果推出一個矛盾,就下,如果推出一個矛盾,就證明了證明了H0不成立不成立獨(dú)立性檢驗原理:在假設(shè)獨(dú)立性檢驗原理:在假設(shè)H H0 0下,如果出現(xiàn)一個與下,如果出現(xiàn)一個與H H0 0相矛盾的小概率事件,就推斷相矛盾的小概率事件,就推斷H H0 0不成立,且該推斷不成立,且該推斷犯錯誤的概率不超過這個小概率犯錯誤的概率不超過這個小概率 你能從

13、上述探究過程中總結(jié)出一種直觀判斷兩個分類變你能從上述探究過程中總結(jié)出一種直觀判斷兩個分類變量有關(guān)系的思路嗎?直觀判斷有何不足?量有關(guān)系的思路嗎?直觀判斷有何不足?一般地,假設(shè)有兩個分類變量一般地,假設(shè)有兩個分類變量X和和Y,它們的取值分別為,它們的取值分別為x1,x2和和y1,y2,其樣本頻數(shù)列聯(lián)表,其樣本頻數(shù)列聯(lián)表(即即22列聯(lián)表列聯(lián)表)為為P(K2k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828臨界值表臨界值表例如:例如:若若 k k10.82

14、810.828,則有,則有99.9%99.9%的把握認(rèn)為的把握認(rèn)為“X與與Y有關(guān)系有關(guān)系”;若若 k k6 6635635,則有,則有99%99%的把握認(rèn)為的把握認(rèn)為“X與與Y有關(guān)系有關(guān)系”;若若 k k3 3841841,則有,則有95%95%的把握認(rèn)為的把握認(rèn)為“X與與Y有關(guān)系有關(guān)系”;若若 k k2 2706706,則有,則有90%90%的把握認(rèn)為的把握認(rèn)為“X與與Y有關(guān)系有關(guān)系”;若若 k k22706706,則認(rèn)為沒有充分證據(jù)顯示,則認(rèn)為沒有充分證據(jù)顯示“X與與Y有關(guān)系有關(guān)系”在吸煙與患肺病這兩個分類變量的計算中,下列說法正確在吸煙與患肺病這兩個分類變量的計算中,下列說法正確的是(的

15、是( )A、若、若K的觀測值為的觀測值為k=6.635,我們有我們有99%的把握認(rèn)為吸煙與患的把握認(rèn)為吸煙與患肺病有關(guān)系,那么在肺病有關(guān)系,那么在100個吸煙的人中必有個吸煙的人中必有99個患肺病個患肺病B、從獨(dú)立性檢驗可知有、從獨(dú)立性檢驗可知有99%的把握認(rèn)為吸煙與患肺病有關(guān)的把握認(rèn)為吸煙與患肺病有關(guān)系時,我們說某人吸煙,那么他有系時,我們說某人吸煙,那么他有99%的可能患肺病的可能患肺病C、若從統(tǒng)計量中求出有、若從統(tǒng)計量中求出有95%的把握認(rèn)為吸煙與患肺病有關(guān)的把握認(rèn)為吸煙與患肺病有關(guān)系,是指有系,是指有5%的可能性使得推理出現(xiàn)錯誤的可能性使得推理出現(xiàn)錯誤D、以上三種說法都不對、以上三種說

16、法都不對c解:根據(jù)數(shù)據(jù)得到如下列聯(lián)表解:根據(jù)數(shù)據(jù)得到如下列聯(lián)表患心臟病患其他病總計禿頂214175389不禿頂4515971048總計6657721437 根據(jù)列聯(lián)表中的數(shù)據(jù),得到根據(jù)列聯(lián)表中的數(shù)據(jù),得到635. 6373.167726651048389451175597214143722K所以有所以有99%的把握認(rèn)為的把握認(rèn)為“禿頂與患心臟病有關(guān)禿頂與患心臟病有關(guān)”. 研究人員表示,掉頭發(fā)在研究人員表示,掉頭發(fā)在很大程度上是由日漸增大的工很大程度上是由日漸增大的工作壓力、不能充分休息、不正作壓力、不能充分休息、不正確飲食和睡眠不足等因素引起確飲食和睡眠不足等因素引起的。在接受調(diào)查的人群中,有

17、的。在接受調(diào)查的人群中,有41%41%的受禿頭威脅的人表示,他的受禿頭威脅的人表示,他們一日睡覺時間不足們一日睡覺時間不足4 4小時小時. .禿頂心臟病禿頂心臟???這組數(shù)據(jù)來自住院的病人,因此所得到的結(jié)論適合住院的病人群體.喜歡數(shù)學(xué)課程不喜歡數(shù)學(xué)課程總計男3785122女35143178總計72228300P(K2k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828所以我們有所以我們有95%的把握認(rèn)為的把握認(rèn)為“性別與是否喜歡數(shù)學(xué)課程之間有關(guān)系性別與是

18、否喜歡數(shù)學(xué)課程之間有關(guān)系”.例3 為研究學(xué)生的數(shù)學(xué)成績與對學(xué)習(xí)數(shù)學(xué)的興趣是否有關(guān),對某年級學(xué)生作調(diào)查得到如下數(shù)據(jù):成績優(yōu)秀成績較差總計興趣濃厚的643094 興趣不濃厚的227395總計86103189判斷學(xué)生的數(shù)學(xué)成績好壞與對學(xué)習(xí)數(shù)學(xué)的興趣是否有關(guān)?解列出22列聯(lián)表理文總計有興趣13873211無興趣9852150總計236125361例例4 為了探究學(xué)生選報文、理科是否與對外語的興趣有關(guān),某同學(xué)調(diào)查了為了探究學(xué)生選報文、理科是否與對外語的興趣有關(guān),某同學(xué)調(diào)查了361名名高二在校學(xué)生,調(diào)查結(jié)果如下:理科對外語有興趣的有高二在校學(xué)生,調(diào)查結(jié)果如下:理科對外語有興趣的有138人,無興趣的有人,無

19、興趣的有98人,人,文科對外語有興趣的有文科對外語有興趣的有73人,無興趣的有人,無興趣的有52人試分析學(xué)生選報文、理科與對人試分析學(xué)生選報文、理科與對外語的興趣是否有關(guān)?外語的興趣是否有關(guān)?例例5、某校高三年級在一次全年級的大型考試中,數(shù)學(xué)成績優(yōu)、某校高三年級在一次全年級的大型考試中,數(shù)學(xué)成績優(yōu)秀和非優(yōu)秀的學(xué)生中,物理、化學(xué)、總分也為優(yōu)秀的人數(shù)如下秀和非優(yōu)秀的學(xué)生中,物理、化學(xué)、總分也為優(yōu)秀的人數(shù)如下表所示,則數(shù)學(xué)成績優(yōu)秀與物理、化學(xué)、總分也優(yōu)秀哪個關(guān)系表所示,則數(shù)學(xué)成績優(yōu)秀與物理、化學(xué)、總分也優(yōu)秀哪個關(guān)系較大?較大?物理物理化學(xué)化學(xué)總分總分?jǐn)?shù)學(xué)優(yōu)秀數(shù)學(xué)優(yōu)秀228225267數(shù)學(xué)非優(yōu)秀數(shù)學(xué)非優(yōu)秀14315699注:該年級此次考試中,數(shù)學(xué)成績優(yōu)秀的有注:該年級此次

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論