人教A_選修2-3課件3.2獨(dú)立性檢驗(yàn)的思想及應(yīng)用(一)1_第1頁(yè)
人教A_選修2-3課件3.2獨(dú)立性檢驗(yàn)的思想及應(yīng)用(一)1_第2頁(yè)
人教A_選修2-3課件3.2獨(dú)立性檢驗(yàn)的思想及應(yīng)用(一)1_第3頁(yè)
人教A_選修2-3課件3.2獨(dú)立性檢驗(yàn)的思想及應(yīng)用(一)1_第4頁(yè)
人教A_選修2-3課件3.2獨(dú)立性檢驗(yàn)的思想及應(yīng)用(一)1_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2021-10-28鄭平正 制作3.2獨(dú)立性檢驗(yàn)的獨(dú)立性檢驗(yàn)的基本思想及其初基本思想及其初步應(yīng)用(一)步應(yīng)用(一)高二數(shù)學(xué)高二數(shù)學(xué) 選修選修2-3 第三章第三章 統(tǒng)計(jì)案例統(tǒng)計(jì)案例2021-10-28鄭平正 制作2 2定定量量變變量量回回歸歸分分析析(畫畫散散點(diǎn)點(diǎn)圖圖、相相關(guān)關(guān)系系數(shù)數(shù)r r、變變量量 相相關(guān)關(guān)指指數(shù)數(shù)R R 、殘殘差差分分析析)分分類類變變量量研究?jī)蓚€(gè)變量的相關(guān)關(guān)系:定量變量:體重、身高、溫度、考試成績(jī)等等。定量變量:體重、身高、溫度、考試成績(jī)等等。變量 分類變量:性別、是否吸煙、是否患肺癌、變量 分類變量:性別、是否吸煙、是否患肺癌、 宗教信仰、國(guó)籍等等。宗教信仰、國(guó)籍等等。

2、兩種變量:獨(dú)立性檢驗(yàn)獨(dú)立性檢驗(yàn)本節(jié)研究的是兩個(gè)分類變量的獨(dú)立性檢驗(yàn)問題。在日常生活中,我們常常關(guān)心在日常生活中,我們常常關(guān)心分類變量之間是否有關(guān)系分類變量之間是否有關(guān)系:例如,吸煙是否與患肺癌有關(guān)系?例如,吸煙是否與患肺癌有關(guān)系? 性別是否對(duì)于喜歡數(shù)學(xué)課程有影響?等等。性別是否對(duì)于喜歡數(shù)學(xué)課程有影響?等等。2021-10-28鄭平正 制作問題問題: 數(shù)學(xué)家龐加萊每天都從一家面包店數(shù)學(xué)家龐加萊每天都從一家面包店買一塊買一塊1000g 的面包,并記錄下買回的面的面包,并記錄下買回的面包的實(shí)際質(zhì)量。一年后,這位數(shù)學(xué)家發(fā)包的實(shí)際質(zhì)量。一年后,這位數(shù)學(xué)家發(fā)現(xiàn),所記錄數(shù)據(jù)的均值為現(xiàn),所記錄數(shù)據(jù)的均值為95

3、0g。于是龐。于是龐加萊推斷這家面包店的面包分量不足。加萊推斷這家面包店的面包分量不足。假設(shè)假設(shè)“面包份量足面包份量足”,則一年購(gòu)買面包的質(zhì)量數(shù)據(jù),則一年購(gòu)買面包的質(zhì)量數(shù)據(jù)的平均值應(yīng)該不少于的平均值應(yīng)該不少于1000g ;“這個(gè)平均值不大于這個(gè)平均值不大于950g”是一個(gè)與假設(shè)是一個(gè)與假設(shè)“面包份量面包份量足足”矛盾的小概率事件;矛盾的小概率事件;這個(gè)小概率事件的發(fā)生使龐加萊得出推斷結(jié)果這個(gè)小概率事件的發(fā)生使龐加萊得出推斷結(jié)果。2021-10-28鄭平正 制作一一: :假設(shè)檢驗(yàn)問題的原理假設(shè)檢驗(yàn)問題的原理 假設(shè)檢驗(yàn)問題由兩個(gè)互斥的假設(shè)構(gòu)成,其假設(shè)檢驗(yàn)問題由兩個(gè)互斥的假設(shè)構(gòu)成,其中一個(gè)叫做原假設(shè)

4、,用中一個(gè)叫做原假設(shè),用H0表示;另一個(gè)叫做備表示;另一個(gè)叫做備擇假設(shè),用擇假設(shè),用H1表示。表示。例如,在前面的例子中,例如,在前面的例子中, 原假設(shè)原假設(shè)為:為: H0:面包份量足,:面包份量足,備擇假設(shè)備擇假設(shè)為:為: H1:面包份量不足。:面包份量不足。這個(gè)假設(shè)檢驗(yàn)問題可以表達(dá)為:這個(gè)假設(shè)檢驗(yàn)問題可以表達(dá)為: H0:面包:面包份份量足量足 H1:面包:面包份份量不足量不足2021-10-28鄭平正 制作二二: :求解假設(shè)檢驗(yàn)問題求解假設(shè)檢驗(yàn)問題考慮假設(shè)檢驗(yàn)問題:考慮假設(shè)檢驗(yàn)問題: H0:面包分量足:面包分量足 H1:面包分量不足:面包分量不足 在在H0成立的條件下,構(gòu)造與成立的條件下,

5、構(gòu)造與H0矛盾的小概矛盾的小概率事件;率事件; 如果樣本使得這個(gè)小概率事件發(fā)生,就能如果樣本使得這個(gè)小概率事件發(fā)生,就能以一定把握斷言以一定把握斷言H1成立;否則,斷言沒有成立;否則,斷言沒有發(fā)現(xiàn)樣本數(shù)據(jù)與發(fā)現(xiàn)樣本數(shù)據(jù)與H0相矛盾的證據(jù)。相矛盾的證據(jù)。求解思路:求解思路:2021-10-28鄭平正 制作 吸煙與肺癌列聯(lián)表吸煙與肺癌列聯(lián)表不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì)不吸煙不吸煙77757775424278177817吸煙吸煙20992099494921482148總計(jì)總計(jì)98749874919199659965為了調(diào)查吸煙是否對(duì)肺癌有影響,某腫瘤研究所隨機(jī)為了調(diào)查吸煙是否對(duì)肺癌有影響,某

6、腫瘤研究所隨機(jī)地調(diào)查了地調(diào)查了99659965人,得到如下結(jié)果(單位:人)人,得到如下結(jié)果(單位:人)列聯(lián)表列聯(lián)表在不吸煙者中患肺癌的比重是在不吸煙者中患肺癌的比重是 在吸煙者中患肺癌的比重是在吸煙者中患肺癌的比重是 說明:吸煙者和不吸煙者患肺癌的可能性存在差異,吸煙者患說明:吸煙者和不吸煙者患肺癌的可能性存在差異,吸煙者患肺癌的可能性大。肺癌的可能性大。0.54%0.54%2.28%2.28%探究探究2021-10-28鄭平正 制作不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì)不吸煙不吸煙7775427817吸煙吸煙2099492148總計(jì)總計(jì)98749199651、列聯(lián)表2、三維柱形圖3、二維條形圖

7、不患肺癌患肺癌吸煙不吸煙不患肺癌患肺癌吸煙不吸煙080007000600050004000300020001000從三維柱形圖能清晰看出從三維柱形圖能清晰看出各個(gè)頻數(shù)的相對(duì)大小。各個(gè)頻數(shù)的相對(duì)大小。從二維條形圖能看出,吸煙者中從二維條形圖能看出,吸煙者中患肺癌的比例高于不患肺癌的比例?;挤伟┑谋壤哂诓换挤伟┑谋壤?。通過圖形直觀判斷兩個(gè)分類變量是否相關(guān):2021-10-28鄭平正 制作不吸煙吸煙00.10.20.30.40.50.60.70.80.91不吸煙不吸煙吸煙吸煙患肺癌比例不患肺癌比例4、等高條形圖等高條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例。2021-10-28鄭平正 制作 上面我

8、們通過分析數(shù)據(jù)和圖形,得到的直觀印象是吸煙和上面我們通過分析數(shù)據(jù)和圖形,得到的直觀印象是吸煙和患肺癌有關(guān),那么事實(shí)是否真的如此呢?患肺癌有關(guān),那么事實(shí)是否真的如此呢?這需要用統(tǒng)計(jì)觀點(diǎn)這需要用統(tǒng)計(jì)觀點(diǎn)來考察這個(gè)問題。來考察這個(gè)問題。 現(xiàn)在想要知道能夠以多大的把握認(rèn)為現(xiàn)在想要知道能夠以多大的把握認(rèn)為“吸煙與患肺癌有關(guān)吸煙與患肺癌有關(guān)”,為此先假設(shè)為此先假設(shè) H0:吸煙與患肺癌沒有關(guān)系:吸煙與患肺癌沒有關(guān)系.不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì)不吸煙不吸煙aba+b吸煙吸煙cdc+d總計(jì)總計(jì)a+cb+da+b+c+d把表中的數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表把表中的數(shù)字用字母代替,得到如下用

9、字母表示的列聯(lián)表 用用A表示不吸煙,表示不吸煙,B表示不患肺癌,則表示不患肺癌,則“吸煙與患肺癌沒有關(guān)系吸煙與患肺癌沒有關(guān)系”等價(jià)于等價(jià)于“吸煙與患肺癌獨(dú)立吸煙與患肺癌獨(dú)立”,即假設(shè),即假設(shè)H0等價(jià)于等價(jià)于 P(AB)=P(A)P(B).2021-10-28鄭平正 制作因此因此|ad-bc|越小,說明吸煙與患肺癌之間關(guān)系越弱;越小,說明吸煙與患肺癌之間關(guān)系越弱; |ad-bc|越大,說明吸煙與患肺癌之間關(guān)系越強(qiáng)。越大,說明吸煙與患肺癌之間關(guān)系越強(qiáng)。不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì)不吸煙不吸煙aba+b吸煙吸煙cdc+d總計(jì)總計(jì)a+cb+da+b+c+dadbc即aa+ba+caa+ba+c

10、nnnnnna+ba+bP(A),P(A),n na+ca+cP(B),P(B),n n.a aP(AB)P(AB)n n其中為樣本容量,即n n = =a a+ +b b+ +c c+ +d d在表中,在表中,a恰好為事件恰好為事件AB發(fā)生的頻數(shù);發(fā)生的頻數(shù);a+b和和a+c恰好分別為事恰好分別為事件件A和和B發(fā)生的頻數(shù)。由于頻率接近于概率,所以在發(fā)生的頻數(shù)。由于頻率接近于概率,所以在H0成立的條成立的條件下應(yīng)該有件下應(yīng)該有(a+b+c+d)a(a+b)(a+c),2021-10-28鄭平正 制作 為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),基于上述分為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),

11、基于上述分析,我們構(gòu)造一個(gè)隨機(jī)變量析,我們構(gòu)造一個(gè)隨機(jī)變量-卡方統(tǒng)計(jì)量卡方統(tǒng)計(jì)量22(),()()()()其中為樣本容量。n adbcKab cdac bdnabcd(1) 若若 H0成立,即成立,即“吸煙與患肺癌沒有關(guān)系吸煙與患肺癌沒有關(guān)系”,則,則K2應(yīng)很小。應(yīng)很小。根據(jù)表根據(jù)表3-7中的數(shù)據(jù),利用公式(中的數(shù)據(jù),利用公式(1)計(jì)算得到)計(jì)算得到K2的觀測(cè)值為:的觀測(cè)值為:那么這個(gè)值到底能告訴我們什么呢?那么這個(gè)值到底能告訴我們什么呢?242 209956.6327817 2148 9874 91k9965(7775 49)(2) 獨(dú)立性檢驗(yàn)獨(dú)立性檢驗(yàn)2021-10-28鄭平正 制作在在H

12、0成立的情況下,統(tǒng)計(jì)學(xué)家估算出如下的概率成立的情況下,統(tǒng)計(jì)學(xué)家估算出如下的概率 即在即在H0成立的情況下,成立的情況下,K2的值大于的值大于6.635的概率非常小,近似的概率非常小,近似于于0.01。2(6.635)0.01.P K (2) 也就是說,在也就是說,在H0成立的情況下,對(duì)隨機(jī)變量成立的情況下,對(duì)隨機(jī)變量K2進(jìn)行多次觀進(jìn)行多次觀測(cè),觀測(cè)值超過測(cè),觀測(cè)值超過6.635的頻率約為的頻率約為0.01。思考 206.635?KH如果,就斷定不成立,這種判斷出錯(cuò)的可能性有多大答:判斷出錯(cuò)的概率為0.01。2009965 7775 49 42 2099566327817 2148 9874 9

13、1().kHH 現(xiàn)現(xiàn)在在觀觀測(cè)測(cè)值值太太大大了了,在在成成立立的的情情況況下下能能夠夠出出現(xiàn)現(xiàn)這這樣樣的的觀觀測(cè)測(cè)值值的的概概率率不不超超過過0 0. .0 01 1,因因此此我我們們有有9 99 9% %的的把把握握認(rèn)認(rèn)為為不不成成立立,即即有有9 99 9% %的的把把握握認(rèn)認(rèn)為為“吸吸煙煙與與患患肺肺癌癌有有關(guān)關(guān)系系”。2021-10-28鄭平正 制作判斷判斷 是否成立的規(guī)則是否成立的規(guī)則0H如果如果 ,就判斷,就判斷 不成立,即認(rèn)為吸煙與不成立,即認(rèn)為吸煙與患肺癌有關(guān)系;否則,就判斷患肺癌有關(guān)系;否則,就判斷 成立,即認(rèn)為吸煙成立,即認(rèn)為吸煙與患肺癌有關(guān)系。與患肺癌有關(guān)系。6.635k

14、 0H0H獨(dú)立性檢驗(yàn)的定義獨(dú)立性檢驗(yàn)的定義 上面這種利用隨機(jī)變量上面這種利用隨機(jī)變量K2來確定在多大程度上來確定在多大程度上可以認(rèn)為可以認(rèn)為“兩個(gè)分類變量有關(guān)系兩個(gè)分類變量有關(guān)系”的方法,稱為兩的方法,稱為兩個(gè)分類變量的個(gè)分類變量的獨(dú)立性檢驗(yàn)獨(dú)立性檢驗(yàn)。在該規(guī)則下,把結(jié)論在該規(guī)則下,把結(jié)論“ 成立成立”錯(cuò)判成錯(cuò)判成“ 不不成立成立”的概率不會(huì)差過的概率不會(huì)差過0H0H2(6.635)0.01,P K 即有即有99%的把握認(rèn)為的把握認(rèn)為 不成立。不成立。0H獨(dú)立性檢驗(yàn)的基本思想(類似獨(dú)立性檢驗(yàn)的基本思想(類似反證法反證法)(1)(1)假設(shè)結(jié)論不成立假設(shè)結(jié)論不成立, ,即即 “ “兩個(gè)分類變量沒有

15、關(guān)系兩個(gè)分類變量沒有關(guān)系”. .0:H(2)(2)在此假設(shè)下我們所構(gòu)造的隨機(jī)變量在此假設(shè)下我們所構(gòu)造的隨機(jī)變量 K K2 2 應(yīng)該很小應(yīng)該很小, ,如果由如果由觀測(cè)數(shù)據(jù)計(jì)算得到觀測(cè)數(shù)據(jù)計(jì)算得到K K2 2的觀測(cè)值的觀測(cè)值k k很大很大, ,則在一定可信程度上則在一定可信程度上說明說明 不成立不成立. .即在一定可信程度上認(rèn)為即在一定可信程度上認(rèn)為“兩個(gè)分類變量有兩個(gè)分類變量有關(guān)系關(guān)系”;如果;如果k k的值很小,則說明由樣本觀測(cè)數(shù)據(jù)沒有發(fā)現(xiàn)反的值很小,則說明由樣本觀測(cè)數(shù)據(jù)沒有發(fā)現(xiàn)反對(duì)對(duì) 的充分證據(jù)。的充分證據(jù)。0H0H(3)(3)根據(jù)隨機(jī)變量根據(jù)隨機(jī)變量K K2 2的含義的含義, ,可以通過評(píng)

16、價(jià)該假設(shè)不合理的可以通過評(píng)價(jià)該假設(shè)不合理的程度程度, ,由實(shí)際計(jì)算出的由實(shí)際計(jì)算出的, ,說明假設(shè)合理的程度為說明假設(shè)合理的程度為99%,99%,即即“兩兩個(gè)分類變量有關(guān)系個(gè)分類變量有關(guān)系”這一結(jié)論成立的可信度為約為這一結(jié)論成立的可信度為約為99%.99%.2021-10-28鄭平正 制作怎樣判斷怎樣判斷K K2 2的觀測(cè)值的觀測(cè)值k是大還是小呢?是大還是小呢? 這僅需要確定一個(gè)正數(shù)這僅需要確定一個(gè)正數(shù) ,當(dāng),當(dāng) 時(shí)就認(rèn)為時(shí)就認(rèn)為K K2 2的觀測(cè)的觀測(cè)值值 k大。此時(shí)相應(yīng)于大。此時(shí)相應(yīng)于 的判斷規(guī)則為:的判斷規(guī)則為:0k0kk0k如果如果 ,就認(rèn)為,就認(rèn)為“兩個(gè)分類變量之間有關(guān)系兩個(gè)分類變量

17、之間有關(guān)系”;否則;否則就認(rèn)為就認(rèn)為“兩個(gè)分類變量之間沒有關(guān)系兩個(gè)分類變量之間沒有關(guān)系”。0kk0k-臨界值臨界值按照上述規(guī)則,把按照上述規(guī)則,把“兩個(gè)分類變量之間有沒關(guān)系兩個(gè)分類變量之間有沒關(guān)系”錯(cuò)誤的判斷錯(cuò)誤的判斷為為“兩個(gè)分類變量之間有關(guān)系兩個(gè)分類變量之間有關(guān)系”的概率為的概率為P( ).20Kk在實(shí)際應(yīng)用中,我們把在實(shí)際應(yīng)用中,我們把 解釋為有解釋為有的把握認(rèn)為的把握認(rèn)為“兩個(gè)分類變量之間有關(guān)系兩個(gè)分類變量之間有關(guān)系”;把;把 解釋為解釋為不能以不能以 的把握認(rèn)為的把握認(rèn)為“兩個(gè)分類變量?jī)蓚€(gè)分類變量之間有關(guān)系之間有關(guān)系”,或者樣本觀測(cè)數(shù)據(jù)沒有提供,或者樣本觀測(cè)數(shù)據(jù)沒有提供“兩個(gè)分類變量

18、兩個(gè)分類變量之間有關(guān)系之間有關(guān)系”的充分證據(jù)。的充分證據(jù)。0kk2(1() 100%P Kk0kk2(1() 100%P Kk2021-10-28鄭平正 制作思考:思考: 利用上面的結(jié)論,你能從列聯(lián)表的三維柱形圖中利用上面的結(jié)論,你能從列聯(lián)表的三維柱形圖中看出兩個(gè)分類變量是否相關(guān)呢?看出兩個(gè)分類變量是否相關(guān)呢?表表1-11 2x2聯(lián)表聯(lián)表 一般地,假設(shè)有兩個(gè)分類變量一般地,假設(shè)有兩個(gè)分類變量X和和Y,它們的值域,它們的值域分別為分別為x1,x2和和y1,y2,其樣本頻數(shù)列聯(lián)表(稱為其樣本頻數(shù)列聯(lián)表(稱為2x2列列聯(lián)表)為:聯(lián)表)為:y1y2總計(jì)總計(jì)x1aba+bx2cdc+d總計(jì)總計(jì)a+cb+

19、da+b+c+d2021-10-28鄭平正 制作 若要判斷的結(jié)論為:H1:“X與Y有關(guān)系”,可以按如下步驟判斷H1成立的可能性:aabccd2、可以利用獨(dú)立性檢驗(yàn)來考察兩個(gè)分類變量是否有關(guān)系,并、可以利用獨(dú)立性檢驗(yàn)來考察兩個(gè)分類變量是否有關(guān)系,并且能較精確地給出這種判斷的可靠程度。且能較精確地給出這種判斷的可靠程度。1、通過三維柱形圖和二維條形圖,可以粗略地判斷兩個(gè)變、通過三維柱形圖和二維條形圖,可以粗略地判斷兩個(gè)變量是否有關(guān)系量是否有關(guān)系,但是這種判斷無法精確地給出所得結(jié)論的可靠但是這種判斷無法精確地給出所得結(jié)論的可靠程度。程度。 (1)在三維柱形圖中,)在三維柱形圖中, 主對(duì)角線上兩個(gè)柱形高度的乘積主對(duì)角線上兩個(gè)柱形高度的乘積ad與副對(duì)角線上兩個(gè)柱形高度的乘積與副對(duì)角線上兩個(gè)柱形高度的乘積bc相差越大,相差越大,H1成立的成立的可能性就越大??赡苄跃驮酱?。 (2)在二維條形圖中)在二維條形圖中,可以估計(jì)滿足條件可以估計(jì)滿足條件X=x1的個(gè)體中具的個(gè)體中具有有Y=y1的個(gè)體所占的比例的個(gè)體所占的比例 ,也可以估計(jì)滿足條件,也可以估計(jì)滿足條件X=x2的個(gè)體中具有的個(gè)體中具有Y=y1的個(gè)體所占的比例的個(gè)體所占的比例 。兩個(gè)比例相差越。兩個(gè)比例相差越大,大,H1成立的可能性就越大。成立的可能性就越大。aabccd2021-10-28鄭平正 制作在實(shí)際應(yīng)用中,要在獲取樣本數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論