【課件】8.3.2獨立性檢驗課件-2021-2022學(xué)年高二下學(xué)期數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第1頁
【課件】8.3.2獨立性檢驗課件-2021-2022學(xué)年高二下學(xué)期數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第2頁
【課件】8.3.2獨立性檢驗課件-2021-2022學(xué)年高二下學(xué)期數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第3頁
【課件】8.3.2獨立性檢驗課件-2021-2022學(xué)年高二下學(xué)期數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第4頁
【課件】8.3.2獨立性檢驗課件-2021-2022學(xué)年高二下學(xué)期數(shù)學(xué)人教A版(2019)選擇性必修第三冊_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

8.3.2獨立性檢驗復(fù)習(xí):1.分類變量

用以區(qū)別不同的現(xiàn)象或性質(zhì)的一種特殊的隨機(jī)變量,稱為分類變量.分類變量的取值可以用實數(shù)表示,例如,學(xué)生所在的班級可以用1,2,3等表示,男性、女性可以用1,0表示,等等.2.列聯(lián)表將形如下表這種形式的數(shù)據(jù)統(tǒng)計表稱為2×2列聯(lián)表.2×2列聯(lián)表給出了成對分類變量數(shù)據(jù)的交叉分類頻數(shù).組別甲(Y=0)乙(Y=1)合計A(X=0)aba+bB(X=1)cdc+d合計a+cb+da+b+c+d前面我們通過2×2列聯(lián)表整理成對分類變量的樣本觀測數(shù)據(jù),并根據(jù)隨機(jī)事件頻率的穩(wěn)定性推斷兩個分類變量之間是否有關(guān)聯(lián).對于隨機(jī)樣本而言,因為頻率具有隨機(jī)性,頻率與概率之間存在誤差,所以我們的推斷可能犯錯誤,而且在樣本容量較小時,犯錯誤的可能性會較大.因此,需要找到一種更為合理的推斷方法,同時也希望能對出現(xiàn)錯誤推斷的概率有一定的控制或估算.設(shè)X和Y為定義在以Ω為樣本空間上,且取值于{0,1}的成對分類變量,則判斷事件{X=1}和{Y=1}之間是否有關(guān)聯(lián),主要是看以下假定關(guān)系是否成立.1.零假設(shè)或原假設(shè)在這里我們通常把H0稱為零假設(shè)或原假設(shè).其中P(Y=1|X=0)表示從{X=0}中隨機(jī)選一個樣本點,該樣本點屬于{X=0,Y=1}的概率;P(Y=1|X=1)表示從{X=1}中隨機(jī)選一個樣本點,該樣本點屬于{X=1,Y=1}的概率.由條件概率的定義可知,零假設(shè)H0等價于零假設(shè)或原假設(shè):由于{X=0}和{X=1}為對立事件,故有由此,零假設(shè)H0等價于{X=1}和{Y=1}獨立.由于下列四條性質(zhì)彼此等價:{X=0}和{Y=0}獨立;{X=0}和{Y=1}獨立;{X=1}和{Y=0}獨立;{X=1}和{Y=1}獨立.如果這些性質(zhì)成立,我們就稱分類變量X和Y獨立.這相當(dāng)于下面四個等式成立:②因此,我們可以用概率語言,將零假設(shè)改述為

H0:分類變量X和Y獨立.思考如何基于②中的四個等式及下列2×2列聯(lián)表中的數(shù)據(jù),構(gòu)造適當(dāng)?shù)慕y(tǒng)計量,對成對分類變量X和Y是否相互獨立作出推斷?XY合計Y=0Y=1X=0aba+bX=1cdc+d合計a+cb+da+b+c+d則事件{X=0,Y=0}發(fā)生的頻數(shù)的期望值(或預(yù)期值)為所以如果零假設(shè)H0成立,下面四個量的取值都不應(yīng)該太大:反之,當(dāng)這些量的取值較大時,就可以推斷H0不成立.顯然,分別考慮上面四個差的絕對值很困難,我們需要找到一個既合理又能夠計算分布的統(tǒng)計量,來推斷H0是否成立.一般來說,若頻數(shù)的期望值較大,則差的絕對值也會較大;而若頻數(shù)的期望值較小,則相應(yīng)的差的絕對值也會較小.為了合理地平衡這種影響,我們將四個差的絕對值取平方后分別除以相應(yīng)的期望值再求和,得到如下的統(tǒng)計量:該表達(dá)式可化簡為上述表達(dá)式是χ2的計算公式,

χ2讀作“卡方”.隨機(jī)變量χ2取值的大小可作為判斷零假設(shè)H0是否成立的依據(jù),當(dāng)它比較大時推斷H0不成立,否則認(rèn)為H0成立.那么,究竟χ2大到什么程度,可以推斷H0不成立呢?或者說,怎樣確定判斷χ2大小的標(biāo)準(zhǔn)呢?小概率值α的臨界值:忽略χ2的實際分布與該近似分布的誤差后,對于任何小概率值α,可以找到相應(yīng)的正實數(shù)xα,使得P(χ2≥xα)=α成立.我們稱xα為α的臨界值,這個臨界值就可作為判斷χ2大小的標(biāo)準(zhǔn),概率值α越小,臨界值xα越大.由P(χ2≥xα)=α可知,只要把概率值α取得充分小,在假設(shè)H0成立的情況下,事件{χ2≥xα}是不大可能發(fā)生的.根據(jù)這個規(guī)律,如果該事件發(fā)生,我們就可以推斷H0不成立.χ2計算公式:基于小概率值α的檢驗規(guī)則是:當(dāng)χ2≥xα?xí)r,我們就推斷H0不成立,即認(rèn)為X和Y不獨立,該推斷犯錯誤的概率不超過α;當(dāng)χ2<xα?xí)r,我們沒有充分證據(jù)推斷H0不成立,可以認(rèn)為X和Y獨立.這種利用χ2的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立性檢驗.下表給出了χ2獨立性檢驗中幾個常用的小概率值和相應(yīng)的臨界值.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828例如,對于小概率值α=0.05,我們有如下的具體檢驗規(guī)則:(1)當(dāng)χ2≥x0.05=3.841時,我們推斷H0不成立,即認(rèn)為X和Y不獨立,該推斷犯錯誤的概率不超過0.05;(2)當(dāng)χ2<x0.05=3.841時,我們沒有充分證據(jù)推斷H0不成立,可以認(rèn)為X和Y獨立.零假設(shè)為H0:分類變量X與Y相互獨立,即兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率無差異.根據(jù)表中的數(shù)據(jù),計算得到例2依據(jù)小概率值α=0.1的χ2獨立性檢驗,分析例1中的抽樣數(shù)據(jù),能否據(jù)此推斷兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率有差異?解:學(xué)校數(shù)學(xué)成績合計不優(yōu)秀(Y=0)優(yōu)秀(Y=1)甲校(X=0)331043乙校(X=1)38745合計711788α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828根據(jù)小概率值α=0.1的χ2獨立性檢驗,沒有充分證據(jù)推斷H0不成立,因此可以認(rèn)為H0成立,即認(rèn)為兩校的數(shù)學(xué)成績優(yōu)秀率沒有差異.思考例1和例2都是基于同一組數(shù)據(jù)的分析,但卻得出了不同的結(jié)論,你能說明其中的原因嗎?事實上,如前所述,例1只是根據(jù)一個樣本的兩個頻率間存在差異得出兩校學(xué)生數(shù)學(xué)成績優(yōu)秀率有差異的結(jié)論,并沒有考慮由樣本隨機(jī)性可能導(dǎo)致的錯誤,所以例1的推斷依據(jù)不太充分,在例2中,我們用χ2獨立性檢驗對零假設(shè)H0進(jìn)行了檢驗.通過計算,發(fā)現(xiàn)χ2≈0.837小于α=0.1所對應(yīng)的臨界值2.706,因此認(rèn)為沒有充分證據(jù)推斷H0不成立,所以接受H0,推斷出兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率沒有顯著差異的結(jié)論.這個檢驗結(jié)果意味著,抽樣數(shù)據(jù)中兩個頻率的差異很有可能是由樣本隨機(jī)性導(dǎo)致的.因此,只根據(jù)頻率的差異得出兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率有差異的結(jié)論是不可靠的.由此可見,相對于簡單比較兩個頻率的推斷,用χ2獨立性檢驗得到的結(jié)果更理性、更全面,理論依據(jù)也更充分.零假設(shè)為H0:療法與療效獨立,即兩種療法效果沒有差異.由已知數(shù)據(jù)列出列聯(lián)表.例3某兒童醫(yī)院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機(jī)抽樣的方法對治療情況進(jìn)行檢查,得到了如下數(shù)據(jù):抽到接受甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙種療法的患兒69名,其中未治愈6名,治愈63名.試根據(jù)小概率值α=0.005的獨立性檢驗,分析乙種療法的效果是否比甲種療法好.解:療法療效合計未治愈治愈甲155267乙66369合計21115136根據(jù)小概率值α=0.005的χ2獨立性檢驗,沒有充分證據(jù)推斷H0不成立,因此可以認(rèn)為H0成立,即認(rèn)為兩種療法效果沒有差異.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828對犯錯誤概率的解釋在零假設(shè)H0成立的前提下,隨著小概率值α的逐漸減小,χ2統(tǒng)計量對應(yīng)的臨界值xα逐漸增大,則事件{χ2≥xα}越來越不容易發(fā)生,零假設(shè)越來越不容易被拒絕;隨著小概率值α的逐漸增大,χ2統(tǒng)計量對應(yīng)的臨界值xα逐漸減小,則事件{χ2≥xα}越來越容易發(fā)生,零假設(shè)越來越容易被拒絕.例如,對于例3中的數(shù)據(jù),經(jīng)計算得χ2≈4.881.(1)當(dāng)小概率值α=0.005時,x0.005=7.879,此時χ2≈4.881<7.879,則沒有充分理由拒絕零假設(shè).因此可以接受H0,即認(rèn)為兩種療法的效果沒有差異.(2)當(dāng)小概率值α=0.05時,x0.05=3.841,此時χ2≈4.881>3.841,則拒絕零假設(shè),即認(rèn)為兩種療法的效果有差異,該推斷犯錯誤的概率不超過0.05.(3)當(dāng)小概率值α=0.1時,x0.05=2.706,此時χ2≈4.881>2.706,則拒絕零假設(shè),即認(rèn)為兩種療法的效果有差異,該推斷犯錯誤的概率不超過0.1.觀察在例3的2×2列聯(lián)表中,若對調(diào)兩種療法的位置或?qū)φ{(diào)兩種療效的位置,則卡方計算公式中a,b,c,d的賦值都會相應(yīng)地改變.這樣做會影響χ2取值的計算結(jié)果嗎?療法療效合計未治愈治愈甲155267乙66369合計21115136這說明,對調(diào)兩種療法的位置,不會影響χ2取值的計算結(jié)果,同理對調(diào)兩種療效的位置也不會影響結(jié)果.對調(diào)前療法療效合計未治愈治愈乙66369甲155267合計21115136對調(diào)后變式1為了研究每周累計戶外暴露時間是否足夠(單位:小時)與近視發(fā)病率的關(guān)系,對某中學(xué)一年級100名學(xué)生進(jìn)行不記名問卷調(diào)查,得到如下數(shù)據(jù):

近視不近視足夠的戶外暴露時間2035不足夠的戶外暴露時間3015α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828(1)用樣本估計總體思想估計該中學(xué)一年級學(xué)生的近視率;(2)能否在犯錯誤的概率不超過0.01的前提下認(rèn)為不足夠的戶外暴露時間與近視有關(guān)系?(1)零假設(shè)為H0:戶外暴露時間與近視率相互獨立.由題可知該中學(xué)一年級學(xué)生近視的人數(shù)為50,總數(shù)為100,利用樣本估計總體思想可知50該中學(xué)一年級學(xué)生的近視率為解:變式1為了研究每周累計戶外暴露時間是否足夠(單位:小時)與近視發(fā)病率的關(guān)系,對某中學(xué)一年級100名學(xué)生進(jìn)行不記名問卷調(diào)查,得到如下數(shù)據(jù):

近視不近視足夠的戶外暴露時間2035不足夠的戶外暴露時間3015α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828(2)能否在犯錯誤的概率不超過0.01的前提下認(rèn)為不足夠的戶外暴露時間與近視有關(guān)系?(2)由卡方計算公式,可得解:在犯錯誤的概率不超過0.01的前提下可以推斷H0不成立,即認(rèn)為不足夠的戶外暴露時間與近視有關(guān)系.變式2

為了研究每周累計戶外暴露時間是否足夠(單位:小時)與近視發(fā)病率的關(guān)系,對某中學(xué)一年級100名學(xué)生進(jìn)行不記名問卷調(diào)查,得到如下數(shù)據(jù):

近視不近視足夠的戶外暴露時間2035不足夠的戶外暴露時間3015α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828

能否在犯錯誤的概率不超過0.001的前提下認(rèn)為不足夠的戶外暴露時間與近視有關(guān)系?由卡方計算公式,可得解:沒有充分證據(jù)推斷H0不成立,因此可以認(rèn)為H0成立,即不足夠的戶外暴露時間與近視沒有關(guān)系.零假設(shè)為H0:吸煙與患肺癌之間無關(guān)聯(lián),由表中數(shù)據(jù)可得例4為研究吸煙是否與肺癌有關(guān),某腫瘤研究所采取有放回簡單隨機(jī)抽樣的方法,調(diào)查了9965人,得到成對樣本觀測數(shù)據(jù)的分類統(tǒng)計結(jié)果,如下表所示.依據(jù)小概率值α=0.001的獨立性檢驗,分析吸煙是否會增加患肺癌的風(fēng)險.解:吸煙肺癌合計非肺癌患者肺癌患者非吸煙者7775427817吸煙者2099492148合計9874919965α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828根據(jù)小概率值α=0.001的χ2獨立性檢驗,推斷H0不成立,即認(rèn)為吸煙與患肺癌有關(guān)聯(lián),此推斷犯錯誤的概率不大于0.001.例4為研究吸煙是否與肺癌有關(guān),某腫瘤研究所采取有放回簡單隨機(jī)抽樣的方法,調(diào)查了9965人,得到成對樣本觀測數(shù)據(jù)的分類統(tǒng)計結(jié)果,如下表所示.依據(jù)小概率值α=0.001的獨立性檢驗,分析吸煙是否會增加患肺癌的風(fēng)險.解:吸煙肺癌合計非肺癌患者肺癌患者非吸煙者7775427817吸煙者2099492148合計9874919965根據(jù)列聯(lián)表中的數(shù)據(jù)計算,不吸煙者中不患肺癌和患肺癌的頻率分別為吸煙者中不患肺癌和患肺癌的頻率分別為因此可以推斷乙種療法的效果比甲種療法好.在被調(diào)查者中,吸煙者患肺癌的頻率是不吸煙者患肺癌的頻率的4倍以上,于是,根據(jù)頻率穩(wěn)定于概率的原理,我們可以認(rèn)為吸煙者患肺癌的概率明顯大于不吸煙者患肺癌的概率,即吸煙更容易引發(fā)肺癌.應(yīng)用獨立性檢驗解決實際問題大致應(yīng)包括以下幾個主要環(huán)節(jié):(1)提出零假設(shè)H0:X和Y相互獨立,并給出在問題中的解釋.

(2)根據(jù)抽樣數(shù)據(jù)整理出2×2列聯(lián)表,計算χ2的值,并與臨界值xα比較.

(3)根據(jù)檢驗規(guī)則得出推斷結(jié)論.

(4)在X和Y不獨立的情況下,根據(jù)需要,通過比較相應(yīng)的頻率,分析X和Y間的影響規(guī)律.注意,上述幾個環(huán)節(jié)的內(nèi)容可以根據(jù)不同情況進(jìn)行調(diào)整.例如,在有些時候,分類變量的抽樣數(shù)據(jù)列聯(lián)表是問題中給定的.思考獨立性檢驗的思想類似于我們常用的反證法,你能指出二者之間的相同和不同之處嗎?簡單地說,反證法是在某種假設(shè)H0之下,推出一個矛盾結(jié)論,從而證明H0不成立;而獨立性檢驗是在零假設(shè)H0之下,如果出現(xiàn)一個與H0相矛盾的小概率事件,就推斷H0不成立,且該推斷犯錯誤的概率不大于這個小概率.另外,在全部邏輯推理正確的情況下,反證法不會犯錯誤,但獨立性檢驗會犯隨機(jī)性錯誤.獨立性檢驗的本質(zhì)是比較觀測值與期望值之間的差異,由χ2所代表的這種差異的大小是通過確定適當(dāng)?shù)男「怕手颠M(jìn)行判斷的.這是一種非常重要的推斷方法,不僅有相當(dāng)廣泛的應(yīng)用,也開啟了人類認(rèn)識世界的一種新的思維方式.課本134頁1.對于例3中的抽樣數(shù)據(jù),采用小概率值α=0.05的獨立性檢驗,分析乙種療法的效果是否比甲種療法好.根據(jù)題意,可得解:α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828根據(jù)小概率值α=0.05的χ2獨立性檢驗,推斷H0不成立,即認(rèn)為兩種療法的效果有差異,該推斷犯錯誤的概率不超過0.05.甲種療法未治愈和治愈的頻率分別是乙種療法未治愈和治愈的頻率分別是因此可以推斷乙種療法的效果比甲種療法好.課本134頁2.根據(jù)同一抽查數(shù)據(jù)推斷兩個分類變量之間是否有關(guān)聯(lián),應(yīng)用不同的小概率值,是否會得出不同的結(jié)論?為什么?解:可能會得出不同的結(jié)論.理由如下:

對同一抽樣數(shù)據(jù),計算出來的χ2的值是確定的,在獨立性檢驗中,基于不同的小概率值α的檢驗規(guī)則,對應(yīng)不同的臨界值x0,其與χ2的大小關(guān)系可能不同,相當(dāng)于檢驗的標(biāo)準(zhǔn)發(fā)生變化,因此結(jié)論可能會不同.課本134頁3.為考察某種藥物A對預(yù)防疾病B的效果,進(jìn)行了動物試驗,根據(jù)105個有放回簡單隨機(jī)樣本的數(shù)據(jù),得到如下列聯(lián)表:依據(jù)α=0.05的獨立性檢驗,分析藥物A對預(yù)防疾病B的有效性.藥物A疾病B合計未患病患病未服用291544服用471461合計7629105α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828零假設(shè)為H0:藥物A與預(yù)防疾病B無關(guān)聯(lián),即藥物A對預(yù)防疾病B沒有效果,根據(jù)列聯(lián)表中數(shù)據(jù),經(jīng)計算得到根據(jù)小概率值α=0.05的χ2獨立性檢驗,沒有充分證據(jù)推斷H0不成立,即可以認(rèn)為藥物A對預(yù)防疾病B沒有效果.解:課本134頁4.從某學(xué)校獲取了容量為400的有放回簡單隨機(jī)樣本,將所得數(shù)學(xué)和語文期末考試成績的樣本觀測數(shù)據(jù)整理如下:解:依據(jù)α=0.05的獨立性檢驗,能否認(rèn)為數(shù)學(xué)成績與語文成績有關(guān)聯(lián)?數(shù)學(xué)成績語文成績合計不優(yōu)秀優(yōu)秀不優(yōu)秀21261273優(yōu)秀5473127合計266134400α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828零假設(shè)為H0:數(shù)學(xué)成績與語文成績獨立,即數(shù)學(xué)成績與語文成績沒有關(guān)聯(lián),根據(jù)列聯(lián)表中數(shù)據(jù),經(jīng)計算得到根據(jù)小概率值α=0.05的χ2獨立性檢驗,我們可以推斷H0不成立,即認(rèn)為數(shù)學(xué)成績與語文成績有關(guān)聯(lián),該推斷犯錯誤的概率不超過0.05.課本134頁解:數(shù)學(xué)成績語文成績合計不優(yōu)秀優(yōu)秀不優(yōu)秀21261273優(yōu)秀5473127合計266134400數(shù)學(xué)成績不優(yōu)秀的人中語文成績不優(yōu)秀和優(yōu)秀的頻率分別為數(shù)學(xué)成績優(yōu)秀的人中語文成績不優(yōu)秀和優(yōu)秀的頻率分別為由此可以看出,數(shù)學(xué)成績優(yōu)秀的人中語文成績優(yōu)秀的頻率明顯高于數(shù)學(xué)成績不優(yōu)秀的人中語文成績優(yōu)秀的頻率.根據(jù)頻率穩(wěn)定于概率的原理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論