獨立性檢驗原理_第1頁
獨立性檢驗原理_第2頁
獨立性檢驗原理_第3頁
獨立性檢驗原理_第4頁
獨立性檢驗原理_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1.上節(jié)學(xué)習(xí)了回歸分析的基本方法.線性回歸模型y=bx+a+e不同于一次函數(shù)y=bx+a,含有__________,其中x為_________,y為__________.溫故夯基隨機誤差e解釋變量預(yù)報變量樣本點的中心殘差平方和1、兩個相關(guān)的概念對于性別變量,其取值為男和女兩種,這種變量的不同“值”表示個體所屬的不同類別,像這樣的變量稱為分類變量,它們的取值一定是離散的,而且不同的取值僅表示個體所屬的類別。(1)分類變量:

定量變量的取值一定是實數(shù),它們的取值大小有特定的含義,不同取值之間的運算也有特定的含義。(2)定量變量:

例如身高、體重、考試成績等,張明的身高是180cm,李立的身高是175cm,說明張明比李立高180-175=5(cm)。本節(jié)研究的是兩個分類變量的獨立性檢驗問題。在日常生活中,我們常常關(guān)心分類變量的之間是否有關(guān)系獨立性檢驗二.問題:為了調(diào)查吸煙是否對肺癌有影響,某腫瘤研究所隨機地調(diào)查了9965人,得到如下結(jié)果(單位:人)2×2列聯(lián)表思考:根據(jù)以上表格。能否斷定吸煙對患肺癌有影響?判斷的標(biāo)準(zhǔn)是什么?

吸煙與不吸煙,患病的可能性的大小是否有差異?不患肺癌患肺癌總計不吸煙7775427817吸煙2099492148總計9874919965吸煙與患肺癌列聯(lián)表(列出兩個分類變量的頻數(shù)表):

吸煙與肺癌列聯(lián)表不患肺癌患肺癌總計不吸煙7775427817吸煙2099492148總計9874919965在不吸煙者中患肺癌的比重是

在吸煙者中患肺癌的比重是

0.54%2.28%根據(jù)統(tǒng)計分析的思想,用頻率估計概率可知,吸煙者和不吸煙者患肺癌的可能性存在差異,吸煙者患肺癌的可能性大方法1.用頻率估計概率方法2.通過圖形直觀判斷等高條形圖患肺癌比例不患肺癌比例由上述圖形顯然可以得到結(jié)論是:吸煙與患肺癌有關(guān)思考:這種判斷可靠嗎?你能有多大把握認(rèn)為“患病與吸煙有關(guān)”呢?不患肺癌患肺癌總計不吸煙aba+b吸煙cdc+d總計a+cb+da+b+c+d假設(shè)吸煙與患肺癌沒有關(guān)系,那么吸煙者中不患肺癌的比例應(yīng)該與不吸煙者中相應(yīng)的比例差不多即k大小的標(biāo)準(zhǔn)是什么呢?獨立性檢驗首先,假設(shè)結(jié)論不成立,即

H:兩個分類變量沒有關(guān)系

(在這種假設(shè)下k應(yīng)該很?。┢浯?,由觀測數(shù)據(jù)計算K的觀測值k,(如果k很大,則在一定可信程度上說明H

不成

立,即兩個分類變量之間有關(guān)系)最后,根據(jù)k的值判斷假設(shè)是否成立2卡方臨界值表:10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445

k00.0010.0050.0100.0250.050.100.150.50.400.5010.8287.8796.6355.0243.8412.7062.0721.3230.7080.445k0.0010.0050.0100.0250.050.100.150.50.400.50(1)如果k>10.828,就有99.9%的把握認(rèn)為“X與Y有關(guān)系”;(2)如果k>7.879,就有99.5%的把握認(rèn)為“X與Y有關(guān)系”;(3)如果k>6.635,就有99%的把握認(rèn)為“X與Y有關(guān)系”;(4)如果k>5.024,就有97.5%的把握認(rèn)為“X與Y有關(guān)系”;(5)如果k>3.841,就有95%的把握認(rèn)為“X與Y有關(guān)系”;(6)如果k>2.706,就有90%的把握認(rèn)為“X與Y有關(guān)系”;(7)如果k<=2.706,就認(rèn)為沒有充分的證據(jù)顯示

“X與Y有關(guān)系”.臨界表注:1)這種判斷可能會犯錯誤,但是犯錯誤的概率不會超過0.001,這是個小概率事件,即我們有99.9%的把握認(rèn)為“吸

煙與患癌癥有關(guān)系”

2)利用隨機變量來判斷“兩個分類變量有關(guān)系”的方法稱為這兩個分類變量的獨立性檢驗。反證法原理與獨立性檢驗原理反證法原理:

在一個已知假設(shè)下,如果推出一個矛盾,就證明了這個假設(shè)不成立。獨立性檢驗原理:

在一個已知假設(shè)下,如果推出一個小概率事件發(fā)生,則推斷這個假設(shè)不成立的可能性很大。在判斷兩變量相關(guān)時,若K2的觀測值k=56.632,則P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001,哪種說法是正確的?提示:兩種說法均正確.P(K2≥6.635)≈0.01的含義是:在犯錯誤的概率不超過0.01的前提下,認(rèn)為兩變量相關(guān);而P(K2≥10.828)≈0.001的含義是:在犯錯誤的概率不超過0.001的前提下,認(rèn)為兩變量相關(guān).問題探究在吸煙與患肺病這兩個分類變量的計算中,下列說法正確的是()A、若K的觀測值為k=6.635,我們有99%的把握認(rèn)為吸煙與患肺病有關(guān)系,那么在100個吸煙的人中必有99個患肺病B、從獨立性檢驗可知有99%的把握認(rèn)為吸煙與患肺病有關(guān)系時,我們說某人吸煙,那么他有99%的可能患肺病C、若從統(tǒng)計量中求出有95%的把握認(rèn)為吸煙與患肺病有關(guān)系,是指有5%的可能性使得推理出現(xiàn)錯誤D、以上三種說法都不對c在某醫(yī)院,因為患心臟病而住院的665名病人中,有214人禿頂,而另外772名不是因為患心臟病而住院的男性病人中有175人禿頂。利用圖形判斷禿頂與患心臟病是否有關(guān)系。能夠以99%的把握認(rèn)為禿頂與患心臟病有關(guān)系嗎?為什么?例1患心臟病患其他病總計禿頂214175389不禿頂4515971048總計6657721437(1)等高條形圖從圖中可以看出,禿頂樣本中患心臟病的頻率明顯高于不禿頂樣本中患心臟病的頻率,因此可直觀地認(rèn)為禿頂與患心臟病有關(guān)系。

因此,在犯錯誤的概率不超過0.010的前提下認(rèn)為“禿頂與患心臟病有關(guān)”,即有99%的把握認(rèn)為“禿頂與患心臟病有關(guān)”。(2)獨立性檢驗法患心臟病患其他病總計禿頂214175389不禿頂4515971048總計6657721437

獨立性檢驗的一般步驟:(1)根據(jù)樣本數(shù)據(jù)制成2×2列聯(lián)表;(2)根據(jù)公式K2=計算K2的值;(3)查表比較K2與臨界值的大小關(guān)系,作統(tǒng)計判斷.例2如果K2的觀測值k為8.654,可推斷“X與Y有關(guān)”犯錯誤的概率不超過______.[答案]

0.005[解析]

k=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論