




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 定量變量定量變量的取值一定是實(shí)數(shù),它們的取值大小有特定的取值一定是實(shí)數(shù),它們的取值大小有特定 的含義,不同取值之間的運(yùn)算也有特定的含義的含義,不同取值之間的運(yùn)算也有特定的含義. . 如身高、體重、考試成績(jī)、溫度等等如身高、體重、考試成績(jī)、溫度等等. 變量變量 定量變量定量變量 分類變量分類變量 兩個(gè)定量變量的相關(guān)關(guān)系分析:回歸分析(畫散點(diǎn)圖、兩個(gè)定量變量的相關(guān)關(guān)系分析:回歸分析(畫散點(diǎn)圖、 相關(guān)指數(shù)相關(guān)指數(shù)R2、殘差分析)、殘差分析) (定性變量)(定性變量) 對(duì)于性別變量,其取值為男和女兩種,這種變量的不對(duì)于性別變量,其取值為男和女兩種,這種變量的不 同同“值值”表示個(gè)體所屬的不同類別,像
2、這樣的變量稱表示個(gè)體所屬的不同類別,像這樣的變量稱 為為分類變量分類變量. . 在日常生活中,主要考慮在日常生活中,主要考慮分類變量之間是否有關(guān)系分類變量之間是否有關(guān)系: 如是否吸煙、宗教信仰、是否患肺癌、國籍等等如是否吸煙、宗教信仰、是否患肺癌、國籍等等. . 例如,吸煙是否與患肺癌有關(guān)系?例如,吸煙是否與患肺癌有關(guān)系? 性別是否對(duì)于喜歡數(shù)學(xué)課程有影響?等等性別是否對(duì)于喜歡數(shù)學(xué)課程有影響?等等. . 分類變量也稱為分類變量也稱為屬性變量屬性變量或或定性變量定性變量,它們的取值一,它們的取值一 定是離散的,而且不同的取值僅表示個(gè)體所屬的類別,定是離散的,而且不同的取值僅表示個(gè)體所屬的類別, 如
3、性別變量,只取男、女兩個(gè)值如性別變量,只取男、女兩個(gè)值 兩個(gè)分類變量的相關(guān)關(guān)系的分析:兩個(gè)分類變量的相關(guān)關(guān)系的分析: 通過圖形直觀判斷兩個(gè)分類變量是否相關(guān);通過圖形直觀判斷兩個(gè)分類變量是否相關(guān); 獨(dú)立性檢驗(yàn)獨(dú)立性檢驗(yàn). 不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì) 不吸煙不吸煙77757775424278177817 吸煙吸煙20992099494921482148 總計(jì)總計(jì)98749874919199659965 由列聯(lián)表可以粗略估計(jì)出,在不吸煙者中,有由列聯(lián)表可以粗略估計(jì)出,在不吸煙者中,有0.54%0.54%患患 有肺癌;在吸煙者中,有有肺癌;在吸煙者中,有2.28%2.28%患有肺癌。因此,直
4、觀患有肺癌。因此,直觀 上可以得到結(jié)論:上可以得到結(jié)論:吸煙者和不吸煙者患肺癌的可能性吸煙者和不吸煙者患肺癌的可能性 存在差異存在差異. . 與表格相比,三維柱形圖和二維條形圖能更直觀地反與表格相比,三維柱形圖和二維條形圖能更直觀地反 映出相關(guān)數(shù)據(jù)的總體狀況映出相關(guān)數(shù)據(jù)的總體狀況. . 為調(diào)查吸煙是否對(duì)患肺癌有影響,某腫瘤研究所隨機(jī)為調(diào)查吸煙是否對(duì)患肺癌有影響,某腫瘤研究所隨機(jī) 地調(diào)查了地調(diào)查了9965人,得到如下結(jié)果(單位:人):人,得到如下結(jié)果(單位:人): 吸煙與患肺癌吸煙與患肺癌列聯(lián)表列聯(lián)表(列出兩個(gè)分類變量的頻數(shù)表):(列出兩個(gè)分類變量的頻數(shù)表): 不患肺癌不患肺癌患肺癌患肺癌總計(jì)總
5、計(jì) 不吸煙不吸煙77757775424278177817 吸煙吸煙20992099494921482148 總計(jì)總計(jì)98749874919199659965 1 1、列聯(lián)表、列聯(lián)表 2 2、三維柱形圖、三維柱形圖3 3、二維條形圖、二維條形圖 不患肺癌 患肺癌 吸煙 不吸煙 不患肺癌 患肺癌 吸煙不吸煙 0 8000 7000 6000 5000 4000 3000 2000 1000 從三維柱形圖能清晰看出各從三維柱形圖能清晰看出各 個(gè)頻數(shù)的相對(duì)大小個(gè)頻數(shù)的相對(duì)大小. . 從二維條形圖能看出,吸煙者中從二維條形圖能看出,吸煙者中 患肺癌的比例高于不患肺癌的比例患肺癌的比例高于不患肺癌的比例.
6、 . 不吸煙吸煙 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 不吸煙不吸煙吸煙吸煙 患肺癌 比例 不患肺癌 比例 4 4、等高條形圖、等高條形圖 等高條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例等高條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例. 上面我們通過分析數(shù)據(jù)和圖形,得到的直觀印象是吸上面我們通過分析數(shù)據(jù)和圖形,得到的直觀印象是吸 煙和患肺癌有關(guān),那么事實(shí)是否真的如此呢?這需要煙和患肺癌有關(guān),那么事實(shí)是否真的如此呢?這需要 用用統(tǒng)計(jì)觀點(diǎn)統(tǒng)計(jì)觀點(diǎn)來考察這個(gè)問題來考察這個(gè)問題. . 現(xiàn)在想要知道能夠以多大的把握認(rèn)為現(xiàn)在想要知道能夠以多大的把握認(rèn)為“吸煙與患肺癌
7、吸煙與患肺癌 有關(guān)有關(guān)”,為此先假設(shè):,為此先假設(shè): H H0 0:吸煙與患肺癌沒有關(guān)系:吸煙與患肺癌沒有關(guān)系 不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì) 不吸煙不吸煙a ab ba+ba+b 吸煙吸煙c cd dc+dc+d 總計(jì)總計(jì)a+ca+cb+db+da+b+c+da+b+c+d 把數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表:把數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表: 不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì) 不吸煙不吸煙a ab ba+ba+b 吸煙吸煙c cd dc+dc+d 總計(jì)總計(jì)a+ca+cb+db+da+b+c+da+b+c+d 吸煙與患肺癌的列聯(lián)表:吸煙與患肺癌的列聯(lián)表: 如果
8、如果“吸煙與患肺癌沒有關(guān)系吸煙與患肺癌沒有關(guān)系”,則在吸煙者中不患,則在吸煙者中不患 肺癌的比例應(yīng)該與不吸煙者中相應(yīng)的比例應(yīng)差不多,肺癌的比例應(yīng)該與不吸煙者中相應(yīng)的比例應(yīng)差不多, 即即 |ad-bc|ad-bc|越小,說明吸煙與患肺癌之間關(guān)系越弱;越小,說明吸煙與患肺癌之間關(guān)系越弱; |ad-bc|ad-bc|越大,說明吸煙與患肺癌之間關(guān)系越強(qiáng)越大,說明吸煙與患肺癌之間關(guān)系越強(qiáng). . 為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),基于為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),基于 上述分析,我們構(gòu)造一個(gè)隨機(jī)變量上述分析,我們構(gòu)造一個(gè)隨機(jī)變量 若若H H0 0成立,即成立,即“吸煙與患肺癌沒有關(guān)系吸
9、煙與患肺癌沒有關(guān)系”,則,則K K2 2應(yīng)很小應(yīng)很小. . 由列聯(lián)表中數(shù)據(jù),利用公式(由列聯(lián)表中數(shù)據(jù),利用公式(1 1)計(jì)算得)計(jì)算得K K2 2的觀測(cè)值為:的觀測(cè)值為: 2 2 () ()()()() n adbc K ab cdac bd (1 1) 2 9965(7775 4942 2099) 56.632. 78172148 9874 91 k 其中其中n=a+b+c+d為樣本容量為樣本容量. 在在H0成立的情況下,統(tǒng)計(jì)學(xué)家估算出如下的概率:成立的情況下,統(tǒng)計(jì)學(xué)家估算出如下的概率: 2 (6.635)0.01P K 也就是說,在也就是說,在H H0 0成立的情況下,對(duì)隨機(jī)變量成立的情況
10、下,對(duì)隨機(jī)變量K K2 2進(jìn)行多次進(jìn)行多次 觀測(cè),觀測(cè)值超過觀測(cè),觀測(cè)值超過6.6356.635的頻率約為的頻率約為0.010.01,是一個(gè)小概,是一個(gè)小概 率事件率事件. .現(xiàn)在現(xiàn)在K K2 2的觀測(cè)值為的觀測(cè)值為56.63256.632,遠(yuǎn)遠(yuǎn)大于,遠(yuǎn)遠(yuǎn)大于6.6356.635,所,所 以有理由斷定以有理由斷定H H0 0不成立不成立,即認(rèn)為,即認(rèn)為“吸煙與患肺癌有關(guān)系吸煙與患肺癌有關(guān)系” ” 56.632k 但這種判斷會(huì)犯錯(cuò)誤,犯錯(cuò)誤的概率不會(huì)超過但這種判斷會(huì)犯錯(cuò)誤,犯錯(cuò)誤的概率不會(huì)超過0.01,即,即 我們有我們有99的把握認(rèn)為的把握認(rèn)為“吸煙與患肺癌有關(guān)系吸煙與患肺癌有關(guān)系”. 利用隨
11、機(jī)變量利用隨機(jī)變量K K2 2來確定在多大程度上可以認(rèn)為來確定在多大程度上可以認(rèn)為“兩個(gè)兩個(gè) 分類變量有關(guān)系分類變量有關(guān)系”的方法稱為兩個(gè)分類變量的獨(dú)立性的方法稱為兩個(gè)分類變量的獨(dú)立性 檢驗(yàn)檢驗(yàn). . 獨(dú)立性檢驗(yàn):獨(dú)立性檢驗(yàn): 如果如果 ,就判斷,就判斷H0不成立;否則就判斷不成立;否則就判斷H0成立成立. 6.635k (6.635)0.01P k 獨(dú)立性檢驗(yàn)的基本思想:獨(dú)立性檢驗(yàn)的基本思想: 類似于數(shù)學(xué)上的反證法,對(duì)類似于數(shù)學(xué)上的反證法,對(duì)“兩個(gè)分類變量有關(guān)系兩個(gè)分類變量有關(guān)系” 這一結(jié)論成立的可信程度的判斷:這一結(jié)論成立的可信程度的判斷: (1 1)假設(shè)該結(jié)論不成立,即假設(shè)結(jié)論)假設(shè)該結(jié)
12、論不成立,即假設(shè)結(jié)論“兩個(gè)分類變量?jī)蓚€(gè)分類變量 沒有關(guān)系沒有關(guān)系”成立成立. . (2 2)在假設(shè)條件下,計(jì)算構(gòu)造的隨機(jī)變量)在假設(shè)條件下,計(jì)算構(gòu)造的隨機(jī)變量K K2 2,如果由,如果由 觀測(cè)數(shù)據(jù)計(jì)算得到的觀測(cè)數(shù)據(jù)計(jì)算得到的K K2 2很大,則在一定程度上說明假很大,則在一定程度上說明假 設(shè)不合理設(shè)不合理. . (3 3)根據(jù)隨機(jī)變量)根據(jù)隨機(jī)變量K K2 2的含義,可以通過(的含義,可以通過(2 2)式評(píng)價(jià)假)式評(píng)價(jià)假 設(shè)不合理的程度,由實(shí)際計(jì)算出的設(shè)不合理的程度,由實(shí)際計(jì)算出的k6.635k6.635,說明假設(shè),說明假設(shè) 不合理的程度約為不合理的程度約為99%99%,即,即“兩個(gè)分類有關(guān)系
13、兩個(gè)分類有關(guān)系”這一結(jié)這一結(jié) 論成立的可信程度約為論成立的可信程度約為99%.99%. y y1 1y y2 2總計(jì)總計(jì) x x1 1a ab ba+ba+b x x2 2c cd dc+dc+d 總計(jì)總計(jì)a+ca+cb+db+da+b+c+da+b+c+d 一般地,假設(shè)有兩個(gè)分類變量一般地,假設(shè)有兩個(gè)分類變量X X和和Y Y,它們的可能取值,它們的可能取值 分別為分別為xx1 1,x,x2 2 和和yy1 1,y,y2 2,其樣本頻數(shù)列聯(lián)表(稱為其樣本頻數(shù)列聯(lián)表(稱為 2x22x2列聯(lián)表)為:列聯(lián)表)為: 利用獨(dú)立性檢驗(yàn)來考察兩個(gè)分類變量是否有關(guān)系,能利用獨(dú)立性檢驗(yàn)來考察兩個(gè)分類變量是否有關(guān)
14、系,能 較精確地給出這種判斷的可靠程度較精確地給出這種判斷的可靠程度. . 具體作法是:具體作法是: (1 1)根據(jù)實(shí)際問題需要的可信程度確定臨界值)根據(jù)實(shí)際問題需要的可信程度確定臨界值k k0 0; (2)由觀測(cè)數(shù)據(jù)計(jì)算得到隨機(jī)變量)由觀測(cè)數(shù)據(jù)計(jì)算得到隨機(jī)變量K2的觀測(cè)值的觀測(cè)值k; (3)如果)如果k6.635,就以,就以 1-P(K26.635)100%的的 把握認(rèn)為把握認(rèn)為“X與與Y有關(guān)系有關(guān)系”;否則就說樣本觀測(cè)數(shù)據(jù)沒;否則就說樣本觀測(cè)數(shù)據(jù)沒 有提供有提供“X與與Y有關(guān)系有關(guān)系”的充分證據(jù)的充分證據(jù). 10.8287.8796.6355.0243.8412.7062.0721.323
15、0.7080.445 k 0.0010.0050.0100.0250.050.100.150.50.400.50 2 ()P Kk (1 1)如果)如果k10.828k10.828,就有,就有99.9%99.9%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”; (2 2)如果)如果k7.879k7.879,就有,就有99.5%99.5%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”; (3 3)如果)如果k6.635k6.635,就有,就有99%99%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”; (4 4)如果)如果k5.024k5.024,就有,就有97.5%97.5%
16、的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”; (5 5)如果)如果k3.841k3.841,就有,就有95%95%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”; (6 6)如果)如果k2.706k2.706,就有,就有90%90%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”; (7 7)如果)如果k=2.706k=2.706,就認(rèn)為沒有充分的證據(jù)顯示,就認(rèn)為沒有充分的證據(jù)顯示 “ “X X與與Y Y有關(guān)系有關(guān)系”. . 臨界值臨界值 例例1 在某醫(yī)院,因?yàn)榛夹呐K病而住院的在某醫(yī)院,因?yàn)榛夹呐K病而住院的665名男名男 性病人中,有性病人中,有214人禿頂;而另外人禿頂;
17、而另外772名不是因名不是因 為患心臟病而住院的男性病人中有為患心臟病而住院的男性病人中有175人禿頂。人禿頂。 分別利用圖形和獨(dú)立性檢驗(yàn)方法判斷禿頂與患分別利用圖形和獨(dú)立性檢驗(yàn)方法判斷禿頂與患 心臟病是否有關(guān)系?你所得的結(jié)論在什么范圍心臟病是否有關(guān)系?你所得的結(jié)論在什么范圍 內(nèi)有效??jī)?nèi)有效? 禿頭禿頭 不禿頭不禿頭 解:根據(jù)題目所給數(shù)據(jù)得到如下列聯(lián)表1-13: 患心臟病患心臟病 不患心臟不患心臟 病病 總計(jì)總計(jì) 禿頂禿頂214175389 不禿頂不禿頂4515971048 總計(jì)總計(jì)6657721437 根據(jù)聯(lián)表根據(jù)聯(lián)表1-13中的數(shù)據(jù),得到中的數(shù)據(jù),得到 2 2 1437 (214 597
18、175 451) 16.3736.635. 389 1048 665 772 K 所以有所以有99%的把握認(rèn)為的把握認(rèn)為“禿頂患心臟病有禿頂患心臟病有 關(guān)關(guān)”。 因?yàn)檫@組數(shù) 據(jù)來自住院 的病人,因 此所得到的 結(jié)論適合住 院的病人群 體 例例2 為考察高中生的性別與是否喜歡數(shù)學(xué)課程之為考察高中生的性別與是否喜歡數(shù)學(xué)課程之 間的關(guān)系,在某城市的某校高中生中隨機(jī)抽取間的關(guān)系,在某城市的某校高中生中隨機(jī)抽取300 名學(xué)生,得到如下聯(lián)表:名學(xué)生,得到如下聯(lián)表: 喜歡數(shù)學(xué)課喜歡數(shù)學(xué)課 程程 不喜歡數(shù)學(xué)不喜歡數(shù)學(xué) 課程課程 總計(jì)總計(jì) 男男3785122 女女35143178 總計(jì)總計(jì)72228300 由表中數(shù)據(jù)計(jì)算由表中數(shù)據(jù)計(jì)算K2的觀測(cè)值的觀測(cè)值k4.513。在。在 多大程度上可以認(rèn)為高中生的性別與是否喜多大程度上可以認(rèn)為高中生的性別與是否喜 歡數(shù)學(xué)課程之間有關(guān)系?為什么?歡數(shù)學(xué)課程之間有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 加油站職業(yè)衛(wèi)生管理制度20847
- 如何組織課堂教學(xué)
- 方案1-綠化養(yǎng)護(hù)費(fèi)用計(jì)算清單
- 六年級(jí)體育上冊(cè) 人體的溫度教學(xué)實(shí)錄
- 軟件開發(fā)合同范本
- 觸電應(yīng)急預(yù)案
- 建設(shè)單位現(xiàn)場(chǎng)管理制度
- 公司管理制度大全完整版
- 貸款合同范本
- 餐飲行業(yè)員工勞動(dòng)合同
- 2025年單招文化測(cè)試題及答案
- 2025年成都市高三語文第二次診斷檢測(cè)試卷附答案解析
- 2024年山東省煙草專賣局招聘考試真題
- 2025年上半年市場(chǎng)監(jiān)管總局直屬事業(yè)單位公開招聘57人重點(diǎn)基礎(chǔ)提升(共500題)附帶答案詳解-1
- 北京大學(xué)- DeepSeek如何提示詞工程和落地場(chǎng)景分析
- 2024-2025學(xué)年湖北省武漢市武漢市江岸區(qū)高三上學(xué)期元月調(diào)考語文試卷
- 指揮中心弱電工程技術(shù)方案
- LY/T 3402-2024區(qū)域沙化土地分級(jí)規(guī)范
- DB32T3377-2018城市公共建筑人防工程規(guī)劃設(shè)計(jì)規(guī)范
- 攝影公司安全生產(chǎn)培訓(xùn)
- 室外小型噴泉施工方案
評(píng)論
0/150
提交評(píng)論