第五講卡方檢驗_第1頁
第五講卡方檢驗_第2頁
第五講卡方檢驗_第3頁
第五講卡方檢驗_第4頁
第五講卡方檢驗_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、6/23/20211 第五講第五講 卡方檢驗卡方檢驗 周周 虹虹 公共衛(wèi)生學院婦女與兒童青少年衛(wèi)生學系公共衛(wèi)生學院婦女與兒童青少年衛(wèi)生學系 6/23/20212 基本內(nèi)容基本內(nèi)容 統(tǒng)計描述統(tǒng)計描述統(tǒng)計推斷統(tǒng)計推斷(1)統(tǒng)計推斷統(tǒng)計推斷(2) 數(shù)值變量數(shù)值變量 頻數(shù)分布頻數(shù)分布 集中趨勢集中趨勢 離散趨勢離散趨勢 統(tǒng)計圖表統(tǒng)計圖表 抽樣誤差抽樣誤差 標準誤標準誤 均數(shù)可信區(qū)間均數(shù)可信區(qū)間 t Z F檢驗檢驗 秩和檢驗秩和檢驗 直線相關(guān)與回歸直線相關(guān)與回歸 偏相關(guān)偏相關(guān) 多元線性回歸多元線性回歸 因子分析因子分析 分類變量分類變量相對數(shù)相對數(shù) (率、比率、比) 率的可信區(qū)間率的可信區(qū)間 2檢驗檢驗

2、 Logistic回歸回歸 主要內(nèi)容主要內(nèi)容 一、分類變量概述一、分類變量概述 二、分類變量的統(tǒng)計描述二、分類變量的統(tǒng)計描述 相對數(shù)相對數(shù) 應(yīng)用相對數(shù)的注意事項應(yīng)用相對數(shù)的注意事項 動態(tài)數(shù)列動態(tài)數(shù)列 率的標準化率的標準化 三、分類變量的統(tǒng)計推斷三、分類變量的統(tǒng)計推斷 率的標準誤和可信區(qū)間率的標準誤和可信區(qū)間 2 2檢驗檢驗 6/23/20214 x2檢驗檢驗(Chi-square test) 是一種假設(shè)檢驗方法是一種假設(shè)檢驗方法 與其他假設(shè)檢驗的原理相同與其他假設(shè)檢驗的原理相同 統(tǒng)計量服從統(tǒng)計量服從 x2分布分布 (一)成組設(shè)計四格表資料的(一)成組設(shè)計四格表資料的 x2 檢驗檢驗 (二)配對

3、設(shè)計四格表資料的(二)配對設(shè)計四格表資料的 x2 檢驗檢驗 (三)行(三)行x列表列表 x2 檢驗檢驗 (四)趨勢(四)趨勢 x2 檢驗檢驗 6/23/20215 什么是成組設(shè)計四格表資料?什么是成組設(shè)計四格表資料? 兩個獨立樣本的率或構(gòu)成比資料兩個獨立樣本的率或構(gòu)成比資料 例例1:某醫(yī)生想觀察一種新藥對流感的預防效果,進行:某醫(yī)生想觀察一種新藥對流感的預防效果,進行 了如下的研究,問此藥是否有效?了如下的研究,問此藥是否有效? (一)成組設(shè)計四格表資料的(一)成組設(shè)計四格表資料的2檢驗檢驗 6/23/20216 組 別陽 性陰 性合計 1aba+b 2cdc+d 合計 a+cb+da+b+c

4、+d 四格表的一般形式四格表的一般形式 理論頻數(shù)理論頻數(shù)E計算公式為:計算公式為: NR: :所在的行合計, 所在的行合計,NC: :所在的列合計 所在的列合計 n nn E CR RC SPSS練習練習 加權(quán)數(shù)據(jù)庫的建立:加權(quán)數(shù)據(jù)庫的建立: 1. 分類變量進行樣本率的比較時,如分類變量進行樣本率的比較時,如 果沒有原始數(shù)據(jù)庫,只有每種分類果沒有原始數(shù)據(jù)庫,只有每種分類 變量的樣本數(shù)和某現(xiàn)象的陽性數(shù),變量的樣本數(shù)和某現(xiàn)象的陽性數(shù), 可在可在SPSS軟件中建立數(shù)據(jù)庫;軟件中建立數(shù)據(jù)庫; 8 用加權(quán)變量的方法建立數(shù)據(jù)庫用加權(quán)變量的方法建立數(shù)據(jù)庫 甲組乙組 陽性aba+b 陰性cdc+d a+cb+

5、dN +/-組cases +甲甲a +乙乙b -甲甲c -乙乙d +/-組 11a 12b 21c 22d SPSS程序:程序:Data Weight Cases Weight cases by 選入選入 Frequency variable OK 9 組+/- 11a 12b 21c 22d 甲法乙法 11a 12b 21c 22d 10 2. 數(shù)據(jù)處理:數(shù)據(jù)處理:Data-Weight Cases 3. 并進行樣本率的比較。并進行樣本率的比較。 練習:練習: 實習六中練習實習六中練習6.1和和6.2數(shù)據(jù)建立數(shù)據(jù)庫。數(shù)據(jù)建立數(shù)據(jù)庫。 6/23/202111 實際頻數(shù)(實際頻數(shù)(O, obse

6、rved)和理論頻數(shù))和理論頻數(shù)(E, expected) 實際頻數(shù)實際頻數(shù)是指調(diào)查或?qū)嶒灥脕淼臄?shù)值,在例是指調(diào)查或?qū)嶒灥脕淼臄?shù)值,在例1中,四中,四 格表中的四個基本數(shù)據(jù)都是實際頻數(shù)。格表中的四個基本數(shù)據(jù)都是實際頻數(shù)。 理論頻數(shù)理論頻數(shù)是根據(jù)假設(shè)檢驗來確定的。也就是是根據(jù)假設(shè)檢驗來確定的。也就是H0成立成立 時,計算出的格子中的數(shù)。本題中假設(shè)實驗組和對照組時,計算出的格子中的數(shù)。本題中假設(shè)實驗組和對照組 發(fā)病率相同,這樣可以算出總的患病率發(fā)病率相同,這樣可以算出總的患病率: 那么那么: 實驗組的理論發(fā)病人數(shù)為實驗組的理論發(fā)病人數(shù)為 對照組的理論發(fā)病人數(shù)為對照組的理論發(fā)病人數(shù)為 因此,四個格子

7、的理論頻數(shù)為:因此,四個格子的理論頻數(shù)為: %100 220 44 220 44 100 220 44 120 2080 2496 1. x2 檢驗的基本思想檢驗的基本思想 1486 3090 6/23/202112 x2檢驗的基本公式:檢驗的基本公式: O:表示實際頻數(shù),即實際觀察到的例數(shù)。:表示實際頻數(shù),即實際觀察到的例數(shù)。 E:理論頻數(shù),即如果假設(shè)檢驗成立,應(yīng)該:理論頻數(shù),即如果假設(shè)檢驗成立,應(yīng)該 觀察到的例數(shù)。觀察到的例數(shù)。 :求和符號,所有格子的值之和:求和符號,所有格子的值之和 自由度:自由度: =(R-1)x(C-1) R行數(shù),行數(shù), C列數(shù)列數(shù) 注意:注意: 反映的反映的格子數(shù)

8、,而不是例數(shù)。格子數(shù),而不是例數(shù)。 E EO 2 2 6/23/202113 2檢驗假設(shè)兩組率相同,檢驗假設(shè)兩組率相同, (O-E)2/E 應(yīng)該很小。應(yīng)該很小。 如果實際頻數(shù)和理論頻數(shù)相差的很大,如果實際頻數(shù)和理論頻數(shù)相差的很大,2值也越大。值也越大。 當當2值比規(guī)定的界值還大時,被認為是小概率事件,值比規(guī)定的界值還大時,被認為是小概率事件, 就拒絕就拒絕H0,認為兩組率不相同。,認為兩組率不相同。 因為因為2值是對每個格子的值是對每個格子的(O-E)2/E求和,所以格子求和,所以格子 數(shù)越多,數(shù)越多,2值也越大。即使值也越大。即使O和和E相差很小,如果格相差很小,如果格 子數(shù)多的話,總和也會

9、很大。這就引出了子數(shù)多的話,總和也會很大。這就引出了自由度自由度的的 概念,用以消除不同格子數(shù)的影響。概念,用以消除不同格子數(shù)的影響。 x2檢驗的原理:檢驗的原理: E EO 2 2 6/23/202114 2分布規(guī)律:分布規(guī)律: 2分布的圖形是不對稱的,而且只有正值。分布的圖形是不對稱的,而且只有正值。 其形狀和自由度有關(guān),自由度越大,則圖形右移。其形狀和自由度有關(guān),自由度越大,則圖形右移。 隨著自由度的增加,分布的偏斜程度趨于緩解,逐隨著自由度的增加,分布的偏斜程度趨于緩解,逐 漸顯露出對稱性。漸顯露出對稱性。 隨著自由度的繼續(xù)增大,隨著自由度的繼續(xù)增大,2分布將趨近于對稱的正分布將趨近于

10、對稱的正 態(tài)分布。態(tài)分布。 6/23/202115 6/23/202116 自由度一定時,自由度一定時,P值越小,值越小, x2值越大,反比關(guān)系。值越大,反比關(guān)系。 =1時,時, P=0.05, x2 =3.84 P=0.01, x2 =6.63 當當P 值一定時,自由度越大,值一定時,自由度越大, x2越大。越大。 P=0.05時,時, =1, x2 =3.84 =2, x2 =5.99 6/23/202117 2成組四格表的專用公式成組四格表的專用公式 該公式從該公式從x2基本公式推導而來,計算較為簡單,結(jié)果相同?;竟酵茖Ф鴣?,計算較為簡單,結(jié)果相同。 cadcdbba nbcad 2

11、 2 ab cd 6/23/202118 3成組四格表成組四格表2檢驗計算公式的適用條件檢驗計算公式的適用條件 (1)當實驗對象總個數(shù)當實驗對象總個數(shù)n40,且所有格子的理論頻數(shù),且所有格子的理論頻數(shù)E5時,時, 可用可用2檢驗基本公式或?qū)S霉接嬎銠z驗基本公式或?qū)S霉接嬎?值。值。 (2)當當n40,但有任一格子的理論頻數(shù),但有任一格子的理論頻數(shù)E僅滿足僅滿足1E40,所有格子,所有格子E5,所以不用校正:,所以不用校正:2 =4.125 確定確定p值值 p=0.0420.05。 判斷結(jié)果:判斷結(jié)果: 因為因為p40時時, 或 當當b+c40時,用校正公式:時,用校正公式: 或 cb cb

12、 x 2 2 )( cb cb x 2 2 ) 1|(| E EO 2 2 5 . 0 E EO 2 2 6/23/202130 配對四格表配對四格表 2檢驗的檢驗的SPSS計算程序計算程序 ANALYZEnonparametric test2 related samplestest pairsMcnemar 甲培養(yǎng)基 & 乙培養(yǎng)基甲培養(yǎng)基 & 乙培養(yǎng)基 3710 1927 甲培養(yǎng)基 1 2 12 乙培養(yǎng)基 T Te es st t S St ta at ti is st ti ic cs s b b 93 2.207 .137 N Chi-Square a Asymp. Sig. 甲培養(yǎng)基

13、& 乙培養(yǎng)基 Continuity Corrected a. McNemar Test b. 6/23/202131 例例3:檢驗步驟:檢驗步驟 第一步:建立假設(shè)第一步:建立假設(shè) H0 : B=C=b+c/2 H1 : BC 第二步:確定顯著性水平第二步:確定顯著性水平 =0.05 第三步:計算統(tǒng)計量第三步:計算統(tǒng)計量: b+c 40時,時, 校正公式:校正公式: x2 = (|O-E|-0.5)2/E 或或 x2 =( lb-cl-1)2/ b+c 自由度:自由度: =(2-1) x (2-1)=1 第四步:確定第四步:確定P值值 第五步:判斷結(jié)果第五步:判斷結(jié)果 6/23/202132 (

14、三)行(三)行x列表列表 x2 檢驗檢驗 四格表是指只有四格表是指只有2 2行行2 2列,當行數(shù)或列數(shù)超過列,當行數(shù)或列數(shù)超過2 2時,統(tǒng)時,統(tǒng) 稱為行稱為行x列表。列表。 行行x列表列表 x2 檢驗是對多個樣本率(或構(gòu)成比)的檢檢驗是對多個樣本率(或構(gòu)成比)的檢 驗。驗。 基本公式:基本公式:x x2 2 = = (O-EO-E)2 2/E/E 專用公式:專用公式: 自由度:自由度: = =(R-1R-1)x x(C-1C-1) 適用條件:表中適用條件:表中不宜有不宜有1/51/5以上格子的理論頻數(shù)小于以上格子的理論頻數(shù)小于5 5, 或有一個格子的理論頻數(shù)小于或有一個格子的理論頻數(shù)小于1 1

15、。 1 2 2 CR nn O n 6/23/202133 例例4.4.為了解花生黃曲霉素污染,隨機觀察了為了解花生黃曲霉素污染,隨機觀察了 三個地區(qū),結(jié)果見下表。試問這三個地區(qū)三個地區(qū),結(jié)果見下表。試問這三個地區(qū) 花生的黃曲霉素污染率是否不同?花生的黃曲霉素污染率是否不同? 三個地區(qū)花生的黃曲霉素污染情況三個地區(qū)花生的黃曲霉素污染情況 調(diào)查地區(qū)調(diào)查地區(qū) 受檢樣品受檢樣品 合計合計 污染率污染率 ()() 未污染未污染污染污染 甲甲 6232979.3 乙乙30144431.8 丙丙 8 31127.3 合計合計44408447.6 6/23/202134 地區(qū) * 是否受到了黃曲霉毒素的污染

16、 Crosstabulation地區(qū) * 是否受到了黃曲霉毒素的污染 Crosstabulation Count 62329 301444 8311 444084 1 2 3 地區(qū) Total 未污染污染了 是否受到了黃曲霉毒 素的污染 Total C Ch hi i- -S Sq qu ua ar re e T Te es st ts s 17.907a2.000 18.7552.000 14.3151.000 84 Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Valued

17、f Asymp. Sig. (2-sided) 0 cells (.0%) have expected count less than 5. The minimum expected count is 5.24. a. 6/23/202135 初次分娩時的年齡初次分娩時的年齡 疾病狀態(tài)疾病狀態(tài) 2020242529303435總計總計 乳腺癌乳腺癌 320120610114632203220 對照組對照組 142244322893109340610246 總總 計計 174256383904155662613466 乳腺癌乳腺癌% 0.1840.2140.2590.2980.3510.239

18、例例5. 5. 初次分娩年齡與乳腺癌的關(guān)聯(lián)性初次分娩年齡與乳腺癌的關(guān)聯(lián)性 6/23/202136 Chi-Square Tests 130.172a4.000 127.2254.000 128.8291.000 13466 Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Valuedf Asymp. Sig. (2-sided) 0 cells (.0%) have expected count less than 5. The minimum expected count is

19、 149.69. a. 6/23/202137 H0:乳腺癌患者與非患者的初次分娩年齡構(gòu)成相同:乳腺癌患者與非患者的初次分娩年齡構(gòu)成相同 (初次分娩時的年齡與乳腺癌無關(guān))(初次分娩時的年齡與乳腺癌無關(guān)) H1:乳腺癌患者與非患者的初次分娩年齡構(gòu)成不同:乳腺癌患者與非患者的初次分娩年齡構(gòu)成不同 (初次分娩時的年齡與乳腺癌有關(guān))(初次分娩時的年齡與乳腺癌有關(guān)) =0.05 自由度自由度=(R-1)(C-1)=(2-1)()(5-1)=4 2 0.01,4=13.28, 2 =130.213.28,p0.01 所以拒絕檢驗假設(shè)所以拒絕檢驗假設(shè)H0,接受,接受H1,認為初次分娩時,認為初次分娩時 的年

20、齡與乳腺癌的發(fā)生有關(guān)聯(lián)。的年齡與乳腺癌的發(fā)生有關(guān)聯(lián)。 6/23/202138 行行列表列表2檢驗下結(jié)論時應(yīng)注意:檢驗下結(jié)論時應(yīng)注意: 1. 三組(或三組以上)樣本率經(jīng)三組(或三組以上)樣本率經(jīng)2檢驗,差異檢驗,差異 有顯著性,只說明三組比例數(shù)不同或不全相同,有顯著性,只說明三組比例數(shù)不同或不全相同, 不能確定是哪兩個比例數(shù)不同。不能確定是哪兩個比例數(shù)不同。 6/23/202139 2行行列表列表2檢驗時,如果有一個格檢驗時,如果有一個格 子的理論數(shù)小于子的理論數(shù)小于1,或者有,或者有1/5以上的格以上的格 子的理論數(shù)小于子的理論數(shù)小于5,可以將理論數(shù)小于,可以將理論數(shù)小于5 的組別與相鄰的組合

21、并,再進行的組別與相鄰的組合并,再進行2檢驗,檢驗, 否則會得到錯誤結(jié)果否則會得到錯誤結(jié)果 解決辦法解決辦法 2分割法分割法 6/23/202140 例例4.4.為了解花生黃曲霉素污染,隨機觀察了為了解花生黃曲霉素污染,隨機觀察了 三個地區(qū),結(jié)果見下表。試問這三個地區(qū)三個地區(qū),結(jié)果見下表。試問這三個地區(qū) 花生的黃曲霉素污染率是否不同?花生的黃曲霉素污染率是否不同? 三個地區(qū)花生的黃曲霉素污染情況三個地區(qū)花生的黃曲霉素污染情況 調(diào)查地區(qū)調(diào)查地區(qū) 受檢樣品受檢樣品 合計合計 污染率污染率 ()() 未污染未污染污染污染 甲甲 6232979.3 乙乙30144431.8 丙丙 8 31127.3

22、合計合計44408447.6 6/23/202141 地區(qū) * 是否受到了黃曲霉毒素的污染 Crosstabulation地區(qū) * 是否受到了黃曲霉毒素的污染 Crosstabulation Count 62329 301444 8311 444084 1 2 3 地區(qū) Total 未污染污染了 是否受到了黃曲霉毒 素的污染 Total C Ch hi i- -S Sq qu ua ar re e T Te es st ts s 17.907a2.000 18.7552.000 14.3151.000 84 Pearson Chi-Square Likelihood Ratio Linear-

23、by-Linear Association N of Valid Cases Valuedf Asymp. Sig. (2-sided) 0 cells (.0%) have expected count less than 5. The minimum expected count is 5.24. a. 6/23/202142 比較比較地區(qū)地區(qū) 未污未污 染數(shù)染數(shù)污染數(shù)污染數(shù)合計合計 污染率污染率 (% )2值值P 1 乙乙30144431.8 0.090.05 丙丙 8 31127.3 合計合計381755 2 乙乙+丙丙38175530.9 17.830.05 甲甲6232979.3

24、2分割計算表分割計算表 6/23/202143 初次分娩時的年齡初次分娩時的年齡 疾病狀態(tài)疾病狀態(tài) 2020242529303435總計總計 乳腺癌乳腺癌 320120610114632203220 對照組對照組 142244322893109340610246 總總 計計 174256383904155662613466 乳腺癌乳腺癌% 0.1840.2140.2590.2980.3510.239 例例5. 5. 初次分娩年齡與乳腺癌的關(guān)聯(lián)性初次分娩年齡與乳腺癌的關(guān)聯(lián)性 (四)趨勢(四)趨勢x2檢驗檢驗 6/23/202144 Chi-Square Tests 130.172a4.000 1

25、27.2254.000 128.8291.000 13466 Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Valuedf Asymp. Sig. (2-sided) 0 cells (.0%) have expected count less than 5. The minimum expected count is 149.69. a. 6/23/202145 例例5: 行行x列表列表x2檢驗結(jié)論是,檢驗結(jié)論是,5個年齡組中至少個年齡組中至少 有有2個年齡組的乳腺癌的構(gòu)成不

26、同。個年齡組的乳腺癌的構(gòu)成不同。 進一步進一步關(guān)聯(lián)的性質(zhì)關(guān)聯(lián)的性質(zhì)? (趨勢(趨勢2檢驗檢驗) 當某因素是按自然順序的等級分層或者在連續(xù)當某因素是按自然順序的等級分層或者在連續(xù) 性資料等級化后再分層的情況下,可采用趨勢性資料等級化后再分層的情況下,可采用趨勢2 檢驗以分析比例是否隨分層等級而變化的趨勢檢驗以分析比例是否隨分層等級而變化的趨勢 。 6/23/202146 iii nxP/ 步驟:步驟: 假設(shè)共有假設(shè)共有k組,當組號組,當組號i增加時,對應(yīng)的增加時,對應(yīng)的Pi是是 否有增加(或減少)的傾向性。否有增加(或減少)的傾向性。 nxP/ 對應(yīng)于第對應(yīng)于第i組構(gòu)建一個記分變量組構(gòu)建一個記分變量Si:k個組的記個組的記

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論