




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1 第十六章第十六章 logistic logistic回歸分析回歸分析 (logistic regression) (logistic regression)授課老師:曾小敏公共衛(wèi)生學院 衛(wèi)生統(tǒng)計學教研室2例16-1 表16-1是一個研究吸煙、飲酒與食道癌關系的病例對照資料,試作logistic回歸分析。 121 0 1 0 1 0 XXY吸煙不吸煙飲酒不飲酒病例對照確確定定各各變變量量編編碼碼 復習復習“多元線性回歸分析多元線性回歸分析”3表表16-1 吸煙與食道癌關系的病例對照調查資料吸煙與食道癌關系的病例對照調查資料(n=886) Y分層吸煙飲酒觀察例數(shù)陽性數(shù)陰性數(shù)gX1X2ngdgn
2、g dg10019963136201170631073101014457411416265151注:陽性數(shù),陽性結果人數(shù)4目的:作出以多個自變量目的:作出以多個自變量X(危險因素)估(危險因素)估計應變量計應變量Y(結果因素)的(結果因素)的logistic回歸回歸方程。屬于概率型非線性回歸。方程。屬于概率型非線性回歸。資料:資料:1. 應變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值應變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值變量;變量;2. 自變量宜全部或大部分為分類變量,可有自變量宜全部或大部分為分類變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量化。少數(shù)數(shù)值變量。分類變量要數(shù)量化。5用途:研究某種疾病或現(xiàn)象發(fā)生和多
3、個危用途:研究某種疾病或現(xiàn)象發(fā)生和多個危 險因素(或保護因子)的數(shù)量關系。險因素(或保護因子)的數(shù)量關系。 用用 檢驗(或檢驗(或u檢驗)的局限性:檢驗)的局限性: 1.只能研究只能研究1個危險因素;個危險因素; 2.只能得出定性結論。只能得出定性結論。26 種類種類: 1. 成組(非條件)成組(非條件)logistic回歸方程。回歸方程。 2. 配對(條件)配對(條件)logistic回歸方程。回歸方程。7講述內容講述內容: :第一節(jié)第一節(jié) logistic logistic回歸回歸第二節(jié)第二節(jié) 條件條件logisticlogistic回歸回歸第三節(jié)第三節(jié) logistic logistic
4、回歸的應用回歸的應用 及其注意事項及其注意事項8第一節(jié)第一節(jié) logistic logistic回回歸歸 (非條件(非條件logisticlogistic回回歸歸 )9 一、基本概念一、基本概念1 0 Y發(fā)生應變量未發(fā)生12,mXXX自變量,在m個自變量的作用下陽性結果發(fā)生的概率記作:),| 1(21mXXXYPP1P011ZPe若令若令: mmXXXZ221100112211exp ()mmPXXX其中0為常數(shù)項, m,21為回歸系數(shù)。 P與各與各X之間不呈線性關系之間不呈線性關系,而可用下式描述而可用下式描述:1111ZPemmXXXZ22110其中0為常數(shù)項, m,21為回歸系數(shù)。 Z
5、與與P之間關系的之間關系的logistic曲線:曲線:當當Z+時,時,P值漸近于值漸近于1;當當Z值值-時,時, P值漸近于值漸近于0;P值的變化在值的變化在01范圍之內,并且隨范圍之內,并且隨Z值的增加或減少以點(值的增加或減少以點(0,0.5)為)為中心呈對稱中心呈對稱S形變化。形變化。很多生物學反反應資料的變化特點ZZZeeeP111-1-1Q陰性率,111111)(ZZZZZZeeeeeePP優(yōu)勢:ZePPZln)1(lnZZZZZeePePePPeP1)1 (mmXXXZ22110ZPPeePPPPZ)()(1lnlog11冪(e 的Z次冪)底:e指數(shù):Z對數(shù)對數(shù)Z :以:以e 為底
6、的為底的 的對數(shù),即的對數(shù),即 的自然的自然對數(shù)。對數(shù)。PP1PP113模模型型參參數(shù)數(shù)的的意意義義常數(shù)項常數(shù)項 表示暴露劑量為表示暴露劑量為0時個體發(fā)病與不發(fā)病概率時個體發(fā)病與不發(fā)病概率之比的自然對數(shù)。之比的自然對數(shù)。(當死亡概率很低時當死亡概率很低時,即即P 0,1-P1)(偏偏)回歸系數(shù)回歸系數(shù) 表示其他變量取固定值時表示其他變量取固定值時,自變量自變量 改變一個單位時改變一個單位時logitP 的改變量。的改變量。0), 2 , 1(mjjjX01122ln=1mmPXXXPlogitP 取值范圍:取值范圍: logitPZePPZln)1(ln11ZPe若令若令 mmXXXZ2211
7、001122ln=1mmPXXXP0112211 exp ()mmPXXX回回歸歸模模型型其中0為常數(shù)項, m,21為回歸系數(shù)。 概率概率P:01,logitP:。 取值范圍:取值范圍: logitPLogit轉換15流行病學衡量危險因素作用大小的比數(shù)比例指標。流行病學衡量危險因素作用大小的比數(shù)比例指標。計算公式為:計算公式為:1100/(1)/(1)jPPORPP優(yōu)勢比優(yōu)勢比OR(odds ratio)式中式中1P和和0P分別表示在分別表示在jX取值為取值為1c及及0c時時的發(fā)病概率,的發(fā)病概率,jOR稱作多變量調整后的稱作多變量調整后的優(yōu)勢比優(yōu)勢比,表示扣除了其表示扣除了其他他自變量影響后
8、危險因素的作用。自變量影響后危險因素的作用。 111000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc對比某一危險因素對比某一危險因素兩個不同暴露水平兩個不同暴露水平1cXj與與0cXj的發(fā)病情況的發(fā)病情況(假定其它因素的水平相同,即保持不變假定其它因素的水平相同,即保持不變) ,其) ,其優(yōu)勢比優(yōu)勢比的自然對數(shù)為的自然對數(shù)為: 與與 logit P 的關系:的關系:01122ln=1mmPXXXPlogitP)(01ccjeOR111000010010/(1)lnlnlogitlogit/(1)()()()jmm
9、jttjtttjtjjPPORPPPPcXcXccjjeeORcc )()(011當某一因素有多個水平時(假定為當某一因素有多個水平時(假定為3 3個等級水平,從低等級開始定義為個等級水平,從低等級開始定義為0 0、1 1、2 2):):22022)()()(jjjeeeORcc180, 1 exp, 0, 1 0, 1 jjjjjjOROROROR無作用危險因保子護因子則有101 , 1, 0 jccX暴非若暴露露由于jOR值與模型中的常數(shù)項0無關,0在危險因素分析中通常視其為無效參數(shù)。 1100/(1) 1, /(1)PPPORRRPP當則有10 exp()jjORcc即),(ln01cc
10、ORj)exp(j即:jeORj19 11(1)iinYYiiiLPP 1lnln(1)ln(1)niiiiiLYPYP 二、logistic回歸模型的參數(shù)估計 1. 參數(shù)估計參數(shù)估計原理:最大似然原理:最大似然( likelihood )估計估計 iP表示第 i 例觀察對 象在暴露條 件下陽性結果發(fā)生的概率,如果實際出現(xiàn)的是陽性結果,取1iY,否則取0iY。根據(jù)最大似然原理,在一次抽樣中獲得現(xiàn)有樣本的概率應該最大,即似然函數(shù) L 應該達到最大值。 簡化計算,通常取似然函數(shù)的對數(shù)形式 求積的符號20 11(1)iinYYiiiLPP 1lnln(1)ln(1)niiiiiLYPYP mbbbb
11、,210 采用 Newton-Raphson 迭代方法使對數(shù)似然函數(shù)達到極大值,此時參數(shù)的取值mbbbb,210即為m,210的最大似然估計值 mmXXXZPPPP.)1ln(ln)1ln(22110ZZZZZeePePePPeP1)1 (mmXXXZ2211021 )(exp01ccbROjj若自變量jX只有暴露和非暴露兩個水平, 則優(yōu)勢比jOR的1可信區(qū)間估計公式為 )exp(2/jbjSub 2. 優(yōu)勢比估計 可反映某一因素兩個不同水平(c1,c0)的優(yōu)勢比。22例16-1 表16-1是一個研究吸煙、飲酒與食道癌關系的病例對照資料,試作logistic回歸分析。 121 0 1 0 1
12、0 XXY吸煙不吸煙飲酒不飲酒病例對照確確定定各各變變量量編編碼碼 23分層 吸煙 飲酒 觀察例數(shù) 陽性數(shù) 陰性數(shù) g X1 X2 ng dg ng dg 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 表表16-1 吸煙與食道癌關系的病例對照調查資料吸煙與食道癌關系的病例對照調查資料(n=886) 分層資料24=0.1572 吸煙與不吸煙的優(yōu)勢比:11expexp0.8856=2.42ORb 經logistic回歸計算后得:0b=-0.9099,0bS=0.1358;1b=0.8856, 1bS=0.15
13、00;2b=0.5261,2bS=0.1572 吸煙與不吸煙的優(yōu)勢比:1OR的 95可信區(qū)間: 110.05/2expexp(0.88561.960.1500)(1.81,3.25)bbuS 飲酒與不飲酒的優(yōu)勢比: 飲酒與不飲酒的優(yōu)勢比: 飲酒與不飲酒的優(yōu)勢比: 22expexp0.52611.69ORb 22exp(1.96)exp(0.5261 1.96 0.1572)(1.24,2.30)bbS2OR的95可信區(qū)間: 25 三、logistic回歸模型的假設檢驗 1.似然比檢驗基本思想: 比較在兩種不同假設條件下的對數(shù)似然函數(shù)值,看其差別的大小。261.似然比檢驗:比較在兩種不同假設條件
14、下的對數(shù)似然函數(shù)值,看其差別大小。 具體作法:先擬合一個不包含準備檢驗的變量在內的 logistic 回歸模型,求出它的對數(shù)似然函數(shù)值 lnL0 ,然后把需要檢驗的變量加入模型中去再進行配合,得到一個新的對數(shù)似然函數(shù)值 lnL1。假設前后兩個模型分別包含 l個自變量和 p 個自變量, 似然比統(tǒng)計量 G 的計算公式為: )ln(ln201LLG (16-12) 當樣本含量較大時,在零假設下得到的統(tǒng)計量近似服從自由度為 d (d=pl)的2分布。若2,dG時,表示新加入的 d 個自變量對回歸方程有統(tǒng)計學意義。 零假設:加入的自變量的總體回歸系數(shù)=0具體方法:(1)先擬合一個不包含準備檢驗的變量在內
15、的logistic回歸模型,得到對數(shù)似然函數(shù)值lnL0 (設包含的自變量個數(shù)為l 個);(2)加入準備檢驗的變量,重新擬合logistic回歸模型,同時又得到一個對數(shù)似然函數(shù)值lnL1 (設包含的自變量個數(shù)為p 個);(3)計算似然比統(tǒng)計量G: G=2(lnL1- lnL0) (16-12)27例 16-1 可以算得:326.585)(ln1XL,436.597)(ln2XL,711.579),(ln21XXL 符號)(1XL和)(2XL分別表示模型中只含有1X和2X的最大似然函數(shù)值,而),(21XXL則表示模型中同時含有1X和2X的最大似然函數(shù)值。 對于1X:010:H,011:H )(ln
16、),(ln2221XLXXLG)436.597(711.579 2 45.35 查2界值表得84. 321 ,05.0, 84. 3G,故在050.檢驗水準上拒絕H0,接受 H1,說明平衡了飲酒因素的影響后,食管癌與吸煙有顯著性關系。 同理,對于2X020:H,021:H )(ln),(ln2121XLXXLG)326.585(711.579 2 23.11 84. 3G,拒絕0H,接受 H1,說明平衡了吸煙因素的影響后,食管癌與飲酒有顯著性關系。 ,=0.05,=0.0528Wald 檢驗 將各參數(shù)的估計值jb與 0 比較,而用它的標準誤jbS作為參照,檢驗統(tǒng)計量為 2, 1jjjjbbbb
17、uSS2 或 221220111022120.8856 34.860.15000.5261 11.200 :0, :0, 0.05,:0, :0,.157 0 05,2.HHHH 2值均大于 3.84,說明食道癌與吸煙、飲酒有關系,結論同前。 2.3.計分檢驗(score test) 需要進行矩陣運算29Logistic回歸模型的假設檢驗方法1 似然比檢驗比較含有不同自變量的模型(的似然函數(shù)值)既適合單個自變量的假設檢驗,又適合多個自變量的同時檢驗2 Wald檢驗各參數(shù)與0的比較適合單個自變量的假設檢驗3 計分檢驗計分檢驗統(tǒng)計量=對數(shù)似然函數(shù)的一階導數(shù)*信息矩陣,符合自由度為1的卡方分布小樣本
18、時運用,犯型錯誤的可能性要小些。注:1)零假設都是總體的回歸系數(shù)=0 2)大樣本時,三種方法的結果是一致的。30方法:前進法、后退法和逐步法。方法:前進法、后退法和逐步法。檢驗統(tǒng)計量:不是檢驗統(tǒng)計量:不是 F 統(tǒng)計量,而是似然比統(tǒng)計量、統(tǒng)計量,而是似然比統(tǒng)計量、 Wald 統(tǒng)計量和計分統(tǒng)計量之一。統(tǒng)計量和計分統(tǒng)計量之一。 (對單個或多個自變量進行檢驗)(對單個或多個自變量進行檢驗)四、變量篩選四、變量篩選例16-2 為了探討冠心病發(fā)生的有關危險因素,對26例冠心病病人和28例對照者進行病例對照研究,各因素的說明及資料見表16-2和表16-3。試用logistic 逐步回歸分析方法篩選危險因素。(先選擇變量,后擬合模型)15. 0,10. 0(出入31因素 變量名 賦值說明 年齡(歲) X1 45=1, 4554=2, 5564=3, 65=4 高血壓史 X2 無=0, 有=1 高血壓家族史 X3 無=0, 有=1 吸煙 X4 不吸=0, 吸=1 高血脂史 X5 無=0, 有=1 動物脂肪攝入 X6 低=0, 高=1 體重指數(shù)(BMI) X7 24=1, 24自由度,提示不夠理想。)5455(3)廣義決定系數(shù)(綜合性指標) 類似于多元線性回歸中的決定系數(shù)。)30
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 病毒性肝炎的社區(qū)護理
- 輸尿管鏡取石術的護理
- 直結腸癌護理查房
- 2025上海市顧村鎮(zhèn)社區(qū)工作者考試真題
- 北師大版九年級下冊《二次函數(shù)》教學課件
- 幼兒園大班戶外建構游戲課程故事
- 小學教師職業(yè)優(yōu)劣解析
- 節(jié)前治安防范安全教育
- 自救常識安全教育
- 大學生心理健康課性教育專題
- DB37T 1913-2011 金屬非金屬地下礦山特種作業(yè)人員配置
- 2025年日歷(日程安排-可直接打印)
- 大單元教學學歷案4 《現(xiàn)代詩二首》(略讀實踐課) 統(tǒng)編版語文四年級上冊
- 3.1 農業(yè)區(qū)位因素及其變化-看《種地吧》思考 課件 高一下學期 地理 人教版(2019)必修二
- 《保護板培訓教材》課件
- 綠色醫(yī)療器械設計
- 用電協(xié)議書范文雙方簡單一致
- DB11T 2155-2023 建設工程消防驗收現(xiàn)場檢查評定規(guī)程
- 2024年電工(高級技師)考前必刷必練題庫500題(含真題、必會題)
- DB34T 2146-2014 產品質量監(jiān)督抽查檢驗報告編制規(guī)范
- 廢品站承包小區(qū)合同(2篇)
評論
0/150
提交評論