05醫(yī)學(xué)統(tǒng)計(jì)學(xué)第16章log回歸分析_第1頁
05醫(yī)學(xué)統(tǒng)計(jì)學(xué)第16章log回歸分析_第2頁
05醫(yī)學(xué)統(tǒng)計(jì)學(xué)第16章log回歸分析_第3頁
05醫(yī)學(xué)統(tǒng)計(jì)學(xué)第16章log回歸分析_第4頁
05醫(yī)學(xué)統(tǒng)計(jì)學(xué)第16章log回歸分析_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1 第十六章第十六章 logistic logistic回歸分析回歸分析 (logistic regression) (logistic regression)授課老師:曾小敏公共衛(wèi)生學(xué)院 衛(wèi)生統(tǒng)計(jì)學(xué)教研室2例16-1 表16-1是一個(gè)研究吸煙、飲酒與食道癌關(guān)系的病例對照資料,試作logistic回歸分析。 121 0 1 0 1 0 XXY吸煙不吸煙飲酒不飲酒病例對照確確定定各各變變量量編編碼碼 復(fù)習(xí)復(fù)習(xí)“多元線性回歸分析多元線性回歸分析”3表表16-1 吸煙與食道癌關(guān)系的病例對照調(diào)查資料吸煙與食道癌關(guān)系的病例對照調(diào)查資料(n=886) Y分層吸煙飲酒觀察例數(shù)陽性數(shù)陰性數(shù)gX1X2ngdgn

2、g dg10019963136201170631073101014457411416265151注:陽性數(shù),陽性結(jié)果人數(shù)4目的:作出以多個(gè)自變量目的:作出以多個(gè)自變量X(危險(xiǎn)因素)估(危險(xiǎn)因素)估計(jì)應(yīng)變量計(jì)應(yīng)變量Y(結(jié)果因素)的(結(jié)果因素)的logistic回歸回歸方程。屬于概率型非線性回歸。方程。屬于概率型非線性回歸。資料:資料:1. 應(yīng)變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值應(yīng)變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值變量;變量;2. 自變量宜全部或大部分為分類變量,可有自變量宜全部或大部分為分類變量,可有少數(shù)數(shù)值變量。分類變量要數(shù)量化。少數(shù)數(shù)值變量。分類變量要數(shù)量化。5用途:研究某種疾病或現(xiàn)象發(fā)生和多

3、個(gè)危用途:研究某種疾病或現(xiàn)象發(fā)生和多個(gè)危 險(xiǎn)因素(或保護(hù)因子)的數(shù)量關(guān)系。險(xiǎn)因素(或保護(hù)因子)的數(shù)量關(guān)系。 用用 檢驗(yàn)(或檢驗(yàn)(或u檢驗(yàn))的局限性:檢驗(yàn))的局限性: 1.只能研究只能研究1個(gè)危險(xiǎn)因素;個(gè)危險(xiǎn)因素; 2.只能得出定性結(jié)論。只能得出定性結(jié)論。26 種類種類: 1. 成組(非條件)成組(非條件)logistic回歸方程?;貧w方程。 2. 配對(條件)配對(條件)logistic回歸方程?;貧w方程。7講述內(nèi)容講述內(nèi)容: :第一節(jié)第一節(jié) logistic logistic回歸回歸第二節(jié)第二節(jié) 條件條件logisticlogistic回歸回歸第三節(jié)第三節(jié) logistic logistic

4、回歸的應(yīng)用回歸的應(yīng)用 及其注意事項(xiàng)及其注意事項(xiàng)8第一節(jié)第一節(jié) logistic logistic回回歸歸 (非條件(非條件logisticlogistic回回歸歸 )9 一、基本概念一、基本概念1 0 Y發(fā)生應(yīng)變量未發(fā)生12,mXXX自變量,在m個(gè)自變量的作用下陽性結(jié)果發(fā)生的概率記作:),| 1(21mXXXYPP1P011ZPe若令若令: mmXXXZ221100112211exp ()mmPXXX其中0為常數(shù)項(xiàng), m,21為回歸系數(shù)。 P與各與各X之間不呈線性關(guān)系之間不呈線性關(guān)系,而可用下式描述而可用下式描述:1111ZPemmXXXZ22110其中0為常數(shù)項(xiàng), m,21為回歸系數(shù)。 Z

5、與與P之間關(guān)系的之間關(guān)系的logistic曲線:曲線:當(dāng)當(dāng)Z+時(shí),時(shí),P值漸近于值漸近于1;當(dāng)當(dāng)Z值值-時(shí),時(shí), P值漸近于值漸近于0;P值的變化在值的變化在01范圍之內(nèi),并且隨范圍之內(nèi),并且隨Z值的增加或減少以點(diǎn)(值的增加或減少以點(diǎn)(0,0.5)為)為中心呈對稱中心呈對稱S形變化。形變化。很多生物學(xué)反反應(yīng)資料的變化特點(diǎn)ZZZeeeP111-1-1Q陰性率,111111)(ZZZZZZeeeeeePP優(yōu)勢:ZePPZln)1(lnZZZZZeePePePPeP1)1 (mmXXXZ22110ZPPeePPPPZ)()(1lnlog11冪(e 的Z次冪)底:e指數(shù):Z對數(shù)對數(shù)Z :以:以e 為底

6、的為底的 的對數(shù),即的對數(shù),即 的自然的自然對數(shù)。對數(shù)。PP1PP113模模型型參參數(shù)數(shù)的的意意義義常數(shù)項(xiàng)常數(shù)項(xiàng) 表示暴露劑量為表示暴露劑量為0時(shí)個(gè)體發(fā)病與不發(fā)病概率時(shí)個(gè)體發(fā)病與不發(fā)病概率之比的自然對數(shù)。之比的自然對數(shù)。(當(dāng)死亡概率很低時(shí)當(dāng)死亡概率很低時(shí),即即P 0,1-P1)(偏偏)回歸系數(shù)回歸系數(shù) 表示其他變量取固定值時(shí)表示其他變量取固定值時(shí),自變量自變量 改變一個(gè)單位時(shí)改變一個(gè)單位時(shí)logitP 的改變量。的改變量。0), 2 , 1(mjjjX01122ln=1mmPXXXPlogitP 取值范圍:取值范圍: logitPZePPZln)1(ln11ZPe若令若令 mmXXXZ2211

7、001122ln=1mmPXXXP0112211 exp ()mmPXXX回回歸歸模模型型其中0為常數(shù)項(xiàng), m,21為回歸系數(shù)。 概率概率P:01,logitP:。 取值范圍:取值范圍: logitPLogit轉(zhuǎn)換15流行病學(xué)衡量危險(xiǎn)因素作用大小的比數(shù)比例指標(biāo)。流行病學(xué)衡量危險(xiǎn)因素作用大小的比數(shù)比例指標(biāo)。計(jì)算公式為:計(jì)算公式為:1100/(1)/(1)jPPORPP優(yōu)勢比優(yōu)勢比OR(odds ratio)式中式中1P和和0P分別表示在分別表示在jX取值為取值為1c及及0c時(shí)時(shí)的發(fā)病概率,的發(fā)病概率,jOR稱作多變量調(diào)整后的稱作多變量調(diào)整后的優(yōu)勢比優(yōu)勢比,表示扣除了其表示扣除了其他他自變量影響后

8、危險(xiǎn)因素的作用。自變量影響后危險(xiǎn)因素的作用。 111000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc對比某一危險(xiǎn)因素對比某一危險(xiǎn)因素兩個(gè)不同暴露水平兩個(gè)不同暴露水平1cXj與與0cXj的發(fā)病情況的發(fā)病情況(假定其它因素的水平相同,即保持不變假定其它因素的水平相同,即保持不變) ,其) ,其優(yōu)勢比優(yōu)勢比的自然對數(shù)為的自然對數(shù)為: 與與 logit P 的關(guān)系:的關(guān)系:01122ln=1mmPXXXPlogitP)(01ccjeOR111000010010/(1)lnlnlogitlogit/(1)()()()jmm

9、jttjtttjtjjPPORPPPPcXcXccjjeeORcc )()(011當(dāng)某一因素有多個(gè)水平時(shí)(假定為當(dāng)某一因素有多個(gè)水平時(shí)(假定為3 3個(gè)等級水平,從低等級開始定義為個(gè)等級水平,從低等級開始定義為0 0、1 1、2 2):):22022)()()(jjjeeeORcc180, 1 exp, 0, 1 0, 1 jjjjjjOROROROR無作用危險(xiǎn)因保子護(hù)因子則有101 , 1, 0 jccX暴非若暴露露由于jOR值與模型中的常數(shù)項(xiàng)0無關(guān),0在危險(xiǎn)因素分析中通常視其為無效參數(shù)。 1100/(1) 1, /(1)PPPORRRPP當(dāng)則有10 exp()jjORcc即),(ln01cc

10、ORj)exp(j即:jeORj19 11(1)iinYYiiiLPP 1lnln(1)ln(1)niiiiiLYPYP 二、logistic回歸模型的參數(shù)估計(jì) 1. 參數(shù)估計(jì)參數(shù)估計(jì)原理:最大似然原理:最大似然( likelihood )估計(jì)估計(jì) iP表示第 i 例觀察對 象在暴露條 件下陽性結(jié)果發(fā)生的概率,如果實(shí)際出現(xiàn)的是陽性結(jié)果,取1iY,否則取0iY。根據(jù)最大似然原理,在一次抽樣中獲得現(xiàn)有樣本的概率應(yīng)該最大,即似然函數(shù) L 應(yīng)該達(dá)到最大值。 簡化計(jì)算,通常取似然函數(shù)的對數(shù)形式 求積的符號20 11(1)iinYYiiiLPP 1lnln(1)ln(1)niiiiiLYPYP mbbbb

11、,210 采用 Newton-Raphson 迭代方法使對數(shù)似然函數(shù)達(dá)到極大值,此時(shí)參數(shù)的取值mbbbb,210即為m,210的最大似然估計(jì)值 mmXXXZPPPP.)1ln(ln)1ln(22110ZZZZZeePePePPeP1)1 (mmXXXZ2211021 )(exp01ccbROjj若自變量jX只有暴露和非暴露兩個(gè)水平, 則優(yōu)勢比jOR的1可信區(qū)間估計(jì)公式為 )exp(2/jbjSub 2. 優(yōu)勢比估計(jì) 可反映某一因素兩個(gè)不同水平(c1,c0)的優(yōu)勢比。22例16-1 表16-1是一個(gè)研究吸煙、飲酒與食道癌關(guān)系的病例對照資料,試作logistic回歸分析。 121 0 1 0 1

12、0 XXY吸煙不吸煙飲酒不飲酒病例對照確確定定各各變變量量編編碼碼 23分層 吸煙 飲酒 觀察例數(shù) 陽性數(shù) 陰性數(shù) g X1 X2 ng dg ng dg 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 表表16-1 吸煙與食道癌關(guān)系的病例對照調(diào)查資料吸煙與食道癌關(guān)系的病例對照調(diào)查資料(n=886) 分層資料24=0.1572 吸煙與不吸煙的優(yōu)勢比:11expexp0.8856=2.42ORb 經(jīng)logistic回歸計(jì)算后得:0b=-0.9099,0bS=0.1358;1b=0.8856, 1bS=0.15

13、00;2b=0.5261,2bS=0.1572 吸煙與不吸煙的優(yōu)勢比:1OR的 95可信區(qū)間: 110.05/2expexp(0.88561.960.1500)(1.81,3.25)bbuS 飲酒與不飲酒的優(yōu)勢比: 飲酒與不飲酒的優(yōu)勢比: 飲酒與不飲酒的優(yōu)勢比: 22expexp0.52611.69ORb 22exp(1.96)exp(0.5261 1.96 0.1572)(1.24,2.30)bbS2OR的95可信區(qū)間: 25 三、logistic回歸模型的假設(shè)檢驗(yàn) 1.似然比檢驗(yàn)基本思想: 比較在兩種不同假設(shè)條件下的對數(shù)似然函數(shù)值,看其差別的大小。261.似然比檢驗(yàn):比較在兩種不同假設(shè)條件

14、下的對數(shù)似然函數(shù)值,看其差別大小。 具體作法:先擬合一個(gè)不包含準(zhǔn)備檢驗(yàn)的變量在內(nèi)的 logistic 回歸模型,求出它的對數(shù)似然函數(shù)值 lnL0 ,然后把需要檢驗(yàn)的變量加入模型中去再進(jìn)行配合,得到一個(gè)新的對數(shù)似然函數(shù)值 lnL1。假設(shè)前后兩個(gè)模型分別包含 l個(gè)自變量和 p 個(gè)自變量, 似然比統(tǒng)計(jì)量 G 的計(jì)算公式為: )ln(ln201LLG (16-12) 當(dāng)樣本含量較大時(shí),在零假設(shè)下得到的統(tǒng)計(jì)量近似服從自由度為 d (d=pl)的2分布。若2,dG時(shí),表示新加入的 d 個(gè)自變量對回歸方程有統(tǒng)計(jì)學(xué)意義。 零假設(shè):加入的自變量的總體回歸系數(shù)=0具體方法:(1)先擬合一個(gè)不包含準(zhǔn)備檢驗(yàn)的變量在內(nèi)

15、的logistic回歸模型,得到對數(shù)似然函數(shù)值lnL0 (設(shè)包含的自變量個(gè)數(shù)為l 個(gè));(2)加入準(zhǔn)備檢驗(yàn)的變量,重新擬合logistic回歸模型,同時(shí)又得到一個(gè)對數(shù)似然函數(shù)值lnL1 (設(shè)包含的自變量個(gè)數(shù)為p 個(gè));(3)計(jì)算似然比統(tǒng)計(jì)量G: G=2(lnL1- lnL0) (16-12)27例 16-1 可以算得:326.585)(ln1XL,436.597)(ln2XL,711.579),(ln21XXL 符號)(1XL和)(2XL分別表示模型中只含有1X和2X的最大似然函數(shù)值,而),(21XXL則表示模型中同時(shí)含有1X和2X的最大似然函數(shù)值。 對于1X:010:H,011:H )(ln

16、),(ln2221XLXXLG)436.597(711.579 2 45.35 查2界值表得84. 321 ,05.0, 84. 3G,故在050.檢驗(yàn)水準(zhǔn)上拒絕H0,接受 H1,說明平衡了飲酒因素的影響后,食管癌與吸煙有顯著性關(guān)系。 同理,對于2X020:H,021:H )(ln),(ln2121XLXXLG)326.585(711.579 2 23.11 84. 3G,拒絕0H,接受 H1,說明平衡了吸煙因素的影響后,食管癌與飲酒有顯著性關(guān)系。 ,=0.05,=0.0528Wald 檢驗(yàn) 將各參數(shù)的估計(jì)值jb與 0 比較,而用它的標(biāo)準(zhǔn)誤jbS作為參照,檢驗(yàn)統(tǒng)計(jì)量為 2, 1jjjjbbbb

17、uSS2 或 221220111022120.8856 34.860.15000.5261 11.200 :0, :0, 0.05,:0, :0,.157 0 05,2.HHHH 2值均大于 3.84,說明食道癌與吸煙、飲酒有關(guān)系,結(jié)論同前。 2.3.計(jì)分檢驗(yàn)(score test) 需要進(jìn)行矩陣運(yùn)算29Logistic回歸模型的假設(shè)檢驗(yàn)方法1 似然比檢驗(yàn)比較含有不同自變量的模型(的似然函數(shù)值)既適合單個(gè)自變量的假設(shè)檢驗(yàn),又適合多個(gè)自變量的同時(shí)檢驗(yàn)2 Wald檢驗(yàn)各參數(shù)與0的比較適合單個(gè)自變量的假設(shè)檢驗(yàn)3 計(jì)分檢驗(yàn)計(jì)分檢驗(yàn)統(tǒng)計(jì)量=對數(shù)似然函數(shù)的一階導(dǎo)數(shù)*信息矩陣,符合自由度為1的卡方分布小樣本

18、時(shí)運(yùn)用,犯型錯(cuò)誤的可能性要小些。注:1)零假設(shè)都是總體的回歸系數(shù)=0 2)大樣本時(shí),三種方法的結(jié)果是一致的。30方法:前進(jìn)法、后退法和逐步法。方法:前進(jìn)法、后退法和逐步法。檢驗(yàn)統(tǒng)計(jì)量:不是檢驗(yàn)統(tǒng)計(jì)量:不是 F 統(tǒng)計(jì)量,而是似然比統(tǒng)計(jì)量、統(tǒng)計(jì)量,而是似然比統(tǒng)計(jì)量、 Wald 統(tǒng)計(jì)量和計(jì)分統(tǒng)計(jì)量之一。統(tǒng)計(jì)量和計(jì)分統(tǒng)計(jì)量之一。 (對單個(gè)或多個(gè)自變量進(jìn)行檢驗(yàn))(對單個(gè)或多個(gè)自變量進(jìn)行檢驗(yàn))四、變量篩選四、變量篩選例16-2 為了探討冠心病發(fā)生的有關(guān)危險(xiǎn)因素,對26例冠心病病人和28例對照者進(jìn)行病例對照研究,各因素的說明及資料見表16-2和表16-3。試用logistic 逐步回歸分析方法篩選危險(xiǎn)因素。(先選擇變量,后擬合模型)15. 0,10. 0(出入31因素 變量名 賦值說明 年齡(歲) X1 45=1, 4554=2, 5564=3, 65=4 高血壓史 X2 無=0, 有=1 高血壓家族史 X3 無=0, 有=1 吸煙 X4 不吸=0, 吸=1 高血脂史 X5 無=0, 有=1 動物脂肪攝入 X6 低=0, 高=1 體重指數(shù)(BMI) X7 24=1, 24自由度,提示不夠理想。)5455(3)廣義決定系數(shù)(綜合性指標(biāo)) 類似于多元線性回歸中的決定系數(shù)。)30

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論