第八課-SPSS-logistic回歸分析課件_第1頁
第八課-SPSS-logistic回歸分析課件_第2頁
第八課-SPSS-logistic回歸分析課件_第3頁
第八課-SPSS-logistic回歸分析課件_第4頁
第八課-SPSS-logistic回歸分析課件_第5頁
已閱讀5頁,還剩163頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

logistic回歸分析logistic回歸為概率型非線性回歸模型,是研究分類觀察結(jié)果(y)與一些影響因素(x)之間關(guān)系的一種多變量分析方法logistic回歸分析logistic回歸1問題提出:醫(yī)學(xué)研究中常研究某因素存在條件下某結(jié)果是否發(fā)生?以及之間的關(guān)系如何?因素(X)疾病結(jié)果(Y)x1,x2,x3…XK

發(fā)生Y=1不發(fā)生Y=0例:暴露因素冠心病結(jié)果高血壓史(x1):有或無有或無高血脂史(x2):有或無吸煙(x3):有或無問題提出:2研究問題可否用多元線性回歸方法?

1.多元線性回歸方法要求Y的取值為計量的連續(xù)性隨機變量。2.多元線性回歸方程要求Y與X間關(guān)系為線性關(guān)系。3.多元線性回歸結(jié)果不能回答“發(fā)生與否”logistic回歸方法補充多元線性回歸的不足研究問題可否用多元線性回歸方法?

1.多元線性回歸方法要求3Logistic回歸方法該法研究是當y取某值(如y=1)發(fā)生的概率(p)與某暴露因素(x)的關(guān)系。P(概率)的取值波動0~1范圍。

基本原理:用一組觀察數(shù)據(jù)擬合Logistic模型,揭示若干個x與一個因變量取值的關(guān)系,反映y對x的依存關(guān)系。Logistic回歸方法該法研究是4

第一節(jié)

logistic回歸

1.基本概念

logistic回歸要求應(yīng)變量(Y)取值為分類變量(兩分類或多個分類)

自變量(Xi)稱為危險因素或暴露因素,可為連續(xù)變量、等級變量、分類變量??捎衜個自變量X1,X2,…Xm

第一節(jié)

logistic回歸

1.基本概念52.

logistic回歸模型方程一個自變量與Y關(guān)系的回歸模型如:y:發(fā)生=1,未發(fā)生=0x:有=1,無=0,記為p(y=1/x)表示某暴露因素狀態(tài)下,結(jié)果y=1的概率(P)模型。或模型描述了應(yīng)變量p與x的關(guān)系2.logistic回歸模型方程一個自變量與Y關(guān)系的回歸模6P概率10.5Z值0123-1-2-3圖16-1Logistic回歸函數(shù)的幾何圖形Β為正值,x越大,結(jié)果y=1發(fā)生的可能性(p)越大。P概率10.5Z值0123-1-2-3圖16-1Log7幾個logistic回歸模型方程幾個logistic回歸模型方程8logistic回歸模型方程的線性表達對logistic回歸模型的概率(p)做logit變換,截距(常數(shù))回歸系數(shù)Y~(-∞至+∞)線形關(guān)系方程如下:logistic回歸模型方程的線性表達對logistic回歸9在有多個危險因素(Xi)時多個變量的logistic回歸模型方程的線性表達:或在有多個危險因素(Xi)時多個變量的logistic回歸模型102.模型中參數(shù)的意義Β0(常數(shù)項):暴露因素Xi=0時,個體發(fā)病概率與不發(fā)病概率之比的自然對數(shù)比值。2.模型中參數(shù)的意義Β0(常數(shù)項):暴露因素Xi=0時,個體11的含義:某危險因素,暴露水平變化時,即Xi=1與Xi=0相比,發(fā)生某結(jié)果(如發(fā)病)優(yōu)勢比的對數(shù)值。

P1(y=1/x=1)的概率P0(y=1/x=0)的概率的含義:某危險因素,暴露水平變化時12

危險因素Yx=1x=0發(fā)病=130(a)10(b)不發(fā)病=070(c)90(d)a+cb+d

危險因素Yx=1x=0發(fā)病=1p1p0

不發(fā)病=01-p11-p0

有暴露因素人群中發(fā)病的比例

13

反映了在其他變量固定后,X=1與x=0相比發(fā)生Y事件的對數(shù)優(yōu)勢比?;貧w系數(shù)β與ORX與Y的關(guān)聯(lián)β=0,OR=1,無關(guān)β>1,OR>1,有關(guān),危險因素β<1,OR<1,有關(guān),保護因子事件發(fā)生率很小,OR≈RR。多元回歸模型的的概念反映了在其他變量固定后,X=1與x=0相比發(fā)14二、logistic回歸模型的參數(shù)估計

1.模型中的參數(shù)(βi)估計

通常用最大似然函數(shù)(maximumlikelihoodestimate,MLE)估計β,由統(tǒng)計軟件包完成。,,二、logistic回歸模型的參數(shù)估計

1.模型中的參15

2.優(yōu)勢比(OR)及可信區(qū)間的估計

如X=1,0兩分類,則OR的1-α可信區(qū)間估計公式為回歸系數(shù)的標準誤

2.優(yōu)勢比(OR)及可信區(qū)間的估計

為回歸系數(shù)的標16例:一個研究吸煙、飲酒與食道癌關(guān)系的病例-對照資料(886例),試作logistic回歸分析。變量的賦值例:一個研究吸煙、飲酒與食道癌關(guān)系的病例-對照資料(886例17經(jīng)logistic回歸計算后得

b0=-0.9099,b1=0.8856,b2=0.5261,方程表達:控制飲酒因素后,吸煙與不吸煙相比患食管癌的優(yōu)勢比為2.4倍經(jīng)logistic回歸計算后得方程表達:控制飲酒因素后,吸煙18OR的可信區(qū)間估計吸煙與不吸煙患食管癌OR的95%可信區(qū)間:飲酒與不飲酒OR的95%可信區(qū)間:OR的可信區(qū)間估計吸煙與不吸煙患食管癌OR的95%可信區(qū)間:19三、Logistic回歸模型的假設(shè)檢驗1.檢驗一:對建立的整個模型做檢驗。說明自變量對Y的作用是否有統(tǒng)計意義。檢驗方法(講義260-261頁)1)似然比檢驗(likelihoodratiotest)2)Wald檢驗3)計分檢驗(scoretest)三、Logistic回歸模型的假設(shè)檢驗1.檢驗一:對建立的20例表16-1吸煙、飲酒與食管癌資料

(SAS軟件計算)

1.對建立的整個模型做檢驗。TestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr似然比68.54572<.0001計分檢驗67.07122<.0001Wald檢驗64.27842<.0001例表16-1吸煙、飲酒與食管癌資料

(SAS軟件計算)1.212.檢驗二:檢驗?zāi)P椭心肠率欠駥有作用。檢驗假設(shè):檢驗統(tǒng)計量:主要為Wald檢驗(SAS軟件)例;在大樣本時,三方法結(jié)果一致。ν=1的χ2

2.檢驗二:檢驗?zāi)P椭心肠率欠駥有作用。ν=1的χ222例表16-1資料,對各x的β做檢驗(wald檢驗)

參數(shù)β估計值

標準誤Chi-SquaPr常數(shù)-0.90990.135844.8699.0001吸煙0.88560.150034.8625

.0001飲酒0.52610.157211.2069.0008

OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimits

吸煙x12.4241.8073.253

飲酒x21.6921.2442.303例表16-1資料,對各x的β做檢驗(wald檢驗)

參數(shù)β23似然比檢驗(講義)對某個β做檢驗,檢驗統(tǒng)計量(G)包括p個自變量的對數(shù)似然函數(shù)包括l個自變量的對數(shù)似然函數(shù)G服從自由度(d)=p-l的χ2分布似然比檢驗(講義)對某個β做檢驗,檢驗統(tǒng)計量(G)包括p個自24似然比檢驗對β做檢驗例:X1為吸煙,X2為飲酒,檢驗飲酒與食管癌關(guān)系,H0:β2=0,H1:β2≠0G>3.84,p<0.05,說明調(diào)整吸煙因素后,飲酒與食管癌有關(guān)系。似然比檢驗對β做檢驗例:X1為吸煙,X2為飲酒,檢驗飲酒與食25四、變量篩選目的;將回歸系數(shù)有顯著意義的自變量選入模型中,作用不顯著的自變量則排除在外。變量篩選算法有:前進法、后退法和逐步法(stepwise)。例:講義例16-2,用逐步法選入變量的顯著水準為0.10,變量保留在方程的水準為0.15例:16-2講義261-263頁四、變量篩選目的;將回歸系數(shù)有顯著意義的自變量選入模型中,作26表16-4進入方程的自變量及參數(shù)估計變量βSbWaldχ2P標準β’OR常數(shù)-4.7051.549.300.0023年齡0.9240.4773.760.05250.4012.52X51.4960.7444.040.04430.4064.46X63.1361.2496.300.01210.70323.06X81.9470.8475.290.02150.5237.01標準回歸系數(shù)(b’)比較各自變量對Y的相對貢獻表16-4進入方程的自變量及參數(shù)估計變量β27第二節(jié)條件Logistic回歸概念:用配對設(shè)計獲得病例對照研究資料,計算的Logistic回歸模型為條件Logistic回歸。成組(未配對)設(shè)計的病例對照研究資料,計算的Logistic回歸模型為非條件Logistic回歸。例:見265頁區(qū)別:條件Logistic回歸的參數(shù)估計無常數(shù)項(β0),主要用于危險因素的分析。第二節(jié)條件Logistic回歸概念:28

第三節(jié)logistic回歸的應(yīng)用及注意事項

一、logistic回歸的應(yīng)用1.疾?。辰Y(jié)果)的危險因素分析和篩選

用回歸模型中的回歸系數(shù)(βi)和OR說明危險因素與疾病的關(guān)系。例:講義例16-1,16-2,16-3適用的資料:

前瞻性研究設(shè)計、病例對照研究設(shè)計、橫斷面研究設(shè)計的資料。三類研究計算的logistic回歸模型的β意義是一致。僅常數(shù)項不同。(證明略)

第三節(jié)logistic回歸的應(yīng)用及注意事項

29Logistic回歸的應(yīng)用

2.校正混雜因素,對療效做評價在臨床研究和療效的評價,組間某些因素構(gòu)成不一致干擾療效分析,通過該法可控制非處理因素,正確評價療效。3.預(yù)測與判別預(yù)測個體在某因素存在條件下,發(fā)生某事件(發(fā)?。┑母怕?,為進一步治療提供依據(jù)。Logistic回歸的應(yīng)用

2.校正混雜因素,對療效做評價30表5-4甲乙兩療法某病治愈率%比較病型甲療法乙療法病人治愈治愈病人治愈治愈數(shù)數(shù)率數(shù)數(shù)率普通型30018060.01006565.0重型1003535.030012541.7合計40021553.840019047.5例:例1表5-4甲乙兩療法某病治愈率%比較病型31表5-5直接法計算標準化治愈率病型標準甲療法乙療法治療原治預(yù)期原治預(yù)期人數(shù)愈率治愈數(shù)愈率治愈數(shù)普通型40060.024065.0260重型40035.014041.7167合計800380427調(diào)整率(標準化率):

表5-5直接法計算標準化治愈率病型標準32X1療法(甲=0,乙=1)X2病情(輕=1,重=0)

Y療效(Y=1有效,Y=0無效)

LOGISTIC回歸計算StandardWaldParameterEstimateErrorChi-SquaPrIntercept-0.64530.165315.24<.0001療法0.24820.16992.130.1442病情0.99000.169933.93<.0001OddsRatioEstimatePoint95%WaldEffectEstimateConfidenceLimits

療法1.2820.9191.788

病情2.6911.9293.755X1療法(甲=0,乙=1)X2病情(輕=1,重=0)

Y療效33例2性別、兩種藥物對某病療效的研究不考慮性別的影響,療效與藥物的logistic回歸χ2=10.23,p=0.0014,OR=4.46性別治療方法療效有效(y=1)無效(y=0)合計女X1=1新藥(x2=1)21627對照(x2=0)131932男X1=0新藥(x2=1)7714對照(x2=0)11011例2性別、兩種藥物對某病療效的研究性別治療方法療效有效34考慮性別、藥物對療效的作用

StandardWaldParameEstimateErrorChi-SquarePr

常數(shù)-1.90370.598210.1270.0015性別1.46850.5756.5080.0107藥物1.78160.51811.7940.0006OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimits

x1性別4.3431.40513.421x2藥物5.9392.14916.417考慮性別、藥物對療效的作用Stan35結(jié)論:性別和藥物的回歸系數(shù)都均有統(tǒng)計意義。說明女性或用新藥的療效較優(yōu)。用Logistic模型方程對個體的療效做預(yù)測:設(shè)如女性病人,x1=1,用新藥x2=1,有效的概率p=0.79如男性病人x1=0,用新藥x2=1,有效的概率p=0.4695結(jié)論:性別和藥物的回歸系數(shù)都均有統(tǒng)計意義。說明女性或用新藥的36二、Logistic回歸應(yīng)用的注意事項

1.模型中自變量的取值

自變量(X)可為計量數(shù)據(jù)、分類數(shù)據(jù)和等級數(shù)據(jù)。計量數(shù)據(jù)常重新劃為有序組段,OR的實際意義較大。例:年齡(歲,x1)

二、Logistic回歸應(yīng)用的注意事項

1.模型中自變量的取37數(shù)據(jù)的幾種賦值形式1)兩分類變量,賦值為:有=1,無=02)有序變量,賦值;無=0,少=1,中=2,多=3例;年齡<45=145-54=255-64=3≥65=43.)多分類無序變量:賦值為:啞變量(dummyvariable)形式見例:注:變量取值不同,方程的系數(shù)和符號將發(fā)生變化。數(shù)據(jù)的幾種賦值形式1)兩分類變量,賦值為:有=1,無=038表16-2冠心病8個可能的危險因素與賦值

(講義262頁)

因素變量名賦值說明年齡(歲)X1<45=1,4554=2,5564=3,65=4高血壓史X2無=0,有=1高血壓家族史X3無=0,有=1吸煙X4不吸=0,吸=1表16-2冠心病8個可能的危險因素與賦值

(講義262頁39表16-9年齡(X)化為啞變量的賦值年齡(歲)有序變量啞變量(方法一)X水平D1D2D3<40100040~

210050~301060~

4001方程1:有序變量方程Β含義:x每增加1個單位(10歲),發(fā)病的lnOR平均增加β1表16-9年齡(X)化為啞變量的賦值年齡(歲)有序變量40方程2:啞變量方程(啞變量個數(shù)=分類數(shù)-1)方程系數(shù)的解釋:

表示40-歲/<40歲相比的對數(shù)優(yōu)勢比表示50-歲/<40歲相比的對數(shù)優(yōu)勢比表示60-歲/<40歲相比的對數(shù)優(yōu)勢比方程2:啞變量方程(啞變量個數(shù)=分類數(shù)-1)41啞變量的賦值方法例2:研究某結(jié)果與血型的關(guān)系血型(X)啞變量X1X2X3A000B100O010AB001變量規(guī)定某個分類為對照,對照組在啞變量的賦值均為0式中回歸系數(shù)表示各對比組與對照組(A型)相比的變化值。啞變量的賦值方法例2:研究某結(jié)果與血型的關(guān)系血型42270頁分析題2變量X4的啞變量的賦值方法規(guī)定治療11周=X4-1,是=1,否=0規(guī)定治療21周=X4-2,是=1,否=0規(guī)定治療1周為對照組。啞變量的賦值周X4-1X4-21~0011~1021~01270頁分析題2變量X4的啞變量的賦值方法432.樣本含量:1)病例和對照組的例數(shù)可相等或不等。2)樣本例數(shù)的估計原則:自變量個數(shù)越多,例數(shù)越多。各組樣本例數(shù)(對照組和病例組)至少為自變量個數(shù)的5-20倍。2.樣本含量:44

3.模型的評價(講義269頁)

對所建立的回歸方程做擬合優(yōu)度檢驗。檢查模型估計與實際數(shù)據(jù)的符合情況。檢驗統(tǒng)計量:1.剩余差(deviance,記為D)(16-25)2.Pearsonχ2(16-26)統(tǒng)計量的概率值P>0.05,認為模型擬合較好例:表16-10(講義表16-10)

3.模型的評價(講義269頁)

對45表16-1資料吸煙、飲酒與食管癌的關(guān)系(SAS軟件結(jié)果)剩余差(D)與Pearsonχ2擬合優(yōu)度檢驗

DevianceandPearsonGoodness-of-FitStatistics

CriterionDFValuePr>ChiSqDeviance13.42020.0644Pearson13.42180.0643表16-1資料吸煙、飲酒與食管癌的關(guān)系(SAS軟件結(jié)果)剩余464.多分類的Logistic回歸Logistic回歸可處理:1)應(yīng)變量(Y)為有序的多分類資料如結(jié)果為:治愈、顯效、好轉(zhuǎn)、無效2)應(yīng)變量(Y)為無序的多分類資料例:研究闌尾炎類型與危險因素關(guān)系闌尾炎類型有:卡他型、壞疽型、腹膜炎型多分類Logistic回歸方法(略)4.多分類的Logistic回歸Logistic回歸可處理:47結(jié)果的表達一般logistic回歸分析報告內(nèi)容:1.危險因素的回歸系數(shù)及標準誤、p值2.標準化的回歸系數(shù)。3.危險因素對應(yīng)的OR和可信區(qū)間4.Logistic回歸方程講義264頁結(jié)果的表達一般logistic回歸分析報告內(nèi)容:講義26448本節(jié)重點掌握內(nèi)容和作業(yè)一、問答題1.Logistic回歸與線性回歸有什么不同?2.Logistic回歸可解決哪些問題?3.自變量可以有哪些類型,應(yīng)用時應(yīng)如何賦值?4.Logistic回歸中β的含義和方程的表達。二、計算分析題的第2題的第(1)題。本節(jié)重點掌握內(nèi)容和作業(yè)一、問答題49LogisticregressionLogistic回歸應(yīng)用Logistic回歸應(yīng)用50

醫(yī)學(xué)研究中常碰到應(yīng)變量的可能取值僅有兩個(即二分類變量),如發(fā)病與未發(fā)病、陽性與陰性、死亡與生存、治愈與未治愈、暴露與未暴露等,顯然這類資料不滿足多重回歸的條件什么情況下采用Logistic回歸醫(yī)學(xué)研究中常碰到應(yīng)變量的可能取值51

Brown(1980)在術(shù)前檢查了53例前列腺癌患者,擬用年齡(AGE)、酸性磷酸酯酶(ACID)兩個連續(xù)型的變量,X射線(X_RAY)、術(shù)前探針活檢病理分級(GRADE)、直腸指檢腫瘤的大小與位置(STAGE)三個分類變量與手術(shù)探查結(jié)果變量NODES(1、0分別表示癌癥的淋巴結(jié)轉(zhuǎn)移與未轉(zhuǎn)移

)建立淋巴結(jié)轉(zhuǎn)移的預(yù)報模型。實例Brown(1980)在術(shù)前檢查5253例接受手術(shù)的前列腺癌患者情況

53例接受手術(shù)的前列腺癌患者情況5326例冠心病病人和28例對照者進行病例對照研究

26例冠心病病人和28例對照者進行病例對照研究5426例冠心病病人和28例對照者進行病例對照研究

26例冠心病病人和28例對照者進行病例對照研究55一、logistic回歸模型

一、logistic回歸模型56概率預(yù)報模型

概率預(yù)報模型57二、模型的參數(shù)估計

Logistic回歸參數(shù)的估計通常采用最大似然法(maximumlikelihood,ML)。最大似然法的基本思想是先建立似然函數(shù)與對數(shù)似然函數(shù),再通過使對數(shù)似然函數(shù)最大求解相應(yīng)的參數(shù)值,所得到的估計值稱為參數(shù)的最大似然估計值。

二、模型的參數(shù)估計58參數(shù)估計的公式

參數(shù)估計的公式59三、回歸參數(shù)的假設(shè)檢驗

三、回歸參數(shù)的假設(shè)檢驗60優(yōu)勢比及其可信區(qū)間

優(yōu)勢比及其可信區(qū)間61標準化回歸參數(shù)標準化回歸參數(shù)62P262表16-3資料計算的SAS程序P262表16-3資料計算的SAS程序63TheLOGISTICProcedure

AnalysisofMaximumLikelihoodEstimates

TheLOGISTICProcedure

Analys64

預(yù)報模型

預(yù)報模型

65四、回歸參數(shù)的意義

當只有一個自變量時,以相應(yīng)的預(yù)報概率為縱軸,自變量為橫軸,可繪制出一條S形曲線?;貧w參數(shù)的正負符號與絕對值大小,分別決定了S形曲線的形狀與方向

四、回歸參數(shù)的意義當只有一個自變量時,以相應(yīng)的預(yù)報概率為縱66第八課-SPSS-logistic回歸分析課件67第八課-SPSS-logistic回歸分析課件68五、整個回歸模型的假設(shè)檢驗

五、整個回歸模型的假設(shè)檢驗69似然比檢驗(likelihoodratiotest)似然比檢驗(likelihoodratiotest)70六、logistic逐步回歸(變量篩選)MODEL語句加入選項“SELECTION=STEPWISESLE=0.10SLS=0.10;”常采用似然比檢驗:決定自變量是否引入或剔除。六、logistic逐步回歸(變量篩選)MODEL語句加入選71模型中有X5、X6、X8,

看是否引入X1模型含X5、X6、X8的模型的負二倍對數(shù)似然為:=50.402模型含X1、X5、X6、X8的模型的負二倍對數(shù)似然為:=46.224模型中有X5、X6、X8,

看是否引入X1模型含X5、X6、72第二節(jié).條件logistic回歸

第二節(jié).條件logistic回歸

73條件似然函數(shù)

條件似然函數(shù)

741:3配對的例子

1:3配對的例子

751:2配對的例子

1:2配對的例子

76表16-7條件logistic回歸的SAS程序

表16-7條件logistic回歸的SAS程序

77結(jié)果

結(jié)果

78

第三節(jié)應(yīng)用及其注意事項應(yīng)變量為(二項)分類的資料(預(yù)測、判別、危險因素分析等等)第三節(jié)應(yīng)用及其注意事項應(yīng)變量為(二79

注意事項分類自變量的啞變量編碼為了便于解釋,對二項分類變量一般按0、1編碼,一般以0表示陰性或較輕情況,而1表示陽性或較嚴重情況。如果對二項分類變量按+1與-1編碼,那么所得的,容易造成錯誤的解釋。注意事項分類自變量的啞變量編碼80西、中西、中三種療法啞變量化

原資料姓名性別年齡療法張山150中西李四120西王五018中劉六070中趙七135中西孫八029西啞變量化姓名性別年齡X1X2張山15001李四12010王五01800劉六07000趙七13501孫八02910西、中西、中三種療法啞變量化原資料姓名性81

注意事項2.自變量的篩選不同的篩選方法有時會產(chǎn)生不同的模型。實際工作中可同時采用這些方法,然后根據(jù)專業(yè)的可解釋性、模型的節(jié)約性和資料采集的方便性等,決定采用何種方法的計算結(jié)果。注意事項2.自變量的篩選82

注意事項3.交互作用交互作用的分析十分復(fù)雜,應(yīng)根據(jù)臨床意義與實際情況酌情使用。注意事項3.交互作用83

注意事項4.多分類logistic回歸心理疾病分為精神分裂癥、抑郁癥、神經(jīng)官能癥等(名義變量nominalvariables);療效評價分為無效、好轉(zhuǎn)、顯效、痊愈(有序變量ordinalvariables)。參見“余松林主編。醫(yī)學(xué)統(tǒng)計學(xué)(七年制全國規(guī)劃教材,第17章,2002年3月)”注意事項4.多分類logistic回歸84logistic回歸分析logistic回歸為概率型非線性回歸模型,是研究分類觀察結(jié)果(y)與一些影響因素(x)之間關(guān)系的一種多變量分析方法logistic回歸分析logistic回歸85問題提出:醫(yī)學(xué)研究中常研究某因素存在條件下某結(jié)果是否發(fā)生?以及之間的關(guān)系如何?因素(X)疾病結(jié)果(Y)x1,x2,x3…XK

發(fā)生Y=1不發(fā)生Y=0例:暴露因素冠心病結(jié)果高血壓史(x1):有或無有或無高血脂史(x2):有或無吸煙(x3):有或無問題提出:86研究問題可否用多元線性回歸方法?

1.多元線性回歸方法要求Y的取值為計量的連續(xù)性隨機變量。2.多元線性回歸方程要求Y與X間關(guān)系為線性關(guān)系。3.多元線性回歸結(jié)果不能回答“發(fā)生與否”logistic回歸方法補充多元線性回歸的不足研究問題可否用多元線性回歸方法?

1.多元線性回歸方法要求87Logistic回歸方法該法研究是當y取某值(如y=1)發(fā)生的概率(p)與某暴露因素(x)的關(guān)系。P(概率)的取值波動0~1范圍。

基本原理:用一組觀察數(shù)據(jù)擬合Logistic模型,揭示若干個x與一個因變量取值的關(guān)系,反映y對x的依存關(guān)系。Logistic回歸方法該法研究是88

第一節(jié)

logistic回歸

1.基本概念

logistic回歸要求應(yīng)變量(Y)取值為分類變量(兩分類或多個分類)

自變量(Xi)稱為危險因素或暴露因素,可為連續(xù)變量、等級變量、分類變量。可有m個自變量X1,X2,…Xm

第一節(jié)

logistic回歸

1.基本概念892.

logistic回歸模型方程一個自變量與Y關(guān)系的回歸模型如:y:發(fā)生=1,未發(fā)生=0x:有=1,無=0,記為p(y=1/x)表示某暴露因素狀態(tài)下,結(jié)果y=1的概率(P)模型?;蚰P兔枋隽藨?yīng)變量p與x的關(guān)系2.logistic回歸模型方程一個自變量與Y關(guān)系的回歸模90P概率10.5Z值0123-1-2-3圖16-1Logistic回歸函數(shù)的幾何圖形Β為正值,x越大,結(jié)果y=1發(fā)生的可能性(p)越大。P概率10.5Z值0123-1-2-3圖16-1Log91幾個logistic回歸模型方程幾個logistic回歸模型方程92logistic回歸模型方程的線性表達對logistic回歸模型的概率(p)做logit變換,截距(常數(shù))回歸系數(shù)Y~(-∞至+∞)線形關(guān)系方程如下:logistic回歸模型方程的線性表達對logistic回歸93在有多個危險因素(Xi)時多個變量的logistic回歸模型方程的線性表達:或在有多個危險因素(Xi)時多個變量的logistic回歸模型942.模型中參數(shù)的意義Β0(常數(shù)項):暴露因素Xi=0時,個體發(fā)病概率與不發(fā)病概率之比的自然對數(shù)比值。2.模型中參數(shù)的意義Β0(常數(shù)項):暴露因素Xi=0時,個體95的含義:某危險因素,暴露水平變化時,即Xi=1與Xi=0相比,發(fā)生某結(jié)果(如發(fā)?。﹥?yōu)勢比的對數(shù)值。

P1(y=1/x=1)的概率P0(y=1/x=0)的概率的含義:某危險因素,暴露水平變化時96

危險因素Yx=1x=0發(fā)病=130(a)10(b)不發(fā)病=070(c)90(d)a+cb+d

危險因素Yx=1x=0發(fā)病=1p1p0

不發(fā)病=01-p11-p0

有暴露因素人群中發(fā)病的比例

97

反映了在其他變量固定后,X=1與x=0相比發(fā)生Y事件的對數(shù)優(yōu)勢比。回歸系數(shù)β與ORX與Y的關(guān)聯(lián)β=0,OR=1,無關(guān)β>1,OR>1,有關(guān),危險因素β<1,OR<1,有關(guān),保護因子事件發(fā)生率很小,OR≈RR。多元回歸模型的的概念反映了在其他變量固定后,X=1與x=0相比發(fā)98二、logistic回歸模型的參數(shù)估計

1.模型中的參數(shù)(βi)估計

通常用最大似然函數(shù)(maximumlikelihoodestimate,MLE)估計β,由統(tǒng)計軟件包完成。,,二、logistic回歸模型的參數(shù)估計

1.模型中的參99

2.優(yōu)勢比(OR)及可信區(qū)間的估計

如X=1,0兩分類,則OR的1-α可信區(qū)間估計公式為回歸系數(shù)的標準誤

2.優(yōu)勢比(OR)及可信區(qū)間的估計

為回歸系數(shù)的標100例:一個研究吸煙、飲酒與食道癌關(guān)系的病例-對照資料(886例),試作logistic回歸分析。變量的賦值例:一個研究吸煙、飲酒與食道癌關(guān)系的病例-對照資料(886例101經(jīng)logistic回歸計算后得

b0=-0.9099,b1=0.8856,b2=0.5261,方程表達:控制飲酒因素后,吸煙與不吸煙相比患食管癌的優(yōu)勢比為2.4倍經(jīng)logistic回歸計算后得方程表達:控制飲酒因素后,吸煙102OR的可信區(qū)間估計吸煙與不吸煙患食管癌OR的95%可信區(qū)間:飲酒與不飲酒OR的95%可信區(qū)間:OR的可信區(qū)間估計吸煙與不吸煙患食管癌OR的95%可信區(qū)間:103三、Logistic回歸模型的假設(shè)檢驗1.檢驗一:對建立的整個模型做檢驗。說明自變量對Y的作用是否有統(tǒng)計意義。檢驗方法(講義260-261頁)1)似然比檢驗(likelihoodratiotest)2)Wald檢驗3)計分檢驗(scoretest)三、Logistic回歸模型的假設(shè)檢驗1.檢驗一:對建立的104例表16-1吸煙、飲酒與食管癌資料

(SAS軟件計算)

1.對建立的整個模型做檢驗。TestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr似然比68.54572<.0001計分檢驗67.07122<.0001Wald檢驗64.27842<.0001例表16-1吸煙、飲酒與食管癌資料

(SAS軟件計算)1.1052.檢驗二:檢驗?zāi)P椭心肠率欠駥有作用。檢驗假設(shè):檢驗統(tǒng)計量:主要為Wald檢驗(SAS軟件)例;在大樣本時,三方法結(jié)果一致。ν=1的χ2

2.檢驗二:檢驗?zāi)P椭心肠率欠駥有作用。ν=1的χ2106例表16-1資料,對各x的β做檢驗(wald檢驗)

參數(shù)β估計值

標準誤Chi-SquaPr常數(shù)-0.90990.135844.8699.0001吸煙0.88560.150034.8625

.0001飲酒0.52610.157211.2069.0008

OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimits

吸煙x12.4241.8073.253

飲酒x21.6921.2442.303例表16-1資料,對各x的β做檢驗(wald檢驗)

參數(shù)β107似然比檢驗(講義)對某個β做檢驗,檢驗統(tǒng)計量(G)包括p個自變量的對數(shù)似然函數(shù)包括l個自變量的對數(shù)似然函數(shù)G服從自由度(d)=p-l的χ2分布似然比檢驗(講義)對某個β做檢驗,檢驗統(tǒng)計量(G)包括p個自108似然比檢驗對β做檢驗例:X1為吸煙,X2為飲酒,檢驗飲酒與食管癌關(guān)系,H0:β2=0,H1:β2≠0G>3.84,p<0.05,說明調(diào)整吸煙因素后,飲酒與食管癌有關(guān)系。似然比檢驗對β做檢驗例:X1為吸煙,X2為飲酒,檢驗飲酒與食109四、變量篩選目的;將回歸系數(shù)有顯著意義的自變量選入模型中,作用不顯著的自變量則排除在外。變量篩選算法有:前進法、后退法和逐步法(stepwise)。例:講義例16-2,用逐步法選入變量的顯著水準為0.10,變量保留在方程的水準為0.15例:16-2講義261-263頁四、變量篩選目的;將回歸系數(shù)有顯著意義的自變量選入模型中,作110表16-4進入方程的自變量及參數(shù)估計變量βSbWaldχ2P標準β’OR常數(shù)-4.7051.549.300.0023年齡0.9240.4773.760.05250.4012.52X51.4960.7444.040.04430.4064.46X63.1361.2496.300.01210.70323.06X81.9470.8475.290.02150.5237.01標準回歸系數(shù)(b’)比較各自變量對Y的相對貢獻表16-4進入方程的自變量及參數(shù)估計變量β111第二節(jié)條件Logistic回歸概念:用配對設(shè)計獲得病例對照研究資料,計算的Logistic回歸模型為條件Logistic回歸。成組(未配對)設(shè)計的病例對照研究資料,計算的Logistic回歸模型為非條件Logistic回歸。例:見265頁區(qū)別:條件Logistic回歸的參數(shù)估計無常數(shù)項(β0),主要用于危險因素的分析。第二節(jié)條件Logistic回歸概念:112

第三節(jié)logistic回歸的應(yīng)用及注意事項

一、logistic回歸的應(yīng)用1.疾?。辰Y(jié)果)的危險因素分析和篩選

用回歸模型中的回歸系數(shù)(βi)和OR說明危險因素與疾病的關(guān)系。例:講義例16-1,16-2,16-3適用的資料:

前瞻性研究設(shè)計、病例對照研究設(shè)計、橫斷面研究設(shè)計的資料。三類研究計算的logistic回歸模型的β意義是一致。僅常數(shù)項不同。(證明略)

第三節(jié)logistic回歸的應(yīng)用及注意事項

113Logistic回歸的應(yīng)用

2.校正混雜因素,對療效做評價在臨床研究和療效的評價,組間某些因素構(gòu)成不一致干擾療效分析,通過該法可控制非處理因素,正確評價療效。3.預(yù)測與判別預(yù)測個體在某因素存在條件下,發(fā)生某事件(發(fā)?。┑母怕?,為進一步治療提供依據(jù)。Logistic回歸的應(yīng)用

2.校正混雜因素,對療效做評價114表5-4甲乙兩療法某病治愈率%比較病型甲療法乙療法病人治愈治愈病人治愈治愈數(shù)數(shù)率數(shù)數(shù)率普通型30018060.01006565.0重型1003535.030012541.7合計40021553.840019047.5例:例1表5-4甲乙兩療法某病治愈率%比較病型115表5-5直接法計算標準化治愈率病型標準甲療法乙療法治療原治預(yù)期原治預(yù)期人數(shù)愈率治愈數(shù)愈率治愈數(shù)普通型40060.024065.0260重型40035.014041.7167合計800380427調(diào)整率(標準化率):

表5-5直接法計算標準化治愈率病型標準116X1療法(甲=0,乙=1)X2病情(輕=1,重=0)

Y療效(Y=1有效,Y=0無效)

LOGISTIC回歸計算StandardWaldParameterEstimateErrorChi-SquaPrIntercept-0.64530.165315.24<.0001療法0.24820.16992.130.1442病情0.99000.169933.93<.0001OddsRatioEstimatePoint95%WaldEffectEstimateConfidenceLimits

療法1.2820.9191.788

病情2.6911.9293.755X1療法(甲=0,乙=1)X2病情(輕=1,重=0)

Y療效117例2性別、兩種藥物對某病療效的研究不考慮性別的影響,療效與藥物的logistic回歸χ2=10.23,p=0.0014,OR=4.46性別治療方法療效有效(y=1)無效(y=0)合計女X1=1新藥(x2=1)21627對照(x2=0)131932男X1=0新藥(x2=1)7714對照(x2=0)11011例2性別、兩種藥物對某病療效的研究性別治療方法療效有效118考慮性別、藥物對療效的作用

StandardWaldParameEstimateErrorChi-SquarePr

常數(shù)-1.90370.598210.1270.0015性別1.46850.5756.5080.0107藥物1.78160.51811.7940.0006OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimits

x1性別4.3431.40513.421x2藥物5.9392.14916.417考慮性別、藥物對療效的作用Stan119結(jié)論:性別和藥物的回歸系數(shù)都均有統(tǒng)計意義。說明女性或用新藥的療效較優(yōu)。用Logistic模型方程對個體的療效做預(yù)測:設(shè)如女性病人,x1=1,用新藥x2=1,有效的概率p=0.79如男性病人x1=0,用新藥x2=1,有效的概率p=0.4695結(jié)論:性別和藥物的回歸系數(shù)都均有統(tǒng)計意義。說明女性或用新藥的120二、Logistic回歸應(yīng)用的注意事項

1.模型中自變量的取值

自變量(X)可為計量數(shù)據(jù)、分類數(shù)據(jù)和等級數(shù)據(jù)。計量數(shù)據(jù)常重新劃為有序組段,OR的實際意義較大。例:年齡(歲,x1)

二、Logistic回歸應(yīng)用的注意事項

1.模型中自變量的取121數(shù)據(jù)的幾種賦值形式1)兩分類變量,賦值為:有=1,無=02)有序變量,賦值;無=0,少=1,中=2,多=3例;年齡<45=145-54=255-64=3≥65=43.)多分類無序變量:賦值為:啞變量(dummyvariable)形式見例:注:變量取值不同,方程的系數(shù)和符號將發(fā)生變化。數(shù)據(jù)的幾種賦值形式1)兩分類變量,賦值為:有=1,無=0122表16-2冠心病8個可能的危險因素與賦值

(講義262頁)

因素變量名賦值說明年齡(歲)X1<45=1,4554=2,5564=3,65=4高血壓史X2無=0,有=1高血壓家族史X3無=0,有=1吸煙X4不吸=0,吸=1表16-2冠心病8個可能的危險因素與賦值

(講義262頁123表16-9年齡(X)化為啞變量的賦值年齡(歲)有序變量啞變量(方法一)X水平D1D2D3<40100040~

210050~301060~

4001方程1:有序變量方程Β含義:x每增加1個單位(10歲),發(fā)病的lnOR平均增加β1表16-9年齡(X)化為啞變量的賦值年齡(歲)有序變量124方程2:啞變量方程(啞變量個數(shù)=分類數(shù)-1)方程系數(shù)的解釋:

表示40-歲/<40歲相比的對數(shù)優(yōu)勢比表示50-歲/<40歲相比的對數(shù)優(yōu)勢比表示60-歲/<40歲相比的對數(shù)優(yōu)勢比方程2:啞變量方程(啞變量個數(shù)=分類數(shù)-1)125啞變量的賦值方法例2:研究某結(jié)果與血型的關(guān)系血型(X)啞變量X1X2X3A000B100O010AB001變量規(guī)定某個分類為對照,對照組在啞變量的賦值均為0式中回歸系數(shù)表示各對比組與對照組(A型)相比的變化值。啞變量的賦值方法例2:研究某結(jié)果與血型的關(guān)系血型126270頁分析題2變量X4的啞變量的賦值方法規(guī)定治療11周=X4-1,是=1,否=0規(guī)定治療21周=X4-2,是=1,否=0規(guī)定治療1周為對照組。啞變量的賦值周X4-1X4-21~0011~1021~01270頁分析題2變量X4的啞變量的賦值方法1272.樣本含量:1)病例和對照組的例數(shù)可相等或不等。2)樣本例數(shù)的估計原則:自變量個數(shù)越多,例數(shù)越多。各組樣本例數(shù)(對照組和病例組)至少為自變量個數(shù)的5-20倍。2.樣本含量:128

3.模型的評價(講義269頁)

對所建立的回歸方程做擬合優(yōu)度檢驗。檢查模型估計與實際數(shù)據(jù)的符合情況。檢驗統(tǒng)計量:1.剩余差(deviance,記為D)(16-25)2.Pearsonχ2(16-26)統(tǒng)計量的概率值P>0.05,認為模型擬合較好例:表16-10(講義表16-10)

3.模型的評價(講義269頁)

對129表16-1資料吸煙、飲酒與食管癌的關(guān)系(SAS軟件結(jié)果)剩余差(D)與Pearsonχ2擬合優(yōu)度檢驗

DevianceandPearsonGoodness-of-FitStatistics

CriterionDFValuePr>ChiSqDeviance13.42020.0644Pearson13.42180.0643表16-1資料吸煙、飲酒與食管癌的關(guān)系(SAS軟件結(jié)果)剩余1304.多分類的Logistic回歸Logistic回歸可處理:1)應(yīng)變量(Y)為有序的多分類資料如結(jié)果為:治愈、顯效、好轉(zhuǎn)、無效2)應(yīng)變量(Y)為無序的多分類資料例:研究闌尾炎類型與危險因素關(guān)系闌尾炎類型有:卡他型、壞疽型、腹膜炎型多分類Logistic回歸方法(略)4.多分類的Logistic回歸Logistic回歸可處理:131結(jié)果的表達一般logistic回歸分析報告內(nèi)容:1.危險因素的回歸系數(shù)及標準誤、p值2.標準化的回歸系數(shù)。3.危險因素對應(yīng)的OR和可信區(qū)間4.Logistic回歸方程講義264頁結(jié)果的表達一般logistic回歸分析報告內(nèi)容:講義264132本節(jié)重點掌握內(nèi)容和作業(yè)一、問答題1.Logistic回歸與線性回歸有什么不同?2.Logistic回歸可解決哪些問題?3.自變量可以有哪些類型,應(yīng)用時應(yīng)如何賦值?4.Logistic回歸中β的含義和方程的表達。二、計算分析題的第2題的第(1)題。本節(jié)重點掌握內(nèi)容和作業(yè)一、問答題133LogisticregressionLogistic回歸應(yīng)用Logistic回歸應(yīng)用134

醫(yī)學(xué)研究中常碰到應(yīng)變量的可能取值僅有兩個(即二分類變量),如發(fā)病與未發(fā)病、陽性與陰性、死亡與生存、治愈與未治愈、暴露與未暴露等,顯然這類資料不滿足多重回歸的條件什么情況下采用Logistic回歸醫(yī)學(xué)研究中常碰到應(yīng)變量的可能取值135

Brown(1980)在術(shù)前檢查了53例前列腺癌患者,擬用年齡(AGE)、酸性磷酸酯酶(ACID)兩個連續(xù)型的變量,X射線(X_RAY)、術(shù)前探針活檢病理分級(GRADE)、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論