多元logistics回歸分析_第1頁
多元logistics回歸分析_第2頁
多元logistics回歸分析_第3頁
多元logistics回歸分析_第4頁
多元logistics回歸分析_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、多元Logistics回歸分析,內(nèi)容,基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用,內(nèi)容,基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用,從數(shù)學(xué)角度看,logistic回歸模型非常巧妙地避開了分類型變量的分布問題,補(bǔ)充完善了線性回歸模型和廣義線性回歸分析的缺陷,因變量y 是分類型變量,自變量x是與之有關(guān)的一些因素。但是,這樣的問題卻不能直接用線性回歸分析方法來解決,其根本原因就在于因變量是分類型變量,嚴(yán)重違背了線性回歸分析對數(shù)據(jù)的假設(shè)條件,從數(shù)學(xué)角度看,很難找到一個(gè)函數(shù)y=f (x),當(dāng)x變化時(shí),它對應(yīng)的函數(shù)值y僅取兩個(gè)或幾個(gè)有限值,研究者

2、將所要研究的問題轉(zhuǎn)換了一個(gè)角度,不是直接分析y與x的關(guān)系,而是分析y取某個(gè)值的概率p與x的關(guān)系,分析因變量y取某個(gè)值的概率p與自變量x的關(guān)系,等價(jià)于尋找一個(gè)連續(xù)函數(shù)p=p(x),使得當(dāng)x變化時(shí),它對應(yīng)的函數(shù)值p不超出0,1范圍。數(shù)學(xué)上這樣的函數(shù)是存在且不唯一的,logistic回歸模型就是滿足這種要求的函數(shù)之一,根據(jù)數(shù)據(jù)的類型,logistic回歸分析分為兩種: 一種是條件logistic回歸(conditional logistic regression),用于分析配對病例對照研究數(shù)據(jù)。 另一種是非條件logistic回歸(unconditional logistic regression)

3、,用于分析成組數(shù)據(jù)或非配對的病例對照研究。 非條件logistic回歸分析也簡稱為logistic回歸分析,內(nèi)容,基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用,logistic回歸模型對變量的要求,Logistic回歸分析要求因變量是分類變量,包括順序變量和名義變量。不論是哪種變量都要用數(shù)字來表示它的取值。自變量可以是數(shù)值型連續(xù)變量,也可以是順序型分類變量,如果是名義變量,則需要轉(zhuǎn)換成啞變量來處理,logistic回歸模型的個(gè)數(shù),取決于因變量的取值個(gè)數(shù)。因?yàn)?logistic回歸模型描述的是因變量取每個(gè)值的概率與自變量的關(guān)系,因此因變量的每一個(gè)值都對應(yīng)一個(gè)模型。但是

4、由于概率之和為1,所以當(dāng)因變量是g值變量時(shí),只需要估計(jì)g-1個(gè)模型,二值因變量的 logistic回歸模型,假設(shè)因變量 y是一個(gè)取值為1和0的二值變量(binary variable),x 是一個(gè)影響y 的危險(xiǎn)因子(risk factor)。令在x 條件下y=1的概率是 p=p(y=1| x),那么,表達(dá)式,多元 logistic回歸模型,如果對模型的概率 p 進(jìn)行l(wèi)ogit 變換,logistic回歸模型的另一種形式,它給出的是變量z=logit(p)關(guān)于x 的線性函數(shù),多值變量的 logistic回歸模型,p j = p( y j | x ),它表示了 y 取前 j 個(gè)值的累積概率(cum

5、ulative probability,累積概率函數(shù),第一個(gè)模型表示了y 取第一個(gè)值的概率p1與x的關(guān)系;第二個(gè)模型表示了y 取前兩個(gè)值的累積概率p2與x的關(guān)系。這兩個(gè)模型的常數(shù)項(xiàng)不同,回歸系數(shù)完全相同的。 y 取第一個(gè)值的概率p(1)=p1 ,y 取第二個(gè)值的概率p(2)=p2 -p1,y 取第三個(gè)值的概率p(3)=1- p2 。它們的截距不同,斜率相同,所以是g-1條平行直線族。多值因變量logistic回歸模型要求進(jìn)行數(shù)據(jù)的平行性檢驗(yàn),內(nèi)容,基本原理 數(shù)學(xué)模型 方法步驟 - 參數(shù)估計(jì) - 檢驗(yàn)參數(shù) - 模型檢驗(yàn) - 平行性檢驗(yàn) 系數(shù)解釋 條件Logistics分析 應(yīng)用,參數(shù)估計(jì),在lo

6、gistic回歸分析模型中,回歸系數(shù)的估計(jì)方法通常是最大似然法(Maximum Likelihood method)。最大似然法就是選取使得總體真參數(shù)落在樣本觀察值領(lǐng)域里的概率達(dá)到最大的參數(shù)值作為真參數(shù)的估計(jì)值,為了得到一個(gè)非偏估計(jì)(non-biased estimate),需采用重復(fù)遞推的方法,將最大似然估計(jì)值不斷修正。軟件系統(tǒng)使用的是重復(fù)加權(quán)最小二乘遞推法(iteratively reweighted least squares algorithm)來估計(jì)回歸系數(shù),和線性回歸分析一樣,logistic回歸模型的回歸系數(shù)是自變量對應(yīng)變量作用大小的一種度量。因?yàn)樽宰兞康膯挝徊煌?,不能用回歸系數(shù)

7、的估計(jì)值來判斷哪一個(gè)自變量對因變量的影響作用最大。為了要進(jìn)行比較,需要計(jì)算出標(biāo)準(zhǔn)回歸系數(shù)。計(jì)算原理和線性回歸分析一樣。在標(biāo)準(zhǔn)回歸系數(shù)估計(jì)值中,絕對值最大的標(biāo)準(zhǔn)回歸系數(shù)對應(yīng)的 x 變量對 y 變量的影響最大,檢驗(yàn)參數(shù),統(tǒng)計(jì)假設(shè)常用的方法是Ward卡方檢驗(yàn)。當(dāng)大于樣本對應(yīng)的Ward卡方值的概率小于0.05時(shí),在統(tǒng)計(jì)意義上可以拒絕上述零假設(shè)。即,可以認(rèn)為第 j個(gè) x 變量對y=1的概率p有顯著性影響,其犯第一類錯誤的可能性不超過5% 。和線性回歸分析一樣,當(dāng)自變量個(gè)數(shù)較多時(shí),可采用逐步回歸分析方法來篩選危險(xiǎn)因子,模型檢驗(yàn),logistic回歸模型的總體檢驗(yàn)常用的方法有,AIC檢驗(yàn)法(Akaike I

8、nformation Criterion)。用于比較同一數(shù)據(jù)下的不同模型(含自變量個(gè)數(shù)不同)。AIC值越小,模型越合適。AIC值的計(jì)算公式是,SC檢驗(yàn)法(Schwarte Coriterion)。和AIC一樣,用于比較同一數(shù)據(jù)下的不同模型(含自變量個(gè)數(shù)不同)。SC值越小,模型越合適。SC的計(jì)算公式是,似然比檢驗(yàn)法(G= -2log L)。用于檢驗(yàn)全部自變量(包括常數(shù)項(xiàng))對因變量的聯(lián)合作用。它的計(jì)算公式是,計(jì)分檢驗(yàn)法(Score)。用于檢驗(yàn)全部自變量(不包括常數(shù)項(xiàng))對因變量的聯(lián)合作用,因變量取值個(gè)數(shù),平行性檢驗(yàn),當(dāng)因變量為多值變量時(shí),模型包含多個(gè)回歸方程。Logistic回歸分析要求這多個(gè)回歸方

9、程中自變量的系數(shù)是相等的。因此對于多值變量的logistic回歸模型,要求作平行性檢驗(yàn),也稱為比例比數(shù)假設(shè)檢驗(yàn)(test for the proportional odds assumption),使用的方法是計(jì)分檢驗(yàn)法,當(dāng)檢驗(yàn)結(jié)果p0.05時(shí),沒有理由拒絕上述無效假設(shè),這時(shí),多值變量的logistic回歸模型有統(tǒng)計(jì)意義。否則,應(yīng)當(dāng)將因變量的某些值合并,減少因變量的取值個(gè)數(shù),使得多值變量logistic回歸模型的平行性成立,內(nèi)容,基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用,常數(shù)項(xiàng)):暴露因素Xi=0時(shí),個(gè)體發(fā)病概率與不發(fā)病概率之比的自然對數(shù)比值,的含義:某危險(xiǎn)因素

10、,暴露水平變化時(shí),即Xi=1與Xi=0相比,發(fā)生某結(jié)果(如發(fā)?。﹥?yōu)勢比的對數(shù)值,P1(y=1/x=1)的概率,P0(y=1/x=0)的概率,多元回歸模型的的 概念,反映了在其他變量固定后,X=1與x=0相比發(fā)生Y事件的對數(shù)優(yōu)勢比。 回歸系數(shù)與OR X與Y的關(guān)聯(lián) =0,OR=1, 無關(guān) 1,OR1 , 有關(guān),危險(xiǎn)因素 1,OR1, 有關(guān),保護(hù)因子 事件發(fā)生率很小,ORRR,復(fù)習(xí)相關(guān)概念,相對危險(xiǎn),比數(shù)比,相對危險(xiǎn)RR表示暴露在危險(xiǎn)因子下的發(fā)病率與不暴露在危險(xiǎn)因子下的發(fā)病率的比。例如,如果RR=2.5,那么,暴露下的發(fā)病率是非暴露下的發(fā)病率的2.5倍。比數(shù)比OR表示暴露在危險(xiǎn)因子下的發(fā)病率與不發(fā)病

11、率之比與非暴露在危險(xiǎn)因子下的發(fā)病率與不發(fā)病率之比的比。比較以上公式可以看出,當(dāng)發(fā)病率很低時(shí),ORRR。因此,當(dāng)發(fā)病率很低時(shí),OR=2.5也可以解釋為:暴露下的發(fā)病率是非暴露下的發(fā)病率的2.5倍,或暴露下發(fā)病的幾率比非暴露下發(fā)病的幾率高150,一元logistic回歸模型系數(shù)的解釋,當(dāng)發(fā)病率很低時(shí),ORRR,因此這時(shí)e RR,也就是說,e 近似地表示了相對危險(xiǎn)度,即暴露下的發(fā)病率與非暴露下的發(fā)病率之比,有啞變量的logistic回歸模型系數(shù)的解釋,每一個(gè)組與對照組的相對危險(xiǎn)度的估計(jì)值。 任意兩組間的OR=ei / ej,無交互影響的多元Logistic回歸模型的系數(shù)解釋,如果模型中因變量y=1,

12、0分別表示有胃病和無胃?。蛔宰兞?x 1 =1,0分別表示吸煙和不吸煙;自變量 x 2 =1,0分別表示飲酒和不飲酒,那么,e1 近似地表示消去了飲酒因素的影響后吸煙者患胃病的幾率與不吸煙者患胃病的幾率之比。e2 近似地表示消去了吸煙因素的影響后飲酒者患胃病的幾率與不飲酒者患胃病的幾率之比,設(shè)因變量 y 取值1和0,分別表示患病和未患病。設(shè)自變量 x 1取值1和0,設(shè)自變量 x 2取值1和0。這樣 x 1 和 x 2 的交叉水平有四個(gè),它們是(1,1)、(1,0)、(0,1)、(1,1),建立四個(gè)啞變量分別代表這四個(gè)水平,記為 x11、 x 10、 x 01、 x 00 ,它們表示了四種不同的

13、方式。將前三個(gè)啞變量放進(jìn)模型,則可以得前三種方式相對于最后一種方式患病的相對危險(xiǎn)度,有交互影響的多元logistic回歸模型的系數(shù)解釋,多值變量的logistic回歸模型的系數(shù)解釋,對于多值因變量模型,平行性假設(shè)決定了每個(gè)自變量的OR值對于前g-1個(gè)模型是相同的。例如,變量x1的OR=5.172,它表示使用第一種的可能性是使用第二種的5.172倍;它也表示使用第一種至少有效的可能性是使用第二種的5.172倍,內(nèi)容,基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用,條件似然函數(shù),共有n個(gè)匹配組,1:m配對,p個(gè)變量資料的條件似然函數(shù),再用最大似然法求解參數(shù)估計(jì)值,由于匹配

14、關(guān)系,在模型中不含常數(shù)項(xiàng),數(shù)據(jù)資料特征,1:3配對,內(nèi)容,基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用,Logistic回歸分析在醫(yī)學(xué)研究中有著相當(dāng)廣泛的應(yīng)用價(jià)值。歸納起來主要的應(yīng)用有: 1)篩選危險(xiǎn)因子。它常用在流行病學(xué)的病因?qū)W研究中。 2)校正混雜因子,校正非研究因素對研究因素的混雜作用。如它可以消除性別、年齡、病情等對治療效果分析的干擾,消除年齡、職業(yè)、收入等對生活嗜好與疾病關(guān)系分析的干擾等。 3)預(yù)測疾病或事件發(fā)生的概率。非條件logistic回歸模型是一個(gè)概率模型,它可以用來預(yù)測事件發(fā)生的概率,如暴露在某些危險(xiǎn)因素下得病的概率,這是其它模型不具有特性。 4

15、)將樣本進(jìn)行判別分類。它起的作用和判別分析(第十三章,例13-2)一樣,但它對數(shù)據(jù)的分布沒有嚴(yán)格要求,在醫(yī)學(xué)研究中使用很方便。 5)logistic曲線的擬和。醫(yī)學(xué)中不少指標(biāo)變量之間的關(guān)系呈現(xiàn)如圖7-1所示的logistic曲線形狀。例如劑量和反應(yīng)的關(guān)系。根據(jù)擬和曲線可以作有效劑量估計(jì),劑量反應(yīng)的趨勢分析等,內(nèi)容,基本原理 數(shù)學(xué)模型 方法步驟 系數(shù)解釋 條件Logistics分析 應(yīng)用 - 實(shí)例分析,某大學(xué)醫(yī)院外科采用兩種不同的繃帶(bandage-4-layer和convatee)和兩種不同的包扎方式(Granuflex和Na)進(jìn)行腿潰瘍的治療處理。治療的結(jié)果分三種:不愈、有效和痊愈。治療方

16、式和治療效果列在表7-6中。試分析治療方法對治療效果的影響。 設(shè)因變量 y 表示治療效果,0=不愈、1=有效、2=痊愈。設(shè)因變量 x 1表示繃帶種類,1=bandage-4-layer、2=convatee。自變量 x 2 表示包扎方式,1=Granuflex、2=Na,data eg7_6; input y x1 x2 wt ; cards; 0 0 0 19 2 1 1 5 run; proc logistic descending; model y=x1 x2; weight wt; run,SAS程序,SAS輸出結(jié)果】 The LOGISTIC Procedure Response P

17、rofile Ordered Total Value Y Count Weight 1 2 4 15.000000 2 1 4 25.000000 3 0 4 59.000000 Score Test for the Proportional Odds Assumption Chi-Square = 0.7505 with 2 DF (p=0.6871) Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi

18、-Square for Covariates AIC 190.499 178.977 . SC 191.469 180.916 . -2 LOG L 186.499 170.977 15.522 with 2 DF (p=0.0004) Score . . 14.849 with 2 DF (p=0.0006) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCP1 1 -2.6680 0.4657 32.8270 0.0001 . . INTERCP2 1 -1.1711 0.3930 8.8820 0.0029 . . X1 1 1.6433 0.4380 14.0736 0.0002 1.358335 5.172 X2 1 -

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論