版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
28.二元Logistic回歸二元或多元線性回歸的因變量都是連續(xù)型變量,若因變量是分類變量(例如:患病與不患??;不重要、重要、非常重要),就需要用Logistic回歸。Logistic回歸分析可以從統(tǒng)計(jì)意義上估計(jì)出在其它自變量固定不變的情況下,每個(gè)自變量對(duì)因變量取某個(gè)值的概率的數(shù)值影響大小。Logistic回歸模型有“條件”與“非條件”之分,前者適用于配對(duì)病例對(duì)照資料的分析,后者適用于隊(duì)列研究或非配對(duì)的病例-對(duì)照研究成組資料的分析。對(duì)于二分類因變量,y=1表示事件發(fā)生;y=0表示事件不發(fā)生。事件發(fā)生的條件概率P{y=1|X/}與x‘之間是非線性關(guān)系,通常是單調(diào)的,即隨著Xj的增加/減少,P{y=1|X/}也增加/減少。Logistic函數(shù)F(x)=^,圖形如下圖所示:1ex該函數(shù)值域在(0,1)之間,x趨于-8時(shí),F(xiàn)(x)趨于0;x趨于+8時(shí),F(xiàn)(x)趨于1.正好適合描述概率P{y=1|xj.例如,某因素x導(dǎo)致患病與否:X在某一水平段內(nèi)變化時(shí),對(duì)患病概率的影響較大;而在X較低或較高時(shí)對(duì)患病概率影響都不大。記事件發(fā)生的條件概率P{y=1|x.}=P/.,則1 _。加ip. 11e(gj)leaBx[記事件不發(fā)生的條件概率為1P' ieaBxi則在條件X'下,事件發(fā)生概率與事件不發(fā)生概率之比為pi=eaBxj圮i稱為事件的發(fā)生比,簡(jiǎn)記為odds.對(duì)odds取自然對(duì)數(shù)得到V.In( I—)=aBx1p. i上式左邊(對(duì)數(shù)發(fā)生比)記為L(zhǎng)ogit(y),稱為y的Logit變換??梢?jiàn)變換之后的Logit(y)就可以用線性回歸,計(jì)算出回歸系數(shù)a和B值。若分類因變量y與多個(gè)自變量X.有關(guān),則變換后Logit(y)可由多元線性回歸:logit(p)=ln(P)=以+。尤+L。尤
p—1 iikkP(>=11/'號(hào)=1+.Sy卜)一、簡(jiǎn)單的二元Logistic回歸出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比,稱為優(yōu)勢(shì)比OR.問(wèn)題1:研究“低體重出生兒”與“孕婦是否吸煙”之間的關(guān)系有數(shù)據(jù)文件:
i:lkwageIwtracesmokePtlnt.IIftvbwt1850191B220001025232S60331553QQQQ325513球°30105110025571&6021108110012259458901810711001026006910211243000002622792°22ne1000013637&9317103300026S7994029123110001266S109502G1131100002665119&Q1995300000272212970191503000012733類崟寬度小敝標(biāo)簽值皖^「列度1id數(shù)值N4o王逅右疥喪MS)2low數(shù)值〔N)40低出生悻圭兒(0,E…無(wú)」5ME」序號(hào)。)3age鼓值N50產(chǎn)歸W搟無(wú)4Iwt數(shù)值〔N)70產(chǎn)汨詐圭無(wú)亍上MEZSfi(s)5race裁值〔N)40(1.三A)MW兌名義剝)6smoke數(shù)值〔N)50亡汨在妊死期間昆與既煙(0.不吸畫…亍T與Ed眄〔57ptl教固N(yùn))40本次妊演前早產(chǎn)京數(shù)W,三}巴¥夕凄.晝冏8ht數(shù)團(tuán)N)40是否患寫信血壓(0,=;..一二T與右J.序號(hào)心)9ui數(shù)值〔N)40應(yīng)滋生W,三}E¥=wd.?(o)Wftv數(shù)值【N)40通訪次救(0.=1..一m右Z^S(S)1_1 bwt鼓值N60蟲(chóng)生津董(刻無(wú)£=w因變量low:是否“低體重出生兒”(0=正常,1=低體重);自變量smoke:是否吸煙(0=不吸煙,1=吸煙)【分析】 【回歸】 【二元Logistic】,打開(kāi)“Logistic回歸”窗口,將變量“l(fā)ow”選入【因變量】框,變量"Smoke”選入【協(xié)變量】框;
點(diǎn)【確定】,得到 因變量初始值編碼正常低出生體重 01塊0:起始?jí)K正常低出生體重兒低出生體重總計(jì)百分比模型中包括常量。切割值為.500若模型只含常數(shù)項(xiàng),預(yù)測(cè)正確率為68.8%(=130/189);BWalsdf■790253271g 000454B=-0.79為模型常數(shù)項(xiàng)估計(jì)值,S.E為B的標(biāo)準(zhǔn)誤;Wals為Wald卡方檢驗(yàn),原假設(shè)H0:回歸系數(shù)=0;
Exp(B)=0.454(表示患病率與未患病率之比:(1-68.8%)/68.8%);得分fSig變量 smoke步驟04.9241.026總統(tǒng)計(jì)量 49241026引入變量后的得分,以及該變量的回歸系數(shù)是否為0的檢驗(yàn),原假設(shè)H0:回歸系數(shù)=0;(主要針對(duì)逐步引進(jìn)多個(gè)變量時(shí)的變量篩選)塊1:方法=輸入卡方fSig步驟4.8671.027步驟1 塊4.8671.027 模型—48671027似然比卡方值,上一模型(常數(shù)項(xiàng)模型)與當(dāng)前模型似然比值之差,檢驗(yàn)兩個(gè)模型有無(wú)差異,原假設(shè)H0:無(wú)差異。步驟 -2對(duì)數(shù)似然值―Cox&SnellR方 Narra1 J J17—1-1 U 229805a 025- 036-a.因?yàn)閰?shù)估計(jì)的更改范圍小于.001,所以估計(jì)在迭代次數(shù)4處終止。當(dāng)前模型的對(duì)數(shù)似然比值=229.805,兩個(gè)R方從不同角度反映了當(dāng)前模型自變量解釋因變量的變異占因變量總變異的比例?!?分類已觀測(cè)商 ZU王市湖 /hluah*擊II 百分比校正正常低出生體重正常低出生體重兒步驟1 低出生體重130590100.0.0688a.切割值為.500分類表,概率值>0.5判定為患??;與常數(shù)項(xiàng)模型結(jié)果相同,預(yù)測(cè)正確率仍為68.8%方程中的變量BSEWaisfS"smoke.704.3204.8521.0282.022步驟ia常量-1087215256271000337a.在步驟1中輸入的變量:smoke.自變量的偏回歸系數(shù)及標(biāo)準(zhǔn)誤、Wald卡方、自由度、P值、OR值Exp(B).從而得到Logistic回歸模型:Logit(P)=-1.087+0.704*smoke模型結(jié)果解釋: 產(chǎn)婦在妊娠期間是否吸煙*低出生體重兒交1叉制表 杵LLJ廿,太擊II 合計(jì)正常低出廿體重計(jì)數(shù)8629115不吸煙產(chǎn)婦在妊娠期間是否吸煙中的%74.8%25.2%100.0%產(chǎn)婦在妊娠期間是否吸煙計(jì)數(shù)443074吸煙產(chǎn)婦在妊娠期間是否吸煙中的%59.5%40.5%100.0%計(jì)數(shù)13059189合計(jì) 產(chǎn)婦在妊娠期間是否吸煙巾的%688%312%1000%常數(shù)項(xiàng):為自變量都取0時(shí),優(yōu)勢(shì)比(P{Y=1}/P{Y=0})的自然對(duì)數(shù)值,即不吸煙組的低體重兒概率與正常兒概率之比的對(duì)數(shù)值:P0=ln[25.2%/(1-25.2%)]=ln(29/86)=-1.087即exp(P0)表示不吸煙組的低體重兒概率與正常兒概率之比。回歸系數(shù):穴表示自變量%每改變一個(gè)單位,優(yōu)勢(shì)比的自然對(duì)數(shù)值的改變量;exp他)即優(yōu)勢(shì)比OR值,表示自變量%每改變一個(gè)單位,陽(yáng)性結(jié)果出現(xiàn)的概率與不出現(xiàn)的概率的比值是改變前相應(yīng)比值的exp他)倍。例如,本例中P1=ln[(30/44)/(29/86)]=0.704相應(yīng)的OR值=exp(0.704)=2.02,表示吸煙狀況增加一個(gè)單位,即從不吸煙改為吸煙時(shí),“吸煙組的低體重兒概率與正常兒概率之比”是“不吸煙組的低體重兒概率與正常兒概率之比”的2.02倍。注意:OR值反映的不是陽(yáng)性結(jié)果出現(xiàn)概率的變化倍數(shù)(相對(duì)危險(xiǎn)度RR)。二、將多分類自變量設(shè)置為啞變量對(duì)于問(wèn)題1,若將自變量“race種族”,1=白人、2=黑人、3=其它種族】引入模型。注意,這里的1、2、3并不表示種族之間的次序關(guān)系,即說(shuō)“該自變量每增加1個(gè)單位”是錯(cuò)誤的。此時(shí),就需要將其設(shè)置為啞變量(只代表若干級(jí)別間的差異),這樣的回歸結(jié)果才有明確合理的實(shí)際意義。對(duì)于有n個(gè)水平值的分類自變量%,默認(rèn)生成n-1個(gè)啞變量:x(1),…,%(n-1).本例中,對(duì)變量“race”有3個(gè)水平值,race(1)=“是否為白人:1=是,0=不是”;race(2)=“是否為黑人:1=是,0=不是”其它種族作為參照水平(race(1)、race(2)都取0).從而白人、黑人、其它種族分別編碼如下:
在“Logistic回歸窗口”將變量“race”選入【協(xié)變量】框,點(diǎn)【分類】,打開(kāi)"定義分類變量”子窗口,將變量"race”選入【分類協(xié)變量】框,點(diǎn)【繼續(xù)】;注:【更改對(duì)比】框,可選擇“對(duì)比方式”:變量】框,點(diǎn)【繼續(xù)】;注:【更改對(duì)比】框,可選擇“對(duì)比方式”:指示:指定某一分類水平作為參照水平,可選第一或最后一個(gè)水平值;簡(jiǎn)單:可計(jì)算該分類變量的各水平與參照水平相比的月,值;差值:用于有序分類變量,分類變量某個(gè)水平與其前面的所有水平平均值進(jìn)行比較;Helmert:與“差值”相反,用于有序分類變量,分類變量某個(gè)水平與其后面的所有水平平均值進(jìn)行比較;重復(fù):分類變量的各水平與其前面相鄰的水平相比較;多項(xiàng)式:僅用于數(shù)值型分類變量,各水平值和logitP間可能是多項(xiàng)式關(guān)系,則依次用一個(gè)啞變量代表一個(gè)“次方”項(xiàng),并分別給出檢驗(yàn)結(jié)果(原假設(shè)H0:各水平是等距離的);偏差:除所規(guī)定的參照水平外,其余每個(gè)水平均與總體水平相比,此時(shí)每個(gè)水平的回歸系數(shù)都是相對(duì)于總體水平而言的改變量(參照水平可以用其它水平回歸系數(shù)計(jì)算)。注:這里的方式選擇與【方差分析】的“contrast"選擇是相同的。下面以“race”為例計(jì)算出的各種方式的系數(shù)轉(zhuǎn)化關(guān)系如下:>lfl.2換算寰(一】種族IndirmT(屁[)IndiEtm(iirsi) Sinnpie(1ast)Simple(firs!.,)Differnn^e廿人閏=A-((J)—(0)黑人仞=凡"】尻=其崗=禹-flj/l其慵神雎=0)呂=0-四-(D)4=。-昆衰偵,3換J?表(二)種族HelnicrlRepealedDDvialion(laHt)DeTiatinnffirst)白人月;*0)/2國(guó)=四-其供=由-s十伐+0)/3■&T禹*禹+t?/31黑人日:=0-(j3, +0)/3研-丹-3+A+0J/3K他種族一⑴TE一[禺二。-皿+是4■0)/3]民=冉T州+用注意:(1)參照水平最好有實(shí)際意義,否則就失去比較的目標(biāo),不建議用“其它”作為參照水平;參照水平組應(yīng)有一定的頻數(shù)做保證(不少于30或50);(2)對(duì)有序自變量,若從專業(yè)來(lái)看:不同等級(jí)對(duì)因變量的影響程度是一致的,可將該變量作為連續(xù)型變量處理;否則,需要分別以啞變量和連續(xù)型變量方式引入模型,觀察各啞變量的回歸系數(shù)間是歐服存在等級(jí)關(guān)系,以及對(duì)兩個(gè)模型進(jìn)行似然比檢驗(yàn),若無(wú)統(tǒng)計(jì)學(xué)意義,且各啞變量的回歸系數(shù)間存在等級(jí)關(guān)系,可以將該自變量作為連續(xù)型變量,否則最好是用啞變量方式,引入模型。三、自變量的篩選與逐步回歸回歸模型應(yīng)該盡量引入對(duì)因變量有影響作用的變量,將沒(méi)有影響或影響較小的變量排除。用到的假設(shè)檢驗(yàn)方法有:Walds檢驗(yàn)(最差,未考慮各因素的綜合作用)、似然比檢驗(yàn)(最可靠,基于整個(gè)模型的擬合情況、比分檢驗(yàn)(最常用于篩選變量,一般與似然比檢驗(yàn)結(jié)果一致)。SPSS提供了6種篩選變量的方法(選入自變量時(shí)均采用比分檢驗(yàn),剔除自變量的標(biāo)準(zhǔn)不同):向前(條件)、向前(LR)、向前(Wald)、向后(條件)、向后(LR)、向后(Wald)。問(wèn)題2:用逐步回歸法對(duì)“低體重出生兒”做二元Logistic分析。1.【分析】一一【回歸】一一【二元Logistic],打開(kāi)“Logistic回歸”窗口,將變量“l(fā)ow”選入【因變量】框,變量%ge,lwt,race,smoke,ptl,ht,ui,何”選入【協(xié)變量】框;
2.點(diǎn)【分類】,打開(kāi)"定義分類變量”子窗口,將變量“race'選入【分類協(xié)變量】框,【更改對(duì)比】選“指示符”,勾選“第一個(gè)”點(diǎn)【更改】,點(diǎn)【繼續(xù)】;3.原窗口【方法】框選擇“向前LR”,表示向前似然比法,點(diǎn)【確定】得到 因變量初始值編碼 正常低出生體重 0 頻率 金敦.編碼 ?。?)白人96.000.000種族 黑人261.000.000 其他種族—670001000
分類已觀測(cè)是b 口xgii /HLU+Hr養(yǎng)II 百分比校正正常低出生體重正常低出生體重兒步驟0 低出生體重 總計(jì)百分比130590100.0.06881模型中包括常量.切割值為.500BWalsdf^驟^ 常量 -790I 25327 g000454得分dfage2.4071L1lwt4.6161.032race5.0052.082race(1)1.7271.189race(2)1.7971.180變量步驟0 smoke4.9241.026ptl7.2671.007ht4.3881.036ui4.2051.040ftv.9341.334總統(tǒng)計(jì)量 291409001所有變量的比分檢驗(yàn)結(jié)果,race產(chǎn)生2個(gè)啞變量,故自由度為2;變量“ptl妊娠前早產(chǎn)次數(shù)”的得分最大為7.267,其P值=0.007<0.05,故下一步將它首先選入模型。
上方dfSig步驟6.7791.009步驟1 塊6.7791.009模型6.7791.009步驟4.3091.038步驟2 塊11.0892.004模型11.0892.004步驟6.3631.012步驟3 塊17.4523.001 模型 17452 3- 00^每一步引入變量后,整個(gè)模型中是否所有回歸系數(shù)均為0的似然比檢驗(yàn)表。步驟 2對(duì)數(shù)似然值 Cox&SnellR方123227.893a223.583b217220b.035.057088.050.080124因?yàn)閰?shù)估計(jì)的更改范圍小于.001,所以估計(jì)在迭代次數(shù)3處終止。因?yàn)閰?shù)估計(jì)的更改范圍小于.001,所以估計(jì)在迭代次數(shù)4處終止。每一步的-2log(L)值逐步減小,兩個(gè)R方逐步增大?!?分類已觀測(cè) zogmii JHLUAF*擊II 百分比校正正常低出生體重正常126496.9低出生體重兒步驟1低出生體重5723.4總計(jì)百分比67.7正常121993.1低出生體重兒步驟2低出生體重50915.3總計(jì)百分比68.8正常123794.6低出生體重兒步驟3低出生體重471220.3 總計(jì)百分比71刀a.切割值為.500每一步的分類結(jié)果表。
方程中的變量 BseI""fptl.802.3176.3911.0112.230步驟1a常量-.964.17530.3701.000.381ptl.823.3186.6831.0102.277步驟2bht1.272.6164.2701.0393.569常量-1.062.18433.2241.000.346lwt-.015.0075.5841.018.985ptl.728.3274.9611.0262.071步驟3cht1.789.6946.6391.0105.986量 893829115812822441在步驟1中輸入的變量:ptl.在步驟2中輸入的變量:ht.在步驟3中輸入的變量:lwt.逐步回歸每一步引入的自變量及其回歸系數(shù)的估計(jì)值、標(biāo)準(zhǔn)誤、Walds卡方、自由度、P值、OR.最終依次篩選出的變量是:ptl(妊娠前早產(chǎn)次數(shù)),ht(是否高血壓),lwt(產(chǎn)婦體重)??梢缘玫絃ogistic回歸方程:Logit(P)=0.893+0.728*ptl+1.789*ht0.015*lwt變量模型對(duì)數(shù)似然性在-2對(duì)數(shù)似然中的df更改的顯著性更改步驟1 ptl-117.3366.7791.009ptl-115.3257.0671.008步驟2ht-113.9464.3091.038lwt-111.7926.3631.012步驟3 ptl-111.2315.2421.022-112ER70701008已選入模型的變量,在后續(xù)步驟中是否需要剔除出模型的似然比檢驗(yàn)結(jié)果表,根據(jù)P值判斷都不剔除。
得分fage3.1491lwt3.3401.068race5.3592.069race(1)2.0561.152變量 race(2)1.7121.191步驟1smoke3.1641.075ht4.7221.030ui2.1621.141ftv.7531.385總統(tǒng)計(jì)量22.8588.004age3.1081.078lwt5.8301.016race4.8822.087race(1)1.5971.206變量步驟2 race(2)1.8341.176smoke3.1171.078ui3.0101.083ftv.5201.471總統(tǒng)計(jì)量18.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年廢舊材料銷售框架合同
- 文書模板-裝卸貨高空作業(yè)合同
- 2024年建筑工程分包合同
- 玫瑰的課件教學(xué)課件
- 2024年人工智能教育平臺(tái)開(kāi)發(fā)合同
- 2024醫(yī)療設(shè)備維修公司關(guān)于超聲波機(jī)器保修服務(wù)合同
- 停電停氣應(yīng)急預(yù)案(6篇)
- 2024年建筑工程機(jī)電安裝分包協(xié)議
- 2024年庫(kù)房租賃與無(wú)人機(jī)測(cè)試存放合同
- 2024年專業(yè)咨詢合作協(xié)議
- 船運(yùn)公司船舶管理部部門職責(zé)說(shuō)明書
- 人教PEP小學(xué)三年級(jí)英語(yǔ)上冊(cè)知識(shí)點(diǎn)歸納
- 排球比賽記錄表
- 新人教版一年級(jí)數(shù)學(xué)上冊(cè)期末試卷
- 高二年級(jí)期中考試成績(jī)分析(課堂PPT)
- 學(xué)校安全檢查管理臺(tái)賬
- 中學(xué)文化地理興趣社章程及考評(píng)細(xì)則(共5頁(yè))
- 小學(xué)二年級(jí)上冊(cè)音樂(lè)-第6課《小紅帽》--人音版(簡(jiǎn)譜)(15張)ppt課件
- 鐵路物資管理模擬考試試題
- 初中歷史課堂教學(xué)如何體現(xiàn)學(xué)生的主體地位
- 部編版三年級(jí)上冊(cè)語(yǔ)文課件-習(xí)作六:這兒真美---(共19張PPT)部編版
評(píng)論
0/150
提交評(píng)論