




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
\\Logistic回歸模型1 Logistic回歸模型的基本知識1.1 Logistic模型簡介主要應(yīng)用在研究某些現(xiàn)象發(fā)生的概率p,比如股票漲還是跌,公司成功或失敗的概率,以及討論概率感謝閱讀與那些因素有關(guān)。顯然作為概率值,一定有0p1,因此很難用線性模型描述概率p與自變量的關(guān)系,另外如果p接近兩個(gè)極端值,此時(shí)一般方法難以較好地反映p的微小變化。為此在構(gòu)建p與自變量關(guān)系的模型時(shí),變換一下思路,不直接研究p,而是研究p的一個(gè)嚴(yán)格單調(diào)函數(shù)G(p),并要求G(p)在p謝謝閱讀接近兩端值時(shí)對其微小變化很敏感。于是Logit變換被提出來:謝謝閱讀Logit(p)lnp(1)1p其中當(dāng)p從01時(shí),Logit(p)從,這個(gè)變化范圍在模型數(shù)據(jù)處理上帶來很大的方便,精品文檔放心下載解決了上述面臨的難題。另外從函數(shù)的變形可得如下等價(jià)的公式:感謝閱讀Logit(p)lnpTXpeTX(2)1pT1eX模型(2)的基本要求是,因變量(y)是個(gè)二元變量,僅取0或1兩個(gè)值,而因變量取1的概率P(y1|X)精品文檔放心下載就是模型要研究的對象。而X(1,x,x,,x)T,其中x表示影響y的第i個(gè)因素,它可以是定性變量12ki也可以是定量變量,(,,,)T。為此模型(2)可以表述成:01klnpxxpe01x1kxk(3)1p011kk1e01x1kxk顯然E(y)p,故上述模型表明lnE(y)是x,x,,x的線性函數(shù)。此時(shí)我們稱滿足上面條件1E(y)12k的回歸方程為Logistic線性回歸。Logistic線性回歸的主要問題是不能用普通的回歸方式來分析模型,一方面離散變量的誤差形式服從伯努利分布而非正態(tài)分布,即沒有正態(tài)性假設(shè)前提;二是二值變量方差不是常數(shù),有異方差性。不同于多元線性回歸的最小二乘估計(jì)法則(殘差平方和最小),Logistic變換的非線性特征采用極大似然估計(jì)的方法尋求最佳的回歸系數(shù)。因此評價(jià)模型的擬合度的標(biāo)準(zhǔn)變?yōu)樗迫恢刀请x差平方和。精品文檔放心下載定義1 稱事件發(fā)生與不發(fā)生的概率比為優(yōu)勢比(比數(shù)比oddsratio簡稱OR),形式上表示為感謝閱讀OR=pe01x1kxk(4)1p定義2 Logistic回歸模型是通過極大似然估計(jì)法得到的,故模型好壞的評價(jià)準(zhǔn)則有似然值來表征,感謝閱讀稱\\-2lnL(?)為估計(jì)值?的擬合似然度,該值越小越好,如果模型完全擬合,則似然值L(?)為1,而擬合似然度達(dá)到最小,值為0。其中l(wèi)nL(?)表示?的對數(shù)似然函數(shù)值。感謝閱讀????1?定義3記Var()為估計(jì)值的方差-協(xié)方差矩陣,S()[Var()]2為的標(biāo)準(zhǔn)差矩陣,則稱w[?i]2,i1,2,,k(5)iSii為?的Wald統(tǒng)計(jì)量,在大樣本時(shí),w近似服從2(1)分布,通過它實(shí)現(xiàn)對系數(shù)的顯著性檢驗(yàn)。ii定義4 假定方程中只有常數(shù)項(xiàng),即各變量的系數(shù)均為0,此時(shí)稱謝謝閱讀0??(6)22[lnL()lnL()]0為方程的顯著性似然統(tǒng)計(jì)量,在大樣本時(shí),2近似服從2(k)分布。謝謝閱讀1.2 Logistic模型的分類及主要問題根據(jù)研究設(shè)計(jì)的不同,Logistic回歸通常分為成組資料的非條件Logistic回歸和配對資料的條件Logistic回歸兩種大類。還兼具兩分類和多分類之分,分組與未分組之分,有序與無序變量之分。具體如下:感謝閱讀兩分類非條件Logistic回歸:分組數(shù)據(jù)的Logistic回歸,未分組數(shù)據(jù)的Logistic回歸;多分類非條件Logistic回歸:無序變量Logistic回歸,無序變量Logistic回歸;條件Logistic回歸:1:1型、1:M型和M:N型Logistic回歸。謝謝閱讀關(guān)于Logistic回歸,主要研究的內(nèi)容包括:1.模型參數(shù)的估計(jì)及檢驗(yàn)2.變量模型化及自變量的選擇3.模型評價(jià)和預(yù)測問題4.模型應(yīng)用2 Logistic模型的參數(shù)估計(jì)及算法實(shí)現(xiàn)2.1兩分類分組數(shù)據(jù)非條件Logistic回歸感謝閱讀因變量(反應(yīng)變量)分為兩類,取值有兩種,設(shè)事件發(fā)生記為 y=1,不發(fā)生記為 y=0,設(shè)自變量精品文檔放心下載(x,x,,x)T是分組數(shù)據(jù),取有限的幾個(gè)值;研究事件發(fā)生的概率P(y1|X)與自變量X的關(guān)感謝閱讀1 2 k系,其Logistic回歸方程為:lnP(y1|X)xx或P(y1|X)e01x1kxkP(y0|X)011kk1e01x1kxk例2.1.1分組數(shù)據(jù)[1]在一次住房展銷會上,與房地產(chǎn)商簽訂初步購房意向書的有n=325人,在隨后的3個(gè)月時(shí)間內(nèi),只有一部分顧客購買了房屋。購買房屋的顧客記為1,否則記為0。以顧客的年家庭收入(萬元)作為自變量X,對數(shù)據(jù)統(tǒng)計(jì)后如表2.1.1所示,建立Logistic回歸模型。精品文檔放心下載\\表2.1.1購房分組數(shù)據(jù)序號年家庭收入簽訂意實(shí)際購X(萬元)向人數(shù)買人數(shù)11.525822.5321333.5582644.5522255.5432066.5392277.5281688.5211299.51510例2.1.2藥物療效數(shù)據(jù)[2]為考察某藥物療效,隨機(jī)抽取220例病人并分配到治療組和對照組,治療組采用治療藥物,對照組采用安慰劑。治療一段時(shí)間后觀察病人的療效,得到表2.1.2數(shù)據(jù)。設(shè)y為療效指標(biāo)感謝閱讀(y=1有效,y=0無效),x為治療組指標(biāo)(1為治療組,0為對照組),x為年齡組指標(biāo)(1為>45歲,0為精品文檔放心下載1 2其他)。表2.1.2藥物療效數(shù)據(jù)序號治療分組x年齡分組x有療效無效合計(jì)12111321850210402060301213152400184058上述兩個(gè)例子數(shù)據(jù)都是經(jīng)過統(tǒng)計(jì)加工后的分組數(shù)據(jù),對此類數(shù)據(jù)進(jìn)行Logistic回歸,首先要明確應(yīng)變量對應(yīng)事件的發(fā)生概率如何確定和進(jìn)行Logit變換,其次才能建立Logistic回歸。為便于數(shù)據(jù)處理,我們將此類數(shù)據(jù)的格式作個(gè)約定,排列格式為(組序號,自變量X,該組事件發(fā)生數(shù),該組總例數(shù))。感謝閱讀表2.1.3分組數(shù)據(jù)的標(biāo)準(zhǔn)格式表2.1.1改造表表2.1.2改造表序年家庭收入實(shí)際購買簽訂意向序治療分年齡分有效例觀察例號X(萬元)人數(shù)m總?cè)藬?shù)n號組x組x數(shù)m數(shù)n11.5i25i812ii22.513321113250210406033.52658301215244.52252400185855.5204366.5223977.5162888.5122199.51015\\經(jīng)過改造后,可得我們關(guān)心的事件的發(fā)生的頻率為p該組發(fā)生事件數(shù)mi,i1,2,,n。其中ni該組總例數(shù)ni~p。變換后的數(shù)據(jù),形式上已經(jīng)可以采用一般ii~ki1,2,,n的線性回歸的處理方式來估計(jì)回歸參數(shù)了。此時(shí)方程變?yōu)椋簆x,i0jijj1~當(dāng)然這樣處理并沒有解決異方差性,當(dāng)n較大時(shí),p的近似方差為:ii~1,iE(yi)(7)iii所以選擇權(quán)重np(1p),i1,2,,n,最后采用加權(quán)最小二乘法估計(jì)參數(shù)。iiii注意,分組數(shù)據(jù)的Logistic回歸只適用于大樣本分組數(shù)據(jù),對小樣本的為分組數(shù)據(jù)不適用,并且以組數(shù)n為回歸擬合的樣本量,明顯降低了擬合精度,在實(shí)際應(yīng)用中必須謹(jǐn)慎。感謝閱讀求解算法及步驟:1.依據(jù)分組數(shù)據(jù)的標(biāo)準(zhǔn)格式,計(jì)算頻率p~、Logit變換p和權(quán)重iii2.構(gòu)建加權(quán)最小二乘估計(jì):n(yknkminx)2min(yx)2(8)ii0jijiii0ijiji1j1i1j1令y*y,X*(,x,,x)T,(,,,)Tiiiiiii1iik01k則方程又變成一般的線性回歸模型:minn(y*TX*)2(9)ii13.構(gòu)造增廣矩陣[X*TX* X*TY*] 利用消去法得I[Var(?) ?]矩陣,得到估計(jì)?精品文檔放心下載1k2SE其中IK1,K2為殘差平方和SE,回歸方差?2nk1感謝閱讀各系數(shù)檢驗(yàn)采用t?i~t(nk1)i?ii\\n(y)2nii,回歸平方和SRSTSE總平方和STy2i1iini1()2i1總平方和求解相當(dāng)于擬合y**方程的殘差平方和,故得上式STi0iSR/k所以方程的檢驗(yàn)為FSE/(nk1)~F(k,nk1)例2.1.1的求解過程如下(由LLLStat統(tǒng)計(jì)軟件計(jì)算):感謝閱讀表2.1.4數(shù)據(jù)Logit變換及權(quán)重家庭年收入x實(shí)際購買mi簽訂意向ni比例pi邏輯變換Logit權(quán)重ni*pi(1-pi)1.5000008250.320000-0.7537725.4400002.50000013320.406250-0.3794907.7187503.50000026580.448276-0.20763914.3448284.50000022520.423077-0.31015512.6923085.50000020430.465116-0.13976210.6976746.50000022390.5641030.2578299.5897447.50000016280.5714290.2876826.8571438.50000012210.5714290.2876825.1428579.50000010150.6666670.6931473.333333表2.1.5回歸模型基本信息總樣本9求解方法加權(quán)最小二乘僅常數(shù)項(xiàng)beta0-0.095029方程F統(tǒng)計(jì)量51.982160F分布自由度1,7方程檢驗(yàn)p值0.000176總平方和8.798294回歸平方和7.754112殘差平方和1.044181表2.1.6分組Logistic回歸系數(shù)檢驗(yàn)序號均值回歸系數(shù)系數(shù)標(biāo)準(zhǔn)誤t統(tǒng)計(jì)量自由度df檢驗(yàn)P值常數(shù)項(xiàng)2.837815-0.8488820.113578-7.47399470.000056家庭年收入x14.9011400.1493230.0207117.20986570.000056表2.1.7[XTX]10.086479-0.014517-0.0145170.002876本例Logistic模型的回歸方程:pe0.8488820.149323xx0.8488820.149323i1e\\對于多分類無序自變量的Logistic回歸,即某個(gè)自變量為m個(gè)水平的名義變量(如治療方法A,B,C),只需要引入m-1(2個(gè))個(gè)啞變量,然后采用上述方法進(jìn)行分析。精品文檔放心下載例2.1.3研究三種治療方法對不同性別病人的治療效果[2],數(shù)據(jù)如表2.1.4精品文檔放心下載表2.1.4性別和治療法對某病治愈情況的影響性別治療方法有效m無效總例數(shù)niiA7828106男B10111112C6846114A40545女B54559C34640由于治療方法有三種,沒有等級關(guān)系,所以屬于無序的名義變量,故引入兩個(gè)啞變量x,x分別代表精品文檔放心下載2 3A和B療法,其中x1,x0表示方法A,x0,x1表示方法B,x0,x0表示方法C,將上232323述數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)格式,得表2.1.5。表2.1.5性別和治療法對某病治愈情況的影響性別xxx有效m總例數(shù)n123ii1107810610110111210068114010404500154590003440對于分類數(shù)據(jù),也可以采用極大似然法進(jìn)行參數(shù)估計(jì),具體見2.2節(jié)最后部分內(nèi)容。感謝閱讀2.2兩分類未分組(連續(xù))非條件Logistic回歸感謝閱讀應(yīng)變量y取值為0和1,設(shè)事件發(fā)生記為y=1,否則為0,設(shè)自變量x(x,x, ,x)T,n組觀測數(shù)精品文檔放心下載1 2 k據(jù)記為(x,x,,x,y),i1,2,,n。記X(1,x,x,,x)T,x1,則y與x,x,,x的i1i2ikiii1i2iki0ii1i2ikLogistic回歸模型是:E(y)f(xx)e01xi1kxikeTXi(10)ii01i1kik1e01xi1kxik1eTXi易知,y是均值為的0-1型分布,其分布律為i i\\f(y)yi(1)1yi,y0,1;i1,2,,niiii則y,y,,y的似然函數(shù)和對數(shù)似然函數(shù)分別為:Lnyi(1)1yi12niii1n(1y)ln(1nln(1)]lnL[yln)][yln1iiiiiiii1i1i代入e01xi1kxik,得i1e01xi1kxiknxx)ln(1e01xi1kxik)]lnL[y(i01i1kiki1(11)n[yTXln(1eTXi)]精品文檔放心下載i1記LL()lnL(),選取(,,,????)T使得LL()達(dá)到極大,)T的估計(jì)(,,,01k01k這就是Logistic回歸模型的極大似然估計(jì),該過程的求解需要采用牛頓迭代法。構(gòu)造得分函數(shù)F()LL(),g0,1,2,,k,共k+1個(gè)非線性方程組,令其=0求解,其中g(shù)gn[yxxeTXi(12)F()ig],g0,1,2,,kgiig1eTXii0構(gòu)造信息矩陣I()2LL(),g,h0,1,2,,k,即LL()二階導(dǎo)矩陣的負(fù)矩陣,其中g(shù)hghnxxeTXi,g,h0,1,2,,kI()igih(13)gh(1eTXi)2i0很明顯I()I(),故I()是一個(gè)對稱矩陣。ghhg求解算法及步驟:1.根據(jù)公式(12)計(jì)算得分函數(shù)F(),公式(13)計(jì)算信息矩陣I()ggh給定初值00(0,0,,0),k=1和精度,可取0.0000012.采用牛頓迭代式kk1,[I(k1)]1F(k1),通過以下方式求解。構(gòu)造增廣矩陣IF(k1)=(I(k1)F(k1)),通過對IF矩陣作k+1次ij消去變換求解\\若||||k2或者||||k||或者max{||},則轉(zhuǎn)3gg0gkgg0g0否則k=k+1,繼續(xù)執(zhí)行第2步3.此時(shí)k就是回歸系數(shù)的數(shù)值估計(jì)?,k就是迭代次數(shù),消去變換后的IF矩陣的前k1k1子陣就是方差-協(xié)方差矩陣的估計(jì)陣Var(?)(V)=V,下面給出檢驗(yàn)有關(guān)計(jì)算:ghk1k1?2計(jì)算Wald統(tǒng)計(jì)量Wg,近似服從2(1)分布,檢驗(yàn)p值pP(2(1)W)gVgggg標(biāo)準(zhǔn)誤S.E.()V,OR()eg,g0,1,,k?gggg例2.2.1公共交通調(diào)查數(shù)據(jù)[1]在一次關(guān)于公共交通的社會調(diào)查中,調(diào)查項(xiàng)目為“是乘坐公共汽車上下班,還是騎自行車上下班”。因變量y=1表示乘坐公共汽車,y=0表示騎自行車。自變量x是年齡,作為連續(xù)變精品文檔放心下載1量;x是月收入(元);x是性別,x=1表示男性,x=0表示女性。調(diào)查對象為工薪族群體,數(shù)據(jù)如表精品文檔放心下載2 3 3 32.2.1所示。表2.2.1公共交通社會調(diào)查序號年齡x月收入x性別x交通y123118850002211200003238500142395001528120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011\\264810001027521500112856180011以下計(jì)算結(jié)果采用LLLStat1.0軟件得到:表2.2.2主要計(jì)算結(jié)果序號均值回歸系數(shù)系數(shù)標(biāo)準(zhǔn)誤wald統(tǒng)計(jì)量自由度df檢驗(yàn)p值OR=Exp(B)常數(shù)項(xiàng)0.535714-3.6550162.0912233.05476610.0805010.025861年齡1273.2142860.0821680.0521192.48551610.1148991.085639月收入0.4642860.0015170.0018650.66146610.4160431.001518性別36.107143-2.5018441.1578184.66917510.0307090.081934表2.2.3Logistic模型基本信息總樣本28求解方法極大似然法&Newton迭代迭代次數(shù)(僅beta0)7(4)-2LogLikelihood(Beta)25.970652僅常數(shù)項(xiàng)beta0-0.143101-2LogLikelihood(beta0)38.673263方程Wald值(相減)12.702611方程自由度4方程檢驗(yàn)p值0.012824對于例2.1.3分組數(shù)據(jù)的極大似然估計(jì)法,主要過程如下:感謝閱讀LnCmimi(1)niminiii1innmlnnln(1)]lnL[lnCmmln(nm)ln(1)][lnCmii1niiiiiiii1niii1iii代入e01xi1kxik,得lnLn[lnCmimTXnln(1eTXi)]i1e01xi1kxiki1niiii則有F()LL()n[mxnxigeTXi],g0,1,2,,kggiigi1eTXii1I()2LL()nnxxeTXi,g,h0,1,2,,k;ghiigihghi1(1eTXi)2其中m,n分別表示分組i中事件發(fā)生次數(shù)和總觀察數(shù),如表2.1.4和2.1.5所示。然后可采用感謝閱讀i iNewton-Raphson迭代法進(jìn)行求解。由LLLStat計(jì)算得到如下結(jié)果。感謝閱讀表2.2.4 性別和療法對某病治愈的影響(未分組Logistic似然估計(jì)法)精品文檔放心下載序號常數(shù)項(xiàng)
均值1.000000
回歸系數(shù)1.418399
系數(shù)標(biāo)準(zhǔn)誤0.298690
wald統(tǒng)計(jì)量22.550513
自由度df1
檢驗(yàn)P值0.000002\\性別0.500000-0.9616180.29979710.28847210.001339治療A0.3333330.5847450.2641084.90196610.026826治療B0.3333331.5607630.31596124.40099310.000001表2.2.5回歸系數(shù)方差矩陣V(beta)(信息矩陣I(Beta)的逆矩陣)精品文檔放心下載0.089215 -0.072957 -0.029931 -0.030097謝謝閱讀-0.072957 0.089878 -0.000078 0.000128謝謝閱讀-0.029931 -0.000078 0.069753 0.029993精品文檔放心下載-0.030097 0.000128 0.029993 0.099831謝謝閱讀2.3 條件Logistic回歸[2,3]條件Logistic回歸是配對設(shè)計(jì)(病例-對照)中常用的一種統(tǒng)計(jì)分析方法,通過配對方法收集資料:每一配對組可包括一個(gè)病例和一個(gè)或多個(gè)對照,有1:1型、1:m型配對。假設(shè)收集了如下數(shù)據(jù):謝謝閱讀表2.3.1 n個(gè)1:m配對組,k個(gè)協(xié)變量的比例資料精品文檔放心下載配對組號病例組X0第1對照組X1…第m個(gè)對照組Xm1x0,x0,,x0x1,x1,,x1…xm,xm,,xm11121k11121k11121k2x0,x0,,x0x1,x1,,x1…xm,xm,,xm21222k21222k21222k……………nx0,x0,,x0x1,x1,,xn1…xm,xm,,xmn1n2nkn1n2nkn1n2nk配對資料用配對的方法來控制影響因素的干擾,并且每個(gè)配對組都可以建立一個(gè)Logistic回歸方程:感謝閱讀Logit
(
p)
i0
x1 1
xk k
,i
1,2, ,n為此需要估計(jì)的參數(shù)有n個(gè)常數(shù)項(xiàng)1,,n和k個(gè)回歸系數(shù),,,配對數(shù)越多估計(jì)的參數(shù)就越001k多,但是一般的數(shù)據(jù)量難以支撐這樣的估計(jì),故一般的Logistic回歸不適合配對資料。不過在參數(shù)估計(jì)時(shí),常數(shù)項(xiàng)會被消去,所以方程組減少了n個(gè)常數(shù)項(xiàng)1,,n的估計(jì),復(fù)雜度大大降低。對于回歸參數(shù)感謝閱讀00的估計(jì)采用條件似然函數(shù)替代一般的似然函數(shù)進(jìn)行。對于第i個(gè)配對組而言,共有m+1個(gè)觀察對象,記為A,B,B,,B,其中僅有一例發(fā)病,且正好12m是病例組A發(fā)病,而對照組均沒有發(fā)病的條件概率p(類似Bayes概率)可以表示成:ipP(ABBB)(14)12miP(ABBmP(ABBB)B)12m1jmj1其中P(ABBB)=P(y01|X0)P(y10|X1)P(ym0|Xm),而12miiiiii\\P(yj1|Xj)eTXij,P(yj0|Xj)1(15),j1,2,,mii1eTXijii1eTXij故n個(gè)配對組的條件似然函數(shù)表示為:eTX01mn1eTX0j11eTXjL()0iii1eTX11eTXk1mmm1eT01eTj1eT01eTkj11eTj(16)Xij1Xik1XiXiXijkn1nmT(Xij0)]1Tj0[1eXii11me(XiXi)i1j11則對數(shù)似然函數(shù)LL()LnL()為:nln(1mTj0))LL()LnL()e(XiXi(17)i1 j1令Dj(XjX0),它是一個(gè)與第i個(gè)樣本點(diǎn)有關(guān)的k維向量,Dj表示向量中的第g個(gè)元素,精品文檔放心下載i i i ig則有如下得分函數(shù)和信息矩陣:mTjF()LL()DjeDi=nj1igg1mTjgi1eDij1I()2LL()ghghmTjmTjmTjDjDjeDiDjeDiDjeDi=n[j1igihj1igj1ih]g,h1,2,,kmTDijmTj)2i11e(1eDij1j1注意此時(shí)的(,,,)T,沒有常數(shù)項(xiàng)。至此(17)式中的參數(shù)可采用Newton-Raphson12k0迭代法求解了,初值依然取為0向量。不過該方程的求解已經(jīng)相對復(fù)雜多了。精品文檔放心下載方程似然度檢驗(yàn)和回歸系數(shù)的wald檢驗(yàn)同非條件Logistic回歸。謝謝閱讀例2.3.1研究肥胖、口服避孕藥雌激素與子宮內(nèi)膜癌的關(guān)系,隨機(jī)抽取20名患者,對于每名患者,在隨機(jī)抽取年齡相近的正常人作為對照。檢測患者與正常人的肥胖程度和雌激素服用情況[3]。感謝閱讀表2.3.1 肥胖和雌激素與子宮內(nèi)膜癌關(guān)系病例-對照研究數(shù)據(jù)謝謝閱讀配對組病例病例對照1對照1對照2對照2肥胖雌激素肥胖雌激素肥胖雌激素111000021111013110111\\4010001500100161100107110111811101191011111001010011010110120101011311001114110010151100011601010117010010181110011910010120110100例2.3.1求解的主要結(jié)果,由LLLStat軟件計(jì)算得到:謝謝閱讀表2.3.2條件Logistic回歸系數(shù)檢驗(yàn)序號均值(病例)回歸系數(shù)系數(shù)標(biāo)準(zhǔn)誤wald統(tǒng)計(jì)量自由度df檢驗(yàn)P值肥胖0.6500001.8239140.54719211.11039010.000859雌激素0.8500001.5896210.45054412.44836710.000419表2.3.3條件Logistic回歸模型基本信息樣本量20求解方法極大似然+牛頓迭代迭代次數(shù)45-2LogLikelihood(Beta)33.306763-2LogLikelihood(0)43.944492方程Wald值(相減)10.637728方程自由度2方程檢驗(yàn)p值0.004898\\2.4多分類有序反應(yīng)變量Logistic回歸在實(shí)際應(yīng)用中,經(jīng)常遇到反應(yīng)變量為多分類有序變量的情況,例如評價(jià)指標(biāo)分為差、中、良、優(yōu)等,各等級之間是有序的。這種資料的Logistic回歸分析通常稱為比例比數(shù)模型(累積概率模型)[4],它需要擬合m-1(m為水平或等級個(gè)數(shù))個(gè)Logistic回歸模型。謝謝閱讀有序累積概率Logistic模型:P(yj|X)eajTXi,i1,2,,n;j1,2,,m1或(18)ii1eajTXijP(yk|X)lniiTX,j1,2,,m1(19)k11jjiP(yk|X)iik1有序累積概率模型參數(shù)的極大似然估計(jì)就是尋找參數(shù)使得聯(lián)合概率實(shí)現(xiàn)最大化,由于觀測之間相互獨(dú)立,聯(lián)合概率被分解成邊緣概率之積。而觀測到y(tǒng)j的概率就是累積概率之差:謝謝閱讀iP(yj|X)P(yj|X)P(yj1|X)精品文檔放心下載iiiiii第i個(gè)觀測值對應(yīng)似然值的貢獻(xiàn)取決于觀測到哪一個(gè)j值,因此對于次序響應(yīng)的每個(gè)j值,取所有yj的觀測之的乘積,有似然函數(shù):iP(yj|X)dijL,其中若yj,則d1,否則d0nmiiiijiji1j1mP(yj|X)1,故有(19)式。其對并且對于任一個(gè)觀測X而言,只有一個(gè)等級事件發(fā)生,即iiij1nmj|X)nidij,n分組中各分類例數(shù))。數(shù)似然函數(shù)如下(對于分組數(shù)據(jù),似然函數(shù)變?yōu)椋篖P(yiiii1j1lnLdlnP(yj|X)nmijiii1j1(20)aTXaTXaTXaTXnm1ij1idln(1em1)ln(ee)][dlne1iidi11ea1TXiim1eam1TXiij1eajTXi1eaj1TXii1j2ea1TXi1ea1TXieajTXieaj1TXi其中:P(yj|X)eajTXi1eaj1TXi1eam1TXi1am1TXie
11jm1(21)jm\\然后就可以通過極大似然法,就上Newton-Raphson方法加以求解參數(shù)a,,a,了,注意的是1m1aaa。下面給出具體推導(dǎo)a,,a,求解的詳細(xì)過程。對(20)式進(jìn)行化簡,可得12m11m1nm1eaj1)ln(1eajTXi)ln(1TXi)]lnL{d[TXln(eajeaj1iji(22)i1j2d[aTXln(1ea1TXi)]dln(1eam1TXi)}i11iimlnL[d1d(aaTXi)](23)nai1TXii2eaa1ea1TXi1i11ea12e1lnL[d(em1em1TXi)dem1TXi](24)naaaaim1am1ea1TXiim1eam1TXim1i1em2eam1lnL[d(eaeaTX)d(eaeaTX)],g2,,m2(25)ggigginaigaaTXiig1aea1eagTXigi1egeg11eageg1gn[d1deaTXm1eajTXieaj1TXi)],lnLxm1id(1(26)Xi1Xi1XiXigi11ea1eam1j2eaj1eaj11,2,,klnL[de1TXid(e12e1i)](27)2naaaaTXaai1i1(1eaTXi)2i2(ea2ea1)2(1aTXi)2111e12lnLn(eam1am2eam1TXi)deam1TXi](28)am1am1[di1im1(eam1eam2)2(1eam1TXi)2im(1eam1TXi)22lnLneagag1eagTXi)d(eag1ageagTXi)][d(aai1ig(eageag1)2(1eagTXi)2ig1(eag1eag)2(1eagTXi)2(29)gg2,,m22lnLneagag1,g1,2,,m2(30)aadg1i1ig1(eag1eag)2g2lnLnx(dd)eagTXi,g1,,m1;h1,2,,ka(31)ihigig1Ti1(1eagXi)2gh2lnLneaTXdaTXm1eajTXieaj1TXi)]xx[d1iem1id(igihi1(1ea1TXi)2im(1eam1TXi)2ij(1eajTXi)2(1eaj1TXi)2ghi1j2g,h1,2, ,k(32)由此構(gòu)建信息矩陣I(a,)和F(a,),并可迭代求解了。注:若為分組數(shù)據(jù),上述每項(xiàng)乘以n。精品文檔放心下載i\\例2.4.1研究性別和兩種治療方法對某種疾病療效的影響[3],將療效分成效果顯、有效和無效三個(gè)等級,根據(jù)試驗(yàn)調(diào)查,得到如下資料。感謝閱讀表2.4.1 性別和兩種治療方法對某種疾病療效的影響感謝閱讀性別治療方法顯著有效無效合計(jì)女新藥165627傳統(tǒng)671932男新藥52714傳統(tǒng)101011表2.4.2多分類有序反應(yīng)變量數(shù)據(jù)格式行號性別治療方法頻數(shù)療效等級111161211523116341061510726101937015180122901731000111100021200103計(jì)算結(jié)果,由LLLStat統(tǒng)計(jì)軟件給出:表2.4.3 回歸系數(shù)方差矩陣V(beta)(信息矩陣I(Beta)的逆矩陣)感謝閱讀0.3747330.324880-0.257757-0.1928230.3248800.323782-0.244457-0.169612-0.257757-0.2444570.2894880.069404-0.192823-0.1696120.0694040.236257表2.4.4有序分類因變量Logistic回歸系數(shù)檢驗(yàn)序號回歸系數(shù)系數(shù)標(biāo)準(zhǔn)誤wald統(tǒng)計(jì)量自由度df檢驗(yàn)P值常數(shù)項(xiàng)a1-2.6935760.61215519.36137710.000011常數(shù)項(xiàng)a2-1.8120400.56901810.14105910.001450性別1.0523520.5380413.82552810.050477治療方法2.1872720.48606320.24980010.000007表2.4.5 有序分類因變量Logistic回歸模型基本信息精品文檔放心下載樣本分組數(shù) 12求解方法 極大似然+牛頓迭代迭代次數(shù) 17注意:該結(jié)果與SAS,DPS不一致。\\Poisson回歸模型簡介一般情況下,單位容積水中的細(xì)菌數(shù),單位時(shí)間內(nèi)某些事件發(fā)生的次數(shù),單位面積上降落的灰塵的顆粒數(shù)等,都可以用Poisson分布來描述。一般Poisson分布描述成隨機(jī)變量Y~P(),概率分布律為:感謝閱讀yP(Yy)e ,y0,1,2,謝謝閱讀易知EY,通??赡苁艿奖姸嘁蛩氐挠绊懀环良僭O(shè)這些因素為x,x, ,x(自變量,協(xié)變量),謝謝閱讀12k[7]令X(1,x,x,,x),對于分組數(shù)據(jù),Poisson分布的期望發(fā)生數(shù)假設(shè)為:12kE(y|X)ne01xi1kxikneTXi(1)iiiii其中(,,,)T為回歸參數(shù),n為第i組的總觀測數(shù)?;貧w模型的似然函數(shù)為Poisson分01ki布條件下各個(gè)格子概率函數(shù)的乘積,因此Poisson分布的極大似然函數(shù)和對數(shù)似然函數(shù)具體形式分別為:精品文檔放心下載nnyinnyieLpeiii1iiiy!y!i1i1ii1ilnLnnnylnln(y!)iiiii1i1i1代入neTXi,得iilnL[yln(neTXineynniiii1i1j1[yln(n)yTXn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年消防設(shè)施操作員之消防設(shè)備基礎(chǔ)知識押題練習(xí)試題A卷含答案
- 小學(xué)重點(diǎn)考試試題及答案
- AI智慧城市建設(shè)與城市管理優(yōu)化研究
- 辦公系統(tǒng)使用簡明教程與操作手冊
- 個(gè)人辦公用品采購合同規(guī)范
- 現(xiàn)代物理學(xué)理論前沿探討閱讀題集
- 數(shù)字化圖書館建設(shè)協(xié)議
- 中醫(yī)藥兒童知識培訓(xùn)課件
- 馬匹買賣合同
- 物理光學(xué)及量子力學(xué)考點(diǎn)復(fù)習(xí)題集
- 桑樹栽培與管理課件
- qc小組成果報(bào)告課件
- 信用風(fēng)險(xiǎn)管理講義課件
- 健康體檢報(bào)告基本規(guī)范
- 多項(xiàng)式乘以多項(xiàng)式-完整版課件
- 衡水志臻實(shí)驗(yàn)中學(xué)小升初英語真題(一)
- 信息技術(shù)ppt課件完整版
- 《為夢想插上翅膀》課件
- 《防止電力建設(shè)工程施工安全事故三十項(xiàng)重點(diǎn)要求》
- 外研版九年級英語下冊Module-4-Unit-2教學(xué)課件(PPT 16頁)
- 精品隨班就讀個(gè)別化教學(xué)計(jì)劃
評論
0/150
提交評論