版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第八章Logistic回歸模型許多社會(huì)科學(xué)的觀察都只分類(lèi)而不是連續(xù)的.比如,政治學(xué)中經(jīng)常研究的是否選舉某候選人.又如,經(jīng)濟(jì)學(xué)研究中所涉及的是否銷(xiāo)售或購(gòu)買(mǎi)某種商品、是否簽訂—個(gè)合同等等.這種選擇量度通常分為兩類(lèi),即“是’與“否”.在社會(huì)學(xué)和人口研究中,人們的社會(huì)行為與事件的發(fā)生如犯罪、逃學(xué)、遷移、結(jié)婚、離婚、患病等等都可以按照二分類(lèi)變量來(lái)測(cè)量。線性回歸模型在定量分析中也許是最流行的統(tǒng)計(jì)分析方法,然而在許多情況下,線性回歸會(huì)受到限制.比如,當(dāng)因變量是一個(gè)分類(lèi)變量,不是一個(gè)連續(xù)變量時(shí),線性回歸就不適用,嚴(yán)重違反假設(shè)條件.
分類(lèi)變量分析通常采用對(duì)數(shù)線性模型(Log-linearmodel),而因變量為二分變量時(shí),對(duì)數(shù)線性模型就變成Logistic回歸模型.logistic回歸是一個(gè)概率型模型,因此可以利用它預(yù)測(cè)某事件發(fā)生的概率。例如在臨床上可以根據(jù)患者的一些檢查指標(biāo),判斷患某種疾病的概率有多大。目的:作出以多個(gè)自變量(危險(xiǎn)因素)估計(jì)應(yīng)變量(結(jié)果因素)的logistic回歸方程。屬于概率型非線性回歸。資料:1.應(yīng)變量為反映某現(xiàn)象發(fā)生與不發(fā)生的二值變量;2.自變量宜全部或大部分為分類(lèi)變量,可有少數(shù)數(shù)值變量。分類(lèi)變量要數(shù)量化。用途:研究某種疾病或現(xiàn)象發(fā)生和多個(gè)危險(xiǎn)因素(或保護(hù)因子)的數(shù)量關(guān)系。用檢驗(yàn)(或u檢驗(yàn))的局限性:1.只能研究1個(gè)危險(xiǎn)因素;2.只能得出定性結(jié)論。1.成組(非條件)logistic回歸方程。2.配對(duì)(條件)logistic回歸方程。第八章第一節(jié)機(jī)動(dòng)目錄上頁(yè)下頁(yè)返回結(jié)束logistic回歸模型
一、兩分類(lèi)因變量與Logistic回歸模型事件發(fā)生的條件概率P(yi=1|xi)與xi之間的非線性關(guān)系通常是單調(diào)函數(shù),假設(shè)有一個(gè)理論上存在的連續(xù)反應(yīng)變量yi代表事件發(fā)生的可能性,其值域?yàn)樨?fù)無(wú)窮至正無(wú)窮.當(dāng)該變量的值跨越一個(gè)臨界點(diǎn)c(比如c=o),使導(dǎo)致事件發(fā)生.于是有:當(dāng)yi*>0時(shí),yi=1在其它情況,yi=0這里,yi是實(shí)際觀察到的反應(yīng)變量,yi=1表示事件發(fā)生.yi=0表示事件未發(fā)生.如果假設(shè)在反應(yīng)變量yi*和自變量xi之間存在一種線性關(guān)系,即如果假設(shè)在反應(yīng)變量yi*和自變量xi之間存在一種線性關(guān)系,即這里,yi是實(shí)際觀察到的反應(yīng)變量,yi=1表示事件發(fā)生.yi=0表示事件未發(fā)生.由上面的式子得到:通常,假設(shè)公式中誤差項(xiàng)εi有l(wèi)ogistic分布或標(biāo)準(zhǔn)正態(tài)分布.由于logistic分布和標(biāo)準(zhǔn)正態(tài)分布都是對(duì)稱(chēng)的,得到:如果εi為logistic分布,就得到logistic模型;如果εi為標(biāo)準(zhǔn)正態(tài)分布,就得到probit模型.其中F為累積分布函數(shù).當(dāng)εi為logistic分布時(shí):上式可以變換為:記條件概率得logistic回歸模型pi是xi的非線性函數(shù),可以轉(zhuǎn)換為線性函數(shù)定義不發(fā)生事件的條件概率為:那么事件發(fā)生概率與不發(fā)生概率之比為:這個(gè)比率成為事件的發(fā)生比(theoddsoftheexperiencinganevent),簡(jiǎn)稱(chēng)odds,對(duì)odds取對(duì)數(shù),可以得到對(duì)數(shù)發(fā)生比:上面的式子由于做了對(duì)數(shù)變換,被稱(chēng)作logit形式,也稱(chēng)作y的logit,即logit(y).當(dāng)有k個(gè)自變量時(shí),相應(yīng)的logistic回歸模型將有如下形式:其中,pi=P(yi=1|x1i,x2i,…,xki)為在給定系列自變量x1,x2,…,xki的值時(shí)事件發(fā)生概率。第八章第二節(jié)機(jī)動(dòng)目錄上頁(yè)下頁(yè)返回結(jié)束Logistic回歸模型估計(jì)最大似然估計(jì)(MaximumLikelihoodEstimation)最大似然估計(jì)法既可以用于線性模型,也可以用于更為復(fù)雜的非線性估計(jì).方法:首先要建立似然函數(shù)(Likelihoodfunction)將觀測(cè)數(shù)據(jù)的概率表示為未知模型的參數(shù)選擇能夠使這一函數(shù)達(dá)到最大的參數(shù)估計(jì)一、建立似然函數(shù)假設(shè)有由N個(gè)案例構(gòu)成的總體、Yl,…YN,從中隨機(jī)抽取n個(gè)案例作為樣本,觀測(cè)值標(biāo)注為Yl,…,yn,設(shè)pi=P(yi=1|xi)為給定xi的條件下得到結(jié)果yi=1的條件概率。而在同樣條件下得到結(jié)果yi=0的條件概率為1-pi,于是得到一個(gè)觀測(cè)值的概率為:其中yi=0或1,聯(lián)合分布可以表示為各個(gè)邊際分布的乘積:似然函數(shù)取對(duì)數(shù)為了求最大的估計(jì)參數(shù),得到回歸模型的對(duì)數(shù)似然函數(shù):分別對(duì)α,?求偏導(dǎo),令它等于0,可以得到似然方程組:由于方程是α和?的非線性函數(shù),求解是通過(guò)計(jì)算機(jī)迭代計(jì)算完成的.得到α和?的最大似然估計(jì)值從上面的兩個(gè)公式的得到的,?的值估計(jì)就是最大似然估計(jì)。按照慣例,用^表示估計(jì)值,p表示條件概率的估計(jì)值,這個(gè)值是在給定xi的條件下yi=1的條件概率的估計(jì)。它代表了logistic模型的擬合值或預(yù)測(cè)值,令偏導(dǎo)函數(shù)等于0時(shí),這意味著觀測(cè)值之和等于預(yù)測(cè)概率之和,這一性質(zhì)在評(píng)價(jià)模型擬和情況時(shí)非常有用。二、模型估計(jì)的假設(shè)條件1.數(shù)據(jù)必須來(lái)自于隨機(jī)樣本2.因變量Yi被假設(shè)為K個(gè)自變量Xki的函數(shù).3.Xi對(duì)多重共線性敏感,自變量之間存在的多重共線性會(huì)導(dǎo)致標(biāo)準(zhǔn)誤的膨脹。4.因變量是分類(lèi)變量5.因變量和各自變量之間的關(guān)系是非線性的6.在OLS回歸中要假設(shè)方差不變,類(lèi)似的假設(shè)在logistic中不需要7.沒(méi)有關(guān)于自變量分布的假設(shè)條件,自變量可以是連續(xù)變量,也可以使離散變量,還可以是虛擬變量,并且不需要假設(shè)它們之間存在多元正態(tài)分布三、最大似然估計(jì)的性質(zhì)logistic的最大似然估計(jì)與OLS估計(jì)的性質(zhì)幾乎完全相同,即logistic的最大似然估計(jì)有:一致性,漸進(jìn)有效性漸進(jìn)正態(tài)性四、模型估計(jì)的樣本規(guī)模最大似然估計(jì)具有的一致性、有效性和正態(tài)性都是一些很好的統(tǒng)計(jì)件質(zhì),然而保持這些性質(zhì)的條件為樣本規(guī)模要很大.但是,這并不等于說(shuō)最大似然估計(jì)在小樣本時(shí)統(tǒng)計(jì)性質(zhì)就—定不好.簡(jiǎn)單而言,我們通常并不知道在小樣本時(shí)的統(tǒng)計(jì)性質(zhì)究競(jìng)?cè)绾?。更?shí)際的問(wèn)題是,樣本在多大時(shí)就可以應(yīng)用最大似然化計(jì),或多大樣本可以保證統(tǒng)計(jì)檢驗(yàn)得到顯著的結(jié)果.這個(gè)問(wèn)題現(xiàn)無(wú)明確的答案.許多研究者在沒(méi)有其他方法可供選擇的條件下,便無(wú)論對(duì)大樣本還是對(duì)小樣本都用最大似然估計(jì)方法根據(jù)一些資深研究人員的看法,最大似然估計(jì)的大樣本性質(zhì)維持得較好,即使在中等規(guī)模樣本(比如M=100)的條件下也能夠接受。Long(1997)提到,在樣本規(guī)模小于100時(shí)使用最大似然估計(jì)風(fēng)險(xiǎn)較大.樣本大于500時(shí)就顯得比較充分了。第八章第三節(jié)機(jī)動(dòng)目錄上頁(yè)下頁(yè)返回結(jié)束Logistic回歸模型的評(píng)價(jià)模型估計(jì)完成以后,我們需要評(píng)價(jià)模型如何有效地描述反應(yīng)金旦及模型匹配配觀測(cè)數(shù)據(jù)的程度如果模型的預(yù)測(cè)值能夠與對(duì)應(yīng)的觀測(cè)值有較高的一致性,就認(rèn)為這一模型擬和數(shù)據(jù).否則,將不能接受這一模型,就需要對(duì)模型重新設(shè)置。一、擬和優(yōu)度檢驗(yàn)預(yù)測(cè)值與觀測(cè)值之間差別在開(kāi)始討論具體擬合優(yōu)度統(tǒng)計(jì)指標(biāo)之前,先介紹一下協(xié)變類(lèi)型的概念,這一概念又稱(chēng)為子總體.協(xié)變類(lèi)型描述的是模型中協(xié)變量不同值的特定組合.如果模型中只包括兩個(gè)分類(lèi)變量,比如性別和重點(diǎn)大學(xué),出于性別和重點(diǎn)大學(xué)都是二分類(lèi)變量,因此模型中只有4種(即2x2)可能的協(xié)變類(lèi)型組合,即協(xié)變類(lèi)型或子總體為4個(gè)。在固定樣本規(guī)模n情況下,協(xié)變類(lèi)型越多,每個(gè)類(lèi)型(即每個(gè)子總體)中的案例數(shù)nj就越少在每個(gè)協(xié)變類(lèi)型中,預(yù)測(cè)的事件發(fā)生頻數(shù)表示為nj*,其中是第j種協(xié)變類(lèi)型中事件發(fā)生的模型預(yù)測(cè)概率。與此類(lèi)似,我們也可以計(jì)算每種協(xié)變類(lèi)型中事件末發(fā)生的頻數(shù).二、皮爾遜皮爾遜可以用通過(guò)比較模型預(yù)測(cè)的和觀測(cè)的事件發(fā)生和不發(fā)生的頻數(shù)檢驗(yàn)?zāi)P统闪⒌募僭O(shè).將觀測(cè)頻數(shù)和預(yù)測(cè)頻數(shù)代入標(biāo)準(zhǔn)計(jì)算公式,J是協(xié)變類(lèi)型的種類(lèi)數(shù)目,Oj和Ej分別為第j類(lèi)協(xié)變類(lèi)型中的觀測(cè)頻數(shù)和預(yù)測(cè)頻數(shù)卡方值很小,意味著預(yù)測(cè)值與觀測(cè)值之間沒(méi)有顯著差別卡方值很大,意味著預(yù)測(cè)值與觀測(cè)值之間有顯著差別,擬合不佳三、偏差觀測(cè)值和預(yù)測(cè)值的比較還可以根據(jù)對(duì)數(shù)似然函數(shù)表示,以作為模型所估計(jì)得最大似然值,它概括了樣本數(shù)據(jù)由這一模型所擬和的程度,由于這一統(tǒng)計(jì)量不能獨(dú)立于樣本規(guī)模,因此不能根據(jù)它的值估計(jì)模型的擬和優(yōu)度對(duì)于同一套數(shù)據(jù)還必須有一個(gè)基準(zhǔn)模型作為比較所設(shè)模型擬和優(yōu)度的標(biāo)準(zhǔn)。一種基準(zhǔn)模型為保和模型,它的最大似然值為,通過(guò)比較和,便可以估計(jì)所設(shè)模型代表數(shù)據(jù)的充分程度。通常采用-2乘以設(shè)定模型和飽和模型的最大似然值的對(duì)數(shù):D統(tǒng)計(jì)量被稱(chēng)為偏差,D值越小,擬和優(yōu)度越好。四、Hosmer-Lemeshow擬合優(yōu)度指標(biāo)當(dāng)自變量數(shù)量增加時(shí),尤其是連續(xù)自變量納入模型之后,協(xié)變類(lèi)型的數(shù)量便會(huì)很大,于是許多協(xié)變類(lèi)型只有很少的觀測(cè)案例.結(jié)果,偏差和皮爾遜卡方值不再適用于估計(jì)擬合優(yōu)度.Hosmer-Lemeshow研究了一種對(duì)logistic模型擬和優(yōu)度的檢驗(yàn)方法。Hosmer-Lemeshow指標(biāo)(記為HL)是一種類(lèi)似于皮爾遜χ2統(tǒng)計(jì)量的指標(biāo).它可以從觀測(cè)頻數(shù)和預(yù)測(cè)頻數(shù)構(gòu)成的2*G交互表中求得.其統(tǒng)計(jì)公式如下:其中G代表分組數(shù),且G<10,ng為第n組中的案例數(shù);yg為第g組事件的觀測(cè)數(shù)量;為第g組的預(yù)測(cè)事件概率;ng為事件的預(yù)測(cè)數(shù),實(shí)際上它等于第g組的預(yù)測(cè)概率之和.五、信息測(cè)量類(lèi)指標(biāo)另一種估計(jì)logistic回歸模型的擬合優(yōu)度的指標(biāo)是信息測(cè)量類(lèi)的指標(biāo).這些指標(biāo)也可以用來(lái)比較不同模型的優(yōu)劣其中一種著名的信息測(cè)量指標(biāo)是Aknike信息標(biāo)準(zhǔn)。它的定義如下:其中K為模型中自變量的個(gè)數(shù);S是反應(yīng)變量類(lèi)別總數(shù)減1(對(duì)于logistic回歸有S=2-1),n是觀測(cè)數(shù)量,是所設(shè)模型的估計(jì)最大似然值的自然對(duì)數(shù),其值較大表示擬合較好.其他條件不變的情況下,較小的AIC值表示擬合模型較好.AIC指標(biāo)還常常應(yīng)用于比較不同樣本的模型,或應(yīng)用于比較非嵌套關(guān)系的模型,而這些模型的比較不能采用似然比(L.R.)檢驗(yàn).六、Logistic回歸模型的預(yù)測(cè)準(zhǔn)確性—類(lèi)R2指標(biāo)線性回歸的R2有一種十分誘人的解釋特性,即它描述因變量的變動(dòng)中模型的自變量所“解釋”的百分比.但是,在logistic回歸分析中卻沒(méi)有相應(yīng)的統(tǒng)計(jì)指標(biāo).不過(guò),在模型似然值對(duì)數(shù)的基礎(chǔ)上,可以為logistic同歸模型計(jì)算某種類(lèi)似R2的指標(biāo),表示如下:與R2類(lèi)似,LRI在0到1之間。當(dāng)自變量與因變量完全不相關(guān)時(shí)(即所有的回歸系數(shù)為0),LRI=0。當(dāng)模型的擬合程度提高時(shí),LRI值增加,擬合得越好,LRI越接近1。七、模型卡方統(tǒng)計(jì)線性回歸及AN0VA模型中.常用自由度分別為K和n-K-1的F檢驗(yàn)(來(lái)檢驗(yàn)“除常數(shù)項(xiàng)外的所有系數(shù)都等于0”的無(wú)關(guān)假設(shè)。logistic回歸中服務(wù)于同一目的的檢驗(yàn)卻是似然比檢驗(yàn),它可以用來(lái)檢驗(yàn)logistic回歸模型是否統(tǒng)計(jì)件顯著,似然比統(tǒng)計(jì)量近似地服從于卡方分布。實(shí)際上,模型卡方與多元線性回歸中的F檢驗(yàn)十分類(lèi)似.模型卡方作為一種卡方統(tǒng)計(jì)量來(lái)檢驗(yàn)可以提供關(guān)于零假設(shè)(即除常數(shù)項(xiàng)外的所有系數(shù)都等于0的假設(shè),通常以公式表示為:H0:B1=B2=…=Bk=0第八章第四節(jié)機(jī)動(dòng)目錄上頁(yè)下頁(yè)返回結(jié)束Logistic回歸系數(shù)的解釋當(dāng)logistic回歸模型能夠較好地?cái)M合數(shù)據(jù)時(shí),便可以對(duì)模型的系數(shù)進(jìn)行解釋了.類(lèi)似于線性同歸系數(shù),logistic回歸系數(shù)也可以被解釋為對(duì)應(yīng)自變量一個(gè)單位的變化所導(dǎo)致的因變量上的變化.logistic回歸模型的系數(shù)如果是正值且統(tǒng)計(jì)顯著,意味著在控制其他自變量的條件下.對(duì)數(shù)發(fā)生比隨對(duì)應(yīng)自變量值增加而增加;相反,一個(gè)顯著的負(fù)系數(shù)代表對(duì)數(shù)發(fā)生比隨對(duì)應(yīng)自變量的增加而減少;如果系數(shù)的統(tǒng)計(jì)性不顯著,說(shuō)明對(duì)應(yīng)自變量的作用在統(tǒng)計(jì)上與0無(wú)差異.由于Logistic回歸的因變量不是常規(guī)的連續(xù)變量,而是logit(即對(duì)數(shù)發(fā)生比,那么對(duì)應(yīng)每個(gè)自變量的估計(jì)系數(shù)便是對(duì)該自變量對(duì)logit的作用.盡管這種解直截了當(dāng),但是其實(shí)十分含糊.因?yàn)閘ogit或?qū)?shù)發(fā)生比沒(méi)有較直觀的含義.通常,較方便的是將logit進(jìn)行轉(zhuǎn)換后再進(jìn)行解釋?zhuān)皇侵苯咏忉屜禂?shù)本身.如果我們將回歸模型等式兩側(cè)取自然指數(shù),于是左邊便成為發(fā)生比(p/(1—p)).由于發(fā)生比是日常生活中的常用概念,比如關(guān)于高校錄取或投票選舉結(jié)果等成功與失敗的比率,因此這種解釋便變得容易理解.一、發(fā)生比和發(fā)生比率發(fā)生比是事件的發(fā)生頻數(shù)與不發(fā)生頻數(shù)之間的比,即:odds=(事件發(fā)生頻數(shù))/(事件不發(fā)生頻數(shù))由于發(fā)生比被表示為一個(gè)比值,因此其值域的上限無(wú)邊界,即可以在所有非負(fù)值域取值.當(dāng)比值大于1時(shí),事件更為可能發(fā)生.比如,一個(gè)事件發(fā)生的概率為0.6.那么事件不發(fā)生的概率即0.4,于是發(fā)生比便等于0.6/0.4=1.5這意味著事件發(fā)生的可能性是不發(fā)生的可能性的1.5倍,或者說(shuō)我們期望看到對(duì)應(yīng)每一次事件不發(fā)生有1.5次事件發(fā)生.如果發(fā)生比odd=0.25,說(shuō)明事件不發(fā)生可能性是發(fā)生可能性的4倍,或者說(shuō)可以期望對(duì)應(yīng)每4次事件不發(fā)生有1次事件發(fā)生.假設(shè)研究事件為“高中畢業(yè)后考入大學(xué)“(簡(jiǎn)標(biāo)為“是%).否事件便是“未能考入大學(xué)”(簡(jiǎn)際為“否”).共有1000名高中畢業(yè)生,其中550名男生、450名女生.因此,考入大學(xué)的發(fā)生比為“是”的頻數(shù)除以“否”的頻數(shù).假如分別有259名男生和76名女生考入了大學(xué)(同時(shí)有291名男生和374名女生落榜)男生和女生的(是/否)發(fā)生比分別為:oddsm=259/291=0.8900;oddsf=76/374=0.2032而男生與女生的發(fā)生比率(OR)為:OR=oddsm/oddsj=0.8900/0.2032=4.38二、按發(fā)生比解釋系數(shù)對(duì)logistic回歸系數(shù)進(jìn)行解釋時(shí),很難具體把握以對(duì)數(shù)單位測(cè)量的作用幅度,所以通常將以logit單位推導(dǎo)的作用轉(zhuǎn)換為對(duì)應(yīng)的發(fā)生比率.例如有如下模型:其中變量p為高中畢業(yè)后進(jìn)人大學(xué)的概率;變量GENDER表示性別(1為男性。0為女性);變量KFYSCH表示高中類(lèi)型(1為重點(diǎn)中學(xué),0為其他中學(xué));變量MEANGR代表高中平均成績(jī),GENDERKEYSCH都是虛擬變量,而MEANGR是連續(xù)變量。因?yàn)槔斫獍l(fā)生比比理解對(duì)數(shù)發(fā)生比更容易,logistic回歸模型可以按事件發(fā)生比的形式改寫(xiě)為:連續(xù)自變量的發(fā)生比率在上面的例子中,自變量MEANER的logistic回歸系數(shù)為=0.4245,因此MEANER增加一個(gè)單位將使發(fā)生比變化。e0.4245=1.529在社會(huì)科學(xué)研究中,人們對(duì)一些連續(xù)變量中一個(gè)單位值的變化通常不感興趣.比如,年齡增加1歲或收入增加1元的作用十分微小,并不重要而一個(gè)離散的變化,如年齡增加5歲或收入增加100元的變化也許更有意義.為了估計(jì)連續(xù)變量的調(diào)整發(fā)生比率,通常先要設(shè)定兩個(gè)要比較的變量值比方用a和b標(biāo)志這兩個(gè)代表連續(xù)自變量Xk水平的值,那么這個(gè)變量從a變到b時(shí),其logit的變化為:調(diào)整發(fā)生比率為:其中,代表在控制其他變量條件下,xk變化一個(gè)單位時(shí)導(dǎo)致logit(對(duì)數(shù)發(fā)生比)的變化估計(jì)在我們的例子中,計(jì)算當(dāng)MEANGR比總平均值高5分時(shí)調(diào)整發(fā)生比率是多少,應(yīng)用上面的式子可以得到:AOR=exp[(5-0)×0.4245]=8.352分類(lèi)自變量的發(fā)生比率當(dāng)分類(lèi)自變量多于兩個(gè)類(lèi)別時(shí),就要建立—組虛擬變量來(lái)代表類(lèi)型的歸屬性質(zhì)如果—個(gè)分類(lèi)變量包括m個(gè)類(lèi)別,那么可以產(chǎn)生m個(gè)相應(yīng)的虛擬變量.但是,建模需要的虛擬變量的數(shù)目應(yīng)等于分類(lèi)總數(shù)減l這就是說(shuō),如果變量包括m個(gè)類(lèi)別,那只需要建立m-1個(gè)虛擬變量即可.不能同時(shí)在模型中包括m個(gè)虛擬變量,因?yàn)槠渲械拿恳粋€(gè)虛擬變量都是其余虛擬變量的線性組合,這會(huì)違反回歸的基本假設(shè)條件。從建模中省略的那個(gè)類(lèi)別稱(chēng)作參照類(lèi)比如,學(xué)校的類(lèi)型是個(gè)名義變量,如果我們定義它有三個(gè)類(lèi)別:重點(diǎn)中學(xué),城市普通中學(xué),農(nóng)村普通中學(xué).我們將在模型中設(shè)置兩個(gè)虛擬變量SCH1(表示重點(diǎn)中學(xué))和SCH2(表示城市普通中學(xué))模型中沒(méi)有包括表示農(nóng)村普通中學(xué)的虛擬變量,所以農(nóng)村普通中學(xué)這個(gè)類(lèi)別就作為參照類(lèi).分類(lèi)變量的哪一類(lèi)別應(yīng)為參照類(lèi)是隨意的,在省略農(nóng)村普通中學(xué)虛擬變量的情況下當(dāng)一個(gè)學(xué)生屬重點(diǎn)中學(xué)時(shí),虛擬變量SCH1=1,否則,SCHl=0;當(dāng)屬城市普通中學(xué)時(shí),虛擬變量SCH2=1,否則,SCH2=0這時(shí),模型如下:如同在線性回歸中一樣,系數(shù)代表重點(diǎn)中學(xué)與農(nóng)村普通中學(xué)(參照類(lèi))在因變量上的差別.所以
為重點(diǎn)中學(xué)對(duì)農(nóng)村普通中學(xué)的發(fā)生比率.在同樣的基礎(chǔ)上,
為城市普通中學(xué)對(duì)農(nóng)村普通小學(xué)的發(fā)生比率。標(biāo)準(zhǔn)化系數(shù)通常在線性回歸模型中的自變量是以不同尺度測(cè)量的.比如。收入的單位是元,年齡的單位是歲,長(zhǎng)度單位可用厘米、分米、或米,如此等等,于是,某個(gè)自變量中的一個(gè)單位的變化并不等價(jià)于另一個(gè)自變量上一個(gè)單位的變化如果我們要比較因變量與不同自變量之間關(guān)系的強(qiáng)度,通常采用標(biāo)準(zhǔn)化回歸系數(shù).出于同樣的原因,在logistic回歸分析中也可以考慮使用標(biāo)準(zhǔn)化系數(shù)。對(duì)logistic回歸來(lái)說(shuō)Logistic回歸的標(biāo)準(zhǔn)化系數(shù)為:第八章第五節(jié)機(jī)動(dòng)目錄上頁(yè)下頁(yè)返回結(jié)束Logistic回歸系數(shù)的統(tǒng)計(jì)推斷如果模型滿(mǎn)足假設(shè)條件,可以由樣本模型的結(jié)果對(duì)總體參數(shù)進(jìn)行統(tǒng)汁推斷.統(tǒng)計(jì)推斷有兩個(gè)含義:假設(shè)檢驗(yàn)和參數(shù)估計(jì).1.假設(shè)檢驗(yàn)涉及的一系列工作最后導(dǎo)致接受或拒絕總體參數(shù)所作假設(shè)陳述的結(jié)論;2.參數(shù)估計(jì)便是估計(jì)出總體參數(shù)的值(包括點(diǎn)估計(jì)和置信區(qū)間估計(jì)).一、Logistic回歸系數(shù)的顯著性檢驗(yàn)在logistic回歸模型中自變量xk對(duì)logit作用的顯著性檢驗(yàn).這涉及到一個(gè)自變量是否與反應(yīng)變量顯著相關(guān)的統(tǒng)計(jì)假設(shè),以及如何建立和檢驗(yàn)這一假設(shè)并做出結(jié)論。假設(shè)零假設(shè)H0為:=o(表示自變量對(duì)事件發(fā)生可能性無(wú)影響作用)如果零假設(shè)被拒絕、說(shuō)明事件發(fā)生可能性依賴(lài)于xk的變化。Wald檢驗(yàn)選擇顯著性水平以后,就可以計(jì)算檢驗(yàn)統(tǒng)計(jì)量了,可以采用Z統(tǒng)計(jì)量:其中為的標(biāo)準(zhǔn)誤Wald統(tǒng)計(jì)量的一般形式:Qβ=r其中β為待檢驗(yàn)的模型參數(shù)向量,Q為常數(shù)矩陣(各元素值為0或1),r為常數(shù)矩陣(元素為0)W=[Qβ-r]’[QVar(β)Q’]-1[Qβ-r]~χ2(Q的行數(shù))常用統(tǒng)計(jì)軟件中,對(duì)logistic回歸系數(shù)進(jìn)行顯著性檢驗(yàn)時(shí)通常使用wald檢驗(yàn),其公式為:決策的規(guī)則為:若W在α=0.05水平的χ2>3.841,拒絕H0若W在α=0.01水平的χ2>6.635,拒絕H0若W在α=0.001水平的χ2>10.828,拒絕H0似然比檢驗(yàn)統(tǒng)計(jì)學(xué)已經(jīng)證明,在大樣本時(shí),如果兩個(gè)模型之間有嵌套關(guān)系.那么兩個(gè)模型之間的對(duì)數(shù)似然比乘以-2的結(jié)果(簡(jiǎn)標(biāo)為-2LL)之差近似服從卡方分布。這一檢驗(yàn)統(tǒng)計(jì)量稱(chēng)為似然比(1ikelihoodratio簡(jiǎn)標(biāo)為L(zhǎng).R.),在0~+∞之間.其中β為待檢驗(yàn)的模型參數(shù)向量,Q為常數(shù)矩陣(各元素值為0或1),r為常數(shù)矩陣(元素為0)L.R.=(-2LLm2)-(-2LLm1)=-2ln(Lm2/Lm1)若令:
回歸模型概率P:0~1,logitP:-∞~∞。
取值范圍
logistic函數(shù)的圖形模型參數(shù)的意義常數(shù)項(xiàng)表示暴露劑量為0時(shí)個(gè)體發(fā)病與不發(fā)病概率之比的自然對(duì)數(shù)?;貧w系數(shù)表示自變量改變一個(gè)單位時(shí)logitP的改變量。流行病學(xué)衡量危險(xiǎn)因素作用大小的比數(shù)比例指標(biāo)。計(jì)算公式為:優(yōu)勢(shì)比OR(oddsratio)與logisticP的關(guān)系:二、logistic回歸模型的參數(shù)估計(jì)參數(shù)估計(jì)
原理:最大似然(likelihood)估計(jì)
可反映某一因素兩個(gè)不同水平(c1,c0)的優(yōu)勢(shì)比。
2.優(yōu)勢(shì)比估計(jì)
例:下表是一個(gè)研究吸煙、飲酒與食道癌關(guān)系的病例-對(duì)照資料,試作logistic回歸分析。
確定各變量編碼
表吸煙與食道癌關(guān)系的病例-對(duì)照調(diào)查資料
經(jīng)logistic回歸計(jì)算后得:的95可信區(qū)間:飲酒與不飲酒的優(yōu)勢(shì)比OR1的95可信區(qū)間
吸煙與不吸煙的優(yōu)勢(shì)比:三、logistic回歸模型的假設(shè)檢驗(yàn)2.Wald檢驗(yàn)1.似然比檢驗(yàn)方法:前進(jìn)法、后退法和逐步法。
檢驗(yàn)統(tǒng)計(jì)量:不是F統(tǒng)計(jì)量,而是似然比統(tǒng)計(jì)量、
Wald統(tǒng)計(jì)量和計(jì)分統(tǒng)計(jì)量之一。四、變量篩選例:
為了探討冠心病發(fā)生的有關(guān)危險(xiǎn)因素,對(duì)26例冠心病病人和28例對(duì)照者進(jìn)行病例對(duì)照研究,各因素的說(shuō)明及資料見(jiàn)下兩。試用logistic逐步回歸分析方法篩選危險(xiǎn)因素。表冠心病8個(gè)可能的危險(xiǎn)因素與賦值表冠心病危險(xiǎn)因素的病例對(duì)照調(diào)查資料
表方程中的自變量及有關(guān)參數(shù)的估計(jì)值第八章第二節(jié)機(jī)動(dòng)目錄上頁(yè)下頁(yè)返回結(jié)束條件logistic回歸
一、原理配對(duì)資料。最常用的是每組中有一個(gè)病例和若干個(gè)對(duì)照,即1:M配對(duì)研究(一般M≤3)表1:M
條件logistic回歸數(shù)據(jù)的格式
*t=0為病例,其他為對(duì)照條件logistic模型Pi表示第i層在一組危險(xiǎn)因素作用下發(fā)病的概率,表示各層的效應(yīng),為待估計(jì)的參數(shù)。與非條件logistic回歸模型不同之處在常數(shù)項(xiàng)上,不同匹配組的可以各不相同,但內(nèi)在假定了每個(gè)危險(xiǎn)因素的致病能力在不同匹配組中相同。二、應(yīng)用實(shí)例例
某北方城市研究喉癌發(fā)病的危險(xiǎn)因素,用1:2配對(duì)的病例對(duì)照研究方法進(jìn)行了調(diào)查?,F(xiàn)選取了6個(gè)可能的危險(xiǎn)因素并節(jié)錄25對(duì)數(shù)據(jù),各因素的賦值說(shuō)明、資料列于下表。試作條件logistic逐步回歸分析。表進(jìn)入方程中的自變量及有關(guān)參數(shù)的估計(jì)值
采用逐步法
6個(gè)危險(xiǎn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中職學(xué)校招生就業(yè)工作計(jì)劃(5篇)
- 冬季取暖安全應(yīng)急預(yù)案(5篇)
- 虛擬辦公服務(wù)質(zhì)量監(jiān)控體系-洞察分析
- 物流效率優(yōu)化研究-洞察分析
- 水星表面地質(zhì)過(guò)程模擬-洞察分析
- 溯源技術(shù)法規(guī)研究-洞察分析
- 舞蹈教育改革與實(shí)踐探索-洞察分析
- 虛擬現(xiàn)實(shí)在遺產(chǎn)教育中的應(yīng)用-洞察分析
- 網(wǎng)絡(luò)虛擬化研究-洞察分析
- 油畫(huà)作品鑒賞與市場(chǎng)價(jià)值分析-洞察分析
- 2024-2030年中國(guó)集中供熱行業(yè)供需平衡與投資運(yùn)行模式規(guī)劃研究報(bào)告
- TCSRME 034-2023 隧道巖溶堵水注漿技術(shù)規(guī)程
- 藝坊尋美-藝術(shù)實(shí)踐體驗(yàn)坊智慧樹(shù)知到答案2024年黑龍江幼兒師范高等專(zhuān)科學(xué)校
- 桂枝顆粒營(yíng)銷(xiāo)策略與品牌定位
- 墻布訂購(gòu)合同協(xié)議書(shū)
- 爭(zhēng)做“四有好老師”-當(dāng)好“四個(gè)引路人”
- 支持企業(yè)建設(shè)中試平臺(tái)實(shí)施方案
- 腦血管造影課件
- 2024年《愛(ài)清潔》幼兒園小班兒歌教案
- AQ/T 1089-2020 煤礦加固煤巖體用高分子材料(正式版)
- 電影作品讀解智慧樹(shù)知到期末考試答案章節(jié)答案2024年西北大學(xué)
評(píng)論
0/150
提交評(píng)論