二分類Logistic回歸模型_第1頁
二分類Logistic回歸模型_第2頁
二分類Logistic回歸模型_第3頁
二分類Logistic回歸模型_第4頁
二分類Logistic回歸模型_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、實用標準文檔二分類 Logistic二分類 Logistic歸模型在對資料進行統(tǒng)計分析時常遇到反應變H為分類變竹的資料.那么,柜否用類似乎餞 性回歸的模型來對這種資料進行分析呢?答案是片定的。本章將向大家介紹對二分類因受竹 進行回歸注模的Logistic回歸模型。第一節(jié)模型簡介在很多場合下都矩碰到反應變時為二分類的資料.如考察公司中總裁級的領導層中是 否有女性職員、某一天是否下雨、某病患者結局是否痊愈、調查對象是否為某商品的潛在消 費者等C對于分類資料的分析.相信大定并不陌生,當要考察的影響因素較少,且也為分類變計時,分析者常用列聯(lián)衣(contingency Table)的形式對這種資料進行整

2、理,并使用檢臉來進行分析,漢存在分類的混雜因素時,還可應用 Mantel-Haenszel/二檢臉進行統(tǒng)計學檢臉,這種方法可以很好地控制混雜因素的影響,但是這種經典分析方法也存在局限性,首 先.它顯然可以控制若干個因素的作用,但無法指述其作用大小及方向,更不能考察各因素 間是否存在交互任用;其次.該方法對樣本含計的要求較大.當控制的分層因素較多時,單 元格被劃分的樁來樁細.列聯(lián)衣的格子中頻數(shù)可能很小甚至為0,將導致檢驗結果的不可荒。 最后. /檢驗無法對連續(xù)性自變時的影響進行分析,而這將大大限制其應用范圍. 無疑是其致使的缺陷Q那么,能否注立類似乎線性回歸的模型,對這種數(shù)據加以分析?以城簡單的

3、二分類因 變址為例來加以探討,為了討論方便,常定義出現(xiàn)陽性結果時反應變址單值為1,反之則也 值為0。例如當領導層有女性職員、下雨、痊愈時反應變Hy = l, 而沒有女性職員、未下雨、未痊愈時反應變Hy = 0。記出現(xiàn)陽性結果的頻率為反應變P(y = 1)。首先,回顧一下標準的餞性回歸模型:如果對分類變竹立接擬合.則實質上擬合的是發(fā)生概率,參照前面餞性回歸方程,很 自然地會想到是否可以瘦文下面形式的回歸模型:顯然,該模型可以描述當各自變址變化時,因變時的發(fā)生概率會怎樣變化, 可以滿足 分析的基本要求。實際上,統(tǒng)計學京們城早也在朝這一方向努力,并考慮到般小二乘法擬合 時遇到的各種問題,對計算方法進

4、行了改進,最終提出了加權最小二乘法來對該模型進行擬 合. 至今這種分析電路還偶有應用。既然可以使用加權淑小二乘法對模型加以估計,為什么現(xiàn)在又放弁了這種做法呢?原 因在于有以下兩個問題是這種分析電路所無法解決的:(1)取值區(qū)間:上述模型右側的取值范圍,或者說應用上述模型進行預報的范圍為整 個實數(shù)集(-s,+8),而模型的左邊的單值范圍為0KPKL 二者并不相符模型本身不矩 文案大全實用標準文檔保證在自變時的各種組合下.因變址的估計值仍限制在。1內.因此可矩分析者會得到這 種荒曲的結論:男性、30歲、病情較輕的患者被治愈的概率是300%!研究者當然可以將此 結果苓價于100席可以治愈,但是從數(shù)理統(tǒng)

5、計的角度講,這種模型顯然是極不嚴漢的(2)曲線關聯(lián):根據大H的觀家.反應變處P與自變H的關系通離不是立線關系. 而 是S型曲線關系。這里以收入水平和購車概率的關系來加以說明,當收入昨常低時.收入的 增加對購買概率影響很??;但是在收入達到某一閾值時.購買概率會隨著收入的增加而迅速 增加;在購買概率達到一定水平.絕大部分在該收入水平的人都會購車時,收入增加的影響 又會逐漸減詡。如果用圖形來表示,則如圖1所示顯然.餞性關聯(lián)是線性回歸中至關紀要 的一個前提假設,而在上述模型中這一假設是明顯無法滿足的仁國1 S型曲線畫以上問題促使統(tǒng)計學室們不得不尋求新的解決陶路,如同在曲鼓回歸中,往往采用變 H變換,使

6、得曲錢立線化.然后再進行成線回歸方程的擬合。那么,能否考慮對所預測的因 變H加以變換,以使得以上矛盾得以解決?基于這一甩想.又有一大批統(tǒng)計學家在尋找合適 的變換函數(shù)。終于.在1970 隼.Cox引入了以前用于人口學領域的 Logit 變換(Logit Transformation) f成功地解決了上述問題。那么,什么是 Logit 變換呢?通離的把出現(xiàn)某種結果的概率與不出現(xiàn)的概率之比稱為TTTC比值(odds,國內也譯為優(yōu)勢、比數(shù)),即Odds =,取其對數(shù)上=111(。/杰)=111o1 一乃1 一萬這就是logit變換g下面來看一下該變換是如何解決上述兩個問題的.首先是因變址取值區(qū) 間的變

7、化,概率是以0. 5為對稱點,分布在0-1的范圍內的,而相應的logit (P)的大小為:乃=0 log it (1)=111(0 /1) = 一 8%=0.5 logit() = 111(0.5/0.5) = 07T=llogit =111(1/0) = + oo顯然,通過變換.Logit (萬)的取值范圍就被擴辰為以0為對稱點的整個實數(shù)域,這使 祖在任何自變時取值下. 對乃值的預測均有實際您義。其次,大H實踐證明,Logit(萬)往 往和 自變竹呈餞性關系.換言之,柢率和自變時間關系的S形曲線往往就符合logit函數(shù)關 系. 從而可以通過該變換將曲線比線化。因此. 只需要以Logit (不

8、)為因變瘦文包含p 個自變時的logistic回歸模型如下:文案大全實用標準文檔log it(p)=4+ +Ppxp以上即為logistic回歸模型。由上式可推得:p = exp(& + 4& + .+gd) lp =11 + exp(& + 0及 + + ppxp)1 + exp(4 + 4丙 + + Ppxp)上面三個方程式相互等價。通過大*的分析實踐,發(fā)現(xiàn)logistic回歸模型可以很好地 滿足對分類數(shù)據的延模需求.因此目前它已經成為了分類因變址的標準延模方法通過上面的討論,可以很容易地理解二分類logistic回歸模型對資料的要求是:(1)反應變址為二分類的分類變H或是條事件的發(fā)生率0

9、(2)自變時與Logit (不)之間為線性關系-(3)殘組合計為0,且服從二項分布。(4)各觀測值間相互獨立Q由于因變址為二分類. 所以logistic回歸模型的誤整應當服從二項分布,而不是正態(tài) 分布c因此.該模型實際上不應當使用以前的斌小二乘法進行參數(shù)估計,上次均使用最大似 然法來解決方程的估計和檢臉問題。二、一注基本柢念由于使用了 logit變換.Logistic模型中的參數(shù)含義略顯艾雜,但有很好的實用價值, 為此現(xiàn)對一些基本概念加以解樣。1. 優(yōu)勢比如前所述,人們常把出現(xiàn)某種結果的概率與不出現(xiàn)的概率之比稱為比值 (odds). 即 Podds =o兩個比值之比稱為優(yōu)勢比(odds Rat

10、io,簡稱0?)。首先考察您的特性: PP p若尸1 P2,貝!J odds.= =odds、1 1-P 只- .p P若1 v P2 ,貝!J odds.= 0. 5判斷為出 現(xiàn)陽性結果O 可見已經出現(xiàn)了被預測為未患病的研究對象,此處78例研究對象中共有56 (25+31)例判斷正確,總正確率為56/78 = 71. 8軌 如表8所示表9輸出了模型中各自變時的偏回歸系數(shù)及其標準誤、Wald/2.自 由度、P值.及口渲文案大全實用標準文檔(即表格珀右側的Exp(B) ) o由此可以得出結論,男性(sex=l)較女性更容易患定心病、心電圖異常程度垓高.越容易被診斷為定心病.年齡垓大的越容易電電心

11、病,由于隼憐不可能為0 , 這也超出了樣本所觀察的自變竹age取值范圍,因此這里的常數(shù)項無實際怠義門*9 Variables in the EquationBS. E.WalddfSig.Exp(B)Step la sex1.356.5466. 1621.0133.882ecg.873.3845. 1621.0232. 395age.093.0357.0001.0081.097Constant-5. 6421.8069.7571.002.004a. Variable(s) entered on step 1: sex, ecg, age.到此為止,可瘦立如下Logistic回歸方程:P(),=

12、) =exp(-5.642一 1.356xsex-0.873xecg 一0.093xage)P(),=) =1 + exp(-5.642-1.356x sex- 0.873xecg - 0.093x age)或 Logit(P) = -5.642-1.356x sex- 0.873 x ecg - 0.093x age一、使用啞變妙的必要性在回歸模型中,回歸系數(shù)b衣示其他自變時不變,工每改變一個單位時,所預測的v的平 均變化時,當x為連續(xù)性變時時這樣解釋沒有問題,二分類變H由乎只存在兩個類別間的比 較,也可以對系數(shù)得到很好的解彳辛,但是當X為多分類變址時擬合一個回歸系數(shù)就不太合適 了,此時辯要

13、使用啞變H (DummyVariable)方式對模型加以定義.為說明該問題.先引入 下面的一個實例。例2 Hosmer和Lemeshow于1989年研究了假出生體重嬰兒的影響因素。結果變妙為是否 娩出假出生體重兒(變名為LOW, 1為低出生體室.即嬰兒出生體生2500g,。為非假出生 體生),考慮的影響(自變時)有:產婦妊娠前體至(lwt,磅)、產婦年齡(age,歲)、產 婦在妊娠期間是否吸煙(smoke, 0 =未吸、1 =吸煙)、本次妊娠前早產次數(shù)(ptl,次)、是 否患有高血壓(ht, 0 =未患.1 =患?。?、子宮對按摩、催產素等刺激引起收縮的應激性(uif 0 =無、1 =有)、妊娠

14、前三個月社區(qū)醫(yī)生甌訪次數(shù)(ftv,次)、種族(race, 1 =白人.2 = 黑人,3 =其他民旌)。本例包含的自變時種類齊全,有連續(xù)性變H、二分類、無序多分類變He SPSS默認將所 有的自變時均視作連續(xù)性變如本例,不同種族的變H賦值為1、2、3 ,但這僅是一個代 碼而已,并不愈味君白人、黑人、其他民族間存在大小次序的關系,即并非代表產婦娩出低 出生體生兒概率的logit (P)會按此順序線性增加或減少。即使是有序多分類變如家庭收 入分高、中、低三檔,各類別間的組距也是無法準確衡時的.按編碼數(shù)值來分析實際上就是 強行規(guī)定為等距,這顯然可能引入更大的誤差在以上情況時.就必須將原始的多分類變竹

15、轉化為數(shù)個啞變時,每個啞變時只代衣某兩個級別或若干個級別間的差異,這樣得到的回歸 結果才矩有明確而合理的實際總義。文案大全實用標準文檔圖3 Cat egori cal子對話框SPSS提供了Categorical按鈕用h指定無序多分類自變時,如圖3所示,對于取值有n個 水平的自變HX,默認會產生n-l個啞變(1), ,X (n-l)t 此時以第n個水平為參股水 平.SPSS會在分類變H編碼矩陣中輸出具體的賦值忸況,矩陣中元素均為“0”的那一行表 示以該自變址相對應的取值水平作為參股水平例如種族race有三個水平,則SPSS會產生兩 個啞變時:*10 Categorical Variables C

16、odingsFrequencyParameter coding(1)(2)種族白人961.000.000黑人26.0001.000其他種族67.000.000在我10中可以看出.相應的兩個啞變竹含義如下:race(1)=1 ,白人;0 ,非白人race (2)=1 ,黑人;0 ,非黑人由乎兩個啞變時是同時使用的,而只有“其他種族”這一類在兩個啞變H中取值都為0, 因此當同時使用時,實際上兩個啞變H都是以“其他種族”作為參照水平o分別對上述啞變 H的系數(shù)進行估計,就可以分別得知白人、黑人和參照水平(其他種族)的差異,而這兩個 啞變時的參數(shù)估計值之組就反映了白人和黑人間的組異。例如在本例中如果只分

17、析種族的作 用,則最終的結果參見表11.和其他種族相比.白人低出生體交的風險較低,而黑人則風險較廟. 但兩者均無統(tǒng)計 學您義如果將白人和黑人相比,則相應的系數(shù)為-0. 636-0.209 = -0.845,其0R值為 exp(-0.845)=0. 43,白人的風險要比黑人小得多顯然,這兩個類別之間有無這差異還辯要文案大全實用標準文檔進行檢臉,而這在表11中是無法比接體現(xiàn)的C*11 Variables in the EquationBS. E.WalddfSig.Exp(B)Step r race4.9222.085race(l)- 636.3483. 3451.067.529race (2).

18、209.471.1971.6571.232Constant-519.2534.2181.040.595a. Variable(s) entered on step 1: race.我11的輸出中兩個啞變時均無統(tǒng)計學總義,如果同一分類變H的不同啞變時出現(xiàn)了有些 有怠義,有些無您義的情形,又該如何處理?首先.結果中會對分類變先進行一個總體的 檢險.例如在本例中種族的檢臉其P值為0. 085,來明從總體上講,種族應當對因變什無影響, 此時所有的啞變時都不用再納入分析了,總的檢核比分項的檢臉更有權威性;如果總的檢臉 有差異,而有些啞變時無統(tǒng)計學怠義.則由于啞變時應當同進同出,原則上仍然應當在模型 中納

19、入所有的啞變計.以保證啞變時代衣含義的正確性。否則,別除部分啞變竹將會導致參 脫水平的變化,從而啞變時的具體含義也會發(fā)生改變。二、SPSS中預設的啞變址編碼方式除以上默認的啞變時對比方式外,SPSS的Categorical 子對話框中還提供了其余幾種對比方 式:. Indicator:指示對比用于指定某一分類變H的參照水平 這時計算出來的參數(shù)力是 以該變址的城后一*個或第一*個水平作為參照水平(取決于下面的Reference Category中選擇 的是last還是first )。在本例中.Reference Category均為last。變時race以“其他種族” 作為參膿水平QSimple

20、:簡單對比 可計算該分類變好的各水平與參照水平相比的 四值,對乎本例來說,Simple與Indicator選項是一樣的,前提是下面的Reference Category中所選擇的同是last (或first )oDifference:差別對比分類變時某個水平與其前面的所有水平平均值進行比較。此法與 Helmert法相及,因此也叫及Helmert法c 如2水平與1水平相比;3水平與1、2水平的平均值 相比.以此類推。如果在某水平處系數(shù)變小且無統(tǒng)計學總義(P0.05). 說明該分類變址對 風險率產生的影響在該水平處達到停滯狀態(tài)0此選擇項一放用于有序的分類變顯對無序多 分類變址則無實際總義。Helm

21、ert:嫡爾默格對比。分類變H某水平與其后面各水平平均值進行比較-如果在某水 平系數(shù)增大且有統(tǒng)計學意義.說明該分類變竹自該水平起開始對風險率產生影響。同樣也適 用于有序的分類變計。Repeated:至文對比。分類變H的各水平與其前面相鄰的水平相比較(笫一水平除外), 此時以“前一水平”為參股水平。Polynomial:多項式對比。僅用于數(shù)字型的分類變H o 無效假設是假設各水平是等距離 的(可以是線性的關系,也可以是女方、四次方的關系)。例如隼齡每增加5歲.娩出低出生 體重兒的危險增加幅度是一樣的,但實際情況雷常與之相及,例如在20歲與30歲年齡段,年 文案大全實用標準文檔齡都增加5歲,所增加

22、的娩出低出生體重兒的危險先定是不一樣的.具體情況辯要根據各人 的研究課題而定。Deviation:兩差對比 除了所規(guī)定的參股水平外,其余每個水平均與總體水平相比, 此 時每個水平的回歸系數(shù)都是相對于總體水平而言的改變He對于那個參股水平而言,它的回 歸系數(shù)可以通過其他n-1個回歸系數(shù)算出來.等于0減去其他幾個水平回歸系數(shù)的代數(shù)和。即 些時n個水平的回歸系數(shù)的代數(shù)和為 “0”。三、設J8L啞變計時要注怠的問題.參股水平城好要有實際您義,否則將會推動比較的目標。如果將一些難以分類的個體 放到一般,然后美其名曰“其他“,此時往往不知道已知的某個類別具體在與誰進行比較, 進而導致啞變時的回歸系數(shù)難以解

23、蜂C因為不同研究樣本中的“其他”往往是不同的,這樣 研究結果之間難以相互進行比較。.參股水平組應有一定的頻數(shù)作保證門如果參股水平頻數(shù)過少,將導致其他與之相對比 的水平參數(shù)估計的標準誤增大.進而J1信區(qū)間擴大.精確度降假。有學者認為,參股水平組 的頻數(shù)應不少于30例或30例。.如果不通過Categ。rical模型對分類自變時產生啞變時,而是自 己通過Compute過程產 生,需要注總在逐步回歸陸選自變H時,啞變時應該同時進入模型或者同時狙出模型0.對有序自變時的分析。一是從專業(yè)出發(fā),如果認為在不同等級對反應變時的影響程度 是一致的,如文化程度每增加一個等級,成為某項時尚消費品潛在消費者的比數(shù)(P

24、/ (1-P) 的自然對數(shù)增加幅度也相同.這時可以將該變竹作為連續(xù)性變計進行處理,這樣得到的模型 也更新潔,結果的解釋也更方便,當專業(yè)上不姐給出以上假設時,則需要先將該有序變好分 別以啞變時和連續(xù)性變H的方式引入模型,觀察各啞變H的回歸系數(shù)間是否存在等級關系. 以及對兩個模型進行似然比檢臉,似然比 / 值等于兩個模型的-210g (L)之壟,自由度為兩 個模型中自變時個數(shù)之組.如果似然比檢臉無統(tǒng)計學您義.且各啞變H的回歸系數(shù)間存在等 級關系,可以將該自變時作為連續(xù)性變時引入模型,否則也好還是采用啞變時的方式引入模 型C第三節(jié) 標準化回歸系數(shù)和回歸模裂的擬合優(yōu)度一、標濃化回歸系數(shù)與多重線性回歸類

25、似.自變H4綱(單位)不同,非標準化的logistic回歸系數(shù)不能 用于比較各自變時對事件發(fā)生概率的貢獻大小欲研究logistic回歸中各變H的相對貢獻, 要么事先將各自變計標準化后再作回歸分析,要么對logistic回歸系數(shù)進行標準化, 我們 可以用極大似然估計的回歸系數(shù)乘以該變址的樣本標準組求得logistic回歸的標準化回歸 系數(shù)Cb; = xSbj(16)SPSS軟件可以提供回歸系數(shù)及其變址的樣本標準差,但不柜立接得到標準化回歸系數(shù)。 在標準化系數(shù)問題上要理慎.應注怠標準化的原怠是消去不同時綱的影響.增加可比性c對 于一些二分類的自變不存在妙綱問題,則不宜作標準化。另外,一放不利用標準

26、化回歸 系數(shù)估計優(yōu)勢比,因為按標準化回歸系數(shù)所計算的優(yōu)勢比不是變化一個單位,而是變化一個 標準差的優(yōu)勢比了。二、回歸模型的擬合優(yōu)皮文案大全實用標準文檔對回歸系數(shù)進行假設檢臉,只矩說明logistic回歸方程中的回歸系數(shù)是否有統(tǒng)計學總 義.因變址與自變址是否有統(tǒng)計學聯(lián)系,不表明自變時對因變H變異的解釋程度。要說明這 一點,如線性回歸一樣. 應對回歸方程進行擬合優(yōu)度評價0Logistic回歸方程擬合優(yōu)度評價的電路有兩種:第一種是希望找到一個評價指標,類 似線性回歸中的確定系數(shù)R1 但是logistic回歸還沒有對應的理想指標;第二種是通過回 歸方程預測值與實際觀測值的吻合程度,說明回歸方程的擬合優(yōu)度考核預測吻合程度的樣 本來源有兩種,一種是用于注立回歸方程的訓練樣本,錯判率指標往往偏低;笫二種是新樣 本,考核結果相對更客觀 SPSS軟件中有下列幾種方法評價擬合優(yōu)度0似然比檢驗似然比檢驗是常用的評價方法,如同回歸系數(shù)的似然比檢臉原理一樣,對于某拘定回

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論