二分類與多分類Logistic回歸模型_第1頁
二分類與多分類Logistic回歸模型_第2頁
二分類與多分類Logistic回歸模型_第3頁
二分類與多分類Logistic回歸模型_第4頁
二分類與多分類Logistic回歸模型_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 二分類Logistic回歸模型 在對資料進(jìn)行統(tǒng)計(jì)分析時(shí)常遇到反應(yīng)變量為分類變量的資料,那么,能否用類似于線 性回歸的模型來對這種資料進(jìn)行分析呢?答案是肯定的。本章將向大家介紹對二分類因變量 進(jìn)行回歸建模的 Logistic回歸模型。 第一節(jié)模型簡介 一、模型入門 在很多場合下都能碰到反應(yīng)變量為二分類的資料,如考察公司中總裁級(jí)的領(lǐng)導(dǎo)層中是 否有女性職員、某一天是否下雨、某病患者結(jié)局是否痊愈、調(diào)查對象是否為某商品的潛在消 費(fèi)者等。對于分類資料的分析,相信大家并不陌生,當(dāng)要考察的影響因素較少,且也為分類 變量時(shí),分析者常用列聯(lián)表 (contingency Table)的形式對這種資料進(jìn)行整理,并使

2、用2檢驗(yàn) 來進(jìn)行分析,漢存在分類的混雜因素時(shí),還可應(yīng)用Mantel-Haenszel 2檢驗(yàn)進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn), 這種方法可以很好地控制混雜因素的影響。但是這種經(jīng)典分析方法也存在局限性,首先,它 雖然可以控制若干個(gè)因素的作用,但無法描述其作用大小及方向,更不能考察各因素間是否 存在交互任用;其次,該方法對樣本含量的要求較大,當(dāng)控制的分層因素較多時(shí),單元格被 劃分的越來越細(xì),列聯(lián)表的格子中頻數(shù)可能很小甚至為0,將導(dǎo)致檢驗(yàn)結(jié)果的不可靠。最后, 2檢驗(yàn)無法對連續(xù)性自變量的影響進(jìn)行分析,而這將大大限制其應(yīng)用范圍,無疑是其致使 的缺陷。 那么,能否建立類似于線性回歸的模型,對這種數(shù)據(jù)加以分析?以最簡單的二分

3、類因 變量為例來加以探討,為了討論方便,常定義出現(xiàn)陽性結(jié)果時(shí)反應(yīng)變量取值為1,反之則取 值為o。例如當(dāng)領(lǐng)導(dǎo)層有女性職員、下雨、痊愈時(shí)反應(yīng)變量y = 1,而沒有女性職員、未下 雨、未痊愈時(shí)反應(yīng)變量 y = 0。記出現(xiàn)陽性結(jié)果的頻率為反應(yīng)變量P( y = 1)。 首先,回顧一下標(biāo)準(zhǔn)的線性回歸模型: 丫 也川mXm 如果對分類變量直接擬合,則實(shí)質(zhì)上擬合的是發(fā)生概率,參照前面線性回歸方程,很 自然地會(huì)想到是否可以建立下面形式的回歸模型: P 心瘁| - -mXm 顯然,該模型可以描述當(dāng)各自變量變化時(shí),因變量的發(fā)生概率會(huì)怎樣變化,可以滿足 分析的基本要求。實(shí)際上,統(tǒng)計(jì)學(xué)家們最早也在朝這一方向努力,并考慮

4、到最小二乘法擬合 時(shí)遇到的各種問題,對計(jì)算方法進(jìn)行了改進(jìn),最終提出了加權(quán)最小二乘法來對該模型進(jìn)行擬 合,至今這種分析思路還偶有應(yīng)用。 既然可以使用加權(quán)最小二乘法對模型加以估計(jì),為什么現(xiàn)在又放棄了這種做法呢?原 因在于有以下兩個(gè)問題是這種分析思路所無法解決的: (1)取值區(qū)間:上述模型右側(cè)的取值范圍,或者說應(yīng)用上述模型進(jìn)行預(yù)報(bào)的范圍為整 個(gè)實(shí)數(shù)集(:,:),而模型的左邊的取值范圍為 0空P空1,二者并不相符。模型本身不能 保證在自變量的各種組合下,因變量的估計(jì)值仍限制在01內(nèi),因此可能分析者會(huì)得到這 種荒唐的結(jié)論:男性、30歲、病情較輕的患者被治愈的概率是 300%研究者當(dāng)然可以將此 結(jié)果等價(jià)于

5、100%可以治愈,但是從數(shù)理統(tǒng)計(jì)的角度講,這種模型顯然是極不嚴(yán)謹(jǐn)?shù)摹?(2) 曲線關(guān)聯(lián):根據(jù)大量的觀察,反應(yīng)變量P與自變量的關(guān)系通常不是直線關(guān)系,而 是S型曲線關(guān)系。這里以收入水平和購車概率的關(guān)系來加以說明,當(dāng)收入非常低時(shí),收入 的增加對購買概率影響很小;但是在收入達(dá)到某一閾值時(shí),購買概率會(huì)隨著收入的增加而迅 速增加;在購買概率達(dá)到一定水平,絕大部分在該收入水平的人都會(huì)購車時(shí),收入增加的影 響又會(huì)逐漸減弱。如果用圖形來表示,則如圖1所示。顯然,線性關(guān)聯(lián)是線性回歸中至關(guān)重 要的一個(gè)前提假設(shè),而在上述模型中這一假設(shè)是明顯無法滿足的。 圖1 S型曲線圖 以上問題促使統(tǒng)計(jì)學(xué)家們不得不尋求新的解決思路,

6、如同在曲線回歸中,往往采用變 量變換,使得曲線直線化,然后再進(jìn)行直線回歸方程的擬合。那么,能否考慮對所預(yù)測的因 變量加以變換,以使得以上矛盾得以解決?基于這一思想,又有一大批統(tǒng)計(jì)學(xué)家在尋找合適 的變換函數(shù)。終于,在1970年,Cox引入了以前用于人口學(xué)領(lǐng)域的Logit變換(Logit Transformation),成功地解決了上述問題。 那么,什么是Logit變換呢?通常的把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱為比 nn 值(odds,國內(nèi)也譯為優(yōu)勢、比數(shù)),即Odds,取其對數(shù),=ln(Odds) = In 。 1 一兀1 - JT 這就是logit變換。下面來看一下該變換是如何解決上述

7、兩個(gè)問題的,首先是因變量取值區(qū) 間的變化,概率是以 0.5為對稱點(diǎn),分布在 01的范圍內(nèi)的,而相應(yīng)的logit(P)的大小為: 二=0 logit(二)二 In(0/1) = - - =0.5 log n ) l n ( 0.牛/ 0 : = 1 logit(二)=ln(1/ 0) I 顯然,通過變換,Logit(二)的取值范圍就被擴(kuò)展為以 0為對稱點(diǎn)的整個(gè)實(shí)數(shù)域,這使得 在任何自變量取值下,對 二值的預(yù)測均有實(shí)際意義。其次,大量實(shí)踐證明,Logit(二)往往和 自變量呈線性關(guān)系,換言之,概率和自變量間關(guān)系的S形曲線往往就符合logit函數(shù)關(guān)系, 從而可以通過該變換將曲線直線化。因此,只需要以

8、Logit(二)為因變量,建立包含 p個(gè)自 變量的logistic回歸模型如下: logit( P)二 J 也川pXp 以上即為logistic回歸模型。由上式可推得: exp(y:必 HlpXp) 1 exp(y%XipXp) 1-P = 1 1 exp:01X1 |pXp 上面三個(gè)方程式相互等價(jià)。通過大量的分析實(shí)踐,發(fā)現(xiàn)logistic回歸模型可以很好地滿 足對分類數(shù)據(jù)的建模需求,因此目前它已經(jīng)成為了分類因變量的標(biāo)準(zhǔn)建模方法。 通過上面的討論,可以很容易地理解二分類logistic回歸模型對資料的要求是: (1)反應(yīng)變量為二分類的分類變量或是某事件的發(fā)生率。 (2) 自變量與Logit(二

9、)之間為線性關(guān)系。 (3)殘差合計(jì)為0,且服從二項(xiàng)分布。 (4)各觀測值間相互獨(dú)立。 由于因變量為二分類,所以logistic回歸模型的誤差應(yīng)當(dāng)服從二項(xiàng)分布,而不是正態(tài)分 布。因此,該模型實(shí)際上不應(yīng)當(dāng)使用以前的最小二乘法進(jìn)行參數(shù)估計(jì),上次均使用最大似然 法來解決方程的估計(jì)和檢驗(yàn)問題。 二、一些基本概念 由于使用了 logit變換,Logistic模型中的參數(shù)含義略顯復(fù)雜,但有很好的實(shí)用價(jià)值,為 此現(xiàn)對一些基本概念加以解釋。 1. 優(yōu)勢比 如前所述,人們常把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱為比值(odds),即 P odds =。兩個(gè)比值之比稱為優(yōu)勢比(odds Ratio,簡稱OR)。首

10、先考察 OR的特性: 1 -P PP 若 P1 P2,則 odds!12 odds2 1R 1 -F2 若 P1 : P2,則 odds How many loved your mome nts of glad grace, And loved your beauty with love false or true, But one man loved the pilgrim soul in you, And loved the sorrows of your cha nging face; And bending dow n beside the glow ing bars, Murmur,

11、 a little sadly, how love fled And paced upon the mountains overhead And hid his face amid a crowd of stars. The furthest dista nee in the world Is not betwee n life and death But whe n I sta nd in front of you Yet you dont know that I love you. The furthest dista nee in the world Is not whe n I sta

12、 nd in front of you Yet you cant see my love But whe n un doubtedly knowing the love from both Yet cannot be together. The furthest dista nee in the world Is not being apart while being in love But whe n I pla inly cannot resist the year ning Yet prete nding you have n ever bee n in my heart. The furthest dista nee in the world Is not struggli ng aga inst the tides But using on es in differe nt heart To dig an un erossable river For the one who loves you. 倚窗遠(yuǎn)眺,目光目光盡處必有一座山,那影影綽綽的黛綠色的影,是春天的 顏色。周遭流嵐升騰,沒露出那真實(shí)的面孔。面對那流轉(zhuǎn)的薄霧,我會(huì)幻想,那 里有一個(gè)世外桃源。在天階夜色涼如水的夏夜,我會(huì)靜靜地,靜靜地,等待一場 流星雨的來臨 許下一個(gè)愿望,不乞求去實(shí)現(xiàn),至少,曾經(jīng),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論