第8章:Logistic回歸分析_第1頁
第8章:Logistic回歸分析_第2頁
第8章:Logistic回歸分析_第3頁
第8章:Logistic回歸分析_第4頁
第8章:Logistic回歸分析_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第第8 8章章 Logistic Logistic回歸分析回歸分析 二元二元LogisticLogistic回歸回歸 無序多分類無序多分類LogisticLogistic回歸回歸 有序多分類有序多分類LogisticLogistic回歸回歸 線性回歸模型的一個(gè)局限性是要求因變量是定量變量(定距線性回歸模型的一個(gè)局限性是要求因變量是定量變量(定距 變量、定比變量)而不能是定性變量(定序變量、定類變量)。變量、定比變量)而不能是定性變量(定序變量、定類變量)。 但是在許多實(shí)際問題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量)但是在許多實(shí)際問題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量) 的情況。的情況。 可

2、用于處理分類因變量的統(tǒng)計(jì)分析方法有:判別分別可用于處理分類因變量的統(tǒng)計(jì)分析方法有:判別分別 ( (Discriminant analysis) )、Probit 分析、分析、Logistic 回歸分析和對(duì)回歸分析和對(duì) 數(shù)線性模型等。在社會(huì)科學(xué)中,應(yīng)用最多是數(shù)線性模型等。在社會(huì)科學(xué)中,應(yīng)用最多是Logistic回歸分析?;貧w分析。 Logistic 回歸分析根據(jù)因變量取值類別不同,又可以分為二回歸分析根據(jù)因變量取值類別不同,又可以分為二 元元 Logistic 回歸分析和多元回歸分析和多元 Logistic 回歸分析?;貧w分析。 第一節(jié)第一節(jié) 二元二元LogisticLogistic回歸回歸 現(xiàn)

3、實(shí)世界中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人現(xiàn)實(shí)世界中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人 是否會(huì)當(dāng)選,為什么一些人易患冠心病,為什么一些人生意會(huì)是否會(huì)當(dāng)選,為什么一些人易患冠心病,為什么一些人生意會(huì) 獲得成功。獲得成功。 這些問題的特點(diǎn)是因變量只有兩個(gè)值,發(fā)生(是)或不發(fā)生這些問題的特點(diǎn)是因變量只有兩個(gè)值,發(fā)生(是)或不發(fā)生 (否)。這就要求建立的模型必須保證因變量的取值是(否)。這就要求建立的模型必須保證因變量的取值是0 0、1 1。 可是大多數(shù)模型的因變量值常常處于一個(gè)實(shí)數(shù)集中,與因變量可是大多數(shù)模型的因變量值常常處于一個(gè)實(shí)數(shù)集中,與因變量 只有兩個(gè)值的要求相悖。因?yàn)橐话慊貧w

4、分析要求直接預(yù)測因變只有兩個(gè)值的要求相悖。因?yàn)橐话慊貧w分析要求直接預(yù)測因變 量的數(shù)值,要求因變量呈現(xiàn)正態(tài)分布,并且要求各組中具有相量的數(shù)值,要求因變量呈現(xiàn)正態(tài)分布,并且要求各組中具有相 同的方差同的方差協(xié)方差矩陣。協(xié)方差矩陣。 本節(jié)介紹對(duì)因變量數(shù)據(jù)假設(shè)要求不高,并且可以用來預(yù)測具本節(jié)介紹對(duì)因變量數(shù)據(jù)假設(shè)要求不高,并且可以用來預(yù)測具 有兩分特點(diǎn)的因變量概率的統(tǒng)計(jì)方法有兩分特點(diǎn)的因變量概率的統(tǒng)計(jì)方法 二元邏輯斯諦二元邏輯斯諦(Binary (Binary Logistic)Logistic)回歸模型?;貧w模型。 一、一、Logistic 回歸模型回歸模型 1 1、 Logistic 模型模型 在二

5、元邏輯斯諦回歸中可以直接預(yù)測觀測量相對(duì)于某一事件在二元邏輯斯諦回歸中可以直接預(yù)測觀測量相對(duì)于某一事件 的發(fā)生概率。的發(fā)生概率。 設(shè)因變量為設(shè)因變量為 y,其取值,其取值 1 1 表示事件發(fā)生,取值表示事件發(fā)生,取值 0 0 表示事件不表示事件不 發(fā)生。發(fā)生。( (因變量具有二分的特點(diǎn),自變量是分類變量或等間隔測度的變量因變量具有二分的特點(diǎn),自變量是分類變量或等間隔測度的變量) ) 記事件發(fā)生的條件概率為:記事件發(fā)生的條件概率為: ii pxyP)1( 包含包含 k 個(gè)自變量的回歸模型可以寫為:個(gè)自變量的回歸模型可以寫為: kk kk xxx xxx i e e p 22110 22110 1

6、kk kk xxx xxx i e e p 22110 22110 1 11 其中:其中:pi 表示第表示第 i 個(gè)觀測中事件發(fā)生的概率,個(gè)觀測中事件發(fā)生的概率,1-1-pi 表示第表示第 i 個(gè)觀個(gè)觀 測中事件不發(fā)生的概率。測中事件不發(fā)生的概率。 事件發(fā)生與不發(fā)生之比被稱為事件的發(fā)生比,簡記為事件發(fā)生與不發(fā)生之比被稱為事件的發(fā)生比,簡記為OddOdd。 用公式表示:用公式表示: 2 2、Logistic 回歸系數(shù)回歸系數(shù) kkx x e p p 110 1 Odd Odd 為一正數(shù),并且沒有上界。為一正數(shù),并且沒有上界。 kkx x p p 110 1 ln 對(duì)對(duì) Odd Odd 做對(duì)數(shù)變換

7、,就能得到做對(duì)數(shù)變換,就能得到 Logistic Logistic 回歸模型的線性回歸模型的線性 形式:形式: 可以看出可以看出 Logistic 回歸系數(shù)可以理解為一個(gè)單位自變量的回歸系數(shù)可以理解為一個(gè)單位自變量的 變化對(duì)比率的對(duì)數(shù)的改變值。變化對(duì)比率的對(duì)數(shù)的改變值。 由發(fā)生比可以看出,當(dāng)?shù)谟砂l(fā)生比可以看出,當(dāng)?shù)?i 個(gè)自變量發(fā)生一個(gè)單位的變化時(shí),個(gè)自變量發(fā)生一個(gè)單位的變化時(shí), 發(fā)生比的變化值為發(fā)生比的變化值為 Exp(Exp(bi) )。自變量的系數(shù)為正值,意味著事。自變量的系數(shù)為正值,意味著事 件發(fā)生的幾率會(huì)增加,件發(fā)生的幾率會(huì)增加,Exp(Exp(bi) )的值大于的值大于1 1;變量

8、的系數(shù)為負(fù)值,;變量的系數(shù)為負(fù)值, 意味著事件發(fā)生的幾率會(huì)減少,意味著事件發(fā)生的幾率會(huì)減少,Exp(Exp(bi) )的值小于的值小于1 1。 極大似然法的基本思想是先建立似然函數(shù),然后求使得似然極大似然法的基本思想是先建立似然函數(shù),然后求使得似然 函數(shù)達(dá)到最大的參數(shù)估計(jì)值。函數(shù)達(dá)到最大的參數(shù)估計(jì)值。 3 3、Logistic 回歸模型的參數(shù)估計(jì)回歸模型的參數(shù)估計(jì) n i y i y i ii ppL 1 1 )1 ( 對(duì)對(duì) Logistic 回歸模型的參數(shù)估計(jì)可以采用極大似然法或者迭回歸模型的參數(shù)估計(jì)可以采用極大似然法或者迭 代法。代法。 對(duì)于已有樣本,可建立樣本的似然函數(shù)為:對(duì)于已有樣本,

9、可建立樣本的似然函數(shù)為: n i iiii pypyL 1 )1ln()1 (lnln 樣本的對(duì)數(shù)似然函數(shù)為:樣本的對(duì)數(shù)似然函數(shù)為: 根據(jù)極大似然原理,對(duì)根據(jù)極大似然原理,對(duì) lnL L 求一階導(dǎo)數(shù)并令其為求一階導(dǎo)數(shù)并令其為0 0,再用,再用 Newton-Raphson 迭代方法求解,得到參數(shù)估計(jì)值及其標(biāo)準(zhǔn)誤。迭代方法求解,得到參數(shù)估計(jì)值及其標(biāo)準(zhǔn)誤。 n i ikkiii xxxyL 1 22110 )(ln 將將 pi 代入得:代入得: )exp(1ln( 22110ikkii xxx logistic logistic回歸方程求解參數(shù)是采用極大似然估計(jì)方法,因此回歸方程求解參數(shù)是采用極大

10、似然估計(jì)方法,因此 其回歸方程的整體檢驗(yàn)通過似然函數(shù)值其回歸方程的整體檢驗(yàn)通過似然函數(shù)值( ( Likelihood ) )。 4 4、 Logistic 回歸的評(píng)價(jià)及統(tǒng)計(jì)檢驗(yàn)回歸的評(píng)價(jià)及統(tǒng)計(jì)檢驗(yàn) 對(duì)對(duì)于整體模型的檢驗(yàn)于整體模型的檢驗(yàn) 所謂似然函數(shù)值表達(dá)的是一種概率,即在假設(shè)擬合模型為真所謂似然函數(shù)值表達(dá)的是一種概率,即在假設(shè)擬合模型為真 實(shí)情況時(shí)能夠觀察到這一特定樣本數(shù)據(jù)的概率,因此這個(gè)函數(shù)實(shí)情況時(shí)能夠觀察到這一特定樣本數(shù)據(jù)的概率,因此這個(gè)函數(shù) 值處于值處于0,10,1之間。之間。 因?yàn)樗迫缓瘮?shù)值取自然對(duì)數(shù)后在數(shù)學(xué)處理上更為方便,而且因?yàn)樗迫缓瘮?shù)值取自然對(duì)數(shù)后在數(shù)學(xué)處理上更為方便,而且 似然

11、函數(shù)值是個(gè)極小的小數(shù),其對(duì)數(shù)值是個(gè)負(fù)數(shù),所以通常對(duì)似然函數(shù)值是個(gè)極小的小數(shù),其對(duì)數(shù)值是個(gè)負(fù)數(shù),所以通常對(duì) 似然函數(shù)值先取自然對(duì)數(shù)再乘以似然函數(shù)值先取自然對(duì)數(shù)再乘以 -2 -2 以后應(yīng)用。以后應(yīng)用。 SPSS SPSS中就是報(bào)告這一指標(biāo),標(biāo)志為中就是報(bào)告這一指標(biāo),標(biāo)志為“-2 -2 對(duì)數(shù)似然值對(duì)數(shù)似然值( (可縮寫可縮寫 為為-2LL)-2LL)”。報(bào)告值越大,意味著回歸方程的似然值越小,標(biāo)志。報(bào)告值越大,意味著回歸方程的似然值越小,標(biāo)志 模型的擬合程度越差。模型的擬合程度越差。報(bào)告值越小報(bào)告值越小,意味著回歸方程的似然值,意味著回歸方程的似然值 越接近越接近1 1,標(biāo)志,標(biāo)志模型的擬合程度越好

12、模型的擬合程度越好。 在模型完全擬合觀察值的情況下,有似然值等于在模型完全擬合觀察值的情況下,有似然值等于1 1,那么似,那么似 然值的對(duì)數(shù)等于然值的對(duì)數(shù)等于0 0。越接近。越接近0 0,模型擬合效果越好。,模型擬合效果越好。 在評(píng)價(jià)或檢驗(yàn)一個(gè)含有自變量的在評(píng)價(jià)或檢驗(yàn)一個(gè)含有自變量的 Logistic 回歸模型時(shí),通?;貧w模型時(shí),通常 是將其與截距模型相比較。是將其與截距模型相比較。 所謂截距模型,就是將所有自變量刪除后只剩一個(gè)截距系數(shù)所謂截距模型,就是將所有自變量刪除后只剩一個(gè)截距系數(shù) 的模型(的模型(logit p= =a)。)。 具體操作方法是:具體操作方法是: 定義截距模型為定義截距模

13、型為L L0 0,作為參照模型;,作為參照模型; 定義假設(shè)模型為定義假設(shè)模型為L Lx ; 計(jì)算比率計(jì)算比率似然比似然比( (Likelihood - Ratio) ) x L L LR 0 檢驗(yàn)兩者之比是否顯著區(qū)別于檢驗(yàn)兩者之比是否顯著區(qū)別于1 1。 當(dāng)似然比等于當(dāng)似然比等于1 1時(shí),意味著這些自變量完全沒有解釋效果,時(shí),意味著這些自變量完全沒有解釋效果, 而似然比顯著小于而似然比顯著小于 1 1 時(shí)則說明這些自變量對(duì)于因變量變化的解時(shí)則說明這些自變量對(duì)于因變量變化的解 釋有顯著的貢獻(xiàn)。釋有顯著的貢獻(xiàn)。 以截距模型作為標(biāo)準(zhǔn),比較在加入其他自變量后新的模型與以截距模型作為標(biāo)準(zhǔn),比較在加入其他自

14、變量后新的模型與 數(shù)據(jù)的擬合水平是否有顯著提高。數(shù)據(jù)的擬合水平是否有顯著提高。 為在統(tǒng)計(jì)上檢驗(yàn)顯著性,需要知道似然比的抽樣分布。然而為在統(tǒng)計(jì)上檢驗(yàn)顯著性,需要知道似然比的抽樣分布。然而 我們不知道似然比服從什么分布。但是可以證明似然比的一個(gè)我們不知道似然比服從什么分布。但是可以證明似然比的一個(gè) 函數(shù)近似地服從于卡方分布,即:函數(shù)近似地服從于卡方分布,即: )(ln 2 2 0 p L L x 如果在如果在SPSS中進(jìn)行中進(jìn)行Logistic回歸時(shí)定義了自變量,那么回回歸時(shí)定義了自變量,那么回 歸報(bào)告便會(huì)自動(dòng)給出上面這兩項(xiàng)計(jì)算值。歸報(bào)告便會(huì)自動(dòng)給出上面這兩項(xiàng)計(jì)算值。 常用的三種卡方統(tǒng)計(jì)量分別為:

15、模型、塊、步驟。常用的三種卡方統(tǒng)計(jì)量分別為:模型、塊、步驟。 “模型模型”統(tǒng)計(jì)量:檢驗(yàn)除常數(shù)項(xiàng)以外,模型中所有變量系統(tǒng)計(jì)量:檢驗(yàn)除常數(shù)項(xiàng)以外,模型中所有變量系 數(shù)為零的假設(shè)。數(shù)為零的假設(shè)。 “塊塊”卡方統(tǒng)計(jì)量為當(dāng)前卡方統(tǒng)計(jì)量為當(dāng)前 -2LL-2LL 值與后一組變量進(jìn)入后的值與后一組變量進(jìn)入后的 -2LL-2LL值之差。如果選擇了多組變量,那么值之差。如果選擇了多組變量,那么“塊塊”卡方值用來對(duì)卡方值用來對(duì) 最后一組變量為最后一組變量為 0 0 的零假設(shè)進(jìn)行檢驗(yàn)。的零假設(shè)進(jìn)行檢驗(yàn)。 “步驟步驟”卡方值是當(dāng)前與下一步卡方值是當(dāng)前與下一步 -2LL-2LL 之間的差值。用來之間的差值。用來 對(duì)最后一

16、個(gè)加入模型的變量系數(shù)為對(duì)最后一個(gè)加入模型的變量系數(shù)為 0 0 的零假設(shè)進(jìn)行檢驗(yàn)。的零假設(shè)進(jìn)行檢驗(yàn)。 當(dāng)前模型的當(dāng)前模型的 -2LL-2LL 與模型中只包括常數(shù)項(xiàng)的與模型中只包括常數(shù)項(xiàng)的 -2LL-2LL 之差。之差。 回歸系數(shù)的檢驗(yàn)回歸系數(shù)的檢驗(yàn) SPSSSPSS軟件在執(zhí)行軟件在執(zhí)行 Logistic 回歸時(shí)除報(bào)告回歸系數(shù)回歸時(shí)除報(bào)告回歸系數(shù)i 的估計(jì)的估計(jì) 值以外,還自動(dòng)報(bào)告關(guān)于其統(tǒng)計(jì)檢驗(yàn)量。值以外,還自動(dòng)報(bào)告關(guān)于其統(tǒng)計(jì)檢驗(yàn)量。 Wald Wald 統(tǒng)計(jì)量是用來檢驗(yàn)偏回歸系數(shù)顯著程度的,它是偏回統(tǒng)計(jì)量是用來檢驗(yàn)偏回歸系數(shù)顯著程度的,它是偏回 歸系數(shù)與自由度的函數(shù),服從于卡方分布。其計(jì)算公式為

17、:歸系數(shù)與自由度的函數(shù),服從于卡方分布。其計(jì)算公式為: WaldWald 檢驗(yàn)值越大表明該自變量的作用越顯著。同一行的檢驗(yàn)值越大表明該自變量的作用越顯著。同一行的SigSig 就是就是 WaldWald 檢驗(yàn)的顯著度檢驗(yàn)的顯著度性概率。性概率。 ) 1 ( . 2 2 2 i SES B Wald i WaldWald 統(tǒng)計(jì)量的弱點(diǎn)是當(dāng)回歸系數(shù)的絕對(duì)值變大時(shí),其標(biāo)準(zhǔn)統(tǒng)計(jì)量的弱點(diǎn)是當(dāng)回歸系數(shù)的絕對(duì)值變大時(shí),其標(biāo)準(zhǔn) 誤將發(fā)生更大的改變,誤將發(fā)生更大的改變,WaldWald 值值就會(huì)變得很小,導(dǎo)致拒絕回歸系就會(huì)變得很小,導(dǎo)致拒絕回歸系 數(shù)的數(shù)的0 0假設(shè)失敗,即認(rèn)為變量的回歸系數(shù)為假設(shè)失敗,即認(rèn)為變

18、量的回歸系數(shù)為0 0。 SPSSSPSS軟件沒有給出軟件沒有給出 Logistic 回歸的標(biāo)準(zhǔn)化系數(shù),如果要考慮回歸的標(biāo)準(zhǔn)化系數(shù),如果要考慮 自變量的重要性,不妨直接比較自變量的重要性,不妨直接比較 WaldWald 統(tǒng)計(jì)量,統(tǒng)計(jì)量,WaldWald 值值大者顯大者顯 著性高,也就更重要著性高,也就更重要。 6 6、Logistic 回歸的參數(shù)設(shè)置回歸的參數(shù)設(shè)置 依次單擊依次單擊SPSSSPSS軟件軟件“分析分析回歸回歸二元二元Logistic”Logistic”命令,進(jìn)命令,進(jìn) 入入 Logistic 回歸對(duì)話框如下:回歸對(duì)話框如下: 5 5、逐步回歸中的變量篩選、逐步回歸中的變量篩選 Lo

19、gistic 逐步逐步回歸的變量篩選過程與現(xiàn)行逐步回歸過程極為回歸的變量篩選過程與現(xiàn)行逐步回歸過程極為 相似,但不再是相似,但不再是 F F 統(tǒng)計(jì)量,而是似然比統(tǒng)計(jì)量和統(tǒng)計(jì)量,而是似然比統(tǒng)計(jì)量和WaldWald統(tǒng)計(jì)量統(tǒng)計(jì)量 例如使用似然比統(tǒng)計(jì)量例如使用似然比統(tǒng)計(jì)量 作為變量的篩選標(biāo)作為變量的篩選標(biāo) 準(zhǔn),在進(jìn)行到第準(zhǔn),在進(jìn)行到第 l 步時(shí),通過比較含有步時(shí),通過比較含有 Xj 和不含和不含 Xj 的模型,決的模型,決 定定 Xj 是否引入模型。是否引入模型。 )ln(ln2 )( 1 )( 1 ll LLG 協(xié)變量:用于從變量列表中選入?yún)f(xié)變量。協(xié)變量:用于從變量列表中選入?yún)f(xié)變量。 選擇變量:用于

20、選入一個(gè)對(duì)樣本篩選變量,只有滿足條選擇變量:用于選入一個(gè)對(duì)樣本篩選變量,只有滿足條 件的觀測記錄才會(huì)進(jìn)入回歸方程。件的觀測記錄才會(huì)進(jìn)入回歸方程。 方法:用于指定協(xié)變量進(jìn)入回歸模型的方法。方法:用于指定協(xié)變量進(jìn)入回歸模型的方法。SPSSSPSS給出給出 了了7 7種可選方案:種可選方案: l進(jìn)入:強(qiáng)迫進(jìn)入法,協(xié)變量全部進(jìn)入模型。進(jìn)入:強(qiáng)迫進(jìn)入法,協(xié)變量全部進(jìn)入模型。 l向前向前: :條件條件向前逐步法向前逐步法( (條件似然比條件似然比) ),變量引入的根據(jù)是得,變量引入的根據(jù)是得 分統(tǒng)計(jì)量的顯著性水平,變量被剔除的依據(jù)是條件參數(shù)估計(jì)所分統(tǒng)計(jì)量的顯著性水平,變量被剔除的依據(jù)是條件參數(shù)估計(jì)所 得的

21、似然比統(tǒng)計(jì)量的概率值。得的似然比統(tǒng)計(jì)量的概率值。 l向前向前:LR:LR向前逐步法向前逐步法( (似然比似然比) ),變量引入的根據(jù)是得分統(tǒng)計(jì),變量引入的根據(jù)是得分統(tǒng)計(jì) 量的顯著性水平;變量被剔除的依據(jù)是最大偏似然估計(jì)所得的量的顯著性水平;變量被剔除的依據(jù)是最大偏似然估計(jì)所得的 似然比統(tǒng)計(jì)量的概率值。似然比統(tǒng)計(jì)量的概率值。 l向前向前:Wald:Wald向前逐步法向前逐步法(Wald(Wald法法) ),變量引入的根據(jù)是得分統(tǒng),變量引入的根據(jù)是得分統(tǒng) 計(jì)量的顯著性水平;變量被剔除的依據(jù)是計(jì)量的顯著性水平;變量被剔除的依據(jù)是WaldWald統(tǒng)計(jì)量概率值。統(tǒng)計(jì)量概率值。 l向后向后: :條件條件向

22、后前逐步法向后前逐步法( (條件似然比條件似然比) ),將變量剔除的依據(jù),將變量剔除的依據(jù) 是條件參數(shù)估計(jì)所得的似然比統(tǒng)計(jì)量的概率值。是條件參數(shù)估計(jì)所得的似然比統(tǒng)計(jì)量的概率值。 變量設(shè)置變量設(shè)置 因變量:用于從變量列表中選擇一個(gè)二分量作為因變量因變量:用于從變量列表中選擇一個(gè)二分量作為因變量 l向后向后:LR:LR向后前逐步法向后前逐步法( (似然比似然比) ),將變量剔除的依據(jù)是最大,將變量剔除的依據(jù)是最大 偏似然估計(jì)所得的似然是統(tǒng)計(jì)量的概率值。偏似然估計(jì)所得的似然是統(tǒng)計(jì)量的概率值。 lB B向后向后:Wald:Wald向后逐步法向后逐步法(Wald(Wald法法) ),將變量剔除的依據(jù)是,

23、將變量剔除的依據(jù)是 WaldWald統(tǒng)計(jì)量的概率值。統(tǒng)計(jì)量的概率值。 對(duì)分類變量設(shè)置對(duì)分類變量設(shè)置 單擊單擊“分類分類”按鈕,彈出對(duì)話框如下所示:按鈕,彈出對(duì)話框如下所示: 協(xié)變量:顯示當(dāng)前可用的協(xié)變量。協(xié)變量:顯示當(dāng)前可用的協(xié)變量。 分類協(xié)變量:顯示當(dāng)前選擇的分類變量。分類協(xié)變量:顯示當(dāng)前選擇的分類變量。 更改對(duì)比:用于選擇分類協(xié)變量各水平的對(duì)照方式。更改對(duì)比:用于選擇分類協(xié)變量各水平的對(duì)照方式。 保存的設(shè)置保存的設(shè)置 單擊單擊“保存保存”按鈕,彈出對(duì)話框如下所示:按鈕,彈出對(duì)話框如下所示: 預(yù)測值:保存模型預(yù)測值。概率預(yù)測值:保存模型預(yù)測值。概率事件發(fā)生的預(yù)測概率;事件發(fā)生的預(yù)測概率; 組

24、成員組成員根據(jù)預(yù)測概率得到的每個(gè)觀測的預(yù)測分類。根據(jù)預(yù)測概率得到的每個(gè)觀測的預(yù)測分類。 殘差殘差 影響影響:保存對(duì)單個(gè)觀測記錄進(jìn)行預(yù)測時(shí)的有影響力指標(biāo)。:保存對(duì)單個(gè)觀測記錄進(jìn)行預(yù)測時(shí)的有影響力指標(biāo)。 lCook距離:表示把一個(gè)個(gè)案從計(jì)算回歸系數(shù)的樣本中去除時(shí)距離:表示把一個(gè)個(gè)案從計(jì)算回歸系數(shù)的樣本中去除時(shí) 所引起的殘差變化的大小,所引起的殘差變化的大小,CookCook距離越大,表明該個(gè)案對(duì)回歸距離越大,表明該個(gè)案對(duì)回歸 系數(shù)的影響越大。系數(shù)的影響越大。 l杠桿值:用來衡量單個(gè)觀測對(duì)效果的影響程度,取值范圍在杠桿值:用來衡量單個(gè)觀測對(duì)效果的影響程度,取值范圍在 0n/(n-1)0n/(n-1)

25、,取,取0 0時(shí)表示當(dāng)前記錄對(duì)模型的擬合無影響。時(shí)表示當(dāng)前記錄對(duì)模型的擬合無影響。 lDfBeta(s)DfBeta(s),剔除一個(gè)個(gè)案后回歸系數(shù)的改變。,剔除一個(gè)個(gè)案后回歸系數(shù)的改變。 l未標(biāo)準(zhǔn)化殘差,觀測值與預(yù)測值之差。未標(biāo)準(zhǔn)化殘差,觀測值與預(yù)測值之差。 lLogit,殘差除以,殘差除以“預(yù)測概率預(yù)測概率 (1-(1-預(yù)測概率預(yù)測概率)”)”。 l學(xué)生化殘差,用殘差除以殘差標(biāo)準(zhǔn)差的估計(jì)值。學(xué)生化殘差,用殘差除以殘差標(biāo)準(zhǔn)差的估計(jì)值。 l標(biāo)準(zhǔn)化殘差,其均值為標(biāo)準(zhǔn)化殘差,其均值為0 0,標(biāo)準(zhǔn)差為,標(biāo)準(zhǔn)差為1 1。 l偏差,基于模型變異的殘差。偏差,基于模型變異的殘差。 選項(xiàng)的設(shè)置選項(xiàng)的設(shè)置 單擊

26、單擊“選項(xiàng)選項(xiàng)”按鈕,彈出對(duì)話框如下所示:按鈕,彈出對(duì)話框如下所示: 【例例8.18.1】在在HosmerHosmer和和LemeshowLemeshow于于19891989年研究了低出生體重年研究了低出生體重 嬰兒的影響因素,結(jié)果變量為是否娩出低出生體重兒嬰兒的影響因素,結(jié)果變量為是否娩出低出生體重兒( (變量名為變量名為 LOWLOW。值為。值為1 1:低出生體重,即嬰兒出生體重:低出生體重,即嬰兒出生體重25002500克;值為克;值為0 0: 非低出生體重非低出生體重) ),希望篩選出低出生體重兒的影響因素,考慮產(chǎn),希望篩選出低出生體重兒的影響因素,考慮產(chǎn) 婦妊娠前體重婦妊娠前體重(l

27、wt)(lwt)、產(chǎn)婦年齡、產(chǎn)婦年齡(age)(age)、產(chǎn)婦在妊娠期間是否吸、產(chǎn)婦在妊娠期間是否吸 煙煙(smoke)(smoke)、種族等。數(shù)據(jù)文件為、種族等。數(shù)據(jù)文件為“例例8.1”8.1”。 如果考察產(chǎn)婦是否吸煙為低出生體重兒關(guān)系,則四格表為:如果考察產(chǎn)婦是否吸煙為低出生體重兒關(guān)系,則四格表為: 31.2%18959130合計(jì) 40.5%743044吸煙(1) 25.2%1152986不吸煙(0) 低出生體重(1)正常(0) 低出生率合計(jì) 低出生體重兒 產(chǎn)婦在妊娠 期間是否吸煙 該資料如果擬合該資料如果擬合Logistic回歸模型,則結(jié)果為:回歸模型,則結(jié)果為: 塊塊0 0:起始?jí)K:起

28、始?jí)K 塊塊1 1:方法:方法= =輸入輸入 smokePLogit704. 0087. 1(低體重兒) 常數(shù)項(xiàng):表示自變量全為常數(shù)項(xiàng):表示自變量全為0(0(稱基線狀態(tài)稱基線狀態(tài)) )時(shí),比數(shù)時(shí),比數(shù)(Y=1(Y=1與與 Y=0Y=0的概率之比的概率之比) )的自然對(duì)數(shù),本例為:的自然對(duì)數(shù),本例為: 087. 1 86 29 ln 11586 11529 ln 0 即不吸煙的低體重兒概率和正常兒概率之比的自然對(duì)數(shù)。即不吸煙的低體重兒概率和正常兒概率之比的自然對(duì)數(shù)。 自變量的回歸系數(shù):自變量的回歸系數(shù):表示自變量每改變一個(gè)單位,優(yōu)勢表示自變量每改變一個(gè)單位,優(yōu)勢 比的自然對(duì)數(shù)值該變量,本例為:比的

29、自然對(duì)數(shù)值該變量,本例為: 【例例8.28.2】在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查項(xiàng)在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查項(xiàng) 目是目是“是乘坐公共汽車上下班,還是騎自行車上下班是乘坐公共汽車上下班,還是騎自行車上下班”。因變。因變 量量y=1=1表示主要乘坐公共汽車上下班,表示主要乘坐公共汽車上下班,y=0=0表示主要騎自行車上表示主要騎自行車上 下班。自變量下班。自變量 x1 1 是年齡,作為連續(xù)型變量; 是年齡,作為連續(xù)型變量;x2 2 是月收入 是月收入( (元元) ); x3 3 是性別, 是性別,x3 3=1=1表示男性,表示男性,x3 3=0=0表示女性。調(diào)查對(duì)象為工薪族表

30、示女性。調(diào)查對(duì)象為工薪族 群體,數(shù)據(jù)見下表。試建立群體,數(shù)據(jù)見下表。試建立 y 與自變量間的與自變量間的Logistic回歸?;貧w。 704. 0 8629 4430 ln 1 而而exp(exp() )即優(yōu)勢比,自變量每變化一個(gè)單位,陽性結(jié)果出現(xiàn)概即優(yōu)勢比,自變量每變化一個(gè)單位,陽性結(jié)果出現(xiàn)概 率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù)。本例為:率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù)。本例為: 即不吸煙的低體重兒概率和正常兒概率之比的自然對(duì)數(shù)。即不吸煙的低體重兒概率和正常兒概率之比的自然對(duì)數(shù)。 02. 2)704. 0exp( 表示吸煙狀況每增加一個(gè)單位,即從不吸煙改為吸煙時(shí),吸煙表

31、示吸煙狀況每增加一個(gè)單位,即從不吸煙改為吸煙時(shí),吸煙 組的比值相對(duì)于不吸煙組的比值的倍數(shù)。組的比值相對(duì)于不吸煙組的比值的倍數(shù)。 由此可以得出結(jié)論,在妊娠期間抽煙由此可以得出結(jié)論,在妊娠期間抽煙(smoke=1)(smoke=1)的孕婦會(huì)比的孕婦會(huì)比 不吸煙的女性更容易分娩出低出生體重兒。不吸煙的女性更容易分娩出低出生體重兒。 依次單擊依次單擊“分析分析回歸回歸二元二元Logistic”Logistic”命令,進(jìn)入命令,進(jìn)入 Logistic回歸對(duì)話框如下所示:回歸對(duì)話框如下所示: 利用利用SPSSSPSS軟件進(jìn)行估計(jì)的步驟如下:軟件進(jìn)行估計(jì)的步驟如下: 將將x1 1、x2 2、x3 3 送入

32、送入“協(xié)變量協(xié)變量”中;中; 點(diǎn)擊點(diǎn)擊 保存保存 ,做如下選擇:,做如下選擇: 點(diǎn)擊點(diǎn)擊 選項(xiàng)選項(xiàng) ,做如下選擇:,做如下選擇: 點(diǎn)擊點(diǎn)擊 確定確定 ,系統(tǒng)輸出以下結(jié)果:,系統(tǒng)輸出以下結(jié)果: 得分(得分(Score)Score)計(jì)算公式如下:計(jì)算公式如下: n i i n i ii j xxyy yyx Score 1 2 1 )()1 ( )( 上表中上表中x3 3( (性別性別) )、x1 1( (年齡年齡) )、x2 2( (月收入月收入) )是是3 3個(gè)自變量,個(gè)自變量,WalsWals 是回歸系數(shù)檢驗(yàn)的統(tǒng)計(jì)量值是回歸系數(shù)檢驗(yàn)的統(tǒng)計(jì)量值: : 2 j j 2 )(D .E. S B W

33、ald Sig是是Wald檢驗(yàn)的顯著性概率??梢钥吹?,檢驗(yàn)的顯著性概率。可以看到,x2 2( (月收入月收入) )不顯著。不顯著。 采用采用“進(jìn)入進(jìn)入”回歸,輸出結(jié)果見下表:回歸,輸出結(jié)果見下表: 可以看到,可以看到,x1 1 (年齡年齡)、x3 3 (性別 性別)兩個(gè)自變量都是顯著的,因兩個(gè)自變量都是顯著的,因 而最終的回歸方程為:而最終的回歸方程為: )224. 2102. 0629. 2exp(1 )224. 2102. 0629. 2exp( 31 31 xx xx pi 根據(jù)以上方程式可知:根據(jù)以上方程式可知: 年齡越高乘車的比例也越高;年齡越高乘車的比例也越高; 女性乘公共汽車的比

34、例高于男性。女性乘公共汽車的比例高于男性。 【例例8.38.3】研究研究銀行客戶的貸款拖欠問題。通過分析銀行掌銀行客戶的貸款拖欠問題。通過分析銀行掌 握的一些客戶資料和交易信息,推斷指定客戶的預(yù)期信譽(yù)。數(shù)握的一些客戶資料和交易信息,推斷指定客戶的預(yù)期信譽(yù)。數(shù) 據(jù)格式如下:據(jù)格式如下: 本例數(shù)據(jù)集中的前本例數(shù)據(jù)集中的前700700個(gè)案例是先前申請(qǐng)過貸款的用戶,將個(gè)案例是先前申請(qǐng)過貸款的用戶,將 利用其中的一個(gè)隨機(jī)樣本擬合一個(gè)二元邏輯回歸模型,然后用利用其中的一個(gè)隨機(jī)樣本擬合一個(gè)二元邏輯回歸模型,然后用 擬合的模型對(duì)后擬合的模型對(duì)后150150名預(yù)期用戶進(jìn)行信譽(yù)分類。名預(yù)期用戶進(jìn)行信譽(yù)分類。 因變

35、量為是否拖欠因變量為是否拖欠( (default) ),取值為,取值為0(0(No) )時(shí),表示沒有時(shí),表示沒有 拖欠貸款;取值為拖欠貸款;取值為1(1(Yes) )時(shí),表示有拖欠貸款。時(shí),表示有拖欠貸款。 抽取分析樣本抽取分析樣本 指定隨機(jī)種子。依次單擊指定隨機(jī)種子。依次單擊“轉(zhuǎn)換轉(zhuǎn)換隨機(jī)數(shù)字生成器隨機(jī)數(shù)字生成器” 命令,打開生成隨機(jī)數(shù)的設(shè)置界面。輸命令,打開生成隨機(jī)數(shù)的設(shè)置界面。輸91919729191972 計(jì)算篩選變量。依次單擊計(jì)算篩選變量。依次單擊“轉(zhuǎn)換轉(zhuǎn)換計(jì)算變量計(jì)算變量”命令。命令。 在在“目標(biāo)變量目標(biāo)變量”處輸入變量名處輸入變量名“validate”;在;在“數(shù)字表達(dá)式數(shù)字表達(dá)

36、式” 編輯框輸入編輯框輸入 rv.bernoulli(0.7)(0.7)。單擊左下角的。單擊左下角的“如果如果”并輸入并輸入 Missing(default)=0 變量設(shè)置變量設(shè)置 將是否拖欠變量將是否拖欠變量( (default) )作為因變量選入作為因變量選入“因變量因變量”框,框, 將從年齡至其他債務(wù)將從年齡至其他債務(wù)8 8個(gè)變量作為協(xié)變量選入個(gè)變量作為協(xié)變量選入“協(xié)變量協(xié)變量”列表框。列表框。 選中選中“向前向前:LR”,單擊,單擊 “validate” 進(jìn)入進(jìn)入“選擇變量選擇變量”框,單擊框,單擊 “規(guī)則規(guī)則”,選中選中“等于等于”選項(xiàng),輸入選項(xiàng),輸入1 1。 分類變量設(shè)置分類變量設(shè)

37、置 在變量列表中選中教育水平變量,將其作為分類變量。在變量列表中選中教育水平變量,將其作為分類變量。 保存設(shè)置保存設(shè)置 勾選勾選:“:“概率概率”、“學(xué)生化學(xué)生化”、“Cook距離距離”和和“包含協(xié)包含協(xié) 方差矩陣方差矩陣”復(fù)選框。復(fù)選框。 選項(xiàng)設(shè)置選項(xiàng)設(shè)置 勾選勾選:“:“分類圖分類圖”和和“Hosmer-Lemeshow擬合度擬合度”復(fù)選框。復(fù)選框。 單擊單擊“確定確定”,系統(tǒng)輸出以下結(jié)果:,系統(tǒng)輸出以下結(jié)果: 上表中上表中 Cox and Snell R Cox and Snell R 方和方和 Nagelkerke R Nagelkerke R 方兩個(gè)統(tǒng)計(jì)方兩個(gè)統(tǒng)計(jì) 量取代了線性回歸中

38、的量取代了線性回歸中的 R R 方統(tǒng)計(jì)量。方統(tǒng)計(jì)量。 本例中他們的取值分別為本例中他們的取值分別為 0.281 0.281 和和 0.4170.417,只看這一點(diǎn),只看這一點(diǎn), 模型擬合的并不理想。模型擬合的并不理想。 這兩個(gè)統(tǒng)計(jì)量一般用于不同模型之間的比較,這兩個(gè)統(tǒng)計(jì)量一般用于不同模型之間的比較,R R 方值越大的方值越大的 模型,擬合的效果越好。模型,擬合的效果越好。 Hosmer 和和 Lemeshow 檢驗(yàn)表格的原假設(shè)為:模型能夠很檢驗(yàn)表格的原假設(shè)為:模型能夠很 好擬合數(shù)據(jù)。好擬合數(shù)據(jù)。 從軟件運(yùn)行結(jié)果看:顯著性檢驗(yàn)的從軟件運(yùn)行結(jié)果看:顯著性檢驗(yàn)的Sig=0.855=0.855 結(jié)論:

39、結(jié)論:接受原假設(shè),認(rèn)為模型能夠很好擬合數(shù)據(jù)。接受原假設(shè),認(rèn)為模型能夠很好擬合數(shù)據(jù)。 Hosmer 和和 Lemeshow 檢驗(yàn)的隨機(jī)性表格根據(jù)目標(biāo)變量的預(yù)檢驗(yàn)的隨機(jī)性表格根據(jù)目標(biāo)變量的預(yù) 測概率,把結(jié)果分為大致相等的測概率,把結(jié)果分為大致相等的1010個(gè)組。個(gè)組。 “總計(jì)總計(jì)”列中是每組的觀測數(shù),由于預(yù)測值相等的觀測被分列中是每組的觀測數(shù),由于預(yù)測值相等的觀測被分 到一起,所以各組的觀測數(shù)不一定相同。到一起,所以各組的觀測數(shù)不一定相同。 此表直觀地反映了模型預(yù)測的效果,可以看出各組的觀測值此表直觀地反映了模型預(yù)測的效果,可以看出各組的觀測值 和預(yù)測值大致相同,所以模型的擬合效果不錯(cuò)。和預(yù)測值大

40、致相同,所以模型的擬合效果不錯(cuò)。 上表給出了觀測值和預(yù)測值的列聯(lián)表,預(yù)測概率大于上表給出了觀測值和預(yù)測值的列聯(lián)表,預(yù)測概率大于0.50.5, 預(yù)測為預(yù)測為YesYes;反之預(yù)測為;反之預(yù)測為NoNo。 對(duì)于最終模型,建模用的對(duì)于最終模型,建模用的124124個(gè)拖欠用戶中有個(gè)拖欠用戶中有5757個(gè)判斷正確,個(gè)判斷正確, 正確率為正確率為46.0%46.0%;建模用的;建模用的375375個(gè)無拖欠用戶中有個(gè)無拖欠用戶中有352352個(gè)判斷正確,個(gè)判斷正確, 正確率為正確率為93.9%93.9%;總的回判正確率為;總的回判正確率為82.0%82.0%,這說明模型的預(yù)測,這說明模型的預(yù)測 效果不錯(cuò),尤

41、其是對(duì)那些無拖欠的用戶的預(yù)測。效果不錯(cuò),尤其是對(duì)那些無拖欠的用戶的預(yù)測。 上表中上表中Wald統(tǒng)計(jì)量的統(tǒng)計(jì)量的Sig值全部小于值全部小于0.050.05,說明參數(shù)估計(jì)值,說明參數(shù)估計(jì)值 都顯著地不為都顯著地不為0 0。利用該模型,就可以對(duì)。利用該模型,就可以對(duì)150150名預(yù)期用戶進(jìn)行信名預(yù)期用戶進(jìn)行信 譽(yù)分類。譽(yù)分類。 Exp(B)表示在其它情況不變的條件下,某個(gè)自變量變動(dòng)表示在其它情況不變的條件下,某個(gè)自變量變動(dòng) 1 1 個(gè)單位而引起的發(fā)生比個(gè)單位而引起的發(fā)生比 Odd 的變化率。的變化率。 該圖為預(yù)測概率的直方圖。橫軸為對(duì)拖欠貸款概率的預(yù)測該圖為預(yù)測概率的直方圖。橫軸為對(duì)拖欠貸款概率的預(yù)

42、測 概率值,縱軸為觀測的頻數(shù)。符號(hào)概率值,縱軸為觀測的頻數(shù)。符號(hào)Y Y代表拖欠,代表拖欠,N N代表不拖欠。代表不拖欠。 如果模型對(duì)原數(shù)據(jù)成功進(jìn)行了模擬,則發(fā)生拖欠貸款的觀如果模型對(duì)原數(shù)據(jù)成功進(jìn)行了模擬,則發(fā)生拖欠貸款的觀 測應(yīng)分布在圖形的右側(cè),其它觀測應(yīng)分布在圖形的左側(cè)。測應(yīng)分布在圖形的右側(cè),其它觀測應(yīng)分布在圖形的左側(cè)。 本例總體來看,模型的擬合效果不錯(cuò)。本例總體來看,模型的擬合效果不錯(cuò)。 該圖為學(xué)生化殘差的平方對(duì)預(yù)測概率的散點(diǎn)圖。圖中縱軸該圖為學(xué)生化殘差的平方對(duì)預(yù)測概率的散點(diǎn)圖。圖中縱軸 取值較大的點(diǎn)表示模型對(duì)這些點(diǎn)的擬合效果較差。取值較大的點(diǎn)表示模型對(duì)這些點(diǎn)的擬合效果較差。 由低到高的曲

43、線代表的是因變量取由低到高的曲線代表的是因變量取0 0的觀測的殘差的變化,的觀測的殘差的變化, 說明這類觀測的預(yù)測概率越大,擬合效果越差。說明這類觀測的預(yù)測概率越大,擬合效果越差。 該圖為該圖為CookCook距離對(duì)預(yù)測概率的散點(diǎn)圖。圖中有較少的幾個(gè)距離對(duì)預(yù)測概率的散點(diǎn)圖。圖中有較少的幾個(gè) 奇異值,它們的奇異值,它們的CookCook值都很大,可能影響了分析,可以進(jìn)一步值都很大,可能影響了分析,可以進(jìn)一步 對(duì)它們進(jìn)行單獨(dú)研究。對(duì)它們進(jìn)行單獨(dú)研究。 第二節(jié)第二節(jié) 無序多分類無序多分類LogisticLogistic回歸回歸 一、模型簡介一、模型簡介 無序多分類的無序多分類的 Logistic 回

44、歸模型用于分析因變量為無序多分回歸模型用于分析因變量為無序多分 類的情況。類的情況。 kkx xx p p 12121110 4 1 ln 對(duì)于多分類的對(duì)于多分類的 Logistic Logistic 回歸,模型首先會(huì)定義因變量的某回歸,模型首先會(huì)定義因變量的某 一個(gè)水平為參照水平一個(gè)水平為參照水平(SPSS(SPSS默認(rèn)取值水平大的為參照水平默認(rèn)取值水平大的為參照水平) ),其,其 他水平各與其相比,建立他水平各與其相比,建立“水平數(shù)水平數(shù)-1”-1”個(gè)廣義個(gè)廣義 Logit Logit 模型。模型。 以以 4 4 水平因變量為例,其取值水平分別為:水平因變量為例,其取值水平分別為:1 1、

45、2 2、3 3、4 4, 對(duì)于對(duì)于 k 個(gè)自變量擬合個(gè)自變量擬合 3 3 個(gè)廣義個(gè)廣義 Logit 回歸模型:回歸模型: kkx xx p p 22221210 4 2 ln kkx xx p p 32321310 4 3 ln 顯然,同時(shí)應(yīng)當(dāng)有:顯然,同時(shí)應(yīng)當(dāng)有:p1 1+ +p2 2+ +p3 3+ +p4 4=1,=1,且可以看出且可以看出Y=4Y=4為參照水為參照水 平。平。 二、無序多分變量的二、無序多分變量的Logistic回歸過程回歸過程 點(diǎn)擊點(diǎn)擊“分析分析回歸回歸多項(xiàng)多項(xiàng) Logistic,出現(xiàn)下列對(duì)話框:,出現(xiàn)下列對(duì)話框: 選擇一個(gè)因變量送入選擇一個(gè)因變量送入“因變量因變量”

46、框中。一般情況下系統(tǒng)默認(rèn)框中。一般情況下系統(tǒng)默認(rèn) 因變量的最后一類作為參考類,若要改變單擊因變量的最后一類作為參考類,若要改變單擊“參考類別參考類別”。 選擇一個(gè)或多個(gè)分組變量送入選擇一個(gè)或多個(gè)分組變量送入“因子因子”框中。在左側(cè)的源變量框中。在左側(cè)的源變量 框中選擇一個(gè)或多個(gè)連續(xù)變量作為協(xié)變量送入框中選擇一個(gè)或多個(gè)連續(xù)變量作為協(xié)變量送入“協(xié)變量協(xié)變量”框中??蛑?。 1 1、變量設(shè)置、變量設(shè)置 單擊單擊“模型模型”按鈕,顯示如下對(duì)話框:按鈕,顯示如下對(duì)話框: 2 2、模型設(shè)置、模型設(shè)置 3 3、統(tǒng)計(jì)量設(shè)置、統(tǒng)計(jì)量設(shè)置 4 4、收斂標(biāo)準(zhǔn)設(shè)置、收斂標(biāo)準(zhǔn)設(shè)置 單擊單擊“條件條件”按鈕,顯示如下對(duì)話框

47、:按鈕,顯示如下對(duì)話框: 5 5、選項(xiàng)設(shè)置、選項(xiàng)設(shè)置 單擊單擊“選項(xiàng)選項(xiàng)”按鈕,顯示如下對(duì)話框:按鈕,顯示如下對(duì)話框: 6 6、保存設(shè)置、保存設(shè)置 三、多分變量的三、多分變量的LogisticLogistic回歸分析實(shí)例回歸分析實(shí)例 【例例8.48.4】19921992年美國總統(tǒng)選舉的數(shù)據(jù)。年美國總統(tǒng)選舉的數(shù)據(jù)。Pres92(Pres92(投票對(duì)象:投票對(duì)象: 1 1、布什;、布什;2 2、帕羅特;、帕羅特;3 3、克林頓、克林頓) )、sex(sex(性別:性別:1 1、男;、男;0 0、女、女) )、 age(age(年齡年齡) )、agecat(agecat(年齡分類年齡分類) )、ed

48、uc(educ(受教育年限受教育年限) )、 degree(degree(學(xué)歷學(xué)歷) )。分析選民投票情況。分析選民投票情況。 選擇選擇 pres92 進(jìn)入進(jìn)入“因變量因變量”框,將框,將 degreen、sex 進(jìn)入進(jìn)入“因因 子子”列表框,操作結(jié)果顯示如下:列表框,操作結(jié)果顯示如下: 1 1、建立、建立 Logistic Logistic 回歸模型回歸模型 單擊單擊“確定確定”,結(jié)果如下:,結(jié)果如下: )2(deg431. 0) 1(deg387. 0reeree )0(deg198. 0) 1(458. 0805. 0 )int( )( ln reesex onClp Bushp Log

49、it模型:模型: ) 3(deg424. 0ree 2 2、計(jì)算預(yù)測概率、計(jì)算預(yù)測概率 根據(jù)所建立的模型可以計(jì)算某個(gè)選民對(duì)每個(gè)候選人投票的可根據(jù)所建立的模型可以計(jì)算某個(gè)選民對(duì)每個(gè)候選人投票的可 能性。例如,具有學(xué)士學(xué)位的男性選民投票給各候選人的可能能性。例如,具有學(xué)士學(xué)位的男性選民投票給各候選人的可能 性。性。 估算估算 3 3 個(gè)模型的值個(gè)模型的值 077. 0424. 0458. 0805. 0 )int( )( ln 1 onClp Bushp g 624. 0804. 0760. 0188. 2 )int( )( ln 2 onClp Perotp g 0 )int( )int( ln

50、 3 onClp onClp g 計(jì)算每一類的概率值計(jì)算每一類的概率值 j k k i i g g groupp 1 exp( )exp( )( 412. 0 154. 008. 1 08. 1 )( Bushp 382. 0 154. 008. 1 1 )int( onClp 206. 0 154. 008. 1 54. 0 )( Perotp 計(jì)算每一類的概率值計(jì)算每一類的概率值 j k k i i g g groupp 1 exp( )exp( )( 數(shù)據(jù)中有數(shù)據(jù)中有160160名男性具有學(xué)士學(xué)位的選民,由此可以判斷:名男性具有學(xué)士學(xué)位的選民,由此可以判斷: 其中有其中有6666人會(huì)投人

51、會(huì)投BushBush的票,的票,3333人會(huì)投人會(huì)投PerotPerot的票,的票,6161人會(huì)投人會(huì)投 ClintonClinton的票的票 【例例8.58.5】為研究胃癌及癌前病變核仁組織變化情況,分析為研究胃癌及癌前病變核仁組織變化情況,分析 核仁組成區(qū)嗜銀蛋白核仁組成區(qū)嗜銀蛋白(AgNoR)(AgNoR)顆粒數(shù)量顆粒數(shù)量( (x1 1分為分為1 1、2 2、3)3)及大小及大小 ( (x2 2分為分為1 1、2 2、3)3)在胃炎、不典型增生和胃癌在胃炎、不典型增生和胃癌( (id分為分為1 1、2 2、3)3)中中 的變化規(guī)律以及臨床的診斷意義,共檢測的變化規(guī)律以及臨床的診斷意義,共

52、檢測129129例患者,檢測結(jié)果例患者,檢測結(jié)果 如下表:如下表: 230023339 122014238 0101137 414018326 215219225 0303124 081523313 011819212 0099111 id=3id=2id=1freqx2x1g 癌變不典型增生胃炎頻數(shù)顆粒大小顆粒數(shù)分層 建立數(shù)據(jù)文件:例建立數(shù)據(jù)文件:例4.sav4.sav。 1 1、對(duì)頻數(shù)變量、對(duì)頻數(shù)變量 freq 進(jìn)行加權(quán)進(jìn)行加權(quán) 2 2、進(jìn)行多元、進(jìn)行多元Logistic分析分析 選擇選擇“數(shù)據(jù)數(shù)據(jù)加權(quán)個(gè)案加權(quán)個(gè)案”,出現(xiàn)下列對(duì)話框:,出現(xiàn)下列對(duì)話框: 單擊單擊“分析分析回歸回歸多元多元

53、Logistic,出現(xiàn)下列對(duì)話框:,出現(xiàn)下列對(duì)話框: 單擊單擊“確定確定”,得到以下結(jié)果:,得到以下結(jié)果: Logit模型:模型: 211 714. 3012.10563.27 )3( ) 1( lnxx idp idp G 212 938. 1721. 4205.16 )3( )2( lnxx idp idp G x1 1 的系數(shù)都是負(fù)的,說明顆粒數(shù)少,胃炎和不典型增生發(fā) 的系數(shù)都是負(fù)的,說明顆粒數(shù)少,胃炎和不典型增生發(fā) 生的概率大于癌變;生的概率大于癌變;x2 2 的系數(shù)都是負(fù)的,說明顆粒越小,胃炎 的系數(shù)都是負(fù)的,說明顆粒越小,胃炎 和不典型增生發(fā)生的概率大于癌變。和不典型增生發(fā)生的概率大于癌變。 預(yù)測總的符合率為預(yù)測總的符合率為85.3%85.3%。 第三節(jié)第三節(jié) 有序多分類有序多分類LogisticLogistic回歸回歸 一、模型簡介一、模型簡介 有序多分類的資料,如城市競爭力等級(jí)可以劃分為高、中、有序多分類的資料,如城市競爭力等級(jí)可以劃分為高、中、 低;某病的治療效果分為痊愈、有效、好轉(zhuǎn)、無效,等。低;某病的治療效果分為痊愈、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論