版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Good is good, but better carries it.精益求精,善益求善。SPSS100高級教程十三:分類資料的Logistic回歸分析-SPSS10.0高級教程十三:分類資料的Logistic回歸分析(2009-02-0515:32:54)HYPERLINKjavascript:;轉(zhuǎn)載所謂Logistic模型,或者說Logistic回歸模型,就是人們想為兩分類的應(yīng)變量作一個回歸方程出來,可概率的取值在01之間,回歸方程的應(yīng)變量取值可是在實數(shù)集中,直接做會出現(xiàn)01范圍之外的不可能結(jié)果,因此就有人耍小聰明,將率做了一個Logit變換,這樣取值區(qū)間就變成了整個實數(shù)集,作出來的結(jié)果
2、就不會有問題了,從而該方法就被叫做了Logistic回歸。隨著模型的發(fā)展,Logistic家族也變得人丁興旺起來,除了最早的兩分類Logistic外,還有配對Logistic模型,多分類Logistic模型、隨機效應(yīng)的Logistic模型等。由于SPSS的能力所限,對話框只能完成其中的兩分類和多分類模型,下面我們就介紹一下最重要和最基本的兩分類模型。10.3.1界面詳解與實例例11.1某研究人員在探討腎細胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標本資料,現(xiàn)從中抽取26例資料作為示例進行l(wèi)ogistic回歸分析(本例來自衛(wèi)生統(tǒng)計學第四版第11章)。i:標本序號x1:
3、確診時患者的年齡(歲)x2:腎細胞癌血管內(nèi)皮生長因子(VEGF),其陽性表述由低到高共3個等級x3:腎細胞癌組織內(nèi)微血管數(shù)(MVC)x4:腎癌細胞核組織學分級,由低到高共4級x5:腎細胞癌分期,由低到高共4期y:腎細胞癌轉(zhuǎn)移情況(有轉(zhuǎn)移y=1;無轉(zhuǎn)移y=0)。ix1x2x3x4x5y159243.4210236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.82101536331.6
4、3111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431在菜單上選擇Analyze=Regression=BinaryLogistic.,系統(tǒng)彈出Logistic回歸對話框如下:左側(cè)是候選變量框,右上角是應(yīng)變量框,選入二分類的應(yīng)變量,下方的Covariates框是用于選入自變量的,只不過這里按國外的習慣被稱為了協(xié)變量。兩框中間的是BLOCK系列按扭,我在上一課已經(jīng)講過了,不再重復
5、。中下部的a*b框是用于選入交互作用的,和其他的對話框不太相同(我也不知道為什么SPSS偏在這里做得不同),下方的Method列表框用于選擇變量進入方法,有進入法、前進法和后退法三大類,三類之下又有細分。最下面的四個按鈕比較重要,請大家聽我慢慢道來:Select鈕:用于限定一個篩選條件,只有滿足該條件的記錄才會被納入分析,單擊它后對話框會展開讓你填入相應(yīng)的條件。不過我覺得該功能純屬多余,和專門的Select對話框的功能重復了。Categorical鈕:如果你的自變量是多分類的(如血型等),你必須要將它用啞變量的方式來分析,那么就要用該按鈕將該變量指定為分類變量,如果有必要,可用里面的選擇按鈕進
6、行詳細的定義,如以哪個取值作為基礎(chǔ)水平,各水平間比較的方法是什么等。當然,如果你弄不明白,不改也可以,默認的是以最大取值為基礎(chǔ)水平,用Deviance做比較。Save鈕:將中間結(jié)果存儲起來供以后分析,共有預測值、影響強度因子和殘差三大類。Options鈕:這一部分非常重要,但又常常被忽視,在這里我們可以對模型作精確定義,還可以選擇模型預測情況的描述方式,如StatisticsandPlots中的Classificationplots就是非常重要的模型預測工具,Correlationsofestimates則是重要的模型診斷工具,Iterationhistory可以看到迭代的具體情況,從而得知你
7、的模型是否在迭代時存在病態(tài),下方則可以確定進入和排除的概率標準,這在逐步回歸中是非常有用的。好,根據(jù)我們的目的,應(yīng)變量為Y,而X1X5為自變量,具體的分析操作如下:Analyze=Regression=BinaryLogistic.Dependent框:選入YCovariates框:選入x1x5OK鈕:單擊10.3.2結(jié)果解釋LogisticRegression上表為記錄處理情況匯總,即有多少例記錄被納入了下面的分析,可見此處因不存在缺失值,26條記錄均納入了分析。上表為應(yīng)變量分類情況列表,沒什么好解釋的。Block0:BeginningBlock此處已經(jīng)開始了擬合,Block0擬合的是只有常
8、數(shù)的無效模型,上表為分類預測表,可見在17例觀察值為0的記錄中,共有17例被預測為0,9例1也都被預測為0,總預測準確率為65.4%,這是不納入任何解釋變量時的預測準確率,相當于比較基線。上表為Block0時的變量系數(shù),可見常數(shù)的系數(shù)值為-0.636。上表為在Block0處尚未納入分析方程的侯選變量,所作的檢驗表示如果分別將他們納入方程,則方程的改變是否會有顯著意義(根據(jù)所用統(tǒng)計量的不同,可能是擬合優(yōu)度,Deviance值等)。可見如果將X2系列的啞變量納入方程,則方程的改變是有顯著意義的,X4和X5也是如此,由于Stepwise方法是一個一個的進入變量,下一步將會先納入P值最小的變量X2,然
9、后再重新計算該表,再做選擇。Block1:Method=ForwardStepwise(Conditional)此處開始了Block1的擬合,根據(jù)我們的設(shè)定,采用的方法為Forward(我們只設(shè)定了一個Block,所以后面不會再有Block2了)。上表為全局檢驗,對每一步都作了Step、Block和Model的檢驗,可見6個檢驗都是有意義的。此處為模型概況匯總,可見從STEP1到STEP2,DEVINCE從18降到11,兩種決定系數(shù)也都有上升。此處為每一步的預測情況匯總,可見準確率由Block0的65%上升到了84%,最后達到96%,效果不錯,最終只出現(xiàn)了一例錯判。上表為方程中變量檢驗情況列表
10、,分別給出了Step1和Step2的擬合情況。注意X4的P值略大于0.05,但仍然是可以接受的,因為這里用到的是排除標準(默認為0.1),該變量可以留在方程中。以Step2中的X2為例,可見其系數(shù)為2.413,OR值為11。上表為假設(shè)將這些變量單獨移出方程,則方程的改變有無統(tǒng)計學意義,可見都是有統(tǒng)計學意義的,因此他們應(yīng)當保留在方程中。最后這個表格說明的是在每一步中,尚未進入方程的變量如果再進入現(xiàn)有方程,則方程的改變有無統(tǒng)計學意義??梢娫赟tep1時,X4還應(yīng)該引入,而在Step2時,其它變量是否引入都無關(guān)了。10.3.3模型的進一步優(yōu)化與簡單診斷10.3.3.1模型的進一步優(yōu)化前面我們將X1X
11、5直接引入了方程,實際上,其中X2、X4、X5這三個自變量為多分類變量,我們并無證據(jù)認為它們之間個各等級的OR值是成倍上升的,嚴格來說,這里應(yīng)當采用啞變量來分析,即需要用Categorical鈕將他們定義為分類變量。但本次分析不能這樣做,原因是這里總例數(shù)只有26例,如果引入啞變量模型會使得每個等級的記錄數(shù)非常少,從而分析結(jié)果將極為奇怪,無法正常解釋,但為了說明啞變量模型的用法,下面我將演示它是如何做的,畢竟不是每個例子都只有26例。默認情況下定義分類變量非常容易,做到如上圖所示就可以了,此時分析結(jié)果中的改變?nèi)缦拢荷媳頌樽宰兞恐卸喾诸愖兞康膯∽兞咳≈登闆r代碼表。左側(cè)為原變量名及取值,右側(cè)為相應(yīng)的
12、啞變量名及編碼情況:以X5為例,表中可見X5=4時,即取值最高的情況被作為了基線水平,這是多分類變量生成啞變量的默認情況。而X5(1)代表的是X5=1的情況(X5為1時取1,否則取0),X5(2)代表的是X5=2的情況,依此類推。同時注意到許多等級值有幾個記錄,顯然后面的分析結(jié)果不會太好。相應(yīng)的,分析結(jié)果中也以啞變量在進行分析,如下所示:上表出現(xiàn)了非常有趣的現(xiàn)象:所有的檢驗P值均遠遠大于0.05,但是所有的變量均沒有被移出方程,這是怎么回事?再看看下面的這個表格吧。這個表格為方程的似然值改變情況的檢驗,可見在最后Step2生成的方程中,無論移出X2還是X4都會引起方程的顯著性改變。也就是說,似
13、然比檢驗的結(jié)果和上面的Walds檢驗結(jié)果沖突,以誰為準?此處應(yīng)以似然比檢驗為準,因為它是全局性的檢驗,且Walds檢驗本身就不太準,這一點大家記住就行了,實在要弄明白請去查閱相關(guān)文獻。請注意:上面的啞變量均是以最高水平為基線水平,這不符合我們的目的,我們希望將最低水平作為基線水平。比如以腎細胞癌第一期為基線水平,需要這樣做只要在Categoriacl框中選中相應(yīng)的變量,在ReferenceCategory處選擇First,再單擊Change即可,此時變量旁的標示會做出相應(yīng)的改變?nèi)缦拢悍治鼋Y(jié)果中也會做出相應(yīng)的改變,此處略。10.3.3.2模型的簡單診斷SPSS本身提供了幾種用于模型診斷的工具,基本上都集中在Options對話框中,除了大家熟悉的殘差分析外,這里這種介紹三種簡單而有非常有用的工具:迭代記錄、相關(guān)矩陣和分類圖。上表為Block1的迭代記錄,可見無論是似然值,還是三個系數(shù)值,均是從迭代開始就向著一個方向發(fā)展,最終達到收斂,這說明整個迭代過程是健康的,問題不大;如果中途出現(xiàn)波折,尤其是當引入新變量后變化方向改變了,則提示要好好研究。上表為方程中變量的相關(guān)矩陣,可見X2和常數(shù)相關(guān)性較強,當引入X4后仍然如此,提示要關(guān)注這一現(xiàn)象,以防因自變量間的共線性導致方程系數(shù)不穩(wěn)(此時迭代記錄多半也會有波動)。當然,由于本例只有26條記錄,這一問題是沒有辦法深入研究的。上圖是Step1結(jié)束
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息技術(shù)課標的心得體會(8篇)
- 俄語專業(yè)生求職信
- 企業(yè)停電停水的應(yīng)急預案范文(7篇)
- 中秋佳節(jié)致辭(8篇)
- 設(shè)計課件網(wǎng)站教學課件
- 諺語講解課件教學課件
- 盲目從眾課件教學課件
- 天桃實驗學校八年級上學期語文1月月考試卷
- 環(huán)境應(yīng)急預案的編寫要點
- 自建房屋建筑施工合同(2篇)
- 3.9.1 增強安全意識-2024-2025學年初中道德與法治七年級上冊上課課件
- 2024年“泰山杯”山東省網(wǎng)絡(luò)安全職業(yè)技能競賽理論試題庫(含答案)
- 廣東省2024年中考歷史真題試卷【附真題答案】
- 2024至2030年中國大型鑄鍛件行業(yè)市場深度研究及投資規(guī)劃建議報告
- 07J901-1實驗室建筑設(shè)備(一)
- 異地就醫(yī)備案的個人承諾書
- YDT 4470-2023電信網(wǎng)絡(luò)的確定性IP網(wǎng)絡(luò) 控制面技術(shù)要求
- 基于創(chuàng)客教育理念的幼兒機器人課程的開發(fā)與實踐研究
- 工廠冷庫儲存應(yīng)急預案方案及流程
- 2024年湖北省十堰市荊楚初中聯(lián)盟八年級中考模擬預測生物試題
- 資源教室檢查方案
評論
0/150
提交評論