分類(lèi)資料的回歸分析_第1頁(yè)
分類(lèi)資料的回歸分析_第2頁(yè)
分類(lèi)資料的回歸分析_第3頁(yè)
分類(lèi)資料的回歸分析_第4頁(yè)
分類(lèi)資料的回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、管理成接www, managecn. org 管壬里在線(xiàn)海量管理資料下載第十一章 分類(lèi)資料的回歸分析一Regression菜單詳解(下)(醫(yī)學(xué)統(tǒng)計(jì)之星:張文彤)上次更新日期:二10.1 Linear 過(guò)程10.1.1 簡(jiǎn)單操作入門(mén) 界面詳解 輸出結(jié)果解釋10.1.2 復(fù)雜實(shí)例操作 分析實(shí)例 結(jié)果解釋10.2 Curve Estimation 過(guò)程10.2.1 界面詳解10.2.2 實(shí)例操作10.3 Binary Logistic 過(guò)程10.3.1 界面詳解與實(shí)例10.3.2 結(jié)果解釋10.3.3 模

2、型的進(jìn)一步優(yōu)化與簡(jiǎn)單診斷 模型的進(jìn)一步優(yōu)化 模型的簡(jiǎn)單診斷8a在很久很久以前,地球上還是一個(gè)陰森恐怖的黑暗時(shí)代,大地上恐龍橫行, 我們的老祖先-類(lèi)人猿驚恐的睜大了雙眼,圍坐在僅剩的火堆旁,擔(dān)心著無(wú)邊的黑暗中不知何時(shí)會(huì)出現(xiàn)的妖魔鬼怪,沒(méi)有電視可看,沒(méi)有網(wǎng)可上 .我是瘋了,還是在說(shuō)夢(mèng)話(huà)?都不是,類(lèi)人猿自然不會(huì)有機(jī)會(huì)和恐龍同時(shí)代, 只不過(guò)是我開(kāi)機(jī)準(zhǔn)備寫(xiě)這一部分的時(shí)候,心里忽然想到,在 10年前,國(guó)內(nèi)的統(tǒng) 計(jì)學(xué)應(yīng)用上還是卡方檢驗(yàn)橫行,分層的M-H卡方簡(jiǎn)直就是超級(jí)武器,在流行病學(xué) 中稱(chēng)王稱(chēng)霸,更有那些1: M的配對(duì)卡方,N: M的配對(duì)卡方,含失訪(fǎng)數(shù)據(jù)的 N: M 配對(duì)卡方

3、之類(lèi)的,簡(jiǎn)直象恐龍一般,搞得我頭都大了。其實(shí)恐龍我還能講出十多 種來(lái),可上面這些東西我現(xiàn)在還沒(méi)徹底弄明白,好在社會(huì)進(jìn)步迅速,沒(méi)等這些恐龍完全統(tǒng)制地球,Logistic模型就已經(jīng)飛速進(jìn)化到了現(xiàn)代人的階段,各種各樣 的Logistic 模型不斷地在蠶食著恐龍爺爺們的領(lǐng)地,也許還象貪吃的人類(lèi)一樣 貪婪的享用著恐龍的身體。好,這是好事,這里不能講動(dòng)物保護(hù),現(xiàn)在我們就遠(yuǎn) 離那些恐龍,來(lái)看看現(xiàn)代白領(lǐng)的生活方式。G手特別聲明:我上面的話(huà)并非有貶低流行病學(xué)的意思, 實(shí)際上我一直都在做流 行病學(xué),我這樣寫(xiě)只是想說(shuō)明近些年來(lái)統(tǒng)計(jì)方法的普及速度之快而已。3 據(jù)我一位學(xué)數(shù)學(xué)的師兄講,Logistic 模型和卡方在原理

4、上是不一樣的,在公 式推演上也不可能劃等號(hào),只是一般來(lái)說(shuō)兩者的檢驗(yàn)結(jié)果會(huì)非常接近而已,多數(shù) 情況下可忽略其不同。§ 10.3 Binary Logistic 過(guò)程所謂Logistic模型,或者說(shuō)Logistic回歸模型,就是人們想為兩分類(lèi)的應(yīng) 變量作一個(gè)回歸方程出來(lái),可概率的取值在01之間,回歸方程的應(yīng)變量取值可 是在實(shí)數(shù)集中,直接做會(huì)出現(xiàn)01范圍之外的不可能結(jié)果,因此就有人耍小聰明, 將率做了一個(gè)Logit變換,這樣取值區(qū)間就變成了整個(gè)實(shí)數(shù)集,作出來(lái)的結(jié)果就 不會(huì)有問(wèn)題了,從而該方法就被叫做了Logistic回歸。隨著模型的發(fā)展,Logistic家族也變得人丁興旺起來(lái),除了最早的兩

5、分類(lèi) Logistic 外,還有配對(duì)Logistic 模型,多分類(lèi)Logistic 模型、隨機(jī)效應(yīng)的 Logistic模型等。由于SPSS勺能力所限,對(duì)話(huà)框只能完成其中的兩分類(lèi)和多分 類(lèi)模型,下面我們就介紹一下最重要和最基本的兩分類(lèi)模型。10.3.1 界面詳解與實(shí)例例11.1某研究人員在探討腎細(xì)胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集 了一批行根治性腎切除術(shù)患者的腎癌標(biāo)本資料,現(xiàn)從中抽取26例資料作為示例進(jìn)行l(wèi)ogistic 回歸分析(本例來(lái)自衛(wèi)生統(tǒng)計(jì)學(xué)第四版第11章)。 i : 標(biāo)本序號(hào) x1:確診時(shí)患者的年齡(歲) x2:腎細(xì)胞癌血管內(nèi)皮生長(zhǎng)因子(VEGF),其陽(yáng)性表述由低到高共3個(gè)等 級(jí)

6、x3:腎細(xì)胞癌組織內(nèi)微血管數(shù)(MVC) x4:腎癌細(xì)胞核組織學(xué)分級(jí),由低到高共 4級(jí) x5:腎細(xì)胞癌分期,由低到高共 4期 y:腎細(xì)胞癌轉(zhuǎn)移情況(有轉(zhuǎn)移y=1;無(wú)轉(zhuǎn)移y=0)。ix1x2x3 1x4x5y159243.4210236157.2110www, managecn. org 管壬里在線(xiàn)海量管理資料下載管理危就36121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.64311352156110 11431147

7、.82101536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431在菜單上選擇 Analyze=Regression=Binary Logistic. ,系統(tǒng)彈出 Logistic 回歸對(duì)話(huà)框如下:管理或做www, managecn. org 管壬里在線(xiàn)海量管理資料下載左側(cè)是候選變量框,右上角是應(yīng)變量框,選入二分類(lèi)的應(yīng)變量,下方的

8、 Covariates框是用于選入自變量的,只不過(guò)這里按國(guó)外的習(xí)慣被稱(chēng)為了協(xié)變量。 兩框中間的是BLOCK(列按扭,我在上一課已經(jīng)講過(guò)了,不再重復(fù)。中下部 的a*b框是用于選入交互作用的,和其他的對(duì)話(huà)框不太相同(我也不知道為什 么SPSS®在這里做得不同),下方的Method列表框用于選擇變量進(jìn)入方法,有 進(jìn)入法、前進(jìn)法和后退法三大類(lèi),三類(lèi)之下又有細(xì)分。最下面的四個(gè)按鈕比較重 要,請(qǐng)大家聽(tīng)我慢慢道來(lái):o Select鈕:用于限定一個(gè)篩選條件,只有滿(mǎn)足該條件的記錄才會(huì) 被納入分析,單擊它后對(duì)話(huà)框會(huì)展開(kāi)讓你填入相應(yīng)的條件。不過(guò)我覺(jué)得該 功能純屬多余,和專(zhuān)門(mén)的Select對(duì)話(huà)框的功能重復(fù)了

9、。o Categorical鈕:如果你的自變量是多分類(lèi)的(如血型等),你必須 要將它用啞變量的方式來(lái)分析,那么就要用該按鈕將該變量指定為分類(lèi)變 量,如果有必要,可用里面的選擇按鈕進(jìn)行詳細(xì)的定義,如以哪個(gè)取值作為基礎(chǔ)水平,各水平間比較的方法是什么等。當(dāng)然,如果你弄不明白,不 改也可以,默認(rèn)的是以最大取值為基礎(chǔ)水平,用 Deviance做比較。www, managecn. org 管壬里在線(xiàn)海量管理資料下載oSave鈕:將中間結(jié)果存儲(chǔ)起來(lái)供以后分析,共有預(yù)測(cè)值、影響強(qiáng)度因子和殘差三大類(lèi)。o Options鈕:這一部分非常重要,但又常常被忽視,在這里我們可以 對(duì)模型作精確定義,還可以選擇模型預(yù)測(cè)情況

10、的描述方式,如Statistics and Plots 中的Classification plots就是非常重要的模型預(yù)測(cè)工具,Correlations of estimates則是重要的模型診斷工具,Iterationhistory可以看到迭代的具體情況,從而得知你的模型是否在迭代時(shí)存在 病態(tài),下方則可以確定進(jìn)入和排除的概率標(biāo)準(zhǔn),這在逐步回歸中是非常有用的。管理或彼 www, managecn. org 管壬里在線(xiàn)扁w.mai蕊n./海量管理資料下載好,根據(jù)我們的目的,應(yīng)變量為 Y,而X1X5為自變量,具體的分析操作如 下:1. Analyze=Regression=Binary Logis

11、tic.2. Dependent框:選入 Y3. Covariates 框:選入 x1x54. OKffi:單擊10.3.2結(jié)果解釋Logistic RegressionC4$e PiSttnihbtryUnweighted Cases'NPercentSelected Case*?Included i殖 Analysis26100.0Mising Caf"Q,0Total20100.00.0Total2&100.0a.1帙 bJlhtlt lli#flfect “咨 CtKJ ttlZJttji tijle 篁巾也 * iDtll I lint411MM餐“.上表為

12、記錄處理情況匯總,即有多少例記錄被納入了下面的分析,可見(jiàn)此處 因不存在缺失值,26條記錄均納入了分析。Dependent Variable EncodingOriginal VaIu4 Internal Value ,001.00上表為應(yīng)變量分類(lèi)情況列表,沒(méi)什么好解釋的。Block 0: Beginning BlockChsificaftion 丁仙吩上PredictedObserwedl001.00CorrectStep 0 Y.0017Q100 J01 aoQ00QverdU PercenUge354a Coutwtb liclidetindTlecigie* 血此處已經(jīng)開(kāi)始了擬合,Blo

13、ck 0擬合的是只有常數(shù)的無(wú)效模型,上表為分類(lèi) 預(yù)測(cè)表,可見(jiàn)在17例觀(guān)察值為0的記錄中,共有17例被預(yù)測(cè)為0, 9例1也都 被預(yù)測(cè)為0,總預(yù)測(cè)準(zhǔn)確率為65.4%,這是不納入任何解釋變量時(shí)的預(yù)測(cè)準(zhǔn)確率, 相當(dāng)于比較基線(xiàn)。Vai iables in the EquationBS.E.界middfSig 二E即Step。Con 巾 M,630,4122.3001,123,529上表為Block 0時(shí)的變量系數(shù),可見(jiàn)常數(shù)的系數(shù)值為-0.636管理或做www, managecn. org 管壬里在線(xiàn)海量管理資料下載Var i4l)les not in the Equati

14、onScoredfSig.Si»pO VariablasX11B11X213J701.000X3,2331&20X412.0G91.001X58.1621.00417 7375.003上表為在Block 0處尚未納入分析方程的侯選變量,所作的檢驗(yàn)表示如果分 別將他們納入方程,則方程的改變是否會(huì)有顯著意義(根據(jù)所用統(tǒng)計(jì)量的不同, 可能是擬合優(yōu)度,Deviance值等)??梢?jiàn)如果將X2系列的啞變量納入方程,則 方程的改變是有顯著意義的,X4和X5也是如此,由于Stepwise方法是一個(gè)一 個(gè)的進(jìn)入變量,下一步將會(huì)先納入 P值最小的變量X2,然后再重新計(jì)算該表, 再做選擇。Bloc

15、k 1: Method = Forward Stepwise (Conditional)0innilHi$ Tests of Model CoeffitierrtsChi-squaredtSigStep 1 Step15.63S1,000Bio詠15,5381,000Model15.538100Q3忸 p 2St«p6.1791013Block21.7162.000Model21,7162000此處開(kāi)始了 Block 1的擬合,根據(jù)我們的設(shè)定,采用的方法為 Forward (我 們只設(shè)定了一個(gè)Block,所以后面不會(huì)再有Block 2 了)。上表為全局檢驗(yàn),對(duì) 每一步都作了 Step

16、、Block和Model的檢驗(yàn),可見(jiàn)6個(gè)檢驗(yàn)都是有意義的。Model SummaryStep2 Log likelihaadCox & Shell IR SquareNaglksrke R Square118.0D4沏,521211.825JOS此處為模型概況匯總,可見(jiàn)從 STEP倒STEP2 DEVINCEl 18降到11,兩種 決定系數(shù)也都有上升。Chifiction T/ble3PredictedY P w re* nta g e bservedl.001.00CorrectStep 1 Y,0015238.21.002777,SOverall84,BStep 2 Y,00161

17、94 J1.00091D0.0口-間1抬認(rèn)比2此處為每一步的預(yù)測(cè)情況匯總,可見(jiàn)準(zhǔn)確率由 Block 0的65%t升到了 84% 最后達(dá)到96%效果不錯(cuò),最終只出現(xiàn)了一例錯(cuò)判。Variables in the Equation&S EWdlddfSig 一ExpCB)Step 22.563,6137.8291,00512.Q78Con 員 antG.2502.2897.4981ooe002Step 2r X22.4131.19B4.0721,04411,171X42.0901.0893.7131,0548.13BConant12,3235.4305.1541,023000i%r*dcn

18、I:簿之a(chǎn). LWHH eit|)2:工 L上表為方程中變量檢驗(yàn)情況列表,分別給出了Step 1和Step 2的擬合情況。注意X4的P值略大于0.05,但仍然是可以接受的,因?yàn)檫@里用到的是排除標(biāo)準(zhǔn)(默認(rèn)為0.1 ),該變量可以留在方程中。以 Step 2中的X2為例,可見(jiàn)其系數(shù) 為 2.413, ORfi為 11。www, managecn. org 管壬里在線(xiàn)海量管理資料下載Model if Term RemovedVari-ableModel Log Likelihood口hange in -2 Log LikelliihooddfSigi, of the Chan

19、g電Step 1X217.73617,4751.00。Step 2X2 10,8029.7781002X4iar2i381.003口 . Hanoi atdmcihipiiitr 盯也 it 值,上表為假設(shè)將這些變量單獨(dú)移出方程,則方程的改變有無(wú)統(tǒng)計(jì)學(xué)意義,可見(jiàn) 都是有統(tǒng)計(jì)學(xué)意義的,因此他們應(yīng)當(dāng)保留在方程中。i4l>le$ not in the E<prilionScoredfSig.1 VdnableEX1S061X31S81,964X46.1CQ1.013X53.BS01.055v«rjl) Stdt炳cf8.3764,0B4St»p2 VridbleEX1

20、1.30S1.237X37261.384X51.6621,107vtrjl) &tjlifticf5.0073,1B5最后這個(gè)表格說(shuō)明的是在每一步中,尚未進(jìn)入方程的變量如果再進(jìn)入現(xiàn)有方 程,則方程的改變有無(wú)統(tǒng)計(jì)學(xué)意義??梢?jiàn)在Step 1時(shí),X4還應(yīng)該引入,而在Step 2時(shí),其它變量是否引入都無(wú)關(guān)了。10.3.3模型的進(jìn)一步優(yōu)化與簡(jiǎn)單診斷 模型的進(jìn)一步優(yōu)化前面我們將X1X5直接引入了方程,實(shí)際上,其中X2、X4> X5這三個(gè)自變量 為多分類(lèi)變量,我們并無(wú)證據(jù)認(rèn)為它們之間個(gè)各等級(jí)的 ORfi是成倍上升的,嚴(yán) 格來(lái)說(shuō),這里應(yīng)當(dāng)采用啞變量來(lái)分析,即需要用Categori

21、cal鈕將他們定義為分 類(lèi)變量。但本次分析不能這樣做,原因是這里總例數(shù)只有26例,如果引入啞變 量模型會(huì)使得每個(gè)等級(jí)的記錄數(shù)非常少, 從而分析結(jié)果將極為奇怪,無(wú)法正常解 釋?zhuān)珵榱苏f(shuō)明啞變量模型的用法,下面我將演示它是如何做的,畢竟不是每個(gè) 例子都只有26例。www, managecn. org 管壬里在線(xiàn)海量管理資料下載管理龍做默認(rèn)情況下定義分類(lèi)變量非常容易,做到如上圖所示就可以了,此時(shí)分析結(jié) 果中的改變?nèi)缦拢篊e<|0*V制 i加Mb CodingsF r«quncyParameter codingX51 00111 000,0000002

22、003,0001 0000003.00Q,000,00。1.0004.003,000,000,000犯1 0041.000,000,0002.0010,0001.000,0003 005,0000001 0004007,000,0000001 00111 000,0002.006,0001.0003.009,000,000上表為自變量中多分類(lèi)變量的啞變量取值情況代碼表。左側(cè)為原變量名及取值,右側(cè)為相應(yīng)的啞變量名及編碼情況:以 X5為例,表中可見(jiàn)X5=4時(shí),即取值 最高的情況被作為了基線(xiàn)水平,這是多分類(lèi)變量生成啞變量的默認(rèn)情況。而X5(1) 代表的是X5=1的情況(X5為1時(shí)取1,否則取0) ,

23、 X5(2)代表的是X5=2的情 況,依此類(lèi)推。同時(shí)注意到許多等級(jí)值有幾個(gè)記錄,顯然后面的分析結(jié)果不會(huì)太好。管理江錢(qián)相應(yīng)的,分析結(jié)果中也以啞變量在進(jìn)行分析,如下所示:Vai iaNes in the EquationBS £*IddfSig 一EkpStep 1a 刈,1423 12,110135.412,0031,000X4(2) 12,11385.645,0201,87,000X購(gòu),4701.39B,1131,73B1.G00Con 心 M,Q1B,8371.1Q91,2732.600Step 211 X2,0102,995噂22,332213&a

24、mp;的 B,0071,033,000X2(2)10,117192,744,003105324765.520X4,01131.000X%1)8.030第 440400J1eae3072 ,647X/2)-23.014265.303,0081,931,000X成3)W6S5179.250C04195342839.318Cori5tant1W91.155MF,1-.341_ 3 .000aL"aiabi&.箝itp i: xl上表出現(xiàn)了非常有趣的現(xiàn)象:所有的檢驗(yàn) P值均遠(yuǎn)遠(yuǎn)大于0.05,但是所有的 變量均沒(méi)有被移出方程,這是怎么回事?再看看下面的這個(gè)表格吧。Model if Te

25、rm RemovedVari-ableModel Log LitoelihoodChange in -2 Log LikellihooddfSig. of the ChJingeSWp 1 X42ft.00336 6263.D00Step 2 X28.7418 8832011X4-3.34212 7853.005a E孤口don csidimcihjfelpiniei “慌,值&這個(gè)表格為方程的似然值改變情況的檢驗(yàn),可見(jiàn)在最后Step 2生成的方程中, 無(wú)論移出X2還是X4都會(huì)引起方程的顯著性改變。也就是說(shuō),似然比檢驗(yàn)的結(jié)果 和上面的Walds檢驗(yàn)結(jié)果沖突,以誰(shuí)為準(zhǔn)?此處應(yīng)以似然比檢驗(yàn)

26、為準(zhǔn), 因?yàn)樗?全局性的檢驗(yàn),且Walds檢驗(yàn)本身就不太準(zhǔn),這一點(diǎn)大家記住就行了,實(shí)在要弄 明白請(qǐng)去查閱相關(guān)文獻(xiàn)。請(qǐng)注意:上面的啞變量均是以最高水平為基線(xiàn)水平,這不符合我們的目的,我們希望將最低水平作為基線(xiàn)水平。 比如以腎細(xì)胞癌第一期為基線(xiàn)水平, 需要這 樣做只要在 Categoriacl 框中選中相應(yīng)的變量,在 Reference Category 處選擇 First,再單擊Change即可,此時(shí)變量旁的標(biāo)示會(huì)做出相應(yīng)的改變?nèi)缦拢汗芾砘虮?WWW, managecn. org 管壬里在線(xiàn):ww man笠n器海量管理資料下載分析結(jié)果中也會(huì)做出相應(yīng)的改變,此處略。 模型的簡(jiǎn)單診

27、斷SPS鄰身提供了幾種用于模型診斷的工具,基本上都集中在Options對(duì)話(huà)框 中,除了大家熟悉的殘差分析外,這里這種介紹三種簡(jiǎn)單而有非常有用的工具: 迭代記錄、相關(guān)矩陣和分類(lèi)圖。Iter秋ion搐4例胃匕心日用Iteration1"2 Log likelihoodCo efficientConstantX2X4Skp 111S 0623 5971.550218,2205.2492.139318,0106 0S12,109416 0046 2502 50151S,0046.2562563Stap 2116,7734.4741.031,728213.16D7.3011.5331.2673

28、12.05QaosQ1.6931.711411,8*401,7152.3051 MB611,82612.2S22,052.08Q611.S20-12.3232.4132.09Ba. *1E: Fed哂rd Gtpwtf 1<OldMDiarb.coNtttk kclitttlbl»tT»odiLC. . Ll Him: 335(2ti. euii而11 im iiife(Iit ft Utt?i i um*i 5 履ri工a %Hl點(diǎn)iiixki(fecna«dt kii mat 小口洋值 ite. BiriiJttjh 壟 im lufed Jtit M:-i i um* 16 ciitcod tfecnacd tv 拈“ ttai Diop« not it上表為Block 1的迭代記錄,可見(jiàn)無(wú)論是似然值,還是三個(gè)系數(shù)值,均是從 迭代開(kāi)始就向著一個(gè)方向發(fā)展,最終達(dá)到收斂,這說(shuō)明整個(gè)迭代過(guò)程是健康的, 問(wèn)題不大;如果中途出現(xiàn)波折,尤其是當(dāng)引入新變量后變化方向改變了, 則提示 要好好研究。Correlation MatrixCon«tarrtX2X4Step 1 ConstantUDD-.965雁 9比L???tep 2Constant10州-.798-.853)Q-J98

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論