




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Logistic 回歸分析簡(jiǎn)介L(zhǎng)ogistic 回歸:實(shí)際上屬于判別分析,因擁有很差的判別效率而不常用。1 應(yīng)用范圍:適用于流行病學(xué)資料的危險(xiǎn)因素分析實(shí)驗(yàn)室中藥物的劑量 -反應(yīng)關(guān)系臨床試驗(yàn)評(píng)價(jià)疾病的預(yù)后因素分析2 Logistic 回歸的分類(lèi):按因變量的資料類(lèi)型 分:二分類(lèi)多分類(lèi)其中二分較為常用按研究方法 分:條 件 Logistic 回歸非條件 Logistic 回歸兩者針對(duì)的資料類(lèi)型不一樣,后者針對(duì)成組研究,前者針對(duì)配對(duì)或配伍研究。3Logistic 回歸的應(yīng)用條件是:獨(dú)立性。各觀測(cè)對(duì)象間是相互獨(dú)立的;LogitP 與自變量是線(xiàn)性關(guān)系;樣本量。經(jīng)驗(yàn)值是病例對(duì)照各50 例以上或?yàn)樽宰兞康?-
2、10 倍(以 10倍為宜),不過(guò)隨著統(tǒng)計(jì)技術(shù)和軟件的發(fā)展,樣本量較小或不能進(jìn)行似然估計(jì)的情況下可采用精確 logistic 回歸分析,此時(shí)要求分析變量不能太多,且變量分類(lèi)不能太多;當(dāng)隊(duì)列資料進(jìn)行 logistic 回歸分析時(shí),觀察時(shí)間應(yīng)該相同,否則需考慮觀察時(shí)間的影響(建議用 Poisson回歸)。4 擬和 logistic 回歸方程的步驟:對(duì)每一個(gè)變量進(jìn)行量化,并進(jìn)行單因素分析;數(shù)據(jù)的離散化,對(duì)于連續(xù)性變量在分析過(guò)程中常常需要進(jìn)行離散變成等級(jí)資料??刹捎玫姆椒ㄓ幸罁?jù)經(jīng)驗(yàn)進(jìn)行離散,或是按照四分、五分位數(shù)法來(lái)確定等級(jí),也可采用聚類(lèi)方法將計(jì)量資料聚為二類(lèi)或多類(lèi),變?yōu)殡x散變量。對(duì)性質(zhì)相近的一些自變量
3、進(jìn)行部分多因素分析,并探討各自變量(等級(jí)變量,數(shù)值變量)納入模型時(shí)的適宜尺度,及對(duì)自變量進(jìn)行必要的變量變換;在單變量分析和相關(guān)自變量分析的基礎(chǔ)上,對(duì) P(常取 0.2,0.15或 0.3)的變量,以及專(zhuān)業(yè)上認(rèn)為重要的變量進(jìn)行多因素的逐步篩選;模型程序每擬合一個(gè)模型將給出多個(gè)指標(biāo)值,供用戶(hù)判斷模型優(yōu)劣和篩選變量??梢圆捎秒p向篩選技術(shù):a 進(jìn)入變量的篩選用score統(tǒng)計(jì)量或 G統(tǒng)計(jì)量或 LRS(似然比統(tǒng)計(jì)量 ),用戶(hù)確定 P 值臨界值如: 0.05、 0.1 或0.2,選擇統(tǒng)計(jì)量顯著且最大的變量進(jìn)入模型; b 剔除變量的選擇用 Z 統(tǒng)計(jì)量 (Wald 統(tǒng)計(jì)量 ),用戶(hù)確定其 P 值顯著性水平,當(dāng)變
4、量不顯者,從模型中予以剔除。這樣,選入和剔除反復(fù)循環(huán),直至無(wú)變量選入,也無(wú)變量刪除為止,選入或剔除的顯著界值的確定要依具體的問(wèn)題和變量的多寡而定,一般地,當(dāng)納入模型的變量偏多,可提高選入界值或降低剔除標(biāo)準(zhǔn),反之,則降低選入界值、提高刪除標(biāo)準(zhǔn)。但篩選標(biāo)準(zhǔn)的不同會(huì)影響分析結(jié)果,這在與他人結(jié)果比較時(shí)應(yīng)當(dāng)注意。在多因素篩選模型的基礎(chǔ)上,考慮有無(wú)必要納入變量的交互作用項(xiàng);兩變量間的交互作用為一級(jí)交互作用,可推廣到二級(jí)或多級(jí)交互作用,但在實(shí)際應(yīng)用中,各變量最好相互獨(dú)立 (也是模型本身的要求 ),不必研究交互作用,最多是研究少量的一級(jí)交互作用。對(duì)專(zhuān)業(yè)上認(rèn)為重要但未選入回歸方程的要查明原因。5 回歸方程擬合優(yōu)
5、劣的判斷(為線(xiàn)性回歸方程判斷依據(jù),可用于 logistic 回歸分析)決定系數(shù) (R2)和校正決定系數(shù) (),可以用來(lái)評(píng)價(jià)回歸方程的優(yōu)劣。R2 隨著自變量個(gè)數(shù)的增加而增加,所以需要校正;校正決定系數(shù)()越大,方程越優(yōu)。但亦有研究指出R2 是多元線(xiàn)性回歸中經(jīng)常用到的一個(gè)指標(biāo),表示的是因變量的變動(dòng)中由模型中自變量所解釋的百分比,并不涉及預(yù)測(cè)值與觀測(cè)值之間差別的問(wèn)題,因此在logistic 回歸中不適合。 Cp 選擇法:選擇p最接近 p或 的方程(不同學(xué)者解釋不同)。CpCp 1無(wú)法用 SPSS直接計(jì)算,可能需要手工。1964 年 CL Mallows 提出:Cp 接近( p+1)的模型為最佳,其中
6、 p 為方程中自變量的個(gè)數(shù), m 為自變量總個(gè)數(shù)。AIC準(zhǔn)則: 1973 年由日本學(xué)者赤池提出AIC計(jì)算準(zhǔn)則,AIC越小擬合的方程越好。在 logistic 回歸中,評(píng)價(jià)模型擬合優(yōu)度的指標(biāo)主要有2Pearson、偏差(deviance)、Hosmer- Lemeshow (HL)指標(biāo)、 Akaike 信息準(zhǔn)則 (AIC) 、 SC 指標(biāo)2等。 Pearson、偏差 (deviance)主要用于自變量不多且為分類(lèi)變量的情況,2當(dāng)自變量增多且含有連續(xù)型變量時(shí),用HL 指標(biāo)則更為恰當(dāng)。 Pearson、22偏差 (deviance)、Hosmer- Lemeshow (HL)指標(biāo)值均服從 分布, 檢
7、驗(yàn)無(wú)統(tǒng)計(jì)學(xué)意義(P0.05)2(P則表表示模型擬合的較好, 檢驗(yàn)有統(tǒng)計(jì)學(xué)意義0.05)示模型擬合的較差。 AIC 和 SC 指標(biāo)還可用于比較模型的優(yōu)劣,當(dāng)擬合多個(gè)模型時(shí),可以將不同模型按其AIC 和 SC 指標(biāo)值排序, AIC 和 SC 值較小者一般認(rèn)為擬合得更好。6 擬合方程的注意事項(xiàng):進(jìn)行方程擬合對(duì)自變量篩選采用逐步選擇法 前進(jìn)法( forward )、后退法( backward)、逐步回歸法( stepwise) 時(shí),引入變量的檢驗(yàn)水準(zhǔn)要小于或等于剔除變量的檢驗(yàn)水準(zhǔn);小樣本檢驗(yàn)水準(zhǔn) 定為 0.10 或 0.15,大樣本把 定為 0.05。值越小說(shuō)明自變量選取的標(biāo)準(zhǔn)越嚴(yán);在逐步回歸的時(shí)可根
8、據(jù)需要放寬或限制進(jìn)入方程的標(biāo)準(zhǔn),或硬性將最感興趣的研究變量選入方程;強(qiáng)影響點(diǎn)記錄的選擇:從理論上講,每一個(gè)樣本點(diǎn)對(duì)回歸模型的影響應(yīng)該是同等的,實(shí)際并非如此。有些樣本點(diǎn)(記錄)對(duì)回歸模型影響很大。對(duì)由過(guò)失或錯(cuò)誤造成的點(diǎn)應(yīng)刪去,沒(méi)有錯(cuò)誤的強(qiáng)影響點(diǎn)可能和自變量與應(yīng)變量的相關(guān)有關(guān),不可輕易刪除。多重共線(xiàn)性的診斷( SPSS中的指標(biāo)): a 容許度:越近似于 0,共線(xiàn)性越強(qiáng); b 特征根:越近似于 0,共線(xiàn)性越強(qiáng); c 條件指數(shù):越大,共線(xiàn)性越強(qiáng);異常點(diǎn)的檢查:主要包括特異點(diǎn)(outher)、高杠桿點(diǎn) (high leverage points)以及強(qiáng)影響點(diǎn) (influential points) 。
9、特異點(diǎn)是指殘差較其他各點(diǎn)大得多的點(diǎn);高杠桿點(diǎn)是指距離其他樣品較遠(yuǎn)的點(diǎn);強(qiáng)影響點(diǎn)是指對(duì)模型有較大影響的點(diǎn),模型中包含該點(diǎn)與不包含該點(diǎn)會(huì)使求得的回歸系數(shù)相差很大。單獨(dú)的特異點(diǎn)或高杠桿點(diǎn)不一定會(huì)影響回歸系數(shù)的估計(jì),但如果既是特異點(diǎn)又是高杠桿點(diǎn)則很可能是一個(gè)影響回歸方程的“有害”點(diǎn)。對(duì)特異點(diǎn)、高杠桿點(diǎn)、強(qiáng)影響點(diǎn)診斷的指標(biāo)有Pearson殘差、 Deviance 殘差、杠桿度統(tǒng)計(jì)量H( hat matrix diagnosis)、 Cook 距離、 DFBETA 、Score檢驗(yàn)統(tǒng)計(jì)量等。這五個(gè)指標(biāo)中, Pearson殘差、 Deviance 殘差可用來(lái)檢查特異點(diǎn),如果某觀測(cè)值的殘差值 2,則可認(rèn)為是一
10、個(gè)特異點(diǎn)。杠桿度統(tǒng)計(jì)量 H 可用來(lái)發(fā)現(xiàn)高杠桿點(diǎn), H 值大的樣品說(shuō)明距離其他樣品較遠(yuǎn),可認(rèn)為是一個(gè)高杠桿點(diǎn)。 Cook 距離、 DFBETA 指標(biāo)可用來(lái)度量特異點(diǎn)或高杠桿點(diǎn)對(duì)回歸模型的影響程度。Cook 距離是標(biāo)準(zhǔn)化殘差和杠桿度兩者的合成指標(biāo),其值越大,表明所對(duì)應(yīng)的觀測(cè)值的影響越大。DFBETA 指標(biāo)值反映了某個(gè)樣品被刪除后 logistic 回歸系數(shù)的變化,變化越大 (即 DFBETA 指標(biāo)值越大 ),表明該觀測(cè)值的影響越大。如果模型中檢查出有特異點(diǎn)、高杠桿點(diǎn)或強(qiáng)影響點(diǎn),首先應(yīng)根據(jù)專(zhuān)業(yè)知識(shí)、數(shù)據(jù)收集的情況,分析其產(chǎn)生原因后酌情處理。如來(lái)自測(cè)量或記錄錯(cuò)誤,應(yīng)剔除或校正,否則處置就必須持慎重態(tài)度
11、,考慮是否采用新的模型,而不能只是簡(jiǎn)單地刪除就算完事。因?yàn)樵谠S多場(chǎng)合,異常點(diǎn)的出現(xiàn)恰好是我們探測(cè)某些事先不清楚的或許更為重要因素的線(xiàn)索。7 回歸系數(shù)符號(hào)反常與主要變量選不進(jìn)方程的原因:存在多元共線(xiàn)性;有重要影響的因素未包括在內(nèi);某些變量個(gè)體間的差異很大;樣本內(nèi)突出點(diǎn)上數(shù)據(jù)誤差大;變量的變化范圍較??;樣本數(shù)太少。8 參數(shù)意義 Logistic 回歸中的常數(shù)項(xiàng)( b0)表示,在不接觸任何潛在危險(xiǎn)保護(hù)因素條件下,效應(yīng)指標(biāo)發(fā)生與不發(fā)生事件的概率之比的對(duì)數(shù)值。 Logistic 回歸中的回歸系數(shù)( bi)表示,其它所有自變量固定不變,某一因素改變一個(gè)單位時(shí),效應(yīng)指標(biāo)發(fā)生與不發(fā)生事件的概率之比的對(duì)數(shù)變化值,即 OR 或 RR 的對(duì)數(shù)值。需要指出的是,回歸系數(shù) 的大小并不反映變量對(duì)疾病發(fā)生的重要性,那么哪種因素對(duì)模型貢獻(xiàn)最大即與疾病聯(lián)系最強(qiáng)呢 ? (InL (t-1)-InL (t)三種方法結(jié)果基本一致。存在因素間交互作用時(shí),Logistic 回歸系數(shù)的解釋變得更為復(fù)雜,應(yīng)特別小心。 模型估計(jì)出 OR,當(dāng)發(fā)病率較低時(shí), OR RR,因此發(fā)病率高的疾病資料不適合使用該模型。另外, Logistic 模型
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年下學(xué)期高一英語(yǔ)外研社版同步經(jīng)典題精練之信息匹配
- 光子祛斑護(hù)理
- 技能培訓(xùn)方案及培訓(xùn)計(jì)劃表
- 臺(tái)北企業(yè)管理提升培訓(xùn)
- 2025年九年級(jí)下學(xué)期物理模擬考試試題(適用滬科版)(含答案)
- 百歲壽宴活動(dòng)策劃方案
- 數(shù)學(xué)-黑龍江省齊齊哈爾市2025屆高三下學(xué)期第二次模擬考試(齊齊哈爾二模)試題和答案
- 電工電子技術(shù) 課件 4. 單一參數(shù)正弦交流電路的測(cè)試
- 幼兒園秋季防汛安全教育
- 五人同主題教育
- 紫藍(lán)色可愛(ài)卡通風(fēng)《小王子》名著導(dǎo)讀兒童文學(xué)PPT模板
- DB13T 1606-2012 糧食作物種子 谷子雜交種
- 安全疏散設(shè)施檢查記錄參考模板范本
- KTV包房音響系統(tǒng)設(shè)計(jì)方案
- 常用物理英語(yǔ)詞匯大全
- 城市軌道交通設(shè)備系統(tǒng)_第十一章_車(chē)輛段與綜合基地
- 增值稅暫行條例實(shí)施細(xì)則釋義
- 如何挖掘商機(jī)PPT課件
- 平行四邊形培優(yōu)專(zhuān)題訓(xùn)練
- 公制螺紋塞規(guī)的尺寸計(jì)算
- 212地鐵車(chē)站保護(hù)監(jiān)理實(shí)施細(xì)則
評(píng)論
0/150
提交評(píng)論