回歸分析思路_第1頁
回歸分析思路_第2頁
回歸分析思路_第3頁
回歸分析思路_第4頁
回歸分析思路_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、馮國雙馮國雙回歸家族回歸家族線性回歸Logistic回歸Poisson回歸負(fù)二項回歸Weibull回歸Cox回歸分位數(shù)回歸Tobit回歸研究目的研究目的比較組間差異尋找危險因素數(shù)據(jù)分類發(fā)展趨勢預(yù)測數(shù)據(jù)類型數(shù)據(jù)類型/分布分布線性回歸Logistic回歸Poisson回歸Cox回歸Tobit回歸Weibull回歸Gamma回歸因變量為連續(xù)資料因變量為分類資料因變量為計數(shù)資料因變量為生存資料因變量為截取資料服從Weibull分布服從gamma分布應(yīng)用條件檢查應(yīng)用條件檢查線性回歸:線性回歸:線性(linearity) 可簡單通過繪制散點圖來觀察獨立性(independent) 通??筛鶕?jù)專業(yè)知識來判斷

2、正態(tài)性(normality) 可繪制殘差的正態(tài)概率圖,或?qū)埐钸M(jìn)行正態(tài)性檢驗等方差性(equal variance) 可通過繪制殘差與因變量預(yù)測值的散點圖來觀察應(yīng)用條件檢查應(yīng)用條件檢查Logistic回歸回歸獨立性線性:logit P與自變量滿足線性有序有序logistic回歸回歸/累積比數(shù)累積比數(shù)logit模型模型需滿足比例優(yōu)勢假定條件(Proportional odds assumption)應(yīng)用條件檢查應(yīng)用條件檢查Cox回歸回歸需滿足等比例風(fēng)險假定條件(Proportional hazards assumption)應(yīng)用條件檢查應(yīng)用條件檢查不滿足條件怎么辦?不滿足條件怎么辦?線性回歸:線

3、性不滿足:非線性回歸,廣義可加模型獨立性不滿足:多水平模型,空間回歸模型正態(tài)性不滿足:變量變換,非參數(shù)回歸,分位數(shù)回歸等方差性不滿足:加權(quán)最小二乘回歸,gamma回歸應(yīng)用條件檢查應(yīng)用條件檢查不滿足條件怎么辦?不滿足條件怎么辦?累積比數(shù)logit模型:不滿足比例優(yōu)勢假定:偏比例優(yōu)勢模型Cox回歸:不滿足等比例風(fēng)險假定:非等比例Cox回歸應(yīng)用條件檢查應(yīng)用條件檢查其它常用替代方法:其它常用替代方法:Tobit回歸: 解決因變量超出某一界限無法測量的問題如:某實驗室檢測指標(biāo),一旦超出1000,便檢測不出結(jié)果,只能用大于1000表示工資的納稅,低于一定值,沒有納稅某問卷調(diào)查中,詢問去年每周性生活頻率 (

4、1)完全沒有 (2)3次應(yīng)用條件檢查應(yīng)用條件檢查其它常用替代方法:其它常用替代方法:零膨脹Poisson回歸(zero-inflated Poisson) 可用于計數(shù)資料中含有大量0值的情形如: 吸煙數(shù)量,很多人不吸煙,記為0,吸煙的人才開始記錄為1、2、3、應(yīng)用條件檢查應(yīng)用條件檢查其它常用替代方法:其它常用替代方法:競爭風(fēng)險模型(competing risk model) 用于生存分析中出現(xiàn)結(jié)局以外的其它事件的情形如: 觀察胃癌發(fā)生的影響因素,結(jié)局為胃癌發(fā)生,但中間可能會出現(xiàn)其它結(jié)局,如其它疾病所致的死亡進(jìn)入分析階段進(jìn)入分析階段自變量形式審查:自變量形式審查:檢查自變量與因變量或因變量的變換

5、形式(如logit)之間是否為線性關(guān)系010203040506070801357911手手足足口口病病發(fā)發(fā)病病率率月份月份進(jìn)入分析階段進(jìn)入分析階段關(guān)于自變量的形式關(guān)于自變量的形式理論上,回歸分析中的自變量可以使任何形式,定量資料和定性資料均可。實際中分析數(shù)據(jù)時,可結(jié)合專業(yè)解釋角度,對自變量的取值和形式進(jìn)行適當(dāng)調(diào)整。如logistic回歸、Poisson回歸等更傾向于自變量以分類的形式進(jìn)入方程,主要出于解釋方便的原因。分析階段分析階段單因素分析單因素分析是否一定要做單因素分析?(一直有爭議)(一直有爭議)自變量較多時,排除意義不大的變量初步探索每一自變量與因變量的大致關(guān)系分析階段分析階段多因素分

6、析多因素分析尋找所謂的“獨立預(yù)后”因子多因素分析的變量篩選原則:“少而精”原則,盡量保留所有對因變量有影響的變量,盡可能地剔除掉可有可無的變量分析階段分析階段最常遇到的問題:最常遇到的問題:單因素分析和多因素分析結(jié)果差別較大單因素分析和多因素分析結(jié)果差別較大地區(qū)、溫度對手足口發(fā)病率的單因素分析結(jié)果 Parameter StandardVariable DF Estimate Error t Value Pr |t|district 1 12.51083 7.84584 1.59 0.1251temp 1 1.41579 0.19707 7.18 |t|district 1 13.56288 3

7、.57262 3.80 0.0011temp 1 1.43461 0.15541 9.23 |t| Tolerance InflationIntercept 1 -19.81963 9.54699 -2.08 0.0430 . 0age 1 0.16384 0.07392 2.22 0.0311 0.91387 1.09424sbp 1 0.20371 0.06231 3.27 0.0019 0.49948 2.00208dbp 1 0.04428 0.09259 0.48 0.6345 0.50374 1.98514lwbc 1 6.81149 3.08482 2.21 0.0318 0.9

8、5559 1.04647 Condition -Proportion of Variation-Number Eigenvalue Index Intercept age sbp dbp lwbc 1 4.93648 1.00000 0.00024614 0.00097341 0.00035412 0.00044024 0.00073452 2 0.02951 12.93424 0.00020887 0.59401 0.01020 0.05172 0.06232 3 0.02374 14.41944 0.00675 0.00071741 0.05990 0.10842 0.43894 4 0.

9、00563 29.61956 0.03024 0.01926 0.92954 0.69965 0.01194 5 0.00465 32.59568 0.96255 0.38504 0.00000203 0.13977 0.48607回歸診斷回歸診斷存在多重共線性怎么辦存在多重共線性怎么辦(1)根據(jù)專業(yè)情況,刪除其中不重要的變量(2)采用統(tǒng)計學(xué)方法處理,如:主成分回歸、主成分logistic回歸嶺回歸偏最小二乘回歸(partial least square regression)SAS和SPSS中均可實現(xiàn)回歸診斷回歸診斷2. 異常點異常點 離群點(outliners)高杠桿點(high leve

10、rage points)強(qiáng)影響點(influential points)回歸診斷回歸診斷離群點(離群點(outliners)主要針對因變量而言,遠(yuǎn)離其它因變量的值。標(biāo)準(zhǔn)化殘差內(nèi)部學(xué)生化殘差外部學(xué)生化殘差通常絕對值大于2,考慮可能是離群點SPSS通常給出標(biāo)準(zhǔn)化殘差SAS通常給出兩個學(xué)生化殘差iiiihser-1/iiiiihser-1/)(MSEerii/回歸診斷回歸診斷高杠桿點(高杠桿點(high leverage points)針對自變量而言,遠(yuǎn)離其它自變量的值。H稱為帽子矩陣,對角線元素為hii ,度量了第i個觀測的影響,反映了第i個觀測與所有觀測在自變量矩陣X上的平均值之間的距離根據(jù)hi

11、i值判斷,通常大于(k+1)/n(k為自變量個數(shù)),提示可能是高杠桿點HYYXXXXXBY)(1YHHYYYYe)1(回歸診斷回歸診斷強(qiáng)影響點(強(qiáng)影響點(influential points)對模型有較大影響,包含或不包含該點可導(dǎo)致模型的參數(shù)估計值發(fā)生較大改變DFBETA:刪除某觀測值后對參數(shù)估計值的影響 標(biāo)準(zhǔn):大于DFFITS:刪除某觀測值后對模型擬合的影響 標(biāo)準(zhǔn):大于 ,k為自變量數(shù)) 1-)/(1(2knk n2/回歸診斷回歸診斷強(qiáng)影響點(強(qiáng)影響點(influential points)CookD:杠桿值和殘差的綜合度量 標(biāo)準(zhǔn):大于4/(n-k-1),k為自變量個數(shù)COVRATIO:杠桿

12、值和殘差的綜合度量,受殘差的影響更大 標(biāo)準(zhǔn):|COVRATIO-1|大于3(k+1)/n回歸診斷回歸診斷 Dependent Predicted Std Error Std Error Student Obs Variable Value Mean Predict Residual Residual Residual -2-1 0 1 2 1 746.0000 614.4432 22.6312 131.5568 45.791 2.873 | |* | 2 553.0000 613.5529 19.2172 -60.5529 47.325 -1.280 | *| | 3 562.0000 612

13、.7515 16.5538 -50.7515 48.321 -1.050 | *| | 4 563.0000 612.7515 16.5538 -49.7515 48.321 -1.030 | *| | 5 570.0000 612.5734 16.0357 -42.5734 48.496 -0.878 | *| | 6 575.0000 603.1355 39.9076 -28.1355 31.881 -0.883 | *| | 7 581.0000 611.5050 13.7319 -30.5050 49.198 -0.620 | *| | 8 605.0000 611.4160 13.6

14、156 -6.4160 49.230 -0.130 | | | 9 607.0000 611.3269 13.5126 -4.3269 49.258 -0.0878 | | | 10 621.0000 611.2379 13.4234 9.7621 49.283 0.198 | | | 11 624.0000 610.6146 13.2015 13.3854 49.343 0.271 | | | 12 626.0000 609.4571 14.6273 16.5429 48.939 0.338 | | | 13 632.0000 608.6558 16.7333 23.3442 48.259

15、0.484 | | | 14 640.0000 608.8339 16.2049 31.1661 48.439 0.643 | |* | 15 656.0000 608.7448 16.4653 47.2552 48.352 0.977 | |* |內(nèi)部學(xué)生內(nèi)部學(xué)生化殘差化殘差回歸診斷回歸診斷 CooksCooks Hat Diag CovCov -DFBETASDFBETAS- Obs D RStudent H RatioRatio DFFITSDFFITS Intercept x 1 1.008 4.5684 0.1963 0.1946 2.2578 2.1162 -1.8348 2 0.

16、135 -1.3149 0.1415 1.0445 -0.5339 -0.4710 0.3883 3 0.065 -1.0548 0.1050 1.0982 -0.3614 -0.2864 0.2184 4 0.062 -1.0322 0.1050 1.1062 -0.3536 -0.2803 0.2137 5 0.042 -0.8696 0.0986 1.1521 -0.2875 -0.2200 0.1636 6 0.610 -0.8745 0.6104 2.6624 -1.0947 0.9018 -1.0332 7 0.015 -0.6047 0.0723 1.1913 -0.1688 -

17、0.0880 0.0470 8 0.001 -0.1253 0.0711 1.2601 -0.0347 -0.0171 0.0086 9 0.000 -0.0844 0.0700 1.2604 -0.0232 -0.0108 0.0050 10 0.001 0.1906 0.0691 1.2531 0.0519 0.0227 -0.0097 11 0.003 0.2614 0.0668 1.2434 0.0699 0.0154 0.0031 12 0.005 0.3262 0.0820 1.2561 0.0975 -0.0176 0.0422 13 0.014 0.4690 0.1073 1.

18、2678 0.1626 -0.0629 0.1001 14 0.023 0.6282 0.1007 1.2232 0.2102 -0.0729 0.1221 15 0.055 0.9755 0.1039 1.1243 0.3322 -0.1219 0.1989外部學(xué)生外部學(xué)生化殘差化殘差回歸診斷回歸診斷存在異常點怎么辦存在異常點怎么辦(1)根據(jù)專業(yè)情況,考慮是否可以刪除(2)采用統(tǒng)計學(xué)方法處理,如:穩(wěn)健回歸分位數(shù)回歸SAS中可實現(xiàn)回歸診斷回歸診斷3. 空單元(zero cell count)主要發(fā)生在logistic回歸分析中即自變量各水平的交叉列聯(lián)表中有些單元(格子)的觀測頻數(shù)為0。此時易產(chǎn)

19、生一個0或的OR值,使相應(yīng)變量的作用無法合理解釋。可分為結(jié)構(gòu)性空單元和抽樣性空單元解決方法:增大樣本量采用確切確切l(wèi)ogistic回歸回歸(exact logistic)回歸診斷回歸診斷 Standard Wald Parameter DF Estimate Error Chi-Square Pr ChiSqchc 1 13.3772 260.3 0.0026 0.9590 Odds Ratio Estimates Point 95% WaldEffect Estimate Confidence Limitschc 999.999 999.999 確切l(wèi)ogistic回歸分析結(jié)果 95% Co

20、nfidenceParameter Estimate Limits p-Valuechc 12.691* 1.880 Infinity 0.0058回歸診斷回歸診斷4. 完全分離(complete separation )主要發(fā)生在logistic回歸中若自變量 存在一臨界值c,當(dāng)xic時,事件發(fā)生,而xi ChiSqchc 1 18.8198 55.7243 0.1141 0.7356 Odds Ratio Estimates Point 95% WaldEffect Estimate Confidence Limitschc 999.999 999.999 確切l(wèi)ogistic回歸分析結(jié)果 95% ConfidenceParameter Estimate Limits p-Valuechc 84.365* 7.605 Infinity 0.0001回歸診斷回歸診斷5. 過離散(ov

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論