多元線性回歸分析研精_第1頁
多元線性回歸分析研精_第2頁
多元線性回歸分析研精_第3頁
多元線性回歸分析研精_第4頁
多元線性回歸分析研精_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多元線性回歸分析研精表表1 271 27名糖尿病人的血糖及有關(guān)變量的測量結(jié)果名糖尿病人的血糖及有關(guān)變量的測量結(jié)果 總膽固醇總膽固醇 甘油三酯甘油三酯 胰島素胰島素 糖化血紅蛋白糖化血紅蛋白 血糖血糖 (mmol/L)(mmol/L) (mmol/L)(mmol/L) ( ( U/ml)U/ml) (%)(%) (mmol/L)(mmol/L) 序號序號 i i X X1 1 X X2 2 X X3 3 X X4 4 Y Y 1 1 5.685.68 1.901.90 4.534.53 8.28.2 11.211.2 2 2 3.793.79 1.641.64 7.327.32 6.96.9 8

2、.88.8 3 3 6.026.02 3.563.56 6.956.95 10.810.8 12.312.3 2727 3.843.84 1.201.20 6.456.45 9.69.6 10.410.4 2 人的體重與身高、胸圍有關(guān)人的體重與身高、胸圍有關(guān) 人的心率與年齡、體重、肺活量有關(guān)人的心率與年齡、體重、肺活量有關(guān) 人的血壓值與年齡、性別、勞動強度、飲人的血壓值與年齡、性別、勞動強度、飲食習慣、吸煙狀況、家族史等有關(guān)食習慣、吸煙狀況、家族史等有關(guān) 射頻治療儀定向治療腦腫瘤過程中,腦皮射頻治療儀定向治療腦腫瘤過程中,腦皮質(zhì)的毀損半徑與輻射的溫度、照射的時間質(zhì)的毀損半徑與輻射的溫度、照射的

3、時間有關(guān)有關(guān) 3多元線性回歸多元線性回歸:簡稱為多元回歸,分析一:簡稱為多元回歸,分析一個應(yīng)變量與多個自變量間的線性關(guān)系。個應(yīng)變量與多個自變量間的線性關(guān)系。4表表2 2 多元回歸分析數(shù)據(jù)格式多元回歸分析數(shù)據(jù)格式例號例號X X1 1X X2 2X Xm mY Y1 1X X1111X X1212X X1m1mY Y1 12 2X X2121X X2222X X2m2mY Y2 2 n nX Xn1n1X Xn2n2X XnmnmY Yn n5一、多元線性回歸模型一、多元線性回歸模型一般形式為: Y=Y=0 01 1X X1 1 2 2X X2 2 m mX Xm m 0 0 :常數(shù)項:常數(shù)項,

4、,又稱為又稱為截距截距1 1,2 2, ,m m: :偏回歸系數(shù)偏回歸系數(shù)(Partial (Partial regression coefficient)regression coefficient)簡稱回歸系數(shù),在簡稱回歸系數(shù),在其它自變量保持不變時其它自變量保持不變時X Xi i(i=1,2,(i=1,2,m),m)每改變每改變一個單位時,應(yīng)變量一個單位時,應(yīng)變量Y Y的平均變化量的平均變化量: :去除去除m m個自變量對個自變量對Y Y的影響后的隨機誤差,的影響后的隨機誤差,又稱殘差又稱殘差6多元線性回歸模型的應(yīng)用條件:多元線性回歸模型的應(yīng)用條件:1.線性趨勢:Y與Xi間具有線性關(guān)系2

5、.獨立性:應(yīng)變量Y的取值相互獨立3.正態(tài)性:對任意一組自變量取值,因變量Y服從正態(tài)分布4.方差齊性:對任意一組自變量取值,因變量y的方差相同 后兩個條件等價于:殘差后兩個條件等價于:殘差服從均數(shù)為服從均數(shù)為0 0、方差為方差為2 2的正態(tài)分布的正態(tài)分布7多元線性回歸的分析步驟:多元線性回歸的分析步驟:1.根據(jù)樣本數(shù)據(jù)求得模型參數(shù)的估計值,得到根據(jù)樣本數(shù)據(jù)求得模型參數(shù)的估計值,得到應(yīng)變量與自變量數(shù)量關(guān)系的表達式:應(yīng)變量與自變量數(shù)量關(guān)系的表達式:2.對回歸方程及各自變量作假設(shè)檢驗,并對方對回歸方程及各自變量作假設(shè)檢驗,并對方程的擬和效果及各自變量的作用大小作出評價程的擬和效果及各自變量的作用大小作

6、出評價mmxbxbxbby.22110此公式稱為多元線性回歸方程此公式稱為多元線性回歸方程8多元線性回歸方程的建立:多元線性回歸方程的建立:利用最小二乘法原理估計模型的參數(shù):(使殘差平方和最?。℡mmlblblbl11212111Ymmlblblbl22222121mYmmmmmlblblbl2211)(mmXbXbXbYb221109方程的求解過程復(fù)雜,可借助于SPSS、SAS等統(tǒng)計軟件來完成SPSS:AnalyzeRegressionLinear regressiondependent:y independent:x1-x5SAS程序:PROC REG DATA=mr15-1; MODEL

7、 y=x1-x5; RUN;10例例15.1:P210SPSS的分析結(jié)果的分析結(jié)果C Co oe ef ff fi ic ci ie en nt ts sa a8.429.60713.893.000.126.096.1121.305.201.044.008.4765.693.000.057.009.4346.491.000.032.006.4315.048.000-.017.013-.105-1.318.196(Constant)x1x2x3x4x5Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstS

8、ig.Dependent Variable: ya. 11二、多元回歸方程的假設(shè)檢驗二、多元回歸方程的假設(shè)檢驗回歸方程是否成立?回歸方程是否成立?各偏回歸系數(shù)是否等于各偏回歸系數(shù)是否等于0 0?121.1.多元線性回歸方程的假設(shè)檢驗:多元線性回歸方程的假設(shè)檢驗:方差分析法:SSSS總總 = SS= SS回回 + SS+ SS殘殘01211 12 2:0 :(1,2,)0 / /1miYYm mYHHimSSblb lb lSSSSSSSSmMSFSSnmMS回總回殘回回殘殘不全為()13ANOVAANOVAb b48.75059.75042.028.000a7.88834.23256.6373

9、9RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), x5, x3, x1, x2, x4a. Dependent Variable: yb. 142.2.偏回歸系數(shù)的假設(shè)檢驗偏回歸系數(shù)的假設(shè)檢驗 方差分析法、t檢驗法方差分析法:1212()/1iSS XFSS殘n-m-1SS(XSS(Xi) )為第為第i i個自變量的偏回歸平方和個自變量的偏回歸平方和15偏回歸平方和偏回歸平方和:SS(X:SS(Xi),),表示模型中含有其它表示模型中含有其它m-1m-1個自變量的條件下該自變

10、量對個自變量的條件下該自變量對Y Y的回歸貢獻,的回歸貢獻,相當于從回歸方程中剔除該自變量后回歸平方相當于從回歸方程中剔除該自變量后回歸平方和的減少量,或者在和的減少量,或者在m-1m-1個自變量的基礎(chǔ)上增個自變量的基礎(chǔ)上增加一個自變量后回歸平方和的增加量。加一個自變量后回歸平方和的增加量。注意:注意:m-1m-1個自變量對個自變量對y y的回歸平方和由的回歸平方和由m-1m-1個個自變量對自變量對y y重新建立回歸方程后計算得到,而重新建立回歸方程后計算得到,而不能簡單的在整個方程的基礎(chǔ)上把不能簡單的在整個方程的基礎(chǔ)上把b bi il liyiy去掉后去掉后得到。得到。16各偏回歸平方和各偏

11、回歸平方和SS(Xi i)及殘差的計算)及殘差的計算回歸方程中包含的自回歸方程中包含的自變量變量SSSS回回SSSS(X Xi i)X X1 1 X X2 2 X X3 3 X X4 4 X X5 5SS總X X2 2 X X3 3 X X4 4 X X5 5SS-1SS總 SS-1X X1 1 X X3 3 X X4 4 X X5 5SS-2SS總 SS-2X X1 1 X X2 2 X X4 4 X X5 5SS-3SS總 SS3X X1 1 X X2 2 X X3 3 X X5 5SS-4SS總 SS4X X1 1 X X2 2 X X3 3 X X4 4SS-5SS總 SS5172.2

12、.偏回歸系數(shù)的假設(shè)檢驗偏回歸系數(shù)的假設(shè)檢驗 t檢驗法:iiibbts n-m-118SPSS的結(jié)果的結(jié)果C Co oe ef ff fi ic ci ie en nt ts sa a8.429.60713.893.000.126.096.1121.305.201.044.008.4765.693.000.057.009.4346.491.000.032.006.4315.048.000-.017.013-.105-1.318.196(Constant)x1x2x3x4x5Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoe

13、fficientstSig.Dependent Variable: ya. 193.3.標準化偏回歸系數(shù)標準化偏回歸系數(shù)對各數(shù)據(jù)進行標準化后求得的回歸方程即標準對各數(shù)據(jù)進行標準化后求得的回歸方程即標準化回歸方程,其相應(yīng)的偏回歸系數(shù)即標準化偏化回歸方程,其相應(yīng)的偏回歸系數(shù)即標準化偏回歸系數(shù)。回歸系數(shù)。標準化偏回歸系數(shù)和偏回歸系數(shù)的關(guān)系:標準化偏回歸系數(shù)和偏回歸系數(shù)的關(guān)系:iiiiiiyyylsbbbls在有統(tǒng)計學(xué)意義的前提下,在有統(tǒng)計學(xué)意義的前提下,標準化偏回歸系數(shù)絕對值絕對值的大小可直接進行比較,以衡量自變量對應(yīng)變量的作的大小可直接進行比較,以衡量自變量對應(yīng)變量的作用大小用大小例:見例:見P2

14、13204.4.復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù):multiple correlation coefficient衡量因變量y與回歸方程內(nèi)所有自變量線性組合間相關(guān)關(guān)系的密切程度,也即Y與 之間的相關(guān)系數(shù)。R 其值在0與1之間2SSRRSS回總Y如果只有一個自變量,此時|r|R 21 R2稱為稱為決定系數(shù)決定系數(shù)表明回歸平方和在總平表明回歸平方和在總平方和中所占的比重。方和中所占的比重。R2越接近于越接近于1,說明引入,說明引入方程的自變量與因變量的相關(guān)程度越高,方程的自變量與因變量的相關(guān)程度越高,Xi與與y的回歸效果越好。的回歸效果越好。 R2受自變量個數(shù)的影響,由此又提出受自變量個數(shù)的影響,由

15、此又提出校校正決定系數(shù)正決定系數(shù),既反映模型的擬和優(yōu)度,又同時,既反映模型的擬和優(yōu)度,又同時考慮了模型中的自變量個數(shù)??紤]了模型中的自變量個數(shù)。2211 (1)1adjnRRnm 22Model SummaryModel Summaryb b.928a.861.840.48165Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), x5, x3, x1, x2, x4a. Dependent Variable: yb. 23三、選擇最優(yōu)回歸方程的方法三、選擇最優(yōu)回歸方程的方法1.1.最優(yōu)回

16、歸方程最優(yōu)回歸方程 : 1)對y的作用有統(tǒng)計學(xué)意義的自變量,全部選入回歸方程 2)對y的作用沒有統(tǒng)計學(xué)意義的自變量,一個也不引入回歸方程 242.2.方法:方法:1)最優(yōu)子集回歸法:又稱求出所有可能的回歸模型(共有2m1個)選取最優(yōu)者2)向后剔除法(backward selection)3)向前引入法(forward selection)4)逐步回歸法(stepwise regression)25自變量回歸平方和最大的自變量回歸平方和最大的X Xi i首先進入方程,在首先進入方程,在X Xi i進入方程的基礎(chǔ)上計算其余進入方程的基礎(chǔ)上計算其余m-1m-1個自變量分個自變量分別進入回歸方程時的偏

17、回歸平方和,其中最大別進入回歸方程時的偏回歸平方和,其中最大者記為者記為SSSSj j,對,對X Xj j進行檢驗,若有意義則進入方進行檢驗,若有意義則進入方程,并重新對程,并重新對X Xi i進行檢驗。若進行檢驗。若X Xi i退化為無意義,退化為無意義,則剔除則剔除X Xi i,同時再對,同時再對X Xj j進行檢驗。若進行檢驗。若X Xj j依然有依然有意義則繼續(xù)選擇下一個偏回歸平方和最大者并意義則繼續(xù)選擇下一個偏回歸平方和最大者并進行檢驗。重復(fù)此過程。進行檢驗。重復(fù)此過程。26每每引入或剔除一個自變量后都要引入或剔除一個自變量后都要重新重新對已進對已進入方程中的自變量進行檢驗,直到方程

18、外沒入方程中的自變量進行檢驗,直到方程外沒有有意義的自變量可引入、方程內(nèi)也沒有無有有意義的自變量可引入、方程內(nèi)也沒有無意義的自變量可剔除為止意義的自變量可剔除為止 。27雙向篩選 ;引入一個有意義變量(前進法)的同時,剔除無意義的變量(后退法) “先剔除后選入”原則 入和出可等可不等 注意,引入變量的檢驗水準要小于或等于剔除變量的檢驗水準。28Variables Entered/RemovedVariables Entered/Removeda ax2.Stepwise(Criteria:Probability-of-F-to-enter= .100).x3.Stepwise(Criteria

19、:Probability-of-F-to-enter= .100).x4.Stepwise(Criteria:Probability-of-F-to-enter= .100).Model123VariablesEnteredVariablesRemovedMethodDependent Variable: ya. 29CoefficientsCoefficientsa a12.546.25249.858.000.063.011.6765.648.0008.000.8049.953.000.064.008.6857.818.000.067.011.5095.810.0008.202.60213.

20、621.000.048.007.5217.230.000.060.009.4576.904.000.029.005.3995.493.000(Constant)x2(Constant)x2x3(Constant)x2x3x4Model123BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. 30Model SummaryModel Summaryd d.676a.456.442.90018.846b.716.700.65967.919c.845.832.493

21、26Model123RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), x2a. Predictors: (Constant), x2, x3b. Predictors: (Constant), x2, x3, x4c. Dependent Variable: yd. 31ANOVAANOVAd d25.845125.84531.895.000a30.79238.81056.6373940.536220.26846.576.000b16.10137.43556.6373947.878315.9596

22、5.594.000c8.75936.24356.63739RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), x2a. Predictors: (Constant), x2, x3b. Predictors: (Constant), x2, x3, x4c. Dependent Variable: yd. 32四、多元線性回歸的應(yīng)用四、多元線性回歸的應(yīng)用1.1.影響因素分析影響因素分析

23、: :年齡年齡(X1)飲食習慣飲食習慣(X2)吸煙狀況吸煙狀況(X3)工作緊張度工作緊張度(X4)家族史家族史(X5) 高血壓高血壓(Y)332.2.估計與預(yù)測估計與預(yù)測: :心臟表面積心臟表面積(Y)=b(Y)=b0 0+b+b1 1心臟橫徑心臟橫徑(X(X1 1)+ b)+ b2 2心臟心臟縱徑縱徑(X(X2 2)+ b)+ b3 3心臟寬徑心臟寬徑(X(X3 3) )新生兒體重新生兒體重(Y)=b(Y)=b0 0+b+b1 1胎兒孕齡胎兒孕齡(X(X1 1)+ b)+ b2 2 胎兒胎兒頭徑頭徑(X(X2 2)+ b)+ b3 3胎兒胸徑胎兒胸徑(X(X3 3)+ b)+ b4 4胎兒腹

24、徑胎兒腹徑(X(X4 4) )343.3.統(tǒng)計控制統(tǒng)計控制: :利用回歸方程進行逆估計,確定利用回歸方程進行逆估計,確定Y Y后控制后控制X X 。采用射頻治療儀治療腦腫瘤:采用射頻治療儀治療腦腫瘤:腦皮質(zhì)毀損半徑腦皮質(zhì)毀損半徑(Y) =b0+b1射頻溫度射頻溫度(X1)+ b2照射時間照射時間(X2)35五、多元線性回歸應(yīng)用的注意事項五、多元線性回歸應(yīng)用的注意事項1.1.指標的數(shù)量化指標的數(shù)量化 應(yīng)變量應(yīng)變量Y Y為連續(xù)變量為連續(xù)變量自變量自變量X X可為連續(xù)、有序分類或無序分類變量可為連續(xù)、有序分類或無序分類變量 (1)(1)連續(xù)變量:連續(xù)變量:X X (2) (2)有序分類變量:有序分類

25、變量: 1 1 輕輕 X= 2 X= 2 中中 3 3 重重36(3)(3)無序分類變量無序分類變量自變量為二分類變量自變量為二分類變量: :自變量為多分類變量:假定有自變量為多分類變量:假定有n n類,則用類,則用n n1 1個個取值為取值為0 0或或1 1的啞變量(的啞變量(dummy dummy variables)variables)來表示這些類別。來表示這些類別。X=0 男1 女372.2.樣本含量:樣本含量: n n至少是至少是X X個數(shù)個數(shù)mm的的5 51010倍倍3.3.關(guān)于逐步回歸:關(guān)于逐步回歸: 不要盲目信任,結(jié)合專業(yè)知識。不要盲目信任,結(jié)合專業(yè)知識。4.4.多重共線性:多

26、重共線性:指自變量之間存在較強的線性關(guān)系指自變量之間存在較強的線性關(guān)系 使偏回歸系數(shù)方差加大,系數(shù)估計不穩(wěn),使偏回歸系數(shù)方差加大,系數(shù)估計不穩(wěn),難以有合乎專業(yè)知識的解釋。難以有合乎專業(yè)知識的解釋。38提示可能存在多重共線性的情況:提示可能存在多重共線性的情況: 整個模型的檢驗結(jié)果為整個模型的檢驗結(jié)果為PPP。 專業(yè)上認為應(yīng)該有統(tǒng)計學(xué)意義的自變量檢專業(yè)上認為應(yīng)該有統(tǒng)計學(xué)意義的自變量檢驗結(jié)果卻無統(tǒng)計學(xué)意義。驗結(jié)果卻無統(tǒng)計學(xué)意義。 自變量的偏回歸系數(shù)取值大小甚至符號明自變量的偏回歸系數(shù)取值大小甚至符號明顯與實際情況相違背,難以解釋。顯與實際情況相違背,難以解釋。 增加或刪除一個自變量或一條記錄,自變增加或刪除一個自變量或一條記錄,自變量回歸系數(shù)發(fā)生較大變化。量回歸系數(shù)發(fā)生較大變化。39容忍度容忍度: :若某變量的容忍度若某變量的容忍度0.10.1時,說明該時,說明該變量與其它變量存在嚴重的多重共線性。變量與其它變量存在嚴重的多重共線性。CoefficientsCoefficientsa a8.429.60713.893.000.126.096.1121.305.201.558

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論