SAS學(xué)習(xí)系列23.多元線性回歸_第1頁
SAS學(xué)習(xí)系列23.多元線性回歸_第2頁
SAS學(xué)習(xí)系列23.多元線性回歸_第3頁
SAS學(xué)習(xí)系列23.多元線性回歸_第4頁
SAS學(xué)習(xí)系列23.多元線性回歸_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

文案大全文案大全23.多元線性回歸一、多元線性回歸1.模型為Y=o+iXi+…+nXn+£其中X],XN是自變量,Y是因變量,0,]???,N是待求的未知參數(shù),s是隨機誤差項(殘差),若記多元線性回歸模型可寫為矩陣形式:Y=Xp+s通常要求:矩陣X的秩為k+1(保證不出現(xiàn)共線性),且k<N;s為正態(tài)分布,E(s)=0和E(ss')=21錯誤!未定義書簽。其中I為NXN單位矩陣。用最小二乘法原理,令殘差平方和郎=(F—妙)(『—妙)最小,得到為卩的最佳線性無偏估計量(高斯一馬爾可夫定理)。

2?2的估計和T檢驗選取2的估計量:2s~=N-k-1則假如t值的絕對值相當(dāng)大,就可以在適當(dāng)選定的置信水平上否定原假設(shè),參數(shù)的1-a置信區(qū)間可由下式得出:其中t/2為與a%顯著水平有關(guān)的t分布臨界值。/23.R2和F檢驗若因變量不具有0平均值,則必須對R2做如下改進:隨著模型中增添新的變量,R2的值必定會增大,為了去掉這種增大的

干擾,還需要對R2進行修正(校正擬合優(yōu)度對自由度的依賴關(guān)系):R2=1-ETSS^=1-呂(1-R2)做假設(shè)檢驗:H0:1NH0:1N=°;斗:J.,“至少有一個工0使用F統(tǒng)計量做檢驗,若F值較大,則否定原假設(shè)。二、PROCREG過程步基本語法:PROCREGdata=數(shù)據(jù)集;MODEL因變量=自變量列表</可選項>;<restrict自變量的等式約束;>說明:MODEL語句用來指定因變量和自變量;restrict語句示例:restricta1+a2=1;常用的輸出可選項:STB——輸出標準化偏回歸系數(shù)矩陣CORRB——輸出參數(shù)估計矩陣COLLINOINT——對自變量進行共線性分析P——輸出個體觀測值、預(yù)測值及殘差(R/CLM/CLI包含P)R――輸出每個個體觀測值、殘差及標準誤差CLM――輸出因變量均值95%的置信界限的上下限CLI——對各預(yù)測值輸出95%的置信界限的上下限MSE——要求輸出隨機擾動項方差2的估計?2與殘差分析有關(guān)的可選項VIF——輸出變量間相關(guān)性的方差膨脹系數(shù),VIF越大,說明由于共線性存在,使方差變大;——輸出條件數(shù),它表示最大的特征值與每個自變量COLLIN特征值之比的平方根。一般情況下,條件數(shù)越大越可能存在共線性;——表示共線性水平的容許值,TOL越小說明其可用別的TOL自變量解釋的部分多,自然可能與別的自變量存在共線性關(guān)系;輸出Durbin-Watson統(tǒng)計量;DWinfluence對異常點進行診斷,對每一觀測點輸出統(tǒng)計量(Cook'sD>50%,defits/debetas>2說明該點影響較大)。交互式語句add——向模型中增加變量;delete——刪除原擬合模型中的有關(guān)變量;refit重新擬合模型;print輸出有關(guān)模型的相關(guān)信息。繪制回歸分析的圖形在PROCREG過程步加入繪圖選項語句即可?;菊Z法:PROCREGdata=數(shù)據(jù)集PLOTS=(圖形類型);可選的繪圖類型:FITPLOT——帶回歸線、置信預(yù)測帶的散點圖;RESIDUALS——自變量的殘差圖;DIAGNOSTICS——診斷圖(包括下面各圖);COOKSD——Cook'sD統(tǒng)計量圖;OBSERVEDBYPREDICTED——根據(jù)預(yù)測值的因變量圖;QQPLOT——檢驗殘差正態(tài)性的QQ圖;RESIDUALBYPREDICTED——根據(jù)預(yù)測值的殘差圖;RESIDUALHISTOGRAM——殘差的直方圖;RFPLOT——殘差擬合圖;RSTUDENTBYLEVERAGE——杠桿比率的學(xué)生化殘差圖;RSTUDENTBYPREDICTED——預(yù)測值的學(xué)生化殘差圖;注:殘差圖(RESIDUALS)和診斷圖(DIAGNOSTICS)是自動生成的,根據(jù)模型也有其它默認的圖形輸出;若只繪制指定的圖形需要加上ONLY:PROCREGdata=數(shù)據(jù)集PLOTS(ONLY)=(圖形類型);例1用多元線性回歸模型,來研究耗氧量的是如何依賴其它變量的。

31位成年人心肺功能的調(diào)查數(shù)據(jù)(見下表),由于回歸是相關(guān)的,所以理論上還應(yīng)該做共線性診斷。ageweightOxygen耗氧量runtime跑15英哩的時間(分)rstpulse休息時每分鐘心跳次數(shù)runpulse跑步時每分鐘心跳次數(shù)Maxpulse每分鐘心跳次數(shù)最大值4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.6348164166

5070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172代碼:datafitness;inputageweightoxygenruntimerstpulserunpulsemaxpulse;datalines;4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.63481641665070.8754.6258.9248146155

5167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172run;proccorrdata=fitnessPLOT=MATRIX(HISTOGRAMnvar=all);labeloxygenageweightruntimerstpulserunpulsemaxpulsevaroxygenageweightruntimerstpulserunpulsemaxpulse;='Oxygenconsumption'labeloxygenageweightruntimerstpulserunpulsemaxpulse'Ageinyears''weightinkg'='Min.torun1.5miles'='Heartratewhileresting'='Heartratewhilerunning'='Maximumheartrate';run;fitnessPLOTS(ONLY)=(DIAGNOSTICSprocregdata=fitnessPLOTS(ONLY)=(DIAGNOSTICSFITPLOT);modeloxygen=agemaxpulserstpulserunpulseruntimeweight/ss1ss2;/*ss1為第I類型平方和,ss2為第II類型平方和*/run;deleterstpulse;print;run;procregdata=fitness;modeloxygen=agemaxpulserunpulseruntimeweight;pulse:testmaxpulse+runpulse=0;run;procregdata=fitness;modeloxygen=agemaxpulserunpulseruntimeweight/ss2;/*帶restrict約束條件的回歸,ss1不可用*/restrictmaxpulse+runpulse=0;run;datafitness2;setfitness;maxrun=maxpulse-runpulse;run;procregdata=fitness2;

modeloxygen=agemaxrunruntimeweight/ss1ss2;run;運行結(jié)果及說明:(1)相關(guān)性分析徽點圏矩陳ojf^eenng己weightruntimerstpuIserunpulsema^puIse散點圖矩陣中第一行的6個散點圖分別表示oxygen變量作為y軸,其他六個變量作為x軸的散點圖,第一列的6個散點圖分別表示oxygen變量作為x軸,其他六個變量作為y軸的散點圖;對角線是該變量數(shù)值變化的直方圖。繪制散點圖矩陣圖是為了觀察變量間的相關(guān)性。從圖中可以看出變量runpulse與maxpulse之間存在有較強的共線性,如果在回歸模型中增加方差膨脹系數(shù)(vif),共線性水平的容許值(tol),條件數(shù)

(collin)選項對回歸進行共線性診斷,也會得到相同的結(jié)論。另外,我們從圖中還發(fā)現(xiàn)耗氧量oxygen與變量runtime有較強的負相關(guān),從下面的相關(guān)系數(shù)也能得到相同的結(jié)論。CUFiH過程7變量:C'xvj'rriH.qc?wcij>h1mnlimrikTpiiIkcriinpiiIscmrjxfiuIsc簡單統(tǒng)計星啻昌N均值標準差總和量小值雖大值標簽oxygen47,37581!).32723140937.3880060.05500r'KMWcnCDiisumpIionage3147.67?42b.21I4111H!38.00000bAAgeinfearsweight3177..1-14528.32857240159.0300091.63000weightinkgruntimt?10.58013328.17000El7QM)14.03000Miri.fi)iuri1.bmilesraLpu1se31b:J./ll^l8294451郵40.0000076.00000Heartratewhile:restingrunpu1sb31169.64516IO.2519952西1-16.00000186.00000Ifeartratewhirunningmaxpu1sc:111/:!.//+1519.11541(15387uib.oonon1512.00000MhximumhrniIrnfrPearsonProb>Ir相關(guān)系數(shù),N-311underHO;Rho=Doxygenageweightruntimarstpulserunpj1semaxpulseoxygenEOOOOO-0.30459-tt16275-0.80219-a34S41-0.39797-a23B74Oscy^encorsumption0.09570.3817<.mm0.05C330?l:6C.1997age-630輛9i.3ncon-n.肚陽40.18875n.14157-0.33787n.-^9?inyears0.09570.2061■丄3092U.4475006300.0150weight-0.16276-U.^3b-l1.JUCUU0.143NU.O22/J0.13162U.2193baeifhtinkg0.38170.20C1J.441?0.SO35a3?p40.17C1runtime-A.8C219n.i臨e0,14351I.ooooo0,4A0540.313650,2251olMin.tonunL5miles<.UC010.30S2U.141^U.02560O05SC.22IUrstpuIse-U.$4641-U.Illb/U.022700.lCOb-11.ODUUJ0.317970.257501Heartratewhilereeting0.05630.44750.90353.02553加口C.162Drunpu1se-0,39797-n.也間0,1?15i20.313G50,317971.tx)ooo0,92975Heartratewtiilerunning0.02660.06300.3284■J.06S&U.0&13<.UUU-maxpu1se-U.23874-U.心圧吃U.249380.22ti1U0.257500.929751.oooooMl自輩imuiMiheartrate□.19970.01500.17010.16?^<CXH2)回歸分析

讀取的觀測數(shù)31使用的觀測數(shù)方差分析源自由度平方和均方卜值Pr>1-模型6721.97421120.3290422.32<.UUU1誤差24129.407331.39UL校正合計30951.3B154均方抿誤差2.32206R方0.8-180因變量均值47.37581調(diào)整R方0.SI00變異系數(shù)4.90137參數(shù)怙計值變量自由度參數(shù)估計值標準誤差t值Pr>|t|1型SS11SSS1ntercept1102.2383412.453050.21<.000169578363.432661-U.219320.09959-2.210.037073.9882326.29149maxpu1se10.304730.137222.220.0361142.3554326.59054rstpu1se1-0.000844210.05863-o.tno.9886o.U0112runpu1se1-n.373160.12068-a.nso.nobo36-10751.55541runtime1680520.El能-7.IS<.0001310.368B9275.67144woigh11-0.0.-13?0.IflfiOD449949一44994得到回歸方程:oxygen=102.238339-0.219916age+0.304735maxpulse-0.000844rstpuls

-0.373164runpulse-2.680516runtime-0.072380weight多元線性回歸模型的一個重要問題是,如何正確地縮減自變量到達最優(yōu)的簡化模型。判斷回歸模型是否還能縮減自變量,可以通過這第I類平方和(I型SS)和第II類平方和(II型SS),構(gòu)造F檢驗(等同于這個自變量的參數(shù)t檢驗,因為F=t2)來比較確定。runtime自變量的兩類平方和都是最大的且占的比例很大,說明是回歸模型中第一重要的自變量。而rstpulse自變量在第一類平方和中有比較大的數(shù)值卻在第I類平方和中是最小的,這是rstpulse自變量(休息時每分鐘心跳次數(shù))應(yīng)該被考慮第一個刪除的主要原因。(3)剔除不顯著的回歸變量,繼續(xù)回歸分析自變量rstpulse和weight的回歸系數(shù)的t檢驗的P值分別為0.9886和0.1980,都大于a=0.05,故不拒絕“系數(shù)=0”的原假設(shè)。這里要小心地看待這些檢驗,因為它們都是在其他自變量都加入回歸的前提下進行顯著性檢驗的,完全可能因為自變量間存在較強的相關(guān)而掩蓋他們對回歸的貢獻。所以,在剔除不顯著的回歸變量時必須逐個進行。另外,從自變量rstpulse的回歸系數(shù)更接近于0,也提示我們應(yīng)先考慮刪除自變量rstpulse.deleterstpulse;print;run;

方差介析源自由度平方和均方r值Pr>r模型b721.97309144.3曲曲2/.yu<.DDU1誤差129.408455.17634校正合計30951.38154均方根誤差2.27516R方0.8430因變量均值47.37581調(diào)整R方0.8176孌異系數(shù)4.80236參數(shù)怙計值彎量自由度參數(shù)估計值準差標誤t值Pr>|t|1型SS11型SSIntercept1102.2042811.97929<.DUU109578376.78935age1-0.刃拠0.09550-?.300.D30179.9SS2327.37429maxpuIse10.304910.133942.2Bo.031e142.3554326.82640runpuIse1-0.373400.11714-3.Ifl□.OOG8139.1721852.59624runtime1-2.682520.340S9-7.87<.0001352.93570320.35968weight1-0.072300.05331-1.3d0.18/19.521579.52157得到新的回歸方程:oxygen=102.204275-0.219621age+0.304908maxpulse-0.373401runpulse-2.682523runtime-0.072302weight比較剔除rstpulse前后的輸出可看出,R2的變化在4位小數(shù)之后。進入回歸的變量的回歸系數(shù)在剔除rstpulse后的變化都小于1%。說明剔除自變量rstpulse后,對回歸模型沒有實質(zhì)性的影響,這個自變量的剔除是恰當(dāng)?shù)?。?)系數(shù)的線性組合檢驗使用test語句,還可以對回歸系數(shù)的線性組合進行F檢驗。例

如,我們看到參數(shù)估計表中,maxpulse變量的系數(shù)與runpulse變量的系數(shù)之和非常接近于0(回顧前文:這兩個自變量有很強的共線性),想要檢驗一下這樣的系數(shù)線性組合是否有很大的可能性,如果是那樣則可以簡化回歸模型。REG過程模型:MODEL1因變章oxygen的檢騎^pulsoJ,結(jié)果源自由度均方I值Pr>1分子18.257201.600.2182分母255.17634在test語句中的線性方程組只有1個,所以自由度為1,線性方程組的平方和為8.2572。F檢驗的分子為均方和8.2572/1=8.2572,F檢驗的分母為均方誤差MSE=5.176338,自由度為25。因此,F(xiàn)(1,25)=8.2572/5.176338=1.5952,P值=0.2182>0.05,即不能拒絕回歸系數(shù)線性組合的原假設(shè)。(5)有約束條件的回歸模型若回歸模型中的回歸系數(shù)有線性組合的約束條件,則可以使用restrict語句在此約束條件下重新擬合回歸模型。procregdata=fitness;modeloxygen=agemaxpulserunpulseruntimeweight/ss2;/*帶restrict約束條件的回歸,ss1不可用*/restrictmaxpulse+runpulse=0;run;

方差分析源自由度平方和均方卜值Pr>h模型n斗713.71590178.4289733./U<.DDD1誤寸26137.665655.29483校正合計30851.38154均方根誤差2.30105R方0.8383因豐暈均值47,37561調(diào)整R方0,9134變異系數(shù)4.E5702參數(shù)怙計值啻最自由度參數(shù)怙計值al值Pr>|t|11ass1ntercept189.437426.5641713.63<.0001984.04B07age1-0.16297008527-1.S10.007119,33940maxpu1se10.388260.117883290.002957.44495runpu1se1-0.38826011788-3290.002957.44495runtimo1-2.805550.33049-8.斗9<.0001381.55672weight1-0.080630.05350-1.5I0.113812.02679RESTRIOI-1-120.5553496.53753-1.2b0.2182*8.25720*使用beta分布計算的槪率得到新的回歸方程:oxygen=89.487420-0.162973age+0.388260(maxpulse-runpulse)-2.805552runtime-0.080635weight注意到maxpulse變量的系數(shù)為0.388260,runpulse變量的系數(shù)為-0.388260

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論