SAS學習系列22.-一元線性回歸_第1頁
SAS學習系列22.-一元線性回歸_第2頁
SAS學習系列22.-一元線性回歸_第3頁
SAS學習系列22.-一元線性回歸_第4頁
SAS學習系列22.-一元線性回歸_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

22.一元線性回歸回歸分析是研究一個或多個變量(因變量)與另一些變量(自變量)之間關(guān)系的統(tǒng)計方法。主要思想是用最小二乘法原理擬合因變量與自變量間的最佳回歸模型(得到確定的表達式關(guān)系)。其作用是對因變量做解釋、控制、或預測。回歸與擬合的區(qū)別:擬合側(cè)重于調(diào)整曲線的參數(shù),使得與數(shù)據(jù)相符;而回歸重在研究兩個變量或多個變量之間的關(guān)系。它可以用擬合的手法來研究兩個變量的關(guān)系,以及出現(xiàn)的誤差。回歸分析的步驟:(1)獲取自變量和因變量的觀測值;(2)繪制散點圖,并對異常數(shù)據(jù)做修正;(3)寫出帶未知參數(shù)的回歸方程;(4)確定回歸方程中參數(shù)值;(5)假設(shè)檢驗,判斷回歸方程的擬合優(yōu)度;(6)進行解釋、控制、或預測。一、一元線性回歸模型為Y=??0+??1X+ε其中X是自變量,Y是因變量,??0,??1是待求的未知參數(shù),??0也稱為截距;ε是隨機誤差項,也稱為殘差,通常要求ε滿足:①ε的均值為0;②ε的方差為??2;③協(xié)方差COV(εi,εj)=0,當i≠j時。即對所有的i≠j,εi與εj互不相關(guān)。二、用最小二乘法原理,得到最佳擬合效果的值:,三、假設(shè)檢驗1.擬合優(yōu)度檢驗總偏差平方和及其自由度:回歸平方和及其自由度:殘差平方和及其自由度:TSS=RSS+ESS通??梢哉J為當R2大于0.9時,所得到的回歸直線擬合得較好,而當R2小于0.5時,所得到的回歸直線很難說明變量之間的依賴關(guān)系。2.回歸方程參數(shù)的檢驗回歸方程反應了因變量Y隨自變量X變化而變化的規(guī)律,若??1=0,則Y不隨X變化,此時回歸方程無意義。所以,要做如下假設(shè)檢驗:H0:??1=0,H1:??1≠0;(1)F檢驗若??1=0為真,則回歸平方和RSS與殘差平方和ESS/(N-2)都是??2的無偏估計,因而采用F統(tǒng)計量:來檢驗原假設(shè)β=0是否為真。(2)T檢驗對H0:??1=0的T檢驗與F檢驗是等價的(t2=F)。對H0:??0=0的T檢驗,若??0=0為真,t統(tǒng)計量為:3.用回歸方程做預測得到回歸方程后,預測X=x0處的Y值.的預測區(qū)間為:其中tα/2的自由度為N-2.SAS中是用model語句中的clm選項來計算預測區(qū)間的。4.回歸診斷(1)殘差圖分析殘差圖就是以殘差為縱坐標,某一個合適的自變量為橫坐標的散點圖?;貧w模型中總是假定誤差項是獨立的正態(tài)分布隨機變量,且均值為零和方差相等為??2.如果模型適合于觀察到的數(shù)據(jù),那么殘差作為誤差的無偏估計,應基本反映誤差的假設(shè)特征。即殘差圖應該在零點附近對稱地密布,越遠離零點的地方就疏散(在形象上似有正態(tài)趨勢),則認為模型與數(shù)據(jù)擬合得很好。若殘差圖呈現(xiàn)如圖(a)所示的形式,則認為建立的回歸模型正確,更進一步再診斷“學生化殘差”是否具有正態(tài)性:圖(b)表明數(shù)據(jù)有異常點,應處理掉它重新做回歸分析(在SAS的REG回歸過程步中用來度量異常點影響大小的統(tǒng)計量是COOKD統(tǒng)計量);圖(c)殘差隨x的增大而增大,圖(d)殘差隨x的增大而先增后減,都屬于異方差。此時應該考慮在回歸之前對數(shù)據(jù)y或x進行變換,實現(xiàn)方差穩(wěn)定后再擬合回歸模型。原則上,當誤差方差變化不太快時取變換;當誤差方差變化較快時取變換logy或lny;當誤差方差變化很快時取變換1/y;還有其他變換,如著名的Box-Cox冪變換.圖(e)(f)表示選用回歸模型是錯誤的。(2)共線性回歸分析中很容易發(fā)生模型中兩個或兩個以上的自變量高度相關(guān),從而引起最小二乘估計可能很不精確(稱為共線性問題)。在實際中最常見的問題是一些重要的自變量很可能由于在假設(shè)檢驗中t值不顯著而被不恰當?shù)靥蕹?。共線性診斷問題就是要找出哪些變量間存在共線性關(guān)系。SAS的REG過程步提供了特征值法、條件指數(shù)collin和方差膨脹因子vif.(3)誤差的獨立性回歸分析之前,要檢驗誤差的獨立性。若誤差項不獨立,那么回歸模型的許多處理,包括誤差項估計、假設(shè)檢驗等都將沒有推導依據(jù)。由于殘差是誤差的合理估計,因此檢驗統(tǒng)計量通常是建立在殘差的基礎(chǔ)上。檢驗誤差獨立性的最常用方法,是對殘差的一階自相關(guān)性進行Durbin-Watson檢驗。H0:誤差項是相互獨立的;H1:誤差項是相關(guān)的檢驗統(tǒng)計量:DW接近于0,表示殘差中存在正自相關(guān);如果DW接近于4,表示殘差中存在負自相關(guān);如果DW接近于2,表示殘差獨立性。在給定顯著水平α下,我們可以查Durbin-Watson表得到不能拒絕獨立性原假設(shè)的區(qū)間。四、PROCREG過程步1.基本語法前面三種回歸分析都可以用PROCREG過程步實現(xiàn)?;菊Z法:PROCREGdata=數(shù)據(jù)集;MODEL因變量=自變量列表</可選項>;說明:MODEL語句用來指定因變量和自變量;常用的輸出可選項:STB——輸出標準化偏回歸系數(shù)矩陣CORRB——輸出參數(shù)估計矩陣COLLINOINT——對自變量進行共線性分析P——輸出個體觀測值、預測值及殘差(R/CLM/CLI包含P)R——輸出每個個體觀測值、殘差及標準誤差CLM——輸出因變量均值95%的置信界限的上下限CLI——對各預測值輸出95%的置信界限的上下限MSE——要求輸出隨機擾動項方差??2的估計與殘差分析有關(guān)的可選項VIF——輸出變量間相關(guān)性的方差膨脹系數(shù),VIF越大,說明由于共線性存在,使方差變大;COLLIN——輸出條件數(shù),它表示最大的特征值與每個自變量特征值之比的平方根。一般情況下,條件數(shù)越大越可能存在共線性;TOL——表示共線性水平的容許值,TOL越小說明其可用別的自變量解釋的部分多,自然可能與別的自變量存在共線性關(guān)系;DW——輸出Durbin-Watson統(tǒng)計量;influence——對異常點進行診斷,對每一觀測點輸出統(tǒng)計量(Cook’sD>50%,defits/debetas>2說明該點影響較大)。2.繪制回歸分析的圖形在PROCREG過程步加入繪圖選項語句即可?;菊Z法:PROCREGdata=數(shù)據(jù)集PLOTS=(圖形類型);可選的繪圖類型:FITPLOT——帶回歸線、置信預測帶的散點圖;RESIDUALS——自變量的殘差圖;DIAGNOSTICS——診斷圖(包括下面各圖);COOKSD——Cook'sD統(tǒng)計量圖;OBSERVEDBYPREDICTED——根據(jù)預測值的因變量圖;QQPLOT——檢驗殘差正態(tài)性的QQ圖;RESIDUALBYPREDICTED——根據(jù)預測值的殘差圖;RESIDUALHISTOGRAM——殘差的直方圖;RFPLOT——殘差擬合圖;RSTUDENTBYLEVERAGE——杠桿比率的學生化殘差圖;RSTUDENTBYPREDICTED——預測值的學生化殘差圖;注:殘差圖(RESIDUALS)和診斷圖(DIAGNOSTICS)是自動生成的,根據(jù)模型也有其它默認的圖形輸出;若只繪制指定的圖形需要加上ONLY:PROCREGdata=數(shù)據(jù)集PLOTS(ONLY)=(圖形類型);例1(線性回歸)30名兒童棒球選手的數(shù)據(jù)(C:\MyRawData\Baseball.dat),變量包括擊球高度、球飛出的距離:讀入數(shù)據(jù),以球飛出的距離為因變量,擊球高度為自變量做線性回歸分析。代碼:datahits;infile'c:\MyRawData\Baseball.dat';inputHeightDistance@@;run;procregdata=hitsPLOTS(ONLY)=(DIAGNOSTICSFITPLOT);modelDistance=Height/rclmclidw;title'ResultsofRegressionAnalysis';run;運行結(jié)果:結(jié)果說明:(1)只有一個自變量的,故其自由度為DF=1,因變量的自由度為N-1=29;誤差的自由度為N-1-1=28;(2)離差平方和(TSS)=回歸平方和(RSS)+殘差平方和(ESS),即3633.86667=1365.50831+2268.35836離差平方和平均值為MSR=RSS/df=1365.50831/1=1365.5083,誤差項的離差平方和平均值為MSE=ESS/df=2268.35836/28=81.01280;(3)假設(shè)檢驗H0:回歸系數(shù)β=0.F(1,28)=MSR/MSE=1365.5083/81.01280=16.86P值=0.0003<α=0.05,說明斜率β不為0(與后面的t檢驗結(jié)果相同);(4)均方根誤差:RootMSE=MSE開根號=9.00071;變異系數(shù)(或稱方差系數(shù)):CoeffVar=均方根誤差/因變量均值×100=6.88479;(5)擬合優(yōu)度R2=0.3758,校正的R2=0.3535;說明線性回歸關(guān)系并不強,球飛出的距離可能還和選手的年齡、經(jīng)驗有關(guān);(6)參數(shù)估計表給出了截距和斜率的估計值,得到回歸方程:Di

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論