版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1七、SAS系統(tǒng)
與回歸分析計算機統(tǒng)計分析軟件(SAS系統(tǒng)9.1.2)
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第1頁!2SAS與回歸分析目錄1.
相關分析2.
一元線性回歸分析3.
多元線性回歸分析4.
變量選擇5.
非線性回歸(可化為線性)6.
回歸診斷北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第2頁!3SAS與回歸分析
回歸分析是處理多個變量間相關關系的一種數(shù)學方法.
變量間的關系有兩種類型:確定性的函數(shù)關系和相關關系.回歸分析方法是處理變量間相關關系的有力工具.
回歸分析用于確定一個連續(xù)變量(因變量)與另一些連續(xù)變量(自變量)間的相互依賴關系.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第3頁!4相關分析
散點圖及變量的相關關系中學生身高與體重數(shù)據(jù)的散點圖(用INSIGHT繪制..紅色為男生,蘭色為女生.不同符號表示不同的年齡):北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第4頁!5相關分析
相關關系的類型
上述四幅圖分別說明了以下幾種可能的關系:
1、可用直線描述變量間的關系(變量間聯(lián)系中最簡單的一種);
2、顯示變量間有曲線關系;
3、可能有季節(jié)性的周期變化(在受季節(jié)影響的經濟指標中常會遇到);
4、變量間無明顯的關系.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第5頁!6相關分析
相關系數(shù)
兩個區(qū)間型變量間的關系有很多種可能,在考察散點圖后,可用相關統(tǒng)計量將兩個變量的關系定量化.若兩個變量間存在一個線性關系,則他們?yōu)橄嚓P的,否則,變量間的相關是不強的.
相關系數(shù)是描述變量間線性聯(lián)系程度的一個統(tǒng)計量,統(tǒng)計中有多個描述相關的指標,最常用的是Pearson相關系數(shù),簡稱相關系數(shù).
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第6頁!7相關分析
相關系數(shù)(CorrelationCoef.)正相關:一個變量數(shù)值增加時另一個變量也增加負相關:一個變量數(shù)值增加時另一個變量減少北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第7頁!8相關分析用Insight計算相關系數(shù)
為了得到檢驗相關系數(shù)是否為零的原假設的p值,可選:
表(Tables)→相關系數(shù)P值(CORRP-Values);則在輸出結果的窗口下方又增加一張相關系數(shù)的P值表.根據(jù)表中這些p-值可知,只有RPM和MIDPRICE之間的p值(0.5518)大于0.05,這表示不能拒絕這兩個變量的相關系數(shù)等于零的假設,即可接受RPM和MIDPRICE之間的相關系數(shù)等于零.
其余變量間的相關系數(shù)均顯著地不等于零.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第8頁!9相關分析用Insight制作散點圖矩陣及置信橢圓
預測值的置信橢圓可以說明以下兩方面問題:
(1)作為置信域,在變量為兩元正態(tài)分布的假定下,置信橢圓顯示數(shù)據(jù)以設定的百分率落入的區(qū)域,落入預測置信橢圓的觀測值的百分率應該接近于設定的置信水平;
(2)作為相關的指標。若兩個變量不相關,橢圓應該為圓;兩個變量相關性越強,則橢圓越扁(即橢圓拉長),可以用橢圓長短軸之比來衡量相關的程度.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第9頁!10相關分析用分析員應用計算相關系數(shù)
1、在分析員應用中打開數(shù)據(jù)集FITNESS;2、選統(tǒng)計→描述統(tǒng)計→相關,在彈出的相關窗口選中OXYGEN、RSTPULSE、RUNPULSE和RUNTIME→確定(OK);則顯示這幾個變量的相關系數(shù)陣及相應的p值.
3、若要制作散點圖和置信橢圓,可在相關窗口選中變量后點擊Plot鍵進行選擇,
→確定(OK);輸出的結果中給出逐對變量的散點圖和置信橢圓(沒有生成散布圖陣).
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第10頁!11相關分析
繪制散點圖—PLOT和GPLOT過程
散點圖是直觀地觀察連續(xù)變化變量間相依關系的重要工具。利用編程可繪制兩個變量的散點圖。Symbolv=starcv=red;procgplotdata=class;
plotweight*height;Run;或(reg11.sas)procplotdata=class;
plotweight*height=‘*’;Run;北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第11頁!12相關分析
相關與回歸強相關并不表示一定存在因果關系;弱相關并不表示變量間不存在關系;個別極端數(shù)據(jù)可能影響相關系數(shù).北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第12頁!13相關分析
本節(jié)的練習題
對學生數(shù)據(jù)(CLASS),用SAS菜單系統(tǒng)及編程完成以下練習:(1)計算AGE,WEIGHT,HEIGHT的相關系數(shù)
(2)繪制AGE,WEIGHT,HEIGHT的散布圖陣,并對預測均值附加85%的置信橢園.(3)用SAS/INSIGHT繪制WEIGHT與HEIGHT的散布圖(男女用不同顏色,不同年齡用不同的符號表示).
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第13頁!14一元線性回歸分析簡單線性回歸模型
因變量Y和自變量x的n次觀測數(shù)據(jù)(xi,Yi)可以用以下方程表示:
Yi=0+1
xi+
i(i=1,2,...,n)
Yi:因變量的第
i
次觀測值;
xi:
自變量的第i次觀測值;
b0,b1:
待估計的未知參數(shù).
0是截距參數(shù),它對應自變量為0時因變量的均值;
1是斜率參數(shù),它對應自變量改變一個單位時因變量均值的改變量;北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第14頁!15一元線性回歸分析
線性回歸的擬合北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第15頁!16一元線性回歸分析
線性回歸的擬合--最小二乘法估計(LSE)^北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第16頁!17一元線性回歸分析
回歸的方差分解自變量(x)因變量(Y)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第17頁!18一元線性回歸分析簡單線性回歸分析--模型檢驗的假設
模型檢驗的假設為:
H0:1=0,H1:1
≠0;
檢驗結果若拒絕原假設就表示回歸方程的作用是顯著的;接受原假設就表示所考慮的自變量X對因變量Y的回歸作用并不顯著.
基線模型:Yi=+ei原假設:簡單線性回歸模型擬合數(shù)據(jù)不比基線模型好;備選假設:簡單線性回歸模型擬合數(shù)據(jù)比基線模型好.
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第18頁!19一元線性回歸分析
回歸統(tǒng)計量--預測值與置信限北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第19頁!20一元線性回歸分析
一元線性回歸的例子—用編程和INSIGHT
例2.1:討論英國11年有執(zhí)照汽車數(shù)x(萬輛)與車禍次數(shù)Y(千次)的相關關系(數(shù)據(jù)見DATA步的數(shù)據(jù)行),并進行預測.
解:(1)用編程,首先生成SAS數(shù)據(jù)集dreg21.datadreg21;
inputyearyx@@;
cards;19471663521948153373194917741119502014411951216462195220849019532275291954238577195526864119562686921957274743;(reg21.sas)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第20頁!21一元線性回歸分析
一元線性回歸的計算--SAS/INSIGHT(例子)
④
計算預測值:在數(shù)據(jù)表底部自變量欄鍵入數(shù)據(jù)(x=1000,800),即得到相應的預測值;
⑤
計算回歸均值和預測值的置信區(qū)間:曲線(Curves)=>置信曲線(CofidenceCurves…)=>均值(mean):=>95%
或
=>
預測
(Predction):=>90%
⑥*
Noint:強制截距為零.在擬合窗口中間若選中截距(這是默認的情況),回歸模型中包含截距項.若不選中截距,即強制截距為零.此例應選中截距.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第21頁!22一元線性回歸分析
廣義線性模型(GENMOD)簡介
廣義線性模型(GENMOD)是傳統(tǒng)線性模型的推廣.傳統(tǒng)線性模型的因變量Y是數(shù)值變量(連續(xù)變量),假定:
E(Y)=b0+b1x1+...+bpxp,因變量和自變量的n次觀測值滿足:
i=
E(
Yi)
=b0+b1xi1+...+bpxip,(i=1,...,n).推廣后允許因變量Y或是連續(xù)型變量,或是屬性變量(如比例變量,或計數(shù)變量等),且假定:
g(i)
=b0+b1xi1+...+bpxip,(i=1,...,n)其中g()是一個單調可微的函數(shù)—稱為連接函數(shù)(或關聯(lián)函數(shù)).北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第22頁!23一元線性回歸分析
廣義線性模型(GENMOD)簡介
傳統(tǒng)線性回歸模型包括多元線性回歸模型,方差分析模型,協(xié)方差分析模型等.這些是應用最廣泛的一些分析方法.
當使用菜單系統(tǒng)INSIGHT進行計算時,由菜單項擬合(YX)可以完成廣義線性模型的所有功能:
只須從擬合窗口下方按方法鍵,并根據(jù)不同模型選擇不同的關聯(lián)函數(shù),響應分布等,即可建立廣義線性模型的所包括的各種模型.
缺省時建立的模型就是傳統(tǒng)的線性模型.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第23頁!24一元線性回歸分析
一元線性回歸的計算--例子procregdata=fitness;modeloxygen=runtime;run;procregdata=fitness;modeloxygen=runtime/pcliclm;idruntime;outputout=outfitp=poxyr=roxyl95=l95oxyu95=u95oxy;run;(reg22.sas或reg22b.sas)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第24頁!25一元線性回歸分析
回歸線作圖--用REG中的PLOT語句PROCREGDATA=數(shù)據(jù)集名
noprint;
MODEL應變量=自變量/pcliclmr;
PLOT
y變量*x變量/選項;symboln
c=顏色
v=值;
RUN;(Reg23.sas或Reg23B.sas)y變量和x變量可以是因變量、
自變量和其它與回歸分析結果有關的變量:p.(predicted)
預測值r.(residual)
殘差U95.,L95.
預測值置信限
U95M.,L95M.預測均值置信限選項:conf95---作預測均值的置信曲線pred95---作預測值的
置信曲線overlay---將語句中規(guī)定的圖迭置在一幅圖上AICCPMSESSE--
在圖形左邊顯示相應的統(tǒng)計量北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第25頁!26一元線性回歸分析
回歸線作圖--例子symbol1value=starci=bluecv=redi=rlclm95width=2;procgplotdata=dreg21;ploty*x;title2‘Y對x的回歸線及均值的95%置信限';run;(REG24.sas或Reg24B.sas)(i=rlclm95
表示繪制線性回歸預測均值的95%置信限)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第26頁!27一元線性回歸分析
本節(jié)的練習題
2.對不同類型汽車的價格和性能的數(shù)據(jù)(DST.CARS)用SAS菜單系統(tǒng)及編程完成以下練習:(1)建立MIDPRICE(中間價)與PERFORM(使用效率--性能)回歸關系式,并給出回歸系數(shù)的檢驗結果.(2)給出當PERFORM=0.03,0.04,0.05和0.06時,中間價的預測值及線性回歸預測均值的90%置信區(qū)間.(3)繪制MIDPRICE(中間價)對PERFORM(性能)的散點圖,回歸線及均值的95%的置信限.
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第27頁!28多元線性回歸分析
多元線性回歸模型多元線性回歸模型:
Yi=b0+b1xi1+...+bpxip+ei,i=1,...,nei:相互獨立、正態(tài)分布、同方差、零均值.用最小二乘準則估計b0,b1,...,bp,使得:通過求解b0,b1,...,bp
的一個線性方程組(正規(guī)方程)可得參數(shù)的估計.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第28頁!29多元線性回歸分析
最小二乘法和平方和分解=H陣北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第29頁!30多元線性回歸分析
回歸方程的顯著性檢驗
求得回歸方程后,此方程是否有意義?首先應檢驗以下假設:
H0:b1=b2=….=bm=0使用的方法仍是方差分析法.從分析引起Yt(t=1,…,n)變化的總變差TotalSS的原因入手.顯然使得Y變化的原因有二個:,因Y與xi(i=1,…,m)線性相關,由xi的變化引起Y的變化;第二,其它因素或誤差引起的.若Y的變化主要是由xi的變化引起的,則模型中的自變量xi的系數(shù)βi≠0.用方差分析的思想,把yt(t=1,…,n)的總變差進行分解:
TotalSS=ModelSS+ErrorSS北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第30頁!31多元線性回歸分析
回歸系數(shù)的顯著性檢驗
對回歸方程的顯著性檢驗,若否定H0,僅表示β1,β2,…,βm不全為0,但并不排除有個別βi為0。若βi=0,說明自變量xi對因變量Y的影響不明顯,應從回歸模型中刪除。因此對回歸系數(shù)βi(i=1,2,…,m)是否為0逐個進行檢驗是很必要的。即檢驗以下的假設:
H(i)
:βi=0(i=1,2,…,m)類似地,可構造檢驗以上假設的檢驗統(tǒng)計量T,并由n組觀測計算T值和顯著性概率(p值)。從而對H(i)
是否成立進行統(tǒng)計推斷。北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第31頁!32多元線性回歸分析
回歸分析的例子(REG)
例3.1
使用SAS/STAT軟件中提供的回歸過程REG和SAS菜單系統(tǒng)“分析員應用”來分析FITNESS數(shù)據(jù)集,并建立肺活量與其它指標的經驗公式。
解
(1)用REG過程來建立經驗公式。一般先用DATA步創(chuàng)建SAS數(shù)據(jù)集.因該數(shù)據(jù)集已存放在SASUSER或DST數(shù)據(jù)庫里,直接調用即可.
然后用PLOT過程畫OXYGEN隨RUNTIME變化的散布圖:
procplotdata=fitness;
plotoxygen*runtime=′*′;
title“肺活量與1.5英里跑時間的散布圖”;run;
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第32頁!33多元線性回歸分析
回歸分析的例子(分析員應用)
用SAS菜單系統(tǒng)進行回歸計算.首先啟動“分析員應用”,并打開SAS數(shù)據(jù)集FITNESS.進行多元線性回歸分析的步驟如下:①在“分析員應用”菜單欄目中選擇
統(tǒng)計(Statistics)=>
回歸(Regressi)=>線性(Linear)….②在彈出的線性回歸主窗口中選擇因變量和自變量:OXYGEN=>Dependent,AGE,…,MAXPULSE=>Explanatory.③在線性回歸主窗口的下方有幾個鍵:
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第33頁!34多元線性回歸分析
回歸分析的例子(分析員應用)按Plots鍵在彈出的“線性回歸:Plots”窗口中選擇繪制因變量的觀測值對預測值的散布圖(plotobservervspredicted)=>OK。④將要求繪圖、分析計算的項選擇完畢后,從相應窗口按OK鍵返回到線性回歸的主窗口=>OK,系統(tǒng)將按用戶的要求進行分析計算。⑤查看輸出結果,從“分析員應用”的數(shù)據(jù)窗口左邊的樹狀表可以選擇你想查看的各類計算結果。北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第34頁!35多元線性回歸分析用Insight擬合多元線性回歸
(1)分析(Analyze)→擬合(Fit)(YX),選OXYGEN→Y;
(2)按下Ctrl,并點擊在變量表中同時選中age、weight、rstpulse、runpulse、maxpulse和runtime→X,→OK;擬合窗即顯示擬合多元回歸的的有關信息,前兩張表包含模型和方程的信息;
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第35頁!36多元線性回歸分析用Insight擬合多元線性回歸
第四張方差分析表中,看到p值0.0001,拒絕原假設(H0:b1=b2=….=bm=0),并可作出至少有一個回歸系數(shù)顯著不為零的結論.這表示所考慮的多元回歸模型是顯著的.
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第36頁!37多元線性回歸分析用Insight擬合多元線性回歸
參數(shù)估計表也給出了參數(shù)的估計值,并給出回歸系數(shù)的顯著性檢驗,即逐個檢驗各回歸系數(shù)i
=0的假設,它還包括截距的顯著性檢驗.
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第37頁!38多元線性回歸分析
本節(jié)的練習題
對不同類型汽車的價格和性能的數(shù)據(jù)(DST.CARS)用SAS菜單系統(tǒng)及編程完成以下練習:(1)建立MIDPRICE(中間價)與citympg,cylinder,hwympg,egnsize,rpm,revltns,fueltnk和perform的多元回歸關系式,并給出各個回歸系數(shù)的檢驗結果.(2)由回歸系數(shù)的顯著性檢驗結果,能否指出影響中間價格的主要因素是哪些?哪幾個因素是不顯著的(=0.10)?(3)對92輛汽車的數(shù)據(jù)用以上擬合的回歸式進行預測,并且給出均值的95%的置信區(qū)間.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第38頁!39變量選擇
回歸變量的選擇問題在實用上和理論上都是十分重要的。這個問題最大的困難就是如何比較不同選擇(即不同子集)的優(yōu)劣,即最優(yōu)選擇的標準。從不同的角度出發(fā),可以有不同的比較準則,在不同的準則下,“最優(yōu)”回歸方程也可能不同.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第39頁!40變量選擇
最優(yōu)選擇的標準AIC(A)=ln(ESS(A))+或BIC(A)=ln(ESS(A))+達最小。
(5)修正R2準則
選擇子集A,使得修正R2=1-(1-R2)(當模型含截距項時i=1,否則i=0)達最大。2lnllnnn
n-i
n–(l+i)(4)AIC或BIC準則
選擇子集A,使得北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第40頁!41變量選擇
變量選擇方法--逐步篩選法在REG過程中逐步篩選變量的方法通過以下有關的選項給出:NONE:全部進入,不篩選變量;FORWARD:向前加入法,即逐個加入變量;BACKWARD:向后刪除法,全部加入后逐個剔除;STEPWISE:逐步篩選法,邊進邊出;MAXR:逐個加入和對換,使R2增加最大;MINR:逐個加入和對換,使R2增加最小.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第41頁!42變量選擇
變量選擇方法--所有可能回歸法
ADJRSQ:選Adj-RSQ最大的模型CP:選最先滿足Cp≤p的模型其中p為進入回歸式的變量個數(shù)Hocking建議:
Cp≤p(預測)Cp≤2p-m+1(估計)
(m為全模型的變量個數(shù))北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第42頁!43變量選擇用Insight擬合多元線性回歸后剔除自變量
(2)對已擬合的回歸模型,若有證據(jù)表明某個自變量的作用并不顯著,就要考察剔除這個自變量后重新擬合的回歸模型。例如在上節(jié)的例子中要考慮剔除最不重要的變量rstpulse后擬合回歸的效果,對此不必重新擬合,只需在擬合窗的任一處選中變量rstpulse使它變亮,再從下拉菜單選:
編輯(Edit)→刪除(Delete),則系統(tǒng)將刪除rstpulse,重新建立Y與其余自變量的回歸模型.顯示的結果就是修改為不含rstpulse的擬合結果。
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第43頁!44變量選擇
逐步回歸--基本思想和步驟
以上介紹的選擇回歸子集的幾種方法中,最常用的是逐步篩選法。逐步回歸的基本思想和基本步驟如下:基本思想:逐個引入自變量,每次引入對Y影響最顯著的自變量,并對方程中的老變量逐個進行檢驗,把變?yōu)椴伙@著的變量逐個從方程中剔除掉。最終得到的方程中即不漏掉對Y影響顯著的變量,又不包含對Y影響不顯著的變量。
基本步驟:首先給出引入變量的顯著性水平αin和剔除變量的顯著水平αout。然后按以下框圖篩選變量。北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第44頁!45變量選擇
逐步回歸--例子
例4.1
用REG過程或“分析員應用”分析FITNESS數(shù)據(jù),并用逐步篩選方法建立“最優(yōu)”的回歸關系式;然后進行預測。
解
(1)調用REG過程完成逐步回歸計算。假設引入變量的顯著性水平αin=0.15,剔除變量的顯著性水平αout=0.15(一般取αin=αout,也可取為不等.但要求αin<=αout,否則可能出現(xiàn)死循環(huán))。要求計算預測值和95%置信界限。SAS程序如下:
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第45頁!46變量選擇
逐步回歸--例子
以上SAS程序的輸出結果,首先給出篩選變量的過程:
步引入runtime,一元線性回歸模型的R2=0.7434;
第二步引入age,Y與runtime,age的二元回歸模型的
R2=0.7642;第三步引入runpulse,Y與runtime,age和runpulse的三元回歸模型的R2=0.8111;第四步引入maxpulse,Y與runtime,age,runpulse和maxpulse的四元回歸模型的R2=0.8368;經過四步篩選變量的過程結束后,“最優(yōu)”回歸方程中包含4個變量。并可寫出回歸方程式(省略了).北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第46頁!47變量選擇
逐步回歸--例子北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第47頁!48變量選擇
逐步回歸--例子
④將要求的項選擇完畢后,從相應窗口按
=>OK鍵,返回到線性回歸的主窗口=>OK,系統(tǒng)將按用戶的要求進行分析計算.⑤查看輸出結果,從“分析員應用”數(shù)據(jù)窗口左邊的樹狀表可以選擇你想查看的各類計算結果.以下是逐步回歸最后一步(第四步)的結果和篩選過程的匯總結果.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第48頁!49變量選擇
變量選擇的其它例子procregdata=sasuser.fitness;modeloxygen=ageweightrstpulsemaxpulserunpulseruntime/selection=rsquare
best=2
sbc
rmse;title'R-SquareSelection';run;(REG43.sas)計算所有可能回歸子集.對每種變量個數(shù)輸出最好的二個回歸子集及該子集相應的sbc和rmse統(tǒng)計量.
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第49頁!50變量選擇
變量選擇的其它例子北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第50頁!51非線性回歸
曲線回歸--可化為線性的曲線回歸
在有些實際問題中,因變量Y與x的關系不是線性關系.它們之間的關系有時可根據(jù)專業(yè)知識知道;有時通過畫散點圖可猜測Y與x的函數(shù)形式.這里要求我們了解常見函數(shù)的曲線圖形.
對這類不滿足線性關系的回歸問題,首先初步確定函數(shù)形式;然后對變量Y或x作適當?shù)淖儞Q,目的是化為線性回歸(一元線性或多元線性);然后求出變換后的線性關系式,最后轉化為回歸曲線.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第51頁!52非線性回歸
曲線回歸--常見的函數(shù)及圖形冪函數(shù):Y=a
xb
(b>1)冪函數(shù):Y=a
xb
(0<b<1)雙曲函數(shù):----=a+b---1Y1xS型函數(shù)Y=1a+be-x北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第52頁!53非線性回歸
曲線回歸--例子
例5.1(鋼包浸蝕數(shù)據(jù))
煉鋼廠出鋼時所用的盛鋼水的鋼包,在使用過程中由于受浸蝕,其容積不斷增大.經試驗得鋼包的容積Y(以鋼包盛滿時鋼水的重量表示)與相應使用的次數(shù)X的數(shù)據(jù)如下表.試用REG過程或“分析員應用”分析鋼包數(shù)據(jù),并建立最適合這組數(shù)據(jù)的回歸關系式;然后進行預測。北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第53頁!54非線性回歸
§1
曲線回歸--例子
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第54頁!55非線性回歸
曲線回歸--例子
(3)曲線回歸(雙曲線)
對數(shù)據(jù)進行曲線擬合之前,首先需要生成一個存放對X,Y變換(求倒數(shù))后的新變量。在DATA步增加一個程序語句用于建立新變量(變量名分別為XA,YA)。
datada51a;
setdata51;ya=1/y;xa=1/x;
run;現(xiàn)在已經為擬合Y與X的雙曲線回歸準備好了數(shù)據(jù)。下面鍵入調用REG過程的SAS程序(輸出結果省略了):
procregdata=da51a;
modelya=xa;title′雙曲線回歸模型′;
run;(REG51.SAS或Reg51B.sas)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第55頁!56非線性回歸
曲線回歸--回歸曲線擬合好壞的度量
線性回歸的效果可用決定系數(shù)R2和誤差均方s2來判斷。如例5.1(鋼包數(shù)據(jù))的回歸中,R2=0.9736,對于曲線回歸也有類似的統(tǒng)計量用于度量回歸曲線的擬合效果。
(1)相關指數(shù)在曲線回歸中稱為曲線回歸模型的相關指數(shù)。R2愈靠近1表示曲線回歸的效果愈好。在鋼包的例子中,所考慮的雙曲線回歸的相關指數(shù)等于0.9729。一般說來,當化為線性回歸后的決定系數(shù)愈大,曲線回歸的相關指數(shù)也大。
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第56頁!57非線性回歸
多項式回歸
多項式函數(shù)是非線性函數(shù)中較為簡單的一類,它也可通過多元線性回歸來擬合,如
Y=0+
1x+
2x2+
3x3+...引入新變量
xi=xi
Y=
0+1x1+
2x2+
3x3+...INSIGHT:提供簡便的方法擬合多項式回歸并顯示圖形.
procreg和procglm都可用于擬合多項式.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第57頁!58非線性回歸
多項式回歸--I型平方和(SS1)
I型(Sequential)平方和記錄回歸變量逐個進入回歸式時,模型平方和的增加量.
R(截距)=
R(X1|截距)=SSM(X1,截距)R(X2|X1,截距)=SSM(X2,X1,截距)-SSM(X1,截距)R(X3|X2,X1,截距)=SSM(X3,X2,X1,截距)-SSM(X2,X1,截距)
SSM(全模型)=R(X1|截距)+R(X2|X1,截距)+R(X3|X2,X1,截距)
I型平方和北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第58頁!59非線性回歸
多項式回歸--I型平方和(SS1)I型平方和可轉化為F統(tǒng)計量,用以對回歸模型:
Y=b0+b1x1+b2x2+b3x3+e
作如下的檢驗:北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第59頁!60非線性回歸
多項式回歸--兩種平方和:SS1,SS2
因此,若進入回歸模型的變量有一定的優(yōu)先次序(如對多項式,線性項先于二次項,二次項先于三次項等),應該用I型平方和(SS1)及相應的F統(tǒng)計量.
若平等地考慮各個變量是否進入回歸模型,則可用II型平方和(SS2)及其相應的F統(tǒng)計量.
例5.2(溫度隨時間變化的規(guī)律):以下DATA步中的數(shù)據(jù)行給出某化學試驗中,每隔5分鐘對溫度進行一次測量的數(shù)據(jù),試找出溫度(tc)隨時間(t)變化的規(guī)律.
解:首先生成SAS數(shù)據(jù)集,名為reg52.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第60頁!61非線性回歸
多項式回歸—例5.2這是擬合三次多項式的結果北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第61頁!62非線性回歸
多項式回歸—例5.2
以上方差分析表和參數(shù)估計表是三次多項式模型的主要計算結果,由選項SS1,SS2,在參數(shù)估計表中還給出類型I和類型Ⅱ平方和.但沒有進行檢驗.
注意到模型平方和SSM滿足:
SSM=R(t,截距)+R(tt|t,截距)+R(ttt|tt,t,截距),即
1.64929=0.03636+1.61287+0.00005828.
為了確定多項式的階次,適合于這組數(shù)據(jù)的多項式是取二次多項式,三次多項式還是需要更高階次的多項式?以上只給出了類型I和類型Ⅱ平方和,還不能解決我們關心的問題,但利用類型I平方和及其它輸出結果,可以通過以下檢驗來確定最高階次:北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第62頁!63非線性回歸
多項式回歸--兩種平方和:SS1,SS2PROCREGDATA=數(shù)據(jù)集名;
MODEL因變量名=自變量名列
</SS1SS2
其它選項>;OUTPUTOUT=數(shù)據(jù)集名<選項>;RUN;
用REG過程進行k次多項式回歸計算時,首先應使用DATA步準備好數(shù)據(jù),即令k個新變量:
xi=xi(i=1,…,k).并把xi(i=1,…,k)作為k個自變量列在MODEL語句的等號右邊.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第63頁!64非線性回歸
一般線性模型(GLM過程)PROCGLMDATA=數(shù)據(jù)集名;
CLASS變量名列;
MODEL
因變量名列=自變量名列
</SS1SS2其它選項>;
OUTPUTOUT=
數(shù)據(jù)集名<選項>;RUN;變量*變量*...變量|變量|...(REG53.sas)
用GLM過程中MODEL語句的選項SS1不僅計算I型平方和且計算由SS1構造的檢驗統(tǒng)計量和p值,由此可確定多項式回歸的合適階次.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第64頁!65非線性回歸
本節(jié)的練習題
1.試對發(fā)動機性能數(shù)據(jù)用菜單系統(tǒng)及編程方法完成以下練習:(1)繪制POWER(馬力)對SPEED(用每分鐘轉幾百轉度量)的散布圖,它們是滿足線性關系嗎?(2)建立POWER與SPEED的線性關系式,并進行顯著性檢驗.(3)建立POWER與SPEED的二次多項式回歸.并且與一元線性回歸式比較之.用幾階多項式擬合最合適?2.試用編程方法或SAS菜單系統(tǒng)對鋼包浸蝕數(shù)據(jù)進行分析,假定Y與X的函數(shù)關系為①雙曲函數(shù):1/y=a+b/x;②對數(shù)函數(shù):y=a+blogx;③冪函數(shù):y=a+bx1/2;④負指數(shù)函數(shù):y=ae-b/x,試作變量變換化非線性回歸為線性,并建立回歸方程,并比較以上四種函數(shù)關系,找出最佳的擬合曲線.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第65頁!66回歸診斷
回歸診斷的必要性--Ansbe數(shù)據(jù)及散點圖(
REG61.SAS)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第66頁!67回歸診斷
回歸診斷的必要性Ansbe例子告訴我們,經典回歸分析中討論的估計和檢驗問題并不能用于驗證回歸模型的各項假定.另數(shù)據(jù)中的異常點可能使回歸結果不穩(wěn)定或不適用.這些任務需要在經典回歸后進行回歸診斷.具體說有以下幾方面:1.異常值(outliers)或強影響點的檢查;2.從已擬合回歸的數(shù)據(jù)中分析線性模型的假定是否被破壞:
因變量的均值是否是自變量的線性函數(shù),是否需要對變量進行變換或擬合曲線回歸;
誤差項是否同方差,不相關,正態(tài)分布;3.自變量間是否存在線性關系(僅多元有)—共線性診斷;考察殘差散點圖是進行回歸診斷的必要步驟.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第67頁!68回歸診斷
殘差分析--殘差圖的類型模型合適應改曲線模型不等方差觀測值不獨立北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第68頁!69回歸診斷
殘差分析--生成殘差在PROCREG的model語句加上選項p(或r),就會輸出預測值和相應的殘差.RPOCREGDATA=數(shù)據(jù)集名;
MODEL應變量=自變量/p;PLOTy變量*x變量/選項;symboln
c=顏色
v=值;
RUN;利用plot語句plotr.*p.;
就可得到殘差-
預測散點圖.(reg62.sas)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第69頁!70回歸診斷
識別異常觀測值在PROCREG的model語句加上選項r,就會
輸出與預測值和殘差有關的一些統(tǒng)計量.他
們可用于識別異常數(shù)據(jù)(outlier)及其強影響點.PROCREGDATA=數(shù)據(jù)集名
;
MODEL應變量=自變量/r;RUN;PredictValue預測值StdErrPredict預測值標準差Residual殘差StdErrResidual殘差標準差StudentResidualstudent化的殘差-2-1012殘差顯著性圖Cook'sDCook'sD統(tǒng)計量北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第70頁!71回歸診斷
識別異常觀測值--與殘差有關的統(tǒng)計量殘差:標準化殘差:“學生化”殘差:其中s(i)是刪去第i個觀測點后所擬合回歸式的均方誤差.(i=1,2,…n)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第71頁!72回歸診斷
殘差的正態(tài)性檢驗有了殘差的數(shù)據(jù),就可對其運用圖形方法
或對殘差的分布作正態(tài)性檢驗.在INSIGHT中可直接對數(shù)據(jù)表中的殘差變量進行分析--驗證正態(tài)性.在PROCREG可利用下列語句用圖形分析
殘差分布正態(tài)性.PROCREGDATA=數(shù)據(jù)集名;
MODEL應變量=自變量;PLOTnqq.*student.(nqq.*r.);
RUN;(Reg63.sas)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第72頁!73回歸診斷
識別強影響點--CookD統(tǒng)計量CookD統(tǒng)計量度量一個觀測從分析中剔除時參數(shù)估計值的變化對一個觀測值其CookD統(tǒng)計量的值超過4/n
時(n為樣本容量),這個觀測存在反常效應(經驗結論).SAS/INSIGHT:
在擬合窗口的菜單項變量的下拉菜單選
變量(Vars)=>Cook'sD北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第73頁!74回歸診斷
識別強影響點--有關統(tǒng)計量的計算PROCREG
的Model語句加選項r可獲得
CookD
統(tǒng)計量PROCREG
的Model語句加選項
influence
可獲得Dffits
等反映觀測點影響的統(tǒng)計量.PROCREGDATA=數(shù)據(jù)集名
;
MODEL因變量=自變量/r
influence;RUN;(Reg64.sas)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第74頁!75回歸診斷
識別強影響點--偏杠桿圖偏杠桿圖是使有影響觀測可視化的方法.偏杠桿圖是兩個回歸的殘差的散點圖.
例如對變量xr
的偏杠桿圖: 縱軸是Y關于除xr以外所有x的回歸的殘差,
橫軸是xr關于所有x的回歸的殘差.有影響觀測通常分離與其它數(shù)據(jù)點或在某
一軸上有極端數(shù)值.偏杠桿圖還可識別要加入哪些變量的高次項.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第75頁!76回歸診斷
識別強影響點如何處理有影響的觀測:1.復驗數(shù)據(jù),確認并無數(shù)據(jù)輸入錯誤發(fā)生;2.若數(shù)據(jù)是有效的,模型可能不合適.擬
合此數(shù)據(jù)可能需要使用高階模型,也可能數(shù)據(jù)是反常的;3.一般不剔除數(shù)據(jù).某些有影響的觀測提
供重要的信息.若要剔除數(shù)據(jù),應給出必
要的描述和說明.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第76頁!77回歸診斷
共線性診斷-VIF和TOL(容差)方差膨脹因子(VIF)是對由于共線性而引起的參數(shù)估計量的方差增加的一個相對度量:Rr2
是xr關于模型中其它自變量回歸的R2一般采用VIF>10表明存在強共線性問題.INSIGHT在擬合回歸模型時自動生成VIFProcREG的Model語句加選項VIF北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第77頁!78回歸診斷
誤差項的獨立性使用殘差來分析誤差項的獨立性:Durbin-Watson統(tǒng)計量d
殘差對時間的散點圖北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第78頁!79Howdoestheweatheraffectthesalesofliftticketsinaskiresort?Dataofthepast20yearssalesoftickets,alongwiththetotalsnowfallandtheaveragetemperatureduringChristmasweekineachyear,wascollected.ThemodelhypothesizedwasTICKETS=b0+b1SNOWFALL+b2TEMPERATURE+e
Example北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第79頁!北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第80頁!81例:Johnson過濾水股份公司
Johnson公司對遍步南弗羅里達州的水過濾系統(tǒng)提供維修服務。為了估計服務時間和成本,公司希望能夠對顧客的每一次維修請求預測必要的維修時間。他們收集的數(shù)據(jù)中包含最近一次維修至今的時間(月數(shù))、故障的類型(電子和機械)以及相應的維修時間(小時)。你能夠建立起一個預測方程嗎?北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第81頁!82建立維修時間的回歸方程二元回歸方程解釋你得到的回歸方程!
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第82頁!83回歸診斷
本節(jié)的練習題
1.試對數(shù)據(jù)Reynolds用菜單系統(tǒng)及編程方法完成以下練習:(1)建立sales與months的一元線性關系式,并繪制散布圖,回歸線圖,sales對months和預測值的殘差圖,從中能否直觀看出該線性模型是否適合這組數(shù)據(jù)?(2)建立sales與months的二次多項式回歸后.繪制POWER對預測值的殘差圖.殘差圖是否較(1)中正常?
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第83頁!84SAS與回歸分析
回歸分析是研究一個(或幾個)因變量Y與另一些變量的相互依賴關系.具體地說,我們研究以下幾方面問題:
①建立因變量Y與x1,x2,…,xm的經驗公式(回歸方程)②對經驗公式的可信度進行檢驗;③判斷每個自變量xi(i=1,…,m)對Y的影響是否顯著?④利用經驗公式進行預報和控制,指導生產;
⑤診斷經驗公式是否適合這組數(shù)據(jù).北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第84頁!85相關分析
相關關系的類型用直線描述用曲線描述可能有周期變化無明顯關系北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第85頁!86相關分析
相關系數(shù)(CorrelationCoef.)線性聯(lián)系是描述變量間聯(lián)系中最簡單和最常用的一種(Y=a1x1+a2x2+b);相關系數(shù)是描述兩個變量間線性聯(lián)系程度
的統(tǒng)計指標;相關系數(shù)的計算公式:北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第86頁!87相關分析
相關系數(shù)相關系數(shù)的值為-1和+1之間;若兩個變量間有高度線性關系其值接近任一個極端值;若兩個變量間無線性關系其值接近于零;●
若相關系數(shù)的值大于零表示兩變量有正相關(即兩變量同時增大);●若相關系數(shù)的值小于零表示兩變量有負相關(即一個變量增大時另一變量減小或反之).北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第87頁!88相關分析用Insight計算相關系數(shù)
為了定量地描述變量間的線性聯(lián)系程度,就需要計算他們之間的相關系數(shù)。打開CARS,選
分析(Analyze)→多元(Multivariate)(Y);(2)選MIDPRICE、CITYMPG、HWYMPG、EGNSIZE、RPM和PERFORM→Y,即選這些變量為分析變量,計算他們之間的相關系數(shù),
→OK。多元分析生成分析變量的單變量統(tǒng)計量和這些變量間的相關系數(shù)矩陣;
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第88頁!89相關分析用Insight制作散點圖矩陣及置信橢圓
為了利用圖形來說明變量間的相關,可以在多變量窗口生成散點圖矩陣和置信橢圓,生成這些橢圓時我們假定每一對變量(X,Y)是兩元正態(tài)分布的。
可以生成兩類橢圓:均值置信橢圓--預測兩變量均值(EX,EY)分布的置信區(qū)域;預測值置信橢圓--預測兩變量單個觀測值
(X,Y)分布的置信區(qū)域.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第89頁!90相關分析用Insight制作散點圖矩陣及置信橢圓
對數(shù)據(jù)集CARS,為了在散點圖矩陣上生成95%預測值置信橢圓,可在多變量窗口中選:曲線(CURVES)→散點圖置信橢園(ScatterPlotConfEllipse)→預測(Prediction):95%;則生成散點圖矩陣及95%預測值置信橢圓(只列出散點圖矩陣的下三角部分).變量HWYMPG和CITYMPG間散點圖上的這個橢圓被拉得很長,表明變量HWYMPG和CITYMPG之間有很強的相關.而RPM和MIDPRICE間散點圖上的這個橢圓近似于園,表明這兩個變量基本上不相關.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第90頁!91相關分析
相關系數(shù)的計算--CORR過程PROCCORRDATA=數(shù)據(jù)集名;
RUN;PROCCORRDATA=數(shù)據(jù)集名;
var變量名列;with變量名列;partial變量名列;by變量名列;
RUN;(reg11.sas)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第91頁!92相關分析
相關系數(shù)在使用相關系數(shù)說明問題時要注意的是:
(1)相關系數(shù)很強并不表示變量間一定有因果關系,也可能是兩個變量同時受第三個變量的影響而使他們有很強的相關(如學習能力和鞋碼大?。?;
(2)相關系數(shù)是說明線性聯(lián)系程度的。相關系數(shù)接近于0的變量間可能存在非線性聯(lián)系(可能是曲線關系);
(3)有時個別極端數(shù)據(jù)可能影響相關系數(shù)。北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第92頁!93相關分析
相關與回歸
相關分析量化連續(xù)型變量之間線性相關的強度;
回歸分析確定一個連續(xù)變量與另一些連續(xù)變量間的相互依賴關系.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第93頁!94一元線性回歸分析建立回歸方程: 確定變量:Y
與變量x1,x2,..,xm有相關關系.
選擇形式:Y
與x1,x2,..,xm
以什麼形式相聯(lián)系,
即f(.)
的表示式.
確定系數(shù):確定Y=a1x1+a2x1x2+a3x12+...
中的ai
(i=1,2,…).
回歸(Regression)分析描述一個變量與一些變量間統(tǒng)計聯(lián)系的關系式,Y=f(x1,x2,...,xm),并用于解釋和預測。北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第94頁!95一元線性回歸分析簡單線性回歸模型
隨機誤差i
表示Yi關于0+1
xi的殘差,同樣假定它是獨立的,等方差(2)的正態(tài)分布。估計線性回歸模型的目的就是要從觀測(xi,Yi)(i=1,…,n)出發(fā)對模型中的未知參數(shù)0,1和2進行估計;從圖形上看就是要從觀測點(xi,Yi)出發(fā),擬合直線Y=0
+1
x.
未知總體參數(shù)0
和1的估計是由最小二乘法得到的,這個方法提供的估計使由此估計確定的直線滿足觀測值和直線間縱向距離的平方和為最小。換言之,擬合的回歸直線盡可能地靠近所有的數(shù)據(jù)點。北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第95頁!96一元線性回歸分析
線性回歸的擬合--最小二乘法估計(LSE)使達到最小值的點為b0,b1。稱
b0,b1
是參數(shù)的最小二乘估計(LSE)。稱Q為殘差平方和。北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第96頁!97一元線性回歸分析
回歸的方差分解因變量(Y)自變量(x)北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第97頁!98一元線性回歸分析
回歸的方差分解
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第98頁!99
一元線性回歸分析
回歸統(tǒng)計量(R2,修正R2和
PRESS)(預測殘差平方和)m北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第99頁!100一元線性回歸分析
一元線性回歸的計算(2)Analyst:
統(tǒng)計(Statistics)=>回歸(Regression)
=>
簡單(Simple...)(3)PROCREGDATA=數(shù)據(jù)集名;
MODEL因變量=自變量;
RUN;(1)SAS/INSIGHT:分析(Analyze)=>擬合(Fit)(YX) =>指定Y和X變量(4)GLM過程北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第100頁!101一元線性回歸分析
一元線性回歸的例子—用編程和INSIGHT
調用REG過程:proc
reg
data=dreg21;
modely=x;run;(2)用SAS/INSIGHT的步驟:①啟動INSIGHT,打開SAS數(shù)據(jù)集dreg21;②散點圖:分析(Analyze)
=>
散點圖(ScatterPlot)(YX)=>指定X和Y變量
=>OK=>
瀏覽結果
③擬合:分析(Analyze)=>擬合(Fit)(YX)=>指定X和Y變量=>OK=>瀏覽結果
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第101頁!102一元線性回歸分析
一元線性回歸的計算--SAS/INSIGHT(GENMOD)
北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第102頁!103一元線性回歸分析
廣義線性模型(GENMOD)簡介
當因變量Y是連續(xù)型變量,且g()=時(即關聯(lián)函數(shù)為恒等式),并假定Y為正態(tài)分布(響應分布),這時以上模型就是我們熟悉的傳統(tǒng)線性模型(一般線性模型).(2)當因變量Y是屬性變量[如Y=0或1,記=P(Y=1)],且
時(即關聯(lián)函數(shù)為logit),并假定Y為二項分布,這時以上模型就是我們在屬性數(shù)據(jù)分析中將介紹的Logistic回歸模型.(3)……..北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第103頁!104一元線性回歸分析
一元線性回歸的計算--REG過程PROCREGDATA=數(shù)據(jù)集名;
MODEL因變量=自變量;
RUN;PROCREGDATA=數(shù)據(jù)集名;
MODEL
因變量=自變量名列/pcliclm
noprintnoint
;
id變量名;
outputout=數(shù)據(jù)集名關鍵統(tǒng)計量名=輸出名...;
RUN;北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第104頁!105一元線性回歸分析
回歸線作圖--用REG中的PLOT語句PROCREGDATA=數(shù)據(jù)集名
noprint;
MODEL應變量=自變量/pcliclmr;PLOTy變量*x變量/選項;symboln
c=顏色
v=值;
RUN;
利用procreg中的plot語句可以繪制與擬合數(shù)據(jù)有關的散點圖、回歸直線和置信曲線、預測區(qū)間曲線.noprint不輸出擬合的結果.北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第105頁!106一元線性回歸分析
回歸線作圖--用GPLOT過程PROCGPLOTDATA=數(shù)據(jù)集;
PLOT
縱軸變量*橫軸變量;
RUN;PROCGPLOTDATA=數(shù)據(jù)集;
PLOT
縱軸變量*橫軸變量縱軸變量*橫軸變量…
/
overlay;symbol1i=rlcli|rlclm置信百分數(shù)其它圖形選項;
symbol2i=rlcli|rlclm置信百分數(shù)其它圖形選項;
RUN;圖形選項:c=value=cv=height=font=Line=
width=interpol=r<類型><0><clm|cli><50...99>ci=北大光華陳奇志老師saS共164頁,您現(xiàn)在瀏覽的是第106頁!107一元線性回歸分析
本節(jié)的練習題
1.討論某種合成纖維的強度Y與拉伸倍數(shù)x的相關關系(數(shù)據(jù)見數(shù)據(jù)集DST.regE21).試用SAS菜單系統(tǒng)及編程完成以下練習:(1)建立Y(合成纖維的強度)與x(拉伸倍數(shù))回歸關系式,并給出回歸系數(shù)的檢驗結果.(2)給出當x=2.2,3.2,6.2和10.2時,合成纖維的強度的預測值及線性回歸預測均值的90%置信區(qū)間.(3)繪制Y對x的散點圖,回歸線及均值的95%的置信限.
北大光華陳奇志老師saS共164頁,您現(xiàn)在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【KS5U原創(chuàng)】新課標2021年高二暑假化學作業(yè)(八)
- 【創(chuàng)新設計】(人教)2020-2021高中化學選修五【分層訓練】4-3-蛋白質和核酸
- 【創(chuàng)新設計】2020-2021學年高中物理人教版選修3-1練習:1.10-電容器的電容
- 【名師一號】2020-2021學年高中地理人教版必修三-雙基限時練7
- 【2021春走向高考】2022屆高三歷史(岳麓版)一輪復習:階段性測試題10
- 保定市2022高考英語閱讀理解選練(1)答案
- 2021廣東韶關市高考英語自選練習(3)及答案
- 《結直腸癌教學》課件
- 【學練考】2021-2022學年高一歷史岳麓版必修1練習冊:單元測評一-
- 【名師一號】2020-2021學年高中數(shù)學人教B版必修2雙基限時練9(第一章)
- 解剖篇2-1內臟系統(tǒng)消化呼吸生理學
- 《小學生錯別字原因及對策研究(論文)》
- 便攜式氣體檢測報警儀管理制度
- 酒店安全的管理制度
- (大潔王)化學品安全技術說明書
- 2022年科學道德與學術規(guī)范知識競賽決賽題庫(含答案)
- 市場調查與預測期末復習試題10套含答案
- 呼吸內科國家臨床重點??平ㄔO項目評分標準試行
- 煤炭質量分級及低位發(fā)熱量計算
- 通用個人全年工資表模板
- 帶電作業(yè)車庫技術規(guī)范書
評論
0/150
提交評論