版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1/31多元線性回歸分析多元回歸模型表示法通常,回歸模型包括k個(gè)變量,即一個(gè)因變量和k個(gè)自變量(包括常數(shù)項(xiàng))。由于具有N個(gè)方程來(lái)概括回歸模型(32.1)模型的相應(yīng)矩陣方程表示為:嵌入Equation.3錯(cuò)誤!未定義書(shū)簽。(32.2)式中(32.3)其中:Y為因變量觀察的N列向量,X為自變量觀察的N×(k+1)矩陣,symbol98\f"Symbol"\s10為末知參數(shù)的(k+1))列向量,為誤差觀察的N列向量。在矩陣X表達(dá)式中,每一個(gè)元素Xij都有兩個(gè)下標(biāo),第一個(gè)下標(biāo)表示相應(yīng)的列(變量),第二個(gè)下標(biāo)表示相應(yīng)的行(觀察)。矩陣X的每一列表示相應(yīng)的給定變量的N次觀察的向量,與截矩有關(guān)的所有觀察值都等于1。經(jīng)典的線性回歸模型的假設(shè)可以闡述如下:模型形式由(32.1)給定;矩陣X的元素都是確定的,X的秩為(k+1),且k小于觀察數(shù)N;為正態(tài)分布,E()=0和,式中I為N×N單位矩陣。根據(jù)X的秩為(k+1)的假定,可以保證不會(huì)出現(xiàn)共線性。如果出現(xiàn)完全共線性,矩陣X的一列將為其余列的線性組合,而X的秩將小于(k+1)),關(guān)于誤差的假設(shè)是最有用的假設(shè),因?yàn)橛盟梢员WC最小二乘法估計(jì)過(guò)程的統(tǒng)計(jì)性質(zhì)。除了正態(tài)性外,我們還假定每一個(gè)誤差項(xiàng)的平均值為0,方差為常數(shù),以及協(xié)方差為0。假若我們按Y的分布來(lái)表示假設(shè)(3),則可寫(xiě)成下式:(32.4)最小二乘法估計(jì)我們的目的是求出一個(gè)參數(shù)向量使得殘差平方和最小,即(32.5)式中,(32.6)(32.7)其中表示回歸殘差的N列向量,而表示Y擬合值的N列向量,表示為估計(jì)參數(shù)的(k+1)列向量,將式(32.6)和式(32.7)代入式(32.5),則得:(32.8)為了確定最小二乘法估計(jì)量,我們求ESS對(duì)進(jìn)行微分,并使之等于0,即(32.9)所以(32.10)被稱為“交叉乘積矩陣”的矩陣能夠保證逆變換,這是因?yàn)槲覀兗僭O(shè)X的秩為(k+1),該假設(shè)直接導(dǎo)致了的非奇異性。最小化的二階條件是,是一個(gè)正定矩陣。最小二乘法殘差有一個(gè)有益的特性,即(32.11)這個(gè)結(jié)果說(shuō)明自變量和殘差的交叉乘積的總和為O,這個(gè)公式在一些推導(dǎo)中是非常有用的。現(xiàn)在可以考慮最小二乘估計(jì)量的性質(zhì)。首先可以證明它們是無(wú)偏估計(jì)量。因?yàn)?32.12)設(shè)式中,且是常數(shù),這樣(32.13)根據(jù)式(32.13),可以看到,只要遺漏變量都是隨機(jī)分布的,與X無(wú)關(guān),并且具有0均值,則最小二乘法估計(jì)量將是無(wú)偏的。(32.14)我們看到,最小二乘法估計(jì)量為線性和無(wú)偏估計(jì)量。事實(shí)上,為的最佳線性無(wú)偏估計(jì)量,也就是說(shuō)它在全部無(wú)偏估計(jì)量中方差最小,這就是著名的高斯-馬爾可夫定理。為了證明高斯-馬爾可夫定理,我們需要證明,任何其他線性估計(jì)量b的方差比的方差大。請(qǐng)注意=AY。為了不失去一般性,我們可寫(xiě)成:(32.15)假如b是無(wú)偏的,則(32.16)式(32.16)成立的一個(gè)必要和充分的條件是,這樣就可以研究矩陣。由于,所以有(32.17)由于 因?yàn)椋?,?32.18)我們可以看出,為一半正定矩陣。該矩陣的二次型為0,只有當(dāng)(所有元素為0)時(shí)才出現(xiàn)。當(dāng)時(shí),另外的估計(jì)量就是普通最小二乘法估計(jì)量,這樣,我們的定理就得到證明。的估計(jì)和t檢驗(yàn)為了計(jì)算估計(jì)參數(shù)的方差-協(xié)方差矩陣,我們需要給出的估計(jì)量,該估計(jì)量自然選為(32.19)證明為的一個(gè)無(wú)偏估計(jì)量,雖很單調(diào)冗長(zhǎng),但不困難。因此,是Var()的估計(jì)。當(dāng)為已知時(shí),可用正態(tài)分布假設(shè)檢驗(yàn)。當(dāng)用近似時(shí),我們不得不用t假設(shè)檢驗(yàn)。為此,我們利用以下的統(tǒng)計(jì)結(jié)果:若已知,則服從分布,具有N-k-1個(gè)自由度;嵌入Equation.3錯(cuò)誤!未定義書(shū)簽。服從分布,具有N-k-1個(gè)自由度;嵌入Equation.3錯(cuò)誤!未定義書(shū)簽。,當(dāng)i=0,1,2,…,k時(shí),服從正態(tài)分布,平均值為0,方差為,其中vi為的第i個(gè)對(duì)角線元素;嵌入Equation.3錯(cuò)誤!未定義書(shū)簽。和相互獨(dú)立。由此得出:(32.20)該式為t分布,具有(N-k-1)個(gè)自由度。這就使我們能按照與前面所述相同的方式確定各個(gè)回歸參數(shù)的置信區(qū)間。假如t值的絕對(duì)值相當(dāng)大,就可以在適當(dāng)選定的置信水平上否定原假設(shè),參數(shù)的置信區(qū)間可由下式得出:(32.21)其中為與顯著水平有關(guān)的t分布臨界值。R2和F檢驗(yàn)我們可將Y的總變差分成兩部分,一部分代表已說(shuō)明變差,另一部分代表末說(shuō)明變差。為了簡(jiǎn)化公式推導(dǎo)過(guò)程,首先我們假定Y變量具有0平均值,即=0,則有(32.22)由于和,所以(32.23)式中為總平方和,為回歸(已說(shuō)明)平方和,為殘差(未說(shuō)明)平方和,歸納成回歸方差分析表,見(jiàn)表32.1所示。表32.1回歸方差分析表變異來(lái)源source離差平方和SS自由度df均方MSF統(tǒng)計(jì)量FP概率值P回歸RP誤差E總變異T從而,(32.24)若因變量不具有0平均值,我們必須改進(jìn)一下的定義。這樣,由此可以得出:(32.25)和(32.26)注意到一個(gè)數(shù)學(xué)上的事實(shí):隨著模型中增添新的變量,必定會(huì)增加,從而只要給模型增添越來(lái)越多的新因素,就可能使得人為地增大。在一元回歸時(shí)已經(jīng)指出較大常指模型與數(shù)據(jù)擬合得較好,在多元回歸時(shí)很容易錯(cuò)誤地去尋找一個(gè)極大化的回歸模型。我們應(yīng)該知道一個(gè)好的多元回歸模型,應(yīng)具有合理個(gè)數(shù)的有意義自變量的簡(jiǎn)單模型。為了解決這個(gè)問(wèn)題,提出了修正,使得只有當(dāng)新增變量確實(shí)對(duì)因變量有所作用時(shí)修正才會(huì)增加。我們定義為修正的,它是校正擬合優(yōu)度對(duì)自由度的依賴關(guān)系,如下式如示:(32.27)現(xiàn)在就可以考慮對(duì)回歸系數(shù)集的統(tǒng)計(jì)檢驗(yàn)。最通常利用的檢驗(yàn)是,這個(gè)聯(lián)合假設(shè)的檢驗(yàn)。合適的F統(tǒng)計(jì)量為:(32.28)為分布,具有k和N-k-1自由度。較大的值,可使我們否定原假設(shè)。reg回歸過(guò)程在SAS/STAT中有多個(gè)進(jìn)行回歸的過(guò)程,如reg、glm等,常用于進(jìn)行一般線性回歸模型分析的為reg過(guò)程。procreg過(guò)程Reg過(guò)程一般由下列語(yǔ)句控制:procregdata=數(shù)據(jù)集集名</選項(xiàng)列表>;model因變量=自變量名列</選項(xiàng)列表>;var變量列表;outputout=數(shù)據(jù)集名</選項(xiàng)列表>;plot繪圖表達(dá)式</選項(xiàng)列表>;print關(guān)鍵字列;weight變量;freq變量;by變量;restrict方程1,方程2,…;test方程1,方程2,…;run;其中model語(yǔ)句是必需要有的,其他語(yǔ)句都是可選的。procreg語(yǔ)句中的<選項(xiàng)列表>。outest=SAS數(shù)據(jù)集——將有關(guān)模型的參數(shù)估計(jì)和選擇的統(tǒng)計(jì)量輸出到指定的SAS數(shù)據(jù)集中。outsscp=SAS數(shù)據(jù)集——要求把平方和及叉積矩陣輸出到type=sscp的數(shù)據(jù)集中。all——屏幕輸出所有內(nèi)容。usscp——對(duì)用在該過(guò)程中的所有變量輸出平方和及叉積矩陣。noprint——不在屏幕輸出任何內(nèi)容。model語(yǔ)句中的<選項(xiàng)列表>。確定變量篩選辦法的選擇項(xiàng)。selection=none|forward|backward|stepwise|maxr|minr|rsquare|cp|adjrsq依次表示全部變量進(jìn)入法none、前進(jìn)法forward、后退法backward、逐步篩選法stepwise(前進(jìn)法與后退法的結(jié)合)、最大R2增量法maxr、最小R2增量法minr、R2選擇法rsquare、Mallow'sCp選擇法cp、修正R2選擇法adjrsq。其他選擇項(xiàng)見(jiàn)表3.2所示是可在model語(yǔ)句中選用的其他選項(xiàng)。表32.2model語(yǔ)句中的其他選項(xiàng)acovxpxspecpcorr1slentry=detailsaiccovbistbpcorr2slstay=lackfitsbccorrbpcliscorr1start=collinss1mserclmscorr2best=collinointss2ssebjpadjrsqinclude=influencevifseqbdwrmsegmsepstop=partialtolallpcspnointsigma=noprintbic其中一些選擇項(xiàng)的意義如下:acov——存在異方差時(shí),輸出參數(shù)估計(jì)量的漸近協(xié)方差陣的估計(jì)。spec——進(jìn)行關(guān)于方差異性的檢驗(yàn)。slentry|sle=顯著性水平——規(guī)定入選變量進(jìn)人方程的顯著性水平。slstay|sls=剔除水平——規(guī)定從方程中剔除變量的顯著性水平。include=n——強(qiáng)迫前n個(gè)自變量進(jìn)入模型。start=s——以含有model語(yǔ)句中前3個(gè)自變量的模型開(kāi)始,進(jìn)行比較、選擇過(guò)程(僅用于maxr或minr方法)。stop=s——當(dāng)找到最佳的s個(gè)變量模型之后,逐步回歸便停止(僅用于maxr或minr方法)。p——要求計(jì)算各觀測(cè)點(diǎn)上因變量的預(yù)測(cè)值。r——作殘差分析,同時(shí)給出因變量的預(yù)測(cè)值。cli——給出各自變量x0所對(duì)應(yīng)的因變量y0的95%置信上、下限。clm——給出各自變量所對(duì)應(yīng)的因變量預(yù)測(cè)值(均數(shù))Eyi=μi的95%置信上、下限。noint——指明回歸方程不帶截距項(xiàng)(常數(shù)項(xiàng))。stb——要求輸出標(biāo)準(zhǔn)回歸系數(shù)。covb——要求輸出回歸系數(shù)估計(jì)的協(xié)方差(陣)估計(jì)。corrb——要求輸出回歸系數(shù)估計(jì)的相關(guān)矩陣估計(jì)。mse——要求輸出隨機(jī)擾動(dòng)項(xiàng)方差的估計(jì)。rmse——要求輸出。collin——在對(duì)截距未進(jìn)行校正的情形下,診斷多重共線性,條件數(shù)越大越可能存在共線性。collinoint——在對(duì)截距進(jìn)行校正的情形下,診斷多重共線性。tol——表示共線性水平的容許值。對(duì)于某個(gè)變量容許值定義為1-,其中是由這個(gè)變量和模型中所有其他回歸變量建立的回歸模型所得到的。tol越小說(shuō)明其可用別的自變量解釋的部分多,自然就越可能與別的自變量存在共線性關(guān)系,tol與vif互為倒數(shù)。vif——輸出變量間相關(guān)性的方差膨脹系數(shù),vif越大,說(shuō)明由于共線性的存在,使方差變大。influence——要求對(duì)異常點(diǎn)進(jìn)行診斷。對(duì)每一觀測(cè)點(diǎn),輸出如下表32.3所示統(tǒng)計(jì)量:表32.3診斷異常點(diǎn)的統(tǒng)計(jì)量名稱(統(tǒng)計(jì)量)含義“異常”的判別準(zhǔn)則Leverage(hi)杠桿率hi,第i次觀測(cè)自變量的取值在模型中作用的量度(0≤hi≤1)hi越大,則第i次觀測(cè)在模型中的作用就越大Cook’sDCOOKD統(tǒng)計(jì)量,對(duì)某一觀測(cè)點(diǎn)引起回歸影響大小的度量。用于診斷異常點(diǎn)。若D>50%,則可認(rèn)為該觀測(cè)點(diǎn)對(duì)模型的擬合有強(qiáng)的影響covratio協(xié)方差矩陣的行列式之比(去掉某一觀測(cè)點(diǎn)后、前對(duì)比)若|covratio|≥3(自變量個(gè)數(shù)+i),則第i個(gè)觀測(cè)點(diǎn)值得引起注意defits此值大于2,表明該點(diǎn)影響較大debetas此值大于2,表明該點(diǎn)影響較大i——要求打印(其中X為設(shè)計(jì)矩陣)。xpx——輸出模型的叉積矩陣。ss1——要求打印第一類(lèi)的模型參數(shù)估計(jì)的順序平方和。ss2——要求打印第二類(lèi)的模型參數(shù)估計(jì)的偏平方和。all——要求輸出SAS所分析的以下選擇項(xiàng)的特性:xpx,ss1,ss2,stb,covb,corrb,seqb,p,r,cli,clm,spec,acov,tol,pcorr1,pcor,r2,scorr1,scorr2。partial——給出每一回歸變量的偏回歸殘差圖。dw——一階自相關(guān)檢驗(yàn)的Durbin-Watson統(tǒng)計(jì)量。其他選擇語(yǔ)句output語(yǔ)句——用于把一些計(jì)算結(jié)果輸出到指定的數(shù)據(jù)集中。有關(guān)的關(guān)鍵字及其意義如表32.4所示。表32.4reg過(guò)程的output語(yǔ)旬中的關(guān)鍵字關(guān)鍵字意義關(guān)鍵字意義關(guān)鍵字意義predicted預(yù)測(cè)值l95m95%clm下限stdpclm的標(biāo)準(zhǔn)差residual殘差u95m95%clm上限stdr殘差的標(biāo)準(zhǔn)差press殘差/(1–hi)l9595%cli下限stdicli的標(biāo)準(zhǔn)差rstudent刀切殘差u9595%cli上限cookedCookD統(tǒng)計(jì)量student學(xué)生氏殘差h杠桿點(diǎn)統(tǒng)計(jì)量hivar語(yǔ)句——列出叉積矩陣中的變量,僅當(dāng)具有outsscp=sasdataset這個(gè)選擇時(shí)才使用。plot語(yǔ)句——繪制兩變量的散點(diǎn)圖。語(yǔ)句格式為:plotx*y/選項(xiàng)。其中x和y變量,可以是原始數(shù)據(jù)集中的變量,也可以是統(tǒng)計(jì)量關(guān)鍵字。若變量是統(tǒng)計(jì)量關(guān)鍵字時(shí),需要在其后加上一個(gè)小圓點(diǎn)“·”。restrict語(yǔ)句——要求計(jì)算線性等式約束的最小二乘估計(jì),其中的方程就是關(guān)于回歸系數(shù)(用自變量表示)的等式,方程與方程間用逗號(hào)分隔。例如對(duì)于模型modely=a1a2b1b2,可以用restricta1+a2=1語(yǔ)句,表示參數(shù)估計(jì)是在a1+a2=1的條件下,求最小二乘估計(jì)。test語(yǔ)句——要求進(jìn)行線性等式約束的顯著性檢驗(yàn),即Tintner檢驗(yàn),其中的方程就是關(guān)于回歸系數(shù)(用自變量表示)的等式,方程與方程間用逗號(hào)分隔;test語(yǔ)句一般不與restrict語(yǔ)句同用。例如對(duì)于模型modely=a1a2b1b2,可以用testa1+a2=1語(yǔ)句,表示在a1+a2=1原假設(shè)條件下作F檢驗(yàn)。交互式語(yǔ)句下面的這部分語(yǔ)句可以用在procreg過(guò)程中,但常用在reg過(guò)程激活后,以交互方式運(yùn)行。add變量名列表——向模型中增加變量。delete變量名列表——?jiǎng)h除原擬合模型中的有關(guān)變量。refit——重新擬合模型。print——輸出有關(guān)模型的相關(guān)信息。reg過(guò)程其詳細(xì)用法可參閱SAS/STAT的用戶手冊(cè)。實(shí)例分析例32.1表32.5列舉了一個(gè)班級(jí)的學(xué)生情況的調(diào)查數(shù)據(jù),試分析身高對(duì)體重的影響。表32.5bclass記錄數(shù)據(jù)name姓名age年齡sex性別height身高(厘米)weight體重(公斤)name姓名age年齡sex性別height身高(厘米)weight體重(公斤)KATE12女14543.1FREDRICK14男15442.2LOUISE12女14955.8ALFRED14男15744.9JANE12女13533.6HENRY14男15954.0JACLYN12女16265.8LEWIS14男15741.8LILLIE12女12729.1EDWARD14男16750.8TIM12男14738.1CHRIS14男15744.9JAMES12男14958.1JEFFERY14男16951.3ROBERT12男12535.9MARY15女15241.8BARBARA13女14750.8AMY15女15750.8ALICE13女14948.6ROBERT15男16458.1SUSAN13女13730.4WILLIAM15男15950.4JOHN13男15944.5CLAY15男16247.7JOE13男15447.7MARK15男15247.2MICHAEL13男14243.1DANNY15男16248.1DAVID13男14535.9MARTHA16女15950.8JUDY14女14936.8MARIAN16女14752.2ELIZABET14女15241.3PHILLIP16男16758.1LESLIE14女15964.5LINDA17女15252.7CAROL14女15438.1KIRK17男16760.8PATTY14女15238.6LAWRENCE17男17278.1分析和操作步驟過(guò)程如下。建立數(shù)據(jù)文件。首先要將上表32.5中的數(shù)據(jù)輸入到SAS數(shù)據(jù)集中,可調(diào)用SAS的數(shù)據(jù)步data過(guò)程,建立我們所需的bclass數(shù)據(jù)集。程序如下:datastudy.bclass;inputname$agesex$heightweight;cards;KATE12F14543.1LOUISE12F14955.8………LAWRENCE17M172;run;制作變量的散點(diǎn)圖。建立完SAS數(shù)據(jù)集bclass后,一般需要對(duì)數(shù)據(jù)集中要分析的變量weight與height制作散點(diǎn)圖,以便能從圖示中反映學(xué)生的身高與體重的關(guān)系。一般的處理操作都有菜單操作方法和編程方法2種。如果用菜單操作方法,在SAS/Assist環(huán)境中,從PrimaryMenu主菜單中選擇Graphics/Highresolution/Plots/Simplex*yplot…菜單命令,再選擇Activedataset為study.bclass,Verticalaxis為weight,Horizontalaxis為height,可以在additionaloptions選項(xiàng)菜單中通過(guò)LineandSymbol子選項(xiàng)選定所需要的連線類(lèi)型和點(diǎn)的符號(hào)等,最后選擇Locals/Run菜單命令提交運(yùn)行即可顯示圖形。如果用編程方法,程序如下:goptionsreset=globalgunit=pctcback=whiteborderhtitle=6htext=3ftext=swissbcolors=(back);procgplotdata=study.bclass;plotweight*height;run;運(yùn)行后,在Graph窗口得到見(jiàn)圖321所示的結(jié)果。圖圖51體重與身高(weight與height)的散點(diǎn)圖相關(guān)系數(shù)計(jì)算。如果用菜單操作方法,可選擇Globals/SAS/Assist/DataAnalysis/Elementary/Correlation命令,再選擇Activedataset為study.bclass,Columnstobecorrelated為weight和height,然后提交運(yùn)行。直接編寫(xiě)調(diào)用相關(guān)系數(shù)計(jì)算的程序?yàn)椋簆roccorrdata=study.bclass;varweightheight;run;運(yùn)行后,在Output窗口得到見(jiàn)表32.6所示的結(jié)果。表32.6身高與體重(weight與height)的相關(guān)系數(shù)CorrelationAnalysis2'VAR'Variables:WEIGHTHEIGHTCorrelationAnalysis2'VAR'Variables:WEIGHTHEIGHTSimpleStatisticsVariableNMeanStdDevSumMinimumMaximumWEIGHT4047.6625010.07415190729.1000078.10000HEIGHT40153.2500010.475256130125.00000172.00000PearsonCorrelationCoefficients/Prob>|R|underHo:Rho=0/N=40WEIGHTHEIGHTWEIGHT1.000000.708440.00.0001HEIGHT0.708441.000000.00010.0從輸出的表32.6可以看出高與體重之間相關(guān)系數(shù)為0.70844?;貧w分析。如果用菜單操作方法,可選擇Globals/SAS/Assist/DataAnalysis/Regression/Linearregression命令,再選擇Activedataset為study.bclass,Dependent為weight,Independent為height,然后提交運(yùn)行。編程實(shí)現(xiàn)回歸方法為:procregdata=study.bclass;modelweight=height/rclmclidw;run;其中,模型參數(shù)r表示要輸出殘差分析,包括因變量的觀察值、由輸入數(shù)據(jù)和估計(jì)模型來(lái)計(jì)算的預(yù)測(cè)值、殘差值、標(biāo)準(zhǔn)誤差、學(xué)生化殘差、COOKD統(tǒng)計(jì)量。模型參數(shù)clm表示對(duì)每個(gè)觀察輸出因變量期望值的95%置信上界和下界,僅考慮到參數(shù)估計(jì)的偏差,沒(méi)有考慮誤差項(xiàng)的偏差。模型參數(shù)cli表示對(duì)因變量的各個(gè)預(yù)測(cè)值輸出95%置信上界和下界,這個(gè)置信界反映了誤差的偏差以及參數(shù)估計(jì)的偏差。模型參數(shù)dw表示要進(jìn)行誤差項(xiàng)的對(duì)立性檢驗(yàn),計(jì)算Durbin-Watson統(tǒng)計(jì)量。運(yùn)行后,在Output窗口得到見(jiàn)表32.7所示的結(jié)果。Model:MODEL1DependentVariable:WEIGHTAnalysisofVariance(方差分析)SumofMeanSourceModel:MODEL1DependentVariable:WEIGHTAnalysisofVariance(方差分析)SumofMeanSourceDFSquaresSquareFValueProb>FModel11986.484571986.4845738.2870.0001Error381971.5691851.88340CTotal393958.05375RootMSE7.20301R-square0.5019DepMean47.66250AdjR-sq0.4888C.V.15.11254ParameterEstimates(參數(shù)估計(jì))ParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP1-56.74857516.91239600-3.3550.0018HEIGHT10.6813120.110107706.1880.0001誤差項(xiàng)的獨(dú)立性檢驗(yàn)Durbin-WatsonD1.471(ForNumberofObs.)401stOrderAutocorrelation0.185置信區(qū)間DepVarPredictStdErrLower95%Upper95%Lower95%Upper95%StdErrObsWEIGHTValuePredictMeanMeanPredictPredictResidualResidual143.100042.04171.45739.092544.990827.164756.91871.05837.054255.800044.76691.23142.274347.259529.973759.560211.03317.097333.600035.22862.31030.552739.904419.915550.5417-1.62866.823……3852.700046.81091.14744.488549.133232.045361.57645.88917.1113960.800057.03051.89553.195360.865841.952972.10823.76956.9494078.100060.43712.35855.663965.210345.094075.780217.66296.806殘差分析StudentCook'sObsResidual-2-1-012D10.150|||0.00021.555||***|0.0363-0.239|||0.00341.728||***|0.0675-0.104|||0.0016-0.749|*||0.01071.879||***|0.053……35-0.110|||0.000361.242||**|0.027370.154|||0.001380.828||*|0.009390.542||*|0.011402.595||*****|0.404SumofResiduals0SumofSquaredResiduals1971.5692PredictedResidSS(Press)2209.7166回歸分析根據(jù)所選擇的模型參數(shù)的輸出,輸出分為若干段,下面逐個(gè)段地給以說(shuō)明:方差分析表提供關(guān)于擬合模型的一般信息??傆^察數(shù)N=40,自變量個(gè)數(shù)k=1,回歸模型帶有截距i=1?;貧w模型的離差平方和RSS=1986.48457,自變量的個(gè)數(shù)k=1,所以自由度df=k=1,計(jì)算公式見(jiàn)(31.29)式。因變量的樣本離差平方和TSS=3958.05375,自由度為df=N-1=40-1=39,計(jì)算公式見(jiàn)(31.34)式。誤差項(xiàng)的樣本離差平方和ESS=1971.56918,自由度df=N-k-1=40-1-1=38,計(jì)算公式見(jiàn)(31.32)式。注意TSS=RSS+ESS,即3958.05375=1986.48457+1971.56918?;貧w模型的離差平方和平均值MSR=RSS/df=1986.48457/1=1986.48457,誤差項(xiàng)的離差平方和平均值MSE=ESS/df=1971.56918/38=51.88340。在原假設(shè)所有自變量的回歸系數(shù)都為0的情況下,本例只有一個(gè)自變量height,即H0:,F(xiàn)(1,38)=MSR/MSE=1986.48457/51.88340=38.287,查F分布表,p值為0.0001小于顯著水平0.05,表明可拒絕原假設(shè)并有足夠的證據(jù)斷定回歸線的斜率不為零。所以,這一模型擬合數(shù)據(jù)比基線模型好。無(wú)偏的誤差估計(jì)標(biāo)準(zhǔn)值RootMSE==7.20301,因變量weight平均值DepMean=47.66250,變異系數(shù)(或稱方差系數(shù))CV=RootMSE/DepMean×100=7.20301/47.66250×100=15.11254,它表示與單位無(wú)關(guān)的方差。RSquare是0~1之間的值,它表示貢獻(xiàn)給模型而不是貢獻(xiàn)給擬合殘差的總方差的那部分,它也稱為決定系數(shù)或擬合優(yōu)度,用于判斷回歸模型擬合好壞。R2=1-ESS/TSS=RSS/TSS=1986.48457/3958.05375=0.5019,調(diào)整R2=1-ESS/TSS×(N-i)/(N-k-i)=1-1971.56918/3958.05375×39/38=0.4888,R2越是接近1說(shuō)明模型擬合的越好,等于1則說(shuō)明完全擬合,沒(méi)有任何信息丟失,本例的R2值表明有一半信息丟失沒(méi)有被回歸模型表示出來(lái),通常R2應(yīng)該超過(guò)0.7以上才比較好。參數(shù)估計(jì)表給出截距和斜率的估計(jì)值,方程表明截距的估計(jì)值為-56.748575,斜率的估計(jì)值為0.681312,計(jì)算公式見(jiàn)(31.17)和(31.19式)。估計(jì)截距的標(biāo)準(zhǔn)誤差計(jì)算公式見(jiàn)(31.37)式,其中,自變量height的平均值=153.25,自變量height的離差平方和=4279.5,估計(jì)誤差51.88340,所以估計(jì)截距的標(biāo)準(zhǔn)誤差=16.912396,截距等于零的原假設(shè)下,計(jì)算出的t(38)=-56.748575/16.912396=-3.355,大于此臨界點(diǎn)絕對(duì)值出現(xiàn)的概率為0.0018,遠(yuǎn)遠(yuǎn)地小于5%,有充足的理由否決截距為零的原假設(shè)。估計(jì)斜率的標(biāo)準(zhǔn)誤差計(jì)算公式見(jiàn)(5.1.38)式,估計(jì)斜率的標(biāo)準(zhǔn)誤差=0.1101077,斜率等于零的原假設(shè)下,計(jì)算出的t(38)=0.681312/0.1101077=6.188,大于此臨界點(diǎn)絕對(duì)值出現(xiàn)的概率為0.0001,遠(yuǎn)遠(yuǎn)地小于5%,有充足的理由否決斜率為零的原假設(shè)。自由度為38的T分布,95%置信區(qū)間的雙側(cè)臨界值為2.0243941,所以截距的95%置信區(qū)間的下界=-56.74857556.748575-2.0243941×16.912396=-90.98593007,上界=-56.74857556.748575+2.0243941×16.912396=-22.5112,斜率的95%置信區(qū)間的下界=0.681312-2.0243941×0.1101077=0.458410683,上界=0.681312+2.0243941×0.1101077=0.9042135。置信區(qū)間分析,輸出了weight因變量(DepVar)的40條原始觀察值和回歸模型的預(yù)測(cè)均值(PredictValue),及預(yù)測(cè)均值的標(biāo)準(zhǔn)差(StdErrPredict)、預(yù)測(cè)均值的置信區(qū)間下界(Lower95%Mean)和上界(Upper95%Mean)、預(yù)測(cè)值的置信區(qū)間下界(Lower95%Predict)和上界(Upper95%Predict)、殘差(Residual)、殘差的標(biāo)準(zhǔn)差(StdErrResidual)。我們以第一條觀察(Obs=1)為例來(lái)說(shuō)明計(jì)算過(guò)程,已知第一條的觀察=43.1,=145,根據(jù)回歸模型最小二乘法計(jì)算出的估計(jì)參數(shù),可以得到預(yù)測(cè)均值為-56.748575+0.681312×145=42.0417。第一條觀察的杠桿率計(jì)算公式見(jiàn)(31.42)式,=0.040904311,所以預(yù)測(cè)均值的標(biāo)準(zhǔn)差=1.457。預(yù)測(cè)均值服從自由度為38的T分布,這樣預(yù)測(cè)均值的95%置信區(qū)間下界=42.0417-2.0243941×1.457=39.0925,上界=42.0417+2.0243941×1.457=44.9908。預(yù)測(cè)值的方差除了要考慮參數(shù)估計(jì)的偏差,還要考慮誤差項(xiàng)的偏差,所以要在預(yù)測(cè)均值的偏差上加上一個(gè)誤差項(xiàng)的偏差,計(jì)算公式見(jiàn)(31.44)式,預(yù)測(cè)值的標(biāo)準(zhǔn)差=7.34885394,這樣預(yù)測(cè)值的95%置信區(qū)間下界=42.0417-2.0243941×7.34885394=27.1647,上界=42.0417+2.0243941×7.34885394=56.9187,我們從上面的置信區(qū)間計(jì)算中可以發(fā)現(xiàn)二個(gè)知識(shí)點(diǎn),第一知識(shí)個(gè)點(diǎn),預(yù)測(cè)值的置信區(qū)間要大于預(yù)測(cè)均值的置信區(qū)間,第二個(gè)知識(shí)點(diǎn),越是接近自變量height平均值153.25的height觀察值,它的因變量weight預(yù)測(cè)均值和預(yù)測(cè)值的置信區(qū)間越是窄,而越是偏離自變量平均值153.25的height觀察值,它的因變量weight預(yù)測(cè)均值和預(yù)測(cè)值的置信區(qū)間越是寬,從圖形上直觀地看置信區(qū)間為中間窄,兩頭形成喇叭口。殘差分析,我們?nèi)匀灰缘谝粭l觀察為例來(lái)說(shuō)明計(jì)算過(guò)程。殘差=43.1000-42.0417=1.0583。標(biāo)準(zhǔn)殘差的計(jì)算公式見(jiàn)(31.46)式,標(biāo)準(zhǔn)殘差=7.054,學(xué)生化殘差(StudentResidual)=殘差/標(biāo)準(zhǔn)殘差=1.0583/7.054=0.150。由于學(xué)生化殘差服從標(biāo)準(zhǔn)正態(tài)分布,將學(xué)生化殘差畫(huà)在殘差圖上,我們可以清楚地看到大約68%的學(xué)生化殘差值落在一個(gè)標(biāo)準(zhǔn)差-1到+1之間,而大約95%學(xué)生化殘差值落在二個(gè)標(biāo)準(zhǔn)差-2到+2之間?;旧险J(rèn)為模型的誤差項(xiàng)正態(tài)分布及同方差假設(shè),在診斷上沒(méi)有太大問(wèn)題。殘差之和=0,殘差的平方和=1971.5692。COOKD統(tǒng)計(jì)量用于預(yù)測(cè)每個(gè)觀察點(diǎn)是否為強(qiáng)影響點(diǎn)或稱異常點(diǎn),它是通過(guò)刪除這個(gè)觀察點(diǎn)后重新用最小二乘估計(jì)求解參數(shù)值,來(lái)分析這個(gè)觀察點(diǎn)。觀察點(diǎn)的COOKD統(tǒng)計(jì)量小于50%,我們認(rèn)為不存在異常情況。PRESS統(tǒng)計(jì)量是預(yù)測(cè)殘差的平方和,第i個(gè)觀察的殘差定義為,其中為刪除第i個(gè)觀察后從余下的組數(shù)據(jù)中重新用最小二乘法求出的參數(shù)估計(jì),計(jì)算出的第i個(gè)觀察的預(yù)測(cè)值。第i個(gè)觀察的預(yù)測(cè)殘差為。誤差的獨(dú)立性檢驗(yàn),它是回歸模型的三大假設(shè)之一。我們采用針對(duì)殘差一階自相關(guān)性進(jìn)行計(jì)算的Durbin-Watson統(tǒng)計(jì)量來(lái)檢驗(yàn),計(jì)算公式見(jiàn)(31.48)式,相鄰殘差之差的平方和=2899.603,DW=2899.603/1971.56918=1.471,DW值靠近2說(shuō)明誤差基本上是獨(dú)立的,小于2說(shuō)明是正相關(guān)。殘差一階自相關(guān)系數(shù)=0.185,接近0也說(shuō)明了誤差基本上是獨(dú)立的。殘差一階自相關(guān)系數(shù)的計(jì)算方法與一般的相關(guān)系數(shù)計(jì)算公式類(lèi)似,殘差值的第一個(gè)序列數(shù)據(jù)為第1個(gè)殘差到第39個(gè)殘差,第二個(gè)序列數(shù)據(jù)為第2個(gè)殘差到第40個(gè)殘差,簡(jiǎn)化公式為第一、二個(gè)序列殘差數(shù)據(jù)的平均值為0,標(biāo)準(zhǔn)化時(shí)(公式的分母)取殘差值從1個(gè)到40個(gè),即。輸出帶有回歸線的散點(diǎn)圖。如果我們需要輸出帶有回歸線的散點(diǎn)圖,菜單操作方法是通過(guò)在additionaloptions選項(xiàng)菜單中選擇RegressionPlots/Plotsofdependentbyindependentcolumns命令,重新再提交一次。注意,此時(shí)還可以同時(shí)選擇輸出殘差圖。程序的方法是在procreg過(guò)程里增加plot語(yǔ)句,要注意SAS的關(guān)鍵字使用在plot語(yǔ)句中時(shí)要加小圓點(diǎn),這里是預(yù)測(cè)值p關(guān)鍵字,增加的plot語(yǔ)句如下:plotweight*height=’+’p.*height=’*’/overlay;如果我們需要輸出高分辯率的回歸線圖形,可以先在reg過(guò)程中將擬合的預(yù)測(cè)值p輸出到一個(gè)SAS數(shù)據(jù)集如bclassg中,再調(diào)用gplot過(guò)程繪制圖形。增加的output語(yǔ)句如下:outputout=study.bclassgp=predictl95=clil95u95=cliu95;繪制高分辨率的帶有回歸線的散點(diǎn)圖程序如下:goptionsreset=globalgunit=pctcback=whiteborderhtitle=6htext=3ftext=swissbcolors=(back);procgplotdata=bclassg;plotweight*heightpredict*heightclil95*heightcliu95*height/overlay;symbol1v=plusc=redi=noneh=2.5;symbol2i=splinev=nonec=blue;symbol3i=splinev=nonec=redl=3;symbol4i=splinev=nonec=blackl=3;run;注意,我們也可以用圖形自帶i=rlcli95選項(xiàng),直接繪制預(yù)測(cè)值的置信區(qū)間上下界。運(yùn)行后,在Graph窗口得到見(jiàn)圖322所示結(jié)果。圖5圖52帶有回歸線、95%置信線的體重與身高(weight與height)散點(diǎn)圖此外,還可用性別來(lái)分組,分別對(duì)男生和女生進(jìn)行回歸分析,分別建立男生和女生的回歸模型。例32.2研究耗氧量模型。這是有關(guān)身體適應(yīng)性測(cè)試的例子,肺活量與一些簡(jiǎn)單的鍛煉測(cè)試數(shù)據(jù)的擬合,目的是為了在鍛煉測(cè)試的基礎(chǔ)上而不是在昂貴笨重的氧氣消耗測(cè)試的基礎(chǔ)上得到方程來(lái)預(yù)測(cè)適應(yīng)性。由于回歸是相關(guān)的,所以理論上還應(yīng)該請(qǐng)求共線性診斷。該數(shù)據(jù)名為fitness,這是一個(gè)對(duì)31位成年人心肺功能的調(diào)查結(jié)果,它包含的變量見(jiàn)下表32.8,測(cè)試的各項(xiàng)數(shù)據(jù)見(jiàn)下表32.9。表32.8fitness數(shù)據(jù)集的變量名變量名含義age年齡weight體重oxygen耗氧量runtime跑15英哩的時(shí)間(分)rstpulse休息時(shí)每分鐘心跳次數(shù)runpulse跑步時(shí)每分鐘心跳次數(shù)maxpulse每分鐘心跳次數(shù)最大值表32.9fitness數(shù)據(jù)集中的測(cè)試數(shù)據(jù)ageweightoxygenruntimerstpulserunpulsemaxpulse4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.63481641665070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172在這個(gè)鍛煉測(cè)試數(shù)據(jù)里,我們感興趣的是耗氧量是如何依賴于其他變量的。建立數(shù)據(jù)文件。程序如下:datafitness;inputageweightoxygenruntimerstpulserunpulsemaxpulse;cards;4489.4744.60911.37621781824075.0745.31310.0762185185………5282.7847.46710.5053170172;run;制作變量的散點(diǎn)圖。fitness數(shù)據(jù)集中的變量較多,我們需要制作每?jī)蓚€(gè)不同變量oxygen、age、weight、runtime、rstpulse、runpulse和maxpulse之間的所有散點(diǎn)圖,即散點(diǎn)圖矩陣,共有7×6=42個(gè)散點(diǎn)圖。我們可以通過(guò)在SAS/Insight軟件中繪制散點(diǎn)圖矩陣,操作步驟為:在SAS命令框中鍵入insight后按Enter,在SAS/Insight:Open對(duì)話單中,選擇work.fitness數(shù)據(jù)集后單擊Open按鈕,將在屏幕的窗口中顯示當(dāng)前打開(kāi)的數(shù)據(jù)集work.fitness內(nèi)容,再選擇菜單上的Analyze/ScatterPlot(YX)命令,在出現(xiàn)的ScatterPlot(YX)對(duì)話單中,把fitness數(shù)據(jù)集中的7個(gè)變量依上面的次序全部加入的Y軸和X軸的列表框中,最后單擊OK。見(jiàn)圖323所示。圖323fitness變量間的散點(diǎn)圖矩陣散點(diǎn)圖矩陣圖中第一行的六個(gè)散點(diǎn)圖分別表示oxygen變量作為y軸,其他六個(gè)變量作為x軸的散點(diǎn)圖,第一列的六個(gè)散點(diǎn)圖分別表示oxygen變量作為x軸,其他六個(gè)變量作為y軸的散點(diǎn)圖。對(duì)角線上第一個(gè)oxygen小方格里的左下角數(shù)字37.388和右上角數(shù)字60圖323fitness變量間的散點(diǎn)圖矩陣?yán)L制散點(diǎn)圖矩陣圖是為了研究變量間的相關(guān)性,從圖323中,我們發(fā)現(xiàn)變量runpulse與maxpulse之間存在有較強(qiáng)的共線性,如果在回歸模型中增加方差膨脹系數(shù)(vif),共線性水平的容許值(tol),條件數(shù)(collin)選項(xiàng)對(duì)回歸進(jìn)行診斷,也會(huì)得到相同的結(jié)論。另外,我們從圖中還發(fā)現(xiàn)耗氧量oxygen與變量runtime有較強(qiáng)的負(fù)相關(guān)。從下面的相關(guān)系數(shù)計(jì)算中也能得到這些相同認(rèn)識(shí)。相關(guān)系數(shù)計(jì)算。編寫(xiě)的相關(guān)系數(shù)計(jì)算程序如下:proccorrdata=fitness;varoxygenageweightruntimerstpulserunpulsemaxpulse;labeloxygen='Oxygenconsumption'age='Ageinyears'weight='weightinkg'runtime='Min.torun1.5miles'rstpulse='Heartratewhileresting'runpulse='Heartratewhilerunning'maxpulse='Maximumheartrate';run;運(yùn)行后,在Output窗口得到表32.10所示的結(jié)果。CorrelationAnalysis7'VAR'Variables:OXYGENAGEWEIGHTRUNTIMERSTPULSERUNPULSEMAXPULSESimpleStatisticsVariableNMeanCorrelationAnalysis7'VAR'Variables:OXYGENAGEWEIGHTRUNTIMERSTPULSERUNPULSEMAXPULSESimpleStatisticsVariableNMeanStdDevSumMinimumMaximumLabelOXYGEN3147.37585.32721468.737.388060.0550OxygenconsumptionAGE3147.67745.21141478.038.000057.0000AgeinyearsWEIGHT3177.44458.32862400.859.080091.6300WeightinkgRUNTIME3110.58611.3874328.28.170014.0300Min.torun1.5milesRSTPULSE3153.74198.29441666.040.000076.0000HeartratewhilerestingRUNPULSE31169.645210.25205259.0146.0000186.0000HeartratewhilerunningMAXPULSE31173.77429.16415387.0155.0000192.0000MaximumheartratePearsonCorrelationCoefficients/Prob>|R|underHo:Rho=0/N=31OXYGENAGEWEIGHTRUNTIMERSTPULSERUNPULSEMAXPULSEOXYGEN1.00000-0.30459-0.16275-0.86219-0.34641-0.39797-0.23674Oxygenconsumption0.00.09570.38170.00010.05630.02660.1997AGE-0.304591.00000-0.233540.18875-0.14157-0.33787-0.43292Ageinyears0.09570.00.20610.30920.44750.06300.0150WEIGHT-0.16275-0.233541.000000.143510.022700.181520.24938Weightinkg0.38170.20610.00.44120.90350.32840.1761RUNTIME-0.862190.188750.143511.000000.400540.313650.22610Min.torun1.5miles0.00010.30920.44120.00.02560.08580.2213RSTPULSE-0.34641-0.141570.022700.400541.000000.317970.25750Heartratewhileresting0.05630.44750.90350.02560.00.08130.1620RUNPULSE-0.39797-0.337870.181520.313650.317971.000000.92975Heartratewhilerunning0.02660.06300.32840.08580.08130.00.0001MAXPULSE-0.23674-0.432920.249380.226100.257500.929751.00000Maximumheartrate0.19970.01500.17610.22130.16200.00010.0回歸分析。編寫(xiě)的回歸分析程序如下:procregdata=fitness;modeloxygen=agemaxpulserstpulserunpulseruntimeweight/ss1ss2;run;Model語(yǔ)句中增加ss1和ss2選項(xiàng),回歸模型將計(jì)算每個(gè)自變量?jī)煞N不同類(lèi)型的平方和,其中,ss1是按model語(yǔ)句中自變量的排列順序依此計(jì)算每個(gè)自變量的平方和,也稱為第一類(lèi)平方和或稱順序平方和,ss2是把model語(yǔ)句中每個(gè)自變量排到變量列表的最后,所計(jì)算的第一類(lèi)平方和,也稱為第二類(lèi)平方和或稱部分平方和。通過(guò)分析每個(gè)自變量的這兩類(lèi)平方和,能知道回歸模型總的平方和的構(gòu)成和各個(gè)自變量所貢獻(xiàn)的平方和,進(jìn)而能知道哪些自變量是最重要的回歸變量,哪些回歸變量可能是無(wú)關(guān)緊要的,配合參數(shù)估計(jì)的t檢驗(yàn),最終為縮減回歸變量提供依據(jù),到達(dá)簡(jiǎn)化模型的目的。運(yùn)行后,在Output窗口得到表32.11所示的結(jié)果。Model:MODEL1DependentVariable:OXYGENAnalysisofVarianceModel:MODEL1DependentVariable:OXYGENAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel6721.97421120.3290422.3160.0001Error24129.407335.39197CTotal30851.38154RootMSE2.32206R-square0.8480DepMean47.37581AdjR-sq0.8100C.V.4.90137ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|TypeISSTypeIISSINTERCEP1102.23833912.453047198.2100.000169578363.432659AGE1-0.2199160.09959154-2.2080.037078.98822726.291488MAXPULSE10.3047350.137224722.2210.0361142.35542626.590540RSTPULSE1-0.0008440.05863130-0.0140.988682.4478650.001118RUNPULSE1-0.3731640.12068038-3.0920.005098.36406551.555411RUNTIME1-2.6805160.37488355-7.1500.0001310.368687275.671437WEIGHT1-0.0723800.05467334-1.3240.19809.4499429.449942這一輸出與簡(jiǎn)單線性回歸的輸出是完全相仿的,只是進(jìn)入回歸的自變量有6個(gè)。從參數(shù)的估計(jì)值容易得到擬合的回歸為:oxygen=102.238339-0.219916age+0.304735maxpulse-0.000844rstpulse-0.373164runpulse-2.680516runtime-0.072380weight方差分析類(lèi)似于例30.1,多元線性回歸時(shí),F(xiàn)Value是除了截距外其他所有參數(shù)都為零的假設(shè)檢驗(yàn)。RSquare同時(shí)還是多重相關(guān)系數(shù)的平方,換言之,它是自變量與預(yù)測(cè)值之間的相關(guān)系數(shù)平方。我們這里不再重復(fù)分析和計(jì)算。多元線性回歸模型的第一個(gè)重要問(wèn)題是模型的簡(jiǎn)化,也就是說(shuō)如何正確地縮減自變量到達(dá)最優(yōu)的簡(jiǎn)化模型。由于自變量除了對(duì)總方差貢獻(xiàn)大小外,還存在著自變量間的相關(guān)性,刪除哪一個(gè)自變量并不是一個(gè)簡(jiǎn)單問(wèn)題。我們?cè)谶@里重點(diǎn)分析參數(shù)估計(jì)表中的TypeISS和TypeIISS平方和,配合分析參數(shù)估計(jì)的t檢驗(yàn)p值,對(duì)縮減自變量的依據(jù)有所掌握。類(lèi)型1的平方和(TypeISS)被稱為序列平方和,它是按model語(yǔ)句中自變量的先后序列,每加入一個(gè)自變量到這個(gè)序列中,回歸模型因此而增加的平方和,把這個(gè)增加的平方和算為這個(gè)自變量的類(lèi)型1的平方和。截距INTERCEP的TypeISS為,稱為修正均值,31×47.375812=69578。age的類(lèi)型1的平方和等于回歸模型只包括截距和age時(shí)的RSS值(78.988227),maxpulse的類(lèi)型1的平方和等于回歸模型只包括截距、age、maxpulse時(shí)的RSS值(221.344)減回歸模型只包括截距和age時(shí)的RSS值(78.988227),即221.344-78.988227=142.355426,實(shí)質(zhì)上是指回歸模型在前面模型的基礎(chǔ)上因?yàn)樵黾恿俗宰兞縨axpulse而增加的RSS,用表達(dá)式表示為T(mén)ypeISS(maxpulse)=RSS(modeloxygen=agemaxpulse)-RSS(modeloxygen=age)以此類(lèi)推,weight的類(lèi)型1的平方和為T(mén)ypeISS(weight)=RSS(modeloxygen=agemaxpulserstpulserunpulseruntimeweight)-RSS(modeloxygen=agemaxpulserstpulserunpulseruntime)所以有恆等式TypeISS(age)+TypeISS(maxpulse)+TypeISS(rstpulse)+TypeISS(runpulse)+TypeISS(runtime)+TypeISS(weight)=RSS(modeloxygen=agemaxpulserstpulserunpulseruntimeweight)即721.97421=78.988227+142.355426+82.447865+98.364065+310.368687+9.449942說(shuō)明回歸模型的平方和可以分解成回歸模型中各自變量的類(lèi)型1平方和。類(lèi)型2的平方和(TypeIISS)通常被稱為部分平方和,對(duì)于一個(gè)給定自變量的類(lèi)型2平方和等于把這個(gè)自變量放在model語(yǔ)句等號(hào)右邊的最后,所求得的類(lèi)型1平方和。例如TypeIISS(age)=RSS(modeloxygen=maxpulserstpulserunpulseruntimeweightage)-RSS(modeloxygen=maxpulserstpulserunpulseruntimeweight)所以model語(yǔ)句最后一個(gè)自變量的類(lèi)型1平方和與類(lèi)型2平方和總是相等的,例如,表32.11中的最后一個(gè)變量weight,TypeISS(weight)=TypeIISS(weight)=9.449942。從類(lèi)型2平方和的計(jì)算可知,自變量的類(lèi)型2平方和不依賴于在model語(yǔ)句中的列表次序,而類(lèi)型1平方和卻與自變量在model語(yǔ)句中的列表次序密切相關(guān)。每個(gè)自變量的類(lèi)型2平方和總是小于等于類(lèi)型1平方和,所以所有自變量的類(lèi)型2平方和之和小于回歸模型的平方和,原因是一個(gè)自變量先進(jìn)入模型,它的貢獻(xiàn)總是大于最后進(jìn)入模型的自變量,因?yàn)樽兞块g有相關(guān)性,所以先進(jìn)入模型的自變量總或多或少把后進(jìn)入模型相關(guān)變量的貢獻(xiàn)也算在自己頭上一點(diǎn)。除非每個(gè)自變量之間是不相關(guān)的,類(lèi)型1平方和與類(lèi)型2平方和才是等價(jià)的。判斷回歸模型是否還能縮減自變量,可以通過(guò)這兩類(lèi)平方和構(gòu)造F檢驗(yàn)來(lái)比較確定。首先,注意到每個(gè)自變量的平方和只有一個(gè)自由度,所以平方和也就是均方和,除以均方誤差MSE構(gòu)造了模型中包含這個(gè)自變量的F統(tǒng)計(jì)量,原假設(shè)為包含這個(gè)自變量模型與不包含這個(gè)自變量的模型是一樣好。這樣,例如,maxpulse變量的類(lèi)型1平方和的F統(tǒng)計(jì)量為相應(yīng)p=0.000017,拒絕原假設(shè),接受回歸模型中包含age和maxpulse比只包含age要好。變量的類(lèi)型1平方和的F統(tǒng)計(jì)量只有weight的p值是不顯著,不能拒絕回歸模型中包含age、maxpulse、rstpulse、runpulse、runtime、weight與包含age、maxpulse、rstpulse、runpulse、runtime一樣好。類(lèi)似地我們可以計(jì)算maxpulse變量的類(lèi)型2平方和的F統(tǒng)計(jì)量為相應(yīng)p=0.03434219,拒絕原假設(shè),接受回歸模型中包含age、maxpulse、rstpulse、runpulse、runtime、weight比包含age、rstpulse、runpulse、runtime、weight要好。類(lèi)型2平方和的F統(tǒng)計(jì)量只有rstpulse和weight不顯著。兩類(lèi)F統(tǒng)計(jì)量的p值差異最大的是rstpulse自變量,這是我們首先要考慮刪除的。實(shí)際上,自變量類(lèi)型2平方和的F檢驗(yàn)等同于這個(gè)自變量的參數(shù)t檢驗(yàn),因?yàn)镕值等于t值的平方,例如,。其實(shí),有時(shí)直觀地分析兩類(lèi)平方和的數(shù)值大小就能得到基本的判斷,runtime自變量的兩類(lèi)平方和都是最大的且占的比例很大,說(shuō)明是回歸模型中第一重要的自變量。而rstpulse自變量在第一類(lèi)平方和中有比較大的數(shù)值卻在第二類(lèi)平方和中是最小的,這是rstpulse自變量應(yīng)該被考慮第一個(gè)刪除的主要原因。剔除不顯著的回歸變量。從參數(shù)估計(jì)表檢驗(yàn)部分也可以看出,對(duì)自變量rstpulse和weight的回歸系數(shù)的t假設(shè)檢驗(yàn),不能拒絕它們?yōu)?的原假設(shè)。當(dāng)然在這里必須小心地看待這些檢驗(yàn),因?yàn)樗鼈兌际窃谄渌宰兞慷技尤牖貧w的前提下進(jìn)行顯著性檢驗(yàn)的,完全可能因?yàn)樽宰兞块g存在較強(qiáng)的相關(guān)而掩蓋他們對(duì)回歸的貢獻(xiàn)。所以在剔除不顯著的回歸變量時(shí)必須逐個(gè)進(jìn)行。另外,從自變量rstpulse和weight的回歸系數(shù)接近于0,也提示我們應(yīng)先考慮刪除哪一個(gè)變量。因?yàn)檫^(guò)程reg具有連續(xù)的交互功能,在執(zhí)行了提交的部分語(yǔ)句后,仍可繼續(xù)提交語(yǔ)句讓它執(zhí)行,直至提交quit語(yǔ)句或因執(zhí)行其他過(guò)程而終止。根據(jù)上面刪除自變量的分析,我們先從已加入回歸模型的自變量中剔除rstpulse??芍苯犹峤蝗缦碌某绦颍篸eleterstpulse;print;run;運(yùn)行后,得到表32.12所示的結(jié)果。Model:MODEL1DependentVariable:OXYGENAnalysisofVarianceModel:MODEL1DependentVariable:OXYGENAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel5721.97309144.3946227.8950.0001Error25129.408455.17634CTotal30851.38154RootMSE2.27516R-square0.8480DepMean47.37581AdjR-sq0.8176C.V.4.80236ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|TypeISSTypeIISSINTERCEP1102.20427511.979289728.5320.000169578376.789349AGE1-0.2196210.09550245-2.3000.030178.98822727.374291MAXPULSE10.3049080.133936422.2770.0316142.35542626.826403RUNPULSE1-0.3734010.11714109-3.1880.0038138.17217952.596237RUNTIME1-2.682523
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江大學(xué)《全球變化與地表過(guò)程》2023-2024學(xué)年第一學(xué)期期末試卷
- 漳州職業(yè)技術(shù)學(xué)院《服裝結(jié)構(gòu)設(shè)計(jì)研究》2023-2024學(xué)年第一學(xué)期期末試卷
- 生產(chǎn)調(diào)度軟件市場(chǎng)競(jìng)爭(zhēng)格局
- 專(zhuān)業(yè)基礎(chǔ)-房地產(chǎn)經(jīng)紀(jì)人《專(zhuān)業(yè)基礎(chǔ)》模擬試卷2
- 房地產(chǎn)交易制度政策-《房地產(chǎn)基本制度與政策》點(diǎn)睛提分卷3
- 先進(jìn)班組長(zhǎng)先進(jìn)事跡材料
- 二零二五年電子競(jìng)技俱樂(lè)部店鋪?zhàn)赓U合同樣本6篇
- 外研版小學(xué)英語(yǔ)六年級(jí)下冊(cè)小升初一般現(xiàn)在時(shí)專(zhuān)項(xiàng)訓(xùn)練(含答案)
- 信陽(yáng)農(nóng)林學(xué)院《機(jī)械設(shè)計(jì)基礎(chǔ)2》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年智慧養(yǎng)老項(xiàng)目合同2025版協(xié)議書(shū)2篇
- 建設(shè)工程總承包計(jì)價(jià)規(guī)范
- 大同市陽(yáng)高縣王官屯50MW風(fēng)電項(xiàng)目220kV升壓站及送出工程環(huán)評(píng)報(bào)告
- GB/T 2992-1998通用耐火磚形狀尺寸
- 英語(yǔ)名著閱讀老人與海教學(xué)課件(the-old-man-and-the-sea-)
- 學(xué)校食品安全知識(shí)培訓(xùn)課件
- 全國(guó)醫(yī)學(xué)博士英語(yǔ)統(tǒng)一考試詞匯表(10000詞全) - 打印版
- 最新《會(huì)計(jì)職業(yè)道德》課件
- DB64∕T 1776-2021 水土保持生態(tài)監(jiān)測(cè)站點(diǎn)建設(shè)與監(jiān)測(cè)技術(shù)規(guī)范
- ?中醫(yī)院醫(yī)院等級(jí)復(fù)評(píng)實(shí)施方案
- 數(shù)學(xué)-九宮數(shù)獨(dú)100題(附答案)
- 理正深基坑之鋼板樁受力計(jì)算
評(píng)論
0/150
提交評(píng)論