SAS第三十三課逐步回歸分析_第1頁(yè)
SAS第三十三課逐步回歸分析_第2頁(yè)
SAS第三十三課逐步回歸分析_第3頁(yè)
SAS第三十三課逐步回歸分析_第4頁(yè)
SAS第三十三課逐步回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

.第三十三課逐步回歸分析一、逐步回歸分析在一個(gè)多元線性回歸模型中,并不是所有的自變量都與因變量有顯著關(guān)系,有時(shí)有些自感謝閱讀變量的作用可以忽略。這就產(chǎn)生了怎樣從大量可能有關(guān)的自變量中挑選出對(duì)因變量有顯著影謝謝閱讀響的部分自變量的問(wèn)題。在可能自變量的整個(gè)集合有40到60個(gè),甚至更多的自變量的那些情況下,使用“最優(yōu)”感謝閱讀子集算法可能并不行得通。那么,逐步產(chǎn)生回歸模型要含有的X變量子集的自動(dòng)搜索方法,感謝閱讀可能是有效的。逐步回歸方法可能是應(yīng)用最廣泛的自動(dòng)搜索方法。這是在求適度“好”的自謝謝閱讀變量子集時(shí),同所有可能回歸的方法比較,為節(jié)省計(jì)算工作量而產(chǎn)生的。本質(zhì)上說(shuō),這種方感謝閱讀法在每一步增加或剔除一個(gè)X變量時(shí),產(chǎn)生一系列回歸模型。增加或剔除一個(gè)X變量的準(zhǔn)則,感謝閱讀可以等價(jià)地用誤差平方和縮減量、偏相關(guān)系數(shù)或F統(tǒng)計(jì)量來(lái)表示。精品文檔放心下載無(wú)疑選擇自變量要靠有關(guān)專業(yè)知識(shí),但是作為起參謀作用的數(shù)學(xué)工具,往往是不容輕視感謝閱讀的。通常在多元線性模型中,我們首先從有關(guān)專業(yè)角度選擇有關(guān)的為數(shù)眾多的因子,然后用感謝閱讀數(shù)學(xué)方法從中選擇適當(dāng)?shù)淖蛹?。本?jié)介紹的逐步回歸法就是人們?cè)趯?shí)際問(wèn)題中常用的,并且謝謝閱讀行之有效的方法。逐步回歸的基本思想是,將變量一個(gè)一個(gè)引入,引入變量的條件是偏回歸平方和經(jīng)檢驗(yàn)感謝閱讀是顯著的,同時(shí)每引入一個(gè)新變量后,對(duì)已選入的變量要進(jìn)行逐個(gè)檢驗(yàn),將不顯著變量剔除,精品文檔放心下載這樣保證最后所得的變量子集中的所有變量都是顯著的。這樣經(jīng)若干步以后便得“最優(yōu)”變感謝閱讀量子集。逐步回歸是這樣一種方法,使用它時(shí)每一步只有一個(gè)單獨(dú)的回歸因子引進(jìn)或從當(dāng)前的回精品文檔放心下載歸模型中剔除。Efroymoson(1966)編的程序中,有兩個(gè)F水平,記作F和F ,在每一步精品文檔放心下載in out.時(shí),只有一個(gè)回歸因子,比如說(shuō)X,如果剔除它可能引起RSS的減少不超過(guò)殘差均方MSE謝謝閱讀i(即ESS/(N-k-1))的F 倍,則將它剔除;這就是在當(dāng)前的回歸模型中,用來(lái)檢驗(yàn) 錯(cuò)誤!感謝閱讀out未找到引用源。=0的F比=(RSS(x,x,x,x)RSS(x,x,x))/MSE是小于或i12i1i12i1等于F 。out若剔除的變量需要選擇,則就選擇使RSS減少最少的那一個(gè)(或等價(jià)的選擇F比最小的)。感謝閱讀用這種方式如果沒(méi)有變量被剔除,則開(kāi)始引進(jìn)一個(gè)回歸因子,比如Xj,如果引進(jìn)它后使RSS謝謝閱讀的增加,至少是殘差均方的Fin倍,則將它引進(jìn)。即若在當(dāng)前模型加X(jué)j項(xiàng)后,為了檢驗(yàn)錯(cuò)誤!精品文檔放心下載未找到引用源。=0的F比,F(xiàn)≥F 時(shí),則引進(jìn)X,其次,若引進(jìn)的變量需要選擇,則選擇精品文檔放心下載j in j比最大的。程序按照上面的步驟開(kāi)始擬合,當(dāng)沒(méi)有回歸因子能夠引進(jìn)模型時(shí),該過(guò)程停止。謝謝閱讀二、變量選擇的方法若在回歸方程中增加自變量X,稱為“引入”變量X,將已在回歸方程中的自變量X感謝閱讀i i j從回歸方程中刪除,則稱為“剔除”變量X。無(wú)論引入變量或剔除變量,都要利用F檢驗(yàn),感謝閱讀j將顯著的變量引入回歸方程,而將不顯著的從回歸方程中剔除。記引入變量F檢驗(yàn)的臨界值精品文檔放心下載為F(進(jìn)),剔除變量F檢驗(yàn)的臨界值為F (出),一般取F精品文檔放心下載in out in

≥F ,它的確定原則一般out是對(duì)k個(gè)自變量的m個(gè)(m≤k),則對(duì)顯著性水平df1=1,df2=Nm1的F分布表的值,記為F*,則取F=F=F*。一般來(lái)說(shuō)也可以直接取F=F=2.0或2.5。當(dāng)然,為了回歸感謝閱讀in out in out方程中還能夠多進(jìn)入一些自變量,甚至也可以取為1.0或1.5。精品文檔放心下載變量增加法首先對(duì)全部k個(gè)自變量,分別對(duì)因變量Y建立一元回歸方程,并分別計(jì)算這k個(gè)一元回謝謝閱讀歸方程的k個(gè)回歸系數(shù)F檢驗(yàn)值,記為{F1,F1,F1},選其最大的記為F1=感謝閱讀12kimax{F1,F1,F1},若有F1≥F,則首先將X引入回歸方程,不失一般性,設(shè)X就是X。12kiin1i1.接著考慮X分別與X,X,...,X與因變量Y二元回歸方程,對(duì)于這k-1個(gè)回歸方程中123kX,...,X的回歸系數(shù)進(jìn)行F檢驗(yàn),計(jì)算得的F值,并選其最大的F值F2,若F2≥F,則接著就2kjjin將X引入回歸方程,不失一般性,設(shè)X就是X。jj2對(duì)已經(jīng)引入回歸方程的變量X和X,如同前面的方法做下去,直至所有末被引入方程精品文檔放心下載1 2的變量的F值均小于F時(shí)為止。這時(shí)的回歸方程就是最終選定的回歸方程。精品文檔放心下載in顯然,這種增加法有一定的缺點(diǎn),主要是,它不能反映后來(lái)變化的情況。因?yàn)閷?duì)于某個(gè)感謝閱讀自變量,它可能開(kāi)始是顯著的,即將其引入到回歸方程,但是,隨著以后其他自變量的引入,精品文檔放心下載它也可能又變?yōu)椴伙@著的了,但是,也并沒(méi)有將其及時(shí)從回歸方程中剔除掉。也就是增加變謝謝閱讀量法,只考慮引入而不考慮剔除。2. 變量減少法與變量增加法相反,變量減少法是首先建立全部自變量X,X,...,X對(duì)因變變量Y的回歸感謝閱讀1 2 k方程,然后對(duì)k個(gè)回歸系數(shù)進(jìn)行F檢驗(yàn),記求得的F值為{F1,F1,F1},選其最小的記為精品文檔放心下載1 2 kF1=min{F1,F1,F1},若有F1≤F,則可以考慮將自變量X從回歸方程中剔除掉,不妨i12kiouti設(shè)X就取為X。1再對(duì)X,X,...,X對(duì)因變量Y建立的回歸方程中重復(fù)上述過(guò)程,取最小的F值為F2,若有23kjF2≤F,則將X也從回歸方程中剔除掉。不妨設(shè)X就是X。重復(fù)前面的做法,直至在回joutjj2歸方程中的自變量F檢驗(yàn)值均大于F ,即沒(méi)有變量可剔除為止。這時(shí)的回歸方程就是最終感謝閱讀out的回歸方程。這種減少法也有一個(gè)明顯的缺點(diǎn),就是一開(kāi)始把全部變量都引入回歸方程,這樣計(jì)算量感謝閱讀比較大。若對(duì)一些不重要的變量,一開(kāi)始就不引入,這樣就可以減少一些計(jì)算。精品文檔放心下載變量增減法前面的二種方法各有其特點(diǎn),若自變量X,X,...,X完全是獨(dú)立的,則可結(jié)合這二種方法,精品文檔放心下載1 2 k.但是,在實(shí)際的數(shù)據(jù)中,自變量X,X,...,X之間往往并不是獨(dú)立的,而是有一定的相關(guān)性存感謝閱讀1 2 k在的,這就會(huì)使得隨著回歸方程中變量的增加和減少,某些自變量對(duì)回歸方程的貢獻(xiàn)也會(huì)發(fā)感謝閱讀生變化。因此一種很自然的想法是將前二種方法綜合起來(lái),也就是對(duì)每一個(gè)自變量,隨著其謝謝閱讀對(duì)回歸方程貢獻(xiàn)的變化,它隨時(shí)可能被引入回歸方程或被剔除出去,最終的回歸模型是在回精品文檔放心下載歸方程中的自變量均為顯著的,不在回歸方程中的自變量均不顯著。感謝閱讀三、引入變量和剔除變量的依據(jù)如果在某一步時(shí),已有l(wèi)個(gè)變量被引入到回歸方程中,不妨設(shè)為X,X,,X,即已得12l回歸方程YXXX(33.1)01122ll并且有平方和分解式TSSRSSESS(33.2)顯然,回歸平方和RSS及殘差平方和ESS均與引入的變量相關(guān)。為了使其意義更清楚謝謝閱讀起見(jiàn),將其分別設(shè)為RSS(X,X,,X)及ESS(X,X,,X)。下面我們來(lái)考慮,12l12l又有一個(gè)變量X(l<i≤k)被引入回歸方程中,這時(shí)對(duì)于新的回歸方程所對(duì)應(yīng)的平方和分解精品文檔放心下載i式為T(mén)SS=RSS(X,X,,X,X)+ESS(X,X,,X,X)(33.3)12li12li當(dāng)變量X引入后,回歸平方和從RSS(X,X,,X)增加到RSS(X,X,,X,i12l12lX),而相應(yīng)的殘差平方和卻從ESS(X,X,,X)降到ESS(X,X,,X,X),i12l12li并有RSS(X,X,,X,X)-RSS(X,X,,X)12li12l(33.4)=ESS(X,X,,X)-ESS(X,X,,X,X)12l12li記WRSS(X,X,,X,X)RSS(X,X,,X),它反映了由于引入X后,X對(duì)i 1 2 l i 1 2 l i i.回歸平方和的貢獻(xiàn),也等價(jià)于引入X后殘差平方和所減少的量,稱其為X對(duì)因變量Y的精品文檔放心下載i

i方差貢獻(xiàn),故考慮檢驗(yàn)統(tǒng)計(jì)量FWX,X,,X(33.5)i12liESSX,X,,X,X/Nl112li其中N為樣本量,l是已引入回歸方程的變量個(gè)數(shù),這時(shí)若有FF,則可以考慮將自變謝謝閱讀i in量X引入回歸方程,否則不能引入。i實(shí)際上大于F的變量開(kāi)始時(shí)可能同時(shí)有幾個(gè),那么是否將它們都全部引入呢?實(shí)際編程謝謝閱讀in序時(shí)并不是一起全部引入,而是選其最大的一個(gè)引入回歸方程。謝謝閱讀關(guān)于剔除變量,如果已有l(wèi)個(gè)變量被引入回歸方程,不失一般性,設(shè)其為X,X,,X,12l所對(duì)應(yīng)的平方和分解公式為:TSSRSS(X,X,,X,,X)ESS(X,X,,X,X)(33.6)12il12il其中i1,2,,l為了研究每個(gè)變量在回歸方程中的作用,我們來(lái)考慮分別刪掉X(i=1,2,...,l謝謝閱讀i后相應(yīng)的平方和分解公式為:TSSRSS(X,X,X,X,X)ESS(X,X,,X,X,X)(33.7)12i1i1l12i1i1l這時(shí),回歸平方和從RSS(X,X,,X,,X)降為RSS(X,X,X,X,X),同時(shí)12il12i1i1l殘差也發(fā)生相應(yīng)的變化。殘差平方和從ESS(X,X,,X,X)增加到12ilESS(X,X,,X,X,X),X對(duì)回歸平方和的貢獻(xiàn),也等價(jià)于刪除X后殘差平方12i1i1lii和所增加的量,同理可表示為:WRSS(X,X,,X,X)RSS(X,X,,X,XX)(33.8)i12il12i1i1lESS(X,X,,X,XX)ESS(X,X,,X,X)12i1i1l12il與前同理,我們來(lái)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量FWX,X,,X,,X(33.9)i12iliESSX,X,,X,X/Nl112il顯然,這時(shí)F越小,則說(shuō)明X在回歸方程中起的作用(對(duì)回歸方程的貢獻(xiàn))越小,也就ii.是若有FF,則可以考慮將自變量X從回歸方程中剔除掉,我們?cè)诰幊绦驎r(shí),每次只剔iouti除一個(gè),因此,我們每次選擇最小的Fmin(F,F,,F)來(lái)與F進(jìn)行比較。若有i12loutFF 則可以不考慮剔除,而開(kāi)始考慮引入。i out四、逐步回歸在使用過(guò)程中要注意的問(wèn)題逐步回歸在計(jì)算過(guò)程中,進(jìn)入和剔除變量規(guī)則的差別在例子中有可能得到說(shuō)明。例如,感謝閱讀可以根據(jù)F統(tǒng)計(jì)量中MSE的自由度來(lái)使用不同的F和F。但是,往往并不使用這種提iinout純量,而是使用固定的F值,因?yàn)樵谒阉鬟^(guò)程的重復(fù)檢驗(yàn)中,并不可能得到精確的概率解釋。最低可接受F決不應(yīng)小于最高可接受F,否則就有可能重復(fù)進(jìn)入和剔除一個(gè)自變量。inout自變量進(jìn)入模型的順序并不反映它們的重要程度。例如,第一個(gè)進(jìn)入模型的X1,最終卻感謝閱讀可能被剔除。我們使用的逐步回歸程序,在每個(gè)階段上都打印出偏相關(guān)系數(shù)。對(duì)于篩選變量感謝閱讀來(lái)說(shuō),使用這些相關(guān)系數(shù)與使用F值是等價(jià)的,事實(shí)上,有些程序就是使用偏相關(guān)系數(shù)來(lái)篩感謝閱讀i選變量的。進(jìn)入和剔除一個(gè)變量的F限不必根據(jù)近似顯著性水平選定,但可以根據(jù)誤差縮減感謝閱讀量來(lái)描述性地確定。例如,一個(gè)進(jìn)入變量的F限2.0可以這樣來(lái)說(shuō)明:變量一旦進(jìn)入模型,謝謝閱讀那么,進(jìn)入變量的邊際誤差縮減量至少應(yīng)該是剩余誤差均方的二倍。精品文檔放心下載逐步回歸方法的一個(gè)局限是預(yù)先假定有單一的最優(yōu)X變量子集,從而來(lái)進(jìn)行識(shí)別。正如感謝閱讀前面已經(jīng)提到的,常常并沒(méi)有唯一的最優(yōu)子集。因此,一些統(tǒng)計(jì)學(xué)家建議,求得逐步回歸的感謝閱讀解后,擬合所有可能與逐步回歸解的自變量個(gè)數(shù)相同的回歸模型,以研究是否存在更好的X精品文檔放心下載變量子集。逐步回歸方法的另一個(gè)缺點(diǎn)是當(dāng)X變量高度相關(guān)時(shí),有時(shí)會(huì)得到不合理的“最優(yōu)”子集。精品文檔放心下載也有人提出好幾種其他尋找“最優(yōu)”自變量子集的自動(dòng)搜索方法。我們這里提一下其中的兩精品文檔放心下載種。但這兩種方法都還未被接受為逐步搜索方法。其中之一為向前選元法,這種搜索方法只精品文檔放心下載是逐步回歸方法的簡(jiǎn)化,略去了檢驗(yàn)進(jìn)入模型的變量是否應(yīng)被剔除這一步。其中之二為向后感謝閱讀.剔除法,這種搜索方法與向前選元法相反。它從包括所有X變量的模型開(kāi)始,挑出F*值最感謝閱讀小的那個(gè)變量。例如,假定Xi為F*值最小的那個(gè)變量,有:謝謝閱讀F*WX,X,,X,,X(33.10)i12ikk1iESSX,X,,X,X/N12ik如果最小的F*值小于預(yù)定限,就剔除這個(gè)變量,然后擬合剩余的k1個(gè)自變量的模型,挑謝謝閱讀i選下一個(gè)待剔除元。重復(fù)這種過(guò)程,直至沒(méi)有自變量可以被剔除。因?yàn)橄蚝筇蕹ㄊ菑淖畲蟾兄x閱讀可能模型開(kāi)始的,所以它比向前選元法需要更多的計(jì)算量。但是,向后剔除法有一個(gè)優(yōu)點(diǎn),精品文檔放心下載它可以使使用者明白含有許多變量模型的復(fù)雜性。五、stepwise逐步回歸過(guò)程stepwise過(guò)程對(duì)逐步回歸提供了九種方法。當(dāng)你有許多自變量且想找出哪些自變量是該謝謝閱讀選入回歸模型時(shí),stepwise是有用的。由于stepwise可以使你深入地了解自變量與因變量或響應(yīng)變量之間的關(guān)系,所以它對(duì)考謝謝閱讀察分析是很有幫助的。但是,stepwise并不能保證給你“最好”的模型,甚至具有最大R2謝謝閱讀的模型也不一定是“最好”的,并且靠這些均值演變得來(lái)的模型沒(méi)有一個(gè)可以保證它精確地感謝閱讀描述了真實(shí)世界的過(guò)程。stepwise與rsquare以及其他過(guò)程是不同的。rsquare對(duì)所有自變量的組合找出R2,謝謝閱讀所以它可以指出具有最大R2的模型。而stepwise在挑選變量時(shí)選擇下面描述的方法,所以,感謝閱讀當(dāng)stepwise判斷模型時(shí),它打印一份多個(gè)回歸報(bào)告。精品文檔放心下載stepwise過(guò)程提供的九種模型none(全回歸模型)。沒(méi)有對(duì)回歸變量進(jìn)行篩選,建立Y與全部自變量的全回歸模型。精品文檔放心下載forward(向前選擇)。向前選擇技術(shù)以模型中沒(méi)有變量開(kāi)始,對(duì)每個(gè)自變量,forward精品文檔放心下載計(jì)算反映自變量對(duì)模型的貢獻(xiàn)的F統(tǒng)計(jì)量。這些F統(tǒng)計(jì)量與model語(yǔ)句中給出的slentry感謝閱讀.=水平上的值相比較,如果F統(tǒng)計(jì)量的顯著水平?jīng)]有一個(gè)比slentry=水平上(如果缺省謝謝閱讀slentry=這個(gè)參數(shù),則顯著水平假設(shè)為0.50)的值大,則forward停止。否則,forward謝謝閱讀在模型中加入具有最大F統(tǒng)計(jì)量的變量,然后forward再計(jì)算這些變量的F統(tǒng)計(jì)量直到剩謝謝閱讀下的變量都在模型的外面,再重復(fù)估計(jì)過(guò)程。變量就這樣一個(gè)接一個(gè)地進(jìn)入模型直到剩下的精品文檔放心下載變量沒(méi)有一個(gè)可以產(chǎn)生顯著的F統(tǒng)計(jì)量。一旦一個(gè)變量進(jìn)入了模型,它就不再出去了。謝謝閱讀backward(向后淘汰)。向后淘汰技術(shù)以計(jì)算含有全部自變量的模型的統(tǒng)計(jì)量為開(kāi)始。然后變量一個(gè)接一個(gè)地從模型中剔除,直到留在模型中的所有變量產(chǎn)生的F統(tǒng)計(jì)量的顯著水平在slstay=水平上(如果缺省slstay=這個(gè)參數(shù),則顯著水平假設(shè)為0.10)。在每一步,剔除對(duì)模型貢獻(xiàn)最小的變量。謝謝閱讀stepwise(逐步回歸,向前且向后)。逐步方法是向前選擇的修正。對(duì)已在模型中的變量,不一定必須一直在模型中,這點(diǎn)與向前選擇法是不同的。stepwise按照向前選擇方法選入變量后,還考察模型中所包含的所有變量并剔除使得F統(tǒng)計(jì)量的顯著水平不在slstay=水平上的變量。只有在完成檢驗(yàn)和必要的剔除之后,其他變量才可再進(jìn)入模型。當(dāng)模型外的變量沒(méi)有一個(gè)使F統(tǒng)計(jì)量的顯著在slentry=水平上且模型中的每個(gè)變量在slstay=水平上顯著,或加到模型中的變量是剛剛剔除的變量時(shí)候,逐步處理便結(jié)束了。感謝閱讀maxr(具有對(duì)偶切換的向前選擇)。最大R2改良技術(shù)是占優(yōu)勢(shì)的逐步技術(shù),它幾乎與所有可能的回歸一樣好。不象上面三種技術(shù),這個(gè)方法不是落在單個(gè)模型上,而是試著找出最佳一變量模型、最佳二變量模型等等,但它不能保證對(duì)每個(gè)量度都能找到具有最大R2的模型。謝謝閱讀maxr方法先找出一個(gè)產(chǎn)生最大R2值的變量,然后再加入另一個(gè)次最大R2值的變量,從而形成二變量的模型。形成二變量的模型之后,將模型中的變量與模型外的變量相比較,以決定是否移去一個(gè)變量而以另一個(gè)能生成更大R2值的變量來(lái)代替。全部比較結(jié)束后,便得謝謝閱讀.到了最佳二變量模型。依次往下,便得到最佳三變量模型等等。謝謝閱讀minr(具有對(duì)偶搜索的向前選擇)。最小R2增量法非常類似于maxr,只是選擇準(zhǔn)則為產(chǎn)生最小R2增量。對(duì)模型中一個(gè)已知的變量數(shù),maxr和minr通常產(chǎn)生同樣的“最佳”感謝閱讀模型,但是minr在每步中考慮較多的模型。rsquare(R2選擇法)。按給定樣本的R2大小準(zhǔn)則選擇最優(yōu)的自變量子集,但不能保證對(duì)總體或其他樣本而言是最優(yōu)的。用戶可以規(guī)定出現(xiàn)在子集中自變量的最大和最小個(gè)數(shù)及被選擇的每種子集的個(gè)數(shù)。R2選擇法總能夠?qū)λ紤]變量的每種變量個(gè)數(shù)找到具有最大R2的謝謝閱讀模型,但需要很多的計(jì)算時(shí)間。adjrsq(修正R2選擇法)。該方法類似于rsquare法,只是對(duì)于選擇模型使用的準(zhǔn)則為修正R2統(tǒng)計(jì)量。修正公式見(jiàn)(32.27)式。精品文檔放心下載Mallows的Cp統(tǒng)計(jì)量。Cp統(tǒng)計(jì)量是由Mallows提出的作為選擇模型的判別式的變量。精品文檔放心下載Cp是一個(gè)誤差平方總和的量度:CPESS(N2P)(33.11)pMSE其中,P是模型中包括截距項(xiàng)的參數(shù)個(gè)數(shù),MSE是滿模型時(shí)均方誤差,ESSp是具有P個(gè)精品文檔放心下載自變量(包括截距項(xiàng))回歸模型的誤差平方和。作Cp與P的曲線圖,Matlows建議取Cp首精品文檔放心下載次接近P的地方的模型。procstepwise過(guò)程控制語(yǔ)句stepwise過(guò)程一般由下列語(yǔ)句控制:proc stepwise data=數(shù)據(jù)集;model 因變量=自變量</選項(xiàng)列表>;weight 變量;by 變量;run;.stepwise至少需要一個(gè)model語(yǔ)句。by語(yǔ)句和weight語(yǔ)句可以放在任何地方。感謝閱讀model語(yǔ)句的</選項(xiàng)列表>。stepwise中可以有任意多個(gè)model語(yǔ)句。model語(yǔ)句中的選項(xiàng)如下:謝謝閱讀noint——不產(chǎn)生一般在模型中自動(dòng)生成的截距參數(shù)。感謝閱讀none——請(qǐng)求全回歸模型。forward或f——請(qǐng)求向前選擇法。backward或b——請(qǐng)求向后淘汰法。stepwise——請(qǐng)求逐步技術(shù),這個(gè)任選項(xiàng)是預(yù)置的。感謝閱讀maxr——請(qǐng)求最大R2增量法。minr——請(qǐng)求最小R2增量法。rsquare——請(qǐng)求R2最大準(zhǔn)則法。adjrsq——請(qǐng)求修正R2最大準(zhǔn)則法。cp——請(qǐng)求Mallows的Cp統(tǒng)計(jì)量法。slentry=值——指出向前選擇和逐步技術(shù)中選擇變量進(jìn)入模型的顯著水平。如果省略,那么stepwise過(guò)程便對(duì)向前選擇技術(shù)置slentry=0.5,對(duì)逐步技術(shù)置slentry=謝謝閱讀0.15。slstay=值——指出向后淘汰與逐步技術(shù)中變量留在模型里的顯著水平。如果省略,則逐步技術(shù)用0.15,向后淘汰技術(shù)用0.10。精品文檔放心下載include=n——強(qiáng)迫頭n個(gè)因變量總是在模型中。選擇技術(shù)由model語(yǔ)句中其他變量來(lái)完成。精品文檔放心下載start=s——以含有model語(yǔ)句中頭s個(gè)自變量的模型為開(kāi)始,進(jìn)行比較、選擇謝謝閱讀.過(guò)程。理所當(dāng)然地,沒(méi)有一個(gè)被估計(jì)的模型含有不足s個(gè)的變量。此僅應(yīng)用于maxr或感謝閱讀minr模型。stop=s——當(dāng)它找到“最佳”s變量模型之后,stepwise便停止。其中s是stop謝謝閱讀的值,此僅應(yīng)用于maxr或minr模型。其他語(yǔ)句weight語(yǔ)句——用于指出含有觀察值的權(quán)數(shù)的變量。分析中僅用具有weight變謝謝閱讀量正值的觀察。by語(yǔ)句——指定的變量值來(lái)分組處理某數(shù)據(jù)集。六、實(shí)例分析33.1[例32.2續(xù)]對(duì)fitness數(shù)據(jù)進(jìn)行逐步回歸分析。謝謝閱讀調(diào)用reg過(guò)程,model語(yǔ)句中的參數(shù)選項(xiàng)使用selection=stepwise,請(qǐng)求按逐步回歸精品文檔放心下載方法挑選自變量子集。程序如下:procreg data=fitness ;modeloxygen=ageweightrstpulsemaxpulserunpulseruntime精品文檔放心下載/selection=stepwise ;run;運(yùn)行后,得到見(jiàn)表33.1所示的結(jié)果。表33.1 逐步回歸分析結(jié)果StepwiseProcedureforDependentVariableOXYGENStep1VariableRUNTIMEEnteredR-square=0.74338010C(p)=13.51976469DFSumofSquaresMeanSquareFProb>F.Regression1632.90009985632.9000998584.010.0001Error29218.481444997.53384293Total30851.38154484ParameterStandardTypeIIVariableEstimateErrorSumofSquaresFProb>FINTERCEP82.421772683.855303783443.36654076457.050.0001RUNTIME-3.310555360.36119485632.9000998584.010.0001Boundsonconditionnumber:1,1------------------------------------------------------------------------------------------精品文檔放心下載Step2VariableAGEEnteredR-square=0.76424693C(p)=12.22493455DFSumofSquaresMeanSquareFProb>FRegression2650.66573237325.3328661845.380.0001Error28200.715812477.16842187Total30851.38154484ParameterStandardTypeIIVariableEstimateErrorSumofSquaresFProb>FINTERCEP88.462287495.372638851943.41070877271.110.0001AGE-0.150365670.0955146817.765632522.480.1267RUNTIME-3.203950560.35877488571.6775057979.750.0001Boundsonconditionnumber:1.036941,4.147763------------------------------------------------------------------------------------------謝謝閱讀Step3VariableRUNPULSEEnteredR-square=0.81109446C(p)=6.82780371DFSumofSquaresMeanSquareFProb>FRegression3690.55085627230.1836187638.640.0001Error27160.830688575.95669217Total30851.38154484ParameterStandardTypeIIVariableEstimateErrorSumofSquaresFProb>FINTERCEP111.7180644310.23508836709.69013814119.140.0001AGE-0.256398260.0962289242.288674387.100.0129RUNPULSE-0.130908700.0505901139.885123906.700.0154RUNTIME-2.825378670.35828041370.4352860762.190.0001Boundsonconditionnumber:1.354763,11.59745------------------------------------------------------------------------------------------謝謝閱讀Step4VariableMAXPULSEEnteredR-square=0.83681815C(p)=4.76608569DFSumofSquaresMeanSquareFProb>FRegression4712.45152692178.1128817333.330.0001在輸出結(jié)果報(bào)告中,提供了進(jìn)入回歸變量逐次改變后回歸方差分析和擬合的信息。在報(bào)告的感謝閱讀最后部分,列出了用逐步回歸法挑選自變量過(guò)程,四個(gè)自變量按runtime,age,runpulse,謝謝閱讀maxpulse先后次序進(jìn)人回歸模型。所有進(jìn)入回歸的變量在0.15的水平下是顯著的,未進(jìn)感謝閱讀.人回歸的侯選變量在0.15的水平下是不顯著的。同時(shí)還概要地提供了每個(gè)回歸模型變化時(shí)感謝閱讀的R2值增加值、R2值、CP值、相應(yīng)的F統(tǒng)計(jì)量、p值。在逐步回歸的每步細(xì)節(jié)中,還列謝謝閱讀出了條件指數(shù)的最小值最大值,以及每一個(gè)回歸變量的類型2平方和。age變量進(jìn)入模型感謝閱讀后,R2值的增加值(PartialR2,稱為偏R2或部分R2)計(jì)算為(650.6657-632.9001)/感謝閱讀851.3815=0.020867。如果按CP值選擇最優(yōu)子集,隨著進(jìn)入回歸模型中的自變量個(gè)數(shù)P感謝閱讀2到5個(gè)(包括截距),相應(yīng)CP值從大到小為13.51976469、12.22493455、6.82780371精品文檔放心下載和4.76608569,按照Mallows提出的回歸模型最優(yōu)自變量個(gè)數(shù)的選擇準(zhǔn)則,精品文檔放心下載CP=4.76608569是最接近自變量個(gè)數(shù)P=5的模型。CP的計(jì)算公式見(jiàn)(33.11)式,當(dāng)P=5謝謝閱讀時(shí),CP=138.93001792/5.39197-(31-2×5)=4.76608569。因此,用逐步回歸方法及感謝閱讀CP值確認(rèn)的擬合回歸模型為:oxygen= 98.14788797-0.19773470age+ 0.27051297maxpulse-謝謝閱讀0.34810795runpulse-2.76757879runtime謝謝閱讀條件指數(shù)(conditionnumber)為最大特征值和每個(gè)特征值之比的平方根。我們看到當(dāng)精品文檔放心下載模型進(jìn)入第四個(gè)自變量 maxpulse時(shí),最大的條件指數(shù)從較小 11.59745變成了較大感謝閱讀76.85135,說(shuō)明存在一定程度的共線性,根據(jù)前面例33.2的分析,我們?cè)\斷這個(gè)共線性方感謝閱讀程可能為runpulse-maxpulse=0。在向前、向后或逐步回歸的變量選擇過(guò)程中,都有一個(gè)判斷是否可進(jìn)入或剔除的顯著水感謝閱讀平,在程序中是分別由model語(yǔ)句的選項(xiàng)slentry=和slstay=設(shè)定的,缺省的情況見(jiàn)表33.2精品文檔放心下載所示。表33.2 缺省的入選和剔除顯著水平forwardbackwardstepwizeslentry0.500.15.slstay0.100.15下面我們提供全部可能回歸的程序,并且以R2值的大到小排序輸出。感謝閱讀procreg data=fitness ;modeloxygen=ageweightrstpulsemaxpulserunpulseruntime謝謝閱讀/selection=rsquareb ;run;在上述程序中,model語(yǔ)句的選項(xiàng)selection=rsquare,表示請(qǐng)求R2值最大法,選項(xiàng)b精品文檔放心下載是表示要輸出每種回歸的回歸系數(shù)。程序運(yùn)行后,得到見(jiàn)表33.3所示的結(jié)果。N=31RegressionModelsforDependentVariable:OXYGENParameterNumberinR-squareEstimatesModelInterceptAGEWEIGHTRSTPULSEMAXPULSERUNPULSERUNTIME10.7433801082.4218.....-3.310610.1583834482.4582....-0.2068.10.1199967059.3325..-0.2225...10.0927765362.2206-0.3114.....10.0560459271.2907...-0.1376..10.0264884955.4379.-0.1041....--------------------------------------------------------------------------------------------感謝閱讀20.7642469388.4623-0.1504....-3.204020.7614238193.0888....-0.0735-3.1402表33.3用R2排序全部可能的變量數(shù)的逐步回歸分析結(jié)果感謝閱讀.程序的輸出包括所有只含一個(gè)變量的6種回歸,含2個(gè)變量的15種回歸,……??偣灿兄x謝閱讀63種不同形式的回歸模型。例如,含 2個(gè)自變量按R2第二個(gè)大值選擇回歸模型為,R2謝謝閱讀=0.76142381,擬合的回歸模型為oxygen=93.0888-0.0735runpulse-3.1402runtime謝謝閱讀若對(duì)每種變量個(gè)數(shù),只要保留R2最大的兩種情況,可在model語(yǔ)句中加入選項(xiàng)best=2,謝謝閱讀即提交以下的程序:procreg data=fitness ;modeloxygen=ageweightrstpulsemaxpulserunpulseruntime感謝閱讀/selection=rsquarebbest=2;感謝閱讀run;這一程序提供較為緊湊的輸出報(bào)表,見(jiàn)表33.4所示的結(jié)果。謝謝閱讀N=31RegressionModelsforDependentVariable:OXYGENParameterNumberinR-squareEstimatesModelInterceptAGEWEIGHTRSTPULSEMAXPULSERUNPULSERUNTIME10.7433801082.4218.....-3.310610.1583834482.4582....-0.2068.--------------------------------------------------------------------------------------------感謝閱讀20.7642469388.4623-0.1504....-3.204020.7614238193.0888....-0.0735-3.1402--------------------------------------------------------------------------------------------感謝閱讀30.81109446111.7-0.2564...-0.1309-2.825430.8099884480.9008...0.3542-0.3751-2.9702--------------------------------------------------------------------------------------------謝謝閱讀4 0.83681815 98.1479 -0.1977 . . 0.2705 -0.3481 -2.7676精品文檔放心下載表33.4 只保留R2最大兩種情況的逐步回歸分析結(jié)果感謝閱讀.通過(guò)上面的逐步回歸分析,我們已經(jīng)得到回歸模型的自變量個(gè)數(shù)確定時(shí)的最優(yōu)子集或次感謝閱讀優(yōu)子集,但問(wèn)題是我們到底應(yīng)該選擇幾個(gè)自變量的回歸模型呢?如上表33.4中的3個(gè)自變量、謝謝閱讀4個(gè)自變量、5個(gè)自變量、6個(gè)自變量的回歸模型中哪一個(gè)模型呢?一種最簡(jiǎn)便確定回歸模型精品文檔放心下載的自變量個(gè)數(shù)的方法是Mallows的Cp方法。確定好模型的自變量個(gè)數(shù)后,根據(jù)上表33.4就謝謝閱讀很容易確定在這個(gè)固定自變量數(shù)下,最優(yōu)的自變量組合和相應(yīng)的參數(shù)值估計(jì)。以下的程序是感謝閱讀對(duì)所有可能的回歸按Cp由小到大進(jìn)行排序并保留其前5種,并繪制Cp圖。謝謝閱讀goptions reset=globalgunit=pctcback=whiteborder精品文檔放心下載htitle=6htext=3ftext=swissbcolors=(back);感謝閱讀title'Cpplotw

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論