逐步回歸分析_第1頁(yè)
逐步回歸分析_第2頁(yè)
逐步回歸分析_第3頁(yè)
逐步回歸分析_第4頁(yè)
逐步回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一講逐步回歸分析

STEPWISEREGRESSIONANALYSIS

在多元線性回歸分析時(shí),為建立一個(gè)較為簡(jiǎn)化又能準(zhǔn)確預(yù)測(cè)依變量的最優(yōu)回歸方程,通常是逐個(gè)剔除復(fù)回歸方程中經(jīng)檢驗(yàn)對(duì)y影響不顯著的所有自變量。這種先全部引入,后逐個(gè)剔除的方法,也是建立最優(yōu)回歸方程的一種分析法。此類分析法還很多,它們多適用于自變量個(gè)數(shù)較少,或大多數(shù)自變量對(duì)y有顯著影響的資料分析。否則,計(jì)算量將大大增加。目前較為常用的逐步回歸分析法是按自變量與y影響程度的大小,逐個(gè)地由大至小將自變量引入回歸方程。而每引入一個(gè)自變量,都要對(duì)方程中的各個(gè)自變量作顯著性檢驗(yàn)。檢驗(yàn)時(shí)先選偏回歸平方和最小的自變量進(jìn)行檢驗(yàn),若為顯著,余者皆為顯著;若檢驗(yàn)差異不顯著,即從方程中剔除,直至留在方程中的自變量均檢驗(yàn)為顯著后,再引入另一個(gè)與y影響最大的變量,并進(jìn)行顯著性檢驗(yàn)。如此反復(fù),直至沒(méi)有自變量可再被引入,而方程中所有自變量均與y存在顯著的線性關(guān)系為止。

1.5-1×0.5=13-1×2=14-1×1=33-4×0.5=110-4×2=25-4×1=1

0.5-0.5×(-0.5)=0.752-0.5×1=1.51-0.5×3=2.5-2-1×(-0.5)=-1.52-1×1=11-1×3=-20.75-1.5×(-1.5)=3-0.5-1.5×(-1)=1-0.5-1.5×(-2)=2.5

-0.5-1×(-1.5)=11-1×(-1)=23-1×(-2)=5

b1=2.5b2=5b3=-2預(yù)備知識(shí)生物各性狀間的關(guān)系是相互依賴和相互制約的關(guān)系,改變某一性狀,即會(huì)引起另一性狀也發(fā)生變異。而生物現(xiàn)象數(shù)量的表現(xiàn)多半是隨機(jī)的,因此對(duì)現(xiàn)象關(guān)系的研究亦就是對(duì)隨機(jī)變量關(guān)系的研究。對(duì)隨機(jī)變量關(guān)系的研究,在統(tǒng)計(jì)學(xué)中有相關(guān)分析和回歸分析兩種不同的方法。相關(guān)分析是研究變量間的相互之間關(guān)系,研究變量間相互聯(lián)系的性質(zhì)和緊密程度?;貧w分析是研究一個(gè)變量對(duì)另一個(gè)變量的單向依存關(guān)系,即研究一個(gè)變量隨另一個(gè)變量變化而變化。這里,后一個(gè)變量叫自變量,前一個(gè)變量叫依變量或應(yīng)變量。變量間的相關(guān)關(guān)系及分析方法歸納如下:

相關(guān)系數(shù)式中稱x變量的平方和;稱y變量的平方和;稱乘積和(sumofproducts)?;貧w系數(shù)由x估測(cè)y的估計(jì)值的直線回歸方程:=a+bx第一節(jié)逐步回歸分析的基本方法逐步回歸分析的基本方法可以通過(guò)一個(gè)實(shí)例介紹其分析步驟。例1為考察舍內(nèi)干球溫度(x1)、濕球溫度(x2)、露點(diǎn)溫度(x3)、相對(duì)濕度(x4)及舒適度指數(shù)(x5)對(duì)羅曼蛋雞產(chǎn)蛋率(y)的影響。隨機(jī)抽測(cè)12個(gè)位點(diǎn)各64只雞在56—67周令的平均周產(chǎn)蛋率如表1—1。表1—1各變量的觀察值、平均數(shù)及標(biāo)準(zhǔn)差n=12周令x1,℃x2,℃x3,℃x4,%x5y,%565758┇65666722.117.420.1┇13.813.013.416.712.615.7┇9.49.410.713.39.012.5┇5.26.48.358.458.660.2┇58.060.471.268.662.266.4┇57.356.758.070.966.764.3┇60.560.558.917.213.310.364.462.563.4s4.13.84.47.05.63.8一、計(jì)算相關(guān)系數(shù)陣1、計(jì)算各變量的平均數(shù)(為表1—1)設(shè)自變量x1,x2,…,xm與依變量y存在線性關(guān)系,m元線性回歸方程為:

若有n對(duì)觀察值:xk1,xk2,…,xkm,yk,k=1,2,…,n則各變量平均數(shù):

本例計(jì)算結(jié)果列于表1—1。i=1,2,…,m(1—3)(1—4)

(1—1)(1—2)

2、計(jì)算離差陣自變量平方和ssi,自變量間及其與依變量間的乘積和SPij及SPiy由下式算出:于是可得正規(guī)方程組本例m=5,n=12算得:

(1—8)(1—9)

(1—7)

i、j=1,2,…,m,i≠j(1–6)(1—5)3、計(jì)算相關(guān)系數(shù)陣在逐步回歸中,為便于計(jì)算和表達(dá),通常將離差陣化為相關(guān)陣,計(jì)算公式為:rij=spij/(ssissj)1/2i、j=1,2,…,m,y(1—10)rij為x1,x2,…,xm,y間的相關(guān)系數(shù),且rii=1,于是正規(guī)方程組(1—8)可改寫(xiě)為:本例由公式(1-10)算得:方程組(1—12)中的pi與方程組(1—8)中bi間的關(guān)系為:bi=piSy/Sxii=1,2,…,m(1—13)式中Sxi,Sy為各自變量、依變量的標(biāo)準(zhǔn)差。(1—11)(1—12)

二、確定顯著的F檢驗(yàn)水準(zhǔn)為引入有顯著作用的自變量,在進(jìn)行逐步回歸計(jì)算前,先要確定顯著的F檢驗(yàn)水準(zhǔn),作為引入或剔除變量的標(biāo)準(zhǔn)。F檢驗(yàn)水準(zhǔn)要根據(jù)具體情況而定。一般地,為使回歸方程中包含較多的自變量,顯著水準(zhǔn)α不要定的太小。顯著水準(zhǔn)F的取值與自由度有關(guān),而且在逐步回歸的分析中,由于自變量引入和剔除的變化,其剩余自由度也在不斷變化,若樣本的觀察數(shù)為n,自變量的個(gè)數(shù)為m,則剩余自由度為n-m-1。如果n相對(duì)較大,m與n就相差較大。m個(gè)自變量被引入的個(gè)數(shù)的多少對(duì)剩余自由度的影響也就不會(huì)太大。此時(shí)可確定一個(gè)固定的F檢驗(yàn)值,不必每次查表更換之。但本例n=12,m=5,剩余自由度分別為6、7、8、9、10。其F值相差不太大,故可選一個(gè)共用檢驗(yàn)的F值,作為引入和剔除自變量的標(biāo)準(zhǔn)。同時(shí)也要注意顯著水準(zhǔn)α的選定,不能太小,如本例可選α=0.1,F(xiàn)0.1(1,6)=3.78。亦可指定F值,如本例為F=5。三、選取自變量由(1-12)式得相關(guān)陣R(0):R(0)=1、引入第一個(gè)自變數(shù)(1)對(duì)5個(gè)自變量計(jì)算偏回歸平方和,各自變量的偏回歸平方和ui為:以u(píng)i值的大小作為被引入回歸方程后對(duì)方差的貢獻(xiàn),ui最大的值是對(duì)方差貢獻(xiàn)最大的自變量。該自變量應(yīng)優(yōu)先引入回歸方程。本例為:

式中右上角括號(hào)內(nèi)1和0分別表示第一次計(jì)算以及相關(guān)系數(shù)來(lái)自R(0)陣中的元素。以下的意義均同。以此類推又有:

i=1,2,…,5(1—14)=0.79102/1=0.6257

=0.66152/1=0.4376

=0.56152/1=0.3153

=(-0.2648)2/1=0.0701

=0.73252/1=0.5366由上述計(jì)算知,中以x1為最大,故先引入x1。

(2)對(duì)x1引入回歸方程是否顯著進(jìn)行F檢驗(yàn),其計(jì)算公式為:Fi=ui/[(1-∑ui)/(n-1-1)](i=1,2,…,m)(1—15)由于引入x1,故按上式K+1,L=0時(shí)把R(0)變換為R(1)。F1>5,故差異顯著,可引入回歸方程。(1—16)R(1)=(3)剔除或引入一個(gè)自變量xk后,相關(guān)系數(shù)陣R(L)=〔〕按下列公式進(jìn)行消去變換,而成R(L+1)=〔〕

(或Fi=[(-ui)/(n-1-1)])。本次引入K為1,L為0。

F1=u1/[(1-)/(12-1-1)]=0.6257/[(1-0.6257)/10]=16.722、引入第二個(gè)自變量L=1(1)計(jì)算各自變量偏回歸平方和,按(1—14)式算得:由于方程中僅含一個(gè)自變量x1。而它是前一步剛選入的,不可能立即被剔除,故無(wú)須作檢驗(yàn)而直接引入貢獻(xiàn)最大的u5(2),即x5。(2)對(duì)x5引入回歸方程,進(jìn)行F檢驗(yàn),按(1—15)式算得:F5>5,差異顯著,可把x5引入回歸方程。F5=/[(1--)/(n-2-1)]=0.2618/[(1-0.6257-0.2618)/9]=20.94

=/[(-)/(n-2-1)]=0.2618/[(0.3743-0.2618)/9]=20.94

(3)引入x5后,按(1—16)式進(jìn)行消去變換,使R(1)變換成R(2)。=0.7912/1=0.6257(已選)=(-0.110674)2/0.047034=0.2604

=(-0.175079)2/0.132867=0.2307=(-0.445702)2/0.947696=0.2096

=(-0.05407)2/0.011169=0.2618

(4)對(duì)引入x1,x5進(jìn)行顯著性檢驗(yàn)先算出各偏回歸平方和及剩余平方和:R(2)=

=5.6049682/89.533563=0.3509(已選)=0.0000272/0.000217=0.000003

=0.0099232/0.002113=0.0466

=0.0387982/0.05091=0.0296

=(-4.841078)2/89.53353=0.2618(已選)

剩余平方和

∵,∴F1>F5>5,差異均顯著,x1、x5不被剔除。

3、引入第三個(gè)自變量L=2,除x1,x5外,數(shù)u3(3)最大,故引入x3。(1)對(duì)x3引入回歸方程是否顯著進(jìn)行F檢驗(yàn)F3>5,差異顯著,可把x3引入回歸方程。(2)引入x3后,應(yīng)對(duì)R(2)進(jìn)行消去變換,即將R(2)變換為R(3)。變換后的R(3)如下:4、引入第四個(gè)自變量L=3(1)計(jì)算各偏回歸平方程和R(3)=

F3=/[(Q(2)-)/(n-3-1)]=0.0466/[(0.1125-0.0466)/8]=5.68

=17.209972/2979.57196=0.0994(已選)=(-0.001020)2/0.000193=0.00005

剩余平方和Q(3)=0.06596(2)剔除引入方程中差異不顯著的自變量,已引入的x1,x3,x5中偏回歸平方和最小的為U3(4)=0.0466,F(xiàn)3=U3(4)/[(Q(3)/(n-3-1)]=0.0466/(0.066/8)=5.65F3>5,所以x3不被剔除,偏回歸平方和更大的x1,x5更不會(huì)被剔除,故方程中無(wú)剔除的自變量。由于F4<5,所以x4不顯著,不能引入方程。至此,回歸方程既無(wú)變量可剔除,又無(wú)新變量可再引入。逐步回歸的計(jì)算可告結(jié)束。(3)引入新變量未引入的x2,x4中>,故引入x4,其檢驗(yàn)結(jié)果為:

F4=/[(Q(3)-)/(n-4-1)=0.0274/[(0.0666-0.0274)/7]=4.97=4.6961672/473.260767=0.0466

(已選)=0.0373662/0.050866=0.0274=(-20.90913)2/5629.90709=0.0777(已選)

第二節(jié)建立最優(yōu)回歸方程

一、計(jì)算偏回歸系數(shù)在逐步回歸分析中采用的是經(jīng)過(guò)標(biāo)準(zhǔn)化的量,即由相關(guān)系數(shù)求得的解pi為標(biāo)準(zhǔn)偏回歸系數(shù),亦稱通徑系數(shù),偏回歸系數(shù)bi可由公式(1—13)算得,即:b1=p1Sy/Sx1=17.21×3.8/4.1=15.95b3=p3Sy/Sx3=4.6962×3.8/4.4=4.06b5=p5Sy/Sx5=(-20.9091)×3.8/5.6=-14.19最優(yōu)回歸方程為:

本例中p1=,p3=,p5=,Sy和Sxi已列在表1—1中。所以=63.4―15.95×17.2-4.06×10.3+14.19×62.5=634.117

=634.117+15.95x1+4.06x3-14.19x5

二、計(jì)算復(fù)相關(guān)系數(shù)及回歸方程估計(jì)標(biāo)準(zhǔn)誤復(fù)相關(guān)系數(shù):

由df=12-3-1=8,查R顯著值表R0.01=0.86,復(fù)相關(guān)系數(shù)極顯著,表明x1,x3,x5與y之間存在極為明顯的線性回歸關(guān)系,該方程可用于估測(cè)y?;貧w方程估計(jì)標(biāo)準(zhǔn)誤:

回歸方程估測(cè)誤差僅1.14%,故本例所建立的最優(yōu)回歸方程用于預(yù)測(cè)平均周產(chǎn)蛋率的可靠性極高。三、總體平均數(shù)μy的置信區(qū)間和總體觀察值yi的預(yù)測(cè)區(qū)間當(dāng)x1,x2,…,xm固定時(shí),p(p為引入回歸方程的自變量個(gè)數(shù))元線性回歸估計(jì)值標(biāo)準(zhǔn)誤為:觀察值yi的標(biāo)準(zhǔn)誤為:

(1—17)

(1—18)

Sye為方程估計(jì)標(biāo)準(zhǔn)誤,n為樣本含量,i,j=1,2,…,p,Cij為(1—8)式系數(shù)矩陣的逆矩陣A-1中第i行、第j列的元素(高斯乘數(shù)),xi、xj為第i或第j個(gè)自變量的離差即。A-1中的元素Cij與R-1中的元素的關(guān)系為:

于是,總體平均數(shù)μy(1-α)置信區(qū)間的上、下限為;

觀察值yi(1-α)置信區(qū)間的上、下限為;式中tα對(duì)應(yīng)的自由度為(n-p-1)。本例中,當(dāng)x1=22.1,x3=13.3,x5=68.8時(shí),μy和yi95%的置信區(qū)間可計(jì)算如下:(1—19)

(1—20)

U=,L=

(1—21)

U=,L=

(1—22)由(1—19)、(1—20)可得

由(1—17)、(1—18)可得由最優(yōu)回歸方程算得依變量的估計(jì)值為:

查t值表,df=12-3-1=8,t0.05=2.306,依(1—21)、(1—22)有:總體平均數(shù)μy95%置信的上、下限為:U=67.176+2.306×5.1726=79.10(%)L=67.176-2.306×5.1726=55.25(%)觀察值yi置信限分別為:U=67.176+2.306×5.2967=79.39(%)L=67.1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論