第10章-回歸分析_第1頁
第10章-回歸分析_第2頁
第10章-回歸分析_第3頁
第10章-回歸分析_第4頁
第10章-回歸分析_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

10回歸分析1變量與變量之間的關系一般可以分為兩大類:確定性關系和相關關系。

當一個或幾個變量取一定值時,另一個變量有確定值與之相對應,也就是說變量之間存在著嚴格的函數(shù)關系,這種關系就稱為確定性關系。例如,牛頓第二定律F=ma,歐姆定律U=IR,朗伯-比爾定律A=abc等均是反映變量間確定關系的表達式。

當一個或幾個相互關系的變量取一定數(shù)值時,與之對應的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化。變量間相互關聯(lián)而不能用確切的函數(shù)表達的,這種關系稱為相關關系。例如,在農(nóng)業(yè)生產(chǎn)中肥料、單位面積播種量與畝產(chǎn)之間,相互有影響但不是“一個決定另一個”的確定關系,這就是相關關系。

變量之間的確定性關系和相關關系,在一定的條件下是可以相互轉(zhuǎn)換的。本來具有函數(shù)關系的變量,當存在實驗誤差時,其函數(shù)關系往往以相關的形式表現(xiàn)出來。相關關系雖然是不確定的,卻是一種統(tǒng)計關系,在大量的觀察下,往往會呈現(xiàn)出一定的規(guī)律性,這種規(guī)律性可以通過大量實驗值的散點圖反映出來,也可以借助相應的函數(shù)式表達出來,這種函數(shù)稱為回歸函數(shù)或回歸方程。10.1基本概念2回歸分析的主要內(nèi)容:確定回歸方程,檢驗回歸方程的可信性10.2一元線性回歸分析10.2.1一元線性回歸方程的建立一元線性回歸分析又稱直線擬合,是處理兩個變量x和y之間關系的方法。所謂一元是指只有一個自變量x,因變量y在某種程度上是隨x變化的。設有一組實驗數(shù)據(jù),實驗值為

(xi,yi)(i=1,2,…,n)。若x,y符合線性關系,或已知經(jīng)驗公式為直線形式,就可擬合為直線方程,即:=a+bxi

上式就是變量x,y的一元線性回歸方程,式中a,b稱為回歸系數(shù);

是對應自變量xi代入回歸方程的計算值,稱為回歸值。注意,這里的函數(shù)計算值

與實驗值yi不一定相等。將

與yi之間的差異稱為偏差,用

i表示。3

i=yi-yi=a+bxi+i

顯然,只有各偏差平方值(考慮到偏差有正有負)之和最小時,回歸方程與實驗值的擬合程度最好。令:q=

i2=(yi-)2=[yi–(a+bxi)]2

正規(guī)方程組45[例10-1]為研究某合成物的轉(zhuǎn)化率y(%)與實驗中的壓強x(atm)的關系,得到如表10-1的實驗數(shù)據(jù)。試使用最小二乘法確定轉(zhuǎn)化率與壓強的經(jīng)驗公式。x/atm24589y/%2.012.983.505.025.07實驗數(shù)據(jù)散點圖6分析:

根據(jù)表10-1的實驗數(shù)據(jù),在普通直角坐標系中畫出y~x散點圖(見圖10-1),從圖中可以看出,這些點近似于直線分布,故可設y~x經(jīng)驗公式為y=a+bx。若將上述數(shù)據(jù)代入經(jīng)驗公式y(tǒng)=a+bx中,可以得到多種組合,例如:

a+2b=2.01a+5b=3.50a+4b=2.98a+8b=5.02由第一個方程組解得a=1.040,b=0.485,由第二個方程組解得a=0.900,b=0.520??梢姡煌慕M合可以解出不同的a,b值,這一矛盾是由于測量中存在不可避免的誤差,未知量a,b無論取何值都不會使以上兩種方程兩邊都相等。但是可以利用最小二乘法原理求得a,b的最佳值,使y=a+bx與各組數(shù)據(jù)擬合得最好。7解:依題意,實驗次數(shù)n=5,y~x為一元線性關系y=a+bx。根據(jù)最小二乘法原理,有:ixiyixi2yi2xiyi122.0144.044.02242.98168.8811.92353.502512.2517.50485.026425.2040.16595.078125.7045.63

2818.5819076.07119.23解得a=1.155,b=0.4573。因此關系式為:y=1.155+0.4573x。8如果用簡化算法,則有:故關系式為:y=1.155+0.4573x,即兩種計算方法結(jié)果是一致的。可見,根據(jù)實驗數(shù)據(jù)建立回歸方程,可采用最小二乘法,基本步驟為:①根據(jù)實驗數(shù)據(jù)畫出散點圖;②確定經(jīng)驗公式的函數(shù)類型;③通過最小二乘法得到正規(guī)方程組;④求解正規(guī)方程組,得到回歸方程的表達式。其實①②兩點正是第9章建立數(shù)學模型的過程,所以建立數(shù)學模型是回歸分析的前提。9在一些情況下,對實驗值

(xi,yi)(i=1,2,…,n)作出的散點圖,即使一看就知道這些點不可能近似在一條直線附近,即x與y不存在線性相關關系,但是仍可以利用最小二乘法求得x與y的線性擬合方程

=a+bxi,這樣求得的方程顯然沒有意義。因此,我們不僅要建立從經(jīng)驗上認為有意義的方程,還要對其可信性或擬合效果進行檢驗或衡量。下面介紹幾種檢驗方法。

(1)相關系數(shù)檢驗法相關系數(shù)是用于描述變量x與y的線性相關程度的,常用r來表示。設有n對實驗值(xi,yi)(i=1,2,…,n),則相關系數(shù)的計算式為:10.2.2一元線性回歸效果的檢驗10比較回歸系數(shù)b與相關系數(shù)r的計算式,可得:所以r與b有相同的符號。11相關系數(shù)r具有以下特點:①|r|≤1;②如果|r|=1,則表明x與y完全線性相關,這時x與y有精確的線性關系,見圖10-2(a)(c);③大多數(shù)情況下0<|r|<1,即x與y之間存在著一定的線性關系。當r>0時,稱x與y正線性相關,見圖10-2(b),這時直線的斜率為正值,y隨著x的增加而增加。當r<0時,稱x與y負線性相關,見圖10-2(d),這時直線的斜率為負值,x隨y的增加而減小;④r=0時,則表明x與y沒有線性關系,圖10-2(e)(f),但并不意味著x與y之間不存在其他類型的關系,所以相關系數(shù)更精確的說法應該是線性相關系數(shù)。12從上面的分析可知,相關系數(shù)r越接近1,x與y的線性相關程度越高,然而r的大小未能回答其值達到多大時,x與y之間才存在線性相關,采用線性關系才屬合理,所以須對相關系數(shù)r進行顯著性檢驗。對于給定的顯著性水平α,顯著性檢驗要求|r|>r

,f

時,才說明x與y之間存在密切的線性關系,或者說用線性回歸方程來描述變量x與y之間的關系才有意義,否則線性相關不顯著,應改用其他形式的回歸方程。*r

,f

稱為相關系數(shù)臨界值,可從附錄7查得。*此處自由度f=n-2,n為實驗數(shù)據(jù)組數(shù),2為變量數(shù)目。13

[例10-2]試用相關系數(shù)檢驗法對例10-l中得到的經(jīng)驗公式進行顯著性檢驗(α=0.05)。解:當α=0.05,n=5時,查得相關系數(shù)臨界值r0.05,3=0.8783。所以r>r

,f,所得的經(jīng)驗公式有意義。14應當指出的是,相關系數(shù)r有一個明顯的缺點:即它接近于1的程度與實驗數(shù)據(jù)組數(shù)n有關。當n較小時,|r|容易接近于1;當n較大時,|r|容易偏小。特別是當n=2時,因兩點確定一條直線,|r|總等于1。所以,只有當實驗次數(shù)n較多時,才能得出真正有實際意義的回歸方程。(2)F檢驗F檢驗實際上就是方差分析,包括以下主要內(nèi)容。①偏差平方和

Q總=實驗值yi的這種波動是由兩個因素造成的:一個是由于x的變化而引起y相應的變化,

Q回

=

Q剩

=顯然,存在以下關系:Q總=Q回+Q剩

15Q回

===②自由度f總=n-1f回=1f剩=n-2三種自由度之間的關系為:f總=f回+f剩16③均方差S回=Q回/f回

S剩=Q剩/f剩

④F檢驗F=S回/S剩

若F<F0.05(1,n-2),則稱x與y沒有明顯的線性關系,回歸方程不可信。若F0.05(1,n-2)<F<F0.01(1,n-2),則稱x與y有顯著的線性關系,用“*”表示。若F>F0.01(1,n-2),則稱x與y有十分顯著的線性關系,用“**”表示。方差來源偏差平方和自由度方差F值F臨界值顯著性回歸Q回1S回F=S回/S剩F

(1,n-2)剩余Q剩n-2S??偤蚎總n-117[例10-3]試用F檢驗法對例10-1中得到的經(jīng)驗公式進行顯著性檢驗。解:根據(jù)例10-l和例10-2知:Lxy=15.182,Lxx=33.2,Lyy=7.033,b=0.4573,故Q總=Lyy=7.033Q回=bLxy=0.4573×15.182=6.943Q剩=Q總-Q回=7.033-6.943=0.090列出方差分析表,如表10-4。所以,例10-1建立的回歸方程具有十分顯著的線性關系。方差來源偏差平方和自由度方差F值F0.01(1,

3)顯著性回歸6.94316.943231.434.1**剩余0.09030.030總和7.03341810.3多元線性回歸分析10.3.1多元線性回歸方程

y=f(x1,x2,…,xm)。若因變量y與自變量xj(j=l,2,…,m)之間的近似函數(shù)關系式為:q=1920如果令則21[例10-4]在某化合物的合成實驗中,為了提高產(chǎn)量,選取原料配比(x1)、溶劑量(x2)和反應時間(x3)三個因素,實驗結(jié)果如表10-6所示。試用線性回歸模型來擬合實驗數(shù)據(jù)。實驗號配比(x1)溶劑量(x2)反應時間(x3)收率(y)11.0131.50.33021.4193.00.33631.8251.00.29442.2102.50.47652.6160.50.20963.0222.00.45173.4283.50.482例10-4數(shù)據(jù)22解:依題意,實驗次數(shù)n=7,因素數(shù)m=3。本例要求用最小二乘法求出三元線性回歸方程y=a+b1x1+b2x2+b3x3中的系數(shù)a,b1,b2,b3。正規(guī)方程組為:解得:a=0.197,b1=0.0455,b2=-0.00377,b3=0.0715于是,三元線性回歸方程為:

y=0.197+0.0455x1-0.00377x2+0.0715x3但是,上述回歸方程是否有意義,還需進行顯著性檢驗。23(1)F檢驗法

Q總=Q回=Q剩=

=Q總-Q回

表10-8多元線性回歸方差分析表方差來源偏差平方和自由度方差F值F

(m,n-m-1)顯著性回歸Q回mS回=Q回/mF=S回/S剩剩余Q剩n-m-1S剩=Q剩/(n-m-1)總和Q總n-110.3.2多元線性回歸方程顯著性檢驗24表10-8中的F服從自由度為(m,n-m-1)的分布,在給定的顯著性水平α下,從F分布表(附錄5)中查得F

(m,n-m-1)。若F<F0.05(m,n-m-1),則稱y與x1,x2,…,xm間沒有明顯的線性關系,回歸方程不可信;若F0.05(m,n-m-1)<F<F0.01(m,n-m-1),則稱y與x1,x2,…,xm間有顯著的線性關系,用“*”表示;若F>F0.01(m,n-m-1),則稱y與x1,x2,…,xm間有十分顯著的線性關系,用“**”表示。(2)相關系數(shù)檢驗法類似于一元線性回歸的相關系數(shù)r,在多元線性回歸分析中,復相關系數(shù)R反映了一個變量y與多個變量xj(j=1,2,…,m)之間的線性相關程度。復相關系數(shù)的定義式為:25復相關系數(shù)的平方稱為多元線性回歸方程的決定系數(shù),用R2表示。決定系數(shù)的大小反映了回歸平方和Q回在總偏差平方和Q總中所占的比重,即:

復相關系數(shù)一般取正值。顯然,0≤R≤1。

當R=1時,表明y與變量x1,x2,…,xm之間存在嚴格的線性關系。

當R=0時,則表明y與變量x1,x2,…,xm之間不存在任何線性相關關系,但可能存在其它非線性關系。

當0<R<1時,表明變量之間存在一定程度的線性相關關系。

可以證明,當m=1,即一元線性回歸時,復相關系數(shù)R與一元線性相關系數(shù)r是相等的。

對于給定的顯著性水平α,顯著性檢驗要求R>R

,(m,n-m-1)

時,才說明y與x1,x2,…,xm之間存在密切的線性關系,或者說用線性回歸方程來描述變量y與x1,x2,…,xm之間的關系才有意義,否則線性相關不顯著,應改用其它形式的回歸方程。其中R,(m,n-m-1)稱為復相關系數(shù)臨界值,可從附錄8查得。26

[例10-5]試檢驗例10-4中線性回歸方程的顯著性(α=0.05)。解:①F檢驗方差來源偏差平方和自由度方差F值F0.05(3,3)顯著性回歸0.046330.01542.549.28-剩余0.018230.00607總和0.06456從表10-9可以看出,例10-4中所建立的線性回歸方程不顯著,即產(chǎn)品收率與所討論的三個因素之間沒有顯著的線性關系,故應改變y與xj之間的數(shù)學模型。27②復相關系數(shù)檢驗由于Q總=0.0645,Q回=0.0463,所以:對于給定的顯著性水平α=0.05,自變量個數(shù)m=3,實驗次數(shù)n=7時,查附錄8得對應的臨界值R

,(m,n-m-1)=R0.05,(3,3)=0.950,所以例10-4所建立的線性回歸方程與實驗數(shù)據(jù)擬合得不好,這與F檢驗的結(jié)論是一致的。2810.4非線性回歸分析○在實際問題中,變量之間的關系常常是非線性的。由于非線性關系的函數(shù)表達形式很多,因此求取數(shù)模的方法就有許多種。○在第9章由實驗數(shù)據(jù)求數(shù)模的分析中,曾討論了一元n次多項式數(shù)模的差分法以及求非線性數(shù)模的直線變換法。

任何連續(xù)函數(shù)都可用適當?shù)母唠A多項式任意逼近,這是數(shù)學上已被證明了的結(jié)論。因此,對于那些較難直線化的一元函數(shù),可用m次多項式來擬合如果令X1=x,X2=x2,…,Xm=xm,則上式可以轉(zhuǎn)化為多元線性方程:這樣就可以用多元線性回歸分析求出系數(shù)a,b1,b2,…,bm。雖然多項式的階數(shù)越高,回歸方程與實際數(shù)據(jù)的擬合程度越高,但階數(shù)越高,回歸計算過程中的舍入誤差的積累也越大,所以當階數(shù)m過高時,回歸方程的精度反而會降低,甚至得不到合理的結(jié)果,故一般取m=3~4?!鹣旅嫜a充介紹,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論