線性回歸推導(dǎo)及實(shí)例.doc_第1頁(yè)
線性回歸推導(dǎo)及實(shí)例.doc_第2頁(yè)
線性回歸推導(dǎo)及實(shí)例.doc_第3頁(yè)
線性回歸推導(dǎo)及實(shí)例.doc_第4頁(yè)
線性回歸推導(dǎo)及實(shí)例.doc_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)點(diǎn)基本落在一條直線附近。這告訴我們,變量X與Y的關(guān)系大致可看作是線性關(guān)系,即它們之間的相互關(guān)系可以用線性關(guān)系來(lái)描述。但是由于并非所有的數(shù)據(jù)點(diǎn)完全落在一條直線上,因此X與Y的關(guān)系并沒有確切到可以唯一地由一個(gè)X值確定一個(gè)Y值的程度。其它因素,諸如其它微量元素的含量以及測(cè)試誤差等都會(huì)影響Y的測(cè)試結(jié)果。如果我們要研究X與Y的關(guān)系,可以作線性擬合(2-1-1)我們稱(2-1-1)式為回歸方程,a與b是待定常數(shù),稱為回歸系數(shù)。從理論上講,(2-1-1)式有無(wú)窮多組解,回歸分析的任務(wù)是求出其最佳的線性擬合。二、最小二乘法原理如果把用回歸方程計(jì)算得到的i值(i=1,2,n)稱為回歸值,那么實(shí)際測(cè)量值yi與回歸值i之間存在著偏差,我們把這種偏差稱為殘差,記為ei(i=1,2,3,n)。這樣,我們就可以用殘差平方和來(lái)度量測(cè)量值與回歸直線的接近或偏差程度。殘差平方和定義為:(2-1-2)所謂最小二乘法,就是選擇a和b使Q(a,b)最小,即用最小二乘法得到的回歸直線是在所有直線中與測(cè)量值殘差平方和Q最小的一條。由(2-1-2)式可知Q是關(guān)于a,b的二次函數(shù),所以它的最小值總是存在的。下面討論的a和b的求法。三、正規(guī)方程組根據(jù)微分中求極值的方法可知,Q(a,b)取得最小值應(yīng)滿足 (2-1-3)由(2-1-2)式,并考慮上述條件,則(2-1-4)(2-1-4)式稱為正規(guī)方程組。解這一方程組可得(2-1-5)其中(2-1-6)(2-1-7)式中,Lxy稱為xy的協(xié)方差之和,Lxx稱為x的平方差之和。如果改寫(2-1-1)式,可得(2-1-8)或(2-1-9)由此可見,回歸直線是通過點(diǎn)的,即通過由所有實(shí)驗(yàn)測(cè)量值的平均值組成的點(diǎn)。從力學(xué)觀點(diǎn)看,即是N個(gè)散點(diǎn)的重心位置?,F(xiàn)在我們來(lái)建立關(guān)于例1的回歸關(guān)系式。將表2-1-1的結(jié)果代入(2-1-5)式至(2-1-7)式,得出a=1231.65b=-2236.63因此,在例1中灰鑄鐵初生奧氏體析出溫度(y)與氮含量(x)的回歸關(guān)系式為y=1231.65-2236.63x四、一元線性回歸的統(tǒng)計(jì)學(xué)原理如果X和Y都是相關(guān)的隨機(jī)變量,在確定x的條件下,對(duì)應(yīng)的y值并不確定,而是形成一個(gè)分布。當(dāng)X取確定的值時(shí),Y的數(shù)學(xué)期望值也就確定了,因此Y的數(shù)學(xué)期望是x的函數(shù),即E(Y|X=x)=f(x)(2-1-10)這里方程f(x)稱為Y對(duì)X的回歸方程。如果回歸方程是線性的,則E(Y|X=x)=+x(2-1-11)或Y=+x+(2-1-12)其中 隨機(jī)誤差從樣本中我們只能得到關(guān)于特征數(shù)的估計(jì),并不能精確地求出特征數(shù)。因此只能用f(x)的估計(jì)式來(lái)取代(2-1-11)式,用參數(shù)a和b分別作為和的估計(jì)量。那么,這兩個(gè)估計(jì)量是否能夠滿足要求呢?1. 無(wú)偏性把(x,y)的n組觀測(cè)值作為一個(gè)樣本,由樣本只能得到總體參數(shù)和的估計(jì)值??梢宰C明,當(dāng)滿足下列條件:(1)(xi,yi)是n個(gè)相互獨(dú)立的觀測(cè)值(2)i是服從分布的隨機(jī)變量則由最小二乘法得到的a與b分別是總體參數(shù)和的無(wú)偏估計(jì),即E(a)= E(b)= 由此可推知E()=E(y) 即y是回歸值在某點(diǎn)的數(shù)學(xué)期望值。2. a和b的方差可以證明,當(dāng)n組觀測(cè)值(xi,yi)相互獨(dú)立,并且D(yi)=2,時(shí),a和b的方差為 (2-1-13)(2-1-14)以上兩式表明,a和b的方差均與xi的變動(dòng)有關(guān),xi分布越寬,則a和b的方差越小。另外a的方差還與觀測(cè)點(diǎn)的數(shù)量有關(guān),數(shù)據(jù)越多,a的方差越小。因此,為提高估計(jì)量的準(zhǔn)確性,xi的分布應(yīng)盡量寬,觀測(cè)點(diǎn)數(shù)量應(yīng)盡量多。建立多元線性回歸方程,實(shí)際上是對(duì)多元線性模型(2-2-4)進(jìn)行估計(jì),尋求估計(jì)式(2-2-3)的過程。與一元線性回歸分析相同,其基本思想是根據(jù)最小二乘原理,求解使全部觀測(cè)值與回歸值的殘差平方和達(dá)到最小值。由于殘差平方和(2-2-5)是的非負(fù)二次式,所以它的最小值一定存在。 根據(jù)極值原理,當(dāng)Q取得極值時(shí),應(yīng)滿足 由(2-2-5)式,即滿足(2-2-6) (2-2-6)式稱為正規(guī)方程組。它可以化為以下形式(2-2-7) 如果用A表示上述方程組的系數(shù)矩陣可以看出A是對(duì)稱矩陣。則有(2-2-8)式中X是多元線性回歸模型中數(shù)據(jù)的結(jié)構(gòu)矩陣,是結(jié)構(gòu)矩陣X的轉(zhuǎn)置矩陣。(2-2-7)式右端常數(shù)項(xiàng)也可用矩陣D來(lái)表示即 因此(2-2-7)式可寫成Ab=D(2-2-10)或(2-2-11)如果A滿秩(即A的行列式)那么A的逆矩陣A-1存在,則由(2-10)式和(2-11)式得的最小二乘估計(jì)為(2-2-12)也就是多元線性回歸方程的回歸系數(shù)。 為了計(jì)算方便往往并不先求,再求b,而是通過解線性方程組(2-2-7)來(lái)求b。(2-2-7)是一個(gè)有p+1個(gè)未知量的線性方程組,它的第一個(gè)方程可化為(2-2-13)式中(2-2-14) 將(2-2-13)式代入(2-2-7)式中的其余各方程,得(2-2-15)其中(2-2-16) 將方程組(2-2-15)式用矩陣表示,則有Lb=F(2-2-17)其中于是b=L-1F(2-2-18)因此求解多元線性回歸方程的系數(shù)可由(2-2-16)式先求出L,然后將其代回(2-2-17)式中求解。求b時(shí),可用克萊姆法則求解,也可通過高斯變換求解。如果把b直接代入(2-2-18)式,由于要先求出L的逆矩陣,因而相對(duì)復(fù)雜一些。 例2-2-1表2-2-1為某地區(qū)土壤內(nèi)含植物可給態(tài)磷(y)與土壤內(nèi)所含無(wú)機(jī)磷濃度(x1)、土壤內(nèi)溶于K2CO3溶液并受溴化物水解的有機(jī)磷濃度(x2)以及土壤內(nèi)溶于K2CO3溶液但不溶于溴化物的有機(jī)磷(x3)的觀察數(shù)據(jù)。求y對(duì)x1,x2,x3的線性回歸方程 。表2-2-1土壤含磷情況觀察數(shù)據(jù)計(jì)算如下: 由(2-2-16)式代入(2-2-15)式得(2-2-19)若用克萊姆法則解上述方程組,則其解為 (2-2-20)其中計(jì)算得b1=1.7848,b2=-0.0834,b3=0.1611回歸方程為 應(yīng)用克萊姆法則求解線性方程組計(jì)算量偏大,下面介紹更實(shí)用的方法高斯消去法和消去變換。在上一節(jié)所介紹的非線性回歸分析,首先要求我們對(duì)回歸方程的函數(shù)模型做出判斷。雖然在一些特定的情況下我們可以比較容易地做到這一點(diǎn),但是在許多實(shí)際問題上常常會(huì)令我們不知所措。根據(jù)高等數(shù)學(xué)知識(shí)我們知道,任何曲線可以近似地用多項(xiàng)式表示,所以在這種情況下我們可以用多項(xiàng)式進(jìn)行逼近,即多項(xiàng)式回歸分析。一、多項(xiàng)式回歸方法假設(shè)變量y與x的關(guān)系為p次多項(xiàng)式,且在xi處對(duì)y的隨機(jī)誤差(i=1,2,n)服從正態(tài)分布N(0,),則令xi1=xi, xi2=xi2,xip=xip則上述非線性的多項(xiàng)式模型就轉(zhuǎn)化為多元線性模型,即這樣我們就可以用前面介紹的多元線性回歸分析的方法來(lái)解決上述問題了。其系數(shù)矩陣、結(jié)構(gòu)矩陣、常數(shù)項(xiàng)矩陣分別為(2-4-11) (2-4-12)(2-4-13)回歸方程系數(shù)的最小二乘估計(jì)為(2-4-14)需要說(shuō)明的是,在多項(xiàng)式回歸分析中,檢驗(yàn)bj是否顯著,實(shí)質(zhì)上就是判斷x的j次項(xiàng)xj對(duì)y是否有顯著影響。對(duì)于多元多項(xiàng)式回歸問題,也可以化為多元線性回歸問題來(lái)解決。例如,對(duì)于(2-4-15) 令xi1=Zi1, xi2=Zi2, xi3=Zi12, xi4=Zi1Zi2, xi5=Zi22則(2-4-15)式轉(zhuǎn)化為轉(zhuǎn)化后就可以按照多元線性回歸分析的方法解決了。下面我們通過一個(gè)實(shí)例來(lái)進(jìn)一步說(shuō)明多項(xiàng)式回歸分析方法。一、應(yīng)用舉例例2-4-2某種合金中的主要成分為元素A和B,試驗(yàn)發(fā)現(xiàn)這兩種元素之和與合金膨脹系數(shù)之間有一定的數(shù)量關(guān)系,試根據(jù)表2-4-3給出的試驗(yàn)數(shù)據(jù)找出y與x之間的回歸關(guān)系。表2-4-3例2-4-2試驗(yàn)數(shù)據(jù)首先畫出散點(diǎn)圖(圖2-4-3)。從散點(diǎn)圖可以看出,y與x的關(guān)系可以用一個(gè)二次多項(xiàng)式來(lái)描述:i=1,2,3,13圖2-4-3例2-4-2的散點(diǎn)圖令xi1=xi,xi2=xi2,則現(xiàn)在我們就可以用本篇第二章介紹的方法求出的最小二乘估計(jì)。由表2-4-3給出的數(shù)據(jù),求出由(2-2-16)式由此可列出二元線性方程組將這個(gè)方程組寫成矩陣形式,并通過初等變換求b1,b2和系數(shù)矩陣L的逆矩陣L-1:于是b1=-13.3854 b2=0.16598 b0=2.3323+13.385440-0.165981603.5=271.599因此下面對(duì)回歸方程作顯著性檢驗(yàn):由(2-2-43)式S回=由(2-2-42)式S總=S殘=Lyy- S回=0.2572將上述結(jié)果代入表2-2-2中制成方差分析表如下:表2-4-4方差分析表查F檢驗(yàn)表,F(xiàn)0。01(2,10)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論