回歸分析一元線性回歸一元曲線回歸多元線性回歸_第1頁
回歸分析一元線性回歸一元曲線回歸多元線性回歸_第2頁
回歸分析一元線性回歸一元曲線回歸多元線性回歸_第3頁
回歸分析一元線性回歸一元曲線回歸多元線性回歸_第4頁
回歸分析一元線性回歸一元曲線回歸多元線性回歸_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第八講回歸分析一、一元線性回歸三、多元線性回歸二、一元曲線回歸一些相關(guān)關(guān)系的例子人的身高和體重父親的身高和兒子的身高在農(nóng)業(yè)生產(chǎn)中,小麥的畝產(chǎn)量Y與所施肥量x定義1

把呈現(xiàn)不確定性關(guān)系的變量間的聯(lián)系稱為相關(guān)關(guān)系。相關(guān)關(guān)系中的兩種變量:一類相當(dāng)于通常函數(shù)關(guān)系中的自變量,這類變量能夠賦予一個需要的值(如室內(nèi)的溫度、施肥量等),或能夠取到一個可觀測但不能人為控制的值(如室外溫度),這種變量稱為自變量,或稱預(yù)報變量。預(yù)報變量的變化能波及另一些變量(如水稻畝產(chǎn)),這樣的變量稱為因變量,或稱響應(yīng)變量。相關(guān)關(guān)系中的各種變量可以是普通變量,可以是隨機變量。一般把相關(guān)關(guān)系分為隨機變量間的相關(guān)關(guān)系和隨機變量與普通變量間的相關(guān)關(guān)系。這兩種情況假設(shè)不同,推導(dǎo)過程也不同,但某些結(jié)論卻很類似。本章著重討論后一種關(guān)系。但結(jié)論對另一種情況也實用。回歸分析是處理變量間的相關(guān)關(guān)系的一種有效工具。其目的在于根據(jù)已知預(yù)報變量的變化來估計或預(yù)測響應(yīng)變量的變化情況,或者根據(jù)響應(yīng)變量來對預(yù)報變量做一定的控制。具體來說,它的研究內(nèi)容如下:它可以提供變量間相關(guān)關(guān)系的數(shù)學(xué)表達式(通常稱為經(jīng)驗公式);且利用概率統(tǒng)計知識,對經(jīng)驗公式及有關(guān)問題進行分析、判斷以確定經(jīng)驗公式的有效性。從眾多的預(yù)報變量中,判斷哪些變量對響應(yīng)變量的影響是顯著的,哪些是不顯著的;還可以利用所得經(jīng)驗公式,由一個或幾個變量的值,去預(yù)測或控制另一個變量的取值,同時還可知道這種預(yù)測和控制可以達到什么樣的精度。為了方便,我們將隨機變量Y與其取值y一律用小寫字母y表示,而x通常表示普通變量?;貧w的由來:英國著名人類學(xué)家FranicsGalton(1822-1911)于1885年在論文《身高遺傳中的平庸回歸》中闡述了他的重大發(fā)現(xiàn):子代的身高有向平均值靠攏的趨向。因此,他用回歸一詞來描述子代身高與父代身高的這種關(guān)系。隨后,英國著名統(tǒng)計學(xué)家K.Pearson等人搜集了上千家庭成員的身高數(shù)據(jù),分析出兒子的身高y與父親的身高x大致可歸結(jié)為一下關(guān)系:y=0.516x+33.73(單位為英寸)從而進一步證實了Galton的“回歸定律”。這就是回歸一詞最初在遺傳學(xué)上的含義?;貧w的現(xiàn)代意義:它要比其原始意義廣泛的多。具體地說,回歸分析的內(nèi)容包括:確定響應(yīng)變量與預(yù)報變量間的回歸模型,即變量間相關(guān)關(guān)系的數(shù)學(xué)表達式(通常稱為經(jīng)驗公式);根據(jù)樣本估計并檢驗回歸模型及未知參數(shù);從眾多的預(yù)報變量中,判斷哪些變量對響應(yīng)變量的影響是顯著的,哪些是不顯著的;根據(jù)預(yù)報變量的已知值或給定值來估計或預(yù)測響應(yīng)變量的平均值并給出預(yù)測精度或根據(jù)響應(yīng)變量的給定值來估計預(yù)報變量的值,即所謂的預(yù)報與控制問題。定義2設(shè)y為隨機變量,x為非隨機變量,即普通變量,描述y與x的關(guān)系的方程稱為回歸方程,E(y|x)=f(x)的圖形稱為回歸曲線。這個圖形為直線時,稱為回歸直線。注意:回歸曲線有一個取值范圍。有時候,盡管兩個變量間不是直線關(guān)系,但如限制在某個范圍時仍作為直線關(guān)系來處理,是很有實用價值的。但在作預(yù)報時,對于超出這個范圍的預(yù)報變量作的預(yù)報必須注意是不可靠的。預(yù)報變量不只一個時,也有類似的情況值得注意。第一節(jié)一元線性回歸一、基本問題研究隨機變量y與普通變量x間的相關(guān)關(guān)系。這里對于每個確定的x,y是一個具有確定分布的隨機變量。尋求y的均值與x之間的函數(shù)關(guān)系的表達式Ey=(x)便是回歸分析的基本問題。這里的(x)稱為y對x的回歸函數(shù),或簡稱為y對x的回歸。簡單而有代表性的情形是,(x)與x呈線性關(guān)系,(x)=ax+b,用線性函數(shù)a+bx來估計y的數(shù)學(xué)期望的問題,稱為一元線性回歸問題。對于x的一組不全相同的值x1,x2,...,xn做獨立試驗,得到隨機變量y的相應(yīng)的觀測值y1,y2,...,yn,這樣就得到了n對數(shù)據(jù):(x1,y1),(x2,y2),...,(xn

,yn

),我們稱之為一組樣本容量為

n的樣本,我們的任務(wù)就是用這組樣本來估計回歸函數(shù)(x)=ax+b的表達式。散點圖??纱致詭椭覀兞私鈶?yīng)用什么形式的函數(shù)來估計(x).如果散點大致成一直線,就可用ax+b來估計(x)。下面詳細介紹之。二、一元線性回歸問題的數(shù)學(xué)描述及a,b的估計隨機變量y與普通變量x具有下面的關(guān)系其中x是可控(或可觀察)的非隨機變量,是隨機因素,是不可觀察的隨機變量,是許多不可控制或不了解的隨機因素的總和,且滿足這里a,b,2都是未知參數(shù),且都不依賴于x.常稱為自變量,或預(yù)報變量。固定的未知參數(shù)a,b稱為回歸系數(shù),預(yù)報y是可觀察的隨機變量,可以稱之為因變量或響應(yīng)變量,顯然有Ey=a+bx.一般地,稱由(1.1)(1.2)確定的模型為一元線性回歸模型,記為變量x也稱為回歸變量。三、任務(wù)是用樣本值(x1,y1),(x2,y2),...,(xn,yn)來估計a,b,2。若a,b的估計值為,則對于給定的x,a+bx的估計值為將其記為稱(1.4)為y對x的線性回歸方程,或回歸方程,回歸直線。因為由樣本得到的皆為隨機變量,故我們實際上得到的是理論回歸方程Ey=a+bx的估計方程也稱為經(jīng)驗回歸方程。四、a,b的最小二乘估計用最小二乘法來估計模型中的未知參數(shù)a,b.假設(shè)由n組對立觀察值(x1,y1),(x2,y2),...,(xn,yn),則由(1.3)有稱Q(a,b)為偏離真實直線的偏差平方和。最小二乘法就是選擇a,b的估計使得這里方程組(1.8)稱為正規(guī)方程組。由于xi不全相等,故(1.8)有唯一解于是,所求回歸方程為這表明,對于一組樣本觀察值(x1,y1),(x2,y2),...,(xn,yn),回歸直線通過散點圖得幾何中心用這種方法求出的估計稱為a,b的最小二乘估計(LeastSquaresEstimation),簡稱LS估計。為了便于計算,人們常用下列記號和等式的各種變形:于是例1為研究溫度對某個化學(xué)過程的生產(chǎn)量的影響,收集到如下數(shù)據(jù)(規(guī)范化形式):x-5-4-3-2-1012345y1547108913141318試求其回歸直線。解:這里n=11.容易算得所以所以回歸方程(擬合方程)為記為殘差,易知這說明殘差之和為零。但在實際計算中,殘差之和可能不為零,這是由于四舍五入造成的。五、a,b的最小二乘估計的性質(zhì)定理1

是a,b的無偏估計且由定理4立刻得即經(jīng)驗回歸方程是回歸函數(shù)的無偏估計。由定理1可以看出,的波動大小不僅與觀察值y的方差有關(guān),而且還與預(yù)報變量x的取值的離散程度有關(guān)。如果x取值的離散程度較大,則的波動就較小,也就是估計比較精確;反之,若x在一個比較小的范圍內(nèi)取值,那么對a,b的估計就不會精確。x2,...,xn使得這時達到最小。(2)x1,x2,...,xn越分散越好,即Lxx越大越好。(3)試驗次數(shù)n不能太小。因此,若x是可控的變量,則在安排試驗時應(yīng)注意以下幾點:(1)x1,x2,...,xn可取正負值時,選擇x1,定理2

在模型(1.3)下,有所以是的無偏估計。六、的無偏估計稱為殘差平方和或剩余平方和。七、a,b的極大似然估計前面只是假設(shè)是隨機變量,且滿足如果要求服從正態(tài)分布,即則可以來求a,b的極大似然估計。對于每一對樣本值(xi,yi)有由于yi相互獨立,所以(y1,y2,...,yn)的聯(lián)合概率密度為。用極大似然估計法估計a,b,則只需上式右端指數(shù)的平方和最小即可,即只需取最小值。這就到了前面用最小二乘法的情形。因此得到a,b的估計也同前面完全一樣。注意:a,b都是有量綱的量,a的量綱與y相同,b的量綱為y/x.在模型(1.11)下,我們有下面的定理。定理3

八、回歸的顯著性檢驗和回歸系數(shù)的置信區(qū)間定理4

當(dāng)回歸方程有截距時且~~有回歸方程顯著性的檢驗:檢驗統(tǒng)計量為(1)~拒絕域為即當(dāng)時,認為回歸效果其中顯著;否則回歸效果不顯著?;貧w系數(shù)顯著性的檢驗:檢驗統(tǒng)計量為(2)~拒絕域為即當(dāng)時,認為回歸系數(shù)影響顯著;否則回歸效果不顯著。例K.Pearson收集了大量父親身高和兒子身高的資料,其中十組數(shù)據(jù)如下:父親身高(英寸)60626465666768707274兒子身高(英寸)63.665.26665.566.967.167.468.370.170兒子身高對父親身高的回歸結(jié)果如下: ***LinearModel***Call:lm(formula=y~x,data=dum,weights=x,na.action=na.omit)Residuals:Min1QMedian3QMax-3.352-2.1460.20331.5495.397Coefficients:ValueStd.ErrortvaluePr(>|t|)(Intercept)36.87661.8554

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論