《第十一章 多元線形回歸分析》_第1頁
《第十一章 多元線形回歸分析》_第2頁
《第十一章 多元線形回歸分析》_第3頁
《第十一章 多元線形回歸分析》_第4頁
《第十一章 多元線形回歸分析》_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十一章多元線形回歸分析第十一章多元相關(guān)與回歸分析第一節(jié)多元線性回歸模型 多元線性回歸即多個自變量對一個因變量的線性回歸。一、多元線性回歸模型概念以兩個自變量的二元回歸為例,如x1、x2和y的關(guān)系存在關(guān)系 式:e (y) = a + B 1x1+ & 2x2,則y與x1和x2之間存在多元線性相 關(guān)關(guān)系,這一方程即多元線性回歸模型。多元線性回歸是多維空間中的超平面,如二元回歸是三維空間中 的一個平面。對于任意的(x1, x2), y的期望值就是該平面上正對(x1, x2)的那個點(diǎn)的y軸值,其與實際觀測點(diǎn)之間存在隨機(jī)誤差,實際觀 測點(diǎn) yi= a + B 1x1+ B 2x2+ e i。二、模型的

2、建立總體未知情況下,以樣本構(gòu)造出一個平面來估計總體真實平面, 即以平面。=a+b1x1+b2x2去擬合原始觀測數(shù)據(jù)。擬合的準(zhǔn)則是最小二乘法原理,使各觀測值距離擬合值的偏差平 方和最小,即S(yi-o) 2最小。由此計算出的a,b1,b2是對a, B 1,B 2的最佳估計。例如對施肥量x1、降雨量x2和產(chǎn)量y的數(shù)據(jù), spss 輸 出 結(jié) 果 (表 1):variablex1x2constantb3.813.33266.7se.b0.5830.61732.077beta0.590.49t 6.5325.48.313 即得到。=266.7+3.81x1+3.33x2三、回歸系數(shù)的意義對于模型。=a

3、+b1x1+b2x2,b1可以解釋為。當(dāng)x2不變的情況下,X1每變化一個單位,y將平均發(fā)生bl個單位的變化。如果所有自變量都同時變化,那么 y=b1Ax1+b2Ax2+o .biAxio 例題:如果對產(chǎn)量、施肥量、降雨量做出了簡單回歸和多元回歸模型:a模型:產(chǎn)量=287+5.9施肥量;b模型:產(chǎn)量=400+6.0降雨量;c 模型:產(chǎn)量=267+3.81施肥量+3.33降雨量;請計算。(1)如果在每畝土地上多施10斤肥料,可以期望產(chǎn)量 增加多少。(2)如果在每畝土地上多灌溉5厘米的水,可以期望產(chǎn)量 增加多少。(3)如果同時在每畝土地上多施10斤肥料,并且多灌溉 5厘米的水,可以期望產(chǎn)量增加多少。

4、(4)由原始數(shù)據(jù)發(fā)現(xiàn)較高的施肥量和較高的降雨量是有聯(lián)系的, 如果照這樣的趨勢下去,那么在每畝土地上多灌溉5厘米的水,可以 期望產(chǎn)量增加多少。解:(1)Ay=3.81 (10)=38.1斤。Ay=3.33 (5)=16.65 斤。Ay=3.81 (10) +3.33 (5) =38.1+16.65=54.75 斤Ay=6.0 (5) =30斤。采用b模型中的簡單回歸系數(shù)6.0, 它表示當(dāng)施肥量也變化時,產(chǎn)量怎樣隨著降雨量的變化而變化。比較題2和題4, 30斤的增產(chǎn)不只歸功于降雨量,也包含施肥量 的影響;而16.65斤的增產(chǎn)則是在施肥量不變的情況下,伴隨著降雨 量的增加而產(chǎn)生的。四、自變量為定類變

5、量時回歸系數(shù)的解釋線形回歸要求自變量和因變量都是定距變量,但當(dāng)自變量為二項 變量或定類變量時,可以將其轉(zhuǎn)化為0-1變量/虛擬變量后再進(jìn)行回歸。1、自變量為二項變量時:如研究存款額y (百元)和年齡x1、 性別x2之間的關(guān)系,令男性=1,女性=0(對照組)。如果得到如下多 元回歸方程:。=33+12x1-9.1x2,則x2的回歸系數(shù)-9.1表示,對于同 年齡的人來說,男性的存款額比女性平均減少910元。2、自變量為定類變量時:如研究收入y (百元)和文化程度x 之間的關(guān)系,假設(shè)文化程度包括小學(xué)、中學(xué)、大學(xué),可將文化程度轉(zhuǎn) 化為兩個虛擬變量,1,中學(xué)1,大學(xué)d1=dd1=d2=0代表小學(xué)程度(對照

6、組),d1=1, d2=02=,表示中學(xué)文化程度;d1=0, d2=1表示大學(xué)文化程度。假如 得到回歸方程。=33+12d1+30d2, d1的回歸系數(shù)表示中學(xué)文化程度的 人比小學(xué)文化程度的人收入平均多1200元;d2的回歸系數(shù)表示大學(xué) 文化程度的人比小學(xué)文化程度的人收入平均多3000元。3、如果自變量為連續(xù)變量,但其與因變量的關(guān)系并不是線形關(guān) 系,例如年齡x和身高y的關(guān)系,可以把年齡劃分成年齡段做為定類 變量。對于有個水平的定類變量,需要設(shè)計n-1個虛擬變量來描述。第二節(jié)多元線性回歸模型檢驗一、回歸系數(shù)的估計和檢驗在多元回歸中,各個回歸系數(shù)的估計值b1,b2。都圍繞總體回 歸系數(shù)B1,B2。

7、近似正態(tài)波動,所以可以用樣本回歸系數(shù)的標(biāo)準(zhǔn)誤 差來構(gòu)造總體回歸系數(shù)的置信區(qū)間。標(biāo)準(zhǔn)誤差為表1中的第二列輸出 結(jié)果se.b??傮w回歸系數(shù)置信區(qū)間公式。Bi=bita/2sei,其中,i=1, 2,.k; 查t分布表時的自由度為n-k-1。例題:以表1為例,計算每個回歸系數(shù)的95%的置信區(qū)間(k=1,2),已知 n=7:解:df=7-2-1=4;查表得 t0.025=2.776;0,其他0,其他對回歸系數(shù)進(jìn)行檢驗即檢驗h0:Bi=0; h1:BiN0,即檢驗自 變量和因變量之間是否存在線形相關(guān)關(guān)系。檢驗方法:計算檢驗統(tǒng)計 量為t=bi-0/sei,計算出相應(yīng)概值。spss可以輸出t值和概值p。二、

8、回歸模型的檢驗即檢驗 h0B1=B2=。=Bi=0。對多元回歸做方差分析及顯著性檢驗。將總偏差平方和。(yi。y) 2分解為(yi。(。)(不能由回歸解釋的偏差)和。)(可以由對x1, x2。 xk的回歸yii-。解釋的偏差)。計算f值=可以由回歸解釋的方差/不 能解釋的方差,然后對f值與臨界值進(jìn)行比較,也可計算f值的概值。表2。對改革時間y與公司規(guī)模x1和公司類型x2的二元回歸作 出方差分析表,包括求出概值和進(jìn)行95%置信水平下的檢驗?;貧w誤 差殘差總誤差有意義。第三節(jié)相關(guān)系數(shù)和決定系數(shù)一、復(fù)相關(guān)系數(shù)和決定系數(shù)決定系數(shù)r22=可以由回歸解釋的偏差/總偏差= (i-y)2/ (yi。y) 2;

9、 r2的平方根r為復(fù)相關(guān)系數(shù),取值范圍0-1。r2=1時,說明y 的全部偏差都可以用回歸方程解釋,以二元回歸為例,表明全部觀測 點(diǎn)正好落在擬合的回歸平面上。r2越大,能用回歸來解釋的部分就越 大,表示y和x1,x2,。,xi的線形關(guān)系越強(qiáng),回歸效果越好,r2也具 有消減誤差比例的意義。例如根據(jù)表 2 計算出:r2=1504.41/1680.80=0.8950559 ;r=0.9460739解釋:應(yīng)用二元回歸可以解釋總偏差中的89.5%,以改革 時間對公司規(guī)模和公司類型作二元回歸,效果是很好的。二、偏相關(guān)系數(shù)和偏決定系數(shù)決定系數(shù)反映了一組自變量對回歸模型的貢獻(xiàn)。如果想知道某一 個自變量的貢獻(xiàn),需

10、計算引進(jìn)這個變量后,所減少的殘差的相對比例。以二元回歸為例,設(shè)。=a+b1x1+b2x2,用rss(x1,x2)表示殘差;如果只對自變量x2做簡單回歸模型。=a+b2x2,用rss(x2)表示殘 差。則rss(x2 )肯定大于ss1504.41176.391680.80df21719ms752.xx.38f72.47概值V 0.001 在95%的置信水平下可以拒絕原假設(shè),說明回歸效果是顯著的,即回歸 模型rss (x1,x2),在已有x2的模型中再引入x1變量后,所減少的 殘差為 rss (x2) -rss (x1,x2)。減少的相對殘差 r2y1.2= (rss (x2) -rss (x1,

11、x2) /rss (x2)就是偏決定系數(shù),表示x2已在模型當(dāng)中時,再引入變量x1后,能夠減 少百分之多少的殘差。偏決定系數(shù)的平方根為偏相關(guān)系數(shù),其符號與擬合回歸函數(shù)中相 應(yīng)的回歸系數(shù)符號一致。偏相關(guān)系數(shù)可以看作是消除了*2的影響效 應(yīng)后,對y和x1之間的關(guān)聯(lián)程度的度量,也稱凈相關(guān)。三、標(biāo)準(zhǔn)化回歸系數(shù)將所有變量y,x1,x2。xi標(biāo)準(zhǔn)化,然后對標(biāo)準(zhǔn)化后的yx,xix進(jìn) 行回歸擬合得:yx=ax+b1xx1x+.+bixxixblx,b2x。bix就是標(biāo)準(zhǔn)回歸系數(shù),其大小說明了各自對應(yīng)的自 變量對y的影響大小,標(biāo)準(zhǔn)回歸系數(shù)絕對值越大,該自變量的影響就 越大。例如表1第四列的標(biāo)準(zhǔn)回歸系數(shù)beta,施

12、肥量(0.59)對產(chǎn)量 的影響比降雨量(0.49)更大。但注意:這種方法只有當(dāng)自變量之間 的相關(guān)性較小時才正確。第四節(jié)非線性相關(guān)與回歸分析對于變量之間會的非線性的關(guān)系,可將其變換為線性關(guān)系再處 理。一、幕函數(shù)幕函數(shù)基本形式為。yi= B 1xi B 2eui,ui為隨機(jī)誤差項,和B1為 B2參數(shù)。參數(shù)B 2度量了變量y對變量x的彈性,即x的單位百分 比變動引起y變動的百分。y/y。 yx 上匕,B 2=二。x/x。xy由于y和x之間是非線性關(guān)系,為了將其變?yōu)榫€形形 式,可以對方程兩邊取對數(shù),轉(zhuǎn)換為雙對數(shù)函數(shù)形式,即inyi=inB1+ B 2inxi+ui,把inyi和inxi視為新的變量,則

13、新變量之間成為線形關(guān)系, 可以按照線形回歸的方式估計參數(shù)。也可拓展到多元的情況,如 inyi=in B 1+B 2inx1i+B 3inx2i。+ui。例如:根據(jù)天津市xx年的經(jīng)濟(jì)統(tǒng)計資料,想研究天津市國內(nèi)生 產(chǎn)總值gdp和資金投入量及從業(yè)人員數(shù)量之間的關(guān)系,可運(yùn)用柯柏一 道格拉斯生產(chǎn)函數(shù)建立理論回歸方程:yi=akilie,y是gdp,k是資金 投入量,l是從業(yè)人數(shù),ui是隨機(jī)誤差項。為了便于估計參數(shù),將該 方程轉(zhuǎn)換為線性方程:inyi=ina+ainki+B inli+ui,設(shè) yix=inyi,kix=inki, lix=inli,B 1=ina, B2=a,B3=B,則上式變?yōu)?yix

14、= B 1+B 2kix+B 3lix+ui,用線形回歸 分析得出結(jié)果:。ix=-10.4639+1.021124ki+1.471943lix因為B 1=ina=-10.4639,所以a=0.0000285,這樣所估計的生產(chǎn)函 數(shù)為:。ix=0.0000285ki1.021124li1.471943ui二、對數(shù)函數(shù)對數(shù)函數(shù)關(guān)系包括自變量為對數(shù)和因變量為對數(shù)兩種情況。自變 量為對數(shù)時,方程為yi= a + B inxi+ui,參數(shù)B表示自變量x每變動一 個百分點(diǎn)時,會引起因變量y絕對值的變動量。若把inxi視為新變量, 可以作為線形回歸去處理。當(dāng)因變量為對數(shù)時,方程為inyi=a+B xi+ui

15、,參數(shù)B表示自變量x每變動一個單位時,會引起因變量y發(fā)生 幾個百分比的變動。如把inyi視為新變量,可以作為線形回歸去處理。例如。美國聯(lián)邦儲備管理委員會要研究gdp和貨幣供應(yīng)量x的關(guān) 系,建立對數(shù)方程yi=B1+B2inxi+ui,可先將貨幣供應(yīng)量數(shù)據(jù)xi轉(zhuǎn)變 為inxi,再按照線性回歸方法作gdp對inxi的回歸,得到。i=-16329+2584.79inxi,表明貨幣供應(yīng)量每增加一個百分點(diǎn),gdp的絕 對量將增加2584.79億美元。三、指數(shù)函數(shù)指數(shù)函數(shù)的形式為yi=abxieui。指數(shù)函數(shù)通常用于描述產(chǎn)量、成 本等現(xiàn)象的變動趨勢。對方程兩邊取對數(shù)可轉(zhuǎn)化為線性函數(shù): inyi=ina+xi

16、inb+ui,這時的變量為inyi和xi,參數(shù)為ina和inb??梢栽O(shè) yix=inyi,B 1=ina,B 2=inb,得至U yix= B 1+ B 2xi+ui。對于非線性關(guān)系,用相關(guān)指數(shù)度量其相關(guān)程度,相關(guān)指數(shù)就是非 線性回歸的決定系數(shù)r2或者決定系數(shù)的平方根r。r2和r越大,表明 變量間的非線性相關(guān)程度越高,反之越低。r取值范圍0-1。四、logistic回歸(因變量為二項變量時的回歸)當(dāng)因變量為二項變量時,可將其轉(zhuǎn)化為定距變量。其他定類變量 也可以轉(zhuǎn)化為二項變量來研究。1,成功用虛擬變量的形式來表示因變量y,即y=0,失敗,并設(shè)成功的 概率p (y=1) =n,失敗的概率p (y=0) =1- n,根據(jù)二項分布特征, 可知y的期望值e (y) = n,y的方差d (y) =n(1-n)。設(shè)y (二項變量)對自變量的回歸模型為:e (y) =a+B1x1+。+ B ixi如果擬合的方程為:。=a+b1x1+。+bixi那么,擬合值。就表示成功概率兀即e (y)的估計值。所以自 變量對y的影響就轉(zhuǎn)化為了自變量對成功概率的影響。然而,對于二項變量來說,其e (y)的取值范圍只能是0-1,這樣就不能很好適應(yīng)線形回歸模型(線形回歸要求因變量連續(xù)取值),所以考慮對e(y)進(jìn)行數(shù)值p變換,可以將其轉(zhuǎn)化為px=ln,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論