SPSS課件9-回歸分析_第1頁
SPSS課件9-回歸分析_第2頁
SPSS課件9-回歸分析_第3頁
SPSS課件9-回歸分析_第4頁
SPSS課件9-回歸分析_第5頁
已閱讀5頁,還剩64頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第9章線性回歸分析9.1一元線性回歸9.2多元線性回歸9.3逐步回歸9.4spss在回歸中的應(yīng)用“回歸”一詞的由來“回歸”這個(gè)詞最先由由英國(guó)著名統(tǒng)計(jì)學(xué)家F.高爾頓〔FrancisGalton〕在19世紀(jì)末期研究孩子及他們的父母的身高時(shí)提出來的。高爾頓研究發(fā)現(xiàn),父母和孩子的身高有這樣的一個(gè)趨勢(shì):父母高,兒女就高;父母矮,兒女也矮。但是高個(gè)父母的兒女們平均起來并不像他們的父母那樣高。兒女輩的平均身高將“退化”到或者說“回歸”到全體人口的平均身高。對(duì)于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高?!盎貧w”一詞的由來

Galton把這種孩子的身高向中間值靠近的趨勢(shì)稱之為一種回歸效應(yīng),而他開展的研究?jī)蓚€(gè)數(shù)值變量的方法稱為回歸分析。這也叫高爾頓的“普遍回歸定律”。高爾頓在智力遺傳的方面也得到了類似的結(jié)果:一般來說,天才是要遺傳的。但是天才的后代卻要比他們的父輩們平庸,也就是他們的智力水平將“回歸”到中等水平;而一個(gè)智商一般的父母,其孩子卻可能是個(gè)天才!盡管“回歸”這個(gè)名稱的由來具有其特定的含義,人們?cè)谘芯看罅康膯栴}中變量x與y之間的關(guān)系并不具有這種“回歸”的含義,但借用這個(gè)詞把研究變量x與y之間的統(tǒng)計(jì)關(guān)系的數(shù)學(xué)方法稱為“回歸分析”,也算是對(duì)高爾頓這個(gè)偉大的統(tǒng)計(jì)學(xué)家的一種紀(jì)念?;貧w分析主要解決以下幾方面問題從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來預(yù)測(cè)或控制另一個(gè)特定變量的取值,并給出這種預(yù)測(cè)或控制的精確程度回歸分析與相關(guān)分析的區(qū)別相關(guān)分析中,變量x

變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測(cè)因變量的變化相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對(duì)變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測(cè)和控制

回歸模型的類型一個(gè)自變量?jī)蓚€(gè)及兩個(gè)以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸9.1一元線性回歸9.1.1一元線性回歸模型9.1.2參數(shù)的最小二乘估計(jì)9.1.3回歸方程的顯著性檢驗(yàn)一元線性回歸模型當(dāng)只涉及一個(gè)自變量時(shí)稱為一元回歸,假設(shè)因變量y與自變量x之間為線性關(guān)系時(shí)稱為一元線性回歸對(duì)于具有線性關(guān)系的兩個(gè)變量,可以用一條線性方程來表示它們之間的關(guān)系描述因變量y如何依賴于自變量x和誤差項(xiàng)的方程稱為回歸模型一元線性回歸模型對(duì)于只涉及一個(gè)自變量的簡(jiǎn)單線性回歸模型可表示為y=b0+b1x+e模型中,y是x的線性函數(shù)(局部)加上誤差項(xiàng)線性局部反映了由于x的變化而引起的y的變化誤差項(xiàng)是隨機(jī)變量反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性0和1稱為模型的參數(shù)一元線性回歸模型

〔根本假定〕誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E(ε)=0。對(duì)于一個(gè)給定的x值,y的期望值為E(y)=

0+

1x對(duì)于所有的x值,ε的方差σ2都相同誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立。即ε~N(0,σ2)獨(dú)立性意味著對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的ε與其他x值所對(duì)應(yīng)的ε不相關(guān)對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的y值與其他x所對(duì)應(yīng)的y值也不相關(guān)回歸方程

〔概念要點(diǎn)〕描述y的平均值或期望值如何依賴于x的方程稱為回歸方程簡(jiǎn)單線性回歸方程的形式如下

E(y)=

0+

1x方程的圖示是一條直線,因此也稱為直線回歸方程

0是回歸直線在y軸上的截距,是當(dāng)x=0時(shí)y的期望值

1是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值估計(jì)(經(jīng)驗(yàn))的回歸方程簡(jiǎn)單線性回歸中估計(jì)的回歸方程為其中:是估計(jì)的回歸直線在y軸上的截距,是直線的斜率,它表示對(duì)于一個(gè)給定的x的值,是y的估計(jì)值,也表示x每變動(dòng)一個(gè)單位時(shí),

y的平均變動(dòng)值

用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)和,就得到了估計(jì)的回歸方程總體回歸參數(shù)

是未知的,必需利用樣本數(shù)據(jù)去估計(jì)9.1.2參數(shù)

0和

1的最小二乘估計(jì)最小二乘估計(jì)法使因變量的觀察值與估計(jì)值之間的離差平方和到達(dá)最小來求得和的方法。即最小二乘法

〔圖示〕xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法

〔和的計(jì)算公式〕

根據(jù)最小二乘法的要求,可得求解和的標(biāo)準(zhǔn)方程如下估計(jì)方程的求法

〔實(shí)例〕【例】根據(jù)例9.1中的數(shù)據(jù),配合人均消費(fèi)金額對(duì)人均國(guó)民收入的回歸方程

根據(jù)和的求解公式得估計(jì)(經(jīng)驗(yàn))方程

人均消費(fèi)金額對(duì)人均國(guó)民收入的回歸方程為y=54.005+0.526x^9.1.3回歸方程的顯著性檢驗(yàn)擬合優(yōu)度檢驗(yàn)〔判定系數(shù)r2檢驗(yàn)〕回歸方程的顯著性檢驗(yàn)〔F檢驗(yàn)〕回歸系數(shù)的顯著性檢驗(yàn)〔t檢驗(yàn)〕離差平方和的分解因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響對(duì)一個(gè)具體的觀測(cè)值來說,變差的大小可以通過該實(shí)際觀測(cè)值與其均值之差來表示離差平方和的分解

〔圖示〕xyy{}}

離差分解圖離差平方和的分解

〔三個(gè)平方和的關(guān)系〕2.兩端平方后求和有從圖上看有SST=SSR+SSE總變差平方和(SST){回歸平方和(SSR){殘差平方和(SSE){離差平方和的分解

〔三個(gè)平方和的意義〕總平方和(SST)反映因變量的n個(gè)觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和判定系數(shù)r2回歸平方和占總離差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間

r21,說明回歸方程擬合的越好;r20,說明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即r2=(r)2R2=0.998回歸方程的顯著性檢驗(yàn)

〔線性關(guān)系的檢驗(yàn)〕檢驗(yàn)自變量和因變量之間的線性關(guān)系是否顯著具體方法是將回歸離差平方和(SSR)同剩余離差平方和(SSE)加以比較,應(yīng)用F檢驗(yàn)來分析二者之間的差異是否顯著如果是顯著的,兩個(gè)變量之間存在線性關(guān)系如果不顯著,兩個(gè)變量之間不存在線性關(guān)系回歸方程的顯著性檢驗(yàn)

〔檢驗(yàn)的步驟〕提出假設(shè)H0:線性關(guān)系不顯著2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F作出決策:假設(shè)F>F,或P<拒絕H0;假設(shè)F<F,或P>接受H0回歸方程的顯著性檢驗(yàn)

〔方差分析表〕〔續(xù)前例〕spss輸出的方差分析表P=0.000<0.05拒絕H0,線性關(guān)系顯著回歸系數(shù)的顯著性檢驗(yàn)

〔要點(diǎn)〕在一元線性回歸中,等價(jià)于回歸方程的顯著性檢驗(yàn)檢驗(yàn)x與y之間是否具有線性關(guān)系,或者說,檢驗(yàn)自變量x對(duì)因變量y的影響是否顯著理論基礎(chǔ)是回歸系數(shù)

的抽樣分布回歸系數(shù)的顯著性檢驗(yàn)

〔步驟〕提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b1

0(有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量確定顯著性水平,并進(jìn)行決策

t>t

,或P<,拒絕H0;

t<t

,或P>接受H0回歸系數(shù)的顯著性檢驗(yàn)

〔實(shí)例〕提出假設(shè)H0:b1=0人均收入與人均消費(fèi)之間無線性關(guān)系H1:b1

0人均收入與人均消費(fèi)之間有線性關(guān)系計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t=65.0758>t=2.201,拒絕H0,說明人均收入與人均消費(fèi)之間有線性關(guān)系

對(duì)前例的回歸系數(shù)進(jìn)行顯著性檢驗(yàn)(=0.05)回歸系數(shù)的顯著性檢驗(yàn)

(spss輸出的結(jié)果〕P0=0.000<0.05,常數(shù)項(xiàng)顯著不為零P1=0.000<0.05,人均消費(fèi)變量的系數(shù)顯著不為零9.2多元線性回歸多元線性回歸模型回歸參數(shù)的估計(jì)回歸方程的顯著性檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn)多元線性回歸模型

〔概念要點(diǎn)〕一個(gè)因變量與兩個(gè)及兩個(gè)以上自變量之間的回歸描述因變量

y如何依賴于自變量

x1

,x2

,…,

xp

和誤差項(xiàng)

的方程稱為多元線性回歸模型涉及p個(gè)自變量的多元線性回歸模型可表示為

b0

,b1,b2

,,bp是參數(shù)

是被稱為誤差項(xiàng)的隨機(jī)變量

y是x1,,x2

,

,xp

的線性函數(shù)加上誤差項(xiàng)

說明了包含在y里面但不能被p個(gè)自變量的線性關(guān)系所解釋的變異性多元線性回歸模型

〔根本假定〕自變量x1,x2,…,xp是確定性變量,不是隨機(jī)變量隨機(jī)誤差項(xiàng)ε的期望值為0,且方差σ2都相同誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,即ε~N(0,σ2),且相互獨(dú)立多元線性回歸方程

〔概念要點(diǎn)〕描述y的平均值或期望值如何依賴于

x1,x1

,…,xp的方程稱為多元線性回歸方程多元線性回歸方程的形式為

E(y)=

0+

1x1

+

2x2

+…+

pxp

b1,b2,,bp稱為偏回歸系數(shù)

bi

表示假定其他變量不變,當(dāng)xi

每變動(dòng)一個(gè)單位時(shí),y的平均平均變動(dòng)值多元線性回歸方程的直觀解釋二元線性回歸模型(觀察到的y)回歸面

0

ix1yx2(x1,x2)}多元線性回歸的估計(jì)(經(jīng)驗(yàn))方程總體回歸參數(shù)是未知的,利用樣本數(shù)據(jù)去估計(jì)用樣本統(tǒng)計(jì)量代替回歸方程中的未知參數(shù)

即得到估計(jì)的回歸方程

估計(jì)值

是y的估計(jì)值參數(shù)的最小二乘法根據(jù)最小二乘法的要求,可得求解各回歸參數(shù)的標(biāo)準(zhǔn)方程如下使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來求得

。即回歸方程的顯著性檢驗(yàn)多重樣本決定系數(shù)

〔多重判定系數(shù)R2〕回歸平方和占總離差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間

R21,說明回歸方程擬合的越好;R20,說明回歸方程擬合的越差等于多重相關(guān)系數(shù)的平方,即R2=(R)2修正的多重樣本決定系數(shù)

〔修正的多重判定系數(shù)R2〕由于增加自變量將影響到因變量中被估計(jì)的回歸方程所解釋的變異性的數(shù)量,為防止高估這一影響,需要用自變量的數(shù)目去修正R2的值用n表示觀察值的數(shù)目,p表示自變量的數(shù)目,修正的多元判定系數(shù)的計(jì)算公式可表示為回歸方程的顯著性檢驗(yàn)

〔線性關(guān)系的檢驗(yàn)〕檢驗(yàn)因變量與所有的自變量和之間的是否存在一個(gè)顯著的線性關(guān)系,也被稱為總體的顯著性檢驗(yàn)檢驗(yàn)方法是將回歸離差平方和(SSR)同剩余離差平方和(SSE)加以比較,應(yīng)用F檢驗(yàn)來分析二者之間的差異是否顯著如果是顯著的,因變量與自變量之間存在線性關(guān)系如果不顯著,因變量與自變量之間不存在線性關(guān)系回歸方程的顯著性檢驗(yàn)

〔步驟〕提出假設(shè)H0:

1

2

p=0線性關(guān)系不顯著H1:

1,

2,,

p至少有一個(gè)不等于02.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F3.確定顯著性水平和分子自由度p、分母自由度n-p-1找出臨界值F作出決策:假設(shè)F>F,或P<,拒絕H0;假設(shè)F<F,或P>,接受H0回歸系數(shù)的顯著性檢驗(yàn)如果F檢驗(yàn)已經(jīng)說明了回歸模型總體上是顯著的,那么回歸系數(shù)的檢驗(yàn)就是用來確定每一個(gè)單個(gè)的自變量xi對(duì)因變量y的影響是否顯著對(duì)每一個(gè)自變量都要單獨(dú)進(jìn)行檢驗(yàn)應(yīng)用t檢驗(yàn)在多元線性回歸中,回歸方程的顯著性檢驗(yàn)不再等價(jià)于回歸系數(shù)的顯著性檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn)

〔步驟〕提出假設(shè)H0:bi=0(自變量xi與

因變量y沒有線性關(guān)系)H1:bi

0(自變量xi與

因變量y有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t確定顯著性水平,并進(jìn)行決策

t>t

,或P<,拒絕H0;

t<t

,或P>,接受H0一個(gè)二元線性回歸的例子銷售額、人口數(shù)和年人均收入數(shù)據(jù)地區(qū)編號(hào)銷售額(萬元)y人口數(shù)(萬人)x1年人均收入(元)x21234567891033.335.527.630.431.953.135.629.035.134.532.429.126.331.229.240.729.823.028.226.91250165014501310131015801490152016201570【例】一家百貨公司在10個(gè)地區(qū)設(shè)有經(jīng)銷分公司。公司認(rèn)為商品銷售額與該地區(qū)的人口數(shù)和年人均收入有關(guān),并希望建立它們之間的數(shù)量關(guān)系式,以預(yù)測(cè)銷售額。有關(guān)數(shù)據(jù)如下表。試確定銷售額對(duì)人口數(shù)和年人均收入的線性回歸方程,并分析回歸方程的擬合程度,對(duì)線性關(guān)系和回歸系數(shù)進(jìn)行顯著性檢驗(yàn)(

=0.05)。一個(gè)二元線性回歸的例子

spss輸出的結(jié)果)銷售額與人口數(shù)和年人均收入的二元回歸方程為:9.3逐步回歸根本思想是:在考慮Y對(duì)一群變量〔X1,X2,…Xk〕回歸時(shí),從變量〔X1,X2,…Xk〕中,逐步選出對(duì)已解釋變差的奉獻(xiàn)最大的變量,進(jìn)入回歸方程.判別依據(jù):統(tǒng)計(jì)量Fj的值fj最大的xj,先進(jìn)入方程,最后一個(gè)進(jìn)入方程的變量也應(yīng)滿足P<9.4spss在回歸中的應(yīng)用9.4.1自變量強(qiáng)行進(jìn)入的回歸9.4.2逐步回歸回憶6項(xiàng)根本假定〔1〕解釋變量間不相關(guān)〔無多重共線性〕〔2〕E(ui)=0〔隨機(jī)項(xiàng)均值為零〕〔3〕Var(ui)=2〔同方差〕〔4〕Cov(ui,uj)=0〔隨機(jī)項(xiàng)無自相關(guān)〕〔5〕Cov(X,ui)=0〔隨機(jī)項(xiàng)與解釋變量X不相關(guān)〕〔6〕隨機(jī)擾動(dòng)服從正態(tài)分布。不滿足根本假定的情形〔1〕1、通常不會(huì)發(fā)生隨機(jī)擾動(dòng)項(xiàng)均值不等于0的情形。假設(shè)發(fā)生也不會(huì)影響解釋變量的系數(shù),只會(huì)影響截距項(xiàng)。2、隨機(jī)擾動(dòng)項(xiàng)正態(tài)性假設(shè)一般能夠成立,就算不成立,在大樣本下也會(huì)近似成立的。所以不討論此假定是否違背。不滿足根本假定的情形〔2〕3、解釋變量之間相關(guān)=>多重共線4、隨機(jī)擾動(dòng)項(xiàng)相關(guān)=>序列自相關(guān)時(shí)間序列數(shù)據(jù)經(jīng)常出現(xiàn)序列相關(guān)5、隨機(jī)擾動(dòng)項(xiàng)方差不等于常數(shù)=>異方差截面數(shù)據(jù)時(shí),經(jīng)常出現(xiàn)異方差多重共線性的定義多重共線性:在多元線性回歸模型中,解釋變量之間存在著完全的線性關(guān)系或近似的線性關(guān)系完全多重共線性近似多重共線性4.2多重共線性的后果〔1〕參數(shù)估計(jì)值不確定;

〔2〕參數(shù)估計(jì)值的方差無限大;多重共線性的識(shí)別與處理實(shí)際運(yùn)用中多重共線性主要有以下幾種類型表現(xiàn):

(1)整個(gè)模型的方差分析檢驗(yàn)結(jié)果為P<α,但各自變量的偏回歸系數(shù)的統(tǒng)計(jì)學(xué)檢驗(yàn)結(jié)果卻P>α。(2)專業(yè)上認(rèn)為應(yīng)該有統(tǒng)計(jì)學(xué)意義的自變量檢驗(yàn)結(jié)果卻無統(tǒng)計(jì)學(xué)意義。(3)自變量的偏回歸系數(shù)取值大小甚至符號(hào)明顯與實(shí)際情況相違背,難以解釋。(4)增加或刪除一個(gè)自變量或一條記錄,自變量偏回歸系數(shù)發(fā)生較大變化。

以上情況最終使得所得到的線性回歸模型,特別是其中的偏回歸系數(shù)難以有符合專業(yè)知識(shí)的解釋。對(duì)于多重共線性的識(shí)別,可以通過以下統(tǒng)計(jì)量:(1)容忍度(Tolerance):是解釋變量與其他解釋變量間的復(fù)相關(guān)系數(shù)的平方,說明了解釋變量之間的線性相關(guān)程度。容忍度取值在0-1之間,越接近于0表示多重共線性越強(qiáng),越接近于1表示多重共線性越弱

(2)方差膨脹因子(Varianceinflationfactor,VIF):等于容忍度的倒數(shù)。顯然,VIF越大,多重共線性問題越大。通常,VIF大于等于10,說明解釋變量之間有嚴(yán)重的多重共線性。(3)特征根CEigenvalue):對(duì)模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論