統(tǒng)計(jì)學(xué)課件講一元線性回歸

上傳人：我*** IP屬地：北京上傳時間：2024-01-13 格式：PPTX 頁數(shù)：99 大小：1.25MB 積分：16 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩94頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第10講一元線性回歸10.1

變量間關(guān)系的度量10.2一元線性回歸的估計(jì)和檢驗(yàn)10.3利用回歸方程進(jìn)行預(yù)測10.4用殘差檢驗(yàn)?zāi)Ｐ偷募俣?/p>

Regression

的原始釋義子代與父代一樣嗎？FrancisGalton被譽(yù)為現(xiàn)代回歸和相關(guān)技術(shù)的創(chuàng)始人。

在19世紀(jì)末期提出在同一族群中，子代的平均身高介于其父代的身高和族群的平均身高之間。具體而言，非常矮小的父輩傾向于有偏高的子代；而非常高大的父輩則傾向于有偏矮的子代。子代的身高有向族群平均身高“回歸”的趨勢。如果把父代和子代看作兩個變量，找出這兩個變量的關(guān)系，并根據(jù)這種關(guān)系建立適當(dāng)?shù)臄?shù)學(xué)模型，就可以根據(jù)父代的數(shù)值預(yù)測子代的取值，這就是經(jīng)典的回歸方法要解決的問題。Galton把這種孩子的身高向中間值靠近的趨勢稱之為一種回歸效應(yīng)，而他發(fā)展的研究兩個數(shù)值變量的方法稱為回歸分析

10.1變量間的關(guān)系

10.1.1變量間是什么樣的關(guān)系？

10.1.2用散點(diǎn)圖描述相關(guān)關(guān)系

10.1.3用相關(guān)系數(shù)度量關(guān)系強(qiáng)度第10章一元線性回歸怎樣分析變量間的關(guān)系？建立回歸模型時，首先需要弄清楚變量之間的關(guān)系。分析變量之間的關(guān)系需要解決下面的問題變量之間是否存在關(guān)系？如果存在，它們之間是什么樣的關(guān)系？變量之間的關(guān)系強(qiáng)度如何？樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系？10.1.1變量間是什么樣的關(guān)系？10.1變量間的關(guān)系

xy函數(shù)關(guān)系是一一對應(yīng)的確定關(guān)系設(shè)有兩個變量x和y，變量y隨變量x一起變化，并完全依賴于x

，當(dāng)變量x取某個數(shù)值時，

y依確定的關(guān)系取相應(yīng)的值，則稱y是x的函數(shù)，記為y=f(x)，其中x稱為自變量，y稱為因變量各觀測點(diǎn)落在一條線上

函數(shù)關(guān)系

(幾個例子)某種商品的銷售額y與銷售量x之間的關(guān)系可表示為y=px(p為單價)圓的面積S與半徑R之間的關(guān)系可表示為S=

企業(yè)的原材料消耗額y與產(chǎn)量x1

、單位產(chǎn)量消耗x2

、原材料價格x3之間的關(guān)系可表示為

y=x1x2x3

相關(guān)關(guān)系

(幾個例子)父親身高y與子女身高x之間的關(guān)系收入水平y(tǒng)與受教育程度x之間的關(guān)系糧食單位面積產(chǎn)量y與施肥量x1

、降雨量x2

、溫度x3之間的關(guān)系商品的消費(fèi)量y與居民收入x之間的關(guān)系商品銷售額y與廣告費(fèi)支出x之間的關(guān)系相關(guān)關(guān)系

(correlation)一個變量的取值不能由另一個變量唯一確定當(dāng)變量

x取某個值時，變量y的取值對應(yīng)著一個分布各觀測點(diǎn)分布在直線周圍

10.1.2用散點(diǎn)圖描述相關(guān)關(guān)系10.1變量間的關(guān)系

完全負(fù)線性相關(guān)完全正線性相關(guān)

散點(diǎn)圖

(scatterdiagram)

不相關(guān)

負(fù)線性相關(guān)

正線性相關(guān)

非線性相關(guān)散點(diǎn)圖

(銷售收入和廣告費(fèi)用的散點(diǎn)圖)10.1.3用相關(guān)系數(shù)度量關(guān)系強(qiáng)度10.1變量間的關(guān)系相關(guān)系數(shù)

(correlationcoefficient)度量變量之間線性關(guān)系強(qiáng)度的一個統(tǒng)計(jì)量若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的，稱為總體相關(guān)系數(shù)，記為

若是根據(jù)樣本數(shù)據(jù)計(jì)算的，則稱為樣本相關(guān)系數(shù)，簡稱為相關(guān)系數(shù)，記為r也稱為Pearson相關(guān)系數(shù)

(Pearson’scorrelationcoefficient)樣本相關(guān)系數(shù)的計(jì)算公式

相關(guān)系數(shù)

(計(jì)算公式)

樣本相關(guān)系數(shù)的計(jì)算公式或化簡為相關(guān)系數(shù)的性質(zhì)性質(zhì)1：r

的取值范圍是[-1,1]|r|=1，為完全相關(guān)r=1，為完全正相關(guān)r=-1，為完全負(fù)正相關(guān)r=0，不存在線性相關(guān)關(guān)系-1

r<0，為負(fù)相關(guān)0<r

1，為正相關(guān)|r|越趨于1表示關(guān)系越強(qiáng)；|r|越趨于0表示關(guān)系越弱相關(guān)系數(shù)的性質(zhì)

(取值及其意義的圖解)-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加相關(guān)系數(shù)的性質(zhì)性質(zhì)2：r具有對稱性。即x與y之間的相關(guān)系數(shù)和y與x之間的相關(guān)系數(shù)相等，即rxy=ryx性質(zhì)3：r數(shù)值大小與x和y原點(diǎn)及尺度無關(guān)，即改變x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度，并不改變r數(shù)值大小性質(zhì)4：僅僅是x與y之間線性關(guān)系的一個度量，它不能用于描述非線性關(guān)系。這意為著，r=0只表示兩個變量之間不存在線性相關(guān)關(guān)系，并不說明變量之間沒有任何關(guān)系性質(zhì)5：r雖然是兩個變量之間線性關(guān)系的一個度量，卻不一定意味著x與y一定有因果關(guān)系相關(guān)系數(shù)的經(jīng)驗(yàn)解釋|r|

0.8時，可視為兩個變量之間高度相關(guān)0.5

|r|<0.8時，可視為中度相關(guān)0.3

|r|<0.5時，視為低度相關(guān)|r|<0.3時，說明兩個變量之間的相關(guān)程度極弱，可視為不相關(guān)

——上述解釋必須建立在對相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)的基礎(chǔ)之上相關(guān)系數(shù)的顯著性檢驗(yàn)樣本相關(guān)系數(shù)r受到抽樣波動的影響，是一個隨機(jī)變量。相關(guān)系數(shù)非常高的樣本也有可能來自無相關(guān)關(guān)系的總體。為了排除這種情況，需要對相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn)。樣本能代表總體嗎？如果紅色的點(diǎn)碰巧為你的樣本，則樣本相關(guān)系數(shù)為0.907，總體相關(guān)系數(shù)為0.00005相關(guān)系數(shù)的顯著性檢驗(yàn)

(檢驗(yàn)的步驟)1. 檢驗(yàn)兩個變量之間是否存在線性相關(guān)關(guān)系等價于對回歸系數(shù)b1的檢驗(yàn)采用R.A.Fisher提出的t檢驗(yàn)檢驗(yàn)的步驟為提出假設(shè)：H0：

；H1：

計(jì)算檢驗(yàn)的統(tǒng)計(jì)量：

確定顯著性水平，并作出決策若t>t

，拒絕H0

若t<t

，不拒絕H0計(jì)算結(jié)果：t檢驗(yàn)值為臨界值t

（21）＝2.08，故拒絕H0，認(rèn)為相關(guān)系數(shù)顯著。消費(fèi)支出和可支配收入的相關(guān)系數(shù)

消費(fèi)支出可支配收入消費(fèi)支出1可支配收入0.99681相關(guān)系數(shù)的顯著性檢驗(yàn)

(需要注意的問題)即使統(tǒng)計(jì)檢驗(yàn)表明相關(guān)系數(shù)在統(tǒng)計(jì)上是顯著的，并不一定意味著兩個變量之間就存在重要的相關(guān)性因?yàn)樵诖髽颖镜那闆r下，幾乎總是導(dǎo)致相關(guān)系數(shù)顯著比如，r=0.1，在大樣本的情況下，也可能使得r通過檢驗(yàn)，但實(shí)際上，一個變量取值的差異能由另一個變量的取值來解釋的比例只有10%，這實(shí)際上很難說明兩個變量之間就有實(shí)際意義上的顯著關(guān)系注意：相關(guān)關(guān)系≠因果關(guān)系！

典型的錯誤推斷：統(tǒng)計(jì)分析表明，慶祝生日次數(shù)越

多的人越長壽。因此，慶祝生日有利于健康。調(diào)查表明，世界各國人均電視機(jī)擁有量與預(yù)期壽命存在很強(qiáng)的正相關(guān)性。因此，電視機(jī)擁有量越高，預(yù)期壽命越長。對小學(xué)各年級學(xué)生的抽樣調(diào)查表明，學(xué)生的識字水平與他們鞋子的尺寸高度正相關(guān)。因此，學(xué)生穿的鞋越大，他的識字水平就越高。回歸分析與相關(guān)分析的區(qū)別相關(guān)分析中，變量x

變量y處于平等的地位；回歸分析中，變量y稱為因變量，處在被解釋的地位，x稱為自變量，用于預(yù)測因變量的變化相關(guān)分析中所涉及的變量x和y都是隨機(jī)變量；回歸分析中，因變量y是隨機(jī)變量，自變量x

是非隨機(jī)的確定變量相關(guān)分析主要是描述兩個變量之間線性關(guān)系的密切程度；回歸分析不僅可以揭示變量x對變量y的影響大小，還可以由回歸方程進(jìn)行預(yù)測和控制

10.2一元線性回歸的估計(jì)和檢驗(yàn)

10.2.1一元線性回歸模型

10.2.2參數(shù)的最小二乘估計(jì)

10.2.3回歸直線的擬合優(yōu)度

10.2.4顯著性檢驗(yàn)第10章一元線性回歸10.2.1一元線性回歸模型10.2一元線性回歸的估計(jì)和檢驗(yàn)什么是回歸分析？

(regressionanalysis)重點(diǎn)考察考察一個特定的變量(因變量)，而把其他變量(自變量)看作是影響這一變量的因素，并通過適當(dāng)?shù)臄?shù)學(xué)模型將變量間的關(guān)系表達(dá)出來利用樣本數(shù)據(jù)建立模型的估計(jì)方程對模型進(jìn)行顯著性檢驗(yàn)進(jìn)而通過一個或幾個自變量的取值來估計(jì)或預(yù)測因變量的取值回歸模型的類型理解回歸概念觀測項(xiàng)=結(jié)構(gòu)項(xiàng)+隨機(jī)項(xiàng)觀測項(xiàng)：代表因變量的實(shí)際取值結(jié)構(gòu)項(xiàng)：表示因變量與自變量之間的結(jié)構(gòu)關(guān)系隨機(jī)項(xiàng)：表示觀測項(xiàng)中未被結(jié)構(gòu)項(xiàng)解釋的剩余部分理解回歸概念的三種視角因果性：觀測項(xiàng)=機(jī)制項(xiàng)+干擾項(xiàng)預(yù)測性：觀測項(xiàng)=預(yù)測項(xiàng)+誤差項(xiàng)描述性：觀測項(xiàng)=概括項(xiàng)+殘差項(xiàng)Occam’sRazor（奧卡姆剃刀定律，或簡約原則）——如果許多模型對所觀察事實(shí)的解釋程度相當(dāng)，除非有其他證據(jù)支持某一模型，否則我們將傾向于選擇最簡單的模型。

——用來評判針對同一現(xiàn)象的不同解釋之間的優(yōu)劣程度在精確性與簡約性之間權(quán)衡精確的模型：意味著我們可以保留盡可能多的信息并最大限度地降低因殘差而導(dǎo)致的錯誤；簡約的模型：意味著用最簡單的結(jié)構(gòu)和盡可能少的參數(shù)來概括大量數(shù)據(jù)所包含的主要信息。？？？一元線性回歸涉及一個自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測或被解釋的變量稱為因變量(dependent,e,orresponsevariable)，用y表示用來預(yù)測或用來解釋因變量的一個或多個變量稱為自變量(independent,explanatory,orpredictorvariable)，用x表示因變量與自變量之間的關(guān)系用一個線性方程來表示一元線性回歸模型

(linearregressionmodel)描述因變量y如何依賴于自變量x和誤差項(xiàng)

的方程稱為回歸模型一元線性回歸模型可表示為

y=b0+b1x+ey是x的線性函數(shù)(部分)加上誤差項(xiàng)線性部分反映了由于x的變化而引起的y的變化誤差項(xiàng)

是隨機(jī)變量反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性

0和

1稱為模型的參數(shù)回歸模型中為什么包含誤差項(xiàng)

理由1：理論的含糊性。即使有決定y的行為的理論，而且常常是不完全的，影響y的變量不是無所知就是知而不確，因此不妨設(shè)

作為模型所排除或忽略的全部變量的替代變量誤差項(xiàng)

是未包括在模型中而又影響著y的全部變量的替代物，但為什么不把這些變量引進(jìn)到模型中來？換句話說，為什么不構(gòu)造一個含有盡可能多個變量的復(fù)回歸模型？古扎拉蒂在《計(jì)量經(jīng)濟(jì)學(xué)》一書中列出了7點(diǎn)理由回歸模型中為什么包含誤差項(xiàng)

理由2：數(shù)據(jù)的欠缺。即使我們明知被忽略變量中的一些變量，并因而考慮用一個多元回歸而不是一個簡單回歸，我們卻不一定能得到關(guān)于這些變量的數(shù)量信息理由3：核心變量與周邊變量。影響y的全部或其中的一些變量，合起來的影響如此之小，充其量是一種非系統(tǒng)的或隨機(jī)的影響。從實(shí)際考慮以及從成本上計(jì)算，把它們一一引入模型是劃不來的。所以人們希望把它們的聯(lián)合效應(yīng)當(dāng)作一個隨機(jī)變量來看待回歸模型中為什么包含誤差項(xiàng)

理由4：人類行為的內(nèi)在隨機(jī)性。即使我們成功地把所有有關(guān)的變量都引進(jìn)到模型中來，在個別的y中仍不免有一些“內(nèi)在”的隨機(jī)性，這是無論我們花多少力氣都解釋不了的。隨機(jī)項(xiàng)

也許能很好地反映這種隨機(jī)性理由5：糟糕的替代變量。雖然經(jīng)典回歸模型假定變量y和x能準(zhǔn)確地觀測，但實(shí)際上數(shù)據(jù)會受到測量誤差的擾亂。由于這些變量不可直接觀測，故實(shí)際上我們用替代變量。這時誤差項(xiàng)

又可以用來代表測量誤差回歸模型中為什么包含誤差項(xiàng)

理由6：節(jié)省原則。我們想保持一個盡可能簡單的回歸模型。如果我們能用兩個或三個變量就“基本上”解釋了y的行為，并且如果我們的理論完善或扎實(shí)的程度還沒有達(dá)到足以提出可包含進(jìn)來的其他變量，那么為什么要引進(jìn)更多的變量呢？讓

去代表所有的其他變量好了。當(dāng)然，我們不應(yīng)該只為了保持回歸模型簡單而排除有關(guān)的和重要的變量回歸模型中為什么包含誤差項(xiàng)

理由7：錯誤的函數(shù)形式。即使我們有了解釋一種現(xiàn)象的在理論上正確的變量，并且能獲得這些變量的數(shù)據(jù)，我們卻常常不知道回歸子(因變量)和回歸元(自變量)之間的函數(shù)形式是什么形式。在雙變量模型中，人們往往能從散點(diǎn)圖來判斷關(guān)系式的函數(shù)形式，而在多變量回歸模型中，由于無法從圖形上想像一個多維的散點(diǎn)圖，要決定適當(dāng)?shù)暮瘮?shù)形式就不容易一元線性回歸模型

(基本假定)

因變量x與自變量y之間具有線性關(guān)系在重復(fù)抽樣中，自變量x的取值是固定的，即假定x是非隨機(jī)的誤差項(xiàng)

滿足正態(tài)性。是一個服從正態(tài)分布的隨機(jī)變量，且期望值為0，即

~N(0,

2)。對于一個給定的x值，y的期望值為E(y)=

1x方差齊性。對于所有的x值，

的方差一個特定的值，的方差也都等于2都相同。同樣，一個特定的x值，y的方差也都等于

2獨(dú)立性。獨(dú)立性意味著對于一個特定的x值，它所對應(yīng)的ε與其他x值所對應(yīng)的ε不相關(guān)；對于一個特定的x值，它所對應(yīng)的y值與其他x所對應(yīng)的y值也不相關(guān)一元線性回歸模型

(基本假定)

x=x3時的E(y)x=x2時y的分布x=x1時y的分布x=x2時的E(y)x3x2x1x=x1時的E(y)

0xyx=x3時y的分布

0+1x回歸方程

(regressionequation)描述y的平均值或期望值如何依賴于x的方程稱為回歸方程一元線性回歸方程的形式如下

E(y)=

1x方程的圖示是一條直線，也稱為直線回歸方程

0是回歸直線在y軸上的截距，是當(dāng)x=0時y的期望值

1是直線的斜率，稱為回歸系數(shù)，表示當(dāng)x每變動一個單位時，y的平均變動值估計(jì)的回歸方程

(estimatedregressionequation)總體回歸參數(shù)和

是未知的，必須利用樣本數(shù)據(jù)去估計(jì)用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)和，就得到了估計(jì)的回歸方程一元線性回歸中估計(jì)的回歸方程為其中：是估計(jì)的回歸直線在y

軸上的截距，是直線的斜率，它表示對于一個給定的x

的值，是y

的估計(jì)值，也表示x

每變動一個單位時，y的平均變動值

10.2.2參數(shù)的最小二乘估計(jì)10.2一元線性回歸的估計(jì)和檢驗(yàn)參數(shù)的最小二乘估計(jì)

(methodofleastsquares)德國科學(xué)家KarlGauss(1777—1855)提出用最小化圖中垂直方向的誤差平方和來估計(jì)參數(shù)

使因變量的觀察值與估計(jì)值之間的誤差平方和達(dá)到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小KarlGauss的最小化圖xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)ei=yi-yi＾參數(shù)的最小二乘估計(jì)

(

和的計(jì)算公式)

根據(jù)最小二乘法，可得求解和的公式如下最小二乘回歸直線的性質(zhì)(1)直線通過均點(diǎn)(2)(3)取得最小值

高斯—馬爾可夫定理表明，在給定經(jīng)典線性回歸的假定下，普通最小二乘估計(jì)量具有線性性、無偏性、最小方差性等優(yōu)良性質(zhì)。具有這些優(yōu)良性質(zhì)的估計(jì)量又稱為最佳線性無偏估計(jì)量，即BLUE估計(jì)量（theBestLinearUnbiasedEstimators）。最小二乘估計(jì)量的有關(guān)性質(zhì)最小二乘估計(jì)量是Y的線性函數(shù)。最小二乘估計(jì)量是無偏估計(jì)量，它的期望值等于總體的真實(shí)值；最小二乘估計(jì)量在所有線性無偏估計(jì)量中具有最小方差。最小二乘估計(jì)量的有關(guān)性質(zhì)根據(jù)數(shù)據(jù)，建立北京市城鎮(zhèn)居民消費(fèi)模型，以人均年消費(fèi)性支出（變量Y）為因變量，以人均年可支配收入（變量X）為自變量，建立一元線性回歸模型。假設(shè)2011年北京市人均年可支配收入為2.9萬元，請根據(jù)已建立的消費(fèi)模型預(yù)測2011年人均消費(fèi)支出。例

例SPSS輸出結(jié)果結(jié)果分析上式中，0.725是邊際消費(fèi)傾向，表示人均可支配收入每增加1千元，人均消費(fèi)支出會增加0.725千元；0.566是自主性消費(fèi)，即與收入無關(guān)的最基本人均消費(fèi)為0.566千元。將帶入代入回歸方程，得到2011年人均消費(fèi)支出的預(yù)測值。10.2.3回歸直線的擬合優(yōu)度10.2一元線性回歸的估計(jì)和檢驗(yàn)擬合優(yōu)度與判定系數(shù)回歸直線與各觀測數(shù)據(jù)的接近程度稱為回歸直線的擬合優(yōu)度（goodnessoffit）。度量回歸直線的擬合優(yōu)度最常用的指標(biāo)是決定系數(shù)（coefficientofdetermination，又稱可決系數(shù)、判定系數(shù)）。該指標(biāo)是建立在對總離差平方和進(jìn)行分解的基礎(chǔ)之上的。

變差（或稱離差）因變量

y的取值是不同的，y取值的這種波動稱為變差。變差來源于兩個方面由于自變量x的取值不同造成的除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響對一個具體的觀測值來說，變差的大小可以通過該實(shí)際觀測值與其均值之差來表示誤差分解圖xyy

誤差平方和的分解

(誤差平方和的關(guān)系)

SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{誤差平方和的分解

(三個平方和的意義)總平方和(SST—totalsumofsquares)反映因變量的n個觀察值與其均值的總誤差回歸平方和(SSR—sumofsquaresofregression)反映自變量x的變化對因變量y取值變化的影響，或者說，是由于x與y之間的線性關(guān)系引起的y的取值變化，也稱為可解釋的平方和殘差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素對y取值的影響，也稱為不可解釋的平方和或剩余平方和判定系數(shù)R2

(coefficientofdetermination)回歸平方和占總誤差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間

1，說明回歸方程擬合的越好；R2

0，說明回歸方程擬合的越差在一元線性回歸中，判定系數(shù)平方根等于相關(guān)系數(shù)CoefficientofDetermination(r2)r2indicatestheproportionofvariationintheDVthatis“explained”oraccountedforbytheIV.Asthecorrelationincreasesweareableto“explain”moreofthevariationinywiththevariationinxSSTr2=.65SSRSSESSTr2=.4SSRSSESSTr2=1SSRSSTr2=0SSE估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofestimate)實(shí)際觀察值與回歸估計(jì)值誤差平方和的均方根反映實(shí)際觀察值在回歸直線周圍的分散狀況對誤差項(xiàng)

的標(biāo)準(zhǔn)差

的估計(jì)，是在排除了x對y的線性影響后，y隨機(jī)波動大小的一個估計(jì)量反映用估計(jì)的回歸方程預(yù)測y時預(yù)測誤差的大小

計(jì)算公式為SPSS輸出的擬合優(yōu)度結(jié)果：10.2.4顯著性檢驗(yàn)10.2一元線性回歸的估計(jì)和檢驗(yàn)回歸分析中的顯著性檢驗(yàn)回歸分析中的顯著性檢驗(yàn)包括兩方面的內(nèi)容：一是對整個回歸方程（所有自變量回歸系數(shù)），即線性關(guān)系的顯著性的整體檢驗(yàn)（F檢驗(yàn)）；二是對單個自變量回歸系數(shù)的顯著性檢驗(yàn)（t檢驗(yàn)）。在一元線性回歸模型中，由于只有一個解釋變量X，因此，對β1＝0的t檢驗(yàn)與對整個方程的F檢驗(yàn)是等價的。線性關(guān)系的檢驗(yàn)檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著將均方回歸(MSR)同均方殘差(MSE)加以比較，應(yīng)用F檢驗(yàn)來分析二者之間的差別是否顯著均方回歸：回歸平方和SSR除以相應(yīng)的自由度(自變量的個數(shù)k)均方殘差：殘差平方和SSE除以相應(yīng)的自由度(n-k-1)線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)

提出假設(shè)H0：

1=0線性關(guān)系不顯著2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平

，并根據(jù)分子自由度1和分母自由度n-2求統(tǒng)計(jì)量的P值作出決策：若P<，拒絕H0。表明兩個變量之間的線性關(guān)系顯著注意這里F檢驗(yàn)是右側(cè)檢驗(yàn)！FαFaF檢驗(yàn)：例很多統(tǒng)計(jì)軟件的F檢驗(yàn)都是以一個方差分析表的形式給出的?；貧w系數(shù)的檢驗(yàn)和推斷在一元線性回歸中，等價于線性關(guān)系的顯著性檢驗(yàn)采用t檢驗(yàn)檢驗(yàn)x與y之間是否具有線性關(guān)系，或者說，檢驗(yàn)自變量x對因變量y的影響是否顯著理論基礎(chǔ)是回歸系數(shù)

的抽樣分布回歸系數(shù)的檢驗(yàn)和推斷

(樣本統(tǒng)計(jì)量的分布)

是根據(jù)最小二乘法求出的樣本統(tǒng)計(jì)量，它有自己的分布的分布具有如下性質(zhì)分布形式：正態(tài)分布數(shù)學(xué)期望：標(biāo)準(zhǔn)差：由于

未知，需用其估計(jì)量se來代替得到的估計(jì)的標(biāo)準(zhǔn)差回歸系數(shù)的檢驗(yàn)和推斷

(檢驗(yàn)步驟)

提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b1

0(有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量

確定顯著性水平

，計(jì)算出統(tǒng)計(jì)量的P值，并做出決策P<，拒絕H0，表明自變量是影響因變量的一個顯著因素回歸系數(shù)的檢驗(yàn)和推斷

(b1和b0的置信區(qū)間)

b1在1-

置信水平下的置信區(qū)間為

b0在1-

置信水平下的置信區(qū)間為例SPSS輸出結(jié)果幾點(diǎn)說明為什么要檢驗(yàn)回歸系數(shù)是否等于0？？如果總體中的回歸系數(shù)等于零，說明相應(yīng)的自變量對y缺乏解釋能力，在這種情況下我們可能需要在回歸方程中去掉這個自變量。我們也可以對常數(shù)項(xiàng)進(jìn)行t檢驗(yàn)，但大部分情況下我們并不關(guān)心常數(shù)項(xiàng)的檢驗(yàn)結(jié)果。通常情況下即使常數(shù)項(xiàng)在模型中不顯著，我們也會在模型中保留常數(shù)項(xiàng)，去掉常數(shù)項(xiàng)可能會對模型帶來不利影響。

10.3利用回歸方程進(jìn)行預(yù)測

10.3.1平均值的置信區(qū)間

10.3.2個別值的預(yù)測區(qū)間第10章一元線性回歸區(qū)間估計(jì)對于自變量

x的一個給定值x0，根據(jù)回歸方程得到因變量y的一個估計(jì)區(qū)間區(qū)間估計(jì)有兩種類型置信區(qū)間估計(jì)(confidenceintervalestimate)預(yù)測區(qū)間估計(jì)(predictionintervalestimate)10.3.1平均值的置信區(qū)間10.3利用回歸方程進(jìn)行預(yù)測平均值的置信區(qū)間利用估計(jì)的回歸方程，對于自變量x的一個給定值x0

，求出因變量y

的平均值的估計(jì)區(qū)間，這一估計(jì)區(qū)間稱為置信區(qū)間(confidenceinterval)

E(y0)

在1-

置信水平下的置信區(qū)間為式中：se為估計(jì)標(biāo)準(zhǔn)誤差個別值的預(yù)測區(qū)間利用估計(jì)的回歸方程，對于自變量x的一個給定值x0

，求出因變量y

的一個個別值的估計(jì)區(qū)間，這一區(qū)間稱為預(yù)測區(qū)間(predictioninterval)

y0在1-

置信水平下的預(yù)測區(qū)間為注意！置信區(qū)間和預(yù)測區(qū)間xpyx

x預(yù)測上限置信上限預(yù)測下限置信下限預(yù)測時需要注意的問題在利用回歸方程進(jìn)行估計(jì)或預(yù)測時，不要用樣本數(shù)據(jù)之外的x值去預(yù)測相對應(yīng)的y值因?yàn)樵谝辉€性

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

統(tǒng)計(jì)學(xué)課件講一元線性回歸

文檔簡介

溫馨提示

最新文檔

評論

統(tǒng)計(jì)學(xué)課件講一元線性回歸

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔