第二章簡單線性回歸模型_第1頁
第二章簡單線性回歸模型_第2頁
第二章簡單線性回歸模型_第3頁
第二章簡單線性回歸模型_第4頁
第二章簡單線性回歸模型_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

(一)具有相關(guān)關(guān)系的變量舉一個例子身高和體重人均消費(fèi)與收入溫度與二氧化碳排放量房地產(chǎn)價格與地理區(qū)位股票價格與利率工資與受教育年限第二章

簡單線性回歸模型

(二)相關(guān)關(guān)系的統(tǒng)計概念第二章

簡單線性回歸模型

第一節(jié)回歸分析與回歸方程一、回歸與相關(guān)(一)經(jīng)濟(jì)變量之間的兩類關(guān)系1、確定性的函數(shù)關(guān)系――變量X取確定值時,變量Y有唯一確定的值與之相對應(yīng)。2、不確定性的統(tǒng)計關(guān)系――變量X取一定數(shù)值時,變量Y有數(shù)值與之對應(yīng),但不能事先確定,事后才能確定。不過所取的不同值按某種規(guī)律在一定范圍內(nèi)變化。這種關(guān)系有時也稱為相關(guān)關(guān)系。(三)回歸分析幾何圖示:

(三)回歸與相關(guān)的聯(lián)系與區(qū)別

(三)回歸與相關(guān)的聯(lián)系與區(qū)別第二章

簡單線性回歸模型

第二節(jié)

總體回歸函數(shù)

一個例子:

假如某地區(qū)有100個家庭構(gòu)成的總體,我們要研究每月家庭消費(fèi)支出Y和每月家庭可支配收入X之間的關(guān)系,并要根據(jù)已知的家庭可支配收入去預(yù)測該總體每月家庭消費(fèi)支出的平均水平。為了研究的方便,把這個總體(即100個家庭)按收入水平分為10個組,并分別考察每組的家庭消費(fèi)支出,見表:

將總體應(yīng)變量的條件期望表示為解釋變量的某種函數(shù),這個函數(shù)稱為總體回歸函數(shù)。

總體回歸函數(shù)所對應(yīng)的圖形叫做總體回歸曲線,其幾何意義就是解釋變量取給定值時應(yīng)變量的條件均值或期望值的軌跡。一般表示為:

此類型的總體回歸函數(shù)稱為條件期望形式??傮w回歸函數(shù)概念問題:當(dāng)總體所包含的單元數(shù)相當(dāng)多時,用計算的值與之間規(guī)律去確定回歸函數(shù)形式是有困難的。解決思路:(1)利用經(jīng)濟(jì)理論對總體回歸函數(shù)形式作合理的假設(shè);(2)利用局部散點(diǎn)圖,觀察總體回歸函數(shù)的形式;(3)就設(shè)定總體回歸函數(shù)為線性函數(shù)

(1)模型就變量而言是線性的;(2)模型就參數(shù)而言是線性的;例:就變量X而言不是線性的在計量經(jīng)濟(jì)學(xué)中線性模型的“線性”有兩種解釋

(1次課)

三、隨機(jī)擾動項(xiàng)

條件期望值與各個別的Y值的偏差稱為隨機(jī)擾動項(xiàng),即

稱i為觀察值Yi圍繞它的期望值E(Y|Xi)的離差(deviation),是一個不可觀測的隨機(jī)擾動項(xiàng),

則有總體回歸函數(shù)的隨機(jī)設(shè)定形式:仍然取例1的數(shù)據(jù)說明

隨機(jī)誤差項(xiàng)主要包括下列因素的影響:1)在解釋變量中被忽略的因素的影響;2)變量觀測值的觀測誤差的影響;3)模型關(guān)系的設(shè)定誤差的影響;4)其它隨機(jī)因素的影響。產(chǎn)生并設(shè)計隨機(jī)誤差項(xiàng)的主要原因1)理論的含糊性;2)數(shù)據(jù)的欠缺;3)節(jié)省原則四、樣本回歸函數(shù)問題1:當(dāng)總體中所包含的單位數(shù)很多時,將所有單位納入考察范圍是有困難的,在這種情況下如何得到總體回歸函數(shù)?解決思路:選出總體中部分單位(樣本)加以考察,近似代替總體。問題2:部分在什么情況下可以近似代替總體?解決思路:一般要滿足幾個條件(樣本分布應(yīng)盡可能與總體保持一致;樣本的選擇應(yīng)是隨機(jī)的;樣本容量要達(dá)到一定的數(shù)量要求。)問題3:用不同的樣本,得到不同的樣本回歸函數(shù),在總體未知的情況下,怎樣才知道,哪一個更接近總體,更優(yōu)呢?即如何尋求一種規(guī)則與方法,使所建立的樣本回歸函數(shù)的參數(shù),能夠盡可能地“接近”總體回歸函數(shù)中的參數(shù)?

解決思路:一般是對所建立的樣本回歸函數(shù)中的參數(shù)進(jìn)行一些檢驗(yàn),達(dá)到一定的檢驗(yàn)指標(biāo),就認(rèn)為模型是可接受的,即可以作為總體的近似。以上兩個線性回歸函數(shù)來源于樣本,稱為樣本回歸函數(shù)

第二節(jié)簡單線性回歸模型的最小二乘法估計

一、簡單線性回歸模型的基本假定1、關(guān)于變量和模型的假定(1)解釋變量X看作是非隨機(jī)的,在重復(fù)抽樣中取一組固定的數(shù)值(2)若解釋變量X是隨機(jī)的,也與隨機(jī)擾動項(xiàng)μ相獨(dú)立;(3)解釋變量的觀測值無測量誤差;(4)變量和函數(shù)形式的設(shè)定是正確,無設(shè)定誤差。一元線性回歸模型

計量模型:y=b0+b1x+u,Thecoefficientsb0,b1是回歸系數(shù)(regressioncoefficients).1、b0是常數(shù)項(xiàng)

(constantterm),或者截矩項(xiàng)

2、b1

代表解釋變量X的邊際效果(marginaleffects

oftheregressor,x).

也稱作斜率參數(shù)b0,b1被稱為回歸系數(shù)

u為誤差項(xiàng)或擾動項(xiàng),代表了除了x之外,可以影響y的其他所有因素Examples

一個簡單的工資方程:

工資=b0+b1

?教育年限+u上述簡單工資函數(shù)描述了工資和受教育年限,以及其他不可觀測因素u之間的關(guān)系.b1

衡量的是,在其他因素(包含在誤差項(xiàng)u里面)不變的情況下,多接受一年教育,可以增加多少工資。其他因素包括:勞動力市場經(jīng)驗(yàn)、內(nèi)在的能力、目前所從事工作的工齡、職業(yè)道德,以及其他許多因素,包含在u中。居民消費(fèi)函數(shù):Y=c+aX1+bX2+隨機(jī)誤差項(xiàng)u

其中,Y代表居民支出;X1代表居民收入;X2代表家庭財富;c是常數(shù),即居民基本消費(fèi)此時隨機(jī)誤差項(xiàng)代表的是:GDP、消費(fèi)者價格指數(shù)、工業(yè)品價格指數(shù)、本幣匯率、大宗商品價格指數(shù)、房價均值、子女教育費(fèi)均值等等我們知道,收入和財富是決定居民支出較為直接的變量,所以我們將其引入模型中,而宏觀經(jīng)濟(jì)情況和價格水平都是間接影響著居民支出的。如果我們需要更詳細(xì)全面的模型,那么我們需要引入更多的變量;但引入更多變量的成本也較大,比如多重共線、自相關(guān)問題等。2、關(guān)于隨機(jī)擾動項(xiàng)μ的假定(稱高斯假定或經(jīng)典假定)(1)零均值假定。即(2)同方差假定。即(3)無自相關(guān)假定。即(4)隨機(jī)擾動項(xiàng)與解釋變量不相關(guān)假定。即

(5)正態(tài)性假定。即異方差XYXY序列自相關(guān)XXYY負(fù)相關(guān)正相關(guān)不相關(guān)自相關(guān)(正)自相關(guān)(負(fù))3、關(guān)于被解釋變量y的假定(2次課)二、模型估計:普通最小二乘法(OLS)

yX........Y1Y2最小二乘法的原理:找一條直線使得所有這些點(diǎn)到該直線的縱向距離的和(平方和)最小對求導(dǎo),得到正規(guī)方程組普通最小二乘法參數(shù)估計量的離差形式Excel估計例1(P27)三、OLS回歸的統(tǒng)計性質(zhì)

1、回歸線通過樣本均值。即2、估計值的均值等于實(shí)際觀測值的均值。即3、剩余項(xiàng)的均值為零。即4、應(yīng)變量估計值與剩余項(xiàng)不相關(guān)。即5、解釋變量X與剩余項(xiàng)e不相關(guān)。即

四、最小二乘估計量的性質(zhì)當(dāng)模型參數(shù)估計出后,需考慮參數(shù)估計值的精度,即是否能代表總體參數(shù)的真值,或者說需考察參數(shù)估計量的統(tǒng)計性質(zhì)。一個用于考察總體的估計量,可從如下幾個方面考察其優(yōu)劣性:

(1)線性性,即它是否是另一隨機(jī)變量的線性函數(shù);

(2)無偏性,即它的均值或期望值是否等于總體的真實(shí)值;

(3)有效性,即它是否在所有線性無偏估計量中具有最小方差。在給定經(jīng)典線性回歸的假定下,最小二乘估計量是具有最小方差的線性無偏估計量概率密度β的估計值無偏性概率密度β的估計值最小方差性是關(guān)于樣本觀測值Yi的線性函數(shù)線性特征因?yàn)槭顷P(guān)于Y的線性函數(shù),而Y是關(guān)于隨機(jī)擾動項(xiàng)ui的線性函數(shù),所以也是ui的線性函數(shù),且服從正態(tài)分布第三節(jié)經(jīng)典線性回歸模型的統(tǒng)計檢驗(yàn)

一、擬合優(yōu)度檢驗(yàn)

二、變量的顯著性檢驗(yàn)

三、參數(shù)的置信區(qū)間

1、總離差平方和的分解已知由一組樣本觀測值(Xi,Yi),i=1,2…,n得到如下樣本回歸直線

如果Yi=?i即實(shí)際觀測值落在樣本回歸“線”上,則擬合最好??烧J(rèn)為,“離差”全部來自回歸線,而與“殘差”無關(guān)。

對于所有樣本點(diǎn),則需考慮這些點(diǎn)與樣本均值離差的平方和,可以證明:記總體平方和(TotalSumofSquares)回歸平方和(ExplainedSumofSquares)殘差平方和(ResidualSumofSquares

)TSS=ESS+RSS

Y的觀測值圍繞其均值的總離差(totalvariation)可分解為兩部分:一部分來自回歸線(ESS),另一部分則來自隨機(jī)勢力(RSS)。在給定樣本中,TSS不變,如果實(shí)際觀測點(diǎn)離樣本回歸線越近,則ESS在TSS中占的比重越大,因此

擬合優(yōu)度:回歸平方和ESS/Y的總離差TSS2、可決系數(shù)R2統(tǒng)計量

稱R2為(樣本)可決系數(shù)/判定系數(shù)(coefficientofdetermination)。

可決系數(shù)的取值范圍:[0,1]R2越接近1,說明實(shí)際觀測點(diǎn)離樣本線越近,擬合優(yōu)度越高。在例2.2收入-消費(fèi)支出例中,

注:可決系數(shù)是一個非負(fù)的統(tǒng)計量。它也是隨著抽樣的不同而不同。為此,對可決系數(shù)的統(tǒng)計可靠性也應(yīng)進(jìn)行檢驗(yàn),這將在第3章中進(jìn)行。

二、變量的顯著性檢驗(yàn)

回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個顯著性的影響因素。在一元線性模型中,就是要判斷X是否對Y具有顯著的線性性影響。這就需要進(jìn)行變量的顯著性檢驗(yàn)。

變量的顯著性檢驗(yàn)所應(yīng)用的方法是數(shù)理統(tǒng)計學(xué)中的假設(shè)檢驗(yàn)。

計量經(jīng)計學(xué)中,主要是針對變量的參數(shù)真值是否為零來進(jìn)行顯著性檢驗(yàn)的。

1、什么是假設(shè)檢驗(yàn)

所謂假設(shè)檢驗(yàn),就是事先對總體參數(shù)或總體分布形式作出一個假設(shè),然后利用樣本信息來判斷原假設(shè)是否合理,即判斷樣本信息與原假設(shè)是否有顯著差異,從而決定是否接受或否定原假設(shè)。假設(shè)檢驗(yàn)采用的邏輯推理方法是反證法。先假定原假設(shè)正確,然后根據(jù)樣本信息,觀察由此假設(shè)而導(dǎo)致的結(jié)果是否合理,利用適當(dāng)?shù)姆夏撤N概率分布的統(tǒng)計量和給定的顯著性水平,構(gòu)造一個小概率事件,通過小概率事件來判斷對總體參數(shù)的假設(shè)是否正確判斷結(jié)果合理與否,是基于“小概率事件不易發(fā)生”這一原理,小概率事件在一次抽樣中不會發(fā)生,如果小概率事件發(fā)生,說明原假設(shè)不正確,就拒絕原假設(shè)。2、變量的顯著性檢驗(yàn):t檢驗(yàn)

檢驗(yàn)步驟:

(1)對總體參數(shù)提出假設(shè)H0:1=0,H1:10(2)以原假設(shè)H0構(gòu)造t統(tǒng)計量,并由樣本計算其值(3)給定顯著性水平,查t分布表,得臨界值t/2(n-2)(4)比較,判斷若|t|>t/2(n-2),則拒絕H0,接受H1;若|t|

t/2(n-2),則拒絕H1,接受H0;t分布0X服從正態(tài)分布Y服從分布接受原假設(shè)H0拒絕原假設(shè)H0假如接受域

對于一元線性回歸方程中的1,可構(gòu)造如下t統(tǒng)計量進(jìn)行顯著性檢驗(yàn):在上述例2收入-消費(fèi)支出例中,首先計算2的估計值

t統(tǒng)計量的計算結(jié)果分別為:

給定顯著性水平=0.05,查t分布表得臨界值

t0.05/2(8)=2.306|t1|>2.306,說明家庭可支配收入在95%的置信度下顯著,即是消費(fèi)支出的主要解釋變量;

|t2|>2.306,表明在95%的置信度下,拒絕截距項(xiàng)為零(H0:2=0)的原假設(shè)

假設(shè)檢驗(yàn)可以通過一次抽樣的結(jié)果檢驗(yàn)總體參數(shù)可能的假設(shè)值的范圍(如是否為零),但它并沒有指出在一次抽樣中樣本參數(shù)值到底離總體參數(shù)的真值有多“近”。要判斷樣本參數(shù)的估計值在多大程度上可以“近似”地替代總體參數(shù)的真值,往往需要通過構(gòu)造一個以樣本參數(shù)的估計值為中心的“區(qū)間”,來考察它以多大的可能性(概率)包含著真實(shí)的參數(shù)值。這種方法就是參數(shù)檢驗(yàn)的置信區(qū)間估計。

3、參數(shù)的置信區(qū)間

如果存在這樣一個區(qū)間,稱之為置信區(qū)間(confidenceinterval);

1-稱為置信系數(shù)(置信度)(confidencecoefficient),

稱為顯著性水平(levelofsignificance);置信區(qū)間的端點(diǎn)稱為置信限(confidencelimit)或臨界值(criticalvalues)。t分布0X服從正態(tài)分布Y服從分布置信區(qū)間一元線性模型中,i(i=1,2)的置信區(qū)間:在變量的顯著性檢驗(yàn)中已經(jīng)知道:

意味著,如果給定置信度(1-),從分布表中查得自由度為(n-2)的臨界值,那么t值處在(-t/2,t/2)的概率是(1-)。表示為:

即于是得到:(1-)的置信度下,i的置信區(qū)間是

在上述收入-消費(fèi)支出例中,如果給定=0.05,查表得:

由于于是,1、2的置信區(qū)間分別為:(175.40,528.59)

(0.4803,0.5797)

XiYi

得,在顯著性水平下,臨界值為,則的估計區(qū)間是

二、回歸系數(shù)的區(qū)間估計1、的方差已知,與的區(qū)間估計。由2、的方差未知,大樣本下與的區(qū)間估計在大樣本下,用代替,仍可利用正態(tài)分布作區(qū)間估計,此時的區(qū)間估計分別為:

3、的方差未知,在小樣本下,與的區(qū)間估計。在小樣本下:

在顯著性水平下,臨界值為,則的區(qū)間估計分別為:

案例分析:中國城市居民消費(fèi)支出第四節(jié)回歸模型預(yù)測1、對Y0平均值的點(diǎn)預(yù)測總體回歸函數(shù)當(dāng)人均收入Xi=8000時,人均消費(fèi)2、對Y0平均值預(yù)測的置信區(qū)間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論