版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第四章多元線性回歸模型經(jīng)典多元回歸模型回歸分析的機(jī)理經(jīng)典回歸模型及其參數(shù)估計(jì)殘差分析與假設(shè)檢驗(yàn)含有虛擬變量的回歸線性回歸過程一、回歸分析的機(jī)理任意抽出一個(gè)婦女,試猜測(cè)其體重如何猜?準(zhǔn)確性如何?猜平均體重,最大偏差:26如何猜得更準(zhǔn)確?影響體重的最直接因素是身高:一般身高高的人體重大。平均身高:62.85inch,標(biāo)準(zhǔn)差:3.3以平均身高分界:最大偏差20E(weight/height)=b0+b1height,例:20個(gè)婦女的體重資料如表,
平均體重:123.6pound,標(biāo)準(zhǔn)差:15.5
最低體重:93pound,最大體重:155一個(gè)身高60的婦女體重平均111.5,最大偏差1293155體重均值123.6猜體重平均值,最大偏差:26身高相同的人體重不一定相同平均來看,體重隨身高的增加而增加平均身高62.85134.0113.2以平均身高分界,高于平均身高猜134,低于平均身高猜113.2:最大偏差20能不能猜得更準(zhǔn)?這條直線的含義是什么?一個(gè)身高60的婦女體重平均111.5,最大偏差12觀測(cè)值weighti估計(jì)值weight身高體重總體回歸線通常,身高高的人體重大。同樣身高的人體重不同,即在給定身高下,體重有一個(gè)分布。大樣本下為正態(tài)分布。總體回歸線反映了給定身高下,體重的平均水平:E(weight/height)=b0+b1height
,b0,b1是未知的參數(shù)已知20個(gè)婦女的身高體重資料以此為樣本估計(jì)總體參數(shù)樣本回歸線為什么要有
回歸分析的任務(wù):從樣本回歸線估計(jì)總體回歸線總體回歸函數(shù)說明在給定的身高下,體重平均水平。但對(duì)某一個(gè)婦女,其體重可能與該平均水平有偏差。被解釋變量觀察值圍繞其期望值的離差,是一個(gè)不可觀測(cè)的隨機(jī)變量,稱為隨機(jī)誤差項(xiàng)。weightheight
為什么要設(shè)隨機(jī)誤差項(xiàng)?在解釋變量中被忽略的因素的影響;變量觀測(cè)值的觀測(cè)誤差的影響;模型關(guān)系的設(shè)定誤差的影響;其它隨機(jī)因素的影響。產(chǎn)生并設(shè)計(jì)隨機(jī)誤差項(xiàng)的主要原因:理論的模糊性;數(shù)據(jù)的欠缺;節(jié)省原則;weightheight
樣本回歸函數(shù)從被研究總體中隨機(jī)抽取n個(gè)樣本(本例n=20),利用樣本觀測(cè)數(shù)據(jù)可得到樣本回歸函數(shù):樣本回歸函數(shù)是對(duì)總體回歸函數(shù)的一個(gè)估計(jì)對(duì)某一個(gè)婦女,其體重觀測(cè)值不會(huì)恰好等于估計(jì)值,而是會(huì)有殘差殘差是對(duì)隨機(jī)誤差項(xiàng)的一個(gè)估計(jì)回歸分析的主要目的:根據(jù)樣本回歸函數(shù)SRF,估計(jì)總體回歸函數(shù)PRF。一、回歸分析的機(jī)理任意抽出一個(gè)婦女,試猜測(cè)其體重影響體重的最直接因素是身高:利用身高與體重的關(guān)系推測(cè)如何猜得更準(zhǔn)確(提高回歸線的解釋程度R2)?除了身高,還有哪些因素影響體重?例:20個(gè)婦女的體重資料二、經(jīng)典回歸模型及其參數(shù)估計(jì)多元回歸模型及其經(jīng)典假設(shè)多元回歸模型的參數(shù)估計(jì)偏回歸系數(shù)的含義1.多元回歸模型及其經(jīng)典假設(shè)找到導(dǎo)致被解釋變量變化的主要因素作為解釋變量,構(gòu)建多元回歸模型:設(shè)因變量Y是k個(gè)解釋變量X1,…Xk和誤差項(xiàng)的線性函數(shù):
其中:0為常數(shù)項(xiàng),1,…
k為偏回歸系數(shù),i為隨機(jī)誤差項(xiàng)對(duì)容量為n的樣本,這一模型實(shí)際上包含n個(gè)方程:
y1=
0+1x11+kxk1+1……yn=
0+1x1n+kxkn+n總體回歸模型多元回歸模型的矩陣表示注意:解釋變量個(gè)數(shù)為k,參數(shù)個(gè)數(shù)為k+1樣本回歸函數(shù)(SRF)ei稱為殘差或剩余項(xiàng)(residuals),可看成是總體回歸函數(shù)中隨機(jī)擾動(dòng)項(xiàng)
i的近似替代。
樣本回歸函數(shù)的矩陣表達(dá):
多元回歸模型的經(jīng)典假設(shè)假設(shè)1:x1,x3,…xk是非隨機(jī)的。假設(shè)2:E(i)=0i=1,2,…n假設(shè)3:同方差Var(i)=2(E(i
i)=2)假設(shè)4:無序列相關(guān),cov(i
j)=E(i
j)=0假設(shè)5:x諸變量間無準(zhǔn)確的線性關(guān)系,即:無多重共線性。不存在一組不全為零的數(shù)1、2、…
k,使得:
1x1i+
2x2i+…+
kxki=0假設(shè)6:
iN(0,2)關(guān)于多重共線性的進(jìn)一步說明如果存在一組不全為零的數(shù)1、2、…
k,使得:
1x1i+
2x2i+…+
kxki=0
不妨設(shè)10,則上式可變?yōu)椋?/p>
x1i=-(
2x2i+…+
kxki)/
1稱解釋變量之間存在完全共線性,此時(shí),某個(gè)解釋變量可以寫為其它解釋變量的線性組合。如果,會(huì)不會(huì)破壞無多重共線假定?不會(huì),因?yàn)檫@兩個(gè)變量的關(guān)系是非線性的??!經(jīng)典假設(shè)的矩陣表示假設(shè)2:假設(shè)3和4:假設(shè)5:矩陣x的秩等于回歸參數(shù)的個(gè)數(shù)(或解釋變量個(gè)數(shù)加1),R(x)=k+1,n>k2.回歸參數(shù)的普通最小二乘估計(jì):殘差平方和最小已知假定正規(guī)方程組正規(guī)方程組的矩陣形式條件?點(diǎn)估計(jì)
OLS估計(jì)的矩陣表示
正規(guī)方程組的另一種表達(dá)該正規(guī)方程組成立的條件是什么?
可以證明,隨機(jī)誤差項(xiàng)
的方差的無偏估計(jì)量為:
?隨機(jī)誤差項(xiàng)
的方差
的無偏估計(jì)
例:二元回歸模型的參數(shù)估計(jì)
1的置信區(qū)間:
OLS參數(shù)估計(jì)量的性質(zhì)
在滿足基本假設(shè)的情況下,其結(jié)構(gòu)參數(shù)
的普通最小二乘估計(jì)具有:
線性性、無偏性、有效性。
同時(shí),隨著樣本容量增加,參數(shù)估計(jì)量具有:
漸近無偏性、漸近有效性、一致性。
樣本容量問題
所謂“最小樣本容量”,即從最小二乘原理出發(fā),欲得到參數(shù)估計(jì)量,不管其質(zhì)量如何,所要求的樣本容量的下限。
1)最小樣本容量
樣本最小容量必須不少于模型中解釋變量的數(shù)目(包括常數(shù)項(xiàng)),即
n
≥
k+1因?yàn)椋瑹o多重共線性要求:秩(X)=k+1
2)、滿足基本要求的樣本容量
從統(tǒng)計(jì)檢驗(yàn)的角度:
n
30時(shí),Z檢驗(yàn)才能應(yīng)用;
n-k≥8時(shí),t分布較為穩(wěn)定
一般經(jīng)驗(yàn)認(rèn)為:
當(dāng)n≥30或者至少n≥3(k+1)時(shí),才能說滿足模型估計(jì)的基本要求。
模型的良好性質(zhì)只有在大樣本下才能得到理論上的證明3.偏回歸系數(shù)的含義二元回歸模型為:yi=
1+2x2i+3x3i+i
偏回歸系數(shù)告訴我們什么偏回歸系數(shù)表示了其他因素不變時(shí),相應(yīng)解釋變量對(duì)因變量的“凈影響”。1)偏相關(guān)系數(shù)簡(jiǎn)單相關(guān):兩個(gè)變量之間線性關(guān)聯(lián)的緊密程度偏相關(guān)定義:在多個(gè)變量y,x1,x2,…xk之間,如果只考慮兩個(gè)變量之間的真實(shí)相關(guān)關(guān)系,而排除其他變量對(duì)它們的影響(或者說其他變量保持不變),這種相關(guān)成為偏相關(guān)。例控制第三變量某地15名13歲男童身高x1(cm)、體重x2(kg)、和肺活量y(ml)的數(shù)據(jù)如表。試對(duì)該資料做控制體重影響的身高與肺活量的偏相關(guān)分析。步驟:AnalyzeCorelatePartial選“身高”和“肺活量”為分析變量,“體重”為控制變量,“雙尾檢驗(yàn)”,“顯示實(shí)際顯著性水平”選項(xiàng):同時(shí)輸出均值和標(biāo)準(zhǔn)差及零階相關(guān)系數(shù)肺活量身高體重?偏相關(guān)系數(shù)在偏相關(guān)中,根據(jù)被固定的變量數(shù)目的多少,可分為零階偏相關(guān)(即簡(jiǎn)單相關(guān))、一階偏相關(guān)、二階偏相關(guān)、…(k-1)階偏相關(guān)等。偏相關(guān)系數(shù):用來衡量偏相關(guān)程度的數(shù)量指標(biāo)。例:為x3保持不變下y和x2的一階偏相關(guān)系數(shù)簡(jiǎn)單相關(guān)系數(shù)vs偏相關(guān)系數(shù)r12·3與r12的關(guān)系r12=0時(shí),r12·3并不為0,除非r13或r23為0。r12·3與r12不一定同號(hào)。如果x1與x2的偏相關(guān)系數(shù)為0,意味著在消除了x3對(duì)每個(gè)變量的線性影響后,x1與x2之間沒有線性關(guān)聯(lián),這時(shí)我們可以下結(jié)論說:在模型中x2對(duì)x1沒有直接影響。例1“期望擴(kuò)充”菲利普斯曲線菲利普斯曲線表明:通貨膨脹率和失業(yè)率是反向變化的。期望擴(kuò)充菲利普斯曲線增加了預(yù)期通貨膨脹率的影響。1970-1982年美國(guó)真實(shí)通貨膨脹率y(%)、失業(yè)率x2(%)和預(yù)期通貨膨脹率x3(%)數(shù)據(jù)如表,作菲利普斯曲線。原始菲利普斯曲線:yt=b1+b12x2t+
1t期望擴(kuò)充菲利普斯曲線:yt=
1+2x2t+3x3t+t
b12、
2的經(jīng)濟(jì)涵義、先驗(yàn)符號(hào)?2)偏回歸系數(shù)b12
2估計(jì)值為正,失業(yè)率與通脹率同方向?符號(hào)正確,統(tǒng)計(jì)顯著。統(tǒng)計(jì)上不顯著異于0例1“期望擴(kuò)充”菲利普斯曲線估計(jì)結(jié)果原始菲利普斯曲線
期望擴(kuò)充菲利普斯曲線設(shè)定偏誤?E(b12)=
2+
3b32
b12不僅度量了x2對(duì)y的凈影響,還包括了x2對(duì)x3的影響而間接對(duì)y產(chǎn)生的影響yt=b1+b12x2t+
1tyt=
1+2x2t+3x3t+tb12=0.244934
2=-1.392472x3t=b2+b32x2t+
2t
x3t
=-0.725280+1.113857x2t通脹y失業(yè)率x2預(yù)期通脹x3
2<0
3>0B32>0偏回歸系數(shù)偏回歸系數(shù)表示了其他因素不變時(shí),相應(yīng)解釋變量對(duì)因變量的“凈影響”。
2反映了x3不變的條件下,x2對(duì)y的凈影響偏回歸系數(shù)-偏相關(guān):控制第三變量多元回歸與一元回歸的區(qū)別:為什么要作多元回歸yt=
1+2x2t+3x3t+t選擇恰當(dāng)?shù)淖兞恐陵P(guān)重要三、殘差分析與假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)必要性及檢驗(yàn)內(nèi)容統(tǒng)計(jì)檢驗(yàn)及經(jīng)濟(jì)意義檢驗(yàn)經(jīng)典假設(shè)的檢驗(yàn)?zāi)P偷男拚?.假設(shè)檢驗(yàn)的必要性和檢驗(yàn)內(nèi)容回歸建模過程1.假設(shè)檢驗(yàn)的必要性和檢驗(yàn)內(nèi)容假設(shè)檢驗(yàn):對(duì)模型和所估計(jì)的參數(shù)加以評(píng)定,判定在統(tǒng)計(jì)上是否顯著,在理論上是否有意義為什么需要檢驗(yàn)?回歸分析是要通過樣本來估計(jì)總體的真實(shí)參數(shù),或者說是用樣本回歸線估計(jì)總體回歸線模型可能違反OLS估計(jì)的基本假定結(jié)論只是一次抽樣的某種偶然結(jié)果假設(shè)檢驗(yàn)的內(nèi)容1:經(jīng)典假設(shè)檢驗(yàn)檢驗(yàn)經(jīng)典線性回歸模型的假定是否成立:保證參數(shù)估計(jì)量的良好性質(zhì)按照線性模型的假定,模型隨機(jī)誤差項(xiàng)應(yīng)相互獨(dú)立,且服從均值為0,等方差的正態(tài)分布。如果假定不成立,OLS估計(jì)量不再有效,回歸分析的統(tǒng)計(jì)檢驗(yàn)結(jié)果再顯著也不能說明問題。因?yàn)闅埐钇椒胶椭屑扔杏^測(cè)誤差,又有模型誤差,F(xiàn)檢驗(yàn)的p值再小,也不意味模型正確。內(nèi)容:是否存在共線性、序列相關(guān)、異方差,是否正態(tài)分布假設(shè)檢驗(yàn)的內(nèi)容2:統(tǒng)計(jì)檢驗(yàn)統(tǒng)計(jì)檢驗(yàn)盡管從統(tǒng)計(jì)性質(zhì)上已知,對(duì)無偏估計(jì)量,如果有足夠多的重復(fù)抽樣,參數(shù)的估計(jì)值的期望(均值)就等于其總體的參數(shù)真值,但在一次抽樣中,估計(jì)值不一定就等于該真值。那么,在一次抽樣中,參數(shù)的估計(jì)值與真值的差異有多大,是否顯著,這就需要進(jìn)一步進(jìn)行統(tǒng)計(jì)檢驗(yàn)。主要包括方程顯著性檢驗(yàn)、變量的顯著性檢驗(yàn)、擬合優(yōu)度檢驗(yàn)及參數(shù)的區(qū)間估計(jì)。假設(shè)檢驗(yàn)的內(nèi)容3:經(jīng)濟(jì)意義檢驗(yàn)經(jīng)濟(jì)意義檢驗(yàn)檢驗(yàn)各個(gè)參數(shù)是否與經(jīng)濟(jì)理論和實(shí)際經(jīng)驗(yàn)相符消費(fèi)函數(shù)例:?=232.8+0.771X
,0<1<1?例如:ln(人均食品需求量)=-2.0-0.5ln(人均收入)-4.5ln(食品價(jià)格)+0.8ln(其它商品價(jià)格)ln(人均食品需求量)=-2.0+0.5ln(人均收入)-4.5ln(食品價(jià)格)+0.8ln(其它商品價(jià)格)ln(人均食品需求量)=-2.0+0.5ln(人均收入)-0.8ln(食品價(jià)格)+0.8ln(其它商品價(jià)格)2.統(tǒng)計(jì)檢驗(yàn)及經(jīng)濟(jì)意義檢驗(yàn)
前提條件:經(jīng)典假設(shè)滿足擬合優(yōu)度檢驗(yàn)方程顯著性檢驗(yàn)變量顯著性檢驗(yàn)經(jīng)濟(jì)意義檢驗(yàn)(1)擬合優(yōu)度檢驗(yàn)判定系數(shù)和調(diào)整的判定系數(shù)
總離差平方和的分解證明:該項(xiàng)等于0該統(tǒng)計(jì)量越接近于1,模型的擬合優(yōu)度越高。
從R2的表達(dá)式中發(fā)現(xiàn),如果在模型中增加解釋變量,
R2往往增大。
這就給人一個(gè)錯(cuò)覺:要使得模型擬合得好,只要增加解釋變量即可。
但是,由增加解釋變量引起的R2的增大與擬合好壞無關(guān),所以R2需調(diào)整。
判定系數(shù)(可決系數(shù))
調(diào)整的可決系數(shù)(adjustedcoefficientofdetermination)
其中:n-k-1為殘差平方和的自由度,n-1為總體平方和的自由度。(2)方程顯著性的F檢驗(yàn)
方程的顯著性檢驗(yàn),旨在對(duì)模型中被解釋變量與解釋變量之間的線性關(guān)系在總體上是否顯著成立作出推斷。在多元模型中,即檢驗(yàn)?zāi)P椭械膮?shù)j是否顯著不為0。
F檢驗(yàn)的思想來自于總離差平方和的分解式
TSS=ESS+RSS
如果這個(gè)比值較大,則X的聯(lián)合體對(duì)Y的解釋程度高,可認(rèn)為總體存在線性關(guān)系,反之總體上可能不存在線性關(guān)系。
因此,可通過該比值的大小對(duì)總體線性關(guān)系進(jìn)行推斷。
在原假設(shè)H0成立的條件下,統(tǒng)計(jì)量
給定顯著性水平
,可得到臨界值F
(k,n-k-1),由樣本求出統(tǒng)計(jì)量F的數(shù)值,通過
F
F
(k,n-k-1)或F
F
(k,n-k-1)來拒絕或接受原假設(shè)H0,以判定原方程總體上的線性關(guān)系是否顯著成立。
關(guān)于擬合優(yōu)度檢驗(yàn)與方程顯著性檢驗(yàn)關(guān)系的討論
從上式可看出,F(xiàn)與R2是同向變化的:當(dāng)R2=0時(shí),F(xiàn)=0R2越大,F(xiàn)值也越大。當(dāng)R2=1時(shí),F(xiàn)∞
對(duì)于一般的實(shí)際問題,在5%的顯著性水平下,F(xiàn)統(tǒng)計(jì)量的臨界值所對(duì)應(yīng)的R2的水平是較低的。所以,不宜過分注重R2值,應(yīng)注重模型的經(jīng)濟(jì)意義;在進(jìn)行總體顯著性檢驗(yàn)時(shí),顯著性水平應(yīng)該控制在5%以內(nèi)。(3)變量的顯著性檢驗(yàn)(t檢驗(yàn))方程的總體線性關(guān)系顯著不等于每個(gè)解釋變量對(duì)被解釋變量的影響都是顯著的。必須對(duì)每個(gè)解釋變量進(jìn)行顯著性檢驗(yàn),以決定是否作為解釋變量被保留在模型中。這一檢驗(yàn)是由對(duì)變量的t檢驗(yàn)完成的。
設(shè)計(jì)原假設(shè)與備擇假設(shè):
H1:
i0
給定顯著性水平
,可得到臨界值t/2(n-k-1),由樣本求出統(tǒng)計(jì)量t的數(shù)值,通過
|t|
t/2(n-k-1)或|t|
t/2(n-k-1)p<p>判斷拒絕或不拒絕原假設(shè)H0,從而判定對(duì)應(yīng)的解釋變量是否應(yīng)包括在模型中。
H0:
i=0
(i=1,2…k)
例.凱恩斯消費(fèi)函數(shù)每周家庭消費(fèi)支出exp和每周家庭收入income的數(shù)據(jù)如表,求凱恩斯消費(fèi)函數(shù)。建立二元線性回歸模型模型估計(jì)結(jié)果:參數(shù)估計(jì)值參數(shù)估計(jì)的標(biāo)準(zhǔn)誤單零檢驗(yàn)之t統(tǒng)計(jì)量:H0:B=0方程顯著性檢驗(yàn)之F統(tǒng)計(jì)量判定系數(shù)邊際消費(fèi)傾向1<1的假設(shè)檢驗(yàn)?H0:11H1:1<1(4)經(jīng)濟(jì)意義檢驗(yàn):一般t檢驗(yàn)一般回歸系數(shù)的顯著性檢驗(yàn)用t檢驗(yàn):拒絕域:=0.05,T
=-1.94
統(tǒng)計(jì)上不顯著,不能拒絕原假設(shè)與經(jīng)濟(jì)理論不符?剔除不顯著變量邊際消費(fèi)傾向1<1的假設(shè)檢驗(yàn)?H0:11H1:1<1=0.05,T
=-1.86
統(tǒng)計(jì)上顯著,拒絕原假設(shè)3.經(jīng)典假設(shè)的檢驗(yàn)正態(tài)分布檢驗(yàn)序列相關(guān)和異方差檢驗(yàn)共線性有無異常觀測(cè)值1)正態(tài)分布檢驗(yàn):殘差直方圖和殘差正態(tài)概率圖作出殘差分布的直方圖,可以十分直觀地看出誤差是否正態(tài)分布。0ee0e00e(a)(b)(c)(d)正態(tài)分布,0均值非正態(tài)分布與正態(tài)分布有偏差,大部分殘差為正。與正態(tài)分布有偏差,大部分殘差為負(fù)。殘差正態(tài)概率圖如果殘差服從正態(tài)分布,那么對(duì)應(yīng)于其正態(tài)百分位數(shù)值做散點(diǎn)圖,應(yīng)該呈直線形狀。如果圖形嚴(yán)重偏離線性,則說明誤差分布不是正態(tài)。SPSS給出的標(biāo)準(zhǔn)化殘差的正態(tài)概率圖是累計(jì)概率圖。對(duì)比觀察值得殘差分布圖與假設(shè)的正態(tài)分布圖是否相同。如果標(biāo)準(zhǔn)化殘差呈正態(tài)分布,則散點(diǎn)在直線上或靠近直線。2)序列相關(guān)和異方差檢驗(yàn):殘差散點(diǎn)圖以因變量的擬合值為橫坐標(biāo),殘差為縱坐標(biāo),將n個(gè)樣本點(diǎn)的值描在坐標(biāo)系中。根據(jù)這n個(gè)點(diǎn)的分布情況,可以尋找模型錯(cuò)誤或異方差或序列相關(guān)的證據(jù)。因?yàn)闅埐詈突貧w擬合值是線性無關(guān)的,所以這n個(gè)點(diǎn)應(yīng)該是隨機(jī)地散布在以e=0為中心的、與橫軸平行的對(duì)稱二直線形成的帶域內(nèi)。否則就可以認(rèn)為模型不合適或同方差性沒有得到滿足如果模型中存在異方差和序列相關(guān),則t檢驗(yàn)和F檢驗(yàn)均無效,區(qū)間預(yù)測(cè)無效,模型必須修正殘差散點(diǎn)圖例ei0ei0ei0ei0ei0ei0無趨勢(shì),滿足假定。誤差隨的增加而增加誤差隨的增加而減小誤差兩邊小中間大誤差呈規(guī)律性變化,原因可能是模型不適合,也可能是缺少某些重要值變量同方差Var(i)=2序列相關(guān)的識(shí)別t(a)etetet-1(c)tetetet-1無序列相關(guān),
cov(i,
j)=0序列相關(guān)的DW檢驗(yàn)(Durbin-Watson):使用條件回歸模型中含有截距項(xiàng);解釋變量是非隨機(jī)的(因此與隨機(jī)誤差項(xiàng)不相關(guān))隨機(jī)誤差項(xiàng)是一階自相關(guān):
t=t-1+t(-1≤≤1)回歸模型中不把滯后因變量做解釋變量;沒有缺落數(shù)據(jù),例如1960-1999年的時(shí)間序列數(shù)據(jù)中,如果63年和72年數(shù)據(jù)觀測(cè)值缺落,則DW統(tǒng)計(jì)量不宜用。一階自相關(guān):
t=t-1+tdL244-dL0dU4-dU正相關(guān)無自相關(guān)負(fù)相關(guān)d不確定不確定對(duì)給定樣本大小和給定的解釋變量個(gè)數(shù)查出臨界值dL和dU3)多重共線檢驗(yàn)完全多重共線:對(duì)解釋變量x1,x2,…xk,如果存在一組不全為0的常數(shù)
1、2、…
k,使得:
1x1i+
2x2i+…+
kxki=0非完全多重共線:包括變量間交互相關(guān)情形如下:
1x1i+
2x2i+…+
kxki+i=0完全多重共線的估計(jì)問題以二元回歸為例:設(shè):x3i=x2i
(r23=1)代入上式:∴如果出現(xiàn)完全多重共線,則偏回歸系數(shù)是不確定的,其標(biāo)準(zhǔn)誤是無窮大。
或?qū)3i=x2i代入原模型:偏回歸系數(shù)無確定解的含義:無法從所給樣本中將x2和x3的影響分離出來:當(dāng)x2發(fā)生變化時(shí),x3也按一個(gè)倍數(shù)因子
改變。多重共線的實(shí)際后果完全多重共線是一種極端情形,非完全多重共線更常見。非完全多重共線下,OLS估計(jì)量仍是最優(yōu)線性無偏估計(jì)量,但有如下后果:
∴估計(jì)精度較低
稱為方差膨脹因子VIF表明:估計(jì)量的方差由于多重共線的出現(xiàn)而膨脹起來。
當(dāng)r23=0.7時(shí),VIF=1.96當(dāng)r23=0.9時(shí),VIF=5.76即:是r23為零時(shí)的5.76倍。當(dāng)r23=0.95時(shí),VIF=10.26即:是無共線時(shí)的10倍。多重共線的實(shí)際后果由于方差膨脹,接受零假設(shè)更為容易,出現(xiàn)多個(gè)偏回歸系數(shù)單零t檢驗(yàn)不顯著。雖然單零檢驗(yàn)不顯著,但是聯(lián)合檢驗(yàn)(F檢驗(yàn))卻顯著,總的擬合優(yōu)度也很高。OLS估計(jì)量及其標(biāo)準(zhǔn)誤對(duì)數(shù)據(jù)的小變化敏感。多重共線例消費(fèi)支出y與收入x2和財(cái)富x3的關(guān)系R2=0.964個(gè)別置信區(qū)間與聯(lián)合置信域02.887-1.0040.1484-0.2332
2和3的95%聯(lián)合置信域原因:x2與x3之間高度相關(guān)多重共線產(chǎn)生的原因數(shù)據(jù)采集方法:解釋變量取值范圍過?。荒P突驈闹腥拥目傮w本身的特點(diǎn)如電力消費(fèi)對(duì)收入和住房面積的回歸:一般來說,收入較高的家庭住房面積也較大。模型設(shè)定問題如多項(xiàng)式回歸:一個(gè)過度決定的模型:解釋變量個(gè)數(shù)>樣本容量多重共線的識(shí)別注意:多重共線是程度問題,而不是有無問題。識(shí)別方法:R2值高,F(xiàn)檢驗(yàn)顯著,但顯著t值少。容許度與方差膨脹因子特征根(eigenvalues)和病態(tài)指數(shù)(conditionindex)病態(tài)指數(shù)CI在10-30之間,中強(qiáng)多重共線;CI>30,嚴(yán)重多重共線消費(fèi)支出與收入和財(cái)富關(guān)系例4.模型的修正模型存在異方差和序列相關(guān)模型存在多重共線模型存在不顯著變量(無多重共線)剔除不顯著變量參數(shù)經(jīng)濟(jì)意義不合理變量選擇不當(dāng)、函數(shù)形式不當(dāng)→重新設(shè)定模型(1)模型存在異方差和序列相關(guān)如果模型中存在異方差和序列相關(guān),則t檢驗(yàn)和F檢驗(yàn)均無效,區(qū)間預(yù)測(cè)無效,模型必須修正識(shí)別異方差和序列相關(guān)的原因遺漏重要變量→修改模型,引入遺漏變量樣本數(shù)據(jù)自身特征異方差修正:加權(quán)最小二乘法序列相關(guān)修正:廣義差分方程(2)多重共線的克服a.橫截面數(shù)據(jù)與時(shí)間序列數(shù)據(jù)并用例:汽車需求,假定有銷售量、平均價(jià)格和消費(fèi)者收入的時(shí)間序列數(shù)據(jù),模型為:時(shí)間序列數(shù)據(jù),價(jià)格和收入變量一般有高度共線的趨勢(shì)??衫脵M截面數(shù)據(jù)估計(jì)收入彈性
3,因?yàn)檫@些數(shù)據(jù)都產(chǎn)生于一個(gè)時(shí)間點(diǎn)上,價(jià)格還不至于有多大變化。令收入彈性的橫截面估計(jì)為,原回歸可化為:多重共線的克服b.差分法:時(shí)間序列數(shù)據(jù)間往往有較強(qiáng)的相關(guān)性,減小相關(guān)性的方法是形成一次差分方程:雖然x2和x3的水平之可能高度相關(guān),但是,其差分形式相關(guān)程度往往較低。因此,一階差分回歸常能減低多重共線性的嚴(yán)重程度。(對(duì)于橫截面數(shù)據(jù),一階差分不適用。)差分法的問題:隨機(jī)誤差項(xiàng)可能存在序列相關(guān);損失了一次觀測(cè)值,因而減少了一個(gè)自由度,如果樣本容量本身就不大,這可能會(huì)有影響。多重共線的克服c.補(bǔ)充新數(shù)據(jù):以二元回歸為例當(dāng)r23給定時(shí),增加新樣本,通??梢允乖龃?,從而減少的方差,使我們能更準(zhǔn)確地估計(jì)
2。e.剔除變量:要慎重,設(shè)定偏誤(偏回歸系數(shù)估計(jì)量有偏)d.主成分回歸*嶺回歸法(RidgeRegression)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 空氣調(diào)節(jié)裝置市場(chǎng)分析及投資價(jià)值研究報(bào)告
- 商業(yè)計(jì)劃行業(yè)市場(chǎng)調(diào)研分析報(bào)告
- 利用虛擬現(xiàn)實(shí)技術(shù)舉辦藝術(shù)展覽行業(yè)經(jīng)營(yíng)分析報(bào)告
- 干草打包機(jī)產(chǎn)品供應(yīng)鏈分析
- 撲爽身粉用海綿產(chǎn)品供應(yīng)鏈分析
- 廁所清洗劑產(chǎn)品供應(yīng)鏈分析
- 在紡織品上印刷圖案行業(yè)營(yíng)銷策略方案
- 藥用奶發(fā)酵劑市場(chǎng)分析及投資價(jià)值研究報(bào)告
- 安排職業(yè)高爾夫比賽行業(yè)經(jīng)營(yíng)分析報(bào)告
- 建筑學(xué)咨詢服務(wù)行業(yè)營(yíng)銷策略方案
- 股份期權(quán)協(xié)議
- 戰(zhàn)場(chǎng)防護(hù)基本知識(shí)課件
- GB/T 43829-2024農(nóng)村糞污集中處理設(shè)施建設(shè)與管理規(guī)范
- 《現(xiàn)代控制理論》課程教學(xué)大綱
- 交通事故私了協(xié)議書模板
- 北師大版2024-2025學(xué)年六年級(jí)數(shù)學(xué)上冊(cè)典型例題系列第一單元圓概念認(rèn)識(shí)篇【八大考點(diǎn)】(原卷版+解析)
- 餐飲服務(wù)模考試題(附答案)
- 大數(shù)據(jù) AI大模型-智慧統(tǒng)計(jì)大數(shù)據(jù)平臺(tái)解決方案(2023版)
- 教科版科學(xué)二年級(jí)上冊(cè)全冊(cè)教案(完整版)
- 充電樁建設(shè)項(xiàng)目經(jīng)濟(jì)效益和社會(huì)效益分析報(bào)告
- 院長(zhǎng)行政查房科主任匯報(bào)
評(píng)論
0/150
提交評(píng)論