




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、InlrndlitrEioti tnEconomelrics問題的提出1Chapter 6Introduction toMultiple Regression多元線性回歸主要內(nèi)容1. 遺漏變量偏差2. 因果效應(yīng)和回歸分析3. 多元回歸的OLS估計量4. 多元回歸的擬合優(yōu)度5. 多元回歸中OLS估計量的分布6. 多重共線性?在加利佛尼亞數(shù)據(jù)集中,盡管較低學(xué)生 /教師比 的學(xué)區(qū)往往具有較高的測試成績,但小班學(xué)區(qū) 的學(xué)生在標(biāo)準(zhǔn)測試中取得好成績可能源于其他 因素。是因為沒有考慮到其他因素才得出令人 誤解的結(jié)論嗎?如果是這樣的話,該怎么辦?siriir 11 Sri irkMili k V,? cor
2、str el_pct? (obs=420)?| strel_pct? +str | 1.0000el_pct | 0.1876 1.0000如果學(xué)生/教師比與英語學(xué)習(xí)者百分率之間的相關(guān)系數(shù)為0,則忽略測試成績對學(xué)生/教師比回歸中忽略英語的熟練程度是安全”的。然而,學(xué)生/教師比與英語學(xué)習(xí)者百分率之間的相關(guān)系數(shù)為0.19,表明英語學(xué)習(xí)者越多,則學(xué)生 /教師比越高,即班級規(guī) 模越大。意味著,測試成績對學(xué)生 /教師比回歸的系數(shù)中可能 包含了這一影響。#遺漏變量對OLS估計量的影響如果對Y有影響的因素沒有被加入到回歸模型中去,這時誤 差u會增加。沒有放入在模型中的變量就是所謂的遺漏變 量。遺漏變量的影響
3、是不可忽視的,它會致使 OLS估計量有 偏。例如,在加利佛尼亞數(shù)據(jù)的分析中,影響學(xué)生測試成績 的因素可能包括學(xué)校特征、學(xué)生特征等。遺漏變量要滿足的條件回歸中存在遺漏變量會導(dǎo)致遺漏變量偏差問題。假設(shè)Z為遺漏變量,要 同時滿足以下條件:1. 遺漏變量是因變量的一個決定因素(i.e. Z is part of u)。遺漏變量與回歸中的回歸變量相關(guān)(i.e. corr( Z,X) =0)。2?測試時間?測試時間會影響測試成績;?測試時間與班級規(guī)模無關(guān)。?教師停車場面積?教師停車場面積與測試成績無關(guān);?教師停車場面積與班級規(guī)模有關(guān)。遺漏英語學(xué)習(xí)者百分率(Z)是否存在遺漏變量偏 差?在關(guān)于測試成績的例子中
4、:1.英語語言能力是否影響測試成績?對移民家庭而言,英 語是學(xué)生的第二語言,這從經(jīng)驗上看對學(xué)生測試成績是 有影響的,即Z是Y的一個影響因素。2移民家庭較多的社區(qū)往往并不是十分富裕,這導(dǎo)致這些 學(xué)區(qū)的教育預(yù)算較少,也就是說這些學(xué)校的STR較高,即Z與STR相關(guān)。所以遺漏英語學(xué)習(xí)者百分率存在遺漏 變量偏差。73#?n-1? 2?SX? n ?如果滿足OLS第一個假設(shè),遺漏變量偏差與第一個最小二乘假設(shè)遺漏變量偏差意味著第一個最小二乘假設(shè)E(u Xi)= 0不成立。一元線性回歸中的誤差項 u表示除Xj外所有決定Y的因素。 若其中某個因素與Xi相關(guān),則誤差項與Xi相關(guān)。因此,給定Xi時,Ui的均值不為零
5、。這一相關(guān)性違反了最小二乘的第一個假設(shè),造成了嚴(yán)重的后果, 即OLS估計量是有偏的,這個偏差即使在大樣本下也不會消失, 因此OLS估計量是非一致的。遺漏變量偏差公式由( 4.30),nE(Xi- X)Ui? 1 二 -n= 2月 Xi - X) i=1其中 v = (Xi -X)Ui =(Xi -収)Ui.則E(Xi -p)ui = cov(Xi,Ui) = 0.但是如果假設(shè)一不滿足,則#E(Xi - M)Ui = COV(Xi,Ui) = oXu 豐 0#10遺漏變量偏差公式遺漏變量偏差公式p142#分子分母同時乘以6 +? ? PXU? F= 0.0000R-squared= 0.4264
6、Root MSE= 14.464?1Robust?testscr |Coef. Std. Err. t P|t|95% Conf. Interval?+?str |-1.101296.4328472 -2.540.011-1.95213 -.2504616?el_pct |-.6497768.0310318 -20.940.000-.710775 -.5887786?_cons |686.0322&728224 78.600.000668.8754703.189?testscr =686.0-10STR -0.65PctEL#SER =ni=1回歸標(biāo)準(zhǔn)誤和均方根誤差對于 Yi = % + %X
7、1i + %X2i %Xki + Ui, i = 1, -n,回歸標(biāo)準(zhǔn)誤和均方根誤差度量了Y的分布在回歸線周圍的分散程度。RMSE =除數(shù)n-k-1調(diào)整了估計k+1個系數(shù)引起的向下的偏差。當(dāng)n較大時,自由度調(diào)整的效用可忽略。多元回歸的R2回歸R2為可由回歸變量解釋(或預(yù)測)的 丫樣本方差的比例。等價地,R2等于1減去不能由回歸變量解釋的 丫的比例。2 ESSSSRR2 =1-,TSSTSSnn其中:解釋平方和ESS= W_Y)2,殘差平方和SSR=寸,總平 i=1i=1n方和 TSS = 2JY_ Y)2.i=1?在多元回歸中,除非增加的回歸變量系數(shù)估計值恰好為零,否則只要增加新的回歸變量個數(shù)
8、,R2就會增大。?實際中,系數(shù)估計值恰好為零是極為不常見的。調(diào)整R2 (即R2)由于增加新變量后 R2會增大,因此 R2增加并不意味著增加 一個變量實際上提高了模型的擬合程度。在此意義下,R2夸大地估計了回歸擬合數(shù)據(jù)的效果。調(diào)整R2是R2的一種修正形式,即增加新的回歸變量后R2不一定增大,其表達(dá)式為:調(diào)整 R2: R2 = 1-? n-1 ?SSR?n - k - 1?TSS注意R21-?上丄冒=1-三?n- k- 1?TSS 可(1) R2總是小于R2(2) 增加一個回歸變量對 R2有兩種相反的作用。一方面,SSR降低使R2增大;另一方面,因子 (n- 1)/(n- k- 1) 會增大。所以
9、R2是增大還是減小取決于這兩種作用的強(qiáng)弱。R2可能為負(fù)。當(dāng)所有的回歸變量減少的殘差平方和 太小以至于無法抵消因子 (n-1)/(n- k-1)時r2為負(fù)。9#25用STATA做多元回歸舉例加州數(shù)據(jù)集回歸擬合優(yōu)度比較#?reg testscrstr el_pct?Source |SSdfMSNumber of obs=420?F( 2, 417)=155.01?Model |64864.3011232432.1506Prob F=0.0000?Residual | |t|95% Conf. Interval? +?str|-1.101296 .3802783-2.900.004 -1.84879
10、7 -.3537945?el_pct|-.6497768 .0393425-16.520.000 -.7271112 -.5724423?_cons | 686.0322 7.41131292.57 0.000671.4641700.6004? testscr = 686.0-10STR -0.65PctEL(1) TestScore= 698.9- 2.2STR2R = .05, SER= 18.6(2) TestScore= 686.0- 1 F = 0.0000R-squared = 0.0512Root MSE = 18.58110#31|Robusttestscr | Coef. S
11、td. Err. t P|t|95% Conf. Interval+str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671str | (dropped)_cons | 698.933 10.36436 67.44 0.000678.5602 719.3057 32如何解釋多元回歸中出現(xiàn)完全多重共線性時的不合理情況??在上述回歸中,B是控制其他回歸變量不變時STR變化一個單位致使測試成績產(chǎn)生的變化,然而,這里的其他回歸 變量同時又是 STR本身,這將導(dǎo)致矛盾的結(jié)果。多元回歸中OLS估計量的分布滿足四個最小二乘假設(shè)條件下:? ?是B無偏一致
12、估計量。?大樣本下 E(j)近似服從N(0,1) (CLT)Jvar( ?)?上述結(jié)論對于 ?,也成立。3334#11完全多重共線性舉例?兩個回歸變量相同:如測試成績對兩個STR進(jìn)行回歸。?對常數(shù)項回歸:如不是非常小的班級(p156)o?虛擬變量陷阱:根據(jù)虛擬變量的設(shè)置原則,一般情況下,如果定性變量有 m個類別,則需在模型中引入m-1個變量。如果引入了 m個變量,就會導(dǎo)致模型解釋變量 出現(xiàn)完全的共線性問題,從而導(dǎo)致模型無法估計。這種 由于引入虛擬變量個數(shù)與類別個數(shù)相等導(dǎo)致的模型無法 估計的問題,稱為“虛擬變量陷阱”。虛擬變量陷阱解決辦法解決虛擬變量陷阱的常用辦法是吧其中一個二元變量剔 除出多元
13、回歸,因此G個二元變量中只有G-1個是回歸變 量。注意:在這種情況下,相對于剔除的基礎(chǔ)類而言,包含 在內(nèi)的二元變量系數(shù)表示固定其他回歸變量情形下落在該類 中的增加效應(yīng)。#6.1XX2的總體相關(guān)系數(shù),不完全多重共線性不完全多重共線性與完全多重共線性截然不同。不完全多重共線性意味著兩個或多個回歸變量之間是高度相 關(guān)的,是回歸變量的某種線性組合與其他回歸變量高度相關(guān) 的意思。不完全多重共線性對OLS估計量的理論不構(gòu)成任何問題。 若回歸變量間存在著不完全多重共線性,則至少無法精確估 計其中一個回歸變量的系數(shù)。例如:Testscore對STR和PctEL的回歸中,加入第三個回歸 變量,該變量為第一代移民
14、的學(xué)區(qū)居民百分率。PctEL與移民百分率高度相關(guān)。37不完全多重共線性對OLS估計量方差的影響:附錄6.2假設(shè)回歸中只包含兩個回歸變量,且誤差同方差,Ui的條件方差可以表示為var( u?X1i, X2i )=器大樣本下的抽樣分布為N(,/?),其中髭為:? ? 2 / = 1 ?1? bun ?1- pX1,Xi ? bX1其中pX,X2表示兩個回歸變量 嬴表示X的總體方差。3812#第6章習(xí)題1習(xí)題 2 ( p160 )#? 1計算每個回歸的R根據(jù) 6.15 )式,R2 =1- n 1 (1- R2)n - k - 1對于第一次回歸,n= 4000,k=24000- 14000 - 2-
15、1(1- 0.176)=0.1756對于第二次回歸,n=4000, k=324000 - 1R = 1(1- 0.190) = 0.18944000 - 3- V對于第三次回歸,n=4000, k=6-24000 - 1R = 1(1 - 0.194) = 0.19284000- 6-1、? 2利用表6.2列(2)中的回歸結(jié)果回答:(1) 大學(xué)畢業(yè)的工人平均比高中畢業(yè)的工人掙 得多么?多多少?(2) 男性平均比女性掙得多么?多多少?? (1)大學(xué)畢業(yè)的工人平均比高中畢業(yè)的工人多 掙5.46美元/小時。? (2)男性平均比女性多掙2.64美元/小時。3940#習(xí)題 3 ( p160 )? 3利用
16、表6.2列(2)中的回歸結(jié)果回答:(1) 年齡是收入的重要決定因素么?(2) Sally是29歲的女性大學(xué)畢業(yè)生。 Betsy是34歲 的女性大學(xué)畢業(yè)生。分別預(yù)測 Sally和Bets y的收入。?(1 )平均而言,年齡每增加1年,工人收入增加0.29美元/小時。?(2)預(yù)計Sally的收入為4.40 + 5.48 X1- 2.62 X1 + 0.29 X29 = 15.67美元?預(yù)計Betsy的收入為4.40+5.48 X1 - 2.62 X + 0.29 X34= 17.12美元4利用表6.2列(3)中的回歸結(jié)果回答:(1) 地區(qū)間的平均收入看起來存在重大差距么?(2) 為什么在回歸中省略
17、了回歸變量West ?如果加 上它會如何?(3) Juantia是來自南部的28歲女性大學(xué)畢業(yè)生。 Jennifer是來自中西部的28歲女性大學(xué)畢業(yè)生。計算 Juantia和Jennifer收入之間的期望差距。? (1)?控制回歸中其他變量不變,平均而言,北部地區(qū)工人比西 部地區(qū)工人每小時多掙0.69美元。?控制回歸中其他變量不變,平均而言,中部地區(qū)工人比西 部地區(qū)工人每小時多掙0.60美元。?控制回歸中其他變量不變,平均而言,南部地區(qū)工人比西 部地區(qū)工人每小時少掙0.27美元。4利用表6.2列(3)中的回歸結(jié)果回答:(1)地區(qū)間的平均收入看起來存在重大差距么?(2) 為什么在回歸中省略了回歸
18、變量West ?如果加 上它會如何?(3)Juantia是來自南部的28歲女性大學(xué)畢業(yè)生。 Jennifer是來自中西部的28歲女性大學(xué)畢業(yè)生。計算Juantia和Jennifer收入之間的期望差距。?( 2)?在回歸中省略了回歸變量 West,目的是為了避 免產(chǎn)生完全多重共線性。?在完全多重共線性條件下,普通最小二乘法估 計的參數(shù)值不能確定,并且估計值的方差為無 窮大。434利用表6.2列(3)中的回歸結(jié)果回答:(1 )地區(qū)間的平均收入看起來存在重大差距么?(2)為什么在回歸中省略了回歸變量 West ?如果 加上它會如何?(3)Juantia是來自南部的28歲女性大學(xué)畢業(yè)生。 Jennifer是來自中西部的28歲女性大學(xué)畢業(yè)生。計 算Juantia和Jennifer收入之間的期望差距。?(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報書:加快構(gòu)建廢棄物循環(huán)利用體系相關(guān)教學(xué)改革實踐
- 課題申報書:基于事件史的中美教育交叉學(xué)科分類結(jié)構(gòu)演進(jìn)及動力機(jī)制研究
- 江蘇省泰興市實驗中學(xué)2024-2025學(xué)年高考物理二模試卷含解析
- 錯題便利貼測試題及答案
- 汽包鍋爐蒸發(fā)設(shè)備安全性-自然循環(huán)的基本概念(鍋爐原理)
- 項目核算管理試題及答案
- 高效利用2025年鄉(xiāng)村全科執(zhí)業(yè)助理醫(yī)師試題及答案
- 邢臺疫情考試試題及答案
- gDIS3-13-生命科學(xué)試劑-MCE
- ATPase-IN-5-生命科學(xué)試劑-MCE
- 康復(fù)評定-常用康復(fù)評定項目課件
- 2022-2023學(xué)年四川省巴中市巴州區(qū)川教版(三起)四年級下學(xué)期4月期中英語試卷(解析版)
- 互聯(lián)網(wǎng)信息審核員考試題庫大全-上(單選題匯總)
- 半導(dǎo)體物理與器件(第4版)尼曼課后答案【半導(dǎo)體物理與器件】【尼曼】課后小結(jié)與重要術(shù)語解
- 北師大版三年級數(shù)學(xué)下冊 (什么是面積)面積教學(xué)課件
- 第七講-信息技術(shù)與大數(shù)據(jù)倫理問題-副本
- 新版PFMEA自動判定
- 建筑工程材料測試題及參考答案
- 高考閱讀理解(main-idea)(課堂)課件
- 有限元分析研究匯報課件
- 醫(yī)院檢查報告單模板
評論
0/150
提交評論