




已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第九章 模型設定和數據問題的深入探討,9.1函數形式誤設 9.2對無法觀測解釋變量使用代理變量 9.3隨機斜率模型 9.4有測量誤差時OLS的性質 9.5數據缺失、非隨機樣本和異常觀測,9.1函數形式的誤設,回憶經典線性模型中一個隱含的假設:回歸模型是正確設定的 如果模型未被正確設定,那么我們就遇到“模型設定誤差”或“模型設定偏誤”. 1.我們如何發(fā)現(xiàn)模型是“正確的”? 2.我們經常會遇到哪些類型的“模型設定誤差”? 3.設定誤差的后果有哪些? 4.如何檢驗設定誤差? 5.采取那些補救措施? 6.如何評價幾個表現(xiàn)不相上下的模型的優(yōu)劣?,9.1.1模型選擇準則,數據容納性:從模型所作出的預測符合邏輯 與理論一致 回歸元的弱外生性:解釋變量與誤差不相關 參數不變性:參數值穩(wěn)定,否則預測會困難 表現(xiàn)出數據的協(xié)調性:殘差必須完全隨機 模型具有包容性:其他模型都不可能再改進我們的模型。,9.1.2模型設定誤差的類型及危害,遺漏有關變量很可能產生偏誤 包含一個無關變量估計量方差變大 采用了錯誤的函數形式 測量誤差 對隨機誤差項不正確的設定 隨機誤差項是以乘積形式進入模型,還是以相加形式進入模型。,9.1.3模型設定誤差的檢驗 9.1.3.1檢驗是否含有無關變量,通過t-檢驗去檢驗一個變量參數的顯著性。 通過F-檢驗去檢驗一組變量參數的顯著性。,注意,并不能完全依賴統(tǒng)計檢驗, 還要注意經濟或實際上的顯著性。,9.1.3.2檢驗遺漏變量和函數形式誤設,殘差分析:可用于檢驗遺漏變量和函數形式誤設,逐漸趨于真實模型,回歸設定誤差檢驗(RESET) 思路: 如果下面的模型滿足MLR.4 那么如果在模型中添加自變量的非線性關系應該是不顯著的。,RESET檢驗的過程:,考慮擴大方程 y = b0 + b1x1 + + bkxk + d12 + d13 +u 檢驗H0: d1 = 0, d2 = 0 注意:FF2,n-k-3 or LM22,自由度: n-k-1-2,Example:住房價格方程,比較兩個模型的RESET統(tǒng)計量: Price= b0+b1lotsize+b2sqrft+b3bdrms+u F=4.67,p=0.012 lPrice= b0+b1llotsize+b2lsqrft+b3bdrms+u F=2.56,p=0.084,被拒絕,不能被拒絕,9.1,小結:,RESET檢驗的優(yōu)勢是不需要設立對立模型 RESET檢驗的重要缺陷是如果方程被拒絕,它不能告訴我們應該如何修正我們的錯誤模型。,9.1.4對非嵌套模型的檢驗,如果我們要在下列兩個非嵌套模型中選擇: 我們可以使用兩類方法 判別方法 檢驗方法,判別方法,兩個模型優(yōu)劣判斷必須基于相同的因變量 然后基于R2或調整的R2來判斷 還有其他準則可以用以判斷:赤池信息準則(AIC)、施瓦茲信息準則(SIC)和馬婁斯的Cp準則,赤池信息準則(AIC),對模型中增加回歸元施加了更嚴厲的懲罰 在比較兩個模型時,具有最低AIC的模型優(yōu)先 AIC的優(yōu)越性在于,不僅適用于樣本內預測,還適用于預測樣本外模型的表現(xiàn)。 嵌套模型、非嵌套模型都適用。,施瓦茲信息準則(SIC),對模型中增加回歸元施加了比AIC更嚴厲的懲罰 SIC的值越低越好 SIC也可以用于比較模型在樣本內與樣本外的預測表現(xiàn)。,馬婁斯的Cp準則(軟件不能給出),若模型有p個回歸元,則 若模型是正確設定的,則 注:上述幾個準則,不存在誰更優(yōu)于誰,檢驗方法,方法一:(Mizon and Richard,1986) 分別檢驗:,綜合模型,檢驗(2),檢驗(1),這種檢驗程序存在的問題,(1)(2)兩模型中的回歸元如果存在高度相關,則綜合模型就存在高度多重共線性。這可能使正確模型中的參數檢驗不顯著。,(2)的擬合值,方法二:戴維森-麥金農 J檢驗 思想:如果(1)正確,那么(2)中的擬合值y在(1)中作為解釋變量時應該是不顯著的。 對模型 檢驗: 對模型 檢驗:,不能拒絕則說明1兼容2,(1)的擬合值,不能拒絕則說明2兼容1,評價J檢驗:,可能兩個模型都被拒絕,或都沒有被拒絕。那么我們就得不到明確的答案。 檢驗中擬合值的t統(tǒng)計量是漸近的服從t分布的,因此,在小樣本中,J檢驗會過多的拒絕真模型。,9.2對無法觀測的解釋變量使用代理變量 9.2.1代理變量和植入解,考慮工資模型,如果因為無法觀測而放入誤差項,則可能會導致嚴重偏誤,這時考慮代理變量IQ,可以測量,與無法觀測的變量高度相關,無法觀測的變量,遺漏變量問題的植入解,植入解得到無偏估計量的假設:,u與x1、x2、x3*以及x3都不相關 v3與x1、x2、x3都不相關 E(x3* | x1, x2, x3) = E(x3* | x3) = d0 + d3x3 y = (b0 + b3d0) + b1x1+ b2x2 + b3d3x3 + (u + b3v3),新截距,代理變量的斜率,新誤差項,無偏估計量,代理變量只與x3有關,與其他自變量無關,如果代理變量與其他自變量也相關,則會出現(xiàn)偏誤!,偏誤,9.3,9.2.2用滯后因變量作為代理變量,如果無法確定遺漏變量的代理變量究竟應該是什么,那么可以選擇較早時期的因變量作為代理變量。 例如,某些城市過去有較高的犯罪率,同時導致現(xiàn)在和過去犯罪率很高的無法觀測因素中,許多都是相同的。,Example:城市犯罪率,Crime表示人均犯罪次數,unem表示城市失業(yè)率,expend表示執(zhí)法的人均支出,crime-1表示以前某個年度的犯罪率,9.3隨機斜率模型,如果一個變量的偏效應是隨某些無法觀測的因素而變化的,這就會產生隨機斜率模型。 例如:工資方程,對于不同的人,多讀一年書的偏效應是不同的取決于個人能力,對于沒有讀過書的人,工資水平是不同的取決于個人能力,對于我們的n個觀測者:,我們有n個ai,=E(ai) 我們有n個bi,=E(bi) 對于某個觀測者,如果ai=+ci, bi=+di其隨機斜率模型為: y=ai+bixi=+ci+(+di)xi=+xi+ui 其中ui=ci+dixi,平均邊際效應,平均截距,隨機斜率模型可以寫為常系數模型,但是其誤差與x有關異方差,隨機斜率模型是否有偏?,E(ui|x)= E(ci|x) +xi E(di|x) = E(ai|x)-+ xi E(bi|x)- 如果E(ai|x)=,E(bi|x)=則E(ui|x)=0,ui=ci+dixi,注意到:ai=+ci, bi=+di,注意=E(ai),=E(bi),允許斜率因人而異,但只要他們的均值獨立于解釋變量,則OLS估計量就是無偏的,9.4有測量誤差時OLS的性質,測量誤差是模型設定偏誤的又一種情況 測量誤差來自于兩種情況 1.因變量的測量誤差 2.自變量的測量誤差,9.4.1因變量中的測量誤差,測量誤差的例子:我們想要“家庭年收入”,但是被調查者只為我們提供了家庭成員的工資總收入,實際上投資收益被忽略了,此時產生了測量誤差。 令y*表示因變量的真實值,y表示觀測值 測量誤差e=y-y*,存在測量誤差會導致OLS估計量的性質發(fā)生什么變化?,測量誤差的均值為0,且測量誤差和解釋變量無關,對于真實情況(滿足高斯-馬爾科夫假定) 而我們回歸的方程為 如果也滿足滿足高斯-馬爾科夫假定,則估計量是有效地,即 E(e|x)=0 存在測量誤差時,誤差方差會增大。,小結:,如果因變量的測量誤差與解釋變量系統(tǒng)相關,則會導致OLS的偏誤。 如果測量誤差只是一個與解釋變量無關的隨機誤差,則OLS完全適用,但會加大估計量的方差。,9.4.2解釋變量中的測量誤差,令x*表示因變量的真實值,x表示觀測值 對于解釋變量x1的測量誤差e1=x1-x1* 假設E(e1)=0,E(u- 1e1 |x)=0?,0(根據假定),e1=x1-x1*,自變量測量誤差在兩類假定下的影響,保證了估計量的一致性,誤差方差加大,假定一:Cov(x1,e1)=0 E(u- 1e1 |x1)=0 Var(u-1e1) Var(u) 假定二(經典變量誤差假定CEV):Cov(x1*,e1)=0 Cov(x1,e1)=E(x1e1) = E(x1*e1)+E(e12)=Var(e1) Cov(x1,u-1e1)=- 1 Var(e1),在CEV假定下,OLS將給出有偏的不一致的估計量,在CEV假定下的偏誤,回憶第5章漸進偏誤的定義: 在CEV假定下的偏誤,衰減偏誤,小結:,如果自變量存在測量誤差,且滿足CEV,則估計量會產生衰減偏誤。 但如果測量誤差的方差Var(e1)相對于自變量真實值的方差Var(x1*)很小的話,則測量誤差不會導致很大偏差。,這時,我們可以忽略自變 量測量誤差導致的偏誤。 但困難在于Var(e1)和 Var(x1*)不易觀測。,另一種方法是使用工具變量或代理變量,它們與觀測值X高度相關,但與方程誤差和測量誤差(、e)都不相關。那么我們就能得到的一致估計。 因此,自變量的觀測值要盡量準確。,也比較困難,9.5數據缺失、非隨機樣本和異常觀測 9.5.1數據缺失(missing data),如果一個觀測缺失了其因變量或一個自變量,那么這個觀測就不能用于多元回歸分析。 如果數據是隨機缺失的,那么除了減少了樣本容量而導致估計量沒有那么準確以外,不會引起任何偏誤。,9.5.2非隨機樣本,如果數據缺失是非隨機的,那么將導致樣本變?yōu)榉请S機樣本。,在嬰兒出生的數據集中,如果受教育程度低的人 缺失數據的概率大。,違背MLR.2,外生樣本選擇不會有偏誤,內生樣本選擇會有偏誤,外生樣本選擇:基于自變量 例如 內生樣本選擇:基于因變量 例如,假設我們針對35歲以上的人群調查,則得到非隨機樣本不會導致偏誤,假設我們針對財富不足25萬的人群調查,也得到非隨機樣本導致偏誤,9.5.3異常觀測,異常觀測值也可以定義為殘差很大的觀測值。 如果將一個觀測從數據集中去掉會使得OLS估計量發(fā)生很大變化,則這個觀測就是異常觀測。,這個很大的殘差會因為它 和回歸線的垂直距離很大 而把回歸線向自己拉近, 從而改變回歸線的斜率。,異常數據的性質,對所有數據的OLS線,除去異常觀測值的OLS線,不是異常觀測值,是異常觀測值,由于OLS是對殘差平方進行最小化,所以OLS估計量對異常觀測值十分敏感。 一組觀測值中可能不止一個異常觀測值。 不加思索的將異常觀測值從樣本中去掉不是明智的選擇。除非異常觀測是由于記錄發(fā)生錯誤而導致,否則異常觀測值可能記
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 海南省??谑斜灸甓龋?025)小學一年級數學統(tǒng)編版期末考試((上下)學期)試卷及答案
- 2025-2030年中國數控鋸床行業(yè)發(fā)展監(jiān)測及投資形勢預測研究報告
- 船舶建造標準與法規(guī)遵循考核試卷
- 殘疾人座車燃油經濟性分析考核試卷
- 電工儀表的模塊化生產考核試卷
- 紡織品的印染與花紋設計考核試卷
- 稀土金屬冶煉的政府采購考核試卷
- 玻璃保溫容器生產過程監(jiān)測與故障診斷技術實踐探索分析考核試卷
- 美容儀器原理與應用考核試卷
- 編織品的結構設計原理考核試卷
- 2025年無人機駕駛員職業(yè)技能考核試卷(無人機操控技術)
- 2025-2030中國延緩衰老食品行業(yè)深度調研及市場需求與投資研究報告
- 頌缽療愈師培訓課程大綱
- 2025年中國汽車零部件市場研究報告-2025-04-零部件
- 2025年廣東大灣區(qū)高三二模高考英語試卷試題(精校打?。?/a>
- 2025年關于美發(fā)學員合同
- 2025-2030中國改性塑料市場盈利能力預測及發(fā)展機遇規(guī)模研究報告
- 2024-2025年部編版語文小學二年級下冊全冊單元測試題(共8個單元附答案)
- 2025年福建能化集團招聘筆試參考題庫含答案解析
- 一年級下冊口算題卡大全(50套直接打印版)
- (高清版)JTG D81-2017 公路交通安全設施設計規(guī)范
評論
0/150
提交評論