




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
3在第1章中我們講述了最小二乘法,它是用曲線來擬合數(shù)據(jù)的眾多方法中的一種。我們主要考慮的是參數(shù)估計(jì),而不是模型的統(tǒng)計(jì)檢驗(yàn)。在這一章中我們討論具有一個自變量和一個因變量的最小二乘回歸模型的統(tǒng)計(jì)檢驗(yàn)。首先我們講述模型的基本假設(shè),然后我們分析最小二乘估計(jì)的統(tǒng)計(jì)性質(zhì)。我們會發(fā)現(xiàn),在一定的假設(shè)下,最小二乘估計(jì)是無偏的、一致的和有效的。參數(shù)估計(jì)的分布可以用來構(gòu)造置信區(qū)間和對模型做假設(shè)檢驗(yàn)。最后我們介紹R2,它是關(guān)于回歸模型擬合程度的度量。為了探究回歸模型的概率性質(zhì),我們認(rèn)為對于給定的X(自變量)的觀測值,可以觀測到Y(jié)(因變量)的多個可能的值。例如,考慮年收入為20000的某個人的消費(fèi),由于花在食物上的錢每年都可能不同,我們假設(shè)對每個X(收入)的觀測值、Y(食物花費(fèi))的觀測值是隨化的。為了規(guī)范地描述這種情況,我們在模型中加上隨機(jī)“誤差”部分,并把模型寫成如下的 Y=+X
(3-其中Y是一個隨量,X是確定的或是非隨機(jī)的,而是隨機(jī)誤差項(xiàng),它的取值取決于一個基本的概率分布(因?yàn)槟P桶S機(jī)干擾項(xiàng),我們改用希臘字母表示直線的截距和斜率,即回歸參數(shù))。誤差項(xiàng)是由于各種因素的相互作用而產(chǎn)生的 。首先,由于模型是現(xiàn)實(shí)問題的一種簡化,因而會產(chǎn)生誤差。例如,我們假設(shè)一種產(chǎn)品的價(jià)格是其需求的唯一決定因素,而事實(shí)上好多與需求有關(guān)的因素都被忽略掉了,比如個人偏好、人口、收入及天氣,這些被忽略的因素都包含在誤差項(xiàng)中。如果那些省略掉的因素作用很小,誤差項(xiàng)是隨機(jī)的假設(shè)就是合理的。誤差的第二個來源與數(shù)據(jù)的收集和測量有關(guān)。經(jīng)濟(jì)和商業(yè)數(shù)據(jù)經(jīng)常是很難測量的,例如,有的公司可能不愿意提供有關(guān)成本的直接信息,因此無法獲得有關(guān)成本的準(zhǔn)確數(shù)據(jù)。由于誤差的這些來源,可以清楚地說明我們?yōu)槭裁磳⒌仁?3-1)中的關(guān)系處理為隨機(jī)的。對于X的每一個取值,都存在一個關(guān)于的概率分布,因此也存在一個關(guān)于Y的概率分布,正如圖3-1所示的那樣。第第3 一元線性回歸模圖3-1通過列出模型的重要假設(shè),我們現(xiàn)在可以完整地定義一元線性回圖3-1,X與Y之間的關(guān)系是線性的,誤差項(xiàng)的期望為0:E()=0對于所有觀測值,誤差項(xiàng)具有相同的方差,即E()=2。隨量i之間統(tǒng)計(jì)上是獨(dú)的,因此對所有的
i誤差項(xiàng)服從正態(tài)分布上述假設(shè)1~5構(gòu)成了古典線性回歸等式(3-1)經(jīng)常被稱為模型的確認(rèn)。注意我們假設(shè)的是Y依賴于X的變化而不是相反。另外,我們把模型的自變量限制為一個。每個X的值都是確定的,這個假設(shè)等價(jià)于假設(shè)每一個自變量都受研究者的控制,他可以根據(jù)試驗(yàn)?zāi)繕?biāo)的不同而改變自變量的值。在大多數(shù)商業(yè)和經(jīng)濟(jì)問題的研究中,這樣一個假設(shè)是不切實(shí)際的,是為了達(dá)到說明問題的目的而設(shè)的。i假設(shè)誤差的期望值為0的部分原因是為了方便。為了說明這一點(diǎn),假設(shè)被省略變量的平均作用等于',即E()=',則一元模型為:i其因此,如果誤差項(xiàng)的均值不0,原模型等價(jià)于新模型,而新模型的截距與原模型不同,新模型(),我們稱之為同方差;但如果方差不同,我們稱之誤差具有異方差。在研究某個行業(yè)公司截面數(shù)據(jù)的時候可能會出現(xiàn)異方差。我們有理由認(rèn)為大公司的誤差項(xiàng)具有較大的方差,而小公司的數(shù)據(jù)具有較小的方差。圖2-3表示異方差的兩種情況。在圖3-2a中,誤差項(xiàng)方差隨值的增加而減少;而在圖3-2b中,誤差的方差隨X值的增加而增加。t關(guān)于不同觀測值的誤差是獨(dú)立的因而也是不相關(guān)的假設(shè),無論在時間序列還是截面數(shù)據(jù)的研究中都是很重要的。當(dāng)來自于不同觀測值的誤差項(xiàng)相關(guān)時,我們稱這個誤差序列是序列相關(guān)的。圖3-3說明了在時間序列研究中正序列相關(guān)和負(fù)序列相關(guān)(X代表在時間t時X的取值)。負(fù)序列相關(guān)意味著這個時期的誤差如果是負(fù)的,下一時期的誤差一般是正的,反之亦然(如圖3-3a)。對于正的序列相關(guān)(如圖3-3b),這個時期的誤差為正的話,下一時期的誤差一般也為正。t作為假設(shè)2和3的推論,誤差項(xiàng)X與獨(dú)立,因此也是不相關(guān)的,這是因X是非隨機(jī)的假設(shè),在討論X為隨量的模型時,我們需要明確說明這個假設(shè)。另外,假設(shè)3能使我們得到任何樣第1部 回歸分析基 E()=E( i這是因?yàn)镋(0的假設(shè)意味著對應(yīng)于任何特定的X值的Y重復(fù)抽樣,其誤差的期望均應(yīng)等于0。固定X的值,然后從一個已知概率分布的總體中對誤差項(xiàng)抽取樣本,我們假設(shè)的是每一個這樣的誤差項(xiàng)樣本的期望值均為0。i圖3-2aa負(fù)序列相b)正序列相圖3-3在假設(shè)4中,我們說每個誤差都具有相同的方差。方差當(dāng)然是未知的參數(shù),并且必須作為回歸模型的一部分來進(jìn)行估計(jì)。因此這里所描述的回歸模型有三個未知參數(shù)1章中的曲線擬合模型只有兩個未知參數(shù)?;貧w模型的假設(shè)是用隨機(jī)干擾的形式給出的,我們也不難用Y3'.隨量Y的期望值為+4'.隨量Y具有同方i5'.隨量Y是獨(dú)立i為了對線性模型進(jìn)行統(tǒng)計(jì)檢驗(yàn),我們需要確定誤差項(xiàng)的概率分布。在古典正態(tài)線性回歸模型中,我們再加上假設(shè)6,即誤差項(xiàng)服從正態(tài)分布。這個假設(shè)對模型的統(tǒng)計(jì)檢驗(yàn)是很重要的。如果我們認(rèn)為每一個誤差很小而且相互獨(dú)立,正態(tài)分布的假設(shè)就是合理的。如果誤差項(xiàng) 服從正態(tài)分布,則Y也服從正態(tài)分布(因?yàn)閄是常數(shù),而服從正態(tài)分布) 為了研究參數(shù)最小二乘估計(jì)的特點(diǎn),回想最小二乘估計(jì)是由一組因變量和自變量的樣本得的,由于樣本會變化,估計(jì)值會變化,因此它是一個隨量。由于模型是隨機(jī)的,我們?和?表示回歸模型截距和斜率的公式(在和上加一個“帽子”表示估計(jì)值),但重要的是須清楚,采用這個符號有兩個目的:它既代表由某個特定樣本求出的估計(jì)值,也代表服從一個概率分布的估計(jì)量(一個對任何樣本均適用的公式)。我們希望普通最小二乘估計(jì)(OLS)是無偏的和一致的。實(shí)際上,普通最小二乘估計(jì)(不要求誤差值服從正態(tài)分布)的優(yōu)點(diǎn)是在所有線性(如式(3-1))無偏估計(jì)當(dāng)中,最小二乘估計(jì)量而得的估計(jì)量具有最小的方差,這是-馬爾可夫定理的基本結(jié)論。-馬爾可夫定理如果假設(shè)1~5成立,估計(jì)?和?是關(guān)于和的最佳(最有效的)線性無為了理解-馬爾可夫定理的作用,我們首先必須注意,由于?(及?)可記為Y的觀測值的平均,所以?(及?)是線性估計(jì)量。有很多可以用來估計(jì)截距和斜率的線性估計(jì)量,其中有一部分還是無偏的,但是?有一個額外的性質(zhì),即在所有線性無偏的估計(jì)量中,?布具有最小方差。尋找最佳線性無偏估計(jì)的任務(wù)將在本書中不斷出現(xiàn)。我們會發(fā)現(xiàn),如果高斯-馬爾可夫定理所要求的某個假設(shè)不成立的話,最小二乘估計(jì)量將不再是最佳線性無偏估計(jì)。到-馬爾可夫定理不能用于非線性估計(jì)量,這一點(diǎn)很重要。非線性估計(jì)量可以是無偏的,可以具有比最小二乘估計(jì)量更小的方差和平均平方誤差。這說明有時我們可以選擇“最佳線性無偏”以外的估計(jì)法,例如具有最小平均平方誤差的有偏非線性估計(jì)量就有很多有益的應(yīng)用。我們不想在這里對-馬爾可夫定理進(jìn)行證明(證明請見附錄4-3),但是我們要尋找最小 將等式(3-1)Y=+X+對N個觀測值相加再除以N,我 其中-表示誤差項(xiàng)的樣本均值。從等式(3-1)中減去等式(3-2)得
(3-或盡管E()=i
-的樣本卻-
(3-(3-0。只有推導(dǎo)與估計(jì)的偏差有關(guān)的結(jié)果時我們才用到等式(3-3)因此,為簡單起 假
=0,并將離差形式的模型(見第1章)寫為(3-(3-(3-真正的回歸直線為E(yi)xi。直線的斜率的估計(jì)為(3-由于是 量,?也是隨機(jī)的,所以確定?分布的性質(zhì)是很自然的。確定?分布性質(zhì)yiy具體步驟相對來講并不難,但是因?yàn)榭赡苡行┈?,我們把它放在附?-1中。證明主要依賴于一些附錄1-1和附錄2-1中所表述的與求和算子和期望算子有關(guān)的結(jié)果,同時也與古典線性回歸模型的假設(shè)有關(guān)。第一個結(jié)論是:E( (3-樣的X下,重復(fù)這個試驗(yàn),我們會獲得一組新的Y的觀測值(因?yàn)?,因而得到斜率的一練習(xí)3.10就是一個例子所以?一個無偏估計(jì)。 (3-7)(3-(3-所以?的方差完全依賴于誤差項(xiàng)的方差X的偏差平方和,以及觀測值的個數(shù)。另外,截距估計(jì)(3-(3-最后?和?之間的協(xié)方差(3-(3-有了關(guān)于最小二乘估計(jì)量的均值、方差和它們的協(xié)方差知識,我們就可以討論線性模型的統(tǒng)計(jì)檢驗(yàn)了。為此,我們需要假設(shè)6—誤差項(xiàng)服從正態(tài)分布。首先,由于?是y的平均,而y服從正態(tài)分布,所以估計(jì)量?也服從正態(tài)分布(獨(dú)立的正態(tài)分布的線性組合仍然服從正態(tài)分(3-(3-(3-布)。即使y從正態(tài)分布,由統(tǒng)計(jì)學(xué)中的中心極限定?的分布也會(在一定條件下)近似于正態(tài)分布。綜上所述,(3-(3-(3-注意?的方差與方差成正比,所以在其他條件不變的情況下,當(dāng)誤差項(xiàng)方差很小時,我們就有可能獲得比較精確的斜率估計(jì),但是,?的方差還與x2成反比,所以x的方差越大,對 的估計(jì)就可能越好。實(shí)際上,當(dāng)X的樣本數(shù)據(jù)都在一個很小的區(qū)間內(nèi)時,要精確地確定斜率很的當(dāng)X的均值恒等于0?的方差達(dá)到其最小值2/N。讀者還應(yīng)注意?和?協(xié)方差的符—X的符號相反。例如,如果X的均值為正,對?的高估很可能對應(yīng)于對?的低Xi我們的分析還沒有結(jié)束,因?yàn)槲覀冞€需要找到總體方差2的估計(jì)。用到以下的關(guān)于方差真值2的樣本估計(jì):i(3-(3-?=Y-?is2是誤差方差的無偏且一致的估計(jì)量(s,有時記為SER,叫做回歸標(biāo)準(zhǔn)差)N-2才能獲得方差真值的無偏估計(jì)。其原因是,當(dāng)有N個數(shù)據(jù)點(diǎn)時,斜率和截距的估計(jì)會給數(shù)據(jù)加上兩個約束條件,使得在估計(jì)殘差方差時還剩N-2N-2即自由度的個數(shù)。有了2的估計(jì),我們回到式(3-11)~(3-13),尋找參數(shù)估?和?的方差的樣本估計(jì)以及協(xié)粗略地講,中心極限定理說明,當(dāng)樣本容量無限增大時,獨(dú)立的隨量的樣本均值趨于正態(tài)分布。它??是y的線性組合。ii差的估計(jì)。它們的估計(jì)如下(3-(3-(3-S?和S?分別是系?和?的標(biāo)準(zhǔn)差,它們是估計(jì)值相對其均值的離散程度的度量(方差的樣本估計(jì)也如此)。它們與回歸標(biāo)準(zhǔn)差s相,s代表回歸直線誤差項(xiàng)的離散程度。類類似地,可用式(3-16)計(jì)算?的標(biāo)準(zhǔn)差為0.3688。假設(shè)誤差服從正態(tài)分布,則?服均值為0.12、標(biāo)準(zhǔn)差為0.026的正態(tài)分布,?服從均值為1.375、標(biāo)準(zhǔn)差為0.369的正態(tài)分i由于x2=162,容易計(jì)算?的標(biāo)準(zhǔn)差確定s2的計(jì)算如表3-1所示(原始數(shù)據(jù)請見表1-2)。在此例中,回歸標(biāo)準(zhǔn)差s等于0.33,表平均成績均值的11%(s與因變量均值的比值越低,回歸直線對數(shù)據(jù)擬合得就越好)再次考慮第1章中學(xué)生平均成績的例子。平均成績Y與家庭收入X之間的關(guān)系估計(jì)表3-1s學(xué)生平均成績例 學(xué)生平均成?和?的分布,就可以構(gòu)造回歸參數(shù)的置信區(qū)間,并對它們進(jìn)行假設(shè)檢驗(yàn)。置信區(qū)間是一個很可能包含回歸參數(shù)真值的區(qū)間,每個置信區(qū)間都對應(yīng)著一個統(tǒng)計(jì)顯著性水平。置信區(qū)1減去顯著性水平。置信區(qū)間對回歸參數(shù)估計(jì)的統(tǒng)計(jì)假設(shè)檢驗(yàn)非常有用。我們由一個原假設(shè)開始,通常它表示的是某個因素不存在。因?yàn)槲覀兺ǔOM敖邮堋蹦P停詷?gòu)造原假設(shè)的方法是使我們有可能它。為檢驗(yàn)?zāi)P偷男в?,設(shè)原假設(shè)為=0。我們希望通過得到顯著地不等于0的?值,從而有充分的理由懷疑=0的假設(shè),因而原假設(shè)。例如,假設(shè)?=0.9,如果我們選擇顯著性水平為10%,那么的90%的置信區(qū)0.6<這意味著處于區(qū)間0.6~1.2之間的概率為0.90。另外,它意味著我們可以90%的置信 的原假在假設(shè)檢驗(yàn)中,有必要確定一些有關(guān)和接受的規(guī)則。常用的規(guī)則是5%的顯著性水平,這個判別標(biāo)準(zhǔn)是,當(dāng)原假設(shè)為真時原假設(shè)的概率應(yīng)小于5%。顯著性水平的選擇依賴于兩類錯誤的相對重要性。古典計(jì)量經(jīng)濟(jì)學(xué)中的假設(shè)檢驗(yàn)幾乎只涉及到不正確地真實(shí)的原假設(shè)(第一類錯誤)。由于所確定的可檢驗(yàn)假設(shè)的性質(zhì),其備擇假設(shè)的定義經(jīng)常很不明確,使得人們很難判斷當(dāng)原假設(shè)實(shí)際上為假時接受原假設(shè)的概率(第二類錯誤)。因此,我們經(jīng)常說原假設(shè)以5%的顯著性水平被,而對是否接受備擇假設(shè)不加說明。在應(yīng)用計(jì)量經(jīng)濟(jì)學(xué)問題中,應(yīng)該仔細(xì)檢查用于檢驗(yàn)的統(tǒng)計(jì)量和系數(shù)的標(biāo)準(zhǔn)差。當(dāng)原假設(shè)被時,通常模型就會被接受,除非出現(xiàn)與結(jié)論相反的的信息。用于判斷是否接受模型的顯著性水平隨著研究者和所研究模型類型的不同會有很大差異。例如,用容量很大的樣本估計(jì)的模型可能使我們多個解釋變量的系數(shù)為0的原假設(shè)。所以,我們可以選擇采用比較小的顯著性水平,從而使原假設(shè)更加。回歸系有關(guān)回歸系數(shù)的統(tǒng)計(jì)假設(shè)檢驗(yàn)經(jīng)常用到t分布,這是由于在統(tǒng)計(jì)檢驗(yàn)中我們需要用到誤差項(xiàng)方差的樣本估計(jì)而不是它的真值。為了用t分布構(gòu)造參數(shù)估計(jì)的95%的置信區(qū)間,我們首將回歸參數(shù)估計(jì)如?,標(biāo)準(zhǔn)化,從中減去假設(shè)的真
,再除以它的標(biāo)準(zhǔn)差的估計(jì)。當(dāng)我慮原假設(shè)為=0或等價(jià)地,在一元線性模型中變量X和Y之間沒有關(guān)系時,上述過程最簡單。在這種情況下,t統(tǒng)計(jì)量為c如果這個t統(tǒng)計(jì)量的數(shù)值大于臨界值t,我們 原假設(shè)。當(dāng)大樣本且顯著性水平為5%ctc=1.96,經(jīng)常使用的經(jīng)驗(yàn)數(shù)值是t值為2或更大就可以原假設(shè)tc更一般地,我們可=的原假設(shè)。為了做到這一點(diǎn),我們計(jì)t統(tǒng)計(jì)量為
(3-N-N-確
也服從自由度N-2的t分布。對于顯著性水平為5%的檢驗(yàn),臨界值由下(3-(3-(3-(3-將等式(3-20)做一些小的調(diào)整得到 (3-21)由等式(3-21)我們得到的置信度為95%的置信區(qū)(3-(3-用類似的步驟,我們可以得到的95%的置信區(qū)間:(3-(3-只要t分布臨界值選擇得正確,就能對任一顯著性水平確定置信區(qū)間。未知參數(shù)的置信區(qū)(3-22)說明參數(shù)估計(jì)值兩側(cè)t倍標(biāo)準(zhǔn)差范圍所構(gòu)成的區(qū)間包含斜率真值的概率為0.95。cc有時,計(jì)量經(jīng)濟(jì)分析用pp值描述了一個計(jì)量經(jīng)濟(jì)結(jié)果的確切的顯著性水平,所以p值為0.07說明系數(shù)在0.07的水平上統(tǒng)計(jì)顯著(但不是在5%水平上)。在這種t分布的7%位于斜率參數(shù)估計(jì)兩側(cè)t倍標(biāo)準(zhǔn)差所構(gòu)成的區(qū)間之外。cc我們發(fā)我們發(fā)現(xiàn)0在的95%的置信區(qū)間之外,因此我們可以5%的顯著性水 =0的原設(shè)。同樣,我們可以發(fā)現(xiàn)計(jì)算出t的值(4.6)大于臨界值2.45,因此 原假設(shè)另0.06<或?yàn)榱藢W(xué)生平均成績例題中斜率的參數(shù)估計(jì)進(jìn)行檢驗(yàn),我們可以用例3-1最初tc則斜率參數(shù)估計(jì)的95%的置信區(qū)間例 (接上例)學(xué)生平均成假設(shè)我們希望建立一個一元線性模型來解釋總消費(fèi)支出C的值(單位:十億,已經(jīng)經(jīng)過季節(jié)調(diào)整)。我們采用個人可支配總收入Y(單位:十億,經(jīng)過季節(jié)調(diào)整)作為解釋變量。采用年第一季度到年第二季度的季度數(shù)據(jù)用C對Y進(jìn)行回歸,C=-27.53+0.93Y(4.45)(0.0018)本例中的截距-27.53在5%的水平上顯著(t統(tǒng)計(jì)值為-6.18(-27.53/4.45))。更重要的是,可支配收入系數(shù)的t統(tǒng)計(jì)值為517(0.93/0.0018)),很明顯我們要斜率為0的原假設(shè),而選擇斜率不為0的備擇假設(shè)。對原假設(shè)的使我們可以接受—至少是暫時接受—一元線性回歸模型。當(dāng)然,進(jìn)一步研究也許會讓我們發(fā)現(xiàn)比上述模型更好的總消費(fèi)支出模型。例 消費(fèi)支此例所用數(shù)據(jù)由Citibasedatabase提供。原始數(shù)據(jù)(GC和CYD)按年利率經(jīng)假設(shè)我們用一個假設(shè)我們用一個隨量來代替解釋變量Y(我們選擇來自于均值為50、方差為25的正態(tài)分布的隨量X)。我們期望(顯著性水平為5%時)20次中約有1次X變量的系數(shù)(續(xù)擬合優(yōu)偏差平回歸殘差是關(guān)于估計(jì)回歸直線與數(shù)據(jù)之間擬合程度的一個很有用的度量,一個好的回歸方程應(yīng)該是有助于解釋的大部分方差的方程。殘差大說明擬合得不好,而殘差小說明擬合得好。用殘差作為擬合優(yōu)度度量的問題是,它的取值依賴于因變量的單位。為了尋找一個無量綱的量偏差平我們的目標(biāo)是將Y的偏差平方和分為兩部分,第一部分是能被回歸方程解釋的,其次是模型解釋不了的部分(誤差項(xiàng))。首先假設(shè)已知線性回歸模型的斜率為0,我們只需要用截距來進(jìn)行擬合,則對任一i,Yi的最佳預(yù)測是Y的樣本均值:在這一特殊情況下,我們可以得到結(jié)論Y的偏差平方和等于觀測值Y與預(yù)?—的偏Y 方和當(dāng)斜率不為0時,我們可以利用Y依賴于X的關(guān)系改進(jìn)預(yù)測 這個新增加的信息會減少Y的偏差平方和中不可解釋的部分。為了說明這一點(diǎn),考慮下面的恒(3-(3-i等號左邊代表樣本觀測值Y與Y的均值之差,右邊第一項(xiàng)為殘差?,右邊第二項(xiàng)是Y的預(yù)測值與i的均值之差。請見圖3-4為了計(jì)算偏差平方和,等式(3-24)兩邊同時平方,且對i=1,2,?,N的所有觀測值和(3-(3-用最小二乘殘差的兩個性質(zhì)?=0和?X=0,可以證明等式(3-25)的最后一項(xiàng)等于0。所有 i見附錄3-2。因此得到Y(jié)的總變 Y的剩余 Y的可解(或總偏 差(或誤 變差(或平方和 平方和 歸平方和 (3-為了標(biāo)準(zhǔn)化,等式(3-26)等式兩邊同時除以總偏差平方和,得到我們定義回歸方程的R平方(R2)為R2是Y的總變差中,Y對X的回歸方程所能解平方和(ESS)的值在0到總偏差平方和之間容易看出R2值在0~1之間。當(dāng)回歸方程,不能解釋的Y變差時R2為0。如果Y的值隨,—圓圈時(圖3-5b),就可能發(fā)生這種情況。只有當(dāng)所有的樣本點(diǎn)都在回歸直線上時,
圖3-4Y
(3-b)圖3-5度量i為了將R2與本章前面的回歸參數(shù)估計(jì)聯(lián)系起來,y的預(yù)測值寫為:i其中?為回歸殘差。i由由因或(3-式(3-28)計(jì)算R2的一個簡單公注意R2只是一個描述性統(tǒng)計(jì)量。粗略地說,我們認(rèn)為R2的值高則回歸直線擬合得好,R2的值低則回歸直線擬合得不好。但是須,有幾個原因會造成較低的R2值。在有些情況下X可能不是一個好的解釋變量。即使我們有理由相信X確實(shí)對預(yù)測Y有所幫助,但是X包括在方程中之后,Y的不可解釋的變差依然存在。而在時間序列分析中,人們經(jīng)常會得到高的R2值,這是因?yàn)槿魏坞S時間增長的變量都有可能很好地解釋另一個隨時間增長的變量。相反,2的值仍可能較低,其原因是各個觀測值之間存在。有時用方差分析表的方法來概括總結(jié)Y的總偏差平方和的分解是很有用的。在方差分析表中,已被解釋的和未被解釋的變差除以相應(yīng)的自由度的個數(shù)即變?yōu)榉讲?。所以,Y的變差是Y的總偏差平方和除以N-1,被解釋的方差等于被解釋的變差(因?yàn)榛豗的均值多用一個約束條件),殘差方差等于殘差偏差平方和除以N-2。相因?yàn)镽2在分析因變量Y和自變量X之間因果關(guān)系的模型時很有價(jià)值,所以我們認(rèn)為R2不僅是一個衡量兩個變量之間相關(guān)程度的量。相關(guān)不隱含有關(guān)因果關(guān)系的假設(shè),而回歸則包含因果關(guān)系的假設(shè)。在第1章我們看到選擇模型中因變量和自變量的選擇是至關(guān)重要的。因變量是被解釋的變量,而自變量是造成因變量變化的原因。只有在分析數(shù)據(jù)之前就已確定了模型的因果關(guān)系時最小二乘法才是合適的。如果確定了模型Y=+X,回歸斜率的t統(tǒng)計(jì)值顯著就可以作為確t統(tǒng)計(jì)值意味著方程無效。舉例說明相關(guān)但不存在因果關(guān)系的情形:假設(shè)我們有一組來自一項(xiàng)關(guān)于19世紀(jì)非洲醫(yī)學(xué)研究的時間序列數(shù)據(jù),我們可能會發(fā)現(xiàn)某地區(qū)的醫(yī)生數(shù)與該地區(qū)疾病流行程度之間存在高度相關(guān)的關(guān)系,但由此推斷醫(yī)生的出現(xiàn)造成了疾病的流行是錯誤的。所以由高度相關(guān)并不能推斷因果關(guān)系的存在。人們必須預(yù)先(根據(jù)以前的信息)確定某地區(qū)醫(yī)生數(shù)是疾病流行程度的函數(shù),并在回歸正確的條件下對是否存在這樣的關(guān)系進(jìn)行統(tǒng)計(jì)檢驗(yàn)。相關(guān)技術(shù)經(jīng)常用于提出假設(shè)或證實(shí)以前猜想:只要人們不是直接地從數(shù)據(jù)中推斷因果關(guān)系,上述的做法就都是可以接受的。在經(jīng)濟(jì)、商業(yè)和其他領(lǐng)域的很多情形下,兩個變量高度相關(guān),但是它們都受第三個潛在變量的影響。在這種情況下,那個潛在的變量應(yīng)當(dāng)在回歸模型中作為自變量出現(xiàn)。不正確的因果關(guān)系對回歸模型的斜率參數(shù)會有什么影響?讓我們來比較下列兩個回歸模型的斜率參數(shù)。b和B的最小二乘估計(jì)只有b?=1/B?或等價(jià)地R2=1時,這兩個斜率才會X與Y的變動關(guān)系做出同樣的結(jié)(見練習(xí)3.4)。檢驗(yàn)回歸方被解釋未被解釋的變將Y的總變差分解為兩部分的做法使我們能夠?qū)與X之間是否存性關(guān)系進(jìn)被解釋未被解釋的變這說明2本身也許不合適作為說明模型是否令人滿意的量。更好的總的度量也許是說明模型對新數(shù)據(jù)預(yù)測能力的統(tǒng)計(jì)量。自由度個數(shù)是觀測值個數(shù)減去約束條件的個數(shù)。因?yàn)橛?jì)算數(shù)據(jù)與樣本均值它也必須用數(shù)據(jù)來計(jì)算)時對數(shù)據(jù)有一個約束條件,所以Y的偏差平方和的自由度為N1。在計(jì)算斜率參數(shù)時,又用掉了一個自由。1,N-1,N- 在其他條件不變的情況下,我們認(rèn)為X與Y之間很強(qiáng)的統(tǒng)計(jì)關(guān)系會導(dǎo)致被解釋變差和未被解釋變差的比值很大。因?yàn)镕服從自由度為1和N-2的F分布,可以直接用它做檢驗(yàn)F的下標(biāo)分別代表分子和分母的自由度。只有被解釋的回歸變差為0時,F(xiàn)統(tǒng)計(jì)量的值才等于0。人們可以這樣判斷:F值小意味著X與Y之間(線性)關(guān)系很弱,而F值大意味著(線性)關(guān)系很強(qiáng),所幸F統(tǒng)計(jì)量的數(shù)字分布是已知的(見書后關(guān)于F分布的附表4)。例如,我們可以通過尋找自由度為1和N-2的F分布的(顯著性水平為5%的)臨界值,以5%的顯著性水平X與Y之間沒有相關(guān)關(guān)系的原假設(shè)。如果回歸方程的F的值大于臨界值,我們以5%的顯著性水平原假設(shè)。如果F的值小于臨界1,N-1,N- 在檢驗(yàn)=0的原假設(shè)時,F(xiàn)檢驗(yàn)與t檢驗(yàn)有密切的關(guān)系,實(shí)際上,對于任一顯著性水平,有F 。在這里介紹F檢驗(yàn)是因?yàn)樗鼘τ诼?lián)合假設(shè)檢驗(yàn)是很有用的,其中包括多元線性回1,N-2N-方程的顯著性例 汽車零售有人曾經(jīng)研究過汽車零售額(因變量)和收入總水平(自變量)之間的關(guān)系。人們認(rèn)S=+其中S是從1959年第1季度~1995年第2季度的汽車零售額(單位:十億),W是同時期的季度工資(以十億為單位)。擬合回歸直線如下式所列。 常數(shù)項(xiàng)為正(代表截距項(xiàng))說明若某季度沒有工資收入,人們?nèi)匀粫?。工資變量的系數(shù)可解釋為每增加十億的工資會導(dǎo)致汽車銷售額增長0.308億。(這個模型可用于在已知未來工資水平下,預(yù)測汽車未來的銷售水平)。注意,斜率系數(shù)被看作是自變量的微小變動所引起的因變量的變化量(實(shí)際 性模型中,適于所有的W)。系數(shù)的估計(jì)不是無量綱的,它們的值直接與因變量S(以十億為單位)和自變量W(以十億為單位)的度量單位有關(guān)。在此例中,我們在括號中寫出t統(tǒng)為1378使我們可以汽車零售額與工資沒有關(guān)系的原假設(shè)(在1%的水平下)。盡管已經(jīng)了截距為零的原假設(shè),但是如果我們有充分的理由相信汽車零售額與工資的關(guān)系圖應(yīng)該通過原點(diǎn),那么進(jìn)行一次無截距的回歸是很自然的事。用同樣的樣本回歸結(jié)果如下:盡管t統(tǒng)計(jì)量使我們了原假設(shè),去掉顯著的截距項(xiàng)降低了方程解釋功能。所以 采用帶有截距項(xiàng)的回歸方程。只有在有充分理由認(rèn)為方程通過原點(diǎn)時,才能夠讓截距等于0。 新車支出 AN)和收入總水平(GWY) 第1部 回歸分析基著著性水 原假設(shè)由R2為0.78使我們能夠得到家庭收入變量可以解釋由8變差的%的結(jié)論。F統(tǒng)計(jì)量使我們可以對學(xué)生平均成績與家庭收入之間沒有關(guān)系的原假設(shè)進(jìn)行檢驗(yàn)。為了做到這一點(diǎn),我們以顯著性水平為5%以及分子和分母自由度分別為1和6的F分布表來確定臨界值(分子的自由度為1是因?yàn)槟P椭话?個解釋變量,而分母的自由度為6是因?yàn)橛?個觀測值和2個需要估計(jì)的參數(shù)),此例中,顯著性水平為5%的F分布的臨界值為5.99。由于計(jì)算出的F值為21.57,大于臨界值,我們以5%的F我們計(jì)算如下例 學(xué)生平均成績問題(例例 公立和私立學(xué)校的入學(xué)人在2.6節(jié)中,我們描述了2個變量,分別是 各州高等教育中每 進(jìn)入公立(PUBLIC)和私立(PRITE)學(xué)校人數(shù)的水平。 最早的大學(xué)是東部的私立學(xué)校,公立學(xué)校以后才繁榮起來,隨后公立學(xué)校在 西部發(fā)展很快。有趣的是,私立學(xué)校注冊人數(shù)高的州與 人數(shù)低的州相比,其公共教育系統(tǒng)的發(fā)展不如后者快。下列截可以分說這個系,個回模型是50個州公立學(xué)人數(shù)對私立入學(xué)人數(shù)的回歸:公立和私立人數(shù)之間有一個統(tǒng)計(jì)上顯著的負(fù)相關(guān)關(guān)系。這個回歸方程說明一個州的私立人數(shù)每增長1個單位(每)該公立人數(shù)就下降半個單位。t為-3.47及F統(tǒng)計(jì)值為12.04都說明負(fù)的PRITE的系數(shù)與0在5%的顯著性水平下有顯著差別。為了進(jìn)一步評價(jià)一元回歸模型的有效性,在圖3-6中我們畫出了殘差的直方圖。由于最小二乘的殘差和等于0,殘差以0為中心是很自然的。但其他與殘差的分布有關(guān)的中位 最小 -最大 標(biāo)準(zhǔn) 偏 峰 Jarque- ,,人每 的均值為39.3,從這個角,,人每殘差由-15.4~19.6是相當(dāng)
圖-6最后我們會問誤差服從正態(tài)分布這一假設(shè)是否合理。殘差的形式提供了有 峰度2.79稍低于3.00,說明分布的尾端比正態(tài)分布稍細(xì)。最后,Jarque-Bera統(tǒng)計(jì)量0.47大大小于自由度為2的2分布的臨界值5.99。因此我們不能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度金融衍生品交易提前終止合同申請書
- 2025年度高新技術(shù)企業(yè)發(fā)展貸款擔(dān)保合同
- 原材料采購模式協(xié)議
- 二零二五年度房屋租賃市場動態(tài)監(jiān)控合同
- 二零二五年度商標(biāo)許可使用期限及續(xù)約合同
- 大貨車掛靠公司2025年度車輛運(yùn)輸合同及車輛調(diào)度管理協(xié)議
- 二零二五年度公司與會計(jì)簽訂的企業(yè)財(cái)務(wù)報(bào)表編制與審核合同
- 二零二五年度智能家居設(shè)備使用免責(zé)協(xié)議范本
- 傳媒與傳播素養(yǎng)培訓(xùn)協(xié)議
- 二零二五年度事業(yè)單位網(wǎng)絡(luò)安全管理人員聘用合同
- 新統(tǒng)編版五年級下冊道德與法治全冊課時練一課一練(同步練習(xí))(含答案)
- 法律方法階梯PPT課件
- 計(jì)算機(jī)2級二級浙江旅游概述
- 《色彩基礎(chǔ)知識》PPT課件(完整版)
- 故事我把媽媽弄丟了ppt課件
- NACE產(chǎn)品金屬材料要求
- 布朗德戰(zhàn)略導(dǎo)向的薪酬管理體系
- 食品經(jīng)營餐飲操作流程(共1頁)
- 中儲糧購銷電子交易平臺成交合同
- SL/T212-2020 水工預(yù)應(yīng)力錨固技術(shù)規(guī)范_(高清-有效)
- 河北省省直行政事業(yè)單位資產(chǎn)(房屋)租賃合同書(共7頁)
評論
0/150
提交評論