版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
§2.3一元線性回歸模型的統(tǒng)計檢驗
回歸分析是要通過樣本所估計的參數(shù)來代替總體的真實參數(shù),或者說是用樣本問歸線代
替總體回歸線。盡管從統(tǒng)計性質(zhì)上已知,如果有足夠多的重復(fù)抽樣,參數(shù)的估計值的期望(均
值)就等于其總體的參數(shù)真值,但在一次抽樣中,估計值不一定就等于該真值。那么,在一
次抽樣中,參數(shù)的估計值與真值的差異有多大,是否顯著,這就需要進(jìn)一步進(jìn)行統(tǒng)計檢驗。
主要包括擬合優(yōu)度檢驗、變量的顯著性檢驗及參數(shù)的區(qū)間估計。
一、擬合優(yōu)度檢驗
擬合優(yōu)度檢驗,顧名思義,是檢驗?zāi)P蛯颖居^測值的擬合程度。檢驗的方法,是構(gòu)
造一個可以表征擬合程度的指標(biāo),在這里稱為統(tǒng)計量,統(tǒng)計量是樣本的函數(shù)。從檢驗對象中
計算出該統(tǒng)計量的數(shù)值,然后與某一標(biāo)準(zhǔn)進(jìn)行比較,得出檢驗結(jié)論。有人也許會問,采用普
通最小二乘估計方法,已經(jīng)保證了模型最好地擬合了樣在觀測值,為什么還要檢驗擬合程度?
問題在于,在一個特定的條件下做得最好的并不一定就巨高質(zhì)量的。普通最小二乘法所保證
的最好擬合,是同一個問題內(nèi)部的比較,擬合優(yōu)度檢驗結(jié)果所表示優(yōu)劣是不同問題之間的比
較。例如圖2.3.1和圖2.3.2中的直線方程都是由散點表示的樣本觀測值的最小二乘估計結(jié)果,
對于每個問題它們都滿足殘差的平方和最小,但是二者對樣本觀測值的擬合程度顯然是不同
的。
1、總離差平方和的分解
已知由一組樣本觀測值(X,,匕),z=l,2-,n得到如下樣本回歸直線
/=一+/因
而y的第,個觀測值與樣本均值的離差=(匕-『)可分解為兩部分之和:
yi=Yi-Y=(Yi-Yi^ai-Y)=ei^-yi(231)
圖233示出了這種分解,其中,少=(/一產(chǎn))是樣本回歸直線理論值(回歸擬合道)與
觀測值匕的平均值之差,可認(rèn)為是由回歸直線解釋的部分;生二(匕一R)是實際觀測值與
【可歸擬合值之差,是回歸直線不能解釋的部分。顯然,如果匕落在樣本回歸線上,則丫的
第i個觀測值與樣本均值的離差,全部來自樣本回歸擬合值與樣本均值的離差,即完全可由
樣本回歸線解釋。表明在該點處實現(xiàn)完全擬合。
圖2.3.3
對于所有樣本點,則需考慮這些點與樣本均值離差的平方和。由于
Zy;=Z%+Z片+2^
可以證明2少,=0,所以有
(232)
記(X—P)2=75S,稱為總離差平方和(TotalSumofSquares),反映樣本
觀測值總體離差的大??;=工(/-Y)2=ESS,稱為回歸平方和(ExplainedSumof
Squares),反映由模型中解釋變量所解釋的那部分離差的大??;
=Z(匕—g)2=RSS,稱為殘差平方和(ResidualSumofSquares)>反映樣本觀
測值與估計值偏離的大小,也是模型中解釋變量未解釋的那部分離差的大小。
(2.3.2)表明y的觀測值圍繞其均值的總離差平方和可分解為兩部分,一部分來自回歸
線,另一部分則來自隨機(jī)勢力。因此,可用來自回歸線的回歸平方和占Y的總離差的平方
和的比例來判斷樣本回歸線與樣本觀測值的擬合優(yōu)度。
讀者也許會問,既然RSS反映樣本觀測值與估計值偏離的大小,可否直接用它作為擬
合優(yōu)度檢驗的統(tǒng)計量?這里提出了一個普遍的問題,即作為檢驗統(tǒng)計量的一般應(yīng)該是相對量,
而不能用絕對最。因為用絕對量作為檢驗統(tǒng)計量,無法設(shè)置標(biāo)準(zhǔn)。在這里,RSS,即殘差
平方和,與樣本容量關(guān)系根大,當(dāng)n比較小時,它的值也較小,但不能因此而判斷模型的擬
合優(yōu)度就好。
2、可決系數(shù)R?統(tǒng)計量
根據(jù)上述關(guān)系,可以用
2ESS,RSS
=-----=1--------(2.3.3)
TSS
檢驗?zāi)P偷臄M合優(yōu)度,稱改為可決系數(shù)(coefficientofdetemiination)。顯然,在總離差平
方和中,回歸平方和所占的比重越大,殘差平方和所占的比重越小,則回歸直線與樣本點擬
合得越好。如果模型與樣本觀測值完全擬合,則有當(dāng)然,模型與樣本觀測值完全
擬合的情況是不可能發(fā)生的,我不可能等于lo但亳無疑問的是該統(tǒng)計量越接近于1,模型
的擬合優(yōu)度越高。
在實際計算可決系數(shù)時,在次已經(jīng)估計出后,一個較為簡單的計算公式為:
這里用到了樣本回歸函數(shù)的離差形式來計算回歸平方和:
ESS=£%=£(及
在例2.L1的收入-消費支出例中,
說明在線性回歸模型中,家庭消費支出總變差(variation)中,由家庭可支配收入的變差解
釋的部分占97.66%,模型的擬合優(yōu)度較高。
由(2.3.3)知,可決系數(shù)的取值范圍為是一個非負(fù)的統(tǒng)計量。它也是隨著
抽樣的不問而不問,即是隨抽樣而變動的統(tǒng)計量。為此,對可決系數(shù)的統(tǒng)計可靠性也應(yīng)進(jìn)行
檢驗,這將在第3章中進(jìn)行。
二、變量的顯著性檢驗
變量的顯著性檢驗,旨在對模型中被解釋變量與解釋變量之間的線性關(guān)系是否顯著成
立作出推斷,或者說考察所選擇的解釋變量是否對被解釋變量有顯著的線性影響。
從上面的擬合優(yōu)度檢撿中可以看出,擬合優(yōu)度高,則解釋變量對被解釋變量的解釋程度
就高,線性影響就強(qiáng),可以推測模型線性關(guān)系成立;反之,就不成立。但這只是一個模糊的
推測,不能給出一個統(tǒng)計上的嚴(yán)格的結(jié)論。因此,還必須進(jìn)行變量的顯著性檢驗。變量的顯
著性檢驗所應(yīng)用的方法是數(shù)理統(tǒng)計學(xué)中假設(shè)檢驗。
1、假設(shè)檢驗
假設(shè)檢驗是統(tǒng)計推斷的一個主要內(nèi)容,它的基本任務(wù)是根據(jù)樣本所提供的信息,對未
知總體分布的某些方面的假設(shè)作出合理的判斷。
假設(shè)檢驗的程序是,先根據(jù)實際問題的要求提出一個論斷,稱為統(tǒng)計假設(shè),記為H();
然后根據(jù)樣本的有關(guān)信息,對”。的真?zhèn)芜M(jìn)行判斷,作出拒絕H?;蚪邮堋啊愕臎Q策。
布是雙尾分布,所以按照a/2查Z分布表中的臨界值。亍是
1|>與(-2)
(這里的/已不同于(2.3.5)式,其中4=0)為原假設(shè)"o下的一個小概率事件。在參數(shù)估
計完成后,可以很容易計算,的數(shù)值。如果發(fā)生了|/|>乙(〃-2),則在(1一夕)的置信度下
拒絕原假設(shè)“。,即變量X是顯著的,通過變量顯著性檢驗。如果未發(fā)生|,|>乙(〃-2),
2
則在(1一。)置信度下接受原假設(shè)“。,即變量X是不顯著的,未通過變量顯著性檢驗。
對于一元線性回歸方程中的A,可構(gòu)造如下t統(tǒng)計量進(jìn)行顯著性檢驗:
瓦-=A一仇
(2.3.6)
軻S禽
同樣地,該統(tǒng)計量服從自由度為(〃-2)的/分布,檢驗的原假設(shè)一般仍為為二0。
在例2.1.1及例2.2.1的收入-消費支出例中,首先計算b?的估計值
2
-2厭ZX4590020-0.777x74250(H).n.
(7=-------=----------------------------=-----------------------------------------------=134UZ
n-2n-210-2
于是瓦和A的標(biāo)準(zhǔn)差的估計值分別是:
S4=獷/£.=713402/7425000=Vo.0018=0.0425
S%=713402x53650000710x7425000=98.41
t統(tǒng)計量的計算結(jié)果分別為:
4=8\聞、=0.777/0.0425=18.29
t0=瓦做=-103.17/98.41=-1.048
給定一個顯著性水平a=0.05,杳/分布表中自由度為8(在這個例中(〃-2)=8)、a=0.05
的臨界值,得到/8)=2.306。可見聞》〃(〃—2),說明解釋變量家庭可支配收入在95%
2
的置信度下顯著,即通過了變量顯著性檢驗。但Ko|<,aS—2),表明在95%的置信度下,無
2
法拒絕截距項為零的假設(shè),
三、參數(shù)的置信區(qū)間
假設(shè)檢驗可以通過一次抽樣的結(jié)果檢驗總體參數(shù)可能的假設(shè)值的范圍(最常用的假設(shè)為
總體參數(shù)值為零),但它并沒有指出在一次抽樣中樣本參數(shù)值到底離總體參數(shù)的真值有多
“近,要判斷樣本參數(shù)的估計值在多大程度上可以“近似”地替代總體參數(shù)的真值,往往
需要通過構(gòu)造一個以樣本參數(shù)的估計值為中心的“區(qū)間”,來考察它以多大的可能性(概率)
包含著真實的參數(shù)值。這種方法就是參數(shù)檢驗的置信區(qū)間估計。
要判斷估計的參數(shù)值A(chǔ)離真實的參數(shù)值四有多“近”,可預(yù)先選擇一個概率
tz(O<a<\),并求一個正數(shù)3,使得隨機(jī)區(qū)間(randominterval)(區(qū)—5,R+3)包含
參數(shù)g的真值的概率為1-a。即:
-建力<2+6)=1-二
如果存在這樣一個區(qū)間,稱之為置信區(qū)間(confidenceinterval);l-a稱為置信系數(shù)(置
信度)(confidencecoefficient),a稱為顯著性水平(levelofsignificance);置信區(qū)間的端點
稱為置信限(confidencelimit)或臨界值(criticalvalues)?
在變量的顯著性檢驗中已經(jīng)知道:
P.-P.
t=----t-(n--2)z=O,l
4
這就是說,如果給定置信度從/分布表中查得自由度為5-2)的臨界值Q,那么
2
,值處在(一的概率是(1一々)。表示為:
P{-ta<t<t^=\-a
即
P(—L=
4
24一Lx%<,?<4+七x,9)=1-a
2Pt2M
于是得到(1-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年牛津譯林版七年級地理下冊階段測試試卷含答案
- 二零二五年度互聯(lián)網(wǎng)企業(yè)股權(quán)轉(zhuǎn)讓委托代理合同3篇
- 2025年滬科版九年級數(shù)學(xué)上冊月考試卷含答案
- 2024幼兒園廚師聘用合同:幼兒膳食安全與服務(wù)質(zhì)量協(xié)議3篇
- 2025年度知識產(chǎn)權(quán)質(zhì)押委托貸款合同3篇
- 2024年貴州工業(yè)職業(yè)技術(shù)學(xué)院高職單招語文歷年參考題庫含答案解析
- 2025年華師大版八年級科學(xué)上冊階段測試試卷
- 二零二五版人工智能醫(yī)療診斷系統(tǒng)研發(fā)與應(yīng)用合同3篇
- 2025年人教版(2024)選修4地理下冊階段測試試卷
- 2025年度二零二五年度個人小額貸款擔(dān)保合同范本2篇
- Unity3D游戲開發(fā)PPT完整全套教學(xué)課件
- 玻璃安裝應(yīng)急預(yù)案
- 道德與法治中考一輪總復(fù)習(xí)課件 課時8 走向未來的少年 (九下第三單元)
- 五十音圖+あ行+課件【高效備課精研+知識精講提升】 初中日語人教版第一冊
- 工程影像記錄表
- 責(zé)任成本分析模板
- 醫(yī)療安全隱患排查登記表
- 現(xiàn)場制氮作業(yè)方案及技術(shù)措施
- JJG(建材) 107-1999 透氣法比表面積儀檢定規(guī)程-(高清現(xiàn)行)
- 員工入職登記表(標(biāo)準(zhǔn)模版)
- 柴油發(fā)電機(jī)施工方案33709
評論
0/150
提交評論