版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
現(xiàn)代回歸分析方法上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)系韓小亮第一頁(yè),共一百七十九頁(yè)。目的:
回歸分析研究的是一個(gè)變量(應(yīng)變量)和其他變 量(自變量)之間的關(guān)系.其目的可能是:1.確定哪些變量有關(guān)及其程度;2.預(yù)測(cè);3.找出最優(yōu)的組合;4.控制;5.尋求合適的數(shù)學(xué)模型;6.評(píng)估兩個(gè)或兩個(gè)以上因素的交互影響等等.
1.回歸分析(RegressionAnalysis)第二頁(yè),共一百七十九頁(yè)。
數(shù)據(jù)資料(data)
應(yīng)變量(response)自變量(independentvariables,predictorvariables)這里n
是記錄數(shù)目,k
是自變量數(shù)目(包括常數(shù)項(xiàng)).第三頁(yè),共一百七十九頁(yè)?;灸P?
第四頁(yè),共一百七十九頁(yè)。2.線性回歸(LinearRegression)模型:
Y=X+
這里X是Z
的函數(shù)(已知),
是未知參數(shù)向量,是誤差項(xiàng)第五頁(yè),共一百七十九頁(yè)。
也就是說
有
第六頁(yè),共一百七十九頁(yè)。線性模型的假設(shè):
1.正態(tài)分布;2.互相獨(dú)立;3.同方差;4.一個(gè)隨機(jī)誤差項(xiàng);5.系統(tǒng)影響的相加性(additivityofsystematiceffects);6.資料完整.第七頁(yè),共一百七十九頁(yè)。參數(shù)估計(jì)():
最小二乘估計(jì)
→ 有 (注意:這里沒有用到正態(tài)分布的假定)第八頁(yè),共一百七十九頁(yè)。極大似然估計(jì)
這里在正態(tài)分布的假定下
這個(gè)估計(jì)是所謂BLUE的.第九頁(yè),共一百七十九頁(yè)。估計(jì)量的分布第十頁(yè),共一百七十九頁(yè)。殘差平方和的分布
→ 方差的估計(jì):
(矩估計(jì))第十一頁(yè),共一百七十九頁(yè)。顯著性
1。模型的顯著性,即檢驗(yàn)假設(shè)
使用統(tǒng)計(jì)量
當(dāng)
為真時(shí)
第十二頁(yè),共一百七十九頁(yè)。
2。某個(gè)因素的顯著性,即檢驗(yàn)假設(shè)
定義對(duì)稱方陣
設(shè)為其對(duì)角元素,則有檢驗(yàn)統(tǒng)計(jì)量 當(dāng)成立時(shí)
第十三頁(yè),共一百七十九頁(yè)。模型選擇(變量數(shù)目)
當(dāng)兩個(gè)模型有嵌套的(nested)關(guān)系時(shí),可以用下述F檢驗(yàn)來(lái)決定取舍模型1:模型2:當(dāng)為真時(shí)
這里是回歸平方和,是殘差平方和.第十四頁(yè),共一百七十九頁(yè)。方差分析表
第十五頁(yè),共一百七十九頁(yè)。擬合優(yōu)度確定系數(shù):R2statistic:
R2c(adjustR2):
第十六頁(yè),共一百七十九頁(yè)。UnderH0:1
=
2
=…=p-1=0
(testR2exactlyequivalenttoFtest)第十七頁(yè),共一百七十九頁(yè)。應(yīng)變量的變換
(transformationofresponse)
目的: 1。正態(tài)分布(對(duì)稱);2。同方差;3。相加性。第十八頁(yè),共一百七十九頁(yè)。異方差或者不獨(dú)立
加權(quán)最小二乘估計(jì):假如
Y=X+
~N(0,2V)
而且V
已知,則存在滿秩對(duì)稱矩陣P
PTP=PP=P2=V
且有P-1
~N(0,2In)即
P-1Y|X~N(P-1
X,2In)第十九頁(yè),共一百七十九頁(yè)。對(duì)P-1Y=P-1
X+P-1
取最小二乘估計(jì),得
^=(XTV-1X)-1XTV-1Y
稱之為加權(quán)最小二乘估計(jì)(weightedleastsquareestimator)
有
^~N(,2(XTV-1X)-1)第二十頁(yè),共一百七十九頁(yè)。3.共線性
(Multicollinearity,collinearity)這里主要討論“幾乎”共線性,順便也討論一下精確的共線性
第二十一頁(yè),共一百七十九頁(yè)。定義:自變量之間存在強(qiáng)烈的線性關(guān)系。 精確地說,存在使
或
對(duì)至少一個(gè)
k成立.
第二十二頁(yè),共一百七十九頁(yè)。跡象:XTX至少有一個(gè)很小的特征值(≈0)
注意:λj≥0forj=1,2,…,p(這里λj
是XTX的特征值).第二十三頁(yè),共一百七十九頁(yè)。影響:典型的影響是使參數(shù)估計(jì)的方差增大從而使整個(gè)估計(jì)不精確.
總的說來(lái):Var(^)=2(XTX)-1
具體地說:Var(^j)=forj=0,1,…,p-1第二十四頁(yè),共一百七十九頁(yè)。這里
R2j
是即其它自變量對(duì)自變量j回歸的確定系數(shù).
第二十五頁(yè),共一百七十九頁(yè)。線性回歸的理想要求是:Y對(duì)X有很強(qiáng)的線性關(guān)系,而X之間有較弱的線性關(guān)系.
第二十六頁(yè),共一百七十九頁(yè)。共線性的測(cè)度
(1)
VIF(varianceinflationfactor)
VIFj=1/(1-R2j)forj=0,1,2,…,p-1.
當(dāng)max(VIFj)≥10時(shí),有共線性問題(這是經(jīng)驗(yàn)公式,無(wú)精確理論基礎(chǔ))
第二十七頁(yè),共一百七十九頁(yè)。注意:VIF0≡1/(1-R20)其對(duì)應(yīng)模型是此模型右邊無(wú)常數(shù)項(xiàng).第二十八頁(yè),共一百七十九頁(yè)。(2)
ConditionNumber
這里λ(j)是按大小排列的矩陣XTX的特征值.當(dāng)κ>1000時(shí),可能有嚴(yán)重的共線性問題.第二十九頁(yè),共一百七十九頁(yè)。(3)
ConditionIndex
forj=2,3,…,p
ConditionIndex能發(fā)現(xiàn)多于一個(gè)的共線性關(guān)系.經(jīng)驗(yàn)公式:列出所有的κj≥100.第三十頁(yè),共一百七十九頁(yè)。解決方法
(1)
從模型中除去一些變量(例如對(duì)應(yīng)于比較大的VIFj的Xj).
這個(gè)問題與變量選擇和模型確定的方法有關(guān);
如果βj≠0,則剔除βj會(huì)導(dǎo)致,即最小二乘估計(jì)成為有偏估計(jì).第三十一頁(yè),共一百七十九頁(yè)。(2)
主成分回歸(PrincipalComponentRegression)
Y=X+=X(UUT)+=(XU)(UT)+≡Gα+
這里U
是XTX
的特征向量矩陣(XTX=UΛUT);
G=XU(G稱為主成分principalcomponent) α=UT第三十二頁(yè),共一百七十九頁(yè)。這時(shí)α
的LS估計(jì)是
α^=(GTG)-1GTY=Λ-1GTY→β^=Uα^
如果把G去掉(p-r)列(比如說對(duì)應(yīng)于較小的λi),記為G(r),G(r)=XU(r),
取α~=(GT(r)
G(r))-1GT(r)
Yβ~=U(r)α~=U(GT(r)
G(r))-1GT(r)
Y
稱之為主成分估計(jì)(principalcomponentestimator).第三十三頁(yè),共一百七十九頁(yè)。這時(shí)有
SV(β~)=2
SMSE(β~)=2
即這個(gè)估計(jì)是有偏的(除非α2i=0i=r+1,…,p).
(注意:主成分回歸只減少”成分”個(gè)數(shù),沒有減少變量個(gè)數(shù)).第三十四頁(yè),共一百七十九頁(yè)。(3)
嶺回歸(Ridgeregression)
β*=(XTX+kI)-1XTY這里k>0通常是個(gè)小正數(shù).第三十五頁(yè),共一百七十九頁(yè)。前面有 SV(^)=2
現(xiàn)在有 SV(*)=2
SV(^)
當(dāng)k→∞時(shí),SV(*)→0
事實(shí)上 Var(*)=2
UΛ*UT
這里 (Λ*)ii=λi(λi+k)-2第三十六頁(yè),共一百七十九頁(yè)。然而SMSE(β*)=2
β*是β的有偏估計(jì).
當(dāng)k↑
有Var(*)↓同時(shí)bias(*)↑.注意到上述SMSE(β*)的第二項(xiàng)是單調(diào)增函數(shù),且有當(dāng)k=0時(shí)為0,則存在k*
使SMSE(k*
)<SMSE(0).第三十七頁(yè),共一百七十九頁(yè)。但事實(shí)上koptimal
不可求(因?yàn)槭街械摩挛粗?.經(jīng)驗(yàn)方法是: 1)k^=p*^2/^T^
這里^2=(Y-X^)T(Y-X^)/(n–p);
2)找出使β*”穩(wěn)定”下來(lái)的k(1<VIFmax<10);
3)畫脊嶺跡(ridgetrace),即對(duì)j=0,1,…,p-1
畫出*j(k),k.脊嶺跡也可用來(lái)作為除去變量的標(biāo)準(zhǔn):除去那些不穩(wěn)定(變號(hào),很快趨于零)的變量.
第三十八頁(yè),共一百七十九頁(yè)。廣義逆回歸
如果完全的共線性存在,即XTX的秩小于p,則最小二乘估計(jì)^不唯一.可用廣義逆(如Moore-Penrose廣義逆)找出^的一般解.
第三十九頁(yè),共一百七十九頁(yè)。4.重大影響點(diǎn),異類點(diǎn)和穩(wěn)健性回歸(Influentialpoints,OutliersandRobustregression)第四十頁(yè),共一百七十九頁(yè)。定義:殘差(residual)
這里
hatmatrix:
H=X(XTX)-1XT
有
var(e)=
(I-H)σ2
和var(ei)=(1-hii)σ2
且有 (含有β0項(xiàng)時(shí))和 第四十一頁(yè),共一百七十九頁(yè)。定義:標(biāo)準(zhǔn)殘差(Standardizedresidual)
zi=ei/s
有第四十二頁(yè),共一百七十九頁(yè)。定義:學(xué)生殘差(Studentizedresidual)
在回歸模型假定下ri漸進(jìn)服從自由度為(n-p)的學(xué)生分布.
第四十三頁(yè),共一百七十九頁(yè)。定義:大折刀殘差(Jackkniferesidual)
這里s2(-i)是指去掉第i
項(xiàng)的方差估計(jì).
在回歸模型假定下r(-i)精確地服從自由度為(n-p-1)的學(xué)生分布.
當(dāng)(n-p)>>30時(shí)ri,r(-i)
都漸進(jìn)服從N(0,1).第四十四頁(yè),共一百七十九頁(yè)。常用殘差圖
(1)
分布圖或直方圖(histogram);(2)
盒子圖(box-plotorschematicplot);(3)
正態(tài)圖或半正態(tài)圖;(4)
二維圖(如Y^,r(-i)).第四十五頁(yè),共一百七十九頁(yè)。重大杠桿點(diǎn)
(highleveragepoint)
一個(gè)事實(shí):
fori=1,2,…,n.(single-roweffects)第四十六頁(yè),共一百七十九頁(yè)。帽子矩陣H的一些性質(zhì)(1)
對(duì)稱(symmetric);(2)
冪等(idempotent):H2=H;(3)
1/n≤hii
≤1;(4)
特征值:theeigenvaluesarealleither0or1,(#of1s=Rank(H));(5)
Rank(H)=Rank(X)=p,(tr(H)=Σhii=p).第四十七頁(yè),共一百七十九頁(yè)。Onaverage:hii=p/n;經(jīng)驗(yàn)公式:Aruleofthumb:hii>2p/n→highleveragepointi.第四十八頁(yè),共一百七十九頁(yè)。Leverage的度量: Cook’sdistance
當(dāng)Di<<1時(shí),沒有highleverage的問題.(注意:highleveragepoint不一定會(huì)很大地改變參數(shù)估計(jì)值.)[圖]第四十九頁(yè),共一百七十九頁(yè)。異類點(diǎn)及其處理
異類點(diǎn)(Outliers)通常指的是這樣一種情況:資料不純(contamination),即資料中的一個(gè)記錄(點(diǎn))或某項(xiàng)記錄(點(diǎn))顯然與其他大部分記錄(點(diǎn))”不一樣”.第五十頁(yè),共一百七十九頁(yè)。異類點(diǎn)的統(tǒng)計(jì)模型
原假設(shè):
備用假設(shè)1: 確定性備用假設(shè)(deterministicalternative)
有記錄或測(cè)量誤差;
備用假設(shè)2: 內(nèi)在性備用假設(shè)(inherentalternative)
第五十一頁(yè),共一百七十九頁(yè)。 備用假設(shè)3: 混合型備用假設(shè)(mixturealternative)
備用假設(shè)4: 滑動(dòng)型備用假設(shè)(slippagealternative)
除了事先確定的k個(gè)點(diǎn)之外(確定指的是數(shù)目k而不是點(diǎn))所有其他點(diǎn)都屬于F.F由位置參數(shù)(location)μ和等級(jí)參數(shù)(scale)σ2
確定.而k個(gè)點(diǎn)則來(lái)自μ和σ2有變動(dòng)的版本F;第五十二頁(yè),共一百七十九頁(yè)。 備用假設(shè)5: 可變換型備用假設(shè)(exchangeablealternative)
只有一個(gè)異類點(diǎn)
j等可能地來(lái)自[1,2,…,n].第五十三頁(yè),共一百七十九頁(yè)。異類點(diǎn)的處理方法
(1)找出并剔除(discardancytest):例如基于殘差的檢驗(yàn).注意:當(dāng)用max{r(-i)}n的P值進(jìn)行檢驗(yàn)時(shí),需要考慮所謂的Bonferronicorrection.(2)去除或減少其影響(accommodation):穩(wěn)健性(robust)統(tǒng)計(jì).注意:異類點(diǎn)常常是重大杠桿點(diǎn),但重大杠桿點(diǎn)不一定是異類點(diǎn).第五十四頁(yè),共一百七十九頁(yè)。BonferroniInequality
ntestseachofsizeα,theprobabilityoffalselylabellingatleastonepoint,anoutlierisnograterthannα.如果選α’=α/n,則可得保守的α值
第五十五頁(yè),共一百七十九頁(yè)。穩(wěn)健性回歸(Robustregression)
穩(wěn)健性統(tǒng)計(jì)的一些方法(以位置[location]估計(jì)為例):(1)修剪法(trimming)略去r個(gè)最小的和s個(gè)最大的樣本值:或者取 αn=r+f (0<f<1)第五十六頁(yè),共一百七十九頁(yè)。(2)溫莎法(Winsorizing)或者類似于定義第五十七頁(yè),共一百七十九頁(yè)。(3)L估計(jì)量,M估計(jì)量和R估計(jì)量L-estimators(LinearOrderStatisticsestimators)
注意:修剪法和溫莎法都是L估計(jì)量.第五十八頁(yè),共一百七十九頁(yè)。M-estimators找出方程 關(guān)于
的解.注意:當(dāng)密度函數(shù)為f(x-μ)
時(shí),取,
就是似然方程的解.R-estimators
由一定的秩檢驗(yàn)(ranktest,如Wilcoxontest)的程度所取得.第五十九頁(yè),共一百七十九頁(yè)。為什么要穩(wěn)健性回歸
替代方法是分兩步走:(1)去除異類點(diǎn);(2)用經(jīng)典方法進(jìn)行回歸.但是去除異類點(diǎn)首先需要可靠的參數(shù)估計(jì);原先的分布假設(shè)可能不對(duì);經(jīng)驗(yàn)表明穩(wěn)健性方法往往比剔除異類點(diǎn)的方法更可取.因?yàn)樗粵Q斷地接受或拒絕一個(gè)觀察點(diǎn).第六十頁(yè),共一百七十九頁(yè)。穩(wěn)健性回歸的要求
(1)在假定模型下是好的估計(jì);(2)假如資料對(duì)模型假定有一點(diǎn)偏離,其參數(shù)估計(jì)還是”穩(wěn)健的”;(3)如果資料對(duì)模型假定有較大的偏離,參數(shù)估計(jì)也不是”災(zāi)難性”的.第六十一頁(yè),共一百七十九頁(yè)。穩(wěn)健性回歸的幾個(gè)例子
(1)考慮M估計(jì)量當(dāng) 時(shí),它就是LS估計(jì).取 這里0<f<2.較小的f等價(jià)于給較大的殘差以較小的權(quán).第六十二頁(yè),共一百七十九頁(yè)。特別地,當(dāng)f=1時(shí),稱之為L(zhǎng)eastAbsoluteDeviationEstimation,又叫L1-regression.或者取 這里c>0是一個(gè)常數(shù).第六十三頁(yè),共一百七十九頁(yè)。(2)考慮下列步驟:(i)對(duì)Yi回歸,得Y^i,s和ri(或r(-i));(ii)WinsorizeYi:這里c是穩(wěn)健控制值,一般取1到2之間.(iii)對(duì)Y*i回歸,得新的Y^i,s和ri(或r(-i));重復(fù)(i)和(ii)直到收斂.第六十四頁(yè),共一百七十九頁(yè)。注意:當(dāng)用:e*i=Y*i-Y^i
代替:ei=Yi-Y^i時(shí),將會(huì)低估σ2
修正方法:這里m是未修改的Y的數(shù)目.第六十五頁(yè),共一百七十九頁(yè)。(3)LTSregression
這里h<n,稱之為L(zhǎng)eastTrimmedSquaresRegression第六十六頁(yè),共一百七十九頁(yè)。(4)LMSregression
稱之為L(zhǎng)eastMedianofSquaresRegression注意:穩(wěn)健性回歸的思想具有一般的意義.第六十七頁(yè),共一百七十九頁(yè)。5.廣義線性模型
(GeneralizedLinearModels)線性模型的推廣一大類回歸模型有完整的理論結(jié)構(gòu)第六十八頁(yè),共一百七十九頁(yè)。邏輯回歸(LogisticRegression)
如果應(yīng)變量Yi只能取兩個(gè)值0和1,則Yi服從二點(diǎn)分布(Bernoullidistribution).
設(shè)
則 第六十九頁(yè),共一百七十九頁(yè)。邏輯函數(shù): 第七十頁(yè),共一百七十九頁(yè)。邏輯回歸模型
設(shè) 這里g定義為連系函數(shù)(linkfunction),連系函數(shù)將線性組合Xiβ與數(shù)學(xué)期望pi連在一起.
則 即p是關(guān)于η的邏輯函數(shù),且有0<pi<1.第七十一頁(yè),共一百七十九頁(yè)。參數(shù)β的極大似然估計(jì)
由 得似然函數(shù) 于是
forr=1,2,…k.
第七十二頁(yè),共一百七十九頁(yè)。費(fèi)雪信息矩陣(Fisherinformationmatrix)
這里 第七十三頁(yè),共一百七十九頁(yè)。當(dāng) 是邏輯連系函數(shù)時(shí)
注意:需用疊代算法求出β^,即解方程組.第七十四頁(yè),共一百七十九頁(yè)。參數(shù)估計(jì)β^的性質(zhì)
事實(shí)上β^是漸進(jìn)正態(tài)分布的.第七十五頁(yè),共一百七十九頁(yè)。擬合優(yōu)度
差異函數(shù)(deviancefunction): (注意:0?log(0)=0)如果模型假定正確,D漸進(jìn)服從;如有兩個(gè)嵌套模型H0
和HA,則D0–DA
漸進(jìn)服從.第七十六頁(yè),共一百七十九頁(yè)。注意:嵌套模型的檢驗(yàn)比顯著性檢驗(yàn)D更強(qiáng),即D服從的要求比較高,D0–DA
服從的要求比較低,甚至當(dāng)D0和DA
都不服從和時(shí)亦成立.第七十七頁(yè),共一百七十九頁(yè)。二項(xiàng)分布(Binomialdistribution)的情形
等價(jià)于mj個(gè)貝努里實(shí)驗(yàn),且有: 第七十八頁(yè),共一百七十九頁(yè)。設(shè)連系函數(shù)為
似然函數(shù)[去掉常數(shù)項(xiàng)]為
第七十九頁(yè),共一百七十九頁(yè)。有這里第八十頁(yè),共一百七十九頁(yè)。當(dāng) 是邏輯連系函數(shù)時(shí)
差異函數(shù)
第八十一頁(yè),共一百七十九頁(yè)。正態(tài)連系函數(shù)(probitlinkfunction)
如果連系函數(shù)取所謂的probitlink的話,即
則有: 和 將此式代入,既可得對(duì)應(yīng)的和W.
第八十二頁(yè),共一百七十九頁(yè)。普阿松回歸(PoissonRegression)
應(yīng)變量Yi只能取非負(fù)的離散值(事實(shí)上只需要一邊有界),其離散程度大致與其水平成正比例.設(shè)即則 第八十三頁(yè),共一百七十九頁(yè)。設(shè)
(對(duì)數(shù)連系函數(shù))則對(duì)任何X和β有 第八十四頁(yè),共一百七十九頁(yè)。參數(shù)β的極大似然估計(jì)
去掉常數(shù)項(xiàng)后
這里 第八十五頁(yè),共一百七十九頁(yè)。當(dāng) 時(shí)(對(duì)數(shù)連系函數(shù))
注意:需用疊代算法求出β^,即解方程組第八十六頁(yè),共一百七十九頁(yè)。參數(shù)估計(jì)β^的性質(zhì)
β^漸進(jìn)服從N[β,(XTWX)-1)]第八十七頁(yè),共一百七十九頁(yè)。擬合優(yōu)度
差異函數(shù):
如果模型假定正確,D漸進(jìn)服從;如有兩個(gè)嵌套模型H0
和HA,則D0–DA
漸進(jìn)服從.第八十八頁(yè),共一百七十九頁(yè)。過度離散(over-dispersion)
實(shí)際案例中常有 如對(duì)應(yīng)于負(fù)二項(xiàng)分布的情形.解決方法:
設(shè) 估計(jì) 第八十九頁(yè),共一百七十九頁(yè)。廣義線性模型
四個(gè)組成部分
1。數(shù)學(xué)期望(均值)
E(Yi
)=i
2。線性預(yù)測(cè)量(linearpredictor)
i=Xi3。連系函數(shù)(linkfunction)
g(i)=i
4。方差函數(shù)(variancefunction)
Var(Yi)=V(i)第九十頁(yè),共一百七十九頁(yè)。線性指數(shù)分布族
(linearexponentialfamily)
形式如:
L(,;y)=exp{[y-c()]/+h(y,)}(這里假定是已知的。如果是未知的,它可能是二參數(shù)的指數(shù)分布族,也可能不是。)第九十一頁(yè),共一百七十九頁(yè)。對(duì)線性指數(shù)分布族有:
E(y)=c()
Var(y)=c()
V()這里稱之為離散參數(shù)(dispersionparameter)第九十二頁(yè),共一百七十九頁(yè)。常用分布的離散參數(shù)和方差函數(shù)分布V()正態(tài)分布(normal)21普阿松分布(Poisson)1伽瑪分布(Gamma)1/2兩點(diǎn)分布(Bernoulli)1(1-)二項(xiàng)分布(binomial)1/m(1-)第九十三頁(yè),共一百七十九頁(yè)。當(dāng)連系函數(shù)g取c的反函數(shù)(記之為c-1)形式時(shí),我們稱g為標(biāo)準(zhǔn)連系函數(shù)(canonicallink)第九十四頁(yè),共一百七十九頁(yè)。常用分布的標(biāo)準(zhǔn)連系函數(shù)
分布cc連系函數(shù)正態(tài)分布(normal)2/2恒等g()=普阿松分布(Poisson)e
e對(duì)數(shù)g()=log()伽瑪分布(Gamma)-log(-)–(1/)倒數(shù)g()=-1/兩點(diǎn)分布(Bernoulli)log(1+e)e/(1+e)邏輯(logit)g()=log[/(1-)]二項(xiàng)分布(binomial)log(1+e)e/(1+e)邏輯(logit)g()=log[/(1-)]第九十五頁(yè),共一百七十九頁(yè)。其他常用連系函數(shù):正態(tài)(probit): g()=-1();冪族(powerfamily):g()=(0) g()=log()(=0)余雙對(duì)數(shù)(complementarylog-log) g()=log[-log(1-)]第九十六頁(yè),共一百七十九頁(yè)。參數(shù)估計(jì)()
線性指數(shù)分布族的似然估計(jì)方程組是
(Yi-i)/iV(i)i/r=0r=1,2,…,k對(duì)廣義線性模型,它成為
(Yi-i)/iV(i)xir/g(i)=0r=1,2,…,k第九十七頁(yè),共一百七十九頁(yè)。當(dāng)離散參數(shù)i
=aii=1,2,…,n時(shí),該方程組成為
(Yi-i)/aiV(i)xir/g(i)=0(*)r=1,2,…,k而當(dāng)連系函數(shù)g是標(biāo)準(zhǔn)連系函數(shù)時(shí),有
Yixir/ai=ixir/air=1,2,…,k第九十八頁(yè),共一百七十九頁(yè)。一般來(lái)說方程組(*)沒有直接的解法。當(dāng)V()=1,g()=
時(shí)(線性模型),解是
^
=(XTW-1
X)-1
XTW-1
Y這里W=diag(1/ai)第九十九頁(yè),共一百七十九頁(yè)。迭代加權(quán)最小二乘法
(iterativeweightedleastsquares,簡(jiǎn)寫為IWLS)
考慮變量
zi=i+(Yi-i)g(i)有
E(zi)=i=xi
rVar(zi)=[g(i)]2aiV(i)第一百頁(yè),共一百七十九頁(yè)。迭代算法:(1)從某一個(gè)i(0)
開始(通常取i(0)
=Yi)得i(0)=g(i(0));(2)給定i(t)
和i(t)
,算出zi(t)=i(t)+(Yi-i(t))g(i(t))wi(t)=1/[g(i(t))]2aiV(i(t))i=1,2,…,n;第一百零一頁(yè),共一百七十九頁(yè)。(3)給出估計(jì)(t+1)=(XTW(t)X)-1XTW(t)
z(t)(這里W(t)
=diag(wi(t)))定義(t+1)=X(t+1)
(t+1)=g-1((t+1))重復(fù)步驟(2)和(3)直到收斂。第一百零二頁(yè),共一百七十九頁(yè)。迭代加權(quán)最小二乘估計(jì)的性質(zhì)
^~*N(,i-1())這里
i-1()=-1
XT
WXW=diag(wi)wi=1/[g(i)]2aiV(i)i=1,2,…,n第一百零三頁(yè),共一百七十九頁(yè)。估計(jì)量方差的估計(jì)
Cov^(^)=(XT
W^X)-1
的估計(jì):
~=1/(n-p)(Yi-i^)/[aiV(i^)]第一百零四頁(yè),共一百七十九頁(yè)。擬合優(yōu)度
定義差異函數(shù)(deviance)為D(y;^)=2[l(y;y,)–l(y;^,)]如果模型假定正確,D漸進(jìn)服從;如有兩個(gè)嵌套模型H0
和HA,則D0–DA
漸進(jìn)服從.第一百零五頁(yè),共一百七十九頁(yè)。常用分布的差異函數(shù)
正態(tài)分布(y-^)2普阿松分布2[y(log(y/^)-(y-^)]二項(xiàng)分布2{y(log(y/^)+(m-y)log[(m-y)/(m-^)]}伽瑪分布2[-log(y/^)+(y-^)/^]第一百零六頁(yè),共一百七十九頁(yè)。在原假定下,D漸進(jìn)服從;如有兩個(gè)嵌套模型H0
和HA,則D0–DA
漸進(jìn)服從.第一百零七頁(yè),共一百七十九頁(yè)。非參數(shù)回歸
(non-parametricregression)
離散圖平滑法(scatterplotsmoother):假定X只含有一個(gè)變量x.在x上定義一個(gè)函數(shù): s(x)=S(Y|x)
一般s(x)定義在x的所有定義域上,但也可能只定義在觀察值上.這時(shí)對(duì)一般的s(x0)就需要用某種插值法計(jì)算.
第一百零八頁(yè),共一百七十九頁(yè)。類型:(1)格子平滑法(binsmoother,regressogram):選點(diǎn): 定義: 取: 第一百零九頁(yè),共一百七十九頁(yè)。(2)移動(dòng)平均法(running-meansmoother,movingaveragesmoother):定義: 取: 第一百一十頁(yè),共一百七十九頁(yè)。(3)跑動(dòng)直線平滑法(running-linesmoother):取: 這里 是對(duì)回歸的LS估計(jì)量.第一百一十一頁(yè),共一百七十九頁(yè)。倘若這個(gè)回歸是加權(quán)的,則是所謂的loess(locally-weightedrunning-linesmoother).具體地說可采取下列步驟:(i)找出與最接近的k個(gè)樣本點(diǎn),記為;(ii)定義:(iii)取權(quán)數(shù) 這里 (iv)第一百一十二頁(yè),共一百七十九頁(yè)。(4)核平滑法(kernelsmoother):
取: 對(duì)點(diǎn)的權(quán)數(shù)為
第一百一十三頁(yè),共一百七十九頁(yè)。這里λ是窗寬參數(shù)(window-widthparameter);c0是個(gè)常數(shù),通常使權(quán)數(shù)的和為一;d(t)是關(guān)于|t|的減函數(shù),如: (Gaussiankernel) (Epanechnikovkernel) (minimumvariancekernel)等等.注意:窗寬參數(shù)λ的選擇比核函數(shù)的選擇重要的多.第一百一十四頁(yè),共一百七十九頁(yè)。(Gaussiankernel)(Epanechnikovkernel)
(minimumvariancekernel)第一百一十五頁(yè),共一百七十九頁(yè)。(5)回歸樣條(regressionspline):找出k個(gè)節(jié)點(diǎn)(knots): 取: (+表示正的部分)第一百一十六頁(yè),共一百七十九頁(yè)。S(x)有三個(gè)特性(i)在任何區(qū)間內(nèi)是三次函數(shù); (ii)有一階和二階連續(xù)導(dǎo)數(shù); (iii)三階導(dǎo)數(shù)是個(gè)階梯函數(shù).當(dāng)加上節(jié)點(diǎn)以外函數(shù)為線性的附加限制時(shí),(三次)樣條稱之為自然樣條(naturalspline).給定節(jié)點(diǎn)的數(shù)目和位置,未知參數(shù)可用回歸法求得.但如何確定節(jié)點(diǎn)的數(shù)目和位置是個(gè)較復(fù)雜的問題.第一百一十七頁(yè),共一百七十九頁(yè)。(6)三次平滑樣條(cubicsmoothingspline):找出一個(gè)有一階和二階連續(xù)導(dǎo)數(shù)的任意函數(shù)f,使這里λ是個(gè)固定常數(shù),.可以證明這個(gè)函數(shù)是節(jié)點(diǎn)取在所有上的naturalcubicspline.第一百一十八頁(yè),共一百七十九頁(yè)。平滑參數(shù)λ
設(shè)離散圖平滑的模型是:
定義: (averagemean-squarederror) (averagepredictivesquarederror) (這里Yi*是在點(diǎn)xi上的一個(gè)新觀察值).有: 第一百一十九頁(yè),共一百七十九頁(yè)。定義: (cross-validationsumofsquares)有:
(注意: (averagesquaredresidual)不是PSE的好的估計(jì)量).可以用下列標(biāo)準(zhǔn)確定λ:
第一百二十頁(yè),共一百七十九頁(yè)。定義: 線性平滑法:
對(duì)任意常數(shù)a和b,有上述平滑法都是線性平滑法.第一百二十一頁(yè),共一百七十九頁(yè)。對(duì)于觀察點(diǎn)來(lái)說,一個(gè)線性平滑法可表示為這里S是一個(gè)矩陣,稱為平滑矩陣(smoothermatrix).對(duì)于一個(gè)線性平滑法來(lái)說,定義偏
第一百二十二頁(yè),共一百七十九頁(yè)。有:
第一百二十三頁(yè),共一百七十九頁(yè)。定義: Mallows’Cp這里
λ*是個(gè)很小的數(shù)(盡量減小偏).因?yàn)樗訡p是PSE的一個(gè)估計(jì).可以用下列標(biāo)準(zhǔn)確定λ:
第一百二十四頁(yè),共一百七十九頁(yè)。注意: (1)Cp只適用于線性平滑法,CV則適用于一般的平滑法. (2)在實(shí)際應(yīng)用時(shí)上述兩法時(shí)常特性不佳.這時(shí)用直觀的圖像法選擇λ可能更可靠一些. (3)用自由度來(lái)確定λ也是常用的方法.第一百二十五頁(yè),共一百七十九頁(yè)。平滑法的自由度
有三個(gè)表示:(1)自由度:對(duì)于一個(gè)線性平滑法
第一百二十六頁(yè),共一百七十九頁(yè)。(2)誤差自由度:對(duì)非線性平滑法的一般定義是:第一百二十七頁(yè),共一百七十九頁(yè)。(3)方差自由度:對(duì)非線性平滑法的一般定義是:第一百二十八頁(yè),共一百七十九頁(yè)。注意:I如果S是個(gè)對(duì)稱投影矩陣(symmetricprojectionmatrix)(例如線性回歸,多項(xiàng)式回歸,回歸樣條),則有II對(duì)于三次平滑樣條有并且三者都是關(guān)于λ的減函數(shù).第一百二十九頁(yè),共一百七十九頁(yè)。置信區(qū)間
對(duì)于線性平滑 有
這里偏向量是依賴于未知函數(shù)f的.在一定假定下偏的一個(gè)估計(jì)是于是可取的對(duì)角線元素構(gòu)造置信區(qū)間.第一百三十頁(yè),共一百七十九頁(yè)。這里取自由度
第一百三十一頁(yè),共一百七十九頁(yè)。近似的F檢驗(yàn)
對(duì)于兩個(gè)線性平滑法 (假定f1^比f(wàn)2^更平滑),有
第一百三十二頁(yè),共一百七十九頁(yè)。一個(gè)更好的檢驗(yàn)是取
有
第一百三十三頁(yè),共一百七十九頁(yè)。相加模型(additivemodel)
一般的相加模型可表示為這里 第一百三十四頁(yè),共一百七十九頁(yè)。懲罰性的最小二乘條件(penalizedleast-squares):
可以用使penalizedleast-squares最優(yōu)化的方法來(lái)求得合適的相加模型.第一百三十五頁(yè),共一百七十九頁(yè)。注意:(1)所謂半?yún)?shù)模型(semi-parametricmodel)是相加模型的一個(gè)重要特例,如:(2)相加模型可以包括某一個(gè)或某幾個(gè)自變量是離散變量的情況.(3)相加模型可以包括某一個(gè)或某幾個(gè)函數(shù)是多元函數(shù)的情況,如:當(dāng)然這時(shí)需用scatterplotsmoother的多維推廣.第一百三十六頁(yè),共一百七十九頁(yè)。廣義相加模型
(generalizedadditivemodels)
類似于從線性模型推廣到廣義線性模型的思路,相加模型可以推廣成廣義相加模型.即定義四個(gè)組成部分
1。數(shù)學(xué)期望(均值)
2。相加預(yù)測(cè)量(additivepredictor)
3。連系函數(shù)(linkfunction)
4。方差函數(shù)(variancefunction)第一百三十七頁(yè),共一百七十九頁(yè)。Algorithm
其求解的思路也類似廣義線性模型(1)Initialize:(2)Update:with
第一百三十八頁(yè),共一百七十九頁(yè)。
Constructweights
Fitaweightedadditivemodeltozi,toobtainestimatedComputetheconvergencecriterion
第一百三十九頁(yè),共一百七十九頁(yè)。(3)Repeatstep(2)replacingbyuntil isbelowsomesmallthreshold.第一百四十頁(yè),共一百七十九頁(yè)。注意:所謂半?yún)?shù)廣義線性模型(semi-parametricgeneralizedlinearmodel)是廣義相加模型的一個(gè)重要特例,如:
第一百四十一頁(yè),共一百七十九頁(yè)。7.模型選擇模型選擇的目的常常是尋找一個(gè)最簡(jiǎn)單的合理的模型來(lái)恰當(dāng)?shù)孛枋鏊^察到的資料.可以粗略地分為兩大類問題:(1)同一類模型中參數(shù)和變量個(gè)數(shù)的選擇;(2)不同類模型之間的比較.第一百四十二頁(yè),共一百七十九頁(yè)。一個(gè)事實(shí):如果真正的模型是而我們所用的回歸模型是最小二乘估計(jì)是 則 即一般這個(gè)估計(jì)是有偏的.
第一百四十三頁(yè),共一百七十九頁(yè)。且有
注意:項(xiàng)數(shù)太少會(huì)造成參數(shù)估計(jì)有偏;項(xiàng)數(shù)太多不會(huì)造成參數(shù)估計(jì)有偏,但因?yàn)闇p少了自由度從而造成效率(精確度)的喪失.第一百四十四頁(yè),共一百七十九頁(yè)。選擇回歸變量的基本步驟
(1)確定最大的模型:保證”正確”的模型在它之內(nèi);(2)確定選擇模型的條件;(3)確定選擇變量的策略;(4)用最后的模型分析資料;(5)評(píng)估模型的可靠性.第一百四十五頁(yè),共一百七十九頁(yè)。確定最大的模型
可以包括:(1)所有基本的回歸變量;(2)基本回歸變量的高階冪(等等);(3)基本回歸變量的其它轉(zhuǎn)換如對(duì)數(shù),倒數(shù)等等;(4)基本回歸變量之間二階或更高階的交互影響(interaction);(5)(在某些問題中)所有的控制變量和它們的(2),(3),(4).第一百四十六頁(yè),共一百七十九頁(yè)。注意:不要選太大的最大模型(會(huì)損失可靠性),宜中心突出,針對(duì)問題.還應(yīng)注意共線性問題.經(jīng)驗(yàn)公式: (樣本大小和變量個(gè)數(shù)的比例)第一百四十七頁(yè),共一百七十九頁(yè)。確定選擇模型的條件
(1)確定系數(shù)此法只適用于參數(shù)個(gè)數(shù)相同的情形.因?yàn)閷?duì)嵌套模型而言,是關(guān)于p的增函數(shù),而無(wú)理論基礎(chǔ).第一百四十八頁(yè),共一百七十九頁(yè)。(2)對(duì)于嵌套的線性回歸模型,可用統(tǒng)計(jì)量當(dāng)F檢驗(yàn)不顯著時(shí),可以用較簡(jiǎn)單的p個(gè)變量模型.第一百四十九頁(yè),共一百七十九頁(yè)。(3)定義選擇較小的第一百五十頁(yè),共一百七十九頁(yè)。(4)Mallow’sCp這里k是最大的模型.選擇較小的或最小的Cp注意:當(dāng) 時(shí), 第一百五十一頁(yè),共一百七十九頁(yè)。ACI(Akaikeinformationcriterion)
選擇較小的或最小的ACI注意:Mallow’sCp是ACI的一個(gè)特例.第一百五十二頁(yè),共一百七十九頁(yè)。確定選擇變量的策略
(1)列出所有的回歸模型;
共有個(gè),通常不實(shí)際.第一百五十三頁(yè),共一百七十九頁(yè)。(2)向后剔除法(Backwardelimination):步驟:(i)給出最大的回歸模型;(ii)一次去掉一個(gè)變量,其對(duì)應(yīng)的t值(或等價(jià)地,其PartialF值)在所有變量只中是最小的,且低于給定的顯著性水平.直到?jīng)]有這樣的變量.注意:兩次去掉一個(gè)變量不等價(jià)于一次去掉兩個(gè)變量(即使是相同的兩個(gè)變量!).第一百五十四頁(yè),共一百七十九頁(yè)。(3)向前選進(jìn)法(Forwardselection):步驟:(i)選進(jìn)相關(guān)系數(shù)最大的第一個(gè)變量;(ii)一次一個(gè),選進(jìn)一個(gè)變量,其PartialF最大(在已定模型,既現(xiàn)有變量下),且其p值大于給定的顯著性水平.直到?jīng)]有這樣的變量.注意:A兩次進(jìn)一個(gè)變量不等價(jià)于一次進(jìn)兩個(gè)變量.B(ii)等價(jià)于計(jì)算部分相關(guān)系數(shù),即Residualofcurrentmodel對(duì)Xj.第一百五十五頁(yè),共一百七十九頁(yè)。(4)逐步回歸(Stepwiseregression):步驟:(i)同向前選進(jìn)法(i);(ii)選進(jìn)一個(gè)變量,同向前選進(jìn)法(ii);(iii)去掉一個(gè)變量(如有必要),同向后剔除法(ii);直到?jīng)]有變量進(jìn),也沒有變量出.第一百五十六頁(yè),共一百七十九頁(yè)。(5)脊嶺回歸:如前所述.(6)PRESS法:定義:
這里是除去第i項(xiàng)后由模型對(duì)Yi
的預(yù)測(cè)值.找出一個(gè)模型,其PSS較小且不含有太多的回歸變量.第一百五十七頁(yè),共一百七十九頁(yè)。階段回歸(Stagewiseregression):步驟:(i)找出最大相關(guān)自變量,得到回歸模型
(ii)以此模型的殘差作為應(yīng)變量,找出下一個(gè)最大相關(guān)自變量,得到回歸模型如果模型顯著,則新的模型為
(iii)再定義為應(yīng)變量,重復(fù)(ii)直到?jīng)]有新的變量能進(jìn)入.注意:最后的模型不等價(jià)于最小二乘估計(jì).第一百五十八頁(yè),共一百七十九頁(yè)。測(cè)度誤差問題
(MeasurementErrors)
有些自變量有較大的測(cè)度誤差或不可能直接觀測(cè)到.將自變量分成兩部分: X_有測(cè)度誤差的自變量,設(shè)W是它們的觀察值; Z_沒有測(cè)度誤差的自變量.定義:
函數(shù)型模型(classicalfunctionalmodels):X是固定常數(shù)(未觀察到);
構(gòu)造型模型(classicalstructuralmodels):X是隨機(jī)變量.第一百五十九頁(yè),共一百七十九頁(yè)。測(cè)度誤差的模型
有兩種一般的模型:(1)誤差模型(errormodels)
給出條件分布W|Z,X的模型如:(a) (b)第一百六十頁(yè),共一百七十九頁(yè)。(2)回歸校正模型(regressioncalibration
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢業(yè)證書采購(gòu)合同
- 報(bào)廢物資回收保密協(xié)議書
- 山東省煙臺(tái)招遠(yuǎn)市(五四制)2024-2025學(xué)年七年級(jí)上學(xué)期期中考試地理試題
- 防火防震演練心得小學(xué)
- 《棉滌綸低彈絲包芯本色紗》
- 甘肅省定西市2024-2025學(xué)年高三上學(xué)期11月聯(lián)考質(zhì)量檢測(cè)數(shù)學(xué)試題
- 2025年1月廣東省高中合格性學(xué)業(yè)水平考試數(shù)學(xué)模擬測(cè)試(五)
- 古馬隆樹脂相關(guān)項(xiàng)目投資計(jì)劃書
- 硼粉系列行業(yè)相關(guān)投資計(jì)劃提議范本
- 人工智能AI芯片行業(yè)相關(guān)投資計(jì)劃提議
- 統(tǒng)計(jì)學(xué)專業(yè)實(shí)踐教學(xué)體系
- 莫亞10年四柱預(yù)測(cè)真途弟子班錄像13集DVD+弟子班資料
- 平行四邊形的面積(完美版)PPT課件
- 表現(xiàn)手法-對(duì)比襯托烘托渲染
- 玉柴銷售部組織及職能
- 歷年考研數(shù)學(xué)一真題及答案(共130頁(yè))
- Y2系列電機(jī)外形及安裝尺寸(共2頁(yè))
- 補(bǔ)償收縮混凝土應(yīng)用技術(shù)規(guī)程JGJT1782009
- 機(jī)井資料表格(共9頁(yè))
- 豆類食物營(yíng)養(yǎng)成分表
- 造紙及紙制品行業(yè)企業(yè)風(fēng)險(xiǎn)分級(jí)管控體系實(shí)施指南(DB37T 3149—2018)
評(píng)論
0/150
提交評(píng)論