現(xiàn)代回歸分析方法_第1頁(yè)
現(xiàn)代回歸分析方法_第2頁(yè)
現(xiàn)代回歸分析方法_第3頁(yè)
現(xiàn)代回歸分析方法_第4頁(yè)
現(xiàn)代回歸分析方法_第5頁(yè)
已閱讀5頁(yè),還剩174頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

現(xiàn)代回歸分析方法上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)系韓小亮第一頁(yè),共一百七十九頁(yè)。目的:

回歸分析研究的是一個(gè)變量(應(yīng)變量)和其他變 量(自變量)之間的關(guān)系.其目的可能是:1.確定哪些變量有關(guān)及其程度;2.預(yù)測(cè);3.找出最優(yōu)的組合;4.控制;5.尋求合適的數(shù)學(xué)模型;6.評(píng)估兩個(gè)或兩個(gè)以上因素的交互影響等等.

1.回歸分析(RegressionAnalysis)第二頁(yè),共一百七十九頁(yè)。

數(shù)據(jù)資料(data)

應(yīng)變量(response)自變量(independentvariables,predictorvariables)這里n

是記錄數(shù)目,k

是自變量數(shù)目(包括常數(shù)項(xiàng)).第三頁(yè),共一百七十九頁(yè)?;灸P?

第四頁(yè),共一百七十九頁(yè)。2.線性回歸(LinearRegression)模型:

Y=X+

這里X是Z

的函數(shù)(已知),

是未知參數(shù)向量,是誤差項(xiàng)第五頁(yè),共一百七十九頁(yè)。

也就是說

第六頁(yè),共一百七十九頁(yè)。線性模型的假設(shè):

1.正態(tài)分布;2.互相獨(dú)立;3.同方差;4.一個(gè)隨機(jī)誤差項(xiàng);5.系統(tǒng)影響的相加性(additivityofsystematiceffects);6.資料完整.第七頁(yè),共一百七十九頁(yè)。參數(shù)估計(jì)():

最小二乘估計(jì)

→ 有 (注意:這里沒有用到正態(tài)分布的假定)第八頁(yè),共一百七十九頁(yè)。極大似然估計(jì)

這里在正態(tài)分布的假定下

這個(gè)估計(jì)是所謂BLUE的.第九頁(yè),共一百七十九頁(yè)。估計(jì)量的分布第十頁(yè),共一百七十九頁(yè)。殘差平方和的分布

→ 方差的估計(jì):

(矩估計(jì))第十一頁(yè),共一百七十九頁(yè)。顯著性

1。模型的顯著性,即檢驗(yàn)假設(shè)

使用統(tǒng)計(jì)量

當(dāng)

為真時(shí)

第十二頁(yè),共一百七十九頁(yè)。

2。某個(gè)因素的顯著性,即檢驗(yàn)假設(shè)

定義對(duì)稱方陣

設(shè)為其對(duì)角元素,則有檢驗(yàn)統(tǒng)計(jì)量 當(dāng)成立時(shí)

第十三頁(yè),共一百七十九頁(yè)。模型選擇(變量數(shù)目)

當(dāng)兩個(gè)模型有嵌套的(nested)關(guān)系時(shí),可以用下述F檢驗(yàn)來(lái)決定取舍模型1:模型2:當(dāng)為真時(shí)

這里是回歸平方和,是殘差平方和.第十四頁(yè),共一百七十九頁(yè)。方差分析表

第十五頁(yè),共一百七十九頁(yè)。擬合優(yōu)度確定系數(shù):R2statistic:

R2c(adjustR2):

第十六頁(yè),共一百七十九頁(yè)。UnderH0:1

=

2

=…=p-1=0

(testR2exactlyequivalenttoFtest)第十七頁(yè),共一百七十九頁(yè)。應(yīng)變量的變換

(transformationofresponse)

目的: 1。正態(tài)分布(對(duì)稱);2。同方差;3。相加性。第十八頁(yè),共一百七十九頁(yè)。異方差或者不獨(dú)立

加權(quán)最小二乘估計(jì):假如

Y=X+

~N(0,2V)

而且V

已知,則存在滿秩對(duì)稱矩陣P

PTP=PP=P2=V

且有P-1

~N(0,2In)即

P-1Y|X~N(P-1

X,2In)第十九頁(yè),共一百七十九頁(yè)。對(duì)P-1Y=P-1

X+P-1

取最小二乘估計(jì),得

^=(XTV-1X)-1XTV-1Y

稱之為加權(quán)最小二乘估計(jì)(weightedleastsquareestimator)

^~N(,2(XTV-1X)-1)第二十頁(yè),共一百七十九頁(yè)。3.共線性

(Multicollinearity,collinearity)這里主要討論“幾乎”共線性,順便也討論一下精確的共線性

第二十一頁(yè),共一百七十九頁(yè)。定義:自變量之間存在強(qiáng)烈的線性關(guān)系。 精確地說,存在使

對(duì)至少一個(gè)

k成立.

第二十二頁(yè),共一百七十九頁(yè)。跡象:XTX至少有一個(gè)很小的特征值(≈0)

注意:λj≥0forj=1,2,…,p(這里λj

是XTX的特征值).第二十三頁(yè),共一百七十九頁(yè)。影響:典型的影響是使參數(shù)估計(jì)的方差增大從而使整個(gè)估計(jì)不精確.

總的說來(lái):Var(^)=2(XTX)-1

具體地說:Var(^j)=forj=0,1,…,p-1第二十四頁(yè),共一百七十九頁(yè)。這里

R2j

是即其它自變量對(duì)自變量j回歸的確定系數(shù).

第二十五頁(yè),共一百七十九頁(yè)。線性回歸的理想要求是:Y對(duì)X有很強(qiáng)的線性關(guān)系,而X之間有較弱的線性關(guān)系.

第二十六頁(yè),共一百七十九頁(yè)。共線性的測(cè)度

(1)

VIF(varianceinflationfactor)

VIFj=1/(1-R2j)forj=0,1,2,…,p-1.

當(dāng)max(VIFj)≥10時(shí),有共線性問題(這是經(jīng)驗(yàn)公式,無(wú)精確理論基礎(chǔ))

第二十七頁(yè),共一百七十九頁(yè)。注意:VIF0≡1/(1-R20)其對(duì)應(yīng)模型是此模型右邊無(wú)常數(shù)項(xiàng).第二十八頁(yè),共一百七十九頁(yè)。(2)

ConditionNumber

這里λ(j)是按大小排列的矩陣XTX的特征值.當(dāng)κ>1000時(shí),可能有嚴(yán)重的共線性問題.第二十九頁(yè),共一百七十九頁(yè)。(3)

ConditionIndex

forj=2,3,…,p

ConditionIndex能發(fā)現(xiàn)多于一個(gè)的共線性關(guān)系.經(jīng)驗(yàn)公式:列出所有的κj≥100.第三十頁(yè),共一百七十九頁(yè)。解決方法

(1)

從模型中除去一些變量(例如對(duì)應(yīng)于比較大的VIFj的Xj).

這個(gè)問題與變量選擇和模型確定的方法有關(guān);

如果βj≠0,則剔除βj會(huì)導(dǎo)致,即最小二乘估計(jì)成為有偏估計(jì).第三十一頁(yè),共一百七十九頁(yè)。(2)

主成分回歸(PrincipalComponentRegression)

Y=X+=X(UUT)+=(XU)(UT)+≡Gα+

這里U

是XTX

的特征向量矩陣(XTX=UΛUT);

G=XU(G稱為主成分principalcomponent) α=UT第三十二頁(yè),共一百七十九頁(yè)。這時(shí)α

的LS估計(jì)是

α^=(GTG)-1GTY=Λ-1GTY→β^=Uα^

如果把G去掉(p-r)列(比如說對(duì)應(yīng)于較小的λi),記為G(r),G(r)=XU(r),

取α~=(GT(r)

G(r))-1GT(r)

Yβ~=U(r)α~=U(GT(r)

G(r))-1GT(r)

Y

稱之為主成分估計(jì)(principalcomponentestimator).第三十三頁(yè),共一百七十九頁(yè)。這時(shí)有

SV(β~)=2

SMSE(β~)=2

即這個(gè)估計(jì)是有偏的(除非α2i=0i=r+1,…,p).

(注意:主成分回歸只減少”成分”個(gè)數(shù),沒有減少變量個(gè)數(shù)).第三十四頁(yè),共一百七十九頁(yè)。(3)

嶺回歸(Ridgeregression)

β*=(XTX+kI)-1XTY這里k>0通常是個(gè)小正數(shù).第三十五頁(yè),共一百七十九頁(yè)。前面有 SV(^)=2

現(xiàn)在有 SV(*)=2

SV(^)

當(dāng)k→∞時(shí),SV(*)→0

事實(shí)上 Var(*)=2

UΛ*UT

這里 (Λ*)ii=λi(λi+k)-2第三十六頁(yè),共一百七十九頁(yè)。然而SMSE(β*)=2

β*是β的有偏估計(jì).

當(dāng)k↑

有Var(*)↓同時(shí)bias(*)↑.注意到上述SMSE(β*)的第二項(xiàng)是單調(diào)增函數(shù),且有當(dāng)k=0時(shí)為0,則存在k*

使SMSE(k*

)<SMSE(0).第三十七頁(yè),共一百七十九頁(yè)。但事實(shí)上koptimal

不可求(因?yàn)槭街械摩挛粗?.經(jīng)驗(yàn)方法是: 1)k^=p*^2/^T^

這里^2=(Y-X^)T(Y-X^)/(n–p);

2)找出使β*”穩(wěn)定”下來(lái)的k(1<VIFmax<10);

3)畫脊嶺跡(ridgetrace),即對(duì)j=0,1,…,p-1

畫出*j(k),k.脊嶺跡也可用來(lái)作為除去變量的標(biāo)準(zhǔn):除去那些不穩(wěn)定(變號(hào),很快趨于零)的變量.

第三十八頁(yè),共一百七十九頁(yè)。廣義逆回歸

如果完全的共線性存在,即XTX的秩小于p,則最小二乘估計(jì)^不唯一.可用廣義逆(如Moore-Penrose廣義逆)找出^的一般解.

第三十九頁(yè),共一百七十九頁(yè)。4.重大影響點(diǎn),異類點(diǎn)和穩(wěn)健性回歸(Influentialpoints,OutliersandRobustregression)第四十頁(yè),共一百七十九頁(yè)。定義:殘差(residual)

這里

hatmatrix:

H=X(XTX)-1XT

var(e)=

(I-H)σ2

和var(ei)=(1-hii)σ2

且有 (含有β0項(xiàng)時(shí))和 第四十一頁(yè),共一百七十九頁(yè)。定義:標(biāo)準(zhǔn)殘差(Standardizedresidual)

zi=ei/s

有第四十二頁(yè),共一百七十九頁(yè)。定義:學(xué)生殘差(Studentizedresidual)

在回歸模型假定下ri漸進(jìn)服從自由度為(n-p)的學(xué)生分布.

第四十三頁(yè),共一百七十九頁(yè)。定義:大折刀殘差(Jackkniferesidual)

這里s2(-i)是指去掉第i

項(xiàng)的方差估計(jì).

在回歸模型假定下r(-i)精確地服從自由度為(n-p-1)的學(xué)生分布.

當(dāng)(n-p)>>30時(shí)ri,r(-i)

都漸進(jìn)服從N(0,1).第四十四頁(yè),共一百七十九頁(yè)。常用殘差圖

(1)

分布圖或直方圖(histogram);(2)

盒子圖(box-plotorschematicplot);(3)

正態(tài)圖或半正態(tài)圖;(4)

二維圖(如Y^,r(-i)).第四十五頁(yè),共一百七十九頁(yè)。重大杠桿點(diǎn)

(highleveragepoint)

一個(gè)事實(shí):

fori=1,2,…,n.(single-roweffects)第四十六頁(yè),共一百七十九頁(yè)。帽子矩陣H的一些性質(zhì)(1)

對(duì)稱(symmetric);(2)

冪等(idempotent):H2=H;(3)

1/n≤hii

≤1;(4)

特征值:theeigenvaluesarealleither0or1,(#of1s=Rank(H));(5)

Rank(H)=Rank(X)=p,(tr(H)=Σhii=p).第四十七頁(yè),共一百七十九頁(yè)。Onaverage:hii=p/n;經(jīng)驗(yàn)公式:Aruleofthumb:hii>2p/n→highleveragepointi.第四十八頁(yè),共一百七十九頁(yè)。Leverage的度量: Cook’sdistance

當(dāng)Di<<1時(shí),沒有highleverage的問題.(注意:highleveragepoint不一定會(huì)很大地改變參數(shù)估計(jì)值.)[圖]第四十九頁(yè),共一百七十九頁(yè)。異類點(diǎn)及其處理

異類點(diǎn)(Outliers)通常指的是這樣一種情況:資料不純(contamination),即資料中的一個(gè)記錄(點(diǎn))或某項(xiàng)記錄(點(diǎn))顯然與其他大部分記錄(點(diǎn))”不一樣”.第五十頁(yè),共一百七十九頁(yè)。異類點(diǎn)的統(tǒng)計(jì)模型

原假設(shè):

備用假設(shè)1: 確定性備用假設(shè)(deterministicalternative)

有記錄或測(cè)量誤差;

備用假設(shè)2: 內(nèi)在性備用假設(shè)(inherentalternative)

第五十一頁(yè),共一百七十九頁(yè)。 備用假設(shè)3: 混合型備用假設(shè)(mixturealternative)

備用假設(shè)4: 滑動(dòng)型備用假設(shè)(slippagealternative)

除了事先確定的k個(gè)點(diǎn)之外(確定指的是數(shù)目k而不是點(diǎn))所有其他點(diǎn)都屬于F.F由位置參數(shù)(location)μ和等級(jí)參數(shù)(scale)σ2

確定.而k個(gè)點(diǎn)則來(lái)自μ和σ2有變動(dòng)的版本F;第五十二頁(yè),共一百七十九頁(yè)。 備用假設(shè)5: 可變換型備用假設(shè)(exchangeablealternative)

只有一個(gè)異類點(diǎn)

j等可能地來(lái)自[1,2,…,n].第五十三頁(yè),共一百七十九頁(yè)。異類點(diǎn)的處理方法

(1)找出并剔除(discardancytest):例如基于殘差的檢驗(yàn).注意:當(dāng)用max{r(-i)}n的P值進(jìn)行檢驗(yàn)時(shí),需要考慮所謂的Bonferronicorrection.(2)去除或減少其影響(accommodation):穩(wěn)健性(robust)統(tǒng)計(jì).注意:異類點(diǎn)常常是重大杠桿點(diǎn),但重大杠桿點(diǎn)不一定是異類點(diǎn).第五十四頁(yè),共一百七十九頁(yè)。BonferroniInequality

ntestseachofsizeα,theprobabilityoffalselylabellingatleastonepoint,anoutlierisnograterthannα.如果選α’=α/n,則可得保守的α值

第五十五頁(yè),共一百七十九頁(yè)。穩(wěn)健性回歸(Robustregression)

穩(wěn)健性統(tǒng)計(jì)的一些方法(以位置[location]估計(jì)為例):(1)修剪法(trimming)略去r個(gè)最小的和s個(gè)最大的樣本值:或者取 αn=r+f (0<f<1)第五十六頁(yè),共一百七十九頁(yè)。(2)溫莎法(Winsorizing)或者類似于定義第五十七頁(yè),共一百七十九頁(yè)。(3)L估計(jì)量,M估計(jì)量和R估計(jì)量L-estimators(LinearOrderStatisticsestimators)

注意:修剪法和溫莎法都是L估計(jì)量.第五十八頁(yè),共一百七十九頁(yè)。M-estimators找出方程 關(guān)于

的解.注意:當(dāng)密度函數(shù)為f(x-μ)

時(shí),取,

就是似然方程的解.R-estimators

由一定的秩檢驗(yàn)(ranktest,如Wilcoxontest)的程度所取得.第五十九頁(yè),共一百七十九頁(yè)。為什么要穩(wěn)健性回歸

替代方法是分兩步走:(1)去除異類點(diǎn);(2)用經(jīng)典方法進(jìn)行回歸.但是去除異類點(diǎn)首先需要可靠的參數(shù)估計(jì);原先的分布假設(shè)可能不對(duì);經(jīng)驗(yàn)表明穩(wěn)健性方法往往比剔除異類點(diǎn)的方法更可取.因?yàn)樗粵Q斷地接受或拒絕一個(gè)觀察點(diǎn).第六十頁(yè),共一百七十九頁(yè)。穩(wěn)健性回歸的要求

(1)在假定模型下是好的估計(jì);(2)假如資料對(duì)模型假定有一點(diǎn)偏離,其參數(shù)估計(jì)還是”穩(wěn)健的”;(3)如果資料對(duì)模型假定有較大的偏離,參數(shù)估計(jì)也不是”災(zāi)難性”的.第六十一頁(yè),共一百七十九頁(yè)。穩(wěn)健性回歸的幾個(gè)例子

(1)考慮M估計(jì)量當(dāng) 時(shí),它就是LS估計(jì).取 這里0<f<2.較小的f等價(jià)于給較大的殘差以較小的權(quán).第六十二頁(yè),共一百七十九頁(yè)。特別地,當(dāng)f=1時(shí),稱之為L(zhǎng)eastAbsoluteDeviationEstimation,又叫L1-regression.或者取 這里c>0是一個(gè)常數(shù).第六十三頁(yè),共一百七十九頁(yè)。(2)考慮下列步驟:(i)對(duì)Yi回歸,得Y^i,s和ri(或r(-i));(ii)WinsorizeYi:這里c是穩(wěn)健控制值,一般取1到2之間.(iii)對(duì)Y*i回歸,得新的Y^i,s和ri(或r(-i));重復(fù)(i)和(ii)直到收斂.第六十四頁(yè),共一百七十九頁(yè)。注意:當(dāng)用:e*i=Y*i-Y^i

代替:ei=Yi-Y^i時(shí),將會(huì)低估σ2

修正方法:這里m是未修改的Y的數(shù)目.第六十五頁(yè),共一百七十九頁(yè)。(3)LTSregression

這里h<n,稱之為L(zhǎng)eastTrimmedSquaresRegression第六十六頁(yè),共一百七十九頁(yè)。(4)LMSregression

稱之為L(zhǎng)eastMedianofSquaresRegression注意:穩(wěn)健性回歸的思想具有一般的意義.第六十七頁(yè),共一百七十九頁(yè)。5.廣義線性模型

(GeneralizedLinearModels)線性模型的推廣一大類回歸模型有完整的理論結(jié)構(gòu)第六十八頁(yè),共一百七十九頁(yè)。邏輯回歸(LogisticRegression)

如果應(yīng)變量Yi只能取兩個(gè)值0和1,則Yi服從二點(diǎn)分布(Bernoullidistribution).

設(shè)

則 第六十九頁(yè),共一百七十九頁(yè)。邏輯函數(shù): 第七十頁(yè),共一百七十九頁(yè)。邏輯回歸模型

設(shè) 這里g定義為連系函數(shù)(linkfunction),連系函數(shù)將線性組合Xiβ與數(shù)學(xué)期望pi連在一起.

則 即p是關(guān)于η的邏輯函數(shù),且有0<pi<1.第七十一頁(yè),共一百七十九頁(yè)。參數(shù)β的極大似然估計(jì)

由 得似然函數(shù) 于是

forr=1,2,…k.

第七十二頁(yè),共一百七十九頁(yè)。費(fèi)雪信息矩陣(Fisherinformationmatrix)

這里 第七十三頁(yè),共一百七十九頁(yè)。當(dāng) 是邏輯連系函數(shù)時(shí)

注意:需用疊代算法求出β^,即解方程組.第七十四頁(yè),共一百七十九頁(yè)。參數(shù)估計(jì)β^的性質(zhì)

事實(shí)上β^是漸進(jìn)正態(tài)分布的.第七十五頁(yè),共一百七十九頁(yè)。擬合優(yōu)度

差異函數(shù)(deviancefunction): (注意:0?log(0)=0)如果模型假定正確,D漸進(jìn)服從;如有兩個(gè)嵌套模型H0

和HA,則D0–DA

漸進(jìn)服從.第七十六頁(yè),共一百七十九頁(yè)。注意:嵌套模型的檢驗(yàn)比顯著性檢驗(yàn)D更強(qiáng),即D服從的要求比較高,D0–DA

服從的要求比較低,甚至當(dāng)D0和DA

都不服從和時(shí)亦成立.第七十七頁(yè),共一百七十九頁(yè)。二項(xiàng)分布(Binomialdistribution)的情形

等價(jià)于mj個(gè)貝努里實(shí)驗(yàn),且有: 第七十八頁(yè),共一百七十九頁(yè)。設(shè)連系函數(shù)為

似然函數(shù)[去掉常數(shù)項(xiàng)]為

第七十九頁(yè),共一百七十九頁(yè)。有這里第八十頁(yè),共一百七十九頁(yè)。當(dāng) 是邏輯連系函數(shù)時(shí)

差異函數(shù)

第八十一頁(yè),共一百七十九頁(yè)。正態(tài)連系函數(shù)(probitlinkfunction)

如果連系函數(shù)取所謂的probitlink的話,即

則有: 和 將此式代入,既可得對(duì)應(yīng)的和W.

第八十二頁(yè),共一百七十九頁(yè)。普阿松回歸(PoissonRegression)

應(yīng)變量Yi只能取非負(fù)的離散值(事實(shí)上只需要一邊有界),其離散程度大致與其水平成正比例.設(shè)即則 第八十三頁(yè),共一百七十九頁(yè)。設(shè)

(對(duì)數(shù)連系函數(shù))則對(duì)任何X和β有 第八十四頁(yè),共一百七十九頁(yè)。參數(shù)β的極大似然估計(jì)

去掉常數(shù)項(xiàng)后

這里 第八十五頁(yè),共一百七十九頁(yè)。當(dāng) 時(shí)(對(duì)數(shù)連系函數(shù))

注意:需用疊代算法求出β^,即解方程組第八十六頁(yè),共一百七十九頁(yè)。參數(shù)估計(jì)β^的性質(zhì)

β^漸進(jìn)服從N[β,(XTWX)-1)]第八十七頁(yè),共一百七十九頁(yè)。擬合優(yōu)度

差異函數(shù):

如果模型假定正確,D漸進(jìn)服從;如有兩個(gè)嵌套模型H0

和HA,則D0–DA

漸進(jìn)服從.第八十八頁(yè),共一百七十九頁(yè)。過度離散(over-dispersion)

實(shí)際案例中常有 如對(duì)應(yīng)于負(fù)二項(xiàng)分布的情形.解決方法:

設(shè) 估計(jì) 第八十九頁(yè),共一百七十九頁(yè)。廣義線性模型

四個(gè)組成部分

1。數(shù)學(xué)期望(均值)

E(Yi

)=i

2。線性預(yù)測(cè)量(linearpredictor)

i=Xi3。連系函數(shù)(linkfunction)

g(i)=i

4。方差函數(shù)(variancefunction)

Var(Yi)=V(i)第九十頁(yè),共一百七十九頁(yè)。線性指數(shù)分布族

(linearexponentialfamily)

形式如:

L(,;y)=exp{[y-c()]/+h(y,)}(這里假定是已知的。如果是未知的,它可能是二參數(shù)的指數(shù)分布族,也可能不是。)第九十一頁(yè),共一百七十九頁(yè)。對(duì)線性指數(shù)分布族有:

E(y)=c()

Var(y)=c()

V()這里稱之為離散參數(shù)(dispersionparameter)第九十二頁(yè),共一百七十九頁(yè)。常用分布的離散參數(shù)和方差函數(shù)分布V()正態(tài)分布(normal)21普阿松分布(Poisson)1伽瑪分布(Gamma)1/2兩點(diǎn)分布(Bernoulli)1(1-)二項(xiàng)分布(binomial)1/m(1-)第九十三頁(yè),共一百七十九頁(yè)。當(dāng)連系函數(shù)g取c的反函數(shù)(記之為c-1)形式時(shí),我們稱g為標(biāo)準(zhǔn)連系函數(shù)(canonicallink)第九十四頁(yè),共一百七十九頁(yè)。常用分布的標(biāo)準(zhǔn)連系函數(shù)

分布cc連系函數(shù)正態(tài)分布(normal)2/2恒等g()=普阿松分布(Poisson)e

e對(duì)數(shù)g()=log()伽瑪分布(Gamma)-log(-)–(1/)倒數(shù)g()=-1/兩點(diǎn)分布(Bernoulli)log(1+e)e/(1+e)邏輯(logit)g()=log[/(1-)]二項(xiàng)分布(binomial)log(1+e)e/(1+e)邏輯(logit)g()=log[/(1-)]第九十五頁(yè),共一百七十九頁(yè)。其他常用連系函數(shù):正態(tài)(probit): g()=-1();冪族(powerfamily):g()=(0) g()=log()(=0)余雙對(duì)數(shù)(complementarylog-log) g()=log[-log(1-)]第九十六頁(yè),共一百七十九頁(yè)。參數(shù)估計(jì)()

線性指數(shù)分布族的似然估計(jì)方程組是

(Yi-i)/iV(i)i/r=0r=1,2,…,k對(duì)廣義線性模型,它成為

(Yi-i)/iV(i)xir/g(i)=0r=1,2,…,k第九十七頁(yè),共一百七十九頁(yè)。當(dāng)離散參數(shù)i

=aii=1,2,…,n時(shí),該方程組成為

(Yi-i)/aiV(i)xir/g(i)=0(*)r=1,2,…,k而當(dāng)連系函數(shù)g是標(biāo)準(zhǔn)連系函數(shù)時(shí),有

Yixir/ai=ixir/air=1,2,…,k第九十八頁(yè),共一百七十九頁(yè)。一般來(lái)說方程組(*)沒有直接的解法。當(dāng)V()=1,g()=

時(shí)(線性模型),解是

^

=(XTW-1

X)-1

XTW-1

Y這里W=diag(1/ai)第九十九頁(yè),共一百七十九頁(yè)。迭代加權(quán)最小二乘法

(iterativeweightedleastsquares,簡(jiǎn)寫為IWLS)

考慮變量

zi=i+(Yi-i)g(i)有

E(zi)=i=xi

rVar(zi)=[g(i)]2aiV(i)第一百頁(yè),共一百七十九頁(yè)。迭代算法:(1)從某一個(gè)i(0)

開始(通常取i(0)

=Yi)得i(0)=g(i(0));(2)給定i(t)

和i(t)

,算出zi(t)=i(t)+(Yi-i(t))g(i(t))wi(t)=1/[g(i(t))]2aiV(i(t))i=1,2,…,n;第一百零一頁(yè),共一百七十九頁(yè)。(3)給出估計(jì)(t+1)=(XTW(t)X)-1XTW(t)

z(t)(這里W(t)

=diag(wi(t)))定義(t+1)=X(t+1)

(t+1)=g-1((t+1))重復(fù)步驟(2)和(3)直到收斂。第一百零二頁(yè),共一百七十九頁(yè)。迭代加權(quán)最小二乘估計(jì)的性質(zhì)

^~*N(,i-1())這里

i-1()=-1

XT

WXW=diag(wi)wi=1/[g(i)]2aiV(i)i=1,2,…,n第一百零三頁(yè),共一百七十九頁(yè)。估計(jì)量方差的估計(jì)

Cov^(^)=(XT

W^X)-1

的估計(jì):

~=1/(n-p)(Yi-i^)/[aiV(i^)]第一百零四頁(yè),共一百七十九頁(yè)。擬合優(yōu)度

定義差異函數(shù)(deviance)為D(y;^)=2[l(y;y,)–l(y;^,)]如果模型假定正確,D漸進(jìn)服從;如有兩個(gè)嵌套模型H0

和HA,則D0–DA

漸進(jìn)服從.第一百零五頁(yè),共一百七十九頁(yè)。常用分布的差異函數(shù)

正態(tài)分布(y-^)2普阿松分布2[y(log(y/^)-(y-^)]二項(xiàng)分布2{y(log(y/^)+(m-y)log[(m-y)/(m-^)]}伽瑪分布2[-log(y/^)+(y-^)/^]第一百零六頁(yè),共一百七十九頁(yè)。在原假定下,D漸進(jìn)服從;如有兩個(gè)嵌套模型H0

和HA,則D0–DA

漸進(jìn)服從.第一百零七頁(yè),共一百七十九頁(yè)。非參數(shù)回歸

(non-parametricregression)

離散圖平滑法(scatterplotsmoother):假定X只含有一個(gè)變量x.在x上定義一個(gè)函數(shù): s(x)=S(Y|x)

一般s(x)定義在x的所有定義域上,但也可能只定義在觀察值上.這時(shí)對(duì)一般的s(x0)就需要用某種插值法計(jì)算.

第一百零八頁(yè),共一百七十九頁(yè)。類型:(1)格子平滑法(binsmoother,regressogram):選點(diǎn): 定義: 取: 第一百零九頁(yè),共一百七十九頁(yè)。(2)移動(dòng)平均法(running-meansmoother,movingaveragesmoother):定義: 取: 第一百一十頁(yè),共一百七十九頁(yè)。(3)跑動(dòng)直線平滑法(running-linesmoother):取: 這里 是對(duì)回歸的LS估計(jì)量.第一百一十一頁(yè),共一百七十九頁(yè)。倘若這個(gè)回歸是加權(quán)的,則是所謂的loess(locally-weightedrunning-linesmoother).具體地說可采取下列步驟:(i)找出與最接近的k個(gè)樣本點(diǎn),記為;(ii)定義:(iii)取權(quán)數(shù) 這里 (iv)第一百一十二頁(yè),共一百七十九頁(yè)。(4)核平滑法(kernelsmoother):

取: 對(duì)點(diǎn)的權(quán)數(shù)為

第一百一十三頁(yè),共一百七十九頁(yè)。這里λ是窗寬參數(shù)(window-widthparameter);c0是個(gè)常數(shù),通常使權(quán)數(shù)的和為一;d(t)是關(guān)于|t|的減函數(shù),如: (Gaussiankernel) (Epanechnikovkernel) (minimumvariancekernel)等等.注意:窗寬參數(shù)λ的選擇比核函數(shù)的選擇重要的多.第一百一十四頁(yè),共一百七十九頁(yè)。(Gaussiankernel)(Epanechnikovkernel)

(minimumvariancekernel)第一百一十五頁(yè),共一百七十九頁(yè)。(5)回歸樣條(regressionspline):找出k個(gè)節(jié)點(diǎn)(knots): 取: (+表示正的部分)第一百一十六頁(yè),共一百七十九頁(yè)。S(x)有三個(gè)特性(i)在任何區(qū)間內(nèi)是三次函數(shù); (ii)有一階和二階連續(xù)導(dǎo)數(shù); (iii)三階導(dǎo)數(shù)是個(gè)階梯函數(shù).當(dāng)加上節(jié)點(diǎn)以外函數(shù)為線性的附加限制時(shí),(三次)樣條稱之為自然樣條(naturalspline).給定節(jié)點(diǎn)的數(shù)目和位置,未知參數(shù)可用回歸法求得.但如何確定節(jié)點(diǎn)的數(shù)目和位置是個(gè)較復(fù)雜的問題.第一百一十七頁(yè),共一百七十九頁(yè)。(6)三次平滑樣條(cubicsmoothingspline):找出一個(gè)有一階和二階連續(xù)導(dǎo)數(shù)的任意函數(shù)f,使這里λ是個(gè)固定常數(shù),.可以證明這個(gè)函數(shù)是節(jié)點(diǎn)取在所有上的naturalcubicspline.第一百一十八頁(yè),共一百七十九頁(yè)。平滑參數(shù)λ

設(shè)離散圖平滑的模型是:

定義: (averagemean-squarederror) (averagepredictivesquarederror) (這里Yi*是在點(diǎn)xi上的一個(gè)新觀察值).有: 第一百一十九頁(yè),共一百七十九頁(yè)。定義: (cross-validationsumofsquares)有:

(注意: (averagesquaredresidual)不是PSE的好的估計(jì)量).可以用下列標(biāo)準(zhǔn)確定λ:

第一百二十頁(yè),共一百七十九頁(yè)。定義: 線性平滑法:

對(duì)任意常數(shù)a和b,有上述平滑法都是線性平滑法.第一百二十一頁(yè),共一百七十九頁(yè)。對(duì)于觀察點(diǎn)來(lái)說,一個(gè)線性平滑法可表示為這里S是一個(gè)矩陣,稱為平滑矩陣(smoothermatrix).對(duì)于一個(gè)線性平滑法來(lái)說,定義偏

第一百二十二頁(yè),共一百七十九頁(yè)。有:

第一百二十三頁(yè),共一百七十九頁(yè)。定義: Mallows’Cp這里

λ*是個(gè)很小的數(shù)(盡量減小偏).因?yàn)樗訡p是PSE的一個(gè)估計(jì).可以用下列標(biāo)準(zhǔn)確定λ:

第一百二十四頁(yè),共一百七十九頁(yè)。注意: (1)Cp只適用于線性平滑法,CV則適用于一般的平滑法. (2)在實(shí)際應(yīng)用時(shí)上述兩法時(shí)常特性不佳.這時(shí)用直觀的圖像法選擇λ可能更可靠一些. (3)用自由度來(lái)確定λ也是常用的方法.第一百二十五頁(yè),共一百七十九頁(yè)。平滑法的自由度

有三個(gè)表示:(1)自由度:對(duì)于一個(gè)線性平滑法

第一百二十六頁(yè),共一百七十九頁(yè)。(2)誤差自由度:對(duì)非線性平滑法的一般定義是:第一百二十七頁(yè),共一百七十九頁(yè)。(3)方差自由度:對(duì)非線性平滑法的一般定義是:第一百二十八頁(yè),共一百七十九頁(yè)。注意:I如果S是個(gè)對(duì)稱投影矩陣(symmetricprojectionmatrix)(例如線性回歸,多項(xiàng)式回歸,回歸樣條),則有II對(duì)于三次平滑樣條有并且三者都是關(guān)于λ的減函數(shù).第一百二十九頁(yè),共一百七十九頁(yè)。置信區(qū)間

對(duì)于線性平滑 有

這里偏向量是依賴于未知函數(shù)f的.在一定假定下偏的一個(gè)估計(jì)是于是可取的對(duì)角線元素構(gòu)造置信區(qū)間.第一百三十頁(yè),共一百七十九頁(yè)。這里取自由度

第一百三十一頁(yè),共一百七十九頁(yè)。近似的F檢驗(yàn)

對(duì)于兩個(gè)線性平滑法 (假定f1^比f(wàn)2^更平滑),有

第一百三十二頁(yè),共一百七十九頁(yè)。一個(gè)更好的檢驗(yàn)是取

第一百三十三頁(yè),共一百七十九頁(yè)。相加模型(additivemodel)

一般的相加模型可表示為這里 第一百三十四頁(yè),共一百七十九頁(yè)。懲罰性的最小二乘條件(penalizedleast-squares):

可以用使penalizedleast-squares最優(yōu)化的方法來(lái)求得合適的相加模型.第一百三十五頁(yè),共一百七十九頁(yè)。注意:(1)所謂半?yún)?shù)模型(semi-parametricmodel)是相加模型的一個(gè)重要特例,如:(2)相加模型可以包括某一個(gè)或某幾個(gè)自變量是離散變量的情況.(3)相加模型可以包括某一個(gè)或某幾個(gè)函數(shù)是多元函數(shù)的情況,如:當(dāng)然這時(shí)需用scatterplotsmoother的多維推廣.第一百三十六頁(yè),共一百七十九頁(yè)。廣義相加模型

(generalizedadditivemodels)

類似于從線性模型推廣到廣義線性模型的思路,相加模型可以推廣成廣義相加模型.即定義四個(gè)組成部分

1。數(shù)學(xué)期望(均值)

2。相加預(yù)測(cè)量(additivepredictor)

3。連系函數(shù)(linkfunction)

4。方差函數(shù)(variancefunction)第一百三十七頁(yè),共一百七十九頁(yè)。Algorithm

其求解的思路也類似廣義線性模型(1)Initialize:(2)Update:with

第一百三十八頁(yè),共一百七十九頁(yè)。

Constructweights

Fitaweightedadditivemodeltozi,toobtainestimatedComputetheconvergencecriterion

第一百三十九頁(yè),共一百七十九頁(yè)。(3)Repeatstep(2)replacingbyuntil isbelowsomesmallthreshold.第一百四十頁(yè),共一百七十九頁(yè)。注意:所謂半?yún)?shù)廣義線性模型(semi-parametricgeneralizedlinearmodel)是廣義相加模型的一個(gè)重要特例,如:

第一百四十一頁(yè),共一百七十九頁(yè)。7.模型選擇模型選擇的目的常常是尋找一個(gè)最簡(jiǎn)單的合理的模型來(lái)恰當(dāng)?shù)孛枋鏊^察到的資料.可以粗略地分為兩大類問題:(1)同一類模型中參數(shù)和變量個(gè)數(shù)的選擇;(2)不同類模型之間的比較.第一百四十二頁(yè),共一百七十九頁(yè)。一個(gè)事實(shí):如果真正的模型是而我們所用的回歸模型是最小二乘估計(jì)是 則 即一般這個(gè)估計(jì)是有偏的.

第一百四十三頁(yè),共一百七十九頁(yè)。且有

注意:項(xiàng)數(shù)太少會(huì)造成參數(shù)估計(jì)有偏;項(xiàng)數(shù)太多不會(huì)造成參數(shù)估計(jì)有偏,但因?yàn)闇p少了自由度從而造成效率(精確度)的喪失.第一百四十四頁(yè),共一百七十九頁(yè)。選擇回歸變量的基本步驟

(1)確定最大的模型:保證”正確”的模型在它之內(nèi);(2)確定選擇模型的條件;(3)確定選擇變量的策略;(4)用最后的模型分析資料;(5)評(píng)估模型的可靠性.第一百四十五頁(yè),共一百七十九頁(yè)。確定最大的模型

可以包括:(1)所有基本的回歸變量;(2)基本回歸變量的高階冪(等等);(3)基本回歸變量的其它轉(zhuǎn)換如對(duì)數(shù),倒數(shù)等等;(4)基本回歸變量之間二階或更高階的交互影響(interaction);(5)(在某些問題中)所有的控制變量和它們的(2),(3),(4).第一百四十六頁(yè),共一百七十九頁(yè)。注意:不要選太大的最大模型(會(huì)損失可靠性),宜中心突出,針對(duì)問題.還應(yīng)注意共線性問題.經(jīng)驗(yàn)公式: (樣本大小和變量個(gè)數(shù)的比例)第一百四十七頁(yè),共一百七十九頁(yè)。確定選擇模型的條件

(1)確定系數(shù)此法只適用于參數(shù)個(gè)數(shù)相同的情形.因?yàn)閷?duì)嵌套模型而言,是關(guān)于p的增函數(shù),而無(wú)理論基礎(chǔ).第一百四十八頁(yè),共一百七十九頁(yè)。(2)對(duì)于嵌套的線性回歸模型,可用統(tǒng)計(jì)量當(dāng)F檢驗(yàn)不顯著時(shí),可以用較簡(jiǎn)單的p個(gè)變量模型.第一百四十九頁(yè),共一百七十九頁(yè)。(3)定義選擇較小的第一百五十頁(yè),共一百七十九頁(yè)。(4)Mallow’sCp這里k是最大的模型.選擇較小的或最小的Cp注意:當(dāng) 時(shí), 第一百五十一頁(yè),共一百七十九頁(yè)。ACI(Akaikeinformationcriterion)

選擇較小的或最小的ACI注意:Mallow’sCp是ACI的一個(gè)特例.第一百五十二頁(yè),共一百七十九頁(yè)。確定選擇變量的策略

(1)列出所有的回歸模型;

共有個(gè),通常不實(shí)際.第一百五十三頁(yè),共一百七十九頁(yè)。(2)向后剔除法(Backwardelimination):步驟:(i)給出最大的回歸模型;(ii)一次去掉一個(gè)變量,其對(duì)應(yīng)的t值(或等價(jià)地,其PartialF值)在所有變量只中是最小的,且低于給定的顯著性水平.直到?jīng)]有這樣的變量.注意:兩次去掉一個(gè)變量不等價(jià)于一次去掉兩個(gè)變量(即使是相同的兩個(gè)變量!).第一百五十四頁(yè),共一百七十九頁(yè)。(3)向前選進(jìn)法(Forwardselection):步驟:(i)選進(jìn)相關(guān)系數(shù)最大的第一個(gè)變量;(ii)一次一個(gè),選進(jìn)一個(gè)變量,其PartialF最大(在已定模型,既現(xiàn)有變量下),且其p值大于給定的顯著性水平.直到?jīng)]有這樣的變量.注意:A兩次進(jìn)一個(gè)變量不等價(jià)于一次進(jìn)兩個(gè)變量.B(ii)等價(jià)于計(jì)算部分相關(guān)系數(shù),即Residualofcurrentmodel對(duì)Xj.第一百五十五頁(yè),共一百七十九頁(yè)。(4)逐步回歸(Stepwiseregression):步驟:(i)同向前選進(jìn)法(i);(ii)選進(jìn)一個(gè)變量,同向前選進(jìn)法(ii);(iii)去掉一個(gè)變量(如有必要),同向后剔除法(ii);直到?jīng)]有變量進(jìn),也沒有變量出.第一百五十六頁(yè),共一百七十九頁(yè)。(5)脊嶺回歸:如前所述.(6)PRESS法:定義:

這里是除去第i項(xiàng)后由模型對(duì)Yi

的預(yù)測(cè)值.找出一個(gè)模型,其PSS較小且不含有太多的回歸變量.第一百五十七頁(yè),共一百七十九頁(yè)。階段回歸(Stagewiseregression):步驟:(i)找出最大相關(guān)自變量,得到回歸模型

(ii)以此模型的殘差作為應(yīng)變量,找出下一個(gè)最大相關(guān)自變量,得到回歸模型如果模型顯著,則新的模型為

(iii)再定義為應(yīng)變量,重復(fù)(ii)直到?jīng)]有新的變量能進(jìn)入.注意:最后的模型不等價(jià)于最小二乘估計(jì).第一百五十八頁(yè),共一百七十九頁(yè)。測(cè)度誤差問題

(MeasurementErrors)

有些自變量有較大的測(cè)度誤差或不可能直接觀測(cè)到.將自變量分成兩部分: X_有測(cè)度誤差的自變量,設(shè)W是它們的觀察值; Z_沒有測(cè)度誤差的自變量.定義:

函數(shù)型模型(classicalfunctionalmodels):X是固定常數(shù)(未觀察到);

構(gòu)造型模型(classicalstructuralmodels):X是隨機(jī)變量.第一百五十九頁(yè),共一百七十九頁(yè)。測(cè)度誤差的模型

有兩種一般的模型:(1)誤差模型(errormodels)

給出條件分布W|Z,X的模型如:(a) (b)第一百六十頁(yè),共一百七十九頁(yè)。(2)回歸校正模型(regressioncalibration

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論