衛(wèi)生統(tǒng)計(jì)學(xué)-11 -多重線性回歸分析_第1頁
衛(wèi)生統(tǒng)計(jì)學(xué)-11 -多重線性回歸分析_第2頁
衛(wèi)生統(tǒng)計(jì)學(xué)-11 -多重線性回歸分析_第3頁
衛(wèi)生統(tǒng)計(jì)學(xué)-11 -多重線性回歸分析_第4頁
衛(wèi)生統(tǒng)計(jì)學(xué)-11 -多重線性回歸分析_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

11多重線性回歸分析身高:不僅受到遺傳因素的影響,而且還受到營養(yǎng)狀況、體育鍛煉情況、居住環(huán)境因素的作用;血壓:除了與年齡有關(guān)外,還與家族史、飲食習(xí)慣、勞動強(qiáng)度等因素有關(guān)。生物醫(yī)學(xué)研究領(lǐng)域中多因素相互作用現(xiàn)象非常普遍…問題:在影響疾病眾多因素中,哪些是主要因素?各個因素作用有多大?由于涉及到的自變量X的增多,變量間的關(guān)系變的復(fù)雜?多重線性回歸:是研究一個因變量和多個自變量之間線性關(guān)系的統(tǒng)計(jì)學(xué)分析方法。目的:用回歸方程的方式定量地描述一個因變量Y和多個自變量X1、X2、

X3、…

、Xp

之間的線性依存關(guān)系。回歸分析1個因變量Y1個自變量X2個以上自變量XY是數(shù)值變量Y是分類型變量兩個因變量(結(jié)局分類變量+時間)生存分析Cox回歸④簡單回歸SimpleregressionLogistic回歸Logistic

regression多重回歸Multipleregression①②③常用的回歸分析中分類:曲線回歸線性回歸

自變量X因變量Y

統(tǒng)計(jì)方法單因單果1個1個簡單線性相關(guān)simplelinearcorrelation簡單線性回歸simplelinearregression多因單果多個1個多重相關(guān)multiplecorrelation多重回歸multipleregression多因多果多個多個典則相關(guān)cononicalcorrelation多元回歸multivariateregression單因單果(扣除其它變量影響)1個1個部分偏相關(guān)partialcorrelation概念區(qū)分:11.1多重線性回歸的概述例12-1:試對大氣污染一氧化氮(NO)的濃度和汽車流量、氣溫、氣濕、風(fēng)速等的關(guān)系進(jìn)行回歸分析。車流量、氣溫、氣濕、風(fēng)速4因素是否都對空氣中NO的濃度有影響?如何定量地描述這種影響?哪個因素對NO的影響最大?哪個因素影響的最小?如何利用這些影響因素去預(yù)測空氣中NO的濃度?如何預(yù)測?效果如何?如果想在控制氣溫、氣濕和風(fēng)速的條件下,如何定量地描述NO濃度與車流量的關(guān)系?多重線性回歸擬回答以下問題:1.多重線性回歸適用條件僅適用于1個應(yīng)變量y和多個自變量x。要求1個應(yīng)變量y和該組因變量x間滿足線性、獨(dú)立性、正態(tài)性、方差齊性的要求。注意樣本中的極端值,必要時可剔除或進(jìn)行變量變換。多重線性回歸(multiplelinarregression)稱為y的預(yù)測值,指對于某個確定x的群體,y平均值的估計(jì)。b0:常數(shù)項(xiàng)(constant),截距(intercept);即所有自變量x取值均為0時,y的平均估計(jì)值。bi:變量xi的偏回歸系數(shù)(partialregressioncoefficient),是總體參數(shù)βi

的估計(jì)值;指在方程中其它自變量固定不變的情況下,xi每增加或減少一個計(jì)量單位,反應(yīng)變量Y平均變化bi個單位。2.模型的基本結(jié)構(gòu):回歸系數(shù)的標(biāo)準(zhǔn)化:問題:對NO濃度的貢獻(xiàn),哪個因素作用的大一點(diǎn),哪個小一些?2.求標(biāo)準(zhǔn)化偏回歸系數(shù):用標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行回歸模型的擬合,算出它的方程,此時所獲得的偏回歸系數(shù)b’,叫~。1.自變量數(shù)據(jù)的標(biāo)準(zhǔn)化:b’無單位,可用來比較各個自變量對反應(yīng)變量的貢獻(xiàn)大小未標(biāo)準(zhǔn)化的回歸系數(shù)(偏回歸系數(shù)):用來構(gòu)建回歸方程,即方程中各自變量的斜率。標(biāo)準(zhǔn)化的回歸系數(shù):用于綜合評價各解釋變量對因變量Y的貢獻(xiàn)大小,標(biāo)準(zhǔn)化的回歸系數(shù)越大,說明X對Y的影響幅度越大。比較:3.多重線性回歸分析的基本步驟:

估計(jì)b0、b1、b2

…、bP最小二乘法回歸方程和系數(shù)β的假設(shè)檢驗(yàn)列出回歸方程,統(tǒng)計(jì)應(yīng)用方差分析和t檢驗(yàn)預(yù)測和控制、影響因素分析關(guān)聯(lián)趨勢的圖形考察確定變量篩選的方法數(shù)據(jù)預(yù)處理:強(qiáng)影響點(diǎn)用多重共線性模型診斷:殘差分析是否適合該模型(Line)建模準(zhǔn)備散點(diǎn)圖、散點(diǎn)圖矩陣、重疊/三維散點(diǎn)圖回歸參數(shù)的估計(jì):最小二乘估計(jì)

(leastsquareestimation)兩個自變量時回歸平面示意圖用最小二乘法擬合直線,使得反應(yīng)變量觀測值Yi與回歸方程求得估計(jì)值之間的殘差(樣本點(diǎn)到直線的垂直距離)平方和達(dá)到最小。

.

通過SPSS等統(tǒng)計(jì)軟件,擬合X1、X2、X3、X4關(guān)于空氣中NO濃度的多重線性回歸方程,得:還需要解決的三個問題:就總體而言,這種回歸關(guān)系是否存在?即總體回歸方程是否成立?回歸方程的效果如何?也即這四個變量能解釋反應(yīng)變量Y的百分比是多少?四個自變量是否對反應(yīng)變量Y的影響都有意義?統(tǒng)計(jì)推斷——假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)回歸方程的假設(shè)檢驗(yàn)(modeltest):回歸系數(shù)的假設(shè)檢驗(yàn):目的:檢驗(yàn)求得的回歸方程在總體中是否成立,即是否至少有一個βi≠0;方法:單因素方差分析。目的:即檢驗(yàn)各個偏回歸體系數(shù)βi是否為0;方法:t檢驗(yàn)。統(tǒng)計(jì)推斷:(1)回歸方程的假設(shè)檢驗(yàn):總的來說,若該回歸方程成立,則這些回歸系數(shù)里面至少有一個不為0,只要有一個不為0,這個方程來說總的就是成立的。H0:β1=β2=β3=…=βi=0H1:至少有一個

βi≠0(2)對各個回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)問題:通過假設(shè)檢驗(yàn)方程總的來說成立,1.即至少有1個βi不為0,但到底哪些為0,哪些不為0?2.再者,即使總體回歸系數(shù)為零,也可能得到樣本偏回歸系數(shù)不為0的情況。方法:t檢驗(yàn)回歸方程的解釋:

—這3個因素對空氣中NO濃度(污染)的影響有多大?

1.確定系數(shù)(coefficientofdetermination,R2)

2.復(fù)相關(guān)系數(shù)(multiplecorrelationcoefficient,R)1.確定系數(shù)(coefficientofdetermination,R2)或決定系數(shù):回歸平方和與總平方和之比。反映了一組自變量X對回歸效果的貢獻(xiàn),即Y的總變異中回歸關(guān)系所能解釋的百分比(varianceaccountformula,VAF);反映了回歸模型的擬合效果,可作為反應(yīng)擬合優(yōu)度(goodnessoffit)的指標(biāo)。本題:2.復(fù)相關(guān)系數(shù)(multiplecorrelationcoefficient,R)定義:為確定系數(shù)R2的算術(shù)平方根。反映了隨機(jī)變量Y與一組自變量X對(X1,X2,…,Xp)之間的線性相關(guān)程度,即Y和該組自變量的密切程度。本題:【電腦實(shí)現(xiàn)】

—SPSS1.數(shù)據(jù)錄入多重線性回歸分析:2.SPSS過程【Method】(自變量的選入方法)Enter(強(qiáng)行進(jìn)入法)Stepwise(逐步法)Remove(強(qiáng)制剔除法)Backward(向后法)Forward(向前法)自變量篩選方法的選擇:【Statistics】RegressionCoefficients:回歸系數(shù)Estimate:非標(biāo)準(zhǔn)化及標(biāo)準(zhǔn)化回歸系數(shù)β、標(biāo)準(zhǔn)誤,及其顯著性檢驗(yàn)結(jié)果(t值和P值)。Confidenceintervals:非標(biāo)準(zhǔn)化回歸系數(shù)的95%可信區(qū)間。Modelfit:模型擬合優(yōu)度檢驗(yàn),給出復(fù)相關(guān)系數(shù)R,決定系數(shù)R2,調(diào)整R2及方差分析結(jié)果Rsquaredchange:每剔出或引入一個自變量所引趨同的R2的變化量及相應(yīng)的F值和P值。Descriptives:輸出每個變量的均數(shù)、標(biāo)準(zhǔn)差,樣本容量,相關(guān)系數(shù)及單側(cè)檢驗(yàn)P值的矩陣。Partandpartialcorrelations:簡單相關(guān)系數(shù)及偏相關(guān)系數(shù)。Collinearitydiagnostics:輸出共線性診斷的統(tǒng)計(jì)量。Residuals:用于選擇輸出殘差診斷的信息Allcases:給出所有觀察單位的殘差、標(biāo)準(zhǔn)化殘差和預(yù)測值。3.結(jié)果及結(jié)果輸出:

決定系數(shù)越大,說明構(gòu)建的回歸方程越好⑴Enter:強(qiáng)制引入法⑵

未標(biāo)準(zhǔn)化的回歸系數(shù)及標(biāo)準(zhǔn)誤回歸系數(shù)的t檢驗(yàn)標(biāo)準(zhǔn)化的回歸系數(shù)11.2自變量篩選收集資料時,涉及的自變量很多有些可能存在較大的測量誤差;利用自變量篩選的準(zhǔn)則和方法,產(chǎn)生“最優(yōu)變量”子集,從而建立預(yù)測效果的最優(yōu)模型。有些自變量對反應(yīng)變量無影響或影響甚微;有的變量可能與其它的自變量存在高度的相關(guān)性——共線性α1:設(shè)為入選標(biāo)準(zhǔn);α2設(shè)為剔除標(biāo)準(zhǔn)自變量篩選的常用方法:⑵后退法(backwardregression)⑴前進(jìn)法(forwardregression)⑶逐步法(stepwiseregression)

⑷最優(yōu)子集回歸法(optimunsubsetsregression)【Method】(自變量的選入方法)Enter(強(qiáng)行進(jìn)入法)Stepwise(逐步法)Remove(強(qiáng)制剔除法)Backward(向后法)Forward(向前法)自變量篩選方法的選擇:3.結(jié)果及結(jié)果輸出:

決定系數(shù)越大,說明構(gòu)建的回歸方程越好。⑴STEPWISE:逐步回歸方程的決定系數(shù)

⑵STEPWISE:逐步回歸方程的方差分析表

未標(biāo)準(zhǔn)化的回歸系數(shù)及標(biāo)準(zhǔn)誤回歸系數(shù)的t檢驗(yàn)標(biāo)準(zhǔn)化的回歸系數(shù)⑶STEPWISE:逐步回歸方程的參數(shù)估計(jì)

回歸分析結(jié)果:2.影響因素分析:根據(jù)SPSS輸出結(jié)果,可以認(rèn)為車流量、氣溫和風(fēng)速是影響空氣中NO濃度的主要因素:當(dāng)氣溫、風(fēng)速保持不變的情況下,車流量增加1千輛,估計(jì)NO濃度平均升高0.116×10-6;當(dāng)車流量、風(fēng)速保持不變的情況下,氣溫上升1℃,估計(jì)NO濃度平均升高0.004×10-6;當(dāng)車流量、氣溫保持不變的情況下,風(fēng)速增加1m/s,估計(jì)NO濃度平均減少0.035×10-6。3.根據(jù)標(biāo)準(zhǔn)化偏回歸系數(shù),認(rèn)為作用車流量>氣溫>風(fēng)速。4.根據(jù)確定系數(shù),方程3因素可解釋污染變異的78.7%。1.回歸方程稱為y的預(yù)測值,指對于某個確定x的群體,y平均值的估計(jì)。b0:常數(shù)項(xiàng)(constant),截距(intercept);即所有自變量x取值均為0時,y的平均估計(jì)值。bi:變量xi的偏回歸系數(shù)(partialregressioncoefficient),指在方程中其它自變量固定不變的情況下,xi每增加或減少一個計(jì)量單位,反應(yīng)變量Y平均變化bi個單位。5.多重共線性分析的注意事項(xiàng):11多重線性回歸分析回歸分析1個因變量Y1個自變量X2個以上自變量XY是數(shù)值變量Y是分類型變量兩個因變量(結(jié)局分類變量+時間)生存分析Cox回歸④簡單回歸SimpleregressionLogistic回歸Logistic

regression多重回歸Multipleregression①②③引子:回歸分析曲線回歸線性回歸回歸分析簡單線性:多重線性:logistic回歸線性回歸只1個X:

(簡單)多個X:11.3多重線性回歸的

前提條件及注意事項(xiàng)2.多重線性回歸分析的注意事項(xiàng):1.前提條件和殘差分析—模型假設(shè)診斷2.多重共線性的問題3.啞變量的設(shè)置4.交互作用11.3.2線性回歸分析的前題條件:線性(linear)獨(dú)立性(independent)正態(tài)性(normal)等方差性(equalvariance)線性回歸分析的前題條件linenormal正態(tài)性equalvariance等方差性反應(yīng)變量Y的總體平均值與自變量組合之間呈線性關(guān)系在一定范圍內(nèi)任意給定各個X值,則反應(yīng)變量Y服從正態(tài)分布在一定范圍內(nèi),對應(yīng)于不同X值,Y總體變異保持不變linear線性independent獨(dú)立性指任意兩個觀察值互相獨(dú)立1.線性和方差齊性:殘差散點(diǎn)圖residualplot模型假設(shè)診斷:LINE散點(diǎn)均勻分布在以0為中心,與橫軸平行的帶狀區(qū)域內(nèi),可以認(rèn)為基本滿足線性和方差齊性的假定條件。散點(diǎn)呈現(xiàn)曲線趨勢,提示資料不滿足線性的假定。散點(diǎn)隨預(yù)測值的變化而變化,提示資料不滿足方差齊性的假定。散點(diǎn)隨預(yù)測值的變化而變化且呈曲線趨勢,提示資料不滿足線性和方差齊性的假定。SPSS電腦實(shí)現(xiàn)3.線性和方差齊性檢驗(yàn)結(jié)果—?dú)埐钌Ⅻc(diǎn)圖:

散點(diǎn)均勻分布在以0為中心,與橫軸平行的帶狀區(qū)域內(nèi),可認(rèn)為基本滿足線性和方差齊性的假定條件。2.正態(tài)性:殘差圖residualplot

或正態(tài)概率圖提示殘差滿足正態(tài)分布3.獨(dú)立性:應(yīng)用殘差圖或Durbin-Watson統(tǒng)計(jì)量判斷Durbin-Watson統(tǒng)計(jì)量的取值一般在0-4之間,如果殘差之間相互獨(dú)立,則取值在2左右,如果取值接近0或4,則提示不滿足獨(dú)立性。SPSS電腦實(shí)現(xiàn)3.獨(dú)立性檢驗(yàn):

若殘差之間相互獨(dú)立,則取值在2左右。如果資料不滿足LINE的前提條件:1.不滿足線性條件修改模型或采用曲線擬合;2.不滿足正態(tài)性、方差齊性條件變量變換:包括對數(shù)變換、平方根變換、倒數(shù)變換等;3.不滿足方差齊性:采用其它方法估計(jì)偏回歸系數(shù)。11.3.3多重共線性在進(jìn)行多重線性回歸分析時,除了要滿足LINE外,還要求各變量之間不能存在共線性,即各變量之間要相互獨(dú)立。為此,需要進(jìn)行共線性診斷;當(dāng)自變量均為隨機(jī)變量時,若它們之間高度相關(guān),則稱變量間存在多重共線性(multicollinearity);自變量之間不存在多重共線性,即稱其互相獨(dú)立。例11-2

研究胎兒受精齡Y/周與胎兒身長X1/cm、頭圍X2/cm,體重X3/g之間的依存關(guān)系。顯然,此處的3個解釋變量X1、X2、X3之間存在著高度的共線性,X1、X2、X3兩項(xiàng)對Y的過分貢獻(xiàn)只能用X2項(xiàng)的負(fù)系數(shù)抵消,造成其專業(yè)意義無法解釋而出現(xiàn)悖論。相關(guān)系數(shù)Correlation容忍度

Torelance方差膨脹因子

VIF條件數(shù)Conditionindex方差比例Varianceproportions,VP

方差相關(guān)矩陣VarianceMatrix可用來判斷變量之間的獨(dú)立性、或說多重共線性如果兩個自變量之間的相關(guān)系數(shù)超過0.9,則會帶來共線性問題,如果在0.8以下,一般不會出現(xiàn)多大問題。共線性診斷——1.兩個自變量之間的相關(guān)系數(shù)2.容忍度

Tolerance/方差膨脹因子

VIF容忍度=1/VIF經(jīng)驗(yàn)表明:VIF大于5或10時,存在嚴(yán)重的共線性;一般要求Tolerance必須大于0.1,或VIF必須小于10。3.條件數(shù)conditionindex/方差比例varianceproportions,VP

一般地,當(dāng)條件數(shù)大于10,且有兩個以上的自變量對應(yīng)的方差比例大于0.5時,可以認(rèn)為這些自變量是嚴(yán)重相關(guān)的。

當(dāng)模型診斷發(fā)現(xiàn)了共線性,應(yīng)如何處理?刪除變量:根據(jù)偏相關(guān)系數(shù)大小,去掉其中一個對因變量影響最小的自變量,或根據(jù)方差比例(VP)的大小,去掉VP值大的自變量,重新作共線性檢查,直至多重共線性不存在為止;通徑分析最好的方法采用主成分回歸方法。4.啞變量的設(shè)置自變量X的數(shù)據(jù)類型數(shù)值變量分類變量二分類多分類有序多分類無序多分類等距不等距將有序變量或無序多分類變量轉(zhuǎn)換為多個二分類變量的過程稱為“啞元化”(dummying),得到的多個二分類變量稱為“啞變量”(dummyvariable)例:這種將k個多項(xiàng)無序分類轉(zhuǎn)化為k-1個二分類變量的過程叫分類變量的啞變量化,主要用在多因素分析,如多重線性回歸、Logistic回歸分析中。血型3個啞變量X1X2X3A100B010AB001O000參考類/參考變量表11-5用3個二分類的啞變量描述血型5.交互作用多重線線性回歸中,要注意自變量間是否存在交互作用;可通過引入新的自變量的方法,判斷兩個或多個原自變量間是否存在交互作用;如果存在交互作用,在模型中應(yīng)納入交互相,在結(jié)果解釋時要考慮交互作用的影響。小結(jié)多重線性回歸用于研究一個反應(yīng)變量與多個自變量之間的線性依存關(guān)系,常用于篩選危險(xiǎn)因素、控制混雜因素、分析交互作用、預(yù)測和控制等。其前提條件是LINE,常常用殘差分析的方法考察資料是否滿足這4個條件;如不滿足,可嘗試變量變換,或更換回歸方程。其估計(jì)方程參數(shù)依據(jù)的是最小二乘法原則。偏回歸系數(shù)的含義是當(dāng)其他自變量的取值固定時,自變量每改變一個單位,反應(yīng)變量的平均改變的單位數(shù)。原始偏回歸系數(shù)用于構(gòu)建回歸方程,標(biāo)準(zhǔn)化偏回歸系數(shù)用于比較自變量對反應(yīng)變量的貢獻(xiàn)大小。確定系數(shù)和調(diào)整確定系數(shù)用于說明模型中自變量解釋變量的百分比,可用來評價方程擬合效果的好壞。復(fù)相關(guān)系數(shù)可用來說明某一個變量與多個變量的線性相關(guān)程度。變量篩選的目的是使議程盡量保留對回歸貢獻(xiàn)較大的重要變量而排除對回歸貢獻(xiàn)小的變量,以期用盡量簡潔的模型達(dá)到盡可能高的估計(jì)精度。當(dāng)自變量存在較強(qiáng)的相關(guān)性的時候,回歸模型會出現(xiàn)多重共線性的現(xiàn)象,使得模型參數(shù)估計(jì)不穩(wěn)定或不易解釋。案例討論

預(yù)測人體吸入氧氣的效率。為了解和預(yù)測人體吸入氧氣的效率,某人收集了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論