衛(wèi)生統(tǒng)計學(xué)第十三章多重線性回歸與相關(guān)_第1頁
衛(wèi)生統(tǒng)計學(xué)第十三章多重線性回歸與相關(guān)_第2頁
衛(wèi)生統(tǒng)計學(xué)第十三章多重線性回歸與相關(guān)_第3頁
衛(wèi)生統(tǒng)計學(xué)第十三章多重線性回歸與相關(guān)_第4頁
衛(wèi)生統(tǒng)計學(xué)第十三章多重線性回歸與相關(guān)_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

多重線性回歸與相關(guān)

第十三章簡單線性回歸2多重線性回歸

(multiplelinearregression)多重相關(guān)

(multiplecorrelation)

3第一節(jié)概念及其統(tǒng)計描述

例13-1

為了研究有關(guān)糖尿病患者體內(nèi)脂聯(lián)素水平的影響因素,某醫(yī)師測定了30名患者的體重指數(shù)BMI(kg/m2)、病程DY(年)、瘦素LEP(ng/mL)、空腹血糖FPG(mmol/L)及脂聯(lián)素ADI(ng/mL)水平,數(shù)據(jù)如表13-1所示。一、數(shù)據(jù)與模型

4脂聯(lián)素是一種肽,可抑制炎癥反應(yīng)和減少冠心病的發(fā)生。瘦素是一種由脂肪組織分泌的激素,人們之前普遍認(rèn)為它進(jìn)入血液循環(huán)后會參與糖、脂肪及能量代謝的調(diào)節(jié),促使機體減少攝食,增加能量釋放,抑制脂肪細(xì)胞的合成,進(jìn)而使體重減輕。科學(xué)家在去年的研究表明,在嬰兒時期攝取瘦素,可能可以固定大腦對食欲的反應(yīng),進(jìn)而一生都不會過度飲食。人們是在對老鼠的實驗中得到了這個發(fā)現(xiàn)的。注釋:56偏回歸系數(shù)(partialregressioncoefficient)7標(biāo)準(zhǔn)化偏回歸系數(shù)(standardizedpartialregressioncoefficient)8二、偏回歸系數(shù)的估計前提條件(LINE):線性、獨立、正態(tài)和等方差參數(shù)估計方法:最小二乘法9圖13-1兩個自變量時,回歸平面示意圖1011第二節(jié)多重線性回歸的假設(shè)檢驗一、整體回歸效應(yīng)的假設(shè)檢驗(方差分析)12

表13-2顯示,P<0.0001,拒絕。說明整體而言,用這四個自變量構(gòu)成的回歸方程解釋糖尿病患者體內(nèi)脂聯(lián)素的變化是有統(tǒng)計學(xué)意義的。13二、偏回歸系數(shù)的t檢驗14利用SAS軟件對例13-1的四個偏回歸系數(shù)進(jìn)行t檢驗,并計算標(biāo)準(zhǔn)化偏回歸系數(shù),結(jié)果如表13-3所示。

15第三節(jié)復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù)

一、決定系數(shù)、復(fù)相關(guān)系數(shù)與調(diào)整決定系數(shù)16復(fù)相關(guān)系數(shù)(multiplecorrelationcoefficient)

17調(diào)整的R2(AdjustedR-Square)

18二、偏相關(guān)系數(shù)例:19游泳人數(shù)殘差冷飲銷售量殘差P=0.550920偏相關(guān)系數(shù)(partialcorrelationcoefficient):一般地,扣除其他變量的影響后,變量Y與X的相關(guān)。2122第四節(jié)自變量篩選23一、自變量篩選的標(biāo)準(zhǔn)與原則

1.殘差平方和縮小或決定系數(shù)增大242.殘差均方縮小或調(diào)整決定系數(shù)增大253.統(tǒng)計量這條標(biāo)準(zhǔn)的完整意思是選擇較小并且值接近未知參數(shù)個數(shù)的模型作為較優(yōu)模型的準(zhǔn)則。統(tǒng)計建模的原則:一方面入選自變量不能太多,以使方程易于理解和解釋并降低工作量及研究費用;另一方面自變量也不能太少,以保證一定的估計和預(yù)測精度。故而統(tǒng)計量較小的標(biāo)準(zhǔn)相對得到較多推崇。26二、自變量篩選的常用方法271.所有可能自變量子集選擇

(allpossiblesubsetsselection)最優(yōu)子集回歸:根據(jù)某種變量選擇準(zhǔn)則,通過比較各子集符合準(zhǔn)則的程度,從中選擇出一個或幾個最優(yōu)的回歸.對于有p個自變量,所有可能的子集有(2P-1)個。282.前向選擇(forwardselection)該方法從僅含常數(shù)項的模型開始,首先對每個變量計算反映其進(jìn)入模型后該變量對新模型貢獻(xiàn)量的F值,然后將最大F值與預(yù)先指定的臨界值(Fin)比較,如果最大F值超過Fin,則將最大F值所對應(yīng)的自變量引入模型,否則,停止運行;然后在已有一個自變量的模型基礎(chǔ)上,重復(fù)以上比較過程……這樣,每次給模型增添一個變量,直到剩下的變量再不能使最大F值超過Fin值為止。

293.后向選擇(backwardselection)

首先建立包含所有p個自變量的全模型,然后逐個計算出剔除某一變量后僅包含p-1個自變量的p個模型,同時計算剔除變量后所致?lián)p失的F值,然后將p個F值中的最小者與預(yù)先指定的臨界值Fout相比較,若最小F值低于Fout,則將最小F值所對應(yīng)的自變量從模型中剔除,否則,停止運行;然后在含剩下p-1個自變量的模型基礎(chǔ)上,重復(fù)以上剔除過程……這樣,每次剔除一個最可忽略的變量,直到剩下的變量再不能使最小F值低于Fout值為止。

304.逐步選擇(stepwiseselection)逐步選擇法又稱逐步回歸,其本質(zhì)是前向選擇法,針對向前選擇法在后續(xù)變量進(jìn)入模型后可能使已在方程中的變量變得不重要的現(xiàn)象,同時吸收了向后剔除的做法。即在逐步選擇過程中,把經(jīng)前向選擇F檢驗有意義的變量引入方程后,又對已在方程中的自變量進(jìn)行一次關(guān)于剔除的后向選擇F檢驗,剔除無統(tǒng)計學(xué)意義的變量。反復(fù)進(jìn)行引入、剔除過程,直到既沒有變量被引入,也沒有變量被剔除為止。

31例13-2仍以糖尿病人脂聯(lián)素數(shù)據(jù)為例,通過SAS獲得所有可能自變量子集的運算結(jié)果示于表13-6中。

32表13-6所有可能子集回歸的參數(shù)估計與統(tǒng)計量34*第五節(jié)多重線性回歸的應(yīng)用

35多重共線性(multi-colinearity)例如:有兩個預(yù)測人體體重的變量:X1是以公斤為單位的重量,X2是以克為單位的重量,顯然,X1與X2的相關(guān)系數(shù)為1。

一、多重共線性問題36例13-3對8名學(xué)生的身高(X1)、體重(X2)與肺活量(Y)進(jìn)行了檢測,并由該數(shù)據(jù)生成新的變量體重指數(shù)X3=X2/X1。數(shù)據(jù)如表13-8所示。

37計算得各變量間的相關(guān)系數(shù)如表13-9所示。38F=27.77,P=0.0039,顯示此回歸方程具有統(tǒng)計學(xué)意義。39

矛盾出現(xiàn)了:對整體模型而言,獲得與整體F檢驗P=0.0039的結(jié)果;但是,對于每一個偏回歸系數(shù)而言,卻沒有一個自變量的效應(yīng)具有統(tǒng)計學(xué)意義。問題出在哪里?問題就出在X1,X2和X3與Y共線性,以致偏回歸系數(shù)極不穩(wěn)定,因其標(biāo)準(zhǔn)誤過大而沒有統(tǒng)計學(xué)意義。

40例11-2

陳峰(1991)報告了一個實例。有22例胎兒受精齡(Y,周)與胎兒外形測量指標(biāo):身長(),頭圍(),體重()的數(shù)據(jù)。求得由,,推算的回歸方程為:41原因:通過計算發(fā)現(xiàn)頭圍與身長的相關(guān)系數(shù)等于0.997,頭圍與體重的相關(guān)系數(shù)等于0.947,身長與體重的相關(guān)系數(shù)等于0.944,經(jīng)檢驗均有統(tǒng)計學(xué)意義。多重共線性

421.逐步篩選變量

2.刪除變量

3.主成分回歸方法解決辦法:43例13-3(續(xù))按照水準(zhǔn),對上例中8名學(xué)生的數(shù)據(jù)進(jìn)行肺活量(Y)關(guān)于身高(X1)、體重(X2)與體重指數(shù)體重(X3)的逐步回歸分析。整體F檢驗P=0.000544二、自變量間交互效應(yīng)的回歸模型當(dāng)一個回歸模型中有多于2個自變量時,變量間即可能存在交互效應(yīng)。此時可建立包含各自變量及某些乘積項的回歸模型,通過檢驗乘積項的統(tǒng)計學(xué)意義來考察交互效應(yīng)是否存在。45例13-4

假若有A、B兩種藥品都對帕金森綜合征有改善作用,而且相信聯(lián)合用藥效果比兩種藥單獨作用之和還要好。為探討聯(lián)合用藥方案的可行性,進(jìn)行了隨機平行對照臨床試驗,結(jié)果如表13-12所示。46

經(jīng)用該樣本數(shù)據(jù)擬合包含藥品A與藥品B交互項的多重線性回歸模型,整體模型效應(yīng)的方差分析結(jié)果見表13-13,模型參數(shù)估計與假設(shè)檢驗結(jié)果如表13-14所示。4748三、非同質(zhì)資料的合并問題

例13-5利用某社區(qū)男性和女性各19對收縮壓Y與年齡X的數(shù)據(jù)如表13-15所示,有人通過計算獲得收縮壓隨年齡變化的三個回歸方程如下:

試判斷男女性資料合并后回歸是否合理?49表13-15不同性別兩組年齡(X)與收縮壓(Y)數(shù)據(jù)50

性別是否為一個混雜因素?

分性別的兩條回歸直線的斜率是否相同?如果兩斜率相同,即表示性別與年齡對于收縮壓的影響不存在交互效應(yīng),可合并兩組數(shù)據(jù)擬合自變量同時包含年齡與性別(但不含二者交互效應(yīng))的多重回歸方程;否則,就應(yīng)按不同性別分別擬合年齡與收縮壓的回歸模型。51判斷方法:52性別是一個混雜因素,存在交互作用!53四、通徑分析YY:新生兒出生體重X1:母親年齡X2:產(chǎn)次X3:孕周X4:產(chǎn)前體重X3=a1

X1+a2

X2+e1X4=b1

X1+b2

X2+b3

X3+e2Y=c1

X3+c2

X4+e354Y(X1→

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論