多因素線性回歸_第1頁
多因素線性回歸_第2頁
多因素線性回歸_第3頁
多因素線性回歸_第4頁
多因素線性回歸_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1多重線性回歸分析復(fù)旦大學(xué)生物統(tǒng)計學(xué)教研室2線性回歸模型單因素線性回歸模型(復(fù)習(xí))多重線性回歸方程多重線性回歸模型模型的參數(shù)估計多重線性回歸對資料的要求多重線性回歸舉例應(yīng)用3單因素線性回歸的復(fù)習(xí)4舉例復(fù)習(xí)單因素回歸模型例為了研究3歲至8歲男孩人群平均身高(cm)與年齡(year)的規(guī)律,在某地區(qū)在3歲至8歲男孩中隨機抽樣,共分6個年齡層抽樣:3歲,4歲,…,8歲,每個層抽3名男孩,共抽18名男孩。資料如下:5本例的研究目的和實現(xiàn)方法研究目的:了解年齡與兒童人群的平均身高對應(yīng)關(guān)系。方法1:可以做普查,得到每個年齡組所有兒童的身高,并且計算每個年齡組的兒童人群的平均身高。方法2:作抽樣調(diào)查,本例就是通過按年齡組分層抽樣調(diào)查,獲得樣本后用回歸分析的方法得到每個年齡組兒童人群的平均身高估計值和相應(yīng)的統(tǒng)計推斷。6兒童身高的分布特征一般而言,兒童身高滿足同一年齡x的兒童身高y近似服從正態(tài)分布,因此對于每個年齡x,均有一個身高y的總體均數(shù)。不同年齡x的兒童身高分別近似服從對應(yīng)不同身高總體均數(shù)的正態(tài)分布。身高的總體均數(shù)是年齡x的一個函數(shù)7畫散點圖考查身高與年齡的分布關(guān)系Y的離散程度與X沒有關(guān)系,并且散點呈直線帶8畫散點圖考查身高總體均數(shù)與年齡的關(guān)系

年齡組的身高樣本均數(shù)與年齡的散點圖9由散點圖確定身高總體均數(shù)與年齡

可能是直線關(guān)系年齡組的身高樣本均數(shù)與年齡的散點圖顯示年齡組的身高樣本均數(shù)與年齡幾乎在一條直線上,略有些偏離直線的點可以理解為樣本均數(shù)的抽樣誤差所致(因為樣本均數(shù)一般不等于總體均數(shù)),因此可以假定固定年齡的身高總體均數(shù)與年齡x的關(guān)系可能是直線關(guān)系,即假定:10回歸方程并且稱上述直線方程為(總體)回歸方程?;貧w方程中,為未知參數(shù),需要用樣本資料通過擬合曲線后得到其估計值,并分別記為a和b,相應(yīng)得到樣本估計的回歸方程通常稱為Y的預(yù)測值,其意義為固定x,Y的總體均數(shù)的估計值。11Y與x的直線回歸關(guān)系由總體回歸方程可知:當=0時,。即:對于x的任何值,總體均數(shù)沒有任何改變,因此建立Y與x的直線回歸方程就沒有任何意義了,所以稱0時,Y與x

之間存在直線回歸關(guān)系,反之=0Y與x

之間稱不存在直線回歸關(guān)系。12回歸模型根據(jù)正態(tài)分布性質(zhì),可以得到:固定年齡X,身高Y服從總體均數(shù)為,方差為2的正態(tài)分布由散點圖可以假定總體均數(shù)故令,即:,并稱為直線回歸模型13誤差與殘差

稱為隨機誤差稱為殘差(residual)根據(jù)上述,直線回歸分析要求資料滿足固定X,Y服從正態(tài)分布等價于殘差服從正態(tài)分布。14直線回歸原理示意圖所以如果固定x,Y服從正態(tài)分布,其散點圖呈直線帶分布15直線回歸系數(shù)的估計用最小二乘法擬合直線,選擇a和b使其殘差(樣本點到直線的垂直距離)平方和達到最小。即使下列的SSE達到最小值。由此得到16回歸系數(shù)的意義由總體回歸方程可知回歸系數(shù)表示:x增加一個單位,總體均數(shù)增加個單位由于是的估計表達式,所以(樣本)回歸系數(shù)b表示x增加一個單位,估計y平均增加b個單位。

17回歸系數(shù)假設(shè)檢驗的必要性由于樣本回歸系數(shù)b與總體回歸系數(shù)存在抽樣誤差,即:一般情況下,b,因此需要考慮抽樣誤差對統(tǒng)計推斷是否存在重大影響。由于

=0時,,Y與x之間不存在直線回歸關(guān)系,因此是否為0,涉及到所建立的回歸方程是否有意義的重大問題,然而即使=0,樣本回歸系數(shù)b一般不為0,因此需要對回歸系數(shù)是否等于0進行假設(shè)檢驗。18回歸系數(shù)的假設(shè)檢驗H0:=0vs.H1:0=0.05回歸系數(shù)的標準誤為其中s為殘差的標準差則回歸系數(shù)的檢驗統(tǒng)計量為

19回歸系數(shù)的假設(shè)檢驗殘差的標準差s還可以表示為可以證明:H0:=0成立時,檢驗統(tǒng)計量tb服從自由度為n-2的t分布。即:當出現(xiàn),=0而言這是小概率事件,故可以拒絕H0:=0,認為0。20回歸系數(shù)檢驗統(tǒng)計量t的分布示意圖當|t|>t0.05,1,n-2時,對=0而言是小概率事件,對>0而言并非是小概率事件21成組t檢驗由單因素線性回歸實現(xiàn)下列將舉例證實成組t檢驗可以用單因素線性回歸實現(xiàn),以此進一步理解線性回歸的意義。舉例:在2型糖尿病患者人群和健康人群中分別隨機抽取15個年齡在50歲~60歲男性對象,測量其體重指數(shù)BMI,分析這兩個人群的平均BMI是否不同。22成組t檢驗由單因素線性回歸實現(xiàn)先做成組t檢驗,借助Stata軟件得到下列t檢驗結(jié)果糖尿病組的BMI均數(shù)-健康組的BMI均數(shù)=1.74,t=4.2754,P=0.0002,95%CI為(0.9063416,2.573658)23成組t檢驗由單因素線性回歸實現(xiàn)定義因變量Y為BMI,糖尿病組定義自變量x=1,健康組定義自變量x=0,數(shù)據(jù)格式如下借助Stata軟件實現(xiàn)線性回歸:regyx24成組t檢驗由單因素線性回歸實現(xiàn)Stata輸出結(jié)果為回歸系數(shù)=糖尿病組均數(shù)-健康組均數(shù)=1.74t=4.28,P<0.001,95%可信區(qū)間為(0.9063416,2.573658),與t檢驗結(jié)果完全相同25成組t檢驗由單因素線性回歸實現(xiàn)原理因為回歸方程為Y是固定X時的Y總體均數(shù),所以X=0時,健康人群的總體均數(shù)為,X=1時,糖尿病人群的總體均數(shù)為因此糖尿病人群總體均數(shù)與健康人群的總體均數(shù)之差為,因此檢驗兩個總體均數(shù)相等的問題就是檢驗回歸系數(shù)的問題。26成組t檢驗由單因素線性回歸實現(xiàn)原理由于預(yù)測值是總體均數(shù)的估計值,所以x=0,X=1,所以事實上,樣本回歸方程就是成組t檢驗由單因素線性回歸實現(xiàn)原理27成組t檢驗由單因素線性回歸實現(xiàn)原理由于線性回歸模型為X=0時,X=1時即:對于成組t檢驗資料而言,用X=1和X=0定義分組變量,其資料滿足線性回歸對資料的要求,故其結(jié)果與成組t檢驗相同。28多重線性回歸模型介紹29多重線性回歸方程設(shè)有m個自變量為,亦稱協(xié)變量,應(yīng)變量為Y,則描述Y的總體均數(shù)與m個自變量之間的線性關(guān)系可以用下列的多重線性回歸方程

其中0為常數(shù)項,亦稱截距,1,2,…,m稱為偏回歸系數(shù)。30多重線性回歸模型刻畫觀察變量Y與自變量之間的對應(yīng)關(guān)系為下列多重線性回歸模型i表示除Xi以外的其它自變量固定的情況下,Xi變化一個單位,相應(yīng)Y的平均變化值,即Y總體均數(shù)的相應(yīng)變化值。31多重線性回歸模型0,1,2,…,m

一般是未知的,但可根據(jù)樣本資料擬合回歸方程得到其估計值,,由此可寫出相應(yīng)的樣本回歸方程稱樣本偏回歸系數(shù),簡稱偏回歸系數(shù)。32多重線性回歸模型由于多重線性回歸方程的參數(shù)估計方法采用最小二乘法,對于多個自變量的情況,計算量相對比較煩瑣,一般需用計算機完成計算,故以下將通過實例介紹多重線性回歸方程的基本分析步驟和分析策略。33多重線性回歸舉例1欲研究糖尿病患者的總膽固醇(X1)和甘油三酯(X2)對空腹血糖(Y)的影響,某研究者調(diào)查40名糖尿病患者的總膽固醇、甘油三酯和空腹血糖的測量值如下,試根據(jù)上述研究問題作統(tǒng)計分析。34舉例1的數(shù)據(jù)

總膽固醇X1,和甘油三酯X2對空腹血糖Y35參數(shù)估計根據(jù)上述研究問題,考慮用多重線性回歸進行統(tǒng)計分析,其回歸方程為尋找0,1和2

使下列和式SS達到最小,稱為最小二乘法。36參數(shù)估計結(jié)果故借助統(tǒng)計軟件,得到下列參數(shù)估計由此得到回歸方程的估計表達式37線性回歸的模型檢驗借助線性回歸的方差分析可以進行模型檢驗。首先線性回歸方程可以把因變量的總變異SS總分解為回歸平方和SS回歸和殘差平方和SS殘差。對應(yīng)的自由度為38線性回歸的模型檢驗?zāi)P蜋z驗的檢驗假設(shè)H0:1=2=…=m=0H1:1,2,…,m

不全為0=0.05檢驗統(tǒng)計量39線性回歸的模型檢驗當H0:1=2=…=m=0為真時,即:如果,可以拒絕H0,推斷1,2,…,m

不全為0。40線性回歸的模型檢驗本例借助Stata軟件輸出結(jié)果得到:拒絕H0,故可以推斷1,2不全為041線性回歸模型的單個參數(shù)檢驗單個回歸系數(shù)i的檢驗表示其它m-1個自變量均在當前回歸模型中的條件下,Xi的回歸系數(shù)i是否為0的統(tǒng)計檢驗,具體方法如下:H0:i=0H1:i0=0.05檢驗統(tǒng)計量42線性回歸模型的單個參數(shù)檢驗其中bi是i的最小二乘估計(而且是無偏估計),是bi的標準誤,n為樣本量,m為模型中的自變量個數(shù)??梢宰C明:當H0:i=0成立時,統(tǒng)計量服從自由度為n-m-1的t分布。即:i=0為真時,對于1次隨機抽樣而言:出現(xiàn)的概率為0.05,故可拒絕無效假設(shè)H0:i=0,并可以認為i0。43線性回歸模型的單個參數(shù)檢驗本例單個參數(shù)檢驗結(jié)果總膽固醇(X1)上升1mmol/L,估計空腹血糖平均上升0.172mmol/L,差異有統(tǒng)計學(xué)意義。甘油三酯(X2)上升1mmol/L,估計空腹血糖平均上升0.318mmol/L,差異有統(tǒng)計學(xué)意義。44線性回歸模型舉例2為了研究0歲至8歲兒童身高增長的規(guī)律,在某社區(qū)隨機抽樣,調(diào)查了20名男孩和20女孩的年齡和身高,男性取值為1,女性取值為0。試找出兒童身高的一般規(guī)律。定義身高為因變量Y,年齡為X1,性別為X245線性回歸模型舉例2的數(shù)據(jù)46線性回歸模型舉例2對于同一性別而言,兒童的平均身高與年齡通常呈線性增長關(guān)系,但不同性別的兒童身高及其增長速度有一定的差異,因此試圖用下列回歸方程表示不同性別的兒童身高與年齡的關(guān)系。47線性回歸模型舉例2方程對于女孩,代入方程,得到下列回歸方程1表示女孩的每年的平均身高增長量,0表示女孩出生時的平均身高。對于男孩,代入方程,得到下列回歸方程48線性回歸模型舉例2男孩的每年的平均身高增長量為1+3男孩出生時的平均身長為0+2如果3=0,則男孩與女孩的每年的平均身高增長量相同。如果2=0,則男孩與女孩出生時的平均身長相同。49線性回歸模型舉例2借助Stata軟件輸入命令genx1x2=x1*x2產(chǎn)生x1*x2變量regyx1x2x1x2線性回歸分析50線性回歸模型2舉例由線性回歸的方差分析結(jié)果可以推斷:1,2,3不全為0,故可以認為擬合該回歸模型是有統(tǒng)計學(xué)意義的。擬合回歸方程的主要評價指標是決定系數(shù)R2R2表示因變量Y與自變量X1,┄,Xm

伴隨變化的變異成分占Y總變異的比例。51線性回歸模型2舉例本例的Stata輸出結(jié)果如下R2=0.9972,即:Y的99.72%的變異是與X1和X2伴隨變化的52線性回歸模型舉例2由此得到樣本估計的回歸方程女孩(X2=0)的身高回歸方程為女孩在出生時(X1=0)的平均身高約為64.6cm,身高平均每年增長約為8cm,由1的P<0.0001,推斷差異有統(tǒng)計學(xué)意義。53線性回歸模型舉例2男孩(X2=1代入方程)的身高回歸方程為其中1+3的估計值為8.279,還應(yīng)檢驗總體回歸系數(shù)之和1+3是否為0借助Stata軟件:testx1+x1x2=0,得到(1)x1+x1x2=0F(1,36)=6379.64Prob>F=0.0000,故有統(tǒng)計學(xué)意義。54線性回歸模型對資料的要求線性回歸要求資料滿足:殘差變異程度與任何一個自變量Xi沒有關(guān)聯(lián)性殘差變化與任何一個自變量Xi沒有任何伴隨趨勢。因變量觀察值之間獨立(從抽樣背景上考察)其中第1條和第2條要求是通過分別作殘差與每個自變量的散點圖進行判別的。55線性回歸模型對資料的要求本例:用Stata命令計算殘差predicte,residualgraphex1,xlabelylabel散點圖顯示殘差與X1之間沒有明顯的伴隨趨勢56線性回歸模型對資料的要求graphex2,xlabelylabel殘差與x2的散點圖顯示沒有明顯的伴隨趨勢57舉例介紹應(yīng)用線性回歸進行協(xié)方差分析例:為了評價缺鐵性貧血的兩種不同的療效,某研究者在預(yù)試驗中收集了40名患者,隨機分為A組和B組,兩組的治療方案分別稱為A方案和B方案,A方案用分組變量X1=0表示,B方案用X1=1表示。經(jīng)過一個月治療后,治療前紅細胞數(shù)(萬/l)和治療后的紅細胞增加數(shù)等如表20-8,記治療后的紅細胞增加數(shù)為Y,治療前的紅細胞數(shù)為X2,試評價兩種治療方案的療效差異。58協(xié)方差分析舉例數(shù)據(jù)59協(xié)方差分析舉例記治療后的紅細胞增加數(shù)Y的總體均數(shù)為,若不考慮治療前紅細胞數(shù)(稱為基線)對療效的影響,則可用下列回歸方程刻畫兩種治療方案的療效。A方案對應(yīng)X1=0方程,得到用A方案治療前后的紅細胞數(shù)改變量的總體均數(shù)為0,B方案對應(yīng)X1=1

代入方程,得到用B方案治療前后的紅細胞數(shù)改變量的總體均數(shù)為0+1,因此兩種方案的療效差異的總體均數(shù)為1,本質(zhì)上就是一個成組t檢驗。60協(xié)方差分析舉例由于治療后的紅細胞增加數(shù)往往與治療前的紅細胞數(shù)水平X2有關(guān),一般需要校正治療前紅細胞數(shù)水平X2對治療后的紅細胞增加數(shù)的影響(稱為校正基線對結(jié)果的影響),故可用下列回歸方程61協(xié)方差分析舉例由方程A方案(X1=0)的紅細胞增加數(shù)的總體均數(shù)為B方案(X1=1)的紅細胞增加數(shù)的總體均數(shù)為兩種治療方案的紅細胞增加數(shù)的總體均數(shù)差值為62協(xié)方差分析舉例所以稱協(xié)方差模型中的1的估計和檢驗是校正了基線后的兩種治療方案療效差異的統(tǒng)計推斷。借助Stata軟件:regyx1x2校正基線后,兩組均數(shù)差異為0.625,t=2.11,P=0.042<0.05差異有統(tǒng)計學(xué)意義。63協(xié)方差分析的意義未校正基線是比較兩條水平直線的高度差異是否為0,校正基線后是比較兩條非水平直線的平行距離是否為064線性回歸模型分析應(yīng)注意問題由于自變量之間往往存在一定的相關(guān)性,甚至有可能出現(xiàn)多個自變量的共線問題,以致回歸系數(shù)的估計出現(xiàn)較大誤差,甚至可能出現(xiàn)模型檢驗是有統(tǒng)計學(xué)意義的,但每個回歸系數(shù)的單個系數(shù)檢驗顯示差異無統(tǒng)計學(xué)意義,一般要通過篩選自變量或主成分方法解決。多個自變量共線一般用膨脹系數(shù)表述。65線性回歸模型分析應(yīng)注意問題設(shè)自變量為,以Xi為自變量,其他m-1個變量為自變量做線性回歸,得到相應(yīng)的決定系數(shù)R2,由此計算Xi的膨脹系數(shù)如果存在某個VIFk>10,則可以認為存在較嚴重的多元共線。如果遠大于1,也可認定多元共線。66自變量的篩選策略一般而言,自變量的篩選策略要根據(jù)研究問題和研究背景,分析研究背景,選擇最合理的自變量進入模型。例如:干預(yù)性研究,干預(yù)因素必須放入模型中,同時考慮哪些變量是對評價干預(yù)效果是有影響,并且要考慮這些因素能否對干預(yù)效果能否控制其混雜作用。例如:要考查不同自變量與因變量之間的直接關(guān)系與間接關(guān)系。67自變量的篩選策略舉例例:為了研究糖尿病患者的C反應(yīng)蛋白Y與年齡X1和體重指數(shù)X2的關(guān)系,某研究者調(diào)查了60名糖尿病患者,測量和收集了C反應(yīng)蛋白Y(mg/L)與年齡X1和體重指數(shù)X2,試分析C反應(yīng)蛋白與年齡和體重指數(shù)的關(guān)系。68自變量的篩選策略舉例的數(shù)據(jù)69自變量的篩選策略舉例考慮模型1考慮模型2考慮模型370自變量的篩選策略舉例模型1的擬合結(jié)果為模型2的擬合結(jié)果為71自變量的篩選策略舉例模型3的擬合結(jié)果3個模型結(jié)果綜述如下72自變量的篩選策略舉例討論模型1的結(jié)果雖然顯示X1的P<0.001,推斷Y與X1呈線性回歸關(guān)系,但當模型中增加一個自變量x2時(即:模型3),則X1的P值大大增加,P=0.605,無統(tǒng)計學(xué)意義,回歸系數(shù)大幅度下降,而X2的P值<0.001,其回歸系數(shù)為0.233,比較模型中僅有一個自變量X2(模型2),其回歸系數(shù)為0.251,兩者相差很小,并且P值也<0.001,進一步分析X1與X2的相關(guān)系數(shù)為0.702,P<0.001,故可以推斷模型1所得到的Y與X1的線性回歸關(guān)系實際上是X1與X2相關(guān)并且Y與X2的線性回歸關(guān)系而間接形成的。73逐步回歸如果作為探索性研究,對研究背景中的許多因素不太了解之間的關(guān)系,可以采用逐步回歸作為各種關(guān)系的初探,其意義為尋找影響Y的主要因素。一般而言,模型的參數(shù)越多,模型的擬合程度越好,殘差平方和就越小,但回歸系數(shù)的檢驗效能就越低,另外過多的參數(shù)會導(dǎo)致內(nèi)部符合程度很好但外部的預(yù)測誤差會很大,所以從外部預(yù)測誤差和統(tǒng)計檢驗的效能角度,希望在基本相同的擬合程度情況下,參數(shù)越少越好。74逐步回歸逐步回歸的基本準則是在滿足模型中的所有自變量的回歸系數(shù)的P值均小于前提下,盡可能地使模型中引入的自變量個數(shù)達到最多。嚴格地講:逐步回歸可以分為前進法(forward),后退法(Backward),逐步前進法(stepwiseforward)和逐步后退法(stepwisebackward)。75逐步回歸前進法:從未進入模型的自變量中挑選一個自變量進入模型,要求進入模型時,該自變量回歸系數(shù)P值<并且比其他為進入模型的自變量的P值都小,每次只挑選一個自變量進入模型,直到在沒有進入模型的自變量的P值(如果該變量進入模型)>為止。76逐步回歸后退法:將所有待選的自變量全部進入模型,如果存在P值>的自變量,則挑選P值最大的自變量剔除模型中,然后再擬合模型,如果還存在P值>的自變量,則繼續(xù)剔除P值最大的自變量,直到模型中所有自變量的P值均<為止。77逐步回歸逐步前進法:在前進法的基礎(chǔ)上,每引入一個自變量,還需考察引入后模型中是否存在自變量>,如果存在某些自變量的P值>,則挑選P值最大的自變量剔除,然后再考察是否還存在自變量的P值>,如果還存在繼續(xù)按照這個準則剔除,直到模型中的自變量的P均小于,然后在從待選自變量中挑選P值最小并且P<的自變量引入模型,依次循環(huán),直至既沒有變量可以引入模型,也沒有變量可以剔除模型為止。78逐步回歸逐步后退法:在后退法的基礎(chǔ)上,每剔除一個自變量,考察一下未進入模型的自變量中有沒有自變量滿足P<,在P<的自變量中挑選P值最小的自變量進入模型,直至沒有自變量可以進入模型后,繼續(xù)在模型中挑選P值最大并且P>的自變量剔除,依次循環(huán),直至既沒有自變量可以剔除,也沒有自變量可以引入為止。79逐步回歸舉例例:為了研究影響糖尿病患者糖化血紅蛋白(HbA1c)的主要危險因素,某研究者調(diào)查了某醫(yī)院內(nèi)分泌門診的200名糖尿病患者的糖化血紅蛋白,年齡,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論