線性回歸計(jì)算方法及公式_第1頁
線性回歸計(jì)算方法及公式_第2頁
線性回歸計(jì)算方法及公式_第3頁
線性回歸計(jì)算方法及公式_第4頁
線性回歸計(jì)算方法及公式_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于線性回歸計(jì)算方法及公式第1頁,共35頁,2023年,2月20日,星期五多元線性回歸多元線性回歸是簡(jiǎn)單線性回歸的直接推廣,其包含一個(gè)因變量和二個(gè)或二個(gè)以上的自變量。簡(jiǎn)單線性回歸是研究一個(gè)因變量(Y)和一個(gè)自變量(X)之間數(shù)量上相互依存的線性關(guān)系。而多元線性回歸是研究一個(gè)因變量(Y)和多個(gè)自變量(Xi)之間數(shù)量上相互依存的線性關(guān)系。簡(jiǎn)單線性回歸的大部分內(nèi)容可用于多元回歸,因其基本概念是一樣的。第2頁,共35頁,2023年,2月20日,星期五內(nèi)容安排多元線性回歸模型與參數(shù)估計(jì)回歸方程和偏回歸系數(shù)的假設(shè)檢驗(yàn)標(biāo)準(zhǔn)化偏回歸系數(shù)和確定系數(shù)多元回歸分析中的若干問題回歸分析中自變量的選擇多元線性回歸分析的作用第3頁,共35頁,2023年,2月20日,星期五多元線性回歸模型與參數(shù)估計(jì)

設(shè)有自變量x1,x2,…,xp和因變量Y以及一份由n個(gè)個(gè)體構(gòu)成的隨機(jī)樣本(x1i,x2i,…,xpi,,,Yi),且有如下關(guān)系:

y=B0+B1x1+B2x2+…+Bpxp+

(模型)

B0、B1、B2和Bp為待估參數(shù),為殘差。由一組樣本數(shù)據(jù),可求出等估參數(shù)的估計(jì)值b0、b1、b2和bp,,得到如下回歸方程:

?i=b0+b1x1+b2x2+…+bpxp

由此可見,建立回歸方程的過程就是對(duì)回歸模型中的參數(shù)(常數(shù)項(xiàng)和偏回歸系數(shù))進(jìn)行估計(jì)的過程。第4頁,共35頁,2023年,2月20日,星期五參數(shù)的最小二乘估計(jì)與簡(jiǎn)單回歸類似,我們尋求參數(shù)B0、B1、B2和Bp的適宜估計(jì)數(shù)值b0、b1、b2和bp,,使實(shí)際觀察值和回歸方程估計(jì)值之間殘差平方和最小,即Q=

(yi

-?i)2

=(yi

-b0-b1x1i-b2x2i-…-bpxpi)2

對(duì)b0、b1…、bp分別求偏導(dǎo)數(shù),今偏導(dǎo)數(shù)為零可獲得P+1個(gè)正規(guī)方程,求解正規(guī)方程可得待估參數(shù)值。第5頁,共35頁,2023年,2月20日,星期五回歸方程和偏回歸系數(shù)的假設(shè)檢驗(yàn)回歸方程的假設(shè)檢驗(yàn):

建立回歸方程后,須分析應(yīng)變量Y與這p個(gè)自變量之間是否確有線性回歸關(guān)系,可用F分析。

H0:B1=B2=….=Bp=0H1:H0不正確=0.05F=MS回歸

/MS誤差

MS回歸

=SS回歸/pSS回歸=bjLjy(j=1,2….,P)MS誤差=SS誤差/(n-p-1)SS誤差為殘差平方和第6頁,共35頁,2023年,2月20日,星期五偏回歸系數(shù)的假設(shè)檢驗(yàn)

回歸方程的假設(shè)檢驗(yàn)若拒絕H0,則可分別對(duì)每一個(gè)偏回歸系數(shù)bj作統(tǒng)計(jì)檢驗(yàn),實(shí)質(zhì)是考察在固定其它變量后,該變量對(duì)應(yīng)變量Y的影響有無顯著性。

H0:Bj=0H1:Bj不為零=0.05F=(Xj的偏回歸平方和/1)

/MS誤差

Xj的偏回歸平方和:去Xj后回歸平方和的減少量若H0成立,可把Xj從回歸方程中剔除,余下變量重新構(gòu)建新的方程。第7頁,共35頁,2023年,2月20日,星期五標(biāo)準(zhǔn)化偏回歸系數(shù)和確定系數(shù)標(biāo)準(zhǔn)化偏回歸系數(shù):在比較各自變量對(duì)應(yīng)變量相對(duì)貢獻(xiàn)大小時(shí),由于各自變量的單位不同,不能直接用偏回歸系數(shù)的大小作比較,須用標(biāo)準(zhǔn)化偏回歸系數(shù)。

bj′=bj(sj/sy)

第8頁,共35頁,2023年,2月20日,星期五確定系數(shù):

簡(jiǎn)記為R2,即回歸平方和SS回歸與總離均差平方和SS總的比例。

R2=SS回歸/SS總

可用來定量評(píng)價(jià)在Y的總變異中,由P個(gè)X變量建立的線性回歸方程所能解釋的比例。第9頁,共35頁,2023年,2月20日,星期五回歸分析中的若干問題

資料要求:總體服從多元正態(tài)分布。但實(shí)際工作中分類變量也做分析。n足夠大,至少應(yīng)是自變量個(gè)數(shù)的5倍分類變量在回歸分析中的處理方法有序分類:治療效果:x=0(無效)x=1(有效)x=2(控制)

無序分類:有k類,則用k-1變量(偽變量)第10頁,共35頁,2023年,2月20日,星期五如職業(yè),分四類可用三個(gè)偽變量:

y1y2y3

工人100

農(nóng)民010

干部001

學(xué)生000第11頁,共35頁,2023年,2月20日,星期五多元線性回歸方程的評(píng)價(jià)

評(píng)價(jià)回歸方程的優(yōu)劣、好壞可用確定系數(shù)R2和剩余標(biāo)準(zhǔn)差Sy,x1,2..p。

Sy,x1,2.p=SQRT(SS誤差/n-p-1)如用于預(yù)測(cè),重要的是組外回代結(jié)果。第12頁,共35頁,2023年,2月20日,星期五回歸方程中自變量的選擇多元線性回歸方程中并非自變量越多越好,原因是自變量越多剩余標(biāo)準(zhǔn)差可能變大;同時(shí)也增加收集資料的難度。故需尋求“最佳”回歸方程,逐步回歸分析是尋求“較佳”回歸方程的一種方法。第13頁,共35頁,2023年,2月20日,星期五選擇變量的統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)R2最大

R2=SS回歸/SS總adjR2最大:

adjR2=1-MS誤差/MS總Cp值最小

Cp=(n-p-1)(MS誤差.p/MS誤差.全部-1)+(p+1)第14頁,共35頁,2023年,2月20日,星期五選擇變量的方法最優(yōu)子集回歸分析法:

p個(gè)變量有2p-1個(gè)方程逐步回歸分析向前引入法(forwardselection)向后剔除法(backwardselection)逐步引入-剔除法(stepwiseselection)H0:K個(gè)自變量為好H1:K+1個(gè)自變量為好第15頁,共35頁,2023年,2月20日,星期五向前引入法(forwardselection)

自變量由少到多一個(gè)一個(gè)引入回歸方程。將corr(y,xj)最大而又能拒絕H0者,最先引入方程,余此類推。至不能再拒絕H0為止。第16頁,共35頁,2023年,2月20日,星期五向后剔除法(backwardselection)

自變量先全部選入方程,每次剔除一個(gè)使上述檢驗(yàn)最不能拒絕H0者,直到不能剔除為止。第17頁,共35頁,2023年,2月20日,星期五逐步引入-剔除法(stepwiseselection)

先規(guī)定兩個(gè)閥值F引入和F剔除,當(dāng)候選變量中最大F值>=F引入時(shí),引入相應(yīng)變量;已進(jìn)入方程的變量最小F<=F剔除時(shí),剔除相應(yīng)變量。如此交替進(jìn)行直到無引入和無剔除為止。(計(jì)算復(fù)雜)第18頁,共35頁,2023年,2月20日,星期五多元線性回歸方程的作用因素分析調(diào)整混雜因素的作用統(tǒng)計(jì)預(yù)測(cè)第19頁,共35頁,2023年,2月20日,星期五例:測(cè)量16名四歲男孩心臟縱徑X1(CM)、心臟橫徑X2(CM)和心象面積Y(CM2)三項(xiàng)指標(biāo),得如下數(shù)據(jù)。試作象面積Y對(duì)心臟縱徑X1、心臟橫徑X2多元線性回歸分析。例:某科研協(xié)作組調(diào)查山西某煤礦2期高血壓病患者40例,資料如下表,試進(jìn)行影響煤礦工人2期高血壓病病人收縮壓的多元線性回歸分析。第20頁,共35頁,2023年,2月20日,星期五Logistic回歸

第21頁,共35頁,2023年,2月20日,星期五

多元回歸分析可用來分析多個(gè)自變量與一個(gè)因變量的關(guān)系,模型中因變量Y是邊連續(xù)性隨機(jī)變量,并要求呈正態(tài)分布。但在醫(yī)學(xué)研究中,常碰到因變量的取值僅有兩個(gè),如藥物實(shí)驗(yàn)中,動(dòng)物出現(xiàn)死亡或生存,死亡概率與藥物劑量有關(guān)。設(shè)P表示死亡概率,X表示藥物劑量,P和X的關(guān)系顯然不能用一般線性回歸模型P=B0+B1X來表示。這時(shí)可用Logistic回歸分析。第22頁,共35頁,2023年,2月20日,星期五內(nèi)容安排Logistic回歸模型模型參數(shù)的意義Logistic回歸模型的參數(shù)估計(jì)Logistic回歸方程的假設(shè)檢驗(yàn)Logistic回歸模型中自變量的篩選Logistic回歸的應(yīng)用

第23頁,共35頁,2023年,2月20日,星期五Logistic回歸模型先引入Logistic分布函數(shù),表達(dá)式為:

F(x)=ex/(1+ex)

X的取值在正負(fù)無窮大之間;F(x)則在0-1之間取值,并呈單調(diào)上升S型曲線。人們正是利用Logistic分布函數(shù)這一特征,將其應(yīng)用到臨床醫(yī)學(xué)和流行病學(xué)中來描述事件發(fā)生的概率。第24頁,共35頁,2023年,2月20日,星期五

以因變量D=1表示死亡,D=0表示生存,以P(D=1/X)表示暴露于藥物劑量X的動(dòng)物死亡的概率,設(shè)

P(D=1/X)=eBo+BX/(1+eBo+BX)記Logit(P)=ln[p/(1-p)],則上式可表示為:

Logit(P)=Bo+BX

這里X的取值仍是任意的,Logit(P)的值亦在正負(fù)無窮大之間,概率P的數(shù)值則必然在0-1之間。p/(1-p)為事件的優(yōu)勢(shì),Logit(P)為對(duì)數(shù)優(yōu)勢(shì),故logistic回歸又稱對(duì)數(shù)優(yōu)勢(shì)線性回歸第25頁,共35頁,2023年,2月20日,星期五

一般地,設(shè)某事件D發(fā)生(D=1)的概率P依賴于多個(gè)自變量(x1,x2,…,xp),且

P(D=1)=eBo+B1X1+…+BpXp/(1+eBo+B1X1+…+BpXp)

Logit(P)=Bo+B1X1+…+BpXp則稱該事件發(fā)生的概率與變量間關(guān)系符合多元Logistic回歸或?qū)?shù)優(yōu)勢(shì)線性回歸。第26頁,共35頁,2023年,2月20日,星期五

logistic回歸模型參數(shù)的意義

優(yōu)勢(shì)比(oddsratio,OR):暴露人群發(fā)病優(yōu)勢(shì)與非暴露人群發(fā)病優(yōu)勢(shì)之比。

P(1)/[1-p(1)]OR=———————P(0)/[1-p(0)]Ln(oR)=logit[p(1)]-logit[p(0)]=(B0+B×1)-(B0+B×0)=B

可見B是暴露劑量增加一個(gè)單位所引起的對(duì)數(shù)優(yōu)勢(shì)的增量,或單位暴露劑量與零劑量死亡優(yōu)勢(shì)比的對(duì)數(shù)。eB就是兩劑量死亡優(yōu)勢(shì)比。常數(shù)項(xiàng)B0是所有變量X等于零時(shí)事件發(fā)生優(yōu)勢(shì)的對(duì)數(shù)。第27頁,共35頁,2023年,2月20日,星期五Logistic回歸的參數(shù)估計(jì)Logistic回歸模型的參數(shù)估計(jì)常用最大似然法,最大似然法的基本思想是先建立似然函數(shù)或?qū)?shù)似然函數(shù),似然函數(shù)或?qū)?shù)似然函數(shù)達(dá)到極大時(shí)參數(shù)的取值,即為參數(shù)的最大似然估計(jì)值。其步驟為對(duì)對(duì)數(shù)似然函數(shù)中的待估參數(shù)分別求一階偏導(dǎo)數(shù),令其為0得一方程組,然后求解。由于似然函數(shù)的偏導(dǎo)數(shù)為非線性函數(shù),參數(shù)估計(jì)需用非線性方程組的數(shù)值法求解。常用的數(shù)值法為Newton-Raphson法。不同研究的設(shè)計(jì)方案不同,其似然函數(shù)的構(gòu)造略有差別,故Logistic回歸有非條件Logistic回歸與條件Logistic回歸兩種。第28頁,共35頁,2023年,2月20日,星期五Logistic回歸的假設(shè)檢驗(yàn)1、擬合優(yōu)度檢驗(yàn):目的是檢驗(yàn)?zāi)P凸烙?jì)值與實(shí)際觀察值的符合程度。SAS程序提供了下列統(tǒng)計(jì)量。A、AIC和SC:對(duì)同一份資料,在模型比較中,這兩個(gè)越小,表明模型越合適。B、-2LogL:用于檢驗(yàn)全部自變量(協(xié)變量)的聯(lián)合作用。如顯著,表明全部協(xié)變量的聯(lián)合作用顯著;如不顯著,表明全部協(xié)變量的聯(lián)合作用不大,可予忽視。C、Score:用于檢驗(yàn)全部協(xié)變量聯(lián)合作用的顯著性,但不包截距項(xiàng)。第29頁,共35頁,2023年,2月20日,星期五2、偏回歸系數(shù)的顯著性檢驗(yàn):目的是檢驗(yàn)回歸模型中自變量的系數(shù)是否為零,等價(jià)于總體優(yōu)勢(shì)比OR是否為零。

H0:B等于零H1:B不等于零A、wald檢驗(yàn):B、Scoretest:C、likelihoodratiotest(waldchi-squaretest):第30頁,共35頁,2023年,2月20日,星期五回歸模型中自變量的篩選

和多元線性回歸分析一樣,在Logistic回歸分析中也須對(duì)自變量進(jìn)行篩選。方法和多元線性回歸中采用的方法一樣,有向后剔除法、向前引入法及逐步篩選法三種。篩選自變量的方法有wald檢驗(yàn)、Scoretest、likelihoodratiotest(waldchi-squaretest)三種。第31頁,共35頁,2023年,2月20日,星期五Logistic回歸的應(yīng)用篩選危險(xiǎn)因素校正混雜因素預(yù)測(cè)與判別第32頁,共35頁,2023年,2月20日,星期五例1:在飲酒與食道癌的成組病例對(duì)照研究中,共有200例食道癌患者和774例非食道癌對(duì)照,年齡是混雜因素,按年齡分層后資料如下:

age對(duì)象(1=病例0=對(duì)照)飲酒不飲酒合計(jì)OR25—3411010910611535---4414595.0502616419045----5412521465.6702913816755---64142

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論