




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、2021/3/271 2021/3/272 多元線性回歸 多元線性回歸是簡單線性回歸的直接推廣,其包含一個(gè) 因變量和二個(gè)或二個(gè)以上的自變量。 簡單線性回歸是研究一個(gè)因變量(Y)和一個(gè)自變量 (X)之間數(shù)量上相互依存的線性關(guān)系。而多元線性回 歸是研究一個(gè)因變量(Y)和多個(gè)自變量(Xi)之間數(shù) 量上相互依存的線性關(guān)系。 簡單線性回歸的大部分內(nèi)容可用于多元回歸,因其基本 概念是一樣的。 2021/3/273 內(nèi)容安排 多元線性回歸模型與參數(shù)估計(jì) 回歸方程和偏回歸系數(shù)的假設(shè)檢驗(yàn) 標(biāo)準(zhǔn)化偏回歸系數(shù)和確定系數(shù) 多元回歸分析中的若干問題 回歸分析中自變量的選擇 多元線性回歸分析的作用 2021/3/274
2、多元線性回歸模型與參數(shù)估計(jì) 設(shè)有自變量x1,x2,xp和因變量Y以及一份由n個(gè)個(gè)體構(gòu) 成的隨機(jī)樣本(x1i,x2i,xpi,Yi),且有如下關(guān)系: y =B0+B1x1+B2x2+Bp xp+ (模型) B0、B1、B2和Bp為待估參數(shù), 為殘差。 由一組樣本數(shù)據(jù),可求出等估參數(shù)的估計(jì)值b0、b1、b2 和bp,得到如下回歸方程: i =b0+b1x1+b2x2+bp xp 由此可見,建立回歸方程的過程就是對回歸模型中的參 數(shù)(常數(shù)項(xiàng)和偏回歸系數(shù))進(jìn)行估計(jì)的過程。 2021/3/275 參數(shù)的最小二乘估計(jì) 與簡單回歸類似,我們尋求參數(shù)B0、B1、B2和 Bp的適宜估計(jì)數(shù)值b0、b1、b2和bp
3、,使實(shí)際觀察 值和回歸方程估計(jì)值之間殘差平方和最小, 即 Q (yi i) 2 = (yi b0b1x1ib2x2ibp xp i) 2 對b0、b1、bp分別求偏導(dǎo)數(shù),今偏導(dǎo)數(shù)為零 可獲得P1個(gè)正規(guī)方程,求解正規(guī)方程可得待 估參數(shù)值。 2021/3/276 回歸方程和偏回歸系數(shù)的假設(shè)檢驗(yàn) 回歸方程的假設(shè)檢驗(yàn): 建立回歸方程后,須分析應(yīng)變量Y與這p個(gè)自變 量之間是否確有線性回歸關(guān)系,可用F分析。 H0: B1B2.=Bp=0 H1: H0不正確 0.05 F MS回歸 / MS誤差 MS回歸 SS回歸p SS回歸 = bjLjy ( j =1,2.,P) MS誤差 SS誤差(n-p-1) SS
4、誤差為殘差平方和 2021/3/277 偏回歸系數(shù)的假設(shè)檢驗(yàn) 回歸方程的假設(shè)檢驗(yàn)若拒絕H0,則可分別對每一 個(gè)偏回歸系數(shù)bj作統(tǒng)計(jì)檢驗(yàn),實(shí)質(zhì)是考察在固定 其它變量后,該變量對應(yīng)變量 Y 的影響有無顯著 性。 H0: Bj=0 H1: Bj不為零 0.05 F (Xj 的偏回歸平方和1) / MS誤差 Xj 的偏回歸平方和:去Xj后回歸平方和的減少量 若H0成立,可把Xj從回歸方程中剔除,余下變量重 新構(gòu)建新的方程。 2021/3/278 標(biāo)準(zhǔn)化偏回歸系數(shù)和確定系數(shù) 標(biāo)準(zhǔn)化偏回歸系數(shù): 在比較各自變量對應(yīng)變量相對貢獻(xiàn)大小時(shí),由 于各自變量的單位不同,不能直接用偏回歸系數(shù) 的大小作比較,須用標(biāo)準(zhǔn)化
5、偏回歸系數(shù)。 bj = bj (sj / sy) 2021/3/279 確定系數(shù): 簡記為R2,即回歸平方和SS回歸與總離均 差平方和SS總的比例。 R2 SS回歸 SS總 可用來定量評價(jià)在Y的總變異中,由P個(gè)X 變量建立的線性回歸方程所能解釋的比 例。 2021/3/2710 回歸分析中的若干問題 資料要求:總體服從多元正態(tài)分布。但實(shí)際工作 中分類變量也做分析。 n足夠大,至少應(yīng)是自變量個(gè)數(shù)的5倍 分類變量在回歸分析中的處理方法 有序分類: 治療效果:x=0(無效 ) x=1(有效) x=2(控制) 無序分類: 有k類,則用k1變量(偽變量) 2021/3/2711 如職業(yè),分四類可用三個(gè)偽
6、變量: y1 y2 y3 工人 1 0 0 農(nóng)民 0 1 0 干部 0 0 1 學(xué)生 0 0 0 2021/3/2712 多元線性回歸方程的評價(jià) 評價(jià)回歸方程的優(yōu)劣、好壞可用確定系 數(shù)R2和剩余標(biāo)準(zhǔn)差Sy,x1,2.p 。 Sy,x1,2. p SQRT(SS誤差n-p-1) 如用于預(yù)測,重要的是組外回代結(jié)果。 2021/3/2713 回歸方程中自變量的選擇 多元線性回歸方程中并非自變量越多越 好,原因是自變量越多剩余標(biāo)準(zhǔn)差可能變 大;同時(shí)也增加收集資料的難度。故需尋 求“最佳”回歸方程,逐步回歸分析是尋 求“較佳”回歸方程的一種方法。 2021/3/2714 選擇變量的統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn) R2最大
7、R2 SS回歸 SS總 adjR2最大: adjR21MS誤差/ MS總 Cp值最小 Cp(n-p-1)(MS誤差.p/MS誤差.全部1) (p+1) 2021/3/2715 選擇變量的方法 最優(yōu)子集回歸分析法: p個(gè)變量有2p1個(gè)方程 逐步回歸分析 向前引入法(forward selection) 向后剔除法(backward selection) 逐步引入剔除法(stepwise selection) H0:K個(gè)自變 量為好 H1:K1個(gè)自變量為好 2021/3/2716 向前引入法(forward selection) 自變量由少到多一個(gè)一個(gè)引入回歸方程。 將 corr(y , xj)最
8、大而又能拒絕H0者,最 先引入方程,余此類推。至不能再拒絕H0 為止。 2021/3/2717 向后剔除法(backward selection) 自變量先全部選入方程,每次剔除一個(gè)使 上述檢驗(yàn)最不能拒絕H0者,直到不能剔除 為止。 2021/3/2718 逐步引入剔除法(stepwise selection) 先規(guī)定兩個(gè)閥值F引入和F剔除,當(dāng)候選變量 中最大F值F引入時(shí),引入相應(yīng)變量;已 進(jìn)入方程的變量最小FF剔除時(shí),剔除相 應(yīng)變量。如此交替進(jìn)行直到無引入和無 剔除為止。(計(jì)算復(fù)雜) 2021/3/2719 多元線性回歸方程的作用 因素分析 調(diào)整混雜因素的作用 統(tǒng)計(jì)預(yù)測 2021/3/272
9、0 例:測量16名四歲男孩心臟縱徑X1(CM)、心臟橫徑X2 (CM)和心象面積Y(CM2)三項(xiàng)指標(biāo),得如下數(shù)據(jù)。 試作象面積Y對心臟縱徑X1、心臟橫徑X2多元線性回 歸分析。 例:某科研協(xié)作組調(diào)查山西某煤礦2期高血壓病患者40例, 資料如下表,試進(jìn)行影響煤礦工人2期高血壓病病人收 縮壓的多元線性回歸分析。 2021/3/2721 Logistic回歸 2021/3/2722 多元回歸分析可用來分析多個(gè)自變量與 一個(gè)因變量的關(guān)系,模型中因變量Y是邊連 續(xù)性隨機(jī)變量,并要求呈正態(tài)分布。但在 醫(yī)學(xué)研究中,常碰到因變量的取值僅有兩 個(gè),如藥物實(shí)驗(yàn)中,動物出現(xiàn)死亡或生存,死 亡概率與藥物劑量有關(guān)。設(shè)P
10、表示死亡概 率,X表示藥物劑量,P和X的關(guān)系顯然不能 用一般線性回歸模型PB0B1X來表示。 這時(shí)可用Logistic回歸分析。 2021/3/2723 內(nèi)容安排 Logistic回歸模型 模型參數(shù)的意義 Logistic回歸模型的參數(shù)估計(jì) Logistic回歸方程的假設(shè)檢驗(yàn) Logistic回歸模型中自變量的篩選 Logistic回歸的應(yīng)用 2021/3/2724 Logistic回歸模型 先引入Logistic分布函數(shù),表達(dá)式為: F(x) = ex / ( 1+ex ) X的取值在正負(fù)無窮大之間;F(x)則在01之間 取值,并呈單調(diào)上升S型曲線。人們正是利用 Logistic分布函數(shù)這一
11、特征,將其應(yīng)用到臨床醫(yī) 學(xué)和流行病學(xué)中來描述事件發(fā)生的概率。 2021/3/2725 以因變量D1表示死亡,D0表示生存,以P(D1X) 表示暴露于藥物劑量X的動物死亡的概率,設(shè) P(D1X)e Bo+BX /(1+e Bo+BX ) 記Logit(P)=lnp/(1-p),則上式可表示為: Logit(P) Bo+BX 這里X的取值仍是任意的, Logit(P)的值亦 在正負(fù)無窮大之間,概率P的數(shù)值則必然在0 1之間。 p/(1-p)為事件的優(yōu)勢, Logit(P) 為對數(shù)優(yōu)勢,故logistic回歸又稱對數(shù)優(yōu)勢線 性回歸 2021/3/2726 一般地,設(shè)某事件D發(fā)生(D1)的概率 P依賴
12、于多個(gè)自變量(x1,x2, ,xp),且 P(D1)e Bo+B1X1+BpXp /(1+e Bo+B1X1+BpXp ) 或 Logit(P) Bo+B1X1+Bp X p 則稱該事件發(fā)生的概率與變量間關(guān)系符合多元 Logistic回歸或?qū)?shù)優(yōu)勢線性回歸。 2021/3/2727 logistic回歸模型參數(shù)的意義 優(yōu)勢比(odds ratio, OR):暴露人群發(fā)病優(yōu)勢與非暴露 人群發(fā)病優(yōu)勢之比。 P(1) / 1-p(1) OR= P(0) / 1-p(0) Ln(oR)=logitp(1)-logitp(0)=(B0+B1) (B0+B0)=B 可見B是暴露劑量增加一個(gè)單位所引起的對數(shù)
13、優(yōu)勢的增 量,或單位暴露劑量與零劑量死亡優(yōu)勢比的對數(shù)。eB就是 兩劑量死亡優(yōu)勢比。常數(shù)項(xiàng)B0是所有變量X等于零時(shí)事 件發(fā)生優(yōu)勢的對數(shù)。 2021/3/2728 Logistic回歸的參數(shù)估計(jì) Logistic回歸模型的參數(shù)估計(jì)常用最大似然法,最大似然 法的基本思想是先建立似然函數(shù)或?qū)?shù)似然函數(shù),似然 函數(shù)或?qū)?shù)似然函數(shù)達(dá)到極大時(shí)參數(shù)的取值,即為參數(shù) 的最大似然估計(jì)值。其步驟為對對數(shù)似然函數(shù)中的待 估參數(shù)分別求一階偏導(dǎo)數(shù),令其為0得一方程組,然后求 解。由于似然函數(shù)的偏導(dǎo)數(shù)為非線性函數(shù),參數(shù)估計(jì)需 用非線性方程組的數(shù)值法求解。常用的數(shù)值法為 Newton-Raphson法。不同研究的設(shè)計(jì)方案不同
14、,其似 然函數(shù)的構(gòu)造略有差別,故Logistic回歸有非條件 Logistic回歸與條件Logistic回歸兩種。 2021/3/2729 Logistic回歸的假設(shè)檢驗(yàn) 1、擬合優(yōu)度檢驗(yàn):目的是檢驗(yàn)?zāi)P凸烙?jì)值與實(shí)際觀察值的 符合程度。SAS程序提供了下列統(tǒng)計(jì)量。 A、AIC和SC:對同一份資料,在模型比較中,這兩個(gè)越小,表 明模型越合適。 B、2LogL:用于檢驗(yàn)全部自變量(協(xié)變量)的聯(lián)合作用。 如顯著,表明全部協(xié)變量的聯(lián)合作用顯著;如不顯著,表 明全部協(xié)變量的聯(lián)合作用不大,可予忽視。 C、Score:用于檢驗(yàn)全部協(xié)變量聯(lián)合作用的顯著性,但不包 截距項(xiàng)。 2021/3/2730 2、偏回歸系
15、數(shù)的顯著性檢驗(yàn):目的是檢驗(yàn)回歸 模型中自變量的系數(shù)是否為零,等價(jià)于總體 優(yōu)勢比OR是否為零。 H0:B等于零 H1:B不等于零 A、wald檢驗(yàn): B、Score test: C、likelihood ratio test(wald chi-square test): 2021/3/2731 回歸模型中自變量的篩選 和多元線性回歸分析一樣,在Logistic回歸 分析中也須對自變量進(jìn)行篩選。方法和 多元線性回歸中采用的方法一樣,有向后 剔除法、向前引入法及逐步篩選法三種。 篩選自變量的方法有wald檢驗(yàn)、Score test、likelihood ratio test(wald chi- sq
16、uare test)三種。 2021/3/2732 Logistic 回歸的應(yīng)用 篩選危險(xiǎn)因素 校正混雜因素 預(yù)測與判別 2021/3/2733 例1:在飲酒與食道癌的成組病例對照研究中,共有200例食 道癌患者和774例非食道癌對照,年齡是混雜因素,按年 齡分層后資料如下: age 對象(1=病例 0=對照) 飲酒 不飲酒 合計(jì) OR 2534 1 1 0 1 0 9 106 115 35-44 1 4 5 9 5.05 0 26 164 190 45-54 1 25 21 46 5.67 0 29 138 167 55-64 1 42 34 76 6.36 0 27 138 165 65-74 1 19 36 55 2.58 0 18 88 106 75- 1 5 8 13 0 0 31 31 2021/3/2734 例2:研究女生月經(jīng)初潮與體質(zhì)關(guān)系的調(diào)查 中,某地調(diào)查了23名1115歲女生的月經(jīng) 和體質(zhì)情況,脈搏X1為30秒脈搏數(shù),體重 X2單位為公斤,年齡X3單位為歲。月經(jīng)Y 為0表示未來月經(jīng),1表示已來月經(jīng)。試用 非條件Logistic 回歸進(jìn)行分析。 (X1=40 X2=40 X3=13 p
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度珠寶企業(yè)社會責(zé)任與環(huán)保合作合同
- 二零二五年度汽車贈與及二手車置換增值服務(wù)合同
- 二零二五年度放棄祖屋繼承權(quán)的明確合同
- 2025年度石材幕墻安裝與維護(hù)管理合同協(xié)議
- 二零二五年度水資源保護(hù)融資合同
- 二零二五年度土地租賃合同糾紛處理指南
- 2025年度貨物損失賠償協(xié)議書:跨境電商供應(yīng)鏈風(fēng)險(xiǎn)分擔(dān)合同
- 二零二五年度師徒互助職業(yè)技能提升協(xié)議
- 二零二五年度足浴店轉(zhuǎn)讓與市場推廣合作框架協(xié)議
- 2025年度涂料行業(yè)綠色生產(chǎn)推廣合同
- 小組合作學(xué)習(xí)班級評價(jià)表
- 某公司新員工入職登記表格
- APQP新產(chǎn)品開發(fā)計(jì)劃ABCD表
- SAP-QM質(zhì)量管理模塊前臺操作詳解(S4系統(tǒng))
- 《民法典》婚姻家庭編解讀之夫妻共同債務(wù)(1064條)
- 初中學(xué)生數(shù)學(xué)學(xué)習(xí)狀況問卷調(diào)查及分析報(bào)告
- 貝殼房屋租賃合同標(biāo)準(zhǔn)版
- 幼兒游戲活動指導(dǎo)第二版全套教學(xué)課件
- 大學(xué)生就業(yè)指導(dǎo)實(shí)用教程:就業(yè)權(quán)益與法律保障
- 基于主題意義探究的小學(xué)英語單元整體作業(yè)設(shè)計(jì) 論文
- 新概念英語第2冊課文word版
評論
0/150
提交評論