逐步回歸課件_第1頁
逐步回歸課件_第2頁
逐步回歸課件_第3頁
逐步回歸課件_第4頁
逐步回歸課件_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1.1多重回歸分析的一般步驟多重線性回歸分析的知識回顧1、確定回歸方程中的解釋變量和被解釋變量2、確定回歸模型3、建立回歸方程4、對回歸方程進行檢驗5、利用回歸方程進行預(yù)測1.2多重線性回歸方程研究者往往是根據(jù)自己的經(jīng)驗或借鑒他人的研究結(jié)果選定若干個自變量,這些自變量對因變量的影響作用是否都有統(tǒng)計學意義還有待于考察。通過多重性線回歸分析,常常會發(fā)現(xiàn)其中有很多自變量對因變量的影響無意義。確定回歸方程中解釋變量的方法:同時,也常會遇到自變量間存在共線性的問題,影響到偏回歸系數(shù)估計和回歸方程的“質(zhì)量”。在建立回歸方程的過程中有必要考慮對自變量進行篩選,挑選出若干個與因變量作用較大的變量建立回歸方程。剔除那些對因變量沒有多大影響的變量,從而建立一個較理想、較穩(wěn)定的回歸方程。一、逐步回歸基本概念與方法二、逐步回歸的軟件實現(xiàn)主要內(nèi)容多重逐步回歸的思想:事先給定挑選自變量進入方程的P界值,開始方程中沒有自變量,首先,按自變量對y的貢獻大小由大到小依次挑選進入方程,每選入一個變量,都要對已在模型中的變量進行檢驗,對大于剔除標準的變量要逐一剔除。多重逐步回歸要求回歸方程中包含所有對因變量作用顯著的自變量,而不包含作用不顯著的自變量,從而建立最優(yōu)回歸方程。一、逐步回歸的基本概念與方法(一)多重逐步回歸的基本思想(二)自變量篩選方法1.變量多增加了模型的復(fù)雜度

2.計算量增大

3.估計和預(yù)測的精度下降

4.模型應(yīng)用費用增加自變量篩選方法主要包括:

全局擇優(yōu)法與局部擇優(yōu)法。

校正決定系數(shù)(考慮了自變量的個數(shù))Cp準則(C即criterion,p為所選模型中變量的個數(shù);Cp接近(p+1)模型為最優(yōu))AIC(Akaike’sInformationCriterion)準則;AIC越小越好1、全局擇優(yōu)法全局擇優(yōu)法:是對自變量各種不同組合所建立的回歸方程進行比較,根據(jù)一些準則(criterion)建立“最優(yōu)”的回歸方程。1)校正決定系數(shù)(Adjusteddeterminationcoefficient)“最優(yōu)”回歸方程是方程中最大的方程。

2)Cp準則的計算公式3)AIC準則的計算公式

如果自變量個數(shù)為4,則所有的回歸有:24-1=15個當自變量數(shù)個數(shù)為10時,所有可能的回歸有

210-1=

1023個

…;當自變量數(shù)個數(shù)為50時,所有可能的回歸有

250-1≈1015個全局擇優(yōu)法的局限性1)前進法事先確定一個選入自變量的標準。開始時方程只含有常數(shù)項,按自變量對因變量貢獻大小由大到小依次選入方程。每選入一個自變量,則重新計算方程外各自變量(剔除已選入變量影響后)對應(yīng)變量的貢獻,直到方程外變量均達不到選入標準為止。變量一旦進入模型,就不會被剔除。2、局部擇優(yōu)法特點:自變量從無到有、從少到多

思想方法:Y對每一個自變量作直線回歸,對回歸平方和最大的自變量作F檢驗,有意義(P?。﹦t引入。在此基礎(chǔ)上,計算其它自變量的偏回歸平方和,選取偏回歸平方和最大者作F檢驗,…。局限性:即后續(xù)變量的引入可能會使先進入方程的自變量變得不重要或自變量共線。2)后退法事先確定一個剔除自變量的標準。開始時方程中包含全部自變量,按自變量對因變量貢獻大小由小到大依次剔除。每剔除一個自變量,則重新計算未被剔除的各自變量對應(yīng)變量的貢獻大小,直到方程中所有變量均不符合剔除標準為止。自變量一旦被剔除,則不考慮進入模型。特點:先將全部自變量放入方程,然后逐步剔除思想方法:偏回歸平方和最小的變量,作F檢驗及相應(yīng)的P值,決定它是否剔除(P大)。建立新的回歸方程。重復(fù)上述過程。局限性:自變量高度相關(guān)時,可能得不出正確的結(jié)果。3)逐步回歸法本法的根本之處是:每引入一個自變量,都會對已在方程中的變量進行檢驗,對符合剔除標準的變量逐一剔除。雙向篩選;引入有意義的變量(前進法),剔除無意義變量(后退法)小樣本檢驗水準a定為0.10或0.15,大樣本把值定為0.05。值越小表示選取自變量的標準越嚴。注意,引入變量的檢驗水準要小于或等于剔除變量的檢驗水準。軟件提供自變量的篩選1、強行進入法(Enter):

預(yù)先選定的自變量全部進入回歸模型,這是系統(tǒng)默認方式。2、消去法(Remove):

根據(jù)設(shè)定的條件剔除部分自變量。3、向前引入法(Forward):

自變量由少到多一個一個引入回歸方程,將與因變量的相關(guān)系數(shù)最大的第一個自變量選入方程并進行檢驗,如果F值>Fa

,拒絕H0;將其余的變量中與因變量的相關(guān)系數(shù)最大的第二個自變量選入方程,當F值>Fa

,拒絕H0;如此下去,不斷引入新的自變量,直到不能拒絕H0,再沒有變量被引入為止。4、向后剔除法(Backward):

自變量由多到少一個一個從回歸方程中剔除,首先,對預(yù)先選定自變量全部進行回歸,然后把對因變量影響不顯著的自變量從方程中剔除并進行檢驗,如果F值<Fa

,接受H0,一個一個剔除對因變量不顯著的自變量,直到再不能剔除為止。

5、逐步引入—剔除法(Stepwise):

向前引入法與向后剔除法的結(jié)合。SPSS統(tǒng)計軟件包多重線性回歸建模方法:強迫引入法Enter逐步回歸法Stepwise強迫剔除法Remove向后逐步法Backward向前逐步法Forward四、逐步回歸的主要用途1、建立一個自變量個數(shù)較少的多重線性回歸方程,可用于描述某些自變量與某一醫(yī)學現(xiàn)象間的數(shù)量關(guān)系,以及進行疾病的預(yù)測預(yù)報,輔助診斷等。2、進行因素篩選,有助于從大量因素中篩選出對某一醫(yī)學現(xiàn)象作用顯著的因素和因素組,因此在病因分析和療效分析中有著廣泛的應(yīng)用。五、多元線性回歸應(yīng)用注意事項1、應(yīng)用影響因素分析,控制混雜因素預(yù)測:由自變量值推出應(yīng)變量Y的值控制:指定應(yīng)變量Y的值查看自變量的改變量線性給定X1,X2…,Xp的數(shù)值后,相應(yīng)的y隨機變動,其總體均數(shù)與自變量之間存在線性關(guān)系。(2)獨立n個個體之間互相獨立;(3)正態(tài)給定X1,X2,…,Xp的數(shù)值后,相應(yīng)的y值服從正態(tài)分布;(4)等方差當X1,X2,…,Xp的數(shù)值變動時,相應(yīng)的y有相同的方差。2、應(yīng)用條件3、樣本含量不同準則、方法得出的“最優(yōu)”方程不同;不同的引入、剔除標準獲得的“最優(yōu)”方程不同;方程還受數(shù)據(jù)的正確性、共線性影響4、統(tǒng)計“最優(yōu)”與專業(yè)的“最優(yōu)”一般樣本含量要求是參與分析的變量(自變量+因變量)個數(shù)的5~10倍,對多重線性回歸醫(yī)學中甚至要求20倍。整個方程決定系數(shù)R2高,但各自變量對應(yīng)的回歸系數(shù)均不顯著。解決共線性的主要方法:篩選自變量用主成分回歸嶺回歸。多重共線性的識別與解決辦法例1有學者認為血清中低密度脂蛋白增高和高密度脂蛋白降低是引起動脈硬化的一個重要原因。現(xiàn)測量30名懷疑患有動脈硬化的就診患者的栽脂蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂蛋白C、低密度脂蛋白中的膽固醇、高密度脂蛋白中的膽固醇含量,資料見data12-1。分別求出低、高密度脂蛋白中的膽固醇含量對栽脂蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂蛋白C的回歸方程二、逐步回歸的軟件實現(xiàn)2.1建立數(shù)據(jù)文件2.2操作步驟第一步:單擊Analyze/Regression/Linear打開線性回歸分析主對話框,選擇分析。第二步:選擇低密度脂蛋白中的膽固醇含量進入因變量框,選擇栽脂蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂蛋白C進入自變量框選擇逐步篩選自變量篩選方法選項第三步:設(shè)置統(tǒng)計量對話框,選項如下圖,單擊確定返回;第四步:設(shè)置圖形對話框,選項如下圖,單擊確定返回;初步操作完成。單擊確定返回,單擊確定,完成操作。結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:作業(yè)預(yù)習10.33、應(yīng)用的注意事項(一)變量的數(shù)量化(1)自變量為連續(xù)型變量:必要時作變換(2)自變量為有序變量:依次賦值,如療效好中差,可分別賦值3、2、1(3)自變量為二分類:如令男=1,女=0(4)自變量為名義分類:需要采用啞變量(dummyvariables)進行編碼假如職業(yè)分類為工、農(nóng)、商、學、兵5類,則可定義比分類數(shù)少1個,即4個啞變量。編碼方法如下:名義分類變量的啞變量化多重線性回歸建立的回歸方程包含了所有的自變量,但

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論