回歸分析的模型SPSS_第1頁
回歸分析的模型SPSS_第2頁
回歸分析的模型SPSS_第3頁
回歸分析的模型SPSS_第4頁
回歸分析的模型SPSS_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、整理課件第10章 回歸分析介紹:介紹: 1、回歸分析的概念和模型、回歸分析的概念和模型 2、回歸分析的過程、回歸分析的過程整理課件回歸分析的概念尋求有關(guān)聯(lián)(相關(guān))的變量之間的關(guān)系尋求有關(guān)聯(lián)(相關(guān))的變量之間的關(guān)系主要內(nèi)容:主要內(nèi)容:n從一組樣本數(shù)據(jù)出發(fā),確定這些變量間的定從一組樣本數(shù)據(jù)出發(fā),確定這些變量間的定量關(guān)系式量關(guān)系式n對這些關(guān)系式的可信度進行各種統(tǒng)計檢驗對這些關(guān)系式的可信度進行各種統(tǒng)計檢驗n從影響某一變量的諸多變量中,判斷哪些變從影響某一變量的諸多變量中,判斷哪些變量的影響顯著,哪些不顯著量的影響顯著,哪些不顯著n利用求得的關(guān)系式進行預測和控制利用求得的關(guān)系式進行預測和控制整理課件回歸

2、分析的模型按是否線性分:線性回歸模型和非線性回歸模型按是否線性分:線性回歸模型和非線性回歸模型按自變量個數(shù)分:簡單的一元回歸,多元回歸按自變量個數(shù)分:簡單的一元回歸,多元回歸基本的步驟:利用基本的步驟:利用SPSS得到模型關(guān)系式,是否得到模型關(guān)系式,是否是我們所要的,要看回歸方程的顯著性檢驗(是我們所要的,要看回歸方程的顯著性檢驗(F檢驗)和回歸系數(shù)檢驗)和回歸系數(shù)b的顯著性檢驗的顯著性檢驗(T檢驗檢驗),還要,還要看擬合程度看擬合程度R2 (相關(guān)系數(shù)的平方相關(guān)系數(shù)的平方,一元回歸用一元回歸用R Square,多元回歸用,多元回歸用Adjusted R Square)整理課件回歸分析的過程在回

3、歸過程中包括:在回歸過程中包括:nLiner:線性回歸:線性回歸nCurve Estimation:曲線估計:曲線估計nBinary Logistic: 二分變量邏輯回歸二分變量邏輯回歸nMultinomial Logistic:多分變量邏輯回歸:多分變量邏輯回歸nOrdinal 序回歸序回歸nProbit:概率單位回歸:概率單位回歸nNonlinear:非線性回歸:非線性回歸nWeight Estimation:加權(quán)估計:加權(quán)估計n2-Stage Least squares:二段最小平方法:二段最小平方法nOptimal Scaling 最優(yōu)編碼回歸最優(yōu)編碼回歸我們只講前面我們只講前面3個簡

4、單的(一般教科書的講法)個簡單的(一般教科書的講法)整理課件10.1 線性回歸(Liner)一元線性回歸方程一元線性回歸方程: y=a+bxna稱為截距稱為截距nb為回歸直線的斜率為回歸直線的斜率n用用R2判定系數(shù)判定系數(shù)判定一個線性回歸直線的擬合程度:用來說明用自變量判定一個線性回歸直線的擬合程度:用來說明用自變量解釋因變量變異的程度(所占比例)解釋因變量變異的程度(所占比例)多元線性回歸方程多元線性回歸方程: y=b0+b1x1+b2x2+bnxnnb0為常數(shù)項為常數(shù)項nb1、b2、bn稱為稱為y對應于對應于x1、x2、xn的偏回歸系數(shù)的偏回歸系數(shù)n用用Adjusted R2調(diào)整判定系數(shù)調(diào)

5、整判定系數(shù)判定一個多元線性回歸方程的擬合程度:判定一個多元線性回歸方程的擬合程度:用來說明用自變量解釋因變量變異的程度(所占比例)用來說明用自變量解釋因變量變異的程度(所占比例)一元線性回歸模型的確定一元線性回歸模型的確定:一般先做散點圖一般先做散點圖(Graphs -Scatter-Simple),以便進行簡單地觀測(如:以便進行簡單地觀測(如:Salary與與Salbegin的關(guān)系的關(guān)系)若散點圖的趨勢大概呈線性關(guān)系,可以建立線性方程,若不呈線若散點圖的趨勢大概呈線性關(guān)系,可以建立線性方程,若不呈線性分布,可建立其它方程模型,并比較性分布,可建立其它方程模型,并比較R2 (-1)來確定一種

6、最佳來確定一種最佳方程式(曲線估計)方程式(曲線估計)多元線性回歸一般采用逐步回歸方法多元線性回歸一般采用逐步回歸方法-Stepwise 整理課件逐步回歸方法的基本思想對全部的自變量對全部的自變量x1,x2,.,xp,按它們對按它們對Y貢獻的大小進行貢獻的大小進行比較,并通過比較,并通過F檢驗法,選擇偏回歸平方和顯著的變量檢驗法,選擇偏回歸平方和顯著的變量進入回歸方程,每一步只引入一個變量,同時建立一進入回歸方程,每一步只引入一個變量,同時建立一個偏回歸方程。當一個變量被引入后,對原已引入回個偏回歸方程。當一個變量被引入后,對原已引入回歸方程的變量,逐個檢驗他們的偏回歸平方和。如果歸方程的變量

7、,逐個檢驗他們的偏回歸平方和。如果由于引入新的變量而使得已進入方程的變量變?yōu)椴伙@由于引入新的變量而使得已進入方程的變量變?yōu)椴伙@著時,則及時從偏回歸方程中剔除。在引入了兩個自著時,則及時從偏回歸方程中剔除。在引入了兩個自變量以后,便開始考慮是否有需要剔除的變量。只有變量以后,便開始考慮是否有需要剔除的變量。只有當回歸方程中的所有自變量對當回歸方程中的所有自變量對Y都有顯著影響而不需要都有顯著影響而不需要剔除時,在考慮從未選入方程的自變量中,挑選對剔除時,在考慮從未選入方程的自變量中,挑選對Y有有顯著影響的新的變量進入方程。不論引入還是剔除一顯著影響的新的變量進入方程。不論引入還是剔除一個變量都稱

8、為一步。不斷重復這一過程,直至無法剔個變量都稱為一步。不斷重復這一過程,直至無法剔除已引入的變量,也無法再引入新的自變量時,逐步除已引入的變量,也無法再引入新的自變量時,逐步回歸過程結(jié)束。回歸過程結(jié)束。整理課件10.1.6 線性回歸分析實例p240實例:實例:P240Data07-03 建立一個以初始工資建立一個以初始工資Salbegin 、工作、工作經(jīng)驗經(jīng)驗prevexp 、工作時間、工作時間jobtime 、工作種類、工作種類jobcat 、受教育、受教育年限年限edcu等為自變量,當前工資等為自變量,當前工資Salary為因變量的回歸模型。為因變量的回歸模型。n先做數(shù)據(jù)散點圖先做數(shù)據(jù)散點

9、圖,觀測因變量觀測因變量Salary與自變量與自變量Salbegin之間之間關(guān)系是否有線性特點關(guān)系是否有線性特點nGraphs -Scatter-SimplenX Axis: SalbeginnY Axis: Salaryn若散點圖的趨勢大概呈線性關(guān)系,可以建立線性回歸模型若散點圖的趨勢大概呈線性關(guān)系,可以建立線性回歸模型wAnalyze-Regression-LinearwDependent: SalarywIndependents: Salbegin,prevexp,jobtime,jobcat,edcu等變量等變量wMethod: Stepwisew比較有用的結(jié)果:比較有用的結(jié)果:n擬合

10、程度擬合程度Adjusted R2: 越接近越接近1擬合程度越好擬合程度越好n回歸方程的顯著性檢驗回歸方程的顯著性檢驗Sign回歸系數(shù)表回歸系數(shù)表Coefficients的的Model最后一個中的回歸系數(shù)最后一個中的回歸系數(shù)B和顯著性檢驗和顯著性檢驗Sign得模型:得模型: Salary=-15038.6+1.37Salbegin+5859.59jobcat- 19.55prevexp+154.698jobtime+539.64edcu整理課件10.2 曲線估計(Curve Estimation)對于對于一元回歸一元回歸,若散點圖的趨若散點圖的趨勢不呈線性分勢不呈線性分布,可以利用布,可以利用

11、曲線估計方便曲線估計方便地進行線性擬地進行線性擬合合(liner)、二、二次擬合次擬合(Quadratic)、三次擬合三次擬合(Cubic)等。等。采用哪種擬合采用哪種擬合方式主要取決方式主要取決于各種擬合模于各種擬合模型對數(shù)據(jù)的充型對數(shù)據(jù)的充分描述分描述(看修看修正正Adjusted R2 -1)不同模型的表示不同模型的表示模型名稱模型名稱回歸方程回歸方程相應的線性回歸方程相應的線性回歸方程Linear(線性線性)Y=b0+b1tQuadratic(二次二次)Y=b0+b1t+b2t2Compound(復合復合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生長生長

12、)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(對數(shù)對數(shù))Y=b0+b1ln(t)Cubic(三次三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1 / tExponential(指數(shù)指數(shù))Y=b0 * eb1*tLn(Y)=ln(b0)+b1tInverse(逆逆)Y=b0+b1/tPower(冪冪)Y=b0(tb1 )Ln(Y)=ln(b0)+b1ln(t)Logistic(邏輯邏輯)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)整理課件10.2.3 曲線估計(Curve Estimation)分析

13、實例實例實例P247 Data11-01 :有關(guān)汽車數(shù)據(jù),看:有關(guān)汽車數(shù)據(jù),看mpg(每加每加侖汽油行駛里程侖汽油行駛里程)與與weight(車重車重)的關(guān)系的關(guān)系n先做散點圖先做散點圖(Graphs -Scatter-Simple):weight(X)、mpg(Y),看每加侖汽油行駛里程數(shù),看每加侖汽油行駛里程數(shù)mpg(Y)隨著汽車自重隨著汽車自重weight(X)的增加而減少的關(guān)系,也發(fā)現(xiàn)是曲線關(guān)系的增加而減少的關(guān)系,也發(fā)現(xiàn)是曲線關(guān)系n建立若干曲線模型(可試著選用所有模型建立若干曲線模型(可試著選用所有模型Models)wAnalyze-Regression- Curve Estimati

14、onwDependent: mpgwIndependent: weightwModels: 全選全選(除了最后一個邏輯回歸除了最后一個邏輯回歸)w選選Plot models:輸出模型圖形:輸出模型圖形w比較有用的結(jié)果:各種模型的比較有用的結(jié)果:各種模型的Adjusted R2,并比較哪個大,結(jié)果,并比較哪個大,結(jié)果是指數(shù)模型是指數(shù)模型Compound的的Adjusted R2=0.70678最好(擬合情況最好(擬合情況可見圖形窗口)可見圖形窗口), 結(jié)果方程為:結(jié)果方程為:mpg=60.15*0.999664weightw說明:說明:Growth和和Exponential的結(jié)果也相同,也一樣。

15、的結(jié)果也相同,也一樣。整理課件10.3二項邏輯回歸(Binary Logistic)在現(xiàn)實中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人是否會當選?在現(xiàn)實中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人是否會當選?為什么一些人易患冠心?。繛槭裁匆恍┤说纳鈺@得成功?此問題為什么一些人易患冠心???為什么一些人的生意會獲得成功?此問題的特點是因變量只有兩個值,不發(fā)生的特點是因變量只有兩個值,不發(fā)生(0)和發(fā)生和發(fā)生(1)。這就要求建立的。這就要求建立的模型必須因變量的取值范圍在模型必須因變量的取值范圍在01之間。之間。Logistic回歸模型回歸模型nLogistic模型:在邏輯回歸中,可以直接預測觀

16、測量相對于某一事件的發(fā)生概率。模型:在邏輯回歸中,可以直接預測觀測量相對于某一事件的發(fā)生概率。包含一個自變量的回歸模型和多個自變量的回歸模型公式:包含一個自變量的回歸模型和多個自變量的回歸模型公式: 其中:其中: z=B0+B1X1+BpXp(P為自變量個數(shù))。某一事件不發(fā)生的概率為為自變量個數(shù))。某一事件不發(fā)生的概率為Prob(no event)1-Prob(event) 。因此最主要的是求。因此最主要的是求B0,B1,Bp(常數(shù)和系數(shù)常數(shù)和系數(shù))n數(shù)據(jù)要求:因變量應具有二分特點。自變量可以是分類變量和定距變量。數(shù)據(jù)要求:因變量應具有二分特點。自變量可以是分類變量和定距變量。如果自變?nèi)绻宰?/p>

17、量是分類變量應為二分變量或被重新編碼為指示變量。指示變量有兩種編碼方式。量是分類變量應為二分變量或被重新編碼為指示變量。指示變量有兩種編碼方式。n回歸系數(shù):回歸系數(shù):幾率和概率的區(qū)別。幾率幾率和概率的區(qū)別。幾率=發(fā)生的概率發(fā)生的概率/不發(fā)生的概率。如從不發(fā)生的概率。如從52張橋牌張橋牌中抽出一張中抽出一張A的幾率為的幾率為(4/52)/(48/52)=1/12,而其概率值為,而其概率值為4/52=1/13 根據(jù)回歸系數(shù)表,可以寫出回歸模型公式中的根據(jù)回歸系數(shù)表,可以寫出回歸模型公式中的z。然后根據(jù)回歸模型公式。然后根據(jù)回歸模型公式Prob(event) 進行預測。進行預測。zeeventpro

18、b11)(整理課件10.3.3二項邏輯回歸(Binary Logistic)實例實例實例P255 Data11-02 :乳腺癌患者的數(shù)據(jù)進行分析,:乳腺癌患者的數(shù)據(jù)進行分析,變量為:年齡變量為:年齡age,患病時間患病時間time,腫瘤擴散等級腫瘤擴散等級pathscat(3種)種), 腫瘤大小腫瘤大小pathsize, 腫瘤史腫瘤史histgrad(3種)和癌變部位的淋巴結(jié)是否含有癌細胞種)和癌變部位的淋巴結(jié)是否含有癌細胞ln_yesno,建立一個模型,對癌變部位的淋巴結(jié)是否含有癌細胞建立一個模型,對癌變部位的淋巴結(jié)是否含有癌細胞ln_yesno的情況進行預測。的情況進行預測。nAnalyz

19、e-Regression- Binary LogisticnDependent: ln_yesnonCovariates: age, time,pathscat,pathsize, histgradn比較有用的結(jié)果:在比較有用的結(jié)果:在Variables in Equation表中的各變量的系數(shù)(表中的各變量的系數(shù)(B),可以寫),可以寫出出z=-0.86-0.331pathscat+0.415pathsize 0.023age+0.311histgrad。 根據(jù)回歸模型公式根據(jù)回歸模型公式Prob(event)=1/(1+e-z),就可以計算一名年齡為,就可以計算一名年齡為60歲、歲、pat

20、hsize為為1、histgrad為為1、pathscat為為1的患者,其淋巴結(jié)中發(fā)現(xiàn)癌細胞的的患者,其淋巴結(jié)中發(fā)現(xiàn)癌細胞的概率為概率為1/(1+e-(-1.845)=0.136(Prob(event) 0.5 預測事件將會發(fā)生)預測事件將會發(fā)生)整理課件補充:回歸分析補充:回歸分析以下的講義是吳喜之教授有關(guān)回歸分析的講義,很簡單,但很實用整理課件定量變量的線性回歸分析定量變量的線性回歸分析 對例1(highschoo.sav)的兩個變量的數(shù)據(jù)進行線性回歸,就是要找到一條直線來最好地代表散點圖中的那些點。 405060708090100405060708090100J3S101yx26.440

21、.65yx整理課件檢驗問題等檢驗問題等對于系數(shù)1=0的檢驗對于擬合的F檢驗R2(決定系數(shù))及修正的R2.整理課件多個自變量的回歸多個自變量的回歸01 122kkyxxx如何解釋擬合直線如何解釋擬合直線? ?什么是逐步回歸方法? 整理課件自變量中有定性變量的回歸自變量中有定性變量的回歸 例1(highschoo.sav)的數(shù)據(jù)中,還有一個自變量是定性變量“收入”,以虛擬變量或啞元(dummy variable)的方式出現(xiàn);這里收入的“低”,“中”,“高”,用1,2,3來代表.所以,如果要用這種啞元進行前面回歸就沒有道理了. 以例1數(shù)據(jù)為例,可以用下面的模型來描述:011012013,1,2,3y

22、xxx代表家庭收入的啞元 時,代表家庭收入的啞元 時,代表家庭收入的啞元 時。整理課件自變量中有定性變量的回歸自變量中有定性變量的回歸 現(xiàn)在只要估計0, 1,和1, 2, 3即可。啞元的各個參數(shù)1, 2, 3本身只有相對意義,無法三個都估計,只能夠在有約束條件下才能夠得到估計。約束條件可以有很多選擇,一種默認的條件是把一個參數(shù)設為0,比如3=0,這樣和它有相對意義的1和2就可以估計出來了。對于例1,對0, 1, 1, 2, 3的估計分別為28.708, 0.688, -11.066, -4.679, 0。這時的擬合直線有三條,對三種家庭收入各有一條: 28.7080.68811.066,28.

23、7080.6884 679,28.7080.688 ,yxyxyx(低收入家庭),.(中等收入家庭),(高收入家庭)。整理課件SPSS實現(xiàn)實現(xiàn)(hischool.sav)AnalizeGeneral linear modelUnivariate,在Options中選擇Parameter Estimates,再在主對話框中把因變量(s1)選入Dependent Variable,把定量自變量(j3)選入Covariate,把定量因變量(income)選入Factor中。然后再點擊Model,在Specify Model中選Custom,再把兩個有關(guān)的自變量選入右邊,再在下面Building Term中選Main effect。Continue

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論