版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第10章 回歸分析介紹:介紹: 1、回歸分析的概念和模型、回歸分析的概念和模型 2、回歸分析的過程、回歸分析的過程回歸分析的概念尋求有關(guān)聯(lián)(相關(guān))的變量之間的關(guān)系尋求有關(guān)聯(lián)(相關(guān))的變量之間的關(guān)系主要內(nèi)容:主要內(nèi)容:n從一組樣本數(shù)據(jù)出發(fā),確定這些變量間的定從一組樣本數(shù)據(jù)出發(fā),確定這些變量間的定量關(guān)系式量關(guān)系式n對(duì)這些關(guān)系式的可信度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn)對(duì)這些關(guān)系式的可信度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn)n從影響某一變量的諸多變量中,判斷哪些變從影響某一變量的諸多變量中,判斷哪些變量的影響顯著,哪些不顯著量的影響顯著,哪些不顯著n利用求得的關(guān)系式進(jìn)行預(yù)測(cè)和控制利用求得的關(guān)系式進(jìn)行預(yù)測(cè)和控制回歸分析的模型按是否線性分:
2、線性回歸模型和非線性回歸模型按是否線性分:線性回歸模型和非線性回歸模型按自變量個(gè)數(shù)分:簡(jiǎn)單的一元回歸,多元回歸按自變量個(gè)數(shù)分:簡(jiǎn)單的一元回歸,多元回歸基本的步驟:利用基本的步驟:利用SPSS得到模型關(guān)系式,是否得到模型關(guān)系式,是否是我們所要的,要看回歸方程的顯著性檢驗(yàn)(是我們所要的,要看回歸方程的顯著性檢驗(yàn)(F檢驗(yàn))和回歸系數(shù)檢驗(yàn))和回歸系數(shù)b的顯著性檢驗(yàn)的顯著性檢驗(yàn)(T檢驗(yàn)檢驗(yàn)),還要,還要看擬合程度看擬合程度R2 (相關(guān)系數(shù)的平方相關(guān)系數(shù)的平方,一元回歸用一元回歸用R Square,多元回歸用,多元回歸用Adjusted R Square)回歸分析的過程在回歸過程中包括:在回歸過程中包括:
3、nLiner:線性回歸:線性回歸nCurve Estimation:曲線估計(jì):曲線估計(jì)nBinary Logistic: 二分變量邏輯回歸二分變量邏輯回歸nMultinomial Logistic:多分變量邏輯回歸:多分變量邏輯回歸nOrdinal 序回歸序回歸nProbit:概率單位回歸:概率單位回歸nNonlinear:非線性回歸:非線性回歸nWeight Estimation:加權(quán)估計(jì):加權(quán)估計(jì)n2-Stage Least squares:二段最小平方法:二段最小平方法nOptimal Scaling 最優(yōu)編碼回歸最優(yōu)編碼回歸我們只講前面我們只講前面3個(gè)簡(jiǎn)單的(一般教科書的講法)個(gè)簡(jiǎn)單的
4、(一般教科書的講法)10.1 線性回歸(Liner)一元線性回歸方程一元線性回歸方程: y=a+bxna稱為截距稱為截距nb為回歸直線的斜率為回歸直線的斜率n用用R2判定系數(shù)判定系數(shù)判定一個(gè)線性回歸直線的擬合程度:用來說明用自變判定一個(gè)線性回歸直線的擬合程度:用來說明用自變量解釋因變量變異的程度(所占比例)量解釋因變量變異的程度(所占比例)多元線性回歸方程多元線性回歸方程: y=b0+b1x1+b2x2+bnxnnb0為常數(shù)項(xiàng)為常數(shù)項(xiàng)nb1、b2、bn稱為稱為y對(duì)應(yīng)于對(duì)應(yīng)于x1、x2、xn的偏回歸系數(shù)的偏回歸系數(shù)n用用Adjusted R2調(diào)整判定系數(shù)調(diào)整判定系數(shù)判定一個(gè)多元線性回歸方程的擬合
5、程度:判定一個(gè)多元線性回歸方程的擬合程度:用來說明用自變量解釋因變量變異的程度(所占比例)用來說明用自變量解釋因變量變異的程度(所占比例)一元線性回歸模型的確定一元線性回歸模型的確定:一般先做散點(diǎn)圖一般先做散點(diǎn)圖(Graphs -Scatter-Simple),以便進(jìn)行簡(jiǎn)單地觀測(cè)(如:以便進(jìn)行簡(jiǎn)單地觀測(cè)(如:Salary與與Salbegin的關(guān)系的關(guān)系)若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線性方程,若不呈線若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線性方程,若不呈線性分布,可建立其它方程模型,并比較性分布,可建立其它方程模型,并比較R2 (-1)來確定一種最佳來確定一種最佳方程式(曲線估計(jì))方程
6、式(曲線估計(jì))多元線性回歸一般采用逐步回歸方法多元線性回歸一般采用逐步回歸方法-Stepwise 逐步回歸方法的基本思想對(duì)全部的自變量對(duì)全部的自變量x1,x2,.,xp,按它們對(duì)按它們對(duì)Y貢獻(xiàn)的大小進(jìn)行貢獻(xiàn)的大小進(jìn)行比較,并通過比較,并通過F檢驗(yàn)法,選擇偏回歸平方和顯著的變量檢驗(yàn)法,選擇偏回歸平方和顯著的變量進(jìn)入回歸方程,每一步只引入一個(gè)變量,同時(shí)建立一進(jìn)入回歸方程,每一步只引入一個(gè)變量,同時(shí)建立一個(gè)偏回歸方程。當(dāng)一個(gè)變量被引入后,對(duì)原已引入回個(gè)偏回歸方程。當(dāng)一個(gè)變量被引入后,對(duì)原已引入回歸方程的變量,逐個(gè)檢驗(yàn)他們的偏回歸平方和。如果歸方程的變量,逐個(gè)檢驗(yàn)他們的偏回歸平方和。如果由于引入新的變
7、量而使得已進(jìn)入方程的變量變?yōu)椴伙@由于引入新的變量而使得已進(jìn)入方程的變量變?yōu)椴伙@著時(shí),則及時(shí)從偏回歸方程中剔除。在引入了兩個(gè)自著時(shí),則及時(shí)從偏回歸方程中剔除。在引入了兩個(gè)自變量以后,便開始考慮是否有需要剔除的變量。只有變量以后,便開始考慮是否有需要剔除的變量。只有當(dāng)回歸方程中的所有自變量對(duì)當(dāng)回歸方程中的所有自變量對(duì)Y都有顯著影響而不需要都有顯著影響而不需要剔除時(shí),在考慮從未選入方程的自變量中,挑選對(duì)剔除時(shí),在考慮從未選入方程的自變量中,挑選對(duì)Y有有顯著影響的新的變量進(jìn)入方程。不論引入還是剔除一顯著影響的新的變量進(jìn)入方程。不論引入還是剔除一個(gè)變量都稱為一步。不斷重復(fù)這一過程,直至無法剔個(gè)變量都稱為
8、一步。不斷重復(fù)這一過程,直至無法剔除已引入的變量,也無法再引入新的自變量時(shí),逐步除已引入的變量,也無法再引入新的自變量時(shí),逐步回歸過程結(jié)束。回歸過程結(jié)束。10.1.6 線性回歸分析實(shí)例p240實(shí)例:實(shí)例:P240Data07-03 建立一個(gè)以初始工資建立一個(gè)以初始工資Salbegin 、工作、工作經(jīng)驗(yàn)經(jīng)驗(yàn)prevexp 、工作時(shí)間、工作時(shí)間jobtime 、工作種類、工作種類jobcat 、受教育、受教育年限年限edcu等為自變量,當(dāng)前工資等為自變量,當(dāng)前工資Salary為因變量的回歸模型。為因變量的回歸模型。n先做數(shù)據(jù)散點(diǎn)圖先做數(shù)據(jù)散點(diǎn)圖,觀測(cè)因變量觀測(cè)因變量Salary與自變量與自變量Sa
9、lbegin之間之間關(guān)系是否有線性特點(diǎn)關(guān)系是否有線性特點(diǎn)nGraphs -Scatter-SimplenX Axis: SalbeginnY Axis: Salaryn若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線性回歸模型若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線性回歸模型wAnalyze-Regression-LinearwDependent: SalarywIndependents: Salbegin,prevexp,jobtime,jobcat,edcu等變量等變量wMethod: Stepwisew比較有用的結(jié)果:比較有用的結(jié)果:n擬合程度擬合程度Adjusted R2: 越接近越接近1擬合
10、程度越好擬合程度越好n回歸方程的顯著性檢驗(yàn)回歸方程的顯著性檢驗(yàn)Sign回歸系數(shù)表回歸系數(shù)表Coefficients的的Model最后一個(gè)中的回歸系數(shù)最后一個(gè)中的回歸系數(shù)B和顯著性檢驗(yàn)和顯著性檢驗(yàn)Sign得模型:得模型: Salary=-15038.6+1.37Salbegin+5859.59jobcat- 19.55prevexp+154.698jobtime+539.64edcu10.2 曲線估計(jì)(Curve Estimation)對(duì)于對(duì)于一元回歸一元回歸,若散點(diǎn)圖的趨若散點(diǎn)圖的趨勢(shì)不呈線性分勢(shì)不呈線性分布,可以利用布,可以利用曲線估計(jì)方便曲線估計(jì)方便地進(jìn)行線性擬地進(jìn)行線性擬合合(liner
11、)、二、二次擬合次擬合(Quadratic)、三次擬合三次擬合(Cubic)等。等。采用哪種擬合采用哪種擬合方式主要取決方式主要取決于各種擬合模于各種擬合模型對(duì)數(shù)據(jù)的充型對(duì)數(shù)據(jù)的充分描述分描述(看修看修正正Adjusted R2 -1)不同模型的表示不同模型的表示模型名稱模型名稱回歸方程回歸方程相應(yīng)的線性回歸方程相應(yīng)的線性回歸方程Linear(線性線性)Y=b0+b1tQuadratic(二次二次)Y=b0+b1t+b2t2Compound(復(fù)合復(fù)合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生長(zhǎng)生長(zhǎng))Y=eb0+b1tLn(Y)=b0+b1tLogarithmi
12、c(對(duì)數(shù)對(duì)數(shù))Y=b0+b1ln(t)Cubic(三次三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1 / tExponential(指數(shù)指數(shù))Y=b0 * eb1*tLn(Y)=ln(b0)+b1tInverse(逆逆)Y=b0+b1/tPower(冪冪)Y=b0(tb1 )Ln(Y)=ln(b0)+b1ln(t)Logistic(邏輯邏輯)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)10.2.3 曲線估計(jì)(Curve Estimation)分析實(shí)例實(shí)例實(shí)例P247 Data11-01 :有關(guān)汽車數(shù)據(jù),看:有關(guān)汽車數(shù)
13、據(jù),看mpg(每加每加侖汽油行駛里程侖汽油行駛里程)與與weight(車重車重)的關(guān)系的關(guān)系n先做散點(diǎn)圖先做散點(diǎn)圖(Graphs -Scatter-Simple):weight(X)、mpg(Y),看每加侖汽油行駛里程數(shù),看每加侖汽油行駛里程數(shù)mpg(Y)隨著汽車自重隨著汽車自重weight(X)的增加而減少的關(guān)系,也發(fā)現(xiàn)是曲線關(guān)系的增加而減少的關(guān)系,也發(fā)現(xiàn)是曲線關(guān)系n建立若干曲線模型(可試著選用所有模型建立若干曲線模型(可試著選用所有模型Models)wAnalyze-Regression- Curve EstimationwDependent: mpgwIndependent: weigh
14、twModels: 全選全選(除了最后一個(gè)邏輯回歸除了最后一個(gè)邏輯回歸)w選選Plot models:輸出模型圖形:輸出模型圖形w比較有用的結(jié)果:各種模型的比較有用的結(jié)果:各種模型的Adjusted R2,并比較哪個(gè)大,結(jié)果,并比較哪個(gè)大,結(jié)果是指數(shù)模型是指數(shù)模型Compound的的Adjusted R2=0.70678最好(擬合情況最好(擬合情況可見圖形窗口)可見圖形窗口), 結(jié)果方程為:結(jié)果方程為:mpg=60.15*0.999664weightw說明:說明:Growth和和Exponential的結(jié)果也相同,也一樣。的結(jié)果也相同,也一樣。10.3二項(xiàng)邏輯回歸(Binary Logisti
15、c)在現(xiàn)實(shí)中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人是否會(huì)當(dāng)選?在現(xiàn)實(shí)中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人是否會(huì)當(dāng)選?為什么一些人易患冠心病?為什么一些人的生意會(huì)獲得成功?此問題為什么一些人易患冠心???為什么一些人的生意會(huì)獲得成功?此問題的特點(diǎn)是因變量只有兩個(gè)值,不發(fā)生的特點(diǎn)是因變量只有兩個(gè)值,不發(fā)生(0)和發(fā)生和發(fā)生(1)。這就要求建立的。這就要求建立的模型必須因變量的取值范圍在模型必須因變量的取值范圍在01之間。之間。Logistic回歸模型回歸模型nLogistic模型:在邏輯回歸中,可以直接預(yù)測(cè)觀測(cè)量相對(duì)于某一事件的發(fā)生概率。模型:在邏輯回歸中,可以直接預(yù)測(cè)觀測(cè)量相對(duì)于某一事
16、件的發(fā)生概率。包含一個(gè)自變量的回歸模型和多個(gè)自變量的回歸模型公式:包含一個(gè)自變量的回歸模型和多個(gè)自變量的回歸模型公式: 其中:其中: z=B0+B1X1+BpXp(P為自變量個(gè)數(shù))。某一事件不發(fā)生的概率為為自變量個(gè)數(shù))。某一事件不發(fā)生的概率為Prob(no event)1-Prob(event) 。因此最主要的是求。因此最主要的是求B0,B1,Bp(常數(shù)和系數(shù)常數(shù)和系數(shù))n數(shù)據(jù)要求:因變量應(yīng)具有二分特點(diǎn)。自變量可以是分類變量和定距變量。數(shù)據(jù)要求:因變量應(yīng)具有二分特點(diǎn)。自變量可以是分類變量和定距變量。如果自變?nèi)绻宰兞渴欠诸愖兞繎?yīng)為二分變量或被重新編碼為指示變量。指示變量有兩種編碼方式。量是分類
17、變量應(yīng)為二分變量或被重新編碼為指示變量。指示變量有兩種編碼方式。n回歸系數(shù):回歸系數(shù):幾率和概率的區(qū)別。幾率幾率和概率的區(qū)別。幾率=發(fā)生的概率發(fā)生的概率/不發(fā)生的概率。如從不發(fā)生的概率。如從52張橋牌張橋牌中抽出一張中抽出一張A的幾率為的幾率為(4/52)/(48/52)=1/12,而其概率值為,而其概率值為4/52=1/13 根據(jù)回歸系數(shù)表,可以寫出回歸模型公式中的根據(jù)回歸系數(shù)表,可以寫出回歸模型公式中的z。然后根據(jù)回歸模型公式。然后根據(jù)回歸模型公式Prob(event) 進(jìn)行預(yù)測(cè)。進(jìn)行預(yù)測(cè)。zeeventprob11)(10.3.3二項(xiàng)邏輯回歸(Binary Logistic)實(shí)例實(shí)例實(shí)例
18、P255 Data11-02 :乳腺癌患者的數(shù)據(jù)進(jìn)行分析,:乳腺癌患者的數(shù)據(jù)進(jìn)行分析,變量為:年齡變量為:年齡age,患病時(shí)間患病時(shí)間time,腫瘤擴(kuò)散等級(jí)腫瘤擴(kuò)散等級(jí)pathscat(3種)種), 腫瘤大小腫瘤大小pathsize, 腫瘤史腫瘤史histgrad(3種)和癌變部位的淋巴結(jié)是否含有癌細(xì)胞種)和癌變部位的淋巴結(jié)是否含有癌細(xì)胞ln_yesno,建立一個(gè)模型,對(duì)癌變部位的淋巴結(jié)是否含有癌細(xì)胞建立一個(gè)模型,對(duì)癌變部位的淋巴結(jié)是否含有癌細(xì)胞ln_yesno的情況進(jìn)行預(yù)測(cè)。的情況進(jìn)行預(yù)測(cè)。nAnalyze-Regression- Binary LogisticnDependent: ln_
19、yesnonCovariates: age, time,pathscat,pathsize, histgradn比較有用的結(jié)果:在比較有用的結(jié)果:在Variables in Equation表中的各變量的系數(shù)(表中的各變量的系數(shù)(B),可以寫),可以寫出出z=-0.86-0.331pathscat+0.415pathsize 0.023age+0.311histgrad。 根據(jù)回歸模型公式根據(jù)回歸模型公式Prob(event)=1/(1+e-z),就可以計(jì)算一名年齡為,就可以計(jì)算一名年齡為60歲、歲、pathsize為為1、histgrad為為1、pathscat為為1的患者,其淋巴結(jié)中發(fā)現(xiàn)癌
20、細(xì)胞的的患者,其淋巴結(jié)中發(fā)現(xiàn)癌細(xì)胞的概率為概率為1/(1+e-(-1.845)=0.136(Prob(event) 0.5 預(yù)測(cè)事件將會(huì)發(fā)生)預(yù)測(cè)事件將會(huì)發(fā)生)補(bǔ)充:回歸分析補(bǔ)充:回歸分析以下的講義是吳喜之教授有關(guān)回歸分析的講義,很簡(jiǎn)單,但很實(shí)用定量變量的線性回歸分析定量變量的線性回歸分析 對(duì)例1(highschoo.sav)的兩個(gè)變量的數(shù)據(jù)進(jìn)行線性回歸,就是要找到一條直線來最好地代表散點(diǎn)圖中的那些點(diǎn)。 405060708090100405060708090100J3S101yx26.440.65yx檢驗(yàn)問題等檢驗(yàn)問題等對(duì)于系數(shù)1=0的檢驗(yàn)對(duì)于擬合的F檢驗(yàn)R2(決定系數(shù))及修正的R2.多個(gè)自變
21、量的回歸多個(gè)自變量的回歸01 122kkyxxx如何解釋擬合直線如何解釋擬合直線? ?什么是逐步回歸方法? 自變量中有定性變量的回歸自變量中有定性變量的回歸 例1(highschoo.sav)的數(shù)據(jù)中,還有一個(gè)自變量是定性變量“收入”,以虛擬變量或啞元(dummy variable)的方式出現(xiàn);這里收入的“低”,“中”,“高”,用1,2,3來代表.所以,如果要用這種啞元進(jìn)行前面回歸就沒有道理了. 以例1數(shù)據(jù)為例,可以用下面的模型來描述:011012013,1,2,3yxxx代表家庭收入的啞元 時(shí),代表家庭收入的啞元 時(shí),代表家庭收入的啞元 時(shí)。自變量中有定性變量的回歸自變量中有定性變量的回歸
22、現(xiàn)在只要估計(jì)0, 1,和1, 2, 3即可。啞元的各個(gè)參數(shù)1, 2, 3本身只有相對(duì)意義,無法三個(gè)都估計(jì),只能夠在有約束條件下才能夠得到估計(jì)。約束條件可以有很多選擇,一種默認(rèn)的條件是把一個(gè)參數(shù)設(shè)為0,比如3=0,這樣和它有相對(duì)意義的1和2就可以估計(jì)出來了。對(duì)于例1,對(duì)0, 1, 1, 2, 3的估計(jì)分別為28.708, 0.688, -11.066, -4.679, 0。這時(shí)的擬合直線有三條,對(duì)三種家庭收入各有一條: 28.7080.68811.066,28.7080.6884 679,28.7080.688 ,yxyxyx(低收入家庭),.(中等收入家庭),(高收入家庭)。SPSS實(shí)現(xiàn)實(shí)現(xiàn)(hischool.sav)AnalizeGeneral linear modelUnivariate,在Options中選擇Parameter Estimates,再在主對(duì)話框中把因變量(s1)選入Dependent Variable,把定量自變量(j3)選入Covariate,把定量因變量(income)選入Factor中。然后再點(diǎn)擊Model,在Specify Model中選Custom,再把兩個(gè)有關(guān)的自變量選入右邊,再
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鴨產(chǎn)業(yè)鏈國(guó)際化拓展策略-洞察分析
- 2024年枝江市人民醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫(kù)頻考點(diǎn)附帶答案
- 《電工及電子基礎(chǔ)》課件
- 2025年湘師大新版高一數(shù)學(xué)下冊(cè)階段測(cè)試試卷
- 2024年滬科版必修2地理下冊(cè)階段測(cè)試試卷
- 2025年粵教滬科版七年級(jí)科學(xué)下冊(cè)階段測(cè)試試卷含答案
- 2024年滬科版八年級(jí)化學(xué)上冊(cè)階段測(cè)試試卷含答案
- 《相交流異步電動(dòng)機(jī)》課件
- 學(xué)習(xí)資料零花錢協(xié)議
- 企業(yè)電費(fèi)違約金管理策略
- 【講座】2020年福建省高職分類考試招生指導(dǎo)講座
- 性格決定命運(yùn)課件
- 球磨機(jī)安全檢查表分析(SCL)+評(píng)價(jià)記錄
- 學(xué)習(xí)會(huì)計(jì)基礎(chǔ)工作規(guī)范課件
- 雙面埋弧焊螺旋鋼管公稱外公壁厚和每米理論重量
- 富士施樂VC2265打印機(jī)使用說明SPO
- 服務(wù)態(tài)度決定客戶滿意度試題含答案
- 中學(xué)歷史教育中的德育狀況調(diào)查問卷
- 教科版四年級(jí)科學(xué)上冊(cè)全冊(cè)復(fù)習(xí)教學(xué)設(shè)計(jì)及知識(shí)點(diǎn)整理
- 重慶萬科渠道制度管理辦法2022
- 上海黃金交易所貴金屬交易員題庫(kù)
評(píng)論
0/150
提交評(píng)論