




已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第9章 含定性變量的回歸模型,9.1 自變量中含有定性變量的回歸模型 9.2 自變量定性變量回歸模型的應(yīng)用 9.3 因變量是定性變量的回歸模型 9.4 Logistic(邏輯斯蒂)回歸 9.5 多類別Logistic回歸 9.6 因變量是順序變量的回歸 9.7 本章小結(jié)與評注,9.1 自變量中含有定性變量的回歸模型,一、簡單情況,首先討論定性變量只取兩類可能值的情況,例如研究糧食產(chǎn)量問題,y為糧食產(chǎn)量,x為施肥量,另外再考慮氣候問題,分為正常年份和干旱年份兩種情況,對這個問題的數(shù)量化方法是引入一個0-1型變量D,令: Di=1 表示正常年份 Di=0 表示干旱年份,9.1 自變量中含有定性變量的回歸模型,糧食產(chǎn)量的回歸模型為: yi=0+1xi+2Di+i 其中干旱年份的糧食平均產(chǎn)量為: E(yi|Di=0)=0+1xi 正常年份的糧食平均產(chǎn)量為: E(yi|Di=1)=(0+2)+1xi,9.1 自變量中含有定性變量的回歸模型,例9.1 某經(jīng)濟學(xué)家想調(diào)查文化程度對家庭儲蓄的影響,在一個中等收入的樣本框中,隨機調(diào)查了13戶高學(xué)歷家庭與14戶中低學(xué)歷的家庭, 因變量y為上一年家庭儲蓄增加額, 自變量x1為上一年家庭總收入, 自變量x2表示家庭學(xué)歷, 高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0, 調(diào)查數(shù)據(jù)見表9.1:,9.1 自變量中含有定性變量的回歸模型,表9.1,9.1 自變量中含有定性變量的回歸模型,建立y對x1、x2的線性回歸,9.1 自變量中含有定性變量的回歸模型,兩個自變量x1與x2的系數(shù)都是顯著的,判定系數(shù)R2=0.879,回歸方程為: =-7976+3826x1-3700x2,9.1 自變量中含有定性變量的回歸模型,這個結(jié)果表明,中等收入的家庭每增加1萬元收入,平均拿出3826元作為儲蓄。高學(xué)歷家庭每年的平均儲蓄額少于低學(xué)歷的家庭,平均少3700元。 如果不引入家庭學(xué)歷定性變量x2,僅用y對家庭年收入x1做一元線性回歸,得判定系數(shù)R2=0.618,擬合效果不好。,9.1 自變量中含有定性變量的回歸模型,家庭年收入x1是連續(xù)型變量,它對回歸的貢獻也是不可缺少的。如果不考慮家庭年收入這個自變量,13戶高學(xué)歷家庭的平均年儲蓄增加額為3009.31元,14戶低學(xué)歷家庭的平均年儲蓄增加額為5059.36元,這樣會認(rèn)為高學(xué)歷家庭每年的儲蓄額比低學(xué)歷的家庭平均少5059.36-3009.31=2050.05元,而用回歸法算出的數(shù)值是3824元,兩者并不相等。,9.1 自變量中含有定性變量的回歸模型,用回歸法算出的高學(xué)歷家庭每年的平均儲蓄額比低學(xué)歷的家庭平均少3824元,這是在假設(shè)兩者的家庭年收入相等的基礎(chǔ)上的儲蓄差值,或者說是消除了家庭年收入的影響后的差值,因而反映了兩者儲蓄額的真實差異。而直接由樣本計算的差值2050.05元是包含有家庭年收入影響在內(nèi)的差值,是虛假的差值。所調(diào)查的13戶高學(xué)歷家庭的平均年收入額為3.8385萬元,14戶低學(xué)歷家庭的平均年收入額為3.4071萬元,兩者并不相等。,9.1 自變量中含有定性變量的回歸模型,二、復(fù)雜情況,某些場合定性自變量可能取多類值,例如某商廈策劃營銷方案,需要考慮銷售額的季節(jié)性影響,季節(jié)因素分為春、夏、秋、冬4種情況。為了用定性自變量反應(yīng)春、夏、秋、冬四季,我們初步設(shè)想引入如下4個0-1自變量:,9.1 自變量中含有定性變量的回歸模型,可是這樣做卻產(chǎn)生了一個新的問題,即x1+x2+x3+x4=1,構(gòu)成完全多重共線性。 解決這個問題的方法很簡單,我們只需去掉一個0-1型變量,只保留3個0-1型自變量即可。例如去掉x4,只保留x1、x2、x3。 對一般情況,一個定性變量有k類可能的取值時,需要引入k-1個0-1型自變量。當(dāng)k=2時,只需要引入一個0-1型自變量即可。,9.1 自變量中含有定性變量的回歸模型,三、單因素方差分析,設(shè)yij是正態(tài)總體N(j,2),的樣本 j=1,c,i=1,2,nj 原假設(shè)為:H0: 1=2=c 記ij= yij-j,則有ijN(0,2),進而有 yij=j+ij ,i=1,2,nj,j=1,c, (9.39) 記,aj=j-,則(9.39)式改寫為: yij=+ai+ij ,i=1,2,ni,j=1,c, (9.39),9.1 自變量中含有定性變量的回歸模型,引入0-1型自變量xij,將(9.40)式表示為 yij=+a1xi1+a2xi2+acxic +ij,其中,9.1 自變量中含有定性變量的回歸模型,其中還存在一個問題,就是c個自變量x1,x2, ,xc之和恒等于1,存在完全的復(fù)共線性。為此,剔除xc,建立回歸模型 yij=+a1xi1+a2xi2+ac-1xic-1 +ij i=1,2,nj,j=1,c, 回歸方程顯著性檢驗的原假設(shè)為: H0: a1=a2=ac-1=0,9.1 自變量中含有定性變量的回歸模型,由aj=j-=j- 可知,H0: a1=a2=ac-1=0 與,H0: 1=2=c是等價的,線性回歸的F檢驗與單因素方差分析的F檢驗是等價的。,9.2 自變量定性變量回歸模型的應(yīng)用,一、分段回歸,例9.2 表9.3給出某工廠生產(chǎn)批量xi與單位成本yi(美元)的數(shù)據(jù)。試用分段回歸建立回歸模型。,9.2 自變量定性變量回歸模型的應(yīng)用,圖9.1 單位成本對批量散點圖,9.2 自變量定性變量回歸模型的應(yīng)用,由圖9.1可看出數(shù)據(jù)在生產(chǎn)批量xp=500時發(fā)生較大變化,即批量大于500時成本明顯下降。我們考慮由兩段構(gòu)成的分段線性回歸,這可以通過引入一個0-1型虛擬自變量實現(xiàn)。假定回歸直線的斜率在xp=500處改變,建立回歸模型 yi=0+1xi+2(xi-5)Di+i,來擬合,其中,9.2 自變量定性變量回歸模型的應(yīng)用,引入兩個新的自變量,xi1=xi xi2=(xi-5)Di,這樣回歸模型轉(zhuǎn)化為標(biāo)準(zhǔn)形式的二元線性回歸模型: yi=0+1xi1+2xi2+i (9.3) (9.3)式可以分解為兩個線性回歸方程: 當(dāng)x1500時,E(y)=0+1x1 當(dāng)x1500時,E(y)=(0-5002)+(1+2)x1,9.2 自變量定性變量回歸模型的應(yīng)用,9.2 自變量定性變量回歸模型的應(yīng)用,用普通最小二乘法擬合模型(9.3)式得回歸方程為: =5.895-0.00395x1-0.00389x2 利用此模型可說明生產(chǎn)批量小于500時,每增加1個單位批量,單位成本降低0.00395美元;當(dāng)生產(chǎn)批量大于500時,每增加1個單位批量,估計單位成本降低0.00395+0.00389=0.00784(美元)。,9.2 自變量定性變量回歸模型的應(yīng)用,以上只是根據(jù)散點圖從直觀上判斷本例數(shù)據(jù)應(yīng)該用折線回歸擬合,這一點還需要做統(tǒng)計的顯著性檢驗,這只需對(9.2)式的回歸系數(shù)2做顯著性檢驗。,9.2 自變量定性變量回歸模型的應(yīng)用,對2的顯著性檢驗的顯著性概率Sig=0.153,2沒有通過顯著性檢驗,不能認(rèn)為2非零。用y對x做一元線性回歸,計算結(jié)果為:,9.2 自變量定性變量回歸模型的應(yīng)用,二、回歸系數(shù)相等的檢驗,例9.3 回到例9.1的問題,例9.1引入0-1型自變量的方法是假定儲蓄增加額y對家庭收入的回歸斜率1與家庭年收入無關(guān),家庭年收入只影響回歸常數(shù)項0,這個假設(shè)是否合理,還需要做統(tǒng)計檢驗。檢驗方法是引入如下含有交互效應(yīng)的回歸模型: yi=0+1xi1+2xi2+3xi1xi2+i(9.8) 其中y為上一年家庭儲蓄增加額, x1為上一年家庭總收入, x2表示家庭學(xué)歷, 高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0。,9.2 自變量定性變量回歸模型的應(yīng)用,回歸模型(9.8)式可以分解為對高學(xué)歷和對低學(xué)歷家庭的兩個線性回歸模型,分別為:,高學(xué)歷家庭x2=1, yi=0+1xi1+2+3xi1+i =(0+2)+(1+3)xi1+i 低學(xué)歷家庭x2=0, yi=0+1xi1+i,9.2 自變量定性變量回歸模型的應(yīng)用,要檢驗兩個回歸方程的回歸系數(shù)(斜率)相等,等價于檢驗 H0:3=0,,當(dāng)拒絕H0時,認(rèn)為30,這時高學(xué)歷與低學(xué)歷家庭的儲蓄回歸模型實際上被拆分為兩個不同的回歸模型。 當(dāng)接受H0時,認(rèn)為3=0,這時高學(xué)歷與低學(xué)歷家庭的儲蓄回歸模型是如下形式的聯(lián)合回歸模型: yi=0+1xi1+2xi2+i,9.2 自變量定性變量回歸模型的應(yīng)用,9.3 因變量是定性變量的回歸模型,在許多社會經(jīng)濟問題中,所研究的因變量往往只有兩個可能結(jié)果,這樣的因變量也可用虛擬變量來表示,虛擬變量的取值可取0或1。,一、定性因變量的回歸方程的意義,設(shè)因變量y是只取0,1兩個值的定性變量,考慮簡單線性回歸模型 yi=0+1xi+i (9.12) 在這種y只取0,1兩個值的情況下,因變量均值E(yi)=0+1xi有著特殊的意義。,9.3 因變量是定性變量的回歸模型,由于yi是0-1型貝努利隨機變量,則得如下概率分布: P(yi=1)=i P(yi=0)=1-i 根據(jù)離散型隨機變量期望值的定義,可得 E(yi)=1(i)+0(1-i)=i (9.13) 得到 E(yi)=i=0+1xi,9.3 因變量是定性變量的回歸模型,二、定性因變量回歸的特殊問題,1. 離散非正態(tài)誤差項。,對一個取值為0和1的因變量, 誤差項i=yi-(0+1xi)只能取兩個值: 當(dāng)yi=1時, i=1-0-1xi=i 當(dāng)yi=0時, i=-0-1xi=1-i 顯然,誤差項i是兩點型離散分布,當(dāng)然正態(tài)誤差回歸模型的假定就不適用了。,9.3 因變量是定性變量的回歸模型,2. 零均值異方差性。,當(dāng)因變量是定性變量時,誤差項i仍然保持零均值,這時出現(xiàn)的另一個問題是誤差項i的方差不相等。0-1型隨機變量i的方差為 D(i)=D(yi) =i(1-i) =(0+1xi)(1-0-1xi) (9.14) i的方差依賴于xi,是異方差,不滿足線性回歸方程的基本假定。,9.3 因變量是定性變量的回歸模型,3.回歸方程的限制,當(dāng)因變量為0、1虛擬變量時,回歸方程代表概率分布,所以因變量均值受到如下限制: E(yi)=i1 對一般的回歸方程本身并不具有這種限制,線性回歸方程yi=0+1xi將會超出這個限制范圍。,9.4Logistic回歸模型,一、分組數(shù)據(jù)的Logistic回歸模型,針對0-1型因變量產(chǎn)生的問題,我們對回歸模型應(yīng)該做兩個方面的改進。,第一,回歸函數(shù)應(yīng)該改用限制在0,1區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程。,9.4Logistic回歸模型,限制在0,1區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為,Logistic函數(shù)的中文名稱是邏輯斯諦函數(shù),或簡稱邏輯函數(shù)。,9.4Logistic回歸模型,第二,因變量yi本身只取0、1兩個離散值,不適于直接作為回歸模型中的因變量。 由于回歸函數(shù)E(yi)=i=0+1xi表示在自變量為xi的條件下yi的平均值,而yi是0-1型隨機變量,因而E(yi)=i就是在自變量為xi的條件下yi等于1的比例。這提示我們可以用yi等于1的比例代替yi本身作為因變量。 下面通過一個例子來說明Logistic回歸模型的應(yīng)用。,9.4Logistic回歸模型,例9.4 在一次住房展銷會上,與房地產(chǎn)商簽定初步購房意向書的共有n=325名顧客中,在隨后的3個月的時間內(nèi),只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數(shù)據(jù),建立Logistic回歸模型,9.4Logistic回歸模型,9.4Logistic回歸模型,Logistic回歸方程為,其中c為分組數(shù)據(jù)的組數(shù),本例c=9。做線性化變換,令,上式的變換稱為邏輯(Logit)變換,得,pi=0+1xi+i,(9.16),(9.18),(9.17),9.4Logistic回歸模型,計算出經(jīng)驗回歸方程為 -0.886+0.156x (9.19) 判定系數(shù)r2=0.9243,顯著性檢驗P值0,高度顯著。還原為(9.16)式的Logistic回歸方程為,利用(9.20)式可以對購房比例做預(yù)測,例如對x0=8,,9.4Logistic回歸模型,我們用Logistic回歸模型成功地擬合了因變量為定性變量的回歸模型,但是仍然存在一個不足之處,就是異方差性并沒有解決,(9.18)式的回歸模型不是等方差的,應(yīng)該對(9.18)式用加權(quán)最小二乘估計。當(dāng)ni較大時,pi的近似方差為:,其中i=E(yi),因而選取權(quán)數(shù)為: wi=nipi(1-pi),9.4Logistic回歸模型,用加權(quán)最小二乘法得到的Logistic回歸方程為,對x0=8時的購房比例做預(yù)測,9.4Logistic回歸模型,二、未分組數(shù)據(jù)的Logistic回歸模型,設(shè)y是0-1型變量,x1,x2,xp是與y相關(guān)的確定性變量, n組觀測數(shù)據(jù)為(xi1 ,xi2 ,xip ;yi),i=1,2,n, yi與xi1 ,xi2 ,xip的關(guān)系為: E(yi)=i=f(0+1xi1+2xi2+pxip) 其中函數(shù)f(x)是值域在0,1區(qū)間內(nèi)的單調(diào)增函數(shù)。對于Logistic回歸,9.4Logistic回歸模型,于是yi是均值為i=f(0+1xi1+2xi2+pxip)的0-1型分布,概率函數(shù)為: P(yi=1)=i P(yi=0)=1-i 可以把yi的概率函數(shù)合寫為:,i=1,2,n,于是y1, y2 , , yn的似然函數(shù)為:,9.4Logistic回歸模型,代入得,對數(shù)似然函數(shù),Logistic 回歸,極大似然估計就是選取0 ,1 ,2 ,p的估計值使上式達極大。,9.4Logistic回歸模型,例9.5 在一次關(guān)于公共交通的社會調(diào)查中,一個調(diào)查項目是“是乘坐公共汽車上下班,還是騎自行車上下班?!?因變量y=1表示主要乘坐公共汽車上下班, y=0表示主要騎自行車上下班。 自變量x1是年齡,作為連續(xù)型變量; x2是月收入(元); x3是性別,x3=1表示男性,x3=0表示女性。 調(diào)查對象為工薪族群體,數(shù)據(jù)見表9.9,試建立y與自變量間的Logistic回歸。,9.4Logistic回歸模型,9.4Logistic回歸模型,以下是SPSS軟件部分運行結(jié)果:,9.4Logistic回歸模型,X2(月收入)不顯著,將其剔除。,最終的回歸方程為:,9.4Logistic回歸模型,三、Probit回歸模型,Probit回歸稱為單位概率回歸,與Logistic回歸相似,也是擬合0-1型因變量回歸的方法,其回歸函數(shù)是,【例9.6】 仍然使用例9.4購房數(shù)據(jù),9.4Logistic回歸模型,9.4Logistic回歸模型,得回歸方程:,或等價地表示為:,對x0=8,9.4Logistic回歸模型,SPSS軟件提供了對分組數(shù)據(jù)擬合Probit回歸。,得,9.4Logistic回歸模型,在SPSS軟件的Probit回歸對話框,可以看到一個Logit選項,用這個選項可以對分組數(shù)據(jù)做Logistic回歸。對此例計算出的Logistic回歸方程是,這也是使用數(shù)值計算的最大似然估計,與用最小二乘法所得到的Logistic回歸方程,很接近。,9.5 多類別Logistic回歸,當(dāng)定性因變量y取k個類別時,記為1,2,k。因變量y取值于每個類別的概率與一組自變量x1,x2,xp有關(guān),對于樣本數(shù)據(jù) (xi1,xi2,xip ;yi),i=1,2,n ,多類別Logistic回歸模型第i組樣本的因變量yi取第j個類別的概率為:,(9.34),9.5 多類別Logistic回歸,上式中各回歸系數(shù)不是惟一確定的,每個回歸系數(shù)同時加減一個常數(shù)后的數(shù)值保持不變。為此,把分母的第一項中的系數(shù)都設(shè)為0,得到回歸函數(shù)的表達式,(9.35),9.5 多類別Logistic回歸,【例9.7】 本例數(shù)據(jù)選自SPSS軟件自帶的數(shù)據(jù)文件telco.sav. 該文件在 SPSS tutorialsample_files文件夾內(nèi)。 一個電信商要分析顧客選擇服務(wù)類別的影響因素,因變量是顧客類別(Customer category),變量名為custcat,共取4個類別: 1=“Basic service”; 2=“E-service”; 3=“Plus service”; 4=“Total service” 數(shù)據(jù)的樣本量n=1 000。 可以用Edit菜單中的Options選項的General選項卡選擇顯示變量標(biāo)簽,可以在顯示變量完整的名稱。,9.5 多類別Logistic回歸,進入多類別Logistic回歸對話框。 把因變量Customer categorycustcat選入Dependent框條中,這里Customer category是變量標(biāo)簽,custcat是變量名稱。 把定性自變量 Marital status marital, Level of education ed, Retired retire和Gender gender 選入 factors框條中。 把數(shù)值型自變量 Age in Years age, Years at current address address, Household income in thousands income, Years with current employer employ,和 Number of people in household reside 選入covariates框條中。 在因變量框條的下面有一個Reference category按鈕,點擊進入,選擇以First category為參照類別,這也就是選擇(9.35)式的回歸方程。,9.5 多類別Logistic回歸,9.5 多類別Logistic回歸,9.5 多類別Logistic回歸,使用逐步回歸,9.5 多類別Logistic回歸,9.5 多類別Logistic回歸,9.5 多類別Logistic回歸,輸出結(jié)果9.14 Parameter Estimates,9.5 多類別Logistic回歸,9.5 多類別Logistic回歸,9.5 多類別Logistic回歸,對每個樣品計算出因變量y取第j個類別的 概率,因變量的預(yù)測值就是 最大的類別。,9.5 多類別Logistic回歸,可以用Save按鈕保存預(yù)測概率和預(yù)測值,表9.6是前20個樣品的預(yù)測數(shù)值。,9.6 因變量是順序
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 破產(chǎn)重整廠房股權(quán)轉(zhuǎn)讓合同范本
- 拆遷項目風(fēng)險評估與管理合同
- 財務(wù)擔(dān)保業(yè)務(wù)信息共享合作協(xié)議
- 彩鋼房安全責(zé)任書(適用于學(xué)校建筑)
- 2025年中考考前最后一卷化學(xué)(廣州卷)(全解全析)
- 避難室工程作業(yè)指導(dǎo)書書
- 醫(yī)院儀器放置管理制度
- 公司租金收繳管理制度
- 團內(nèi)激勵團員管理制度
- 人教版八年級地理下冊第五章《中國的地理差異》優(yōu)質(zhì)教案
- 浙江省衢州市中考數(shù)學(xué)試卷(解析版)
- 《品牌策劃與管理(第4版)》知識點與關(guān)鍵詞解釋
- GB∕T 21938-2021 土方機械 液壓挖掘機和挖掘裝載機下降控制裝置 要求和試驗
- 河道生態(tài)環(huán)境修復(fù)工程施工安全管理體系與措施
- 新自編市政道路橋梁排水工程實測實量評分表
- PHC管樁有效預(yù)應(yīng)力
- 出院證(標(biāo)準(zhǔn)模板)
- 深圳市視頻門禁報警系統(tǒng)聯(lián)網(wǎng)數(shù)據(jù)規(guī)范
- 急性上消化道出血課件
- 不飽和聚酯樹脂化學(xué)品安全技術(shù)說明書MSDS
評論
0/150
提交評論