第10章 含定性變量的回歸模型_第1頁(yè)
第10章 含定性變量的回歸模型_第2頁(yè)
第10章 含定性變量的回歸模型_第3頁(yè)
第10章 含定性變量的回歸模型_第4頁(yè)
第10章 含定性變量的回歸模型_第5頁(yè)
已閱讀5頁(yè),還剩71頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第10章含定性變量的回歸模型

2024/4/23110.1自變量含定性變量的回歸模型10.2自變量含定性變量的回歸模型與應(yīng)用10.3因變量是定性變量的回歸模型10.4Logistic(邏輯斯蒂)回歸模型10.5多類(lèi)別Logistic回歸10.6因變量順序類(lèi)別的回歸中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型2024/4/23210.1.1

簡(jiǎn)單情況

首先討論定性變量只取兩類(lèi)可能值的情況,例如研究糧食產(chǎn)量問(wèn)題,y為糧食產(chǎn)量,x為施肥量,另外再考慮氣候問(wèn)題,分為正常年份和干旱年份兩種情況,對(duì)這個(gè)問(wèn)題的數(shù)量化方法是引入一個(gè)0-1型變量D,令:

Di=1 表示正常年份

Di=0 表示干旱年份中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/4/233中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型糧食產(chǎn)量的回歸模型為:

其中干旱年份的糧食平均產(chǎn)量為:正常年份的糧食平均產(chǎn)量為:

2024/4/234例10-1某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對(duì)家庭儲(chǔ)蓄的影響,在一個(gè)中等收入的樣本框中,隨機(jī)調(diào)查了13戶(hù)高學(xué)歷家庭與14戶(hù)低學(xué)歷的家庭,因變量y為上一年家庭儲(chǔ)蓄增加額,自變量x1為上一年家庭總收入,自變量x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0,調(diào)查數(shù)據(jù)見(jiàn)表10-1:中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型2024/4/235中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型2024/4/236中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型建立y對(duì)的線(xiàn)性回歸,R軟件的計(jì)算代碼如下,其運(yùn)行結(jié)果見(jiàn)輸出結(jié)果10.1,其中殘差

列于表10-1中。2024/4/237中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型2024/4/238中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型

這個(gè)結(jié)果表明,中等收入的家庭每增加1萬(wàn)元收入,平均拿出3826元作為儲(chǔ)蓄。高學(xué)歷家庭每年的平均儲(chǔ)蓄額少于低學(xué)歷的家庭,平均少3700元。如果不引入家庭學(xué)歷定性變量x2,僅用y對(duì)家庭年收入x1做一元線(xiàn)性回歸,得判定系數(shù)R2=0.618,擬合效果不好。

兩個(gè)自變量x1與x2的系數(shù)都是顯著的,判定系數(shù)R2=0.879,回歸方程為:2024/4/239

家庭年收入x1是連續(xù)型變量,它對(duì)回歸的貢獻(xiàn)也是不可缺少的。如果不考慮家庭年收入這個(gè)自變量,13戶(hù)高學(xué)歷家庭的平均年儲(chǔ)蓄增加額為3009.31元,14戶(hù)低學(xué)歷家庭的平均年儲(chǔ)蓄增加額為5059.36元,這樣會(huì)認(rèn)為高學(xué)歷家庭每年的儲(chǔ)蓄增加額比低學(xué)歷的家庭平均少5059.36-3009.31=2050.05元,而用回歸法算出的數(shù)值是3700元,兩者并不相等。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型2024/4/2310

用回歸法算出的高學(xué)歷家庭每年的平均儲(chǔ)蓄增加額比低學(xué)歷的家庭平均少3700元,這是在假設(shè)兩者的家庭年收入相等的基礎(chǔ)上的儲(chǔ)蓄增加額差值,或者說(shuō)是消除了家庭年收入的影響后的差值,因而反映了兩者儲(chǔ)蓄增加額的真實(shí)差異。而直接由樣本計(jì)算的差值2050.05元是包含有家庭年收入影響在內(nèi)的差值,是虛假的差值。所調(diào)查的13戶(hù)高學(xué)歷家庭的平均年收入額為3.8385萬(wàn)元,14戶(hù)低學(xué)歷家庭的平均年收入額為3.4071萬(wàn)元,兩者并不相等。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型2024/4/231110.1.2

復(fù)雜情況某些場(chǎng)合定性自變量可能取多類(lèi)值,例如某商廈策劃營(yíng)銷(xiāo)方案,需要考慮銷(xiāo)售額的季節(jié)性影響,季節(jié)因素分為春、夏、秋、冬4種情況。為了用定性自變量反應(yīng)春、夏、秋、冬四季,我們初步設(shè)想引入如下4個(gè)0-1自變量:中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型2024/4/2312

可是這樣做卻產(chǎn)生了一個(gè)新的問(wèn)題,即x1+x2+x3+x4=1,構(gòu)成完全多重共線(xiàn)性。解決這個(gè)問(wèn)題的方法很簡(jiǎn)單,我們只需去掉一個(gè)0-1型變量,只保留3個(gè)0-1型自變量即可。例如去掉x4,只保留x1、x2、x3。對(duì)一般情況,一個(gè)定性變量有k類(lèi)可能的取值時(shí),需要引入k-1個(gè)0-1型自變量。當(dāng)k=2時(shí),只需要引入一個(gè)0-1型自變量即可。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.1自變量含定性變量的回歸模型10.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/2313中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2.1

分段回歸例10-2表10-2給出某工廠(chǎng)生產(chǎn)批量與單位成本(美元)的數(shù)據(jù)。試用分段回歸建立回歸模型。2024/4/2314中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/2315中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用

由圖10-1可看出數(shù)據(jù)在生產(chǎn)批量時(shí)發(fā)生較大變化,即批量大于500時(shí)成本明顯下降。我們考慮由兩段構(gòu)成的分段線(xiàn)性回歸,這可以通過(guò)引入一個(gè)0-1型虛擬自變量實(shí)現(xiàn)。假定回歸直線(xiàn)的斜率在處改變,建立回歸模型

其中2024/4/2316中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用引入兩個(gè)新的自變量這樣回歸模型轉(zhuǎn)化為標(biāo)準(zhǔn)形式的二元線(xiàn)性回歸模型:(10.3)式可以分解為兩個(gè)線(xiàn)性回歸方程:當(dāng)x1≤500時(shí),當(dāng)x1>500時(shí),2024/4/2317中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/2318

用普通最小二乘法擬合模型(10.3)式得回歸方程為:

利用此模型可說(shuō)明生產(chǎn)批量小于500時(shí),每增加1個(gè)單位批量,單位成本降低0.00395美元;當(dāng)生產(chǎn)批量大于500時(shí),每增加1個(gè)單位批量,估計(jì)單位成本降低到0.00395+0.00389=0.00784(美元)。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/2319中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用

以上只是根據(jù)散點(diǎn)圖從直觀上判斷本例數(shù)據(jù)應(yīng)該用折線(xiàn)回歸擬合,這一點(diǎn)還需要做統(tǒng)計(jì)的顯著性檢驗(yàn),這只需對(duì)(10.2)式的回歸系數(shù)做顯著性檢驗(yàn)?;貧w方程式(10.6)的相關(guān)計(jì)算代碼及輸出結(jié)果10.2如下所示。2024/4/2320中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/4/2321中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用復(fù)決定系數(shù),擬合效果很好。對(duì)

的顯著性檢驗(yàn)的t

值=-1.685,顯著性檢驗(yàn)的概率P

值=0.153,沒(méi)有通過(guò)顯著性檢驗(yàn),不能認(rèn)為

非零。這樣,根據(jù)顯著性檢驗(yàn),還不能認(rèn)為本例數(shù)據(jù)適合擬合折線(xiàn)回歸。用y

對(duì)x做一元線(xiàn)性回歸,計(jì)算代碼如下,其運(yùn)行結(jié)果如輸出結(jié)果10.3所示。2024/4/2322中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/4/2323(10.7)式說(shuō)明,批量每增加一件,成本平均下降0.006318美元,這個(gè)結(jié)論在自變量的樣本范圍300至800內(nèi)都是適用的。y對(duì)x的一元線(xiàn)性回歸的判定系數(shù)R2=0.952,回歸方程為:中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/2324中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用10.2.2

回歸系數(shù)相等的檢驗(yàn)例10-3回到例10-1的問(wèn)題,例10-1引入0-1型自變量的方法是假定儲(chǔ)蓄增加額y對(duì)家庭收入的回歸斜率與家庭文化程度無(wú)關(guān),家庭文化程度只影響回歸常數(shù)項(xiàng),這個(gè)假設(shè)是否合理,還需要做統(tǒng)計(jì)檢驗(yàn)。檢驗(yàn)方法是引入如下含有交互效應(yīng)的回歸模型:其中y為上一年家庭儲(chǔ)蓄增加額,x1為上一年家庭總收入,x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0。2024/4/2325中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用高學(xué)歷家庭x2=1,

低學(xué)歷家庭x2=0,

回歸模型(10.8)式可以分解為對(duì)高學(xué)歷和對(duì)低學(xué)歷家庭的兩個(gè)線(xiàn)性回歸模型,分別為:2024/4/2326中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用可見(jiàn),高學(xué)歷家庭的回歸常數(shù)為

,回歸系數(shù)為;低學(xué)歷家庭的回歸常數(shù)為

,回歸系數(shù)為

。要檢驗(yàn)兩個(gè)回歸方程的回歸系數(shù)是否相等,等價(jià)于對(duì)回歸模型式(10.8)做參數(shù)的假設(shè)檢驗(yàn)當(dāng)拒絕H0時(shí),認(rèn)為,這時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄回歸模型實(shí)際上被拆分為兩個(gè)不同的回歸模型(10.9)和(10.10)式。當(dāng)不拒絕H0時(shí),認(rèn)為,這時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄回歸模型是如下形式的聯(lián)合回歸模型:2024/4/2327中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用(10.11)正是例10-1所建立的回歸模型。建立式(10.8)的回歸模型的計(jì)算代碼及運(yùn)行代碼的輸出結(jié)果10.4如下所示。2024/4/2328中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用從輸出結(jié)果10.4中看到,對(duì)

顯著性檢驗(yàn)的顯著性概率P=0.247,應(yīng)該不拒絕原假設(shè),認(rèn)為例10-1采用的回歸模型式(10.11)是正確的。另外,輸出結(jié)果10.4中

的回歸系數(shù)

的顯著性概率為0.760,也沒(méi)有通過(guò)顯著性檢驗(yàn),并且比

的顯著性更低,是否應(yīng)該首先剔除

而保留?回答是否定的,因?yàn)檫@樣做與經(jīng)濟(jì)意義不符。對(duì)回歸模型式(10.9)與式(10.10),若,表明兩個(gè)回歸方程的常數(shù)項(xiàng)相等;若,表明兩個(gè)回歸方程的斜率相等。經(jīng)濟(jì)學(xué)家首先關(guān)心的是兩個(gè)回歸方程的斜率是否相等,其次才關(guān)心常數(shù)項(xiàng)是否相等。通常認(rèn)為,回歸常數(shù)項(xiàng)是在自變量為零時(shí)y的平均值,但在本例中則沒(méi)有這種現(xiàn)實(shí)意義。這是因?yàn)楸纠菍?duì)中等收入家庭的儲(chǔ)蓄分析,收入為零的家庭的儲(chǔ)蓄增加額超出了本模型所包含的范圍。本例的回歸常數(shù)項(xiàng)僅是與儲(chǔ)蓄增加額的平均值有關(guān)的一個(gè)數(shù)值。2024/4/2329中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.2自變量含定性變量的回歸模型

與應(yīng)用10.3因變量是定性變量的回歸模型2024/4/2330中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心

在許多社會(huì)經(jīng)濟(jì)問(wèn)題中,所研究的因變量往往只有兩個(gè)可能結(jié)果,這樣的因變量也可用虛擬變量來(lái)表示,虛擬變量的取值可取0或1。10.3.1

定性因變量的回歸方程的意義

設(shè)因變量y是只取0,1兩個(gè)值的定性變量,考慮簡(jiǎn)單線(xiàn)性回歸模型在這種y只取0,1兩個(gè)值的情況下,因變量均值有著特殊的意義。2024/4/2331中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.3因變量是定性變量的回歸模型由于是0-1型貝努利隨機(jī)變量,則得如下概率分布:根據(jù)離散型隨機(jī)變量期望值的定義,可得得到所以,作為由回歸函數(shù)給定的因變量均值,是自變量水平為

時(shí)的概率。對(duì)因變量均值的這種解釋既適用于這里的簡(jiǎn)單線(xiàn)性回歸函數(shù),也適用于復(fù)雜的多元回歸函數(shù)。當(dāng)因變量是0-1變量時(shí),因變量均值總是代表給定自變量時(shí)y=1的概率。2024/4/2332中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.3因變量是定性變量的回歸模型10.3.2

定性因變量回歸的特殊問(wèn)題1.離散非正態(tài)誤差項(xiàng)。對(duì)一個(gè)取值為0和1的因變量,誤差項(xiàng)只能取兩個(gè)值:當(dāng)時(shí),

當(dāng)時(shí),顯然,誤差項(xiàng)是兩點(diǎn)型離散分布,當(dāng)然正態(tài)誤差回歸模型的假定就不適用了。2024/4/2333中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.3因變量是定性變量的回歸模型2.零均值異方差性。

當(dāng)因變量是定性變量時(shí),誤差項(xiàng)仍然保持零均值,這時(shí)出現(xiàn)的另一個(gè)問(wèn)題是誤差項(xiàng)的方差不相等。0-1型隨機(jī)變量的方差為

的方差依賴(lài)于,是異方差,不滿(mǎn)足線(xiàn)性回歸方程的基本假定。2024/4/2334中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.3因變量是定性變量的回歸模型3.回歸方程的限制

對(duì)于普通的線(xiàn)性回歸所具有的上述三個(gè)問(wèn)題,我們需要構(gòu)造出能夠滿(mǎn)足以上限制的回歸模型。

當(dāng)因變量為0-1虛擬變量時(shí),回歸方程代表概率分布,所以因變量均值受到如下限制:

對(duì)一般的回歸方程本身并不具有這種限制,線(xiàn)性回歸方程將會(huì)超出這個(gè)限制范圍。2024/4/233510.4Logistic回歸模型

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心

10.4.1分組數(shù)據(jù)的Logistic回歸模型

針對(duì)0-1型因變量產(chǎn)生的問(wèn)題,我們對(duì)回歸模型應(yīng)該做兩個(gè)方面的改進(jìn)。

第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線(xiàn),而不能再沿用直線(xiàn)回歸方程。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線(xiàn)有很多,例如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為2024/4/2336中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2337中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2338中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

第二,因變量本身只取0、1兩個(gè)離散值,不適于直接作為回歸模型中的因變量。由于回歸函數(shù)表示在自變量為的條件下的平均值,而是0-1型隨機(jī)變量,因而就是在自變量為的條件下等于1的比例。這提示我們可以用等于1的比例代替本身作為因變量。下面通過(guò)一個(gè)例子來(lái)說(shuō)明Logistic回歸模型的應(yīng)用。2024/4/2339例10-4

在一次住房展銷(xiāo)會(huì)上,與房地產(chǎn)商簽定初步購(gòu)房意向書(shū)的共有n=313名顧客中,在隨后的3個(gè)月的時(shí)間內(nèi),只有一部分顧客確實(shí)購(gòu)買(mǎi)了房屋。購(gòu)買(mǎi)了房屋的顧客記為1,沒(méi)有購(gòu)買(mǎi)房屋的顧客記為0。以顧客的年家庭收入(萬(wàn)元)為自變量x,對(duì)如下的數(shù)據(jù),建立Logistic回歸模型。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2340中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2341中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

Logistic回歸方程為其中c為分組數(shù)據(jù)的組數(shù),本例c=9。做線(xiàn)性化變換,令上式的變換稱(chēng)為邏輯(Logit)變換,得(10.16)(10.18)

(10.17)

2024/4/2342計(jì)算出經(jīng)驗(yàn)回歸方程為

(10.19)判定系數(shù)r2=0.9243,顯著性檢驗(yàn)P值≈0,高度顯著。還原為(10.16)式的Logistic回歸方程為利用(10.20)式可以對(duì)購(gòu)房比例做預(yù)測(cè),例如對(duì)x0=8,(10.20)中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2343中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

我們用Logistic回歸模型成功地?cái)M合了因變量為定性變量的回歸模型,但是仍然存在一個(gè)不足之處,就是異方差性并沒(méi)有解決,(10.18)式的回歸模型不是等方差的,應(yīng)該對(duì)(10.18)式用加權(quán)最小二乘估計(jì)。當(dāng)較大時(shí),的近似方差為:其中,因而選取權(quán)數(shù)為:(10.21)(10.22)2024/4/2344中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

對(duì)例10-4重新用加權(quán)最小二乘做估計(jì),計(jì)算代碼如下所示,其運(yùn)行結(jié)果見(jiàn)輸出結(jié)果10.5。2024/4/2345中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2346用加權(quán)最小二乘法得到的Logistic回歸方程為對(duì)x0=8時(shí)的購(gòu)房比例做預(yù)測(cè)(10.23)中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2347中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

10.4.2未分組數(shù)據(jù)的Logistic回歸模型

設(shè)y是0-1型變量,是與y相關(guān)的確定性變量,n組觀測(cè)數(shù)據(jù)為與的關(guān)系為:其中函數(shù)f(x)是值域在[0,1]區(qū)間內(nèi)的單調(diào)增函數(shù)。對(duì)于Logistic回歸2024/4/2348中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

由于是均值為的0-1型分布,概率函數(shù)為:可以把的概率函數(shù)合寫(xiě)為:于是的似然函數(shù)為:(10.25)2024/4/2349中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

代入得對(duì)數(shù)似然函數(shù)Logistic回歸極大似然估計(jì)就是選取的估計(jì)值使上式達(dá)極大。(10.26)2024/4/2350例10-5臨床醫(yī)學(xué)中為了研究麻醉劑用量與患者是否保持靜止的關(guān)系,對(duì)30名患者在手術(shù)前15分鐘給予一定濃度的麻醉劑后的情況進(jìn)行了記錄。記錄數(shù)據(jù)見(jiàn)表10-4中,其中麻醉劑濃度為自變量x,患者是否保持靜止為因變量y,y取1時(shí)表示患者靜止,y取0時(shí)表示患者有移動(dòng),試建立y關(guān)于x的Logistic回歸模型。本例數(shù)據(jù)來(lái)自于R軟件DAAG包中自帶的anesthetic數(shù)據(jù)集。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2351中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2352在R中對(duì)0-1型因變量做logistic回歸的函數(shù)為glm(),該函數(shù)主要用來(lái)建立廣義線(xiàn)性模型,當(dāng)glm()函數(shù)中的參數(shù)family=binomial(表明分布族為二項(xiàng)分布),聯(lián)系函數(shù)link=“l(fā)ogit”時(shí),建立的回歸模型為L(zhǎng)ogistic回歸模型。對(duì)例10-5中的數(shù)據(jù)建立Logistic回歸模型的計(jì)算代碼如下,運(yùn)行代碼后得到輸出結(jié)果10.6。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2353中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2354中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

輸出結(jié)果10.6中的zvalue的計(jì)算公式類(lèi)似于線(xiàn)性回歸中tvalue,即其中,是參數(shù)的估計(jì)值(Estimate),

是估計(jì)參數(shù)的標(biāo)準(zhǔn)差(Std.Error)。在假設(shè)成立時(shí),Z近似服從標(biāo)準(zhǔn)正態(tài)分布,因此檢驗(yàn)的P值為

為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。由該檢驗(yàn)可知,回歸系數(shù)是顯著的,回歸方程為2024/4/2355中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

10.4.3Probit回歸模型Probit回歸稱(chēng)為單位概率回歸,與Logistic回歸相似,也是擬合0-1型因變量回歸的方法,其回歸函數(shù)是(10.28)(10.29)用樣本比例

代替概率,表示為樣本回歸模型2024/4/2356中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

例10-6使用例10-4的購(gòu)房數(shù)據(jù),首先計(jì)算出的數(shù)值,見(jiàn)表10-5。以為因變量,以年家庭收入x為自變量做普通最小二乘線(xiàn)性回歸,得回歸方程或等價(jià)地表示為對(duì)與用Logistic回歸計(jì)算的預(yù)測(cè)值很接近。2024/4/2357中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2358中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

使用R軟件可以直接做Probit回歸,做Probit回歸的函數(shù)仍為glm(),其中只需將聯(lián)系函數(shù)設(shè)為link=“probit”,對(duì)于已整理的分組數(shù)據(jù)在使用glm()函數(shù)建立Probit模型時(shí),需要以購(gòu)房比例作為因變量,簽訂意向書(shū)人數(shù)作為權(quán)重,以下為相應(yīng)的計(jì)算代碼,運(yùn)行后得到輸出結(jié)果10.7。2024/4/2359中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

2024/4/2360中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.4Logistic回歸模型

由輸出結(jié)果10.7得回歸方程該結(jié)果與前面普通最小二乘的結(jié)果(10.30)很接近,在R軟件中也可以對(duì)該分組數(shù)據(jù)做Logistic回歸,具體代碼如下:運(yùn)行代碼后,可得到回歸方程為這也與用最小二乘法所得到的Logistic回歸方程式(10.19)很接近。10.5多類(lèi)別Logistic回歸2024/4/2361中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心

當(dāng)定性因變量y取k個(gè)類(lèi)別時(shí),記為1,2,…,k。這里的數(shù)字1,2,…,k只是名義代號(hào),并沒(méi)有大小順序的含義。因變量y取值于每個(gè)類(lèi)別的概率與一組自變量有關(guān),對(duì)于樣本數(shù)據(jù),多類(lèi)別Logistic回歸模型第i

組樣本的因變量

取第j個(gè)類(lèi)別的概率為:(10.34)

2024/4/2362

上式中各回歸系數(shù)不是惟一確定的,每個(gè)回歸系數(shù)同時(shí)加減一個(gè)常數(shù)后的數(shù)值保持不變。為此,把分母的第一項(xiàng)中的系數(shù)都設(shè)為0,得到回歸函數(shù)的表達(dá)式(10.35)

這個(gè)表達(dá)式中每個(gè)回歸系數(shù)都是唯一確定的,第一個(gè)類(lèi)別的回歸系數(shù)都取0,其他類(lèi)別回歸系數(shù)數(shù)值的大小都以第一個(gè)類(lèi)別為參照。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.5多類(lèi)別Logistic回歸2024/4/2363中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.5多類(lèi)別Logistic回歸R中對(duì)多分類(lèi)變量進(jìn)行l(wèi)ogistic回歸,可以使用mlogit包中的mlogit()函數(shù),也可以使用nnet包中的multinom()函數(shù)。此處,使用mlogit()函數(shù)并以mlogit包中自帶的數(shù)據(jù)Fishing為例,說(shuō)明多類(lèi)別Logistic回歸的應(yīng)用。例10-7本例數(shù)據(jù)選自R軟件自帶的鳶尾花數(shù)據(jù)集(iris),它包含了150個(gè)樣本、4個(gè)解釋變量和1個(gè)響應(yīng)變量。其中,響應(yīng)變量為花的類(lèi)別,分別是山鳶尾(Iris-setosa)、變色鳶尾(Iris-versicolor)和維吉尼亞鳶尾(Iris-virginica);解釋變量分別為花萼長(zhǎng)度(SepalLength)、花萼寬度(SepalWidth)、花瓣長(zhǎng)度(PetalLength)和花瓣寬度(PetalWidth)。接下來(lái),采用該數(shù)據(jù)建立多類(lèi)別logistic回歸模型,模型中僅使用花萼長(zhǎng)度做自變量,具體計(jì)算代碼如下所示。2024/4/2364中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.5多類(lèi)別Logistic回歸運(yùn)行上述代碼,得到輸出結(jié)果10.8。2024/4/2365中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.5多類(lèi)別Logistic回歸2024/4/2366中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.5多類(lèi)別Logistic回歸

由于150個(gè)樣本中3種不同類(lèi)別的鳶尾花樣本占比相同,從而由輸出結(jié)果可看到三個(gè)類(lèi)別的頻率均為0.3333,而Coefficients部分的輸出結(jié)果中沒(méi)有setosa這一類(lèi)別的回歸系數(shù),實(shí)際上是該類(lèi)別的回歸系數(shù)均取值為0。另外,由似然比檢驗(yàn)(LikelihoodRatioTest)結(jié)果可知,回歸模型整體是顯著的,同時(shí)回歸系數(shù)的顯著性檢驗(yàn)的P值亦均非常小,可知各回歸系數(shù)亦均是顯著的??傮w來(lái)看,本例所建立的多類(lèi)別Logistic回歸模型是有效的。10.6因變量是順序類(lèi)別的回歸2024/4/2367中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心

當(dāng)定性因變量y取k個(gè)順序類(lèi)別時(shí),記為1,2,…,k,這里的數(shù)字1,2,…,k僅表示順序的先后。因變量y取值于每個(gè)類(lèi)別的概率仍與一組自變量有關(guān),對(duì)于樣本數(shù)據(jù),順序類(lèi)別回歸模型有兩種主要類(lèi)型:一種是位置結(jié)構(gòu)(分量)(Locationcomponent)模型;另一種是規(guī)模結(jié)構(gòu)(分量)(Scalecomponent)模型。2024/4/2368中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.6因變量是順序類(lèi)別的回歸位置結(jié)構(gòu)模型:(10.36)

式中,link(·)是聯(lián)系函數(shù);是第i個(gè)樣品小于等于j的累積概率,由于

,所以式(10.36)只針對(duì)i=1,2,…,n;j=1,2,…,k-1。

是類(lèi)別界限值(threshold)。2024/4/2369中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.6因變量是順序類(lèi)別的回歸(10.37)

規(guī)模(尺度)結(jié)構(gòu)模型:其中是的一個(gè)子集,作為規(guī)模結(jié)構(gòu)解釋變量。此模型用以解釋自變量中各不同值變化上的差別,可以增進(jìn)模型的擬合程度。2024/4/2370中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.6因變量是順序類(lèi)別的回歸聯(lián)系函數(shù)的幾種主要類(lèi)型見(jiàn)表10-6。2024/4/2371中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10.6因變量是順序類(lèi)別的回歸

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論