Chapter9受限因變量模型.doc_第1頁
Chapter9受限因變量模型.doc_第2頁
Chapter9受限因變量模型.doc_第3頁
Chapter9受限因變量模型.doc_第4頁
Chapter9受限因變量模型.doc_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第1章 受限因變量模型這一章討論響應(yīng)變量僅僅被部分觀測到的情況。引入被部分觀測到的潛在隨機變量y*,y*的實際觀測變量為yi。引入二元指示變量Di,如果ai y*bi,Di= 1;否則,Di = 0。即Di表示變量y*是否可以被觀測得到。(ai, bi)稱為觀測區(qū)間。如果對于Di = 1 和Di = 0都有實際觀測數(shù)據(jù),當(dāng)Di = 1時,潛在變量與實際觀測變量相等,當(dāng)Di = 0時,實際觀測變量同樣有取值,但不等于潛在變量,這時稱數(shù)據(jù)被歸并(censored),即小于ai的數(shù)據(jù)被歸并為ai,而大于bi的數(shù)據(jù)被歸并為bi。用數(shù)學(xué)符號表示為:。 (1)如果只有當(dāng)Di = 1時實際觀測變量yi才有觀測數(shù)據(jù),即:當(dāng)Di = 1時,潛在變量與實際觀測變量相等,而當(dāng)Di = 0時,yi沒有觀測值,這時稱數(shù)據(jù)被截斷(truncated),即小于ai的數(shù)據(jù)和大于ai的數(shù)據(jù)被截斷了。因此截斷數(shù)據(jù)與歸并數(shù)據(jù)的區(qū)別在于,對于觀測區(qū)間外的數(shù)據(jù),歸并數(shù)據(jù)將將其都?xì)w并為一點,而截斷數(shù)據(jù)沒有觀測值。將潛在隨機變量y*的基本模型設(shè)定為:。 (2)其中mi為位置參數(shù),s為刻度參數(shù);vi為獨立于xi的連續(xù)隨機擾動項,均值為0,方差為1,其分布函數(shù)、密度函數(shù)分別為F、f 。在這些假定條件下,yi*的均值為mi,方差為s2,分布函數(shù)為,概率密度函數(shù)為(證明請參見附錄1)。ai yi* a),稱之為從下面截斷(truncation from below)或者是從左邊截斷(truncation from left);如果變量只有在低于某一門限值b時才被觀測到(x b),稱之為從上面截斷(truncation from above)或者是從右邊截斷(truncation from right)。如圖所示。 圖一 截斷分布圖(上面截斷(左圖)、下面截斷(右圖)下面分析截斷數(shù)據(jù)的分布函數(shù)、密度函數(shù)、均值和方差。1 截斷變量的分布函數(shù)和密度函數(shù)給定模型(1)及相應(yīng)的觀測概率(2),那么第i個觀測變量yi的條件分布函數(shù)為(證明請參見附錄2): (4)(注:此處及后面的的定義均與前面相同)密度函數(shù)為: (5)從截斷數(shù)據(jù)的密度函數(shù)(4)式我們可以推出從下面截斷或從上面截斷的各種不同分布的變量的密度函數(shù)。讀者可以參閱下面介紹的幾個例子。例1 截斷均勻分布的密度函數(shù)和分布函數(shù)如果x*在區(qū)間a,b上服從均勻分布(uniform distribution),那么, (6)如果在x*= c處截斷,即實際觀測值x= x*,如果x* c;x= c,如果x* c。這是左截斷的例子,即右截斷點=b。根據(jù)(5)式,在x = c處截斷的隨機變量x的截斷分布的密度函數(shù)為: (7)分布函數(shù)為: (8)例2 截斷正態(tài)分布的密度函數(shù)模型設(shè)定為:,yi = yi*,如果 (9)yi = ai,如果yi = bi,如果 其中vi N(0, 1)。即 yi* N(mi, s2),其中mi、s分布表示yi的均值和標(biāo)準(zhǔn)差。以f、F分別表示標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)和分布函數(shù)。那么: (10)其中,。根據(jù)截斷正態(tài)分布的密度函數(shù)公式: 可直接得到時yi的密度函數(shù): (11)根據(jù)截斷正態(tài)分布的分布函數(shù)公式:可直接得到時yi的分布函數(shù): (12)圖二 截斷正態(tài)分布變量的累積分布函數(shù)圖(設(shè)潛變量y*N(0, 1),圖中虛線表示標(biāo)準(zhǔn)正態(tài)分布函數(shù),實線表示截斷正態(tài)分布函數(shù),截斷點為-1、1)2 截斷變量的均值和方差截斷隨機變量的均值和方差稱之為截斷均值(truncated mean)和截斷方差(truncated variance),由下面的(5)、(6)式可以推出各種不同截斷分布的均值和方差。給定模型(9),yi的均值為: (13) 其中, yi的方差為: (14)其中,。(證明請參見附錄3)。例3:均勻分布的截斷均值和截斷方差給定模型(6),截斷變量x的均值和方差分別為: (15)例4:正態(tài)分布的截斷均值和截斷方差給定模型(9),那么yi的均值和方差分別為: (16)其中, yi的方差為: (17)其中,。其中,f、F分別表示正態(tài)分布的密度函數(shù)和分布函數(shù)。(1) 如果ci -,即數(shù)據(jù)只是在右邊截斷,這時f( ci) = 0、F( ci) = 0,因此:0 (18a) (18b)(17a)式中稱之為Inverse Mills Ratio,將(18a)式中稱之為風(fēng)險函數(shù)(Hazard Function)。結(jié)論1 。即,如果變量為從上面截斷,則截斷變量的均值小于初始變量的均值;如果變量為從下面截斷,則截斷變量的均值大于初始變量的均值。結(jié)論2 截斷變量的方差低于初始變量的方差。圖三 截斷分布的均值(左圖)、方差(右圖)(假定潛在變量y*N(2, 2)1.1.2 截斷回歸模型估計下面以左截斷模型為例說明截斷回歸模型的估計。設(shè)回歸模型為: (19)其中,viN(0, 1)。那么,。根據(jù)例4,我們可以得到截斷隨機變量yi的均值和方差。 (20)其中, (21)其中, 由(20)式可以看出,截斷均值為b和xi的非線性函數(shù)。同一般的非線性模型一樣,變量xk對y 的邊際影響不等于其系數(shù): (22)因為,所以變量xk對y的邊際影響要小于其系數(shù)。yi的方差也存在類似的縮減(attenuation): (23)注: 對于yi a的方差與ui的方差相同,由可知,yi存在異方差,為: (25)它是xi的函數(shù)。2 ML估計對于模型(19),由截斷隨機變量的概率密度函數(shù)可得yi的密度函數(shù)為, , (26)可以得到y(tǒng)i的對數(shù)似然函數(shù): (27)對于N個觀測值(y1, , yN),其聯(lián)合對數(shù)似然函數(shù)為: (28)通過最優(yōu)化方法可以解得上式的參數(shù)b和s的值。1.2 歸并數(shù)據(jù)模型計量經(jīng)濟學(xué)當(dāng)中經(jīng)常能碰到數(shù)據(jù)的歸并問題,簡單地說,歸并數(shù)據(jù)即是被解釋變量在某個區(qū)間的觀測值都轉(zhuǎn)化為同一個值。比如,研究電影院的座位需求情況,電影院總的座位是20000個。如果實際的需求量少于20000,那么觀測到的需求量就等于實際需求量;但如果實際需求量大于(等于)20000,那么實際可觀測到的需求數(shù)量只能為20000。這時我們說需求量數(shù)據(jù)被歸并,即所有大于20000的數(shù)據(jù)都被歸并為20000。格林(Greene,2000)列舉了經(jīng)驗文獻中歸并數(shù)據(jù)的應(yīng)用。其中包括:1, 家庭耐用品消費支出Tobin(1958) 2, 婚外情次數(shù)Fair(1977,1978)3, 勞動力市場中婦女工作的小時數(shù)Quester and Greene(1982)4, 罪犯重新入獄的次數(shù)White(1980)等。下面分別介紹歸并數(shù)據(jù)的分布特征和模型估計。1.2.1 歸并數(shù)據(jù)的分布特征如前所述,歸并數(shù)據(jù)與截斷數(shù)據(jù)的區(qū)別在于,歸并變量包含D i = 1和D i = 0兩種情況下的數(shù)據(jù)。 (29)或者寫作:。即當(dāng)時,所有值被歸并為ai;當(dāng)時,所有值被歸并為bi。歸并數(shù)據(jù)按照歸并點ai, bi是隨機的還是確定的分為固定歸并(fixed censoring)和隨機歸并(random censoring)兩種。如果ai, bi是確定性的,我們稱之為固定歸并;如果ai, bi是隨機的,我們稱之為隨機歸并。本章只介紹固定歸并的情況。歸并數(shù)據(jù)按照歸并點與觀測區(qū)間的關(guān)系還可以分為左邊歸并和右邊歸并。如果:稱潛在變量y*被從下面歸并(censored below)或者從左邊歸并(censored from left);如果:稱潛在變量y*被從上面歸并(censored above)或者從左邊歸并(censored from right)。圖 歸并變量示意圖1歸并變量的分布函數(shù)和密度函數(shù)給定基本模型(1)的假定,yi的分布函數(shù)為: (30)歸并變量的分布函數(shù)為一種混合分布(連續(xù)型和離散型綜合在一起)。在yi = ai和yi = bi兩點的概率分別為和,因此對于同一個潛在變量,其歸并變量和截斷變量的分布函數(shù)不相同,在觀測區(qū)間內(nèi),歸并分布同潛在變量的分布重疊在一起。圖四 歸并正態(tài)分布變量的分布函數(shù)圖密度函數(shù)(概率分布)為: (31)例5:正態(tài)分布?xì)w并變量的密度函數(shù)。假定潛在變量(latent variable)yi*服從均值為mi、方差為s2的正態(tài)分布,viN(0, 1)。yi為實際觀測變量:yi=a,如果yi* a;yi=b,如果yi* b;yi= yi*,如果ai yi* bi。的概率密度函數(shù)為:當(dāng)yi* ai時,yi=ai 。其概率為, 當(dāng)ai yi* ai。當(dāng)yi* ai時,yi=ai 。其概率為, 當(dāng)yi* ai時,yi與yi*的概率密度函數(shù)相同,因此,可以將yi的密度函數(shù)綜合寫成:,當(dāng)yi* ai時,Di = 1;否則,Di = 0。(2)當(dāng)僅從右邊歸并時,即:yi=bi,如果yi* bi;yi= yi*,如果yi* bi。當(dāng)yi* bi時,yi=bi。其概率為,當(dāng)yi* ai時,Di = 1;否則,Di = 0。2歸并變量的均值和方差歸并隨機變量的均值和方差,我們稱之為歸并均值(censored mean)和歸并方差(censored variance)歸并均值為: (32)其中, (33)歸并方差為: (34)其中,Di服從0-1分布,。(證明請參見附錄4)。設(shè)潛在變量y*N(0, 1),下圖顯示了標(biāo)準(zhǔn)正態(tài)分布和歸并正態(tài)分布的分布函數(shù)間的差異,虛線表示正態(tài)分布函數(shù),實線表示歸并正態(tài)變量分布函數(shù),歸并點為-1、1,在區(qū)間-1,1上實線和虛線重合。例6:正態(tài)分布?xì)w并變量的均值和方差 如果。yi=a,如果yi* a;yi=b,如果yi* b;yi= yi*,如果ai yi* bi。那么yi的均值為: (35)(證明請參見附錄5)。(1)如果ai-(僅從上面歸并),那么= = (37), (38)其中,(2)如果bi+(僅從下面歸并),那么= (39) (40)其中,(證明請參見格林(Greene(2000)P907)。由(37)式和(39)式可以推出:結(jié)論3 對于從上面歸并的變量來講,當(dāng)歸并點為bi = 0時, , (41)其中對于從下面歸并的變量來講,當(dāng)歸并點為ai = 0時, , (42)其中例7:以電影院的座位需求為例,我們來看一下如何利用歸并數(shù)據(jù)模型通過實際觀測到的變量來推斷潛在變量的均值、方差。設(shè)電影院總共有20000個座位,平均售出的座位數(shù)為18000,有25%的時間全部售出。那么潛在的座位需求量和方差各是多少呢?圖二 座位需求圖解:設(shè)潛在座位需求量為m,座位需求模型可以設(shè)定為:這是一個歸并點為b=20000的右歸并數(shù)據(jù)模型。根據(jù)已知信息,25%的時間全部售出,即歸并點的累積分布函數(shù)值為0.75(見圖示),即 (43)因此,;又由平均觀測到的需求量為18000,根據(jù)歸并變量的均值公式可得: (44)綜合(43)(44)可以解出潛在變量y*的均值和方差分別為m=2426、s2=18362。即,對電影院座位的平均需求量是2426個。1.2.2 歸并模型的極大似然估計設(shè)歸并回歸模型中,潛在變量y*和實際觀測變量y有:,如果 ,如果 ,其它 設(shè)f(u)、F(u)為u的密度函數(shù)和分布函數(shù)。假定u是均值為0,方差為s2的連續(xù)隨機變量,u與x不相關(guān)。由歸并模型的概率密度函數(shù)可知其對數(shù)似然函數(shù)為:雖然它是離散分布和連續(xù)分布的總和,但Amemiya(1973b)證明,按照普通的最優(yōu)化方式使得對數(shù)似然函數(shù)極大化,得到的估計量仍然具有極大似然估計量的合意的性質(zhì)。歸并回歸模型的邊際影響為:(證明請參見Greene(2000)P909)。例:考察囚犯在釋放后被再次被捕入獄的時間,共1445名調(diào)查者,其中只有552名被再次被捕入獄。(file:recid.raw)。例:婦女就業(yè)時間的案例(在0點截斷)。(file:mroz.raw)1.3 Tobit模型1.3.1 Tobit模型的設(shè)定與估計Tobin在1958年第一次提出歸并模型,因此歸并模型又稱為Tobit模型。設(shè)潛在變量y*的回歸模型為:,潛在變量y*的期望值為:其中,因此,解釋變量對被解釋變量y*的邊際影響為常數(shù):實際觀測變量y的期望值為:而,將其代入上式可得:解釋變量對實際觀測變量的邊際影響是非線性的。由可得: 其中,= = 因此,Tobit模型的似然函數(shù)為: 利用最優(yōu)化方法可以求出參數(shù)估計量。例:考察不同變量對婦女工作時間的影響。(file:mroz.raw)。共753個觀測值,其中325個為0。用Tobit模型進行估計。Tobit模型的一個重要局限是,與直接相關(guān)。xk對的邊際影響與bk呈正比,xk對的邊際影響與bk也呈正比,即xk對的影響和對的影響在方向上是相同的。在一些情況下,這一暗含的假定可能不合適。1.3.2 模型的設(shè)定分析衡量Tobit模型是否合適的一種方法是將Tobit模型的估計結(jié)果與Probit模型的估計結(jié)果相比較。由Tobit模型的設(shè)定,。因此,如果將y降級為二元選擇變量w(如果y=0,w=0;如果y0,w=1),那么上述Tobit模型就轉(zhuǎn)化為Probit模型。如果Probit模型估計的結(jié)果與Tobit模型的估計結(jié)果近似相同,說明Tobit模型設(shè)定合適;否則,Tobit模型的設(shè)定不合適。需要注意的是,在Probit模型中,;而在Tobit模型中,。因此,應(yīng)該將Probit模型中的參數(shù)估計量與Tobit模型中的參數(shù)估計量進行比較。如果與符號不同,或者二者差異很大,都表明Tobit模型設(shè)定不合適。事實上,Tobit模型是截斷模型和Probit模型的結(jié)合。對于Tobit模型: (A) 設(shè)共有N個觀測值,其中yi=0有N0個觀測值,yi=1有N1個觀測值,N = N0+ N1。其似然函數(shù)為對于截斷模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論