Stata實驗指導、統(tǒng)計分析與應用chap09_第1頁
Stata實驗指導、統(tǒng)計分析與應用chap09_第2頁
Stata實驗指導、統(tǒng)計分析與應用chap09_第3頁
Stata實驗指導、統(tǒng)計分析與應用chap09_第4頁
Stata實驗指導、統(tǒng)計分析與應用chap09_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第九章 stata與離散被解釋變量模型主要內(nèi)容 1-二值選擇模型 2-多值選擇模型 3-排序數(shù)據(jù)模型 4-條件logit模型 5-嵌套logit模型實驗實驗9-19-1:二值選擇模型:二值選擇模型 一 實驗基本原理 二 實驗內(nèi)容和數(shù)據(jù)來源 根據(jù)某統(tǒng)計資料,得到美國婦女就業(yè)的數(shù)據(jù)統(tǒng)計集,形成數(shù)據(jù)文件“womenwork.dta”,用來研究影響美國婦女就業(yè)的因素。被解釋變量是work(就業(yè)work=1,不就業(yè)work=0),解釋變量是age(年齡),married(婚否),children(子女數(shù)),education(教育年限)。完整的數(shù)據(jù)在本書附帶光盤里的data文件夾的“womenwork.

2、dta”工作文件中。 利用以上數(shù)據(jù),建立合適模型對就業(yè)的影響因素進行計量分析,由于被解釋變量取值有兩個可以建立二值選擇模型來分析問題。 三 實驗操作指導1.建立建立logit模型分析模型分析(1)使用logit模型回歸Stata中使用logit模型回歸的命令語句格式如下:logit y x1 x2 if in weight ,options該命令中l(wèi)ogit表示使用logit模型進行回歸,相應y表示模型的被解釋變量,x表示模型的解釋變量,if表示logit的回歸條件,in表示回歸的范圍,weight表示給觀測值的加入權(quán)重,options的內(nèi)容如下表所示:本實驗中,在Stata命令窗口中輸入如下

3、命令。use womenwork, clear輸入此命令來打開需要的數(shù)據(jù)文件。logit work age education married children輸入此命令對被解釋變量為work,解釋變量為age、education、married、children的模型使用logit模型進行回歸估計。在這個回歸結(jié)果圖中l(wèi)og likelihood即對數(shù)似然值,不斷的試錯迭代是logit模型的估計方法,在逐步進行回歸時,通過比較不同模型的-2LL判斷模型的擬合優(yōu)度,選擇取值更小的模型。LR chi2(4)是卡方檢驗的統(tǒng)計量,也就是回歸模型無效假設所對應的似然比檢驗量;其中4為自由度,Probch

4、i2 是其對應的P值,在這個估計結(jié)果顯示以p=0顯著說明模型的有效性。其實這兩個指標與線性回歸結(jié)果中F統(tǒng)計量和P值的功能是大體一致的。另外結(jié)果中的Pseudo R2是準R2,雖然不等于R2,但可以用來檢驗模型對變量的解釋力,因為二值選擇模型是非線性模型,無法進行平方和分解,所以沒有,但是準衡量的是對數(shù)似然函數(shù)的實際增加值占最大可能增加值的比重,所以也可以很好的衡量模型的擬合準確度。此logit模型中擬合優(yōu)度為0.1882。coef是自變量對應的系數(shù)估計值,OLS通過t檢驗來檢驗估計量是否顯著,logit模型通過z檢驗來判斷其顯著性;通過z檢驗結(jié)果可以看到此模型中系數(shù)均以p=0顯著不為0。 (2

5、)由于估計系數(shù)不像線性模型能夠表示解釋變量的邊際效應,所以Stata中有額外的命令語句來計算解釋變量的邊際效應: mfx compute if in ,options 此命令語句中mfx表示對回歸之后的模型計算解釋變量的邊際效應,其中options內(nèi)容如下表所示: 本實驗中,在進行l(wèi)ogit模型回歸估計后,在Stata命令窗口中輸入如下命令: mfx 此命令計算模型回歸之后,解釋變量取值在樣本均值處的邊際效應。 此輸出結(jié)果顯示了每一個解釋變量的平均邊際影響,另外讀者可以自己設定計算在邊際影響的點,其原理就是命令語句options中的at(atlist)將其具體化,例如“mfx, at (x1=

6、0)”表示計算x1取值為0,其他解釋變量取值在樣本均值處的邊際效應;而“mfx”默認是在所有解釋變量在樣本平均值處的邊際效應。 (3)計算模型預測的百分比來計算模型的擬合優(yōu)度。 如果要檢驗這個分類的依據(jù)或者要獲得每個預測值,可以利用此二值模型進行預測分析,Stata中二值選擇模型的預測的命令語句如下所示: predict type newvar if in ,single_options 其中predict是表示對模型進行預測的命令;newvar表示預測新變量的名稱,type可以表明設定新變量的類型;if和in表示對此預測設定的條件和范圍;single_options的內(nèi)容以下表所示: 本實驗

7、中,在Stata命令窗口中輸入如下預測命令,可以得到預測結(jié)果圖: predict p1, pr 此命令可以獲得此模型的個體估計的值并記為新變量p1 list work p1 此命令可以將實際值與估計值對應羅列,對比看到預測值和實際值的一致程度。 (1)ROC曲線(受試者操控曲線) 此曲線是指圖9.3提到的敏感性與(1-特異性)的散點圖,即預測值等于1的準確率與錯誤率的散點圖。Stata中繪畫該ROC曲線命令語句為: lroc x if in weight ,options 其中l(wèi)roc表示繪圖ROC曲線命令,if和in表示對繪制圖時的條件和范圍的設定,weight表示對觀測值的權(quán)重設定,另外命

8、令中的自變量x不能單獨使用,必須與options中beta(matname)同時使用,而options的內(nèi)容如下表所示: 本實驗中,在以上工作后,在命令窗口中輸入如下命令繪制ROC曲線圖 lroc 因為準確率就是曲線下面的面積,讀此圖可以看到ROC曲線是完全在45度直線上面,所以準確率高于錯誤率,即準確率大于0.5。此圖曲線下方面積=0.7806,就是預測的準確率是0.7806。 (2)goodness-of-fit擬合優(yōu)度檢驗 此檢驗是考察該模型對所用數(shù)據(jù)的擬合優(yōu)度,在Stata中命令語句為: estat gof if in weight ,group(#) all outsample ta

9、ble 其中,if和in表示對檢測擬合優(yōu)度時的條件和范圍的設定,weight表示對觀測值的權(quán)重設定,group(#)表示使用合理的#分位數(shù)進行檢驗;all表示對所有觀測值進行檢驗,若無后面可選項則默認就是all;outsample表示對估計區(qū)間外的樣本調(diào)整自由度,table表示各組列表。 本實驗中在Stata命令窗口輸入如下命令檢驗此模型的擬合優(yōu)度,然后可以得到檢驗結(jié)果: estat gof 讀此圖的方法是P值越大,說明模型的擬合優(yōu)度越好。 2.建立建立probit模型分析模型分析 前面是使用logit模型對womenwork.dta進行分析,現(xiàn)在使用probit模型對此問題進行分析。兩種方法

10、在Stata中的操作是很一致的。 在Stata命令窗口中輸入如下命令: use womenwork, clear 使用此命令打開所需要文件。 probit work age education married children 此命令表示使用probit模型進行回歸。 此圖的解讀方法與Logit模型結(jié)果圖是完全一樣的,probit模型估計結(jié)果顯示系數(shù)估計值相比logit估計值發(fā)生了很大變化,且均顯著通過了模型系數(shù)的顯著性檢驗;另外模型的準R2是0.1889,相比logit模型稍有改進。 由于logit與probit模型得出的參數(shù)估計值不可直接比較,根據(jù)本節(jié)開始介紹的原理已了解到兩模型的邊際效應

11、可以比較。Stata中probit模型的邊際效應得出方法與logit是相同的。 在Stata命令窗口中輸入如下命令計算probit模型回歸后解釋變量在樣本均值處的邊際效應: mfx 可以看到與前面的logit模型比較,兩模型分析的邊際效應是大致相同的。然后來計算probit模型的擬合優(yōu)度,具體操作方法也與logit模型是一致的。 計算準確預測百分比,Stata命令窗口輸入如下命令: estat clas 此圖的解讀方法與上面logit模型得到的是完全一樣的,顯然可以得到:sensitivity(敏感性)=87.64% ,specificity(特異性)=45.05%,correctly cla

12、ssified(正確預測百分比)=73.65%??梢钥吹剑@個結(jié)果與logit模型是完全一致的。 另外為了檢驗這個結(jié)果,可以同樣輸入如下命令: predict p2, pr 此命令可以獲得此模型的個體估計的值并記為新變量p2 list work p2 其次是使用ROC曲線來檢測預測的準確度,在Stata命令窗口中輸入如下命令,可以得到ROC曲線: lroc 此圖的讀法與logit的ROC圖是一致的,由于logit模型與probit模型的sensitivity與specificity是相同的,那么ROC曲線一定是相同的,且曲線下方的面積同樣是0.7806。 最后是godness-of-fit擬合

13、優(yōu)度檢驗,在Stata命令窗口中輸入如下命令: estat gof 3.二值選擇模型的異方差問題二值選擇模型的異方差問題 Stata中對probit二值選擇模型進行異方差檢驗和回歸的命令語句如下: hetprob y x1 x2 if in weight , het(varlist offset(varname) ,options 其中hetprob表示對模型進行異方差probit模型估計和異方差檢驗,if和in表示對檢測擬合優(yōu)度時的條件和范圍的設定,weight表示對觀測值的權(quán)重設定,選擇項 het(varilist)是影響擾動項的變量清單,在該命令語句的輸出結(jié)果里,會匯報LR檢驗的結(jié)果,據(jù)

14、此判斷是否應該使用此異方差模型,options的內(nèi)容如下表所示: 本實驗中,在Stata命令窗口中輸入如下命令進行異方差模型估計和檢驗,可以得到圖9.12的運行結(jié)果: hetprob work age education married children, het (age education married children) 結(jié)果顯示LR檢驗的結(jié)果是接受原假設,即模型不存在異方差問題。所以回歸不應使用異方差回歸模型,可以直接應用probit模型進行估計。實驗實驗9-29-2:多值選擇模型:多值選擇模型 一 實驗基本原理 1.多值選擇模型 有時候人們面臨的選擇是多個的,比如交通選擇,入讀大學

15、的選擇等等。假設個體可以選擇的y=1,2,3,J ,其中J是正整數(shù)。當研究的被解釋變量是這樣多值離散的,建立的模型就是多值選擇模型,而當J=2時,就是上節(jié)所說的probit或者logit模型。 若將上面的二值logit模型推廣開來,可以得到, 二 實驗內(nèi)容和數(shù)據(jù)來源 本實驗來自某統(tǒng)計資料,統(tǒng)計在購物時所選品牌與性別、年齡的關(guān)系。變量主要有brand(品牌),female(性別),age(年齡)。完整的數(shù)據(jù)在本書附帶光盤data文件夾下“brand.dta”中。 本實驗用此數(shù)據(jù)來以female和age為解釋變量,brand為被解釋變量,brand的取值是離散的,且有三個取值,應建立多值選擇模型進

16、行相關(guān)分析。 二實驗操作指導 1.選擇合理模型選擇合理模型 在Stata中將數(shù)據(jù)按照某個或某幾個變量進行分類并按這個變量獲得其頻數(shù)分布的命令如下: tab varlist 其中varlist表示按照其分類的變量或者變量組合。 在本實驗中,打開數(shù)據(jù)文件并將數(shù)據(jù)按brand取值分類,在Stata命令窗口中輸入如下命令 use brand ,clear tab brand 讀圖可知brand取值有三個,分別是1,2,3。由于所要探究的問題female和age對brand的影響,且假定了選擇各個品牌之間是相互獨立的,那么建立多值選擇模型來分析問題是合理的。 2.模型回歸模型回歸多值選擇模型有l(wèi)ogit

17、和probit多值選擇模型,Stata中使用多值logit和probit模型的命令語句是:mlogit y x1 x2 if in weight ,options (multinomial logit 模型)mprobit y x1 x2 if in weight ,options (multinomial probit 模型)此命令中if和in表示對檢測擬合優(yōu)度時的條件和范圍的設定,weight表示對觀測值的權(quán)重設定,options的內(nèi)容如下表所示: 經(jīng)常使用的命令語句是“mlogit y x1 x2 ,base(#)”或者“mprobit y x1 x2 ,base(#)”,其中#是指被解

18、釋變量的某個取值,其可以根據(jù)需要變動此參照組。本實驗中,由于logit模型與probit模型操作相似,以多值logit為例進行操作。 在Stata命令窗口中輸入如下命: mlogit brand age female, base(1) 此命令表示以age和female為解釋變量,brand為被解釋變量,以brand=1為參照組的多值logit模型回歸。 根據(jù)前面原理部分的介紹,該題的多值logit模型是由三個方程組成的。Stata回歸結(jié)果圖顯示出了j=2和j=3時對應的模型估計結(jié)果,自然由三種選擇概率之和為1可得到j=1時模型結(jié)果。Stata中得出多值選擇模型個體選擇被解釋變量每個取值的概率的

19、命令語句格式(1):predict type stub*|newvars if in ,statistic outcome(#,#,) nooffset該預測命令語句中,type表示預測設定新變量的類型,stub*|newvars表示預測的新變量名稱,if和in表示對檢測擬合優(yōu)度時的條件和范圍的設定,outcome表示需要對其指定的類別進行概率預測。如果不設定outcome選項,則需設定k個新變量。如果是預測指數(shù)或者指數(shù)的標準差,則需設定1個新變量。outcome()中,outcome可以直接用類別的取值,也可以用#1 #2等表示類別的序號,當然也可用數(shù)值標簽來表示。nooffset表示預測時

20、的約束,statistic的內(nèi)容主要包括: 預測命令格式(2): predict type stub*|newvarlist if in, scores 此命令中type表示預測設定新變量的類型,stub*|newvarlist表示預測的新變量名稱,if和in表示對檢測擬合優(yōu)度時的條件和范圍的設定,score表示對數(shù)似然函數(shù)對每個方程的一階導數(shù),第1、2、k個變量為對數(shù)似然函數(shù)對地1、2、3、k個方程的一階導數(shù)。 在本實驗中,在Stata命令窗口中輸入如下命令語句預測brand三個取值的概率然后列出如圖9.15的預測結(jié)果: predict p1 p2 p3 List 此圖可以看出很多時候根據(jù)模

21、型預測選擇某個品牌的概率最大,但是實際上此個體未選擇此品牌,就是預測失敗了。若讀整個個體選擇的概率圖,會有一個很明顯的結(jié)論,年輕的人傾向于選擇brand1(選擇brand的概率較大),隨著年齡增加選擇brand2和brand3的概率增加,年齡越大的人傾向選擇brand3。實驗實驗9-39-3:排序數(shù)據(jù)模型:排序數(shù)據(jù)模型 一實驗基本原理 運用計量經(jīng)濟學建立多值選擇模型去解釋一個取值離散的變量時,有時候這個變量的取值可能是有順序的,比如銀行的信用評級,學生獎學金等等,這些選擇的取值代表了一定的優(yōu)劣,即數(shù)字是有順序的。多值選擇模型所能研究的問題是,變量選擇的取值之間是無序的,排序?qū)ζ錈o意義的。所以對

22、于有序數(shù)據(jù)的探究應該用本節(jié)的排序數(shù)據(jù)模型。 二 實驗內(nèi)容和數(shù)據(jù) 根據(jù)GSS統(tǒng)計調(diào)查數(shù)據(jù)得到數(shù)據(jù)文件ordwarm.dta,不同的家庭母子(女)之間的關(guān)系是不同的,有的比較緊張,有的比較融洽。這種關(guān)系在數(shù)據(jù)文件ordwarm.dta變量warm(關(guān)系融洽度)中體現(xiàn);文件中其他的變量educ=子女接受教育的程度;age=子女年齡;male=兒子;prst=職業(yè)威望;white=白人;yr89=89年受調(diào)查與否。完整的數(shù)據(jù)在本書附帶光盤的data文件夾下的“ordwarm.dta”。 此數(shù)據(jù)文件中變量warm取值0,1,2,3表示融洽度逐步上升;warm作為這個問題的被解釋變量其取值是離散不連續(xù)且是

23、有順序的,所以可以建立一個排序數(shù)據(jù)模型分析不同因素對warm的影響。 二 實驗操作指導 1.選擇合理模型選擇合理模型 warm是模型的被解釋變量,從數(shù)據(jù)文件中看到其是一排序數(shù)據(jù)。在Stata命令窗口中輸入如下命令打開文件并觀察數(shù)據(jù)和其變量特點: use ordwarm, clear tab warm 此命令表示按warm變量將數(shù)據(jù)分類且獲得其頻數(shù)分布。 可見所有數(shù)據(jù)都分在warm的4種取值類別中,由于4種取值有順序的,所以分析時應該使用排序數(shù)據(jù)模型。 2.模型回歸模型回歸 排序選擇模型分為排序logit模型和排序probit模型,在Stata中命令語句分別為: oprobit y x1 x2

24、if in weight,options 此命令語句表示使用ordered probit 模型對y、x進行回歸,if和in表示回歸的條件和范圍,weight表示觀測值的權(quán)重,options內(nèi)容如下表9.11所示。 ologit y x1 x2 if in weight,options 此命令語句表示使用ordered logit 模型對y,x進行回歸,if和in表示回歸的條件和范圍,weight表示觀測值的權(quán)重,options內(nèi)容如下表。 本實驗Stata分別使用兩種模型進行回歸,在命令窗口中輸入如下命令: oprobit warm ed age male prst white yr89 此命

25、令表示解釋變量為ed age male prst white yr89,被解釋變量是warm的排序probit模型回歸。 若使用排序ologit模型對此問題進行回歸,則在命令窗口中輸入如下命令: ologit warm ed age male prst white yr89 此命令表示解釋變量為ed age male prst white yr89,被解釋變量是warm的排序logit模型回歸。 此圖分析與上圖9.17一樣的,同樣給出了重要的參數(shù)估計量包括模型系數(shù)估計值和三個臨界點。 利用多值選擇模型同樣可以預測樣本個體選擇warm每個取值的概率,此模型在Stata中命令語句與多值選擇模型是一

26、樣的,所以其預測命令語句(1)仍為: predict type stub*|newvars if in ,statistic outcome(#,#,) nooffset 該預測命令語句中,type表示預測設定新變量的類型,stub*|newvars表示預測的新變量名稱,if和in表示對檢測擬合優(yōu)度時的條件和范圍的設定,outcome表示需要對其指定的類別進行概率預測。如果設定outcome選項,則需設定k個新變量;否則只需設定1個新變量。如果是預測指數(shù)或者指數(shù)的標準差,則需設定1個新變量。outcome()中,outcome可以直接用類別的取值,也可以用#1 #2等表示類別的序號,當然也可用

27、數(shù)值標簽來表示。nooffset表示預測時的約束,statistic的內(nèi)容主要包括: 預測命令格式(2): predict type stub*|newvarlist if in, scores 此命令中type表示預測設定新變量的類型,stub*|newvarlist表示預測的新變量名稱,if和in表示對檢測擬合優(yōu)度時的條件和范圍的設定,score表示對數(shù)似然函數(shù)對每個方程的一階導數(shù),第1、2、k個變量為對數(shù)似然函數(shù)對地1、2、3、k個方程的一階導數(shù)。 本實驗中預測樣本個體選擇warm每個取值的概率時可以在Stata命令窗口中輸入如下命令: predict p1 p2 p3 p4 list

28、p1 p2 p3 p4 圖中p1 p2 p3 p4 分別代表warm的0、1、2、3四個取值的概率。 若要單獨看符合某些條件的個體的warm取某個值的概率,也可在Stata命令窗口輸入如下命令: predict male_0 if (male=1&yr=89&white=1), pr outcome(0) 表示符合括號條件的個體,取warm=0時的概率。讀者可以根據(jù)自己分析問題需要來定義條件,然后預測符合條件的被解釋變量的取值。實驗實驗9-49-4:條件:條件logitlogit模型模型 一 實驗基本原理 前面分析人們在面臨多個選擇時,選擇的依據(jù)是個體的特點,比如考察人們購物選擇的品牌時,模型

29、考慮的是個體的年齡和性別;但有時候個體選擇受外部因素的影響很大,即選擇特征(備選方案的特征變量),比如某個品牌在這個城市進駐的銷售商數(shù)量等等,此時用多值logit模型,會影響分析結(jié)果。本章介紹的條件logit模型可以解決解釋變量中存在選擇特征的問題。 根據(jù)條件概率定義多值選擇logit模型可以改寫為: 二 實驗內(nèi)容和數(shù)據(jù)來源 本實驗的數(shù)據(jù)來自某統(tǒng)計資料關(guān)于研究初生嬰兒體重的影響因素的統(tǒng)計數(shù)據(jù),整個數(shù)據(jù)在本書附帶的光盤中data文件夾中“l(fā)owbirth.dta”中。 數(shù)據(jù)中的變量有parid(個體識別變量),low(嬰兒低體重,若體重低則取值1,否則0),age(母親的年齡),lowt(母親最

30、近一個月的體重),smoke(母親懷孕期間是否吸煙,若吸煙為1,否則為0),ptd(母親以前有早產(chǎn)經(jīng)歷,若有則1,反之為0),ht(母親高血壓,若是則取值1,否則為0),ui(母親是否子宮敏感,若是則取值1,否取值0),race1(母親是白種人,若是則取值1,反之0),race2(母親是黑種人,若是取值1,反之0),race3(母親是其他色種人,若是取值1,反之取值0)。 此實驗中被解釋變量是low,以上的解釋變量均是嬰兒媽媽的因素,那么這些因素就是與選擇特征變量,所以應該建立條件logit模型進行回歸。 三、實驗操作指導 1.建立模型建立模型 首先是觀察變量的特點,發(fā)現(xiàn)解釋變量是選擇特征變量

31、;然后在Stata中輸入如下命令打開數(shù)據(jù)文件,觀察變量特點: use lowbirth, clear tab low 此命令表示按warm變量將數(shù)據(jù)分類且獲得其頻數(shù)分布。 可見到所有數(shù)據(jù)都在兩個類別中,且解釋變量均為選擇特征變量,pairid是個體識別變量,所以建立條件logit模型分析問題是合理的。 2.模型回歸模型回歸 Stata中使用條件logit模型的回歸命令語句如下所示: clogit y x1 x2 if in weight , group(varname) options 其中,clogit表示對y、x進行條件logit模型回歸,if和in表示回歸的條件和范圍,weight表示觀

32、測值的權(quán)重值,group設定個體識別變量,options內(nèi)容如下表所示: 本實驗中,使用條件logit模型回歸時,由于race1 race2 race3均做解釋變量會產(chǎn)生完全的多重共線性,這里的解決方法是:gen nonwhite = race2 + race3 然后選取nonwhite與race1中一個加入模型,這樣模型得到的結(jié)果是白種人和非白種人對嬰兒體重的解釋。 所以在Stata中輸入如下命令: clogit low lwt nonwhite smoke ptd, group(pairid) 此命令表示的是被解釋變量是low,解釋變量是lwt nonwhite smoke ptd,個體識

33、別變量是pairid的條件logit模型回歸。 回歸結(jié)果給出了模型的擬合優(yōu)度和模型系數(shù)估計值,為了保證參數(shù)的可識別性,Stata對參數(shù)進行了標準化,因此不包含常數(shù)項。顯然模型lowt與nonwhite估計系數(shù)的p值未通過顯著性檢驗。若是模型中引入的解釋變量是race1而不是nonwhite,則系數(shù)估計值會是現(xiàn)在估計值的相反數(shù)。 在本實驗中在Stata命令窗口中輸入如下命令,就可以看到此模型的機會比情況: clogit,or 結(jié)果與9.21圖比較,可見odds Ratio等于上圖中系數(shù)估計值取自然指數(shù)的值。其意義是lowt每增加1單位,嬰兒體重重的概率相對輕的概率會增加0.99236;nonwh

34、ite每增加1單位(即成為race1),嬰兒體重重概率相對輕的概率增加00.53024。 利用條件選擇模型同樣可以預測樣本個體選擇每個取值的概率,Stata中命令語句如下所示: predict type newvar if in ,statistic nooffset 該預測命令語句中,type表示預測設定新變量的類型,newvars表示預測的新變量名稱,if和in表示對檢測擬合優(yōu)度時的條件和范圍的設定,nooffset表示預測時的約束,statistic的內(nèi)容主要包括: 本實驗中,在Stata命令窗口中輸入如下命令可得到預測結(jié)果: predict p1 此預測命令可以得到嬰兒初生時體重較重的

35、概率 list low p1 將被解釋變量與預測的概率羅列,可以看到預測結(jié)果與實際結(jié)果的對比情況,即預測的準確度。實驗實驗9-59-5:嵌套:嵌套LogitLogit模型模型 一 實驗基本原理 多值選擇模型和二值模型使用的一個重要的前提就是被解釋變量取值之間的無關(guān)獨立性,這個前提使它們在實際分析問題中使用受到很大限制。有很多時候個體的選擇是分層次的,下面層次的選擇受到上面層次的限制。比如個體外出旅游時,首先選擇去的地方,然后才能選擇看的風景名勝。比如下圖所示的一個選擇過程: 顯然在選擇最終選擇的過程中,有兩個層次。相同層次之間的選擇是具有替代性的,而層次之間的選擇又是不相關(guān)的;第一層決策為北京

36、或者上海,這兩個選擇是相互替代的,第一層的選擇與第二層選擇無關(guān);第二層顯然分為兩組,在每組內(nèi)部的選擇是不相關(guān)的,而組間具有相關(guān)性。也就是將條件Logit模型中隱含的齊次方差性條件放松,允許方差在組間可以不同,但在組內(nèi)仍然是同方差的,這樣的模型被稱為Nested Logit模型。外出旅游北京上海故宮長城香山濱江大道外灘黃浦公園 二實驗內(nèi)容及數(shù)據(jù)來源 根據(jù)某統(tǒng)計資料,得到考察家庭選擇酒店的影響因素的數(shù)據(jù)文件restaurant.dta。數(shù)據(jù)中變量包括:family_id(家庭識別變量);restaurant(酒店);income(家庭收入);cost(每人的平均餐飲費用);kids(家庭小孩);r

37、ating(酒店星級);distance(家庭與酒店的距離);chosen(選擇餐廳的識別變量)。完整的數(shù)據(jù)文件在本書附帶光盤下的data文件夾中的“restaurant.dta”數(shù)據(jù)文件中。 在本數(shù)據(jù)中人們的選擇包含兩個水平:類型和餐館,就是所人們先決定去什么類型的餐館就餐,然后再根據(jù)各種因素確定具體的餐館。認為income,kids是個體特征變量決定個體選擇的第一水平類型;cost,rating為選擇變量決定個體選擇的第二水平具體餐館。所以應該使用嵌套logit模型來分析此問題。 三 實驗操作指導 1.選擇合理的模型選擇合理的模型 首先在Stata中輸入如下命令,打開所需數(shù)據(jù)文件: use

38、 restaurant, clear 觀察變量的特點,餐廳選擇有兩個層次,類型和餐館。類型有三種fast family和fancy,可以使用嵌套logit模型分析此問題。 2.模型回歸模型回歸 (1)Stata中生成水平識別變量的命令語句如下所示: nlogitgen newvar = alvar(branchlist) ,nolog 此命令語句中nlogitgen表示嵌套模型中生成水平識別變量,newvar生成新變量的名稱,alvar表示被分類的變量名稱,branchlist表示各水平包含的怎樣的取值,nolog表示窗口不顯示生成的水平識別變量結(jié)果。 branchlist的形式為:branc

39、h ,branch branch 的形式為:label: alternative | alternative | alternative 在本實驗中,使用Stata生成水平識別變量時在Stata窗口中輸入如下命令可以得到圖9.24所示的結(jié)果: nlogitgen type = restaurant (fast: Freebirds | MamasPizza , family: CafeEccell | LosNortenos | WingsNmore, fancy: Christophers | MadCows) 此命令生成此模型的第一水平變量fast,family和fancy。 (2)在設定

40、了水平變量后,可以在Stata中輸入如下命令顯示出其樹狀結(jié)構(gòu): nlogittree altervarlist if in weight ,choice(y) nloabel nobranches nlogittree表示顯示樹狀結(jié)構(gòu),altervarlist表示兩個層次的變量名稱,但是一定是底層變量名稱在前面然后依次向后;if和in表示顯示的條件和范圍,weight表示對觀測值加入的權(quán)重;choice(y)表示顯示被解釋變量在各個水平下出現(xiàn)的頻數(shù),nloabel nobranches是對顯示出圖形形式的要求。 在本實驗中,在Stata命令窗口中輸入如下命令: nlogittree resta

41、urant type ,choice (chosen) 此命令表示顯示二層選擇變量是restaurant,一層選擇變量是type的樹狀結(jié)構(gòu)。(3)進行嵌套logit模型的回歸:Stata中進行嵌套logit模型回歸的命令語句如下所示:nlogit y x1 x2 if in weight | lev1_equation|lev2_equation | altar :byaltvarlist case (varname), options其中nologit表示對y,x進行嵌套logit模型回歸,if和in表示回歸的條件和范圍,weight表示觀測值加入的權(quán)重,case(varname)表示個體識

42、別變量。levk_equation的形式如下:altar:byaltvarlist ,base(#|label) estconstaltvar 為每個水平上決策者選擇的識別變量。byaltvarlist設定不同水平上的解釋變量。在一個水平上,每一個解釋變量都有k個回歸系數(shù),k為類別個數(shù),即每一個選擇都有一個回歸系數(shù)。如果變量為常數(shù)(比如反映決策者特征的個體特定變量),基礎(chǔ)選擇的回歸系數(shù)是不能識別的。通過base()選項設定每個水平的基礎(chǔ)類別,默認選項為頻數(shù)最高的類別。estconst 用于除了底層水平之外的某一個水平。其作用是在設定的水平上,除了基礎(chǔ)類別外,其他選擇都帶有常數(shù)項。由于只能在其中

43、一個水平上存在常熟項,Stata默認值是底層水平是帶有常數(shù)項的(當然除了基礎(chǔ)類別)。即如果設定了這個選項,那么底層水平必須通過noconstant選項設定不能含常數(shù)項。命令中options的內(nèi)容如下表: 在本實驗中,在Stata命令窗口中輸入如下命令,可以得到回歸估計結(jié)果: nlogit chosen cost distance rating | type: income kids, base(family) | restaurant: , noconst case(family_id) 此命令表示一個一層水平是type且其解釋變量是income kids,二層選擇水平是restaurant,

44、其解釋變量是cost distance rating的嵌套回歸模型。且要求在一層水平上的基礎(chǔ)類別是family,底層水平的估計不含有常數(shù)項。 此回歸圖顯示了嵌套回歸模型是通過不斷迭代最終找到最大化的估計量。結(jié)果圖給出了每個層次的回歸的系數(shù)估計值和顯著性檢驗結(jié)果,可以用來分析問題。比如結(jié)果顯示收入(income)越高的人越傾向選擇fancy這個就餐類型,在第二水平的選擇上,成本低距離近等級高的餐館容易被選擇,但是rating這個變量的系數(shù)沒有通過顯著性檢驗。4)預測:使用嵌套模型對其估計結(jié)果進行預測的Stata命令格式如下所示:predict type newvar if in ,statistics hlevel(#) altwisepredict type stub* | newvarlist if in , scores對于第一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論