虛擬變量課件_第1頁
虛擬變量課件_第2頁
虛擬變量課件_第3頁
虛擬變量課件_第4頁
虛擬變量課件_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、虛擬變量1第七章虛擬變量Dummy variables虛擬變量2 本章將主要考慮虛擬的自變量的情況,即解釋變量出現(xiàn)虛擬變量。 在現(xiàn)實中,模型中可能會出現(xiàn)一些定性的變量作為解釋變量。通常將虛擬變量取值0或1,所以虛擬變量又稱為二分變量,用虛擬變量來表示某一性質(zhì)或?qū)傩猿霈F(xiàn)或不出現(xiàn)。虛擬變量3例如:收入決定模型中,除了可以量化的工作年限和受教育年限這兩個變量以外,我們還包括了性別這一定性的變量,用0表示女性,1表示男性。模型可以寫成:y= +1 x + 2 D +其中,D為虛擬變量D0,表示女性,D1表示男性模型中加入虛擬變量后,更加貼近經(jīng)濟(jì)的真實情況,也更加靈活,收入決定模型我們不僅要考察一般人口

2、的狀況,也關(guān)注不同性別的收入決定模型的差異,從而更有利于政策的制定和調(diào)整。虛擬變量4一般情況下,一個定性變量所需要的虛擬變量的個數(shù)取決于該定性的變量的類別,如果有n個類別,所引進(jìn)的虛擬變量的個數(shù)時m-1,比總體類別的數(shù)量少1。例如性別變量,分為兩類男性或女性,需要一個虛擬變量就可以了;如果地區(qū)發(fā)展問題,考慮地區(qū)差異,假設(shè)把全國分為東部,中部和西部,就需要2個虛擬變量,令 1 東部 D1= 0 其他虛擬變量5 1 中部D2= 0 其他全集分為三類,所以需要兩個虛擬變量。虛擬變量6第一節(jié) 臨時虛擬為了更好地對模型進(jìn)行估算,經(jīng)常要在模型中排除一些又突發(fā)時間產(chǎn)生的異常值(outlier),及其對模型的

3、影響,例如戰(zhàn)爭、地震、內(nèi)亂、罷工等。例如:y= +1 x + 2 D +其中,D為臨時虛擬變量D1,異常時期D0,平時虛擬變量7例題下表是日本19851995年水稻產(chǎn)量Y和耕種面積的數(shù)據(jù)X:年份 產(chǎn)量(10萬噸)Y 耕種面積(萬公頃)X 116 232 116 228 106 212 99 209 103 208 105 206 96 203 105 209 78 213 120 2201985 107 211虛擬變量8 (1)估計模型y= +x +(2)受1993年凍害的影響,水稻收成指數(shù)為戰(zhàn)后最低,出現(xiàn)了歉收。因此設(shè)D1為1993年,D0為其他年份,估計下列模型y= +1 x + 2 D

4、+虛擬變量9根據(jù)數(shù)據(jù)計算結(jié)果如下:X=2351 Y=1151 XY=246601X2=503313 Y2=121757 n=11Y= -48.224 + 0.71521X (73.4) 0.3432)R2=0.3255虛擬變量10引入臨時虛擬變量后,即1993年為異常年份,計算結(jié)果如下:X=2351 Y=1151 XY=246601X2=503313 Y2=121757 n=11D=1 XD=213 YD=78Y= -40.292 + 0.69033X - 28.748D (30.90) (0.1444) (4.389)經(jīng)過校正的R2 =0.8675虛擬變量11如果直接去掉1993年的數(shù)據(jù),回

5、歸的結(jié)果為Y= -40.292 + 0.69033X (30.898) (0.1450)R2 =0.7408 經(jīng)過校正的R2 =0.7084虛擬變量12第二節(jié) 季度虛擬 季度虛擬是通過回歸模型中的常數(shù)項的變化(斜率不變)來掌握季度和月度等季節(jié)變化對模型的不同影響。例如,根據(jù)研究人們發(fā)現(xiàn):利用季度數(shù)據(jù),消費(fèi)對收入回歸時,在夏季和冬季(第二和第四季度)發(fā)半年獎和年終獎時,收入異乎尋常地高,為了消除這種季節(jié)變化的影響,引入季度虛擬變量D1、D2、D3。估計下列多元回歸模型:y= +1 x + 2 D1 + 3D2 4D3 虛擬變量13 1 第一季度D1 0 其他 1 第二季度D2 0 其他 1 第三

6、季度D3 0 其他虛擬變量14 季度數(shù)據(jù)需要3個虛擬變量,月度數(shù)據(jù)用11個虛擬變量。實際估計時,會根據(jù)t檢驗結(jié)果去掉不顯著的季度或月度虛擬變量,然后用剩下的虛擬變量再重新估計就可以了。虛擬變量15例題下面時日本飲食消費(fèi)總額(食品、飲料等)Y與國內(nèi)家庭最終消費(fèi)支出X的變化數(shù)據(jù),首先估計下面的模型:y= +x +(宏觀恩格爾函數(shù)) 引入季度虛擬變量,估計模型y= +1 x + 2 D1 + 3D2 4D3 虛擬變量16 1 第一季度D1 0 其他 1 第二季度D2 0 其他 1 第三季度D3 0 其他虛擬變量17年、季度 飲食消費(fèi) Y 國內(nèi)最終消費(fèi)支出X1990年13月 10.0 53.5 46月

7、 11.0 54.4 79月 12.2 56.4 1012月 13.3 60.61991年13月 10.2 54.7 46月 11.0 55.4 79月 12.3 57.6 1012月 13.2 62.41992年 13月 10.5 56.5 46月 11.1 56.4 79月 12.3 58.3 1012月 13.4 62.61993年13月 10.4 56.7 46月 11.2 56.8 79月 12.2 58.9 1012月 13.4 63.71994年13月 10.4 58.2虛擬變量18X=983.10 Y=198.10 XY=11505.46X2=56993.83 Y2=2331.

8、77Y=-8.5246+0.34891XR2 =0.73985虛擬變量19季度虛擬變量數(shù)據(jù)表年、季度 D1 D2 D31990年13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01991年13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01992年 13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01993年13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01994年13月 1 0 0虛擬變量20估計結(jié)果如下:Y= 9.0681+0.068301X-2.05875D1

9、-1.8009D2-0.76594D3所有t值都在1的水平顯著經(jīng)過校正的R2 0.99390將第一季度D11,D20,D30代入上述模型,得到第一季度的子模型Y=9.0681-2.5875+0.068301X=6.4806+0.068301X虛擬變量21將第二季度D10,D21,D30代入上述模型,得到第二季度的子模型Y= 9.0681-1.8009+0.068301X 7.2672+0.068301X將第三季度D10,D20,D31代入上述模型,得到第三季度的子模型Y=9.0681-0.76594+0.068301X 8.3022+0.068301X將第四季度D10,D20,D30代入上述模

10、型,得到第四季度的子模型Y=9.0681+0.068301X 虛擬變量22第三節(jié)運(yùn)用虛擬變量改變回歸直線的截距加入虛擬變量后,回歸模型中解釋變量前面的系數(shù)(斜率)沒有變化,只有截距發(fā)生改變,事實上,臨時虛擬和季度(月度)虛擬中都是是截距發(fā)生了改變。看下面的例子:虛擬變量23例子1,在收入決定模型中,除了假設(shè)教齡以外,性別和膚色也是影響大學(xué)教授收入的重要因素,模型為:y= +1 x + 2 D1 + 3D2 y為收入x為教齡虛擬變量24 1 男性D1= 0 女性 1 白色D2= 0 有色人種虛擬變量25黑人女教授的平均工資: Ey= +1 x黑人男教授的平均工資:Ey= 2 +1 x白人女教授的

11、平均工資:Ey= 3 +1 x白人男教授的平均工資:Ey= 2 3 +1 x估計上述包括性別和膚色虛擬變量的模型,如果它們的t值顯著,表明這兩個因素的確影響了收入虛擬變量26例子2,假設(shè)我們具有消費(fèi)C和收入Y的數(shù)據(jù),同時有一些定性的變量:S :性別,A:年齡(50)E:教育(高中以下,高中以上,但大學(xué)以下;大學(xué)及以上)虛擬變量27所估計的模型為:C=+ Y + 1D1 + 2D 2+ 3D 3 + 4D 4 + 5D5 + 1 男性D1 = 0 女性虛擬變量28 1 如果年齡小于25D2 = 0 其他 1 年齡在25到50之間D3 = 0 其他 1 教育在高中以下D4= 0 其他虛擬變量29

12、1 學(xué)歷在高中以上但大學(xué)以下D5 = 0 其他這是一個典型的截距發(fā)生改變的例子。例如:(1) 男性,年齡在25歲以下,大學(xué)畢業(yè)C=(+ 1 + 2)+ Y +相當(dāng)于 D1 =1, D2 =1, D3=0, D4 =0, D5 =0(2)女性,年齡在50以上,大學(xué)學(xué)歷C=+ Y +相當(dāng)于 D1 =0, D2 =0, D3=0, D4 =0, D5 =0虛擬變量30例子3,蘭普森研究一些定性變量對電影票價的影響,他估計了下列模型 Y=4.13+5.77D1+8.21D2-7.68D3 -1.13D4+27.09D5+31.46logX1+0.81X2其中Y成人晚間入場票 (美分) 1 郊區(qū)D1電影

13、院位置 0 城中心虛擬變量31 1 建成后或大修后10年內(nèi)D2電影院年齡 0 其他 1 露天D3電影院類型 0 室內(nèi) 1 有 D4停車場 0 無虛擬變量32 1 首映D5上映政策 0 其他X1平均每場放映的空位率X2平均影片片租,以分?jǐn)偟矫繌堧娪捌鄙系拿婪謨r計算 虛擬變量33解釋模型。計算下列子模型:(1)城中心,電影院年齡在10年以上,無停車場,室內(nèi),非首映(即虛擬變量取值全部為0)Y4.13+31.46logX1+0.81X2虛擬變量34(2)城郊,10年內(nèi)的影院,露天,有停車場,首映Y=4.13+5.77+8.21-7.68 -1.13+27.09+31.46logX1+0.81X2 =

14、36.39+31.46logX1+0.81X2大家還可以計算其他組合下的子模型。虛擬變量35 例題:持有兩份或多份工作,即一份主業(yè)和一份或多份副業(yè)的人被稱為(moonlighter),即兼職者。兩個學(xué)者試圖發(fā)現(xiàn)什么決定這些兼職者的工資。它們根據(jù)318個兼職者的樣本,估計如下回歸模型:Wm=37.07 + 0.403W0 90.06race +75.51urban +47.33hisch+113.64reg+2.26age虛擬變量36Wm 為兼職者工資(美元/小時)W0 為主業(yè)工資(美元/ 小時)Race= 0 白人 1 非白人Urban= 0 非城里人 1 城市人虛擬變量37Reg= 0 非西

15、部 1 西部Hisch = 0 非中學(xué)畢業(yè)(即中學(xué)以下) 1 中學(xué)畢業(yè)Age 年齡模型中包括了2個定量的解釋變量和4個定性的變量,所有變量的系數(shù)在5的水平都是顯著的。虛擬變量38當(dāng)所有的虛擬變量均取值為0時(白人、非城鎮(zhèn)、非西部、非中學(xué)畢業(yè)),Wm=37.07+0.403W0+2.26age當(dāng)所有的虛擬變量均取值為1時(非白人、城鎮(zhèn)、西部、中學(xué)畢業(yè)),Wm=37.07+75.51+47.33+113.64-90.06+0.403W0+2.26age=183.49+0.403W0+2.26age虛擬變量39作業(yè):計算虛擬變量不同取值下模型:1,白人、非城鎮(zhèn)、西部居民、中學(xué)畢業(yè)2,非白人、城鎮(zhèn)、非

16、西部居民、非中學(xué)畢業(yè)3,白人、非城鎮(zhèn)、非西部居民、中學(xué)畢業(yè)虛擬變量40第四節(jié) 通過虛擬變量改變斜率(系數(shù)虛擬)研究通貨膨脹率(I)和工業(yè)增長率(G)之間的關(guān)系為例:假設(shè)1988年與其他年份有所不同,在這一年劇烈上漲。I= +1 G + 2 (DG) 1 1988年D= 0 其他年份虛擬變量41這樣可以用上面的模型表示下列兩種情況: +(1 +2) G D=1 I= +1 G D=0不論是哪種情況,截距都沒有發(fā)生改變。虛擬變量42例題下表是某國在1965年到1979年以指數(shù)表示(1965年100)初次能源需求和實際GDP的數(shù)據(jù)虛擬變量43年份 初次能源需求Y 實際GDP X D DX 100 1

17、00 0 0 106 108 0 0 115 117 0 0 122 123 0 0 129 132 0 0 136 141 0 0 141 145 0 0 143 54 0 0 114 150 1 150 117 156 1 156 121 161 1 161虛擬變量44 123 169 1 169 129 174 1 174 130 177 1 177 134 183 1 183X=2190 Y=1860 XY=274178X2=328940 Y2=232764Y=82.453+0.28457XR2 =0.35075 經(jīng)過校正的R2 0.30081虛擬變量45模型為Y= +1 X + 2

18、(D X) 0 石油沖擊前(19651972)D= 1 石油沖擊后(1973-1979)DX=1170 (DX ) 2=196412 X(DX ) =196412Y(DX)=145598Y=17.095+0.83864X-0.19918DX虛擬變量46經(jīng)過校正的R2 0.98263石油沖擊前的系數(shù)是0.83864,石油沖擊后的系數(shù)為0.63946,可見石油沖擊后,經(jīng)濟(jì)增長模式向節(jié)能方向轉(zhuǎn)變。虛擬變量47第五節(jié) 虛擬變量使截距和斜率均發(fā)生改變?nèi)耘f是通貨膨脹率I和工業(yè)增長率G之間的關(guān)系,可以假設(shè)模型為:I 1 2 D+ 1 G+2GD+ ( 1 2 )+( 1+2)G+ D=1 (1988) I=

19、 1 1 G+ D=0 (其他)虛擬變量48 2被稱為級差截距, 2是級差斜率系數(shù)虛擬變量49例題下面是根據(jù)1958年4季度到1971年2季度英國失業(yè)率和職位空缺率的數(shù)據(jù)估計的模型。從最初的散點(diǎn)圖中發(fā)現(xiàn):1966年4季度開始失業(yè)和空缺之間的關(guān)系發(fā)生了明顯的變化。為了證實判斷的情形,估計了下列的模型:UNt= 1+ 2Dt + 1 Vt +2 (Dt Vt )+t其中UNt為失業(yè)率, Vt為職位空缺率,D= 1 1966 年 4季度開始以后的時期 0 1966年4季度以前的時期虛擬變量50 估計的結(jié)果如下:UNt=2.7491 + 1.1507Dt 1.5294 Vt -0.8511 (Dt V

20、t ) (0.1022)(0.3171) 0.1218) (0.4294) 從上面的估計結(jié)果中可以發(fā)現(xiàn),級差截距和級差斜率系數(shù)在5的水平都是顯著的,表明1966年4季度開始發(fā)生了明顯的變化。 從上面的回歸可以導(dǎo)出下列回歸: 1958年4季度到1966年3季度: UNt=2.7491-1.5294Vt 1966年4季度到1971年2季度: Unt=2.7491+1.1507-(1.5294+0.8511)Vt =3.8998-2.3805 Vt 虛擬變量51 UN V虛擬變量52第六節(jié) 帶折點(diǎn)的回歸在實際中可能會遇到折線回歸的情況,例如:I G0 G虛擬變量53上面的圖表示的是當(dāng)工業(yè)增長率達(dá)到一

21、定的程度后會大幅度上升。假設(shè)為1988年以后的工業(yè)增長率。定義: 1 (t 1988)D= 0 (其他年份)模型可以表示成: + 1 Gi + 2 (Gi-G0)Di+ i (t 1988)Ii = +1 Gi + i (其他年份)G0被稱為門檻值(發(fā)生轉(zhuǎn)折的點(diǎn),是已知的)虛擬變量54例子1,假設(shè)某公司對其銷售人員按下列方式發(fā)放酬金,即在銷售額到達(dá)“目標(biāo)”或門檻值之前實行一種酬勞結(jié)構(gòu),超過這個事先確定的門檻值之后,實行另一種結(jié)構(gòu)。yi= + 1 Xi + 2 (Xi-X0)Di+ i XX0 +1 Xi + i X X0 ) 0 (Xi 5500 0 X7 0 其他虛擬變量59當(dāng)lnXi7時,

22、X 1097美元假定1097美元的人均收入是貧窮和較富裕國家的分界線,推導(dǎo)出人均收入低于1097美元和高于1097美元的國家的模型 E(yi | Xi, Di =1) = -2.4+ 9.39 lnXi -3.36 lnXi +3.36721.12+6.03 lnXiE(yi | Xi, Di =0) -2.4+9.39lnXi虛擬變量60表明隨著人均收入水平的提高,平均預(yù)期壽命的增加趨緩。虛擬變量61第七節(jié)全部是定性變量的回歸有時,模型中包括的全部是定性的變量(解釋變量),可以通過虛擬變量的形式來處理。例如,研究收入問題時,可以從性別、學(xué)歷、年齡,工作單位性質(zhì)、企業(yè)規(guī)模等方面考察,可以找出不

23、同類別人群的收入差距。虛擬變量62例題 現(xiàn)擁有15個工人的月收入和相應(yīng)的性別、年齡(30多,40多) 、學(xué)歷(大學(xué)、高中、初中)、企業(yè)規(guī)模 (大型、中型、小型)的資料。估計的模型為:Y= +1 S+ 2 A+ 3 E1+ 4 E 2 + 5 F1+ 6F 2 + S= 1 男性 0 女性 A 1 40多 0 30多 虛擬變量63E1 1 大學(xué)畢業(yè) 0 其他E2 1 高中畢業(yè) 0 其他F1 1 大型企業(yè) 0 其他F2 1 中型企業(yè) 0 其他虛擬變量64Y S A E1 E2 F1 F2 0 1 0 0 0 0 1 0 0 0 0 028 0 1 0 1 0 030 0 1 0 1 0 031 1

24、 0 0 0 0 132 1 0 0 1 0 034 0 0 1 0 0 136 1 0 0 1 0 139 0 0 1 0 1 040 1 0 0 1 0 143 1 0 1 0 0 0虛擬變量6546 1 0 1 0 0 152 1 1 0 0 1 054 0 1 1 0 1 0 1 1 0 1 1 0估計的結(jié)果為:Y= 11.966+14.385S+ 12.643A+ 15.873 E1 + 5.083 E 2 + 12.152 F1+ 5.544F 2虛擬變量66所有回歸系數(shù)在1的水平都是顯著的,常數(shù)項為11.966表示的是小型企業(yè)、30多歲女性初中畢業(yè)工人的月收入(即所有的虛擬變量取值均為0。(1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論