版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
最重要的兩個(gè)命令莫過于help和search了。即使是經(jīng)常使用stata的人也很難,也沒必要記住常用命令的每一個(gè)細(xì)節(jié),更不用說那些不常用到的了。所以,在遇到困難又沒有免費(fèi)專家咨詢時(shí),使用stata自帶的幫助文件就是最佳選擇。stata的幫助文件十分詳盡,面面俱到,這既是好處也是麻煩。當(dāng)你看到長長的幫助文件時(shí),是不是對迅速找到相關(guān)信息感到?jīng)]有信心?閑話不說了。help和search都是查找?guī)椭募拿?,它們之間的區(qū)別在于help用于查找精確的命令名,而search是模糊查找。如果你知道某個(gè)命令的名字,并且想知道它的具體使用方法,只須在stata的命令行窗口中輸入help空格加上這個(gè)名字?;剀嚭蠼Y(jié)果屏幕上就會顯示出這個(gè)命令的幫助文件的全部內(nèi)容。如果你想知道在stata下做某個(gè)估計(jì)或某種計(jì)算,而不知道具體該如何實(shí)現(xiàn),就需要用search命令了。使用的方法和help類似,只須把準(zhǔn)確的命令名改成某個(gè)關(guān)鍵詞?;剀嚭蠼Y(jié)果窗口會給出所有和這個(gè)關(guān)鍵詞相關(guān)的幫助文件名和鏈接列表。在列表中尋找最相關(guān)的內(nèi)容,點(diǎn)擊后在彈出的查看窗口中會給出相關(guān)的幫助文件。耐心尋找,反復(fù)實(shí)驗(yàn),通常可以較快地找到你需要的內(nèi)容。下面該正式處理數(shù)據(jù)了。我的處理數(shù)據(jù)經(jīng)驗(yàn)是最好能用stata的do文件編輯器記下你做過的工作。因?yàn)楹苌儆幸豁?xiàng)實(shí)證研究能夠一次完成,所以,當(dāng)你下次繼續(xù)工作時(shí)。能夠重復(fù)前面的工作是非常重要的。有時(shí)因?yàn)橐恍┘?xì)小的不同,你會發(fā)現(xiàn)無法復(fù)制原先的結(jié)果了。這時(shí)如果有記錄下以往工作的do文件將把你從地獄帶到天堂。因?yàn)槟悴槐匾槐橛忠槐榈卦噲D重現(xiàn)做過的工作。在stata窗口上部的工具欄中有個(gè)孤立的小按鈕,把鼠標(biāo)放上去會出現(xiàn)'bringdo-fileeditortofront”點(diǎn)擊它就會出現(xiàn)do文件編輯器。為了使do文件能夠順利工作,一般需要編輯do文件的''頭〃和''尾〃。這里給出我使用的''頭”和''尾"。captureclear(清空內(nèi)存中的數(shù)據(jù))capturelogclose(關(guān)閉所有打開的日志文件)setmem128m(設(shè)置用于stata使用的內(nèi)存容量)setmoreoff(關(guān)閉more選項(xiàng)。如果打開該選項(xiàng),那么結(jié)果分屏輸出,即一次只輸出一屏結(jié)果。你按空格鍵后再輸出下一屏,直到全部輸完。如果關(guān)閉則中間不停,一次全部輸出°)setmatsize4000(設(shè)置矩陣的最大階數(shù)。我用的是不是太大了?)cdD:(進(jìn)入數(shù)據(jù)所在的盤符和文件夾。和dos的命令行很相似。)logusing(文件名).log,replace(打開日志文件,并更新。日志文件將記錄下所有文件運(yùn)行后給出的結(jié)果,如果你修改了文件內(nèi)容,replace選項(xiàng)可以將其更新為最近運(yùn)行的結(jié)果。)use(文件名),clear(打開數(shù)據(jù)文件。)(文件內(nèi)容)logclose(關(guān)閉日志文件。)exit,clear(退出并清空內(nèi)存中的數(shù)據(jù)。)這個(gè)do文件的''頭尾〃并非我的發(fā)明,而是從沈明高老師那里學(xué)到的。版權(quán)歸沈明高老師。實(shí)證工作中往往接觸的是原始數(shù)據(jù)。這些數(shù)據(jù)沒有經(jīng)過整理,有一些錯(cuò)漏和不統(tǒng)一的地方。比如,對某個(gè)變量的缺失觀察值,有時(shí)會用點(diǎn),有時(shí)會用-9,-99等來表示。回歸時(shí)如果使用這些觀察,往往得出非常錯(cuò)誤的結(jié)果。還有,在不同的數(shù)據(jù)文件中,相同變量有時(shí)使用的變量名不同,會給合并數(shù)據(jù)造成麻煩。因此,拿到原始數(shù)據(jù)后,往往需要根據(jù)需要重新生成新的數(shù)據(jù)庫,并且只使用這個(gè)新庫處理數(shù)據(jù)。這部分工作不難,但是非?;A(chǔ)。因?yàn)槿绻谶@里你不夠小心,后面的事情往往會白做。假設(shè)你清楚地知道所需的變量,現(xiàn)在要做的是檢查數(shù)據(jù)、生成必要的數(shù)據(jù)并形成數(shù)據(jù)庫供將來使用。檢查數(shù)據(jù)的重要命令包括codebook,su,ta,des和list。其中,codebook提供的信息最全面,缺點(diǎn)是不能使用if條件限制范圍,所以,有時(shí)還要用別的幫幫忙。su空格加變量名報(bào)告相應(yīng)變量的非缺失的觀察個(gè)數(shù),均值,標(biāo)準(zhǔn)差,最小值和最大值。ta空格后面加一個(gè)(或兩個(gè))變量名是報(bào)告某個(gè)變量(或兩個(gè)變量二維)的取值(不含缺失值)的頻數(shù),比率和按大小排列的累積比率。des后面可以加任意個(gè)變量名,只要數(shù)據(jù)中有。它報(bào)告變量的存儲的類型,顯示的格式和標(biāo)簽。標(biāo)簽中一般記錄這個(gè)變量的定義和單位。list報(bào)告變量的觀察值,可以用if或in來限制范圍。所有這些命令都可以后面不加任何變量名,報(bào)告的結(jié)果是正在使用的數(shù)據(jù)庫中的所有變量的相應(yīng)信息。說起來蒼白無力,打開stata親自實(shí)驗(yàn)一下吧。順帶說點(diǎn)兒題外話。除了codebook之外,上述統(tǒng)計(jì)類的命令都屬于r族命令(又稱一般命令)。執(zhí)行后都可以使用returnlist報(bào)告儲存在r(沖的統(tǒng)計(jì)結(jié)果。最典型的r族命令當(dāng)屬summarize。它會把樣本量、均值、標(biāo)準(zhǔn)差、方差、最小值、最大值、總和等統(tǒng)計(jì)信息儲存起來。你在執(zhí)行su之后,只需敲入returnlist就可以得到所有這些信息。其實(shí),和一般命令的return命令類似,估計(jì)命令(又稱e族命令)也有ereturn命令,具有報(bào)告,儲存信息的功能。在更復(fù)雜的編程中,比如對回歸分解,計(jì)算一些程序中無法直接計(jì)算的統(tǒng)計(jì)量,這些功能更是必不可少。檢查數(shù)據(jù)時(shí),先用codebook看一下它的值域和單位。如果有-9,-99這樣的取值,查一下問卷中對缺失值的記錄方法。確定它們是缺失值后,改為用點(diǎn)記錄。命令是replace(變量名)=.if(變量名)==-9。再看一下用點(diǎn)記錄的缺失值有多少,作為選用變量的一個(gè)依據(jù)。得到可用的數(shù)據(jù)后,我會給沒有標(biāo)簽的變量加上注解?;蛘呓y(tǒng)一標(biāo)簽;或者統(tǒng)一變量的命名規(guī)則。更改變量名的命令是ren(原變量名)空格(新變量名)。定義標(biāo)簽的命令是labelvar(變量名)空格〃(標(biāo)簽內(nèi)容)〃。整齊劃一的變量名有助于記憶,簡明的標(biāo)簽有助于明確變量的單位等信息。如果你需要使用通過原始變量派生出的新變量,那么就需要了解gen,egen和replace這三個(gè)命令。gen和replace常常在一起使用。它們的基本語法是gen(或replace)空格(變量名)=(表達(dá)式)。二者的不同之處在于gen是生成新變量,replace是重新定義舊變量。虛擬變量是我們常常需要用到的一類派生變量。如果你需要生成的虛擬變量個(gè)數(shù)不多,可以有兩種方法生成。一種是簡明方法:gen空格(變量名)=((限制條件))[這外面的小括弧是命令需要的,里面的小括弧不是命令需要的,只是說明''限制條件〃并非命令]。如果某個(gè)觀察滿足限制條件,那么它的這個(gè)虛擬變量取值為1否則為0。另一種要麻煩一點(diǎn)。就是gen(變量名)=1if(取值為一限制條件)replace(相同的變量名)=0if(取值為零的限制條件)兩個(gè)方法貌似一樣,但有一個(gè)小小的區(qū)別。如果限制條件中使用的變量都沒有任何缺失值,那么兩種方法的結(jié)果一樣。如果有缺失值,第一種方法會把是缺失值的觀察的虛擬變量都定義為0。而第二種方法可以將虛擬變量的取值分為三種,一是等于1,二是等于0,三是等于缺失值。這樣就避免了把本來信息不明的觀察錯(cuò)誤地納入到回歸中去。下次再講如何方便地生成成百上千個(gè)虛擬變量。大量的虛擬變量往往是根據(jù)某個(gè)已知變量的取值生成的。比如,在某個(gè)回歸中希望控制每個(gè)觀察所在的社區(qū),即希望控制標(biāo)記社區(qū)的虛擬變量。社區(qū)數(shù)目可能有成百上千個(gè),如果用上次的所說的方法生成就需要重復(fù)成百上千次,這也太笨了。大量生成虛擬變量的命令如下;ta(變量名),gen((變量名))第一個(gè)括號里的變量名是已知的變量,在上面的例子中是社區(qū)編碼。后一個(gè)括號里的變量名是新生成的虛擬變量的共同前綴,后面跟數(shù)字表示不同的虛擬變量。如果我在這里填入d,那么,上述命令就會新生成d1,d2,等等,直到所有社區(qū)都有一個(gè)虛擬變量。在回歸中控制社區(qū)變量,只需簡單地放入這些變量即可。一個(gè)麻煩是虛擬變量太多,怎么簡單地加入呢?一個(gè)辦法是用省略符號,d*表示所有d字母開頭的變量,另一法是用破折號,d1-d150表示第一個(gè)到第150個(gè)社區(qū)虛擬變量(假設(shè)共有150個(gè)社區(qū))。還有一種方法可以在回歸中直接控制虛擬變量,而無需真的去生成這些虛擬變量。使用命令areg可以做到,它的語法是areg(被解釋變量)(解釋變量),absorb(變量名)absorb選項(xiàng)后面的變量名和前面講的命令中第一個(gè)變量名相同。在上面的例子中即為社區(qū)編碼?;貧w的結(jié)果和在reg中直接加入相應(yīng)的虛擬變量相同。生成變量的最后一招是egen。egen和gen都用于生成新變量,但egen的特點(diǎn)是它更強(qiáng)大的函數(shù)功能°gen可以支持一些函數(shù),egen支持額外的函數(shù)。如果用gen搞不定,就得用egen想辦法了。不過我比較懶,到現(xiàn)在為止只用用取平均、加和這些簡單的函數(shù)。有的時(shí)候數(shù)據(jù)情況復(fù)雜一些,往往生成所需變量不是非常直接,就需要多幾個(gè)過程。曾經(jīng)碰到原始數(shù)據(jù)中記錄日期有些怪異的格式。比如,1991年10月23日被記錄為19911023。我想使用它年份和月份,并生成虛擬變量。下面是我的做法:genyr=int(date)genmo=int((data-yr*10000)/100)tayr,gen(yd)tamo,gen(md)假設(shè)你已經(jīng)生成了所有需要的變量,現(xiàn)在最重要的就是保存好你的工作。使用的命令是save空格(文件名)‘replace。和前面介紹的一樣‘replace選項(xiàng)將更新你對數(shù)據(jù)庫的修改,所以一定要小心使用。最好另存一個(gè)新的數(shù)據(jù)庫,如果把原始庫改了又變不回去,就叫天不應(yīng)叫地不靈了。前面說的都是對單個(gè)數(shù)據(jù)庫的簡單操作,但有時(shí)我們需要改變數(shù)據(jù)的結(jié)構(gòu),或者抽取來自不同數(shù)據(jù)庫的信息,因此需要更方便的命令。這一類命令中我用過的有:改變數(shù)據(jù)的縱橫結(jié)構(gòu)的命令reshape,生成退化的數(shù)據(jù)庫collapse,合并數(shù)據(jù)庫的命令append和merge??v列(longitudinal)數(shù)據(jù)通常包括同一個(gè)行為者(agent)在不同時(shí)期的觀察,所以處理這類數(shù)據(jù)常常需要把數(shù)據(jù)庫從寬表變成長表,或者相反。所謂寬表是以每個(gè)行為者為一個(gè)觀察,不同時(shí)期的變量都記錄在這個(gè)觀察下,例如,行為者是廠商,時(shí)期有2000、2001年,變量是雇傭人數(shù)和所在城市,假設(shè)雇傭人數(shù)在不同時(shí)期不同,所在城市則不變。寬表記錄的格式是每個(gè)廠商是一個(gè)觀察,沒有時(shí)期變量,雇傭人數(shù)有兩個(gè)變量,分別記錄2000年和2001年的人數(shù),所在城市只有一個(gè)變量。所謂長表是行為者和時(shí)期共同定義觀察,在上面的例子中,每個(gè)廠商有兩個(gè)觀察,有時(shí)期變量,雇傭人數(shù)和所在城市都只有一個(gè),它們和時(shí)期變量共同定義相應(yīng)時(shí)期的變量取值。在上面的例子下,把寬表變成長表的命令格式如下:reshapelong(雇傭人數(shù)的變量名),i((標(biāo)記廠商的變量名))j((標(biāo)記時(shí)期的變量名))因?yàn)樗诔鞘胁浑S時(shí)期變化,所以在轉(zhuǎn)換格式時(shí)不用放在reshapelong后面,轉(zhuǎn)換前后也不改變什么。相反地,如果把長表變成寬表則使用如下命令reshapewide(雇傭人數(shù)的變量名),i((標(biāo)記廠商的變量名))j((標(biāo)記時(shí)期的變量名))唯一的區(qū)別是long換成了wide。collapse的用處是計(jì)算某個(gè)數(shù)據(jù)庫的一些統(tǒng)計(jì)量,再把它存為只含有這些統(tǒng)計(jì)量的數(shù)據(jù)庫。用到這個(gè)命令的機(jī)會不多,我使用它是因?yàn)樗梢杂?jì)算中位數(shù)和從1到99的百分位數(shù),這些統(tǒng)計(jì)量在常規(guī)的數(shù)據(jù)描述命令中沒有。如果要計(jì)算中位數(shù),其命令的語法如下collapse(median)((變量名)),by((變量名))生成的新數(shù)據(jù)庫中記錄了第一個(gè)括號中的變量(可以是多個(gè)變量)的中位數(shù)。右面的by選項(xiàng)是根據(jù)某個(gè)變量分組計(jì)算中位數(shù),沒有這個(gè)選項(xiàng)則計(jì)算全部樣本的中位數(shù)。合并數(shù)據(jù)庫有兩種方式,一種是增加觀察,另一種是增加變量。第一種用append,用在兩個(gè)數(shù)據(jù)庫的格式一樣,但觀察不一樣,只需用append空格using空格(文件名)就可以狗尾續(xù)貂了。簡單明了,不會有什么錯(cuò)。另一種就不同了,需要格外小心。如果兩個(gè)數(shù)據(jù)庫中包含共同的觀察,但是變量不同,希望從一個(gè)數(shù)據(jù)庫中提取一些變量到另一個(gè)數(shù)據(jù)庫中用merge。完整的命令如下:use(文件名)[打開輔助數(shù)據(jù)庫]sort(變量名)[根據(jù)變量排序,這個(gè)變量是兩個(gè)數(shù)據(jù)庫共有的識別信息]save(文件名),replace[保存輔助數(shù)據(jù)庫]use(文件名)[打開主數(shù)據(jù)庫]sort(變量名)[對相同的變量排序]merge(變量名)using(文件名),keep((變量名))[第一個(gè)變量名即為前面sort后面的變量名,文件名是輔助數(shù)據(jù)庫的名字,后面的變量名是希望提取的變量名]ta_merge[顯示_merge的取值情況。_merge等于1的觀察是僅主庫有的,等于2的是僅輔助庫有的,等于3是兩個(gè)庫都有的。]dropif_merge==2[刪除僅僅來自輔助庫的觀察]dropmerge[刪除_merge]save(文件名),replace[將合并后的文件保存,通常另存]我常用到的stata命令(續(xù))講到這里似乎對于數(shù)據(jù)的生成和處理應(yīng)該閉嘴了。大家可能更想聽聽估計(jì)、檢驗(yàn)這些事情。但我并不想就此止住,因?yàn)閷?shí)際中總是有一些簡單套用命令無法輕易辦到的特殊要求。此時(shí)至少有兩條路可以通向羅馬:一是找到更高級的命令一步到位;二是利用已知簡單命令多繞幾個(gè)圈子達(dá)到目的。下面講一個(gè)令我刻骨銘心的經(jīng)歷,這也是迄今我所碰到的生成新數(shù)據(jù)中最繁復(fù)的了。原始數(shù)據(jù)中包含了可以識別屬于同一個(gè)家庭中所有個(gè)人的信息和家庭成員與戶主關(guān)系的信息。目的是利用這些信息建立親子關(guān)系。初步的構(gòu)想是新數(shù)據(jù)庫以子輩為觀察,找到他們的父母,把父母的變量添加到每個(gè)觀察上。我的做法如下:usea1,clear[打開全部樣本數(shù)據(jù)庫]keepifgender==2&agemos>=96&a8~=1&line<10[保留已婚的一定年齡的女性[replacea5=1ifa5==0[變量a5標(biāo)記和戶主的關(guān)系。等于0是戶主,等于1是戶主的配偶。這里不加區(qū)分地將戶主及其配偶放在一起。]keepifa5==1|a5==3|a5==7[保留是戶主(=1),是戶主的子女(=3),或是戶主的兒媳(=7)的那些人。]renhhf將所需變量加上后綴f,表示女性]renlineIf將所需變量加上后綴f,表示女性]sortwavehhidsaveb1,replace[排序并保存]keepifa5f==1[留下其中是戶主或戶主配偶的]saveb2,replace[保存]useb1,clearkeepifa5f==3|a5f==7saveb3,replace留下其中是戶主女兒或兒媳的并保存]usea3,clear[打開與戶主關(guān)系是戶主子女的兒童數(shù)據(jù)庫]sortwavehhidmergewavehhidusingCHNS01b2,keep(hflf)ta_mergedropif_merge==2sorthhidlinewave[處理兩代戶,將戶主配偶女性庫與兒童庫合并]byhhidlinewave:egenx=count(id)dropx_merge[計(jì)算每個(gè)年份家庭匹配的情況,x只取值1,表明兩代戶匹配成功]saveb4,replace[保存]usea4,clear[打開與戶主關(guān)系是戶主孫子女的兒童數(shù)據(jù)庫]sortwavehhidmergewavehhidusingCHNS01b3,keep(a5fa8fschfa12fhfagemosfc8flf)ta_mergedropif_merge==2[處理三代戶,將戶主女兒或兒媳女性庫與孫子女兒童庫合并]sorthhidlinewavebyhhidlinewave:egenx=count(id)gena=agemosf-agemosdropifa<216&x==3計(jì)算每個(gè)年份家庭匹配的情況,x不只取1,三代戶匹配不完全成功。刪除不合理的樣本,標(biāo)準(zhǔn)是年齡差距和有三個(gè)可能母親的那些家庭。]genxx=x[_n+1]genxxx=x[_n-1]geny=lfifx==1replacey=lf[_n+1]ifx==2&xx==1replacey=lf[_n-1]ifx==2&xxx==1keepifx==1|(lf==y&x==2)[對于有兩個(gè)可能母親的兒童,有相同編碼的女性出現(xiàn)兩次的情況。上面的做法是為了保證不刪除這部分樣本。]dropaxxxxxxy_mergesaveb5,replace[保存合并后的數(shù)據(jù)庫][對男性數(shù)據(jù)的合并完全類似,不贅述。]logcloseexit,clear我的方法是屬于使用簡單命令反復(fù)迂回地達(dá)到目的那一類的,所以非常希望有更簡便的方法來替代。不過做實(shí)證時(shí)往往不是非常追求程序的漂亮,常常也就得過且過了。曾經(jīng)有人向我索要過上面的處理方法,因?yàn)橐恢彪s事纏身,就沒有回復(fù)。現(xiàn)在公開了,希望對需要的人能有所幫助,我也懶得再去一一答復(fù)了。stata強(qiáng)大的功能體現(xiàn)在它可以方便地回歸微觀數(shù)據(jù)。而回歸也是微觀實(shí)證中最重要的方法。下面就開始講stata中和回歸有關(guān)的常用命令。基本回歸方法有兩種:線性設(shè)定下的最小二乘法(OLS)和兩階段最小二乘法(2SLS)。他們在實(shí)證分析中應(yīng)用廣泛,十分詳細(xì)地掌握這兩種方法是實(shí)證研究的基本要求。講解的順序是先依次介紹如何在stata中實(shí)現(xiàn)OLS和2SLS估計(jì),然后再分析如何在實(shí)際問題中選擇合理的方法。后一部分受JoshuaAngrist教授的影響很大,因此,在后面引用他的思想時(shí)會詳細(xì)注明。假設(shè)你已經(jīng)清楚地了解待估計(jì)方程的形式,那么回歸命令的基本格式就十分簡單明了:reg(被解釋變量)(解釋變量1)(解釋變量2)……方程中的相應(yīng)變量可以簡單地放在reg的后面。執(zhí)行上面的命令后,stata會出現(xiàn)兩個(gè)表格,分別報(bào)告一些方差分析和回歸的參數(shù)估計(jì)結(jié)果。我們最關(guān)心的是參數(shù)的大小和顯著性,這在第二個(gè)表格中列出。表格的最左邊一欄列出了解釋變量,在它的右邊是相應(yīng)的系數(shù)估計(jì)值,然后依次是估計(jì)值的標(biāo)準(zhǔn)誤,t比率,原假設(shè)為系數(shù)的真實(shí)值等于零時(shí)錯(cuò)誤地拒絕該假設(shè)的概率一p值,以及該估計(jì)值的置信度為(1-5%)的置信區(qū)間。我看到回歸結(jié)果的第一眼是瞄著最關(guān)心的解釋變量的符號、大小和顯著性??纯唇忉屪兞坑绊懙姆较蚝痛笮∈遣皇欠侠碚摰念A(yù)期,是不是合乎常識,以及這個(gè)估計(jì)值是不是顯著。標(biāo)記顯著性的統(tǒng)計(jì)量是t統(tǒng)計(jì)量,在經(jīng)典假設(shè)下,它服從t分布。t分布和標(biāo)準(zhǔn)正態(tài)分布形狀很相似,但它的''尾巴〃要比標(biāo)準(zhǔn)正態(tài)分布的''肥〃一些,在樣本量比較小的時(shí)候尤其明顯,當(dāng)樣本量趨于無窮時(shí),t分布的極限分布是標(biāo)準(zhǔn)正態(tài)分布。大家對標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)上一些關(guān)鍵點(diǎn)比較熟悉,比如,1.96是97.5%的關(guān)鍵點(diǎn),1.64是95%的關(guān)鍵點(diǎn),所以,我們希望知道什么時(shí)候可以安全地使用標(biāo)準(zhǔn)正態(tài)分布。下表列出了一些小自由度下二者的差異(Beyer1987“CRCStandardMathematicalTables,28thed.”Goulden1956“MethodsofStatisticalAnalysis,2nded.〃)??梢钥闯?,自由度超過一百時(shí),二者的差別就已經(jīng)相當(dāng)小了。所以,當(dāng)樣本量的數(shù)量級是100個(gè)或以上時(shí),可以直接認(rèn)為t比率服從標(biāo)準(zhǔn)正態(tài)分布,并以此做檢驗(yàn)。90%95%97.5%99.5%13.077686.3137512.706263.656721.885622.919994.302659.9248431.637742.353363.182455.8409141.533212.131852.776454.6040951.475882.015052.570584.03214101.372181.812462.228143.16927301.310421.697262.042272.750001001.290071.660231.983972.625891.281561.644871.959992.57588讀者讀到這里可能會笑話我了,stata不是已經(jīng)報(bào)告了t檢驗(yàn)的p值和置信區(qū)間了嗎?為什么不直接察看這些結(jié)果呢?原因在于實(shí)證文獻(xiàn)往往只報(bào)告參數(shù)的估計(jì)值和標(biāo)準(zhǔn)誤,需要讀者自己將估計(jì)值和標(biāo)準(zhǔn)誤相除,計(jì)算顯著性。而且當(dāng)你在寫實(shí)證文章時(shí),也應(yīng)該報(bào)告參數(shù)的估計(jì)值和標(biāo)準(zhǔn)誤。這比報(bào)告估計(jì)值和它的p值更規(guī)范。伴隨回歸命令的一個(gè)重要命令是predict?;貧w結(jié)束后,使用它可以得到和回歸相關(guān)的一些關(guān)鍵統(tǒng)計(jì)量。語法如下:predict(新變量名),(統(tǒng)計(jì)量名)這里的統(tǒng)計(jì)量名是一些選項(xiàng)。常用的選項(xiàng)有:xb(回歸的擬合值。這是默認(rèn)選項(xiàng),即不加任何選項(xiàng)時(shí),predict賦予新變量前一個(gè)回歸的擬合值。);residuals(殘差);leverage(杠桿值)。下面具一個(gè)例子來解釋predict的用法。有時(shí)樣本中的一個(gè)特別的觀察值會顯著地改變回歸結(jié)果。這樣的觀察值可以籠統(tǒng)地分為三類:outliers,leverage和influenee。Outliers是針對殘差而言的,指那些回歸中殘差很大的觀察;leverage是針對解釋變量而言的,是解釋變量相對其平均值偏里很大的觀察;influenee是針對估計(jì)結(jié)果而言的。如果去掉這個(gè)觀察會明顯地改變估計(jì)值,那么這個(gè)觀察就是一個(gè)influence°Influenee可以看作outliers和leverage共同作用的結(jié)果。異常觀察可能是由于樣本的特性,也可能是因?yàn)殇浫脲e(cuò)誤??傊覀兿M业剿鼈?。回歸后的predict命令可以發(fā)現(xiàn)這些異常觀察(命令來自UCLA的''RegressionwithStata"第二章)。發(fā)現(xiàn)outliers,leverage和influence的命令如下:predictrs,rstudentpredictl,leveragepredictcsd,cooksdpredictdf,dfits這些統(tǒng)計(jì)量都有相應(yīng)的關(guān)鍵值。當(dāng)統(tǒng)計(jì)量(或其絕對值)超過關(guān)鍵值時(shí)就應(yīng)該仔細(xì)檢查相應(yīng)的觀察,確認(rèn)是否屬于錄入錯(cuò)誤。rstudent是用來發(fā)現(xiàn)outliers的統(tǒng)計(jì)量,其關(guān)鍵值是2,2.5和30leverage是用來發(fā)現(xiàn)leverage的統(tǒng)計(jì)量,其關(guān)鍵值是(2k+2)/n,其中k解釋變量的個(gè)數(shù),n是樣本量。Cooksd和DFITS是探測influenee的統(tǒng)計(jì)量。它們都綜合了殘差和杠桿的信息,而且二者非常類似,只是單位不同,因而給出的結(jié)果也差不多oCooksd的關(guān)鍵值是4/n0DFITS的關(guān)鍵值是2*sqrt(k/n)。在使用最小二乘法估計(jì)時(shí),兩個(gè)通常被質(zhì)疑的問題是數(shù)據(jù)是否存在多重共線性和異方差。多重共線性是指解釋變量之間的相關(guān)性。通常我們假設(shè)解釋變量之間是相關(guān)的,而且允許解釋變量存在相關(guān)性,并控制可以觀察的因素正是OLS的優(yōu)點(diǎn)。如果把多重共線性看作一個(gè)需要解決的問題,那么需要把它解釋為相關(guān)性''較大〃。這樣,變量之間沒有相關(guān)性不好,相關(guān)性太大也不好,優(yōu)劣的分割真是頗費(fèi)琢磨。而且多重共線性并沒有違反任何經(jīng)典假定,所以,這個(gè)問題沒有很好的定義。本質(zhì)上講,在樣本給定時(shí),多重共線性問題無法解決,或者說它是一個(gè)偽問題。先看一下為什么解釋變量之間的相關(guān)性大會有問題。在OLS回歸的經(jīng)典假設(shè)(除正態(tài)假設(shè)外)下,某個(gè)系數(shù)的OLS估計(jì)值的總體方差與擾動項(xiàng)的方差成正比,與解釋變量的總方差(一般地,我們視解釋變量為隨機(jī)變量)成反比,是該變量對其它解釋變量回歸的擬合優(yōu)度的增函數(shù)。這個(gè)擬合優(yōu)度可以理解為該變量的總變動中可以由其他解釋變量解釋的部分。當(dāng)這個(gè)值趨近于1時(shí),OLS估計(jì)值的總體方差趨向于無窮大??傮w方差大時(shí),樣本方差也大的概率就大,檢驗(yàn)就會不準(zhǔn)確。盡管多重共線性沒有違背任何經(jīng)典假設(shè),但是OLS方法有時(shí)無法準(zhǔn)確估計(jì)一些參數(shù)。這個(gè)問題可以理解為數(shù)據(jù)提供的信息不足以精確地計(jì)算出某些系數(shù)。最根本的解決方法當(dāng)然是搜集更大的樣本。如果樣本給定,也許我們應(yīng)該修改提出的問題,使我們能夠根據(jù)樣本數(shù)據(jù)做出更精確的判斷。去掉一個(gè)解釋變量,或者合并一些解釋變量可以減少多重共線性。不過要注意的是去掉相關(guān)的解釋變量會使估計(jì)有偏。實(shí)際操作時(shí)使用方差膨脹系數(shù)衡量解釋變量的多重共線性。我們只需在回歸之后使用vif命令就可以得到方差膨脹系數(shù)。在命令行中敲入vif并回車,stata會報(bào)告一個(gè)包含所有解釋變量的方差膨脹系數(shù)的表格,如果方差膨脹系數(shù)大于10,這個(gè)變量潛在地有多重共線性問題。異方差是一個(gè)更值得關(guān)注的問題。首先簡單地介紹一下異方差會帶來哪些問題。第一、異方差不影響OLS估計(jì)的無偏性和一致性。第二、異方差使估計(jì)值方差的估計(jì)有偏,所以此時(shí)的t檢驗(yàn)和置信區(qū)間無效。第三、F統(tǒng)計(jì)量不再服從F分布,LM統(tǒng)計(jì)量不再服從漸進(jìn)卡方分布,相應(yīng)的檢驗(yàn)無效。第四、異方差使OLS不再是有效估計(jì)??傊?,異方差影響推斷是否有效,降低估計(jì)的效率,但對估計(jì)值的無偏性和一致性沒有影響。知道了異方差作用的原理,很自然地就有了對付它的辦法。第一種方法是在不知道是否存在異方差時(shí),通過調(diào)整相應(yīng)的統(tǒng)計(jì)量糾正可能帶來的偏差。OLS中實(shí)現(xiàn)對異方差穩(wěn)健的標(biāo)準(zhǔn)誤很簡便。相應(yīng)的命令是在原來的回歸命令后面加上robust選項(xiàng)。如下:reg(被解釋變量)(解釋變量1)(解釋變量2)……,robustWhite(1980)證明了這種方法得到的標(biāo)準(zhǔn)誤是漸進(jìn)可用(asymptoticallyvalid)的。這種方法的優(yōu)點(diǎn)是簡單,而且需要的信息少,在各種情況下都通用。缺點(diǎn)是損失了一些效率。另一種方法是通過直接或間接的方法估計(jì)異方差的形式,并獲得有效估計(jì)。典型的方法是WLS(加權(quán)最小二乘法)。WLS是GLS(—般最小二乘法)的一種,也可以說在異方差情形下的GLS就是WLS。在WLS下,我們設(shè)定擾動項(xiàng)的條件方差是某個(gè)解釋變量子集的函數(shù)。之所以被稱為加權(quán)最小二乘法,是因?yàn)檫@個(gè)估計(jì)最小化的是殘差的加權(quán)平方和,而上述函數(shù)的倒數(shù)恰為其權(quán)重。在stata中實(shí)現(xiàn)WLS的方法如下:reg(被解釋變量)(解釋變量1)(解釋變量2)……[aweight=變量名]其中,aweight后面的變量就是權(quán)重,是我們設(shè)定的函數(shù)。一種經(jīng)常的設(shè)定是假設(shè)擾動項(xiàng)的條件方差是所有解釋變量的某個(gè)線性組合的指數(shù)函數(shù)。在stata中也可以方便地實(shí)現(xiàn):首先做標(biāo)準(zhǔn)的OLS回歸,并得到殘差項(xiàng);reg(被解釋變量)(解釋變量1)(解釋變量2)……predictr,resid生成新變量logusq,并用它對所有解釋變量做回歸,得到這個(gè)回歸的擬合值,再對這個(gè)擬合值求指數(shù)函數(shù);genlogusq=ln(r人2)reglogusq(解釋變量1)(解釋變量2) predictg,xbgenh=exp(g)最后以h作為權(quán)重做WLS回歸;reg(被解釋變量)(解釋變量1)(解釋變量2)……[aweight=h]如果我們確切地知道擾動項(xiàng)的協(xié)方差矩陣的形式,那么GLS估計(jì)是最小方差線性無偏估計(jì),是所有線性估計(jì)中最好的。顯然它比OLS更有效率。雖然GLS有很多好處,但有一個(gè)致命弱點(diǎn):就是一般而言我們不知道擾動項(xiàng)的協(xié)方差矩陣,因而無法保證結(jié)果的有效性。到現(xiàn)在我們已經(jīng)有了兩種處理異方差的方法:一是使用對異方差穩(wěn)健的標(biāo)準(zhǔn)誤調(diào)整t統(tǒng)計(jì)量,并以此作推斷;另一種是設(shè)定異方差的形式,使用可行的GLS得到有效估計(jì)。下面總結(jié)一下標(biāo)準(zhǔn)的OLS估計(jì)同上述兩種方法的優(yōu)劣,并結(jié)合檢驗(yàn)異方差的方法,給出處理異方差的一般步驟。調(diào)整變量格式:formatx1.3f——將x1的列寬固定為10,小數(shù)點(diǎn)后取三位formatx1.3g——將x1的列寬固定為10,有效數(shù)字取三位formatx1.3e——將x1的列寬固定為10,采用科學(xué)計(jì)數(shù)法formatx1.3fc將x1的列寬固定為10,小數(shù)點(diǎn)后取三位,加入千分位分隔符formatx1.3gc將x1的列寬固定為10,有效數(shù)字取三位,加入千分位分隔符formatx1%-10.3gc——將x1的列寬固定為10,有效數(shù)字取三位,加入千分位分隔符,加入“-〃表示左對齊合并數(shù)據(jù):use"C:\DocumentsandSettings\xks\桌面\2006.dta",clearmergeusing"C:\DocumentsandSettings'xks^面\1999.dta" 將1999和2006的數(shù)據(jù)按照樣本(observation)排列的自然順序合并起來use"C:\DocumentsandSettings\xks\桌面\2006.dta",clearmergeidusing"C:\DocumentsandSettings\xks\桌面\1999.dta",uniquesort 將1999和2006的數(shù)據(jù)按照唯一的(unique)變量id來合并,在合并時(shí)對id進(jìn)行排序(sort)建議采用第一種方法。對樣本進(jìn)行隨機(jī)篩選:sample50在觀測案例中隨機(jī)選取50%的樣本,其余刪除sample50,count在觀測案例中隨機(jī)選取50個(gè)樣本,其余刪除查看與編輯數(shù)據(jù):browsex1x2ifx3>3(按所列變量與條件打開數(shù)據(jù)查看器)editx1x2ifx3>3(按所列變量與條件打開數(shù)據(jù)編輯器)數(shù)據(jù)合并(merge)與擴(kuò)展(append)merge表示樣本量不變,但增加了一些新變量;append表示樣本總量增加了,但變量數(shù)目不變。one-to-onemerge:數(shù)據(jù)源自statatutorial中的exampw1和exampw2第一步:將exampw1按v001~v003這三個(gè)編碼排序,并建立臨時(shí)數(shù)據(jù)庫tempw1clearuse"t:\statatut\exampw1.dta"su summarize的簡寫sortv001v002v003savetempw1第二步:對exampw2做同樣的處理clearuse"t:\statatut\exampw2.dta"susortv001v002v003savetempw2第三步:使用tempw1數(shù)據(jù)庫,將其與tempw2合并:clearusetempw1mergev001v002v003usingtempw2第四步:查看合并后的數(shù)據(jù)狀況:ta_merge tabulate_merge的簡寫su第五步:清理臨時(shí)數(shù)據(jù)庫,并刪除_merge,以免日后合并新變量時(shí)出錯(cuò)erasetempw1.dtaerasetempw2.dtadrop_merge數(shù)據(jù)擴(kuò)展append:數(shù)據(jù)源自statatutorial中的fac19和newfacclearuse"t:\statatut\fac19.dta"taregionappendusing"t:\statatut\newfac"taregion合并后樣本量增加,但變量數(shù)不變莖葉圖:stemx1,line(2)(做x1的莖葉圖,每一個(gè)十分位的樹莖都被拆分成兩段來顯示,前半段為0?4,后半段為5?9)stemx1,width(2)(做x1的莖葉圖,每一個(gè)十分位的樹莖都被拆分成五段來顯示,每個(gè)小樹莖的組距為2)stemx1,round(100)(將x1除以100后再做x1的莖葉圖)直方圖采用auto數(shù)據(jù)庫histogrammpg,discretefrequencynormalxlabel(1(1)5)(discrete表示變量不連續(xù),frequency表示顯示頻數(shù),normal加入正太分布曲線,xlabel設(shè)定x軸,1和5為極端值,(1)為單位)histogramprice,fractionnorm(fraction表示y軸顯示小數(shù),除了frequency和fraction這兩個(gè)選擇之外,該命令可替換為“percent”百分比,和“density”密度;未加上discrete就表示將price當(dāng)作連續(xù)變量來繪圖)histogramprice,percentby(foreign)(按照變量“foreign”的分類,將不同類樣本的“price”繪制出來,兩個(gè)圖分左右排布)histogrammpg,discreteby(foreign,col(1))(按照變量“foreign”的分類,將不同類樣本的“mpg”繪制出來,兩個(gè)圖分上下排布)histogrammpg,discretepercentby(foreign,total)norm(按照變量“foreign”的分類,將不同類樣本的“mpg”繪制出來,同時(shí)繪出樣本整體的''總"直方圖)二變量圖:graphtwowaylfitpriceweight||scatterpriceweight(作出price和weight的回歸線圖 “l(fā)fit",然后與price和weight的散點(diǎn)圖相疊加)twowayscatterpriceweight,mlabel(make)(做price和weight的散點(diǎn)圖,并在每個(gè)點(diǎn)上標(biāo)注“make”,即廠商的取值)twowayscatterpriceweight||lfitpriceweight,by(foreign)(按照變量foreign的分類,分別對不同類樣本的price和weight做散點(diǎn)圖和回歸線圖的疊加,兩圖呈左右分布)twowayscatterpriceweight||lfitpriceweight,by(foreign,col(1))按照變量foreign的分類,分別對不同類樣本的price和weight做散點(diǎn)圖和回歸線圖的疊加,兩圖呈上下分布)twowayscatterpriceweight[fweight=displacement],msymbol(oh)(畫出price和weight的散點(diǎn)圖,“msybol(oh)”表示每個(gè)點(diǎn)均為中空的圓圈,[fweight=displacement]表示每個(gè)點(diǎn)的大小與displacement的取值大小成比例)twowayconnectedy1time,yaxis(l)||y2time,yaxis(2)(畫出y1和y2這兩個(gè)變量的時(shí)間點(diǎn)線圖,并將它們疊加在一個(gè)圖中,左邊'yaxis⑴”為y1的度量,右邊'yaxis⑵”為y2的)twowayliney1time,yaxis(1)||y2time,yaxis(2)(與上圖基本相同,就是沒有點(diǎn),只顯示曲線)graphtwowayscattervarlvar4||scattervar2var4||scattervar3var4(做三個(gè)點(diǎn)圖的疊加)graphtwowaylinevar1var4||linevar2var4||linevar3var4(做三個(gè)線圖的疊加)graphtwowayconnectedvar1var4||connectedvar2var4||connectedvar3var4(疊加三個(gè)點(diǎn)線相連圖)更多變量:graphmatrixabcy(畫出一個(gè)散點(diǎn)圖矩陣,顯示各變量之間所有可能的兩兩相互散點(diǎn)圖)graphmatrixabcd,half生成散點(diǎn)圖矩陣,只顯示下半部分的三角形區(qū)域)用auto數(shù)據(jù)集:graphmatrixpricempgweightlength,halfby(foreign,totalcol(1))(根據(jù)foreign變量的不同類型繪制price等四個(gè)變量的散點(diǎn)圖矩陣,要求繪出總圖,并上下排列】=具)其他圖形:graphboxy,over(x)yline(.22)(對應(yīng)x的每一個(gè)取值構(gòu)建y的箱型圖,并在y軸的0.22處劃一條水平線)graphbar(mean)y,over(x)對應(yīng)x的每一個(gè)取值,顯示y的平均數(shù)的條形圖。括號中的“mean”也可換成median、sum、sd、p25、p75等graphbara1a2,over(b)stack(對應(yīng)在b的每一個(gè)取值,顯示a1和a2的條形圖,a1和a2是疊放成一根條形柱。若不寫入“stack”,則al和a2顯示為兩個(gè)并排的條形柱)graphdot(median)y,over(x)(畫點(diǎn)圖,沿著水平刻度,在x的每一個(gè)取值水平所對應(yīng)的y的中位數(shù)上打點(diǎn))qnormx(畫出一幅分位-正態(tài)標(biāo)繪圖)rcharta1a2a2(畫出質(zhì)量控制R圖,顯示a1到a3的取值范圍)簡單統(tǒng)計(jì)量的計(jì)算:ameansx(計(jì)算變量x的算術(shù)平均值、幾何平均值和簡單調(diào)和平均值,均顯示樣本量和置信區(qū)間)meanvar1[pweight=var2](求取分組數(shù)據(jù)的平均值和標(biāo)準(zhǔn)誤,var1為各組的賦值,var2為每組的頻數(shù))summarizeyxlx2,detail(可以獲得各個(gè)變量的百分比數(shù)、最大最小值、樣本量、平均數(shù)、標(biāo)準(zhǔn)差、方差、峰度、偏度)***注意***stata中summarize所計(jì)算出來的峰度skewness和偏度kurtosis有問題,與ECELL和SPSS有較大差異,建議不采用stata的結(jié)果。summarizevarl[aweight=var2],detail(求取分組數(shù)據(jù)的統(tǒng)計(jì)量,varl為各組的賦值,var2為每組的頻數(shù))tabstatX1,stats(meannqmaxminsdvarcv)(計(jì)算變量Xl的算術(shù)平均值、樣本量、四分位線、最大最小值、標(biāo)準(zhǔn)差、方差和變異系數(shù))概率分布的計(jì)算:(l)貝努利概率分布測試:webusequickbitestquick==0.3,detail(假設(shè)每次得到成功案例T的概率等于0.3,計(jì)算在變量quick所顯示的二項(xiàng)分布情況下,各種累計(jì)概率和單個(gè)概率是多少)bitestil0,3,0.5,detail(計(jì)算當(dāng)每次成功的概率為0.5時(shí),十次抽樣中抽到三次成功案例的概率:低于或高于三次成功的累計(jì)概率和恰好三次成功概率)(2)泊松分布概率:displaypoisson(7,6).4497ll06(計(jì)算均值為7,成功案例小于等于6個(gè)的泊松概率)displaypoisso叩(7,6).l4900278(計(jì)算均值為7,成功案例恰好等于6個(gè)的泊松概率)displaypoissontail(7,6).69929l72(計(jì)算均值為7,成功案例大于等于6個(gè)的泊松概率)(3)超幾何分布概率:displayhypergeometricp(l0,3,4,2).3(計(jì)算在樣本總量為l0,成功案例為3的樣本總體中,不重置地抽取4個(gè)樣本,其中恰好有2個(gè)為成功案例的概率)displayhypergeometric(l0,3,4,2).96666667(計(jì)算在樣本總量為l0,成功案例為3的樣本總體中,不重置地抽取4個(gè)樣本,其中有小于或等于2個(gè)為成功案例的概率)檢驗(yàn)極端值的步驟:常見命令:tabulate、stem、codebook、summarize、list、histogram>graphbox、graghmatrixstepl.用codebook、summarize、histogram>graphboxs、graphmatrix、stem看檢驗(yàn)數(shù)據(jù)的總體情況:codebookyxlx2summarizeyxlx2,detailhistogramx1,norm(正態(tài)直方圖)graphboxx1(箱圖)graphmatrixyx1x2,half(畫出各個(gè)變量的兩兩x-y圖)stemx1(做x1的莖葉圖)可以看出數(shù)據(jù)分布狀況,尤其是最大、最小值step2.用tabulate、list細(xì)致尋找極端值tabulatecodeifx1==極端值(作出x1等于極端值時(shí)code的頻數(shù)分布表,code表示地區(qū)、年份等序列變量,這樣便可找出那些地區(qū)的數(shù)值出現(xiàn)了錯(cuò)誤)listcodeifx1==g端值(直接列出x1等于極端值時(shí)code的值,當(dāng)xl的錯(cuò)誤過多時(shí),不建議使用該命令)listin-20/1(1表示lastone,-20表示倒數(shù)第20個(gè)樣本,該命令列出了從倒數(shù)第20個(gè)到倒數(shù)第一個(gè)樣本的各變量值)step3.用replace命令替換極端值replacex1=?ifx1==極端值去除極端值:keepify<1000dropify>1000對數(shù)據(jù)排序:sortxgsort+x(對數(shù)據(jù)按x進(jìn)行升序排列)gsort-x(對數(shù)據(jù)按x進(jìn)行降序排列)gsort-x,generate(id)mfirst(對數(shù)據(jù)按x進(jìn)行降序排列,缺失值排最前,生成反映位次的變量id)對變量進(jìn)行排序:orderyx3xlx2(將變量按照y、x3、xl、x2的順序排列)生成新變量:genlogx1=log(x1)(得出xl的對數(shù))genx1'=exp(logx1)(將logxl反對數(shù)化)genr61_100=1ifrank>=61&rank<=10(若rank在61與100之間,則新變量r61_100的取值為1,其他為缺失值)replacer61_100ifr61_100!=1(“!二表示不等于,若r61_100取值不為1,則將r61_100替換為0,就是將上式中的缺失值替換為0)genabs(x)(取x的絕對值)genceil(x)(取大于或等于x的最小整數(shù))gentrunc(x)(取x的整數(shù)部分)genround(x)(對x進(jìn)行四舍五入)genround(x,y)(以y為單位,對x進(jìn)行四舍五入)gensqrt(x)(取x的平方根)genmod(x,y)(取x/y的余數(shù))genreldif(x,y)(取x與y的相對差異,即|x-y|/(|y|+1))genlogit(x)(取In[x/(1-x)])genx=autocode(x,n,xmin,xmax)(將x的值域,即xmax-xmin,分為等距的n份)genx=cond(x1>x2,x1,x2)(若x1>x2成立,則取x1,若x1>x2不成立,則取x2)sortxgengx=group(n)(將經(jīng)過排序的變量x分為盡量等規(guī)模的n個(gè)組)egenzx1=std(x1)(得出x1的標(biāo)準(zhǔn)值,就是用(x1-avgx1)/sdx1)egenzx1=std(x1),m(0)s(1)(得出x1的標(biāo)準(zhǔn)分,標(biāo)準(zhǔn)分的平均值為0,標(biāo)準(zhǔn)差為1)egensdx1=sd(x1)(得出x1的標(biāo)準(zhǔn)差)egenmeanx1=mean(x1)(得出x1的平均值)egenmaxx1=max(x1)(最大值)egenminx1=min(x1)(最小值)egenmedx1=med(x1)(中數(shù))egenmodex1=mode(x1)(眾數(shù))egentotalx1=total(x1)(得出x1的總數(shù))egenrowsd=sd(x1x2x3)(得出x1、x2和x3聯(lián)合的標(biāo)準(zhǔn)差)egenrowmean=mean(x1x2x3)(得出x1、x2和x3聯(lián)合的平均值)egenrowmax=max(x1x2x3)(聯(lián)合最大值)egenrowmin=min(x1x2x3)(聯(lián)合最小值)egenrowmed=med(x1x2x3)(聯(lián)合中數(shù))egenrowmode=mode(x1x2x3)(聯(lián)合眾數(shù))egenrowtotal=total(x1x2x3)(聯(lián)合總數(shù))egenxrank=rank(x)(在不改變變量x各個(gè)值排序的情況下,獲得反映x值大小排序的xrank)數(shù)據(jù)計(jì)算器display命令:displayx[12](顯示x的第十二個(gè)觀察值)displaychi2(n,x)(自由度為n的累計(jì)卡方分布)displaychi2tail(n,x)(自由度為n的反向累計(jì)卡方分布,chi2tail(n,x)=1-chi2(n,x))displayinvchi2(n,p)(卡方分布的逆運(yùn)算,若chi2(n,x)=p,那么invchi2(n,p)=x)displayinvchi2tail(n,p)(chi2tail的逆運(yùn)算)displayF(n1,n2,f)(分子、分母自由度分別為n1和n2的累計(jì)F分布)displayFtail(n1,n2,f)(分子、分母自由度分別為n1和n2的反向累計(jì)F分布)displayinvF(n1,n2,P)(F分布的逆運(yùn)算,若F(n1,n2,f)=p,那么invF(n1,n2,p)=f)displayinvFtail(n1,n2,p)(Ftail的逆運(yùn)算)displaytden(n,t)(自由度為n的t分布)displayttail(n,t)(自由度為n的反向累計(jì)t分布)displayinvttail(n,p)(ttail的逆運(yùn)算)給數(shù)據(jù)庫和變量做標(biāo)記:labeldata"~~~"(對現(xiàn)用的數(shù)據(jù)庫做標(biāo)記,"~~~"就是標(biāo)記,可自行填寫)labelvariablex"~~~"(對變量x做標(biāo)記)labelvaluesxlabell(賦予變量x一組標(biāo)簽:labell)labeldefinelabell1"al"2"a2"(定義標(biāo)簽的具體內(nèi)容:當(dāng)x=1時(shí),標(biāo)記為al,當(dāng)x=2時(shí),標(biāo)記為a2)頻數(shù)表:tabulatex1,sorttab1x1-x7,sort(做xl到x7的頻數(shù)表,并按照頻數(shù)以降序顯示行)tablecl,c(nxlmeanxlsdxl)(在分類變量cl的不同水平上列出xl的樣本量和平均值)二維交互表:auto數(shù)據(jù)庫:tablerep78foreign,c(nmpgmeanmpgsdmpgmedianmpg)centerrowcol(rep78,foreign均為分類變量,rep78為行變量,foreign為列變量,center表示結(jié)果顯示在單元格中間,row表示計(jì)算行變量整體的統(tǒng)計(jì)量,col表示計(jì)算列變量整體的統(tǒng)計(jì)量)tabulatexlx2,all(做xl和x2的二維交互表,要求顯示獨(dú)立性檢驗(yàn)chi2、似然比卡方獨(dú)立性檢驗(yàn)lrchi2、對定序變量適用的等級相關(guān)系數(shù)gamma和taub、以及對名義變量適用的V)tabulatexlx2,columnchi2(做xl和x2的二維交互表,要求顯示列百分比和行變量和列變量的獨(dú)立性檢驗(yàn)——零假設(shè)為變量之間獨(dú)立無統(tǒng)計(jì)關(guān)系)tab2x1-x7,allnofreq(對xl到x7這七個(gè)變量兩兩地做二維交互表,不顯示頻數(shù):nofreq)三維交互表:byx3,sort:tabulatexlx2,nofreqcolchi2(同時(shí)進(jìn)行x3的每一個(gè)取值內(nèi)的xl和x2的二維交互表,不顯示頻數(shù)、顯示列百分比和獨(dú)立性檢驗(yàn))四維交互表:tablexlx2x3,c(ferqmeanxlmeanx2meanx3)by(x4)tabstatXlX2,by(X3)stats(meannqmaxminsdvarcv)col(stats)tabstatXlX2,by(X3)stats(meanrangeqsdvarcvp5p95median),[aw=X4](以X4為權(quán)重求Xl、X2的均值,標(biāo)準(zhǔn)差、方差等)ttestX1=1countifX1==0countifX1>=0genX2=1ifX1>=0corrxlx2x3(做xl、x2、x3的相關(guān)系數(shù)表)swilkxlx2x3(用Shapiro-WilkWtest對xl、x2、x3進(jìn)行正太性分析)sktestxlx2x3(對xl、x2、x3進(jìn)行正太性分析,可以求出峰度和偏度)ttestx1=x2(對xl、x2的均值是否相等進(jìn)行T檢驗(yàn))ttestx1,by(x2)unequal(按x2的分組方式對xl進(jìn)行T檢驗(yàn),假設(shè)方差不齊性)sdtestx1=x2(方差齊性檢驗(yàn))sdtestxl,by(x2)(按x2的分組方式對xl進(jìn)行方差齊性檢驗(yàn))聚類分析:clusterkmeansyxlx2x3,k(3)——依據(jù)y、xl、x2、x3,將樣本分為n類,聚類的核為隨機(jī)選取clusterkmeansyxlx2x3,k(3)measure(Ll)start(everykth) "start"用于確定聚類的核,"everykth"表示將通過構(gòu)造三組樣本獲得聚類核:構(gòu)造方法為將樣本id為1、1+3、1+3x2、1+3x3……分為一組、將樣本id為2、2+3、2+3x2、2+3x3……分為第二組,以此類推,將這三組的均值作為聚類的核;"measure"用于計(jì)算相似性和相異性的方法,"L1"表示采用歐式距離的絕對值,也直接可采用歐式距離(L2)和歐式距離的平方(L2squared)。PS:這個(gè)方法所得的結(jié)果與SPSS所得結(jié)果相同。sortclc2(對cl和c2兩個(gè)分類變量排序)byclc2:regyxlx2x3(在cl、c2的各個(gè)水平上分別進(jìn)行回歸)bysortclc2:regyxlx2x3ifc3=1(逗號前面相當(dāng)于將上面兩步驟合一,既排序又回歸,逗號后面的“ifc3=1〃表示只有在c3=1的情況下才進(jìn)行回歸)stepwise,pr(.2):regyxlx2x3(使用Backwardselection,去除P值大于0.2時(shí)變量)stepwise,pe(.2):regyxlx2x3((吏用forwardselection,去除P值小于0.2時(shí)變量)stepwise,pr(.2)pe(.01):regyxlx2x3(使用backward-stepwiseselection,取P值在0.01和0.2之間的變量)stepwise,pe(.2)forward:regyxlx2x3(使用forward-stepwiseselection)regyxlx2x3predictYhat,xbpredictu,residpredictustd,stdr(獲得殘差的標(biāo)準(zhǔn)誤)predictstd,stdp(獲得y估計(jì)值的標(biāo)準(zhǔn)誤)predictstdf,stdf(獲得y預(yù)測值的標(biāo)準(zhǔn)誤)predicte,e(1,12)(獲得y在1到12之間的估計(jì)值)predictp,pr(1,12)(獲得y在1到12之間的概率)predictrstu,rstudent(獲得student的t值)predictlerg,leverage(獲得杠桿值)predictckd,cooksd(獲得cooksd)regyxlx2x3clc2adjustxlx2x3,se(使得變量xl、x2和x3等于其均值,求y的預(yù)測值和標(biāo)準(zhǔn)誤)adjustx1x2x3,stdfci(使得變量xl、x2和x3等于其均值,求y的預(yù)測值,預(yù)測標(biāo)準(zhǔn)誤和置信區(qū)間)adjustxlx2,by(c1)seci(控制變量xl、x2,亦即取它們的均值,在分類變量cl的不同水平上求y預(yù)測值,標(biāo)準(zhǔn)誤和置信區(qū)間)adjustxlx2x3,by(c1)stdfci(控制變量xl、x2、x3,亦即取它們的均值,在分類變量cl的不同水平上求y預(yù)測值,預(yù)測標(biāo)準(zhǔn)誤和置信區(qū)間)adjustxlx2,by(clc2)seci(控制變量xl、x2,在分類變量cl、c2的不同水平上求y的預(yù)測值,標(biāo)準(zhǔn)誤和置信區(qū)間)adjustxlx2x3,by(clc2)stdfci(控制變量xl、x2、x3,在分類變量cl、c2的不同水平上求y的預(yù)測值,預(yù)測標(biāo)準(zhǔn)誤和置信區(qū)間)adjustxl=ax2=bx3=cseci(當(dāng)xl=a、x2=b、x3=c時(shí),求y的預(yù)測值、標(biāo)準(zhǔn)誤和置信區(qū)間)adjustxl=ax2=bx3=gby(cl)seci(當(dāng)xl=a、x2=b、x3=c時(shí),在分類變量cl的不同水平上,求y的預(yù)測值、標(biāo)準(zhǔn)誤和置信區(qū)間)adjustxl=ax2=bcl=l,by(cl)seci(當(dāng)xl=a、x2=b,并假設(shè)所有的樣本均為cl=l,求在分類變量cl的不同水平上,因?yàn)樽兞縳3的均值不同,而導(dǎo)致的y的不同的預(yù)測值 )mvregY1Y2 :XlX2X3 (多元回歸)mvregyly2y3:xlx3x3(多元回歸分析,yly2y3為因變量,xlx3x3為自變量)以下命令只有在進(jìn)行了mvreg之后才能進(jìn)行test[yl](測試對yl的回歸系數(shù)聯(lián)合為0)test[yl]:xlx2(測試對yl的回歸中xl、x2的系數(shù)為0)testxlx2x3(測試在所有的回歸中,xl、x2、x3的系數(shù)均為0)test[y1=y2](對yl的回歸和對y2的回歸系數(shù)相等)test[y1=y2]:xlx2x3,mtest(對yl和y2的回歸中,分別測試xl、x2、x3的系數(shù)是否相等,若沒有mtest這個(gè)命令,則測試他們的聯(lián)和統(tǒng)計(jì))test[y1=y2=y3](三個(gè)回歸的系數(shù)是否相等,可加mtest以分別測試)test[y1=y2=y3]:xlx2(測試三個(gè)回歸中的xl、x2是否相等,可加mtest)est命令的用法:(1)儲存回歸結(jié)果:regyxlx2x3(不限于reg,也可儲存ivreg、mvreg、reg3)eststoreA(2)重現(xiàn)回歸結(jié)果:estreplayA(3)對回歸結(jié)果進(jìn)行進(jìn)一步分析estforA:sum(對A回歸結(jié)果中的各個(gè)變量運(yùn)行sum命令)異方差問題:獲得穩(wěn)健性標(biāo)準(zhǔn)誤regyxlx2x3ifc1==1(當(dāng)分類變量c1=1時(shí),進(jìn)行y和諸x的回歸)regyxlx2x3,robust(回歸后顯示各個(gè)自變量的異方差-穩(wěn)健性標(biāo)準(zhǔn)誤)estatvif(回歸之后獲得VIF)estathettest,mtest(異方差檢驗(yàn))異方差檢驗(yàn)的套路:(1)Breusch-pagan法:regyxlx2x3predictu,residgenusq=u^2regusqxlx2x3求F值displayR/(1-R)*n2/n1(nl表示分子除數(shù),n2表示分母除數(shù))displayFtail(……)求LM值displayR*n(n表示總樣本量)displaychi2tail( )(2)white法:regyxlx2x3predictu,residgenusq=uA2predictygenysq=yA2regusqyysq求F值displayR/(1-R)*n2/n1(nl表示分子除數(shù),n2表示分母除數(shù))displayFtail( )求LM值displayR*n(n表示總樣本量)displaychi2tail(……)(3)必要補(bǔ)充F值和LM值轉(zhuǎn)換為P值的命令:displayFtail(n1,n2,a)(利用F值求p值,nl表示分子除數(shù),n2表示分母除數(shù),a為F值)displaychi2tail(n3,b)(利用LM值求p值,n3表示自由度的損失量,一般等于nl,b為LM值)異方差的糾正 WLS(weightedleastsquareestimator)(1)基本思路:regyxlx2x3[aw=x1](將xl作為異方差的來源,對方程進(jìn)行修正)上式相當(dāng)于:regy/(x1人0.5)1/(x1人0.5)x1/(x1人0.5)x2/(x1人0.5)x3/(x1人0.5),noconstant(2)糾正異方差的常用套路(構(gòu)造h值)regyxlx2x3predictu,residgenusq=u^2genlogusq=log(usq)reglogusqxlx2x3predictggenh=exp(g)regyxlx2x3[aw=1/h屏方差hausman檢驗(yàn):regyxlx2x3eststoreA(將上述回歸結(jié)果儲存到A中)regyxlx2x3[aw=1/h]eststoreBhausmanAB當(dāng)因變量為對數(shù)形式時(shí)(log(y))如何預(yù)測yreglogyxlx2x3predictkgenm=exp(k)regym,noconstantm的系數(shù)為iy的預(yù)測值=ixexp(k)方差分析:一元方差分析anovayg1/g1|g2/(g*表示不同分類變量,計(jì)算g1和交互項(xiàng)/g1|g2/這兩種分類的y值是否存在組內(nèi)差異)anovaydid2dl*d2(d*表示虛擬變量,計(jì)算dl、d2和d1*d2的這三種分類的y值是否有組內(nèi)差異)anovaydld2xld2*x1,continuous(xl)(x*表示連續(xù)的控制變量)多元方差分析webusejawmanovayly2y3=genderfracturegender*fracture(按性別、是否骨折及二者的交互項(xiàng)對yl、y2和y3進(jìn)行方差分析)manovayl=genderfracturegender*fracture(相當(dāng)于一元方差分析,以yl為因變量) webusenobetweengenmycons=lmanovatestltest2test3=mycons,noconstantmatc=(1,0,-1\0,1,-1)manovatestmycons,ytransform(c)進(jìn)行多元回歸的方法:多元回歸分析:(與mvreg相同)foreachvnameinyly2y3{(確定y變量組vname)reg'vname'xlx2x3(將y變量組中的各個(gè)變量與諸x變量進(jìn)行回歸分析,注意vname的標(biāo)點(diǎn)符號)}上式等價(jià)于:mvregyly2y3=xlx2x3reg3命令:(l)簡單用法:reg3(yl=xlx2x3)(y2=xlx3x4)(y3=xlx2x5)測試ylcoefs=Otest[yl]測試不同回歸中相同變量的系數(shù):test[yl=y2=y3],commontest([yl=y2])([yl=y3]),commonconstant(constant表示包含截距項(xiàng))(2)用reg3進(jìn)行2SLSreg3(yl=y2xlx2)(y2=ylx4),2sls(2)用reg3進(jìn)行OLSreg3(yl=y2xlx2)(y2=ylx4),ols對兩個(gè)回歸結(jié)果進(jìn)行hausman檢驗(yàn):reg3(yl=xlx2x3)(y2=ylx4),2slseststoretwoslsreg3(yl=xlx2x3)(y2=ylx4),olseststoreolshausmantwoslsols,equations(l:l)(對兩次回歸中的方程l,即“yl=xlx2x3”進(jìn)行hausman檢驗(yàn))hausmantwoslsols,equations(2:2)(對兩次回歸中的方程2,即“y2=ylx4”進(jìn)行hausman檢驗(yàn))hausmantwoslsols,alleqs(對所有方程一起進(jìn)行檢驗(yàn))檢驗(yàn)忽略變量(模型的RESET):regyxlx2x3estatovtest滯后變量的制取對變量y滯后一期:geny_ll=y[_n-l]滯后兩期:geny」2=y[_n-2]以此類推。制取樣本序號:genid=_n獲得樣本總量:genid=_N時(shí)間序列回歸:回歸元嚴(yán)格外生時(shí)AR⑴序列相關(guān)的檢驗(yàn)regyxlx2predictu,residgenu_l=u[_n-l]reguu_l,noconstant回歸之后,u_l的序數(shù)如果不異于零,則該序列不相關(guān)用Durbin-WatsonStatistics檢驗(yàn)序列相關(guān):tssetyear@(對時(shí)間序列回歸中代表時(shí)間的變量進(jìn)行定義)@regyxlx2dwstat@(求出時(shí)間序列回歸的DW值)@durbina@(對該回歸是否具有序列相關(guān)進(jìn)行檢驗(yàn),H0為無序列相關(guān),可根據(jù)chi2值求出P值)@durbina,s
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度重型壓路機(jī)買賣及維修保養(yǎng)合同3篇
- 2025年度企業(yè)自駕游租車合同二零二五年度專用4篇
- 2025年度個(gè)人智能健康監(jiān)測技術(shù)入股協(xié)議4篇
- 2025年個(gè)人住宅防水保溫一體化合同范本4篇
- 開店策劃指導(dǎo)的合同(2篇)
- 民營醫(yī)療服務(wù):穩(wěn)中求進(jìn)關(guān)注老齡化+供需錯(cuò)配格局下的投資機(jī)會
- 二零二五版門窗行業(yè)綠色物流與倉儲服務(wù)合同4篇
- 網(wǎng)架鋼結(jié)構(gòu)施工方案
- 二零二五版智能門牌系統(tǒng)與物聯(lián)網(wǎng)技術(shù)合同4篇
- 公路預(yù)埋管線施工方案
- 2025年度版權(quán)授權(quán)協(xié)議:游戲角色形象設(shè)計(jì)與授權(quán)使用3篇
- 2024年08月云南省農(nóng)村信用社秋季校園招考750名工作人員筆試歷年參考題庫附帶答案詳解
- 防詐騙安全知識培訓(xùn)課件
- 心肺復(fù)蘇課件2024
- 2024年股東股權(quán)繼承轉(zhuǎn)讓協(xié)議3篇
- 2024-2025學(xué)年江蘇省南京市高二上冊期末數(shù)學(xué)檢測試卷(含解析)
- 四川省名校2025屆高三第二次模擬考試英語試卷含解析
- 《城鎮(zhèn)燃?xì)忸I(lǐng)域重大隱患判定指導(dǎo)手冊》專題培訓(xùn)
- 湖南財(cái)政經(jīng)濟(jì)學(xué)院專升本管理學(xué)真題
- 考研有機(jī)化學(xué)重點(diǎn)
- 全國身份證前六位、區(qū)號、郵編-編碼大全
評論
0/150
提交評論