stata基礎(chǔ)教程和基本操作編程及解釋_第1頁
stata基礎(chǔ)教程和基本操作編程及解釋_第2頁
stata基礎(chǔ)教程和基本操作編程及解釋_第3頁
stata基礎(chǔ)教程和基本操作編程及解釋_第4頁
stata基礎(chǔ)教程和基本操作編程及解釋_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、Sa 編程及解釋調(diào)整變量格式:format x1 %10.3f 將x1 的列寬固定為 10,小數(shù)點后取三位 format x1 %10.3g 將x1 的列寬固定為 10,有效數(shù)字取三位 format x1 %10.3e 將x1 的列寬固定為 10,采用科學(xué)format x1 %10.3fc 將x1 的列寬固定為 10,小數(shù)點后取三位,加入千分位分隔符format x1 %10.3gc 將x1 的列寬固定為 10,有效數(shù)字取三位,加入千分位分隔符format x1 %-10.3gc 將x1 的列寬固定為 10,有效數(shù)字取三位,加入千分位分隔符,加入“-”表示左對齊合并數(shù)據(jù):use C:merge

2、 using C:s and Settingsxks桌面2006.dta, clears and Settingsxks桌面1999.dta將 1999 和 2006 的數(shù)據(jù)按照樣本(observation)排列的自然順序合并起來use C:s and Settingsxks桌面2006.dta, clearmerge id using C:s and Settingsxks桌面1999.dta ,unique sort將 1999 和 2006 的數(shù)據(jù)按照唯一的(unique)變量 id 來合并,在合并時對 id進行排序(sort)建議采用第法。對樣本進行隨機篩選:sle 50在觀測案例中隨

3、機選取 50%的樣本,其余刪除sle 50,count在觀測案例中隨機選取 50 個樣本,其余刪除查看與編輯數(shù)據(jù):browse x1 x2 if x33 (按所列變量與條件打開數(shù)據(jù)查看器) edit x1 x2 if x33 (按所列變量與條件打開數(shù)據(jù)編輯器) 數(shù)據(jù)合并(merge)與擴展(append)merge 表示樣本量不變,但增加了一些新變量;append 表示樣本總量增加了,但變量數(shù)目不變。one-to-one merge:數(shù)據(jù)源自sa tutorial 中的 exw1 和exw2第一步:將 exw1 按v001v003 這三個編碼排序,并建立臨時數(shù)據(jù)庫 tempw1 clearus

4、e t:satutexw1.dtasu summarize 的簡寫sort v001 v002 v003 save tempw1第二步:對 exw2 做同樣的處理clearuse t:satutex susort v001 v002 v003w2.dtasave tempw2第三步:使用tempw1 數(shù)據(jù)庫,將其與tempw2 合并:clearuse tempw1merge v001 v002 v003 using tempw2第四步:查看合并后的數(shù)據(jù)狀況: ta _merge tabulate _merge 的簡寫 su第五步:臨時數(shù)據(jù)庫,并刪除_merge,以免日后合并新變量時出錯eras

5、e tempw1.dta erase tempw2.dta drop _merge數(shù)據(jù)擴展append:數(shù)據(jù)源自sa tutorial 中的fac19 和newfac clearuse t:satutfac19.dta ta regionappend using t:satutnewfac ta region合并后樣本量增加,但變量數(shù)不變莖:stem x1,line(2) (做x1 的莖,每一個十分位的樹莖都被拆分成兩段來顯示,前半段為 04,后半段為 59)stem x1,width(2)(做x1 的莖每個小樹莖的組距為 2)stem x1,round(100) (將x1 除以 100 后再

6、做x1 的莖直方圖采用auto 數(shù)據(jù)庫histogram mpg, discrete frequency normal xlabel(1(1)5),每一個十分位的樹莖都被拆分成五段來顯示,)(discrete 表示變量不連續(xù),frequency 表示顯示頻數(shù),normal 加入正太分布曲線,xlabel 設(shè)定 x 軸,1 和 5 為值,(1)為)histogrrice, fraction norm(fraction 表示 y 軸顯示小數(shù),除了 frequency 和 fraction 這兩個選擇之外,該命令可替換為“percent”百分比,和“density”密度;未加上 discrete 就

7、表示將price 當(dāng)作連續(xù)變量來繪圖)histogrrice, percent by(foreign)(按照變量“foreign”的分類,將不同類樣本的“price”繪制出來,兩個圖分左右排布)histogram mpg, discrete by(foreign, col(1)(按照變量“foreign”的分類,將不同類樣本的“mpg”繪制出來,兩個圖分上下排布)histogram mpg, discrete percent by(foreign, total) norm(按照變量“foreign”的分類,將不同類樣本的“mpg”繪制出來,同時繪出樣本整體的“總”直方圖)二變量圖:graph

8、twoway lfit price weight | scattrice weight(作出 price 和 weight 的回歸線圖“l(fā)fit”,然后與 price 和 weight 的散點圖相疊加)twoway scattrice weight,mlabel(make)(做price 和weight 的散點圖,并在每個點上標(biāo)注“make”,即廠商的取值)twoway scattrice weight | lfit price weight,by(foreign)(按照變量foreign 的分類,分別對不同類樣本的 price 和weight 做散點圖和回歸線圖的疊加,兩圖呈左右分布)two

9、way scattrice weight | lfit price weight,by(foreign,col(1)(按照變量foreign 的分類,分別對不同類樣本的 price 和weight 做散點圖和回歸線圖的疊加,兩圖呈上下分布)twoway scattrice weight fweight= displacement,msymbol(oh)(畫出 price 和 weight 的散點圖,“msybol(oh)”表示每個點均為中空的圓圈, fweight= displacement表示每個點的大小與displacement 的取值大小成比例) twoway connected y1

10、time,yaxis(1) | y2 time,yaxis(2)(畫出 y1 和 y2 這兩個變量的時間點線圖,并將它們疊加在一個圖中,左邊“yaxis(1)”為y1 的度量,右邊“yaxis(2)”為y2 的)twoway line y1 time,yaxis(1) | y2 time,yaxis(2)(與上圖基本相同,就是沒有點,只顯示曲線)graph twoway scatter var1 var4 | scatter var2 var4 | scatter var3 var4(做三個點圖的疊加)graph twoway line var1 var4 | line var2 var4 |

11、 line var3 var4(做三個線圖的疊加)graph twoway connected var1 var4 | connected var2 var4 | connected var3 var4(疊加三個點線相連圖)變量:graph matrix a b c y(畫出一個散點圖矩陣,顯示各變量之間所有可能的兩兩相互散點圖)graph matrix a b c d,half(生成散點圖矩陣,只顯示下半部分的三角形區(qū)域)用auto 數(shù)據(jù)集:graph matrix price mpg weight length,half by( foreign,total col(1) )(根據(jù)forei

12、gn 變量的不同類型繪制price 等四個變量的散點圖矩陣,要求繪出總圖,并上下排列】=具)其他圖形:graph box y,over(x) yline(.22)(對應(yīng)x 的每一個取值構(gòu)建 y 的箱型圖,并在 y 軸的 0.22 處劃一條水平線)graph bar (mean) y,over(x)對應(yīng) x 的每一個取值,顯示 y 的平均數(shù)的條形圖。括號中的“mean”也可換成median、sum、sd、p25、p75 等graph bar a1 a2,over(b) stack(對應(yīng)在 b 的每一個取值,顯示 a1 和 a2 的條形圖,a1 和 a2 是疊放成一根條形柱。若不寫入“stack”

13、,則 a1 和 a2 顯示為兩個并排的條形柱)graph dot (median)y,over(x)(畫點圖,沿著水平刻度,在x 的每一個取值水平所對應(yīng)的y 的中位數(shù)上打點)qnorm x(畫出一幅分位-正態(tài)標(biāo)繪圖)rchart a1 a2 a2(畫出質(zhì)量控制R 圖,顯示 a1 到a3 的取值范圍)簡單統(tǒng)計量的計算:ameans x(計算變量x 的算術(shù)平均值、幾何平均值和簡單調(diào)和平均值,均顯示樣本量和置信區(qū)間)mean var1 pweight = var2(求取分組數(shù)據(jù)的平均值和標(biāo)準(zhǔn)誤,var1 為各組的賦值,var2 為每組的頻數(shù))summarize y x1 x2,detail(可以獲得

14、各個變量的百分比數(shù)、最大最小值、樣本量、平均數(shù)、標(biāo)準(zhǔn)差、方差、峰度、偏度)*注意*sa 中summarize 所計算出來的峰度skewness 和偏度kurtosis 有問題,與 ECELL和SPSS 有較大差異,建議不采用s summarize var1 aweight = var2, detaila 的結(jié)果。(求取分組數(shù)據(jù)的統(tǒng)計量,var1 為各組的賦值,var2 為每組的頻數(shù))tabsX1,ss(mean n q max min sd var cv)(計算變量 X1 的算術(shù)平均值、樣本量、四分位線、最大最小值、標(biāo)準(zhǔn)差、方差和變異系數(shù))概率分布的計算:(1)webuse quickbite

15、st quick=0.3,detail(假設(shè)每次得到成功案例1的概率等于 0.3,計算在變量 quick 所顯示的二項分布情況下,各種累計概率和單個概率是多少)bitesti 10,3,0.5,detail(計算當(dāng)每次成功的概率為 0.5 時,十次抽樣中抽到三次成功案例的概率:低于或高于三次成功的累計概率和恰好三次成功概率)(2)泊松分布概率:display poisson(7,6).44971106(計算均值為 7,成功案例小于等于 6 個的泊松概率)display poissonp(7,6).14900278(計算均值為 7,成功案例恰好等于 6 個的泊松概率)display poisso

16、ntail(7,6).69929172(計算均值為 7,成功案例大于等于 6 個的泊松概率)概率分布測試:(3)超幾何分布概率:display hypergeometricp(10,3,4,2).3(計算在樣本總量為 10,成功案例為 3 的樣本總體中,不重其中恰好有 2 個為成功案例的概率)display hypergeometric(10,3,4,2).96666667(計算在樣本總量為 10,成功案例為 3 的樣本總體中,不重其中有小于或等于 2 個為成功案例的概率)抽取 4 個樣本,抽取 4 個樣本,檢驗值的步驟:常見命令:tabulate、stem、codebook、summariz

17、e、list、histogram、graph box、 gragh matrixstep1.用codebook、summarize、histogram、graph boxs、graph matrix、stem 看檢驗數(shù)據(jù)的總體情況:codebook y x1 x2 summarize y x1 x2,detailhistogram x1,norm(正態(tài)直方圖)graph box x1(箱圖)graph matrix y x1 x2,half(畫出各個變量的兩兩x-y 圖)stem x1(做x1 的莖)可以看出數(shù)據(jù)分布狀況,尤其是最大、最小值step2.用tabulaist 細(xì)致尋找值tabul

18、ate code if x1=值(作出x1 等于值時code 的頻數(shù)分布表,code 表示地區(qū)、年份等序列變量,這樣便可找出那些地區(qū)的數(shù)值出現(xiàn)了錯誤)list code if x1=值(直接列出 x1 等于值時code 的值,當(dāng) x1 的錯誤過多時,不建議使用該命令)list in -20/l(l 表示last one,-20 表示倒數(shù)第 20 個樣本,該命令列出了從倒數(shù)第20 個到倒數(shù)第一個樣本的各變量值)step3.用replace 命令替換值replace x1=? if x1=去除值:值kef y1000對數(shù)據(jù)排序: sort xgsort +x(對數(shù)據(jù)按x 進行升序排列)gsort

19、-x(對數(shù)據(jù)按x 進行降序排列)gsort -x, generate(id) m(對數(shù)據(jù)按x 進行降序排列,缺失值排最前,生成反映位次的變量id)對變量進行排序:order y x3 x1 x2(將變量按照y、x3、x1、x2 的順序排列)生成新變量:gen logx1=log(x1)(得出x1 的對數(shù))gen x1=exp(logx1)(將logx1數(shù)化)=61&r在 61 與 100 之間,則新變量r61_100 的取值為 1,其他為缺失值)replace r61_100 if r61_100!=1(“!=”表示不等于,若 r61_100 取值不為 1,則將 r61_100 替換為 0,就

20、是將上式中的缺失值替換為 0)gen abs(x)(取x 的絕對值)gen ceil(x)(取大于或等于x 的最小整數(shù))gen trunc(x)(取x 的整數(shù)部分)gen round(x)(對x 進行四舍五入)gen round(x,y)(以y 為,對x 進行四舍五入)gen sqrt(x)(取x 的平方根)gen mod(x,y)(取x/y 的余數(shù))gen reldif(x,y)(取x 與y 的相對差異,即|x-y|/(|y|+1))gen logit(x)(取lnx/(1-x))gen x=autocode(x,n,xmin,xmax)(將x 的值域,即xmax-xmin,分為等距的 n

21、份) gen x=cond(x1x2,x1,x2)(若x1x2 成立,則取x1,若x1x2 不成立,則取x2) sort xgen gx=group(n)(將經(jīng)過排序的變量x 分為盡量等規(guī)模的n 個組)egen zx1=std(x1)(得出x1 的標(biāo)準(zhǔn)值,就是用(x1-avgx1)/sdx1)egen zx1=std(x1),m(0) s(1() 得出x1 的標(biāo)準(zhǔn)分,標(biāo)準(zhǔn)分的平均值為 0,標(biāo)準(zhǔn)差為 1) egen sdx1=sd(x1)(得出x1 的標(biāo)準(zhǔn)差)egen meanx1=mean(x1)(得出x1 的平均值)egen maxx1=max(x1)(最大值) egen minx1=min

22、(x1)(最小值) egen medx1=med(x1)(中數(shù)) egen modex1=mode(x1)(眾數(shù))egen totalx1=total(x1)(得出x1 的總數(shù))egen rowsd=sd(x1 x2 x3)(得出x1、x2 和x3 聯(lián)合的標(biāo)準(zhǔn)差)egen rowmean=mean(x1 x2 x3)(得出x1、x2 和x3 聯(lián)合的平均值)egen rowmax=max(x1 x2 x3)(聯(lián)合最大值)egen rowmin(x1 x2 x3)(聯(lián)合最小值)egen rowmed=med(x1 x2 x3)(聯(lián)合中數(shù)) egen rowmode=mode(x1 x2 x3) (

23、聯(lián)合眾數(shù)) egen rowtotal=total(x1 x2 x3)(聯(lián)合總數(shù))egen xr序的xr=r)(x)(在不改變變量 x 各個值排序的情況下,獲得反映 x 值大小排數(shù)據(jù)計算器display 命令:display x12(顯示x 的第十二個觀察值)display chi2(n,x)(度為n 的累計卡方分布)display chi2tail(n,x)(度為n 的反向累計卡方分布,chi2tail(n,x)=1-chi2(n,x))display invchi2(n,p)(卡方分布的逆運算,若chi2(n,x)=p,那么invchi2(n,p)=x) display invchi2ta

24、il(n,p)(chi2tail 的逆運算)display F(n1,n2,f)(分子、分母度分別為 n1 和n2 的累計F 分布)display Ftail(n1,n2,f)(分子、分母度分別為n1 和n2 的反向累計 F 分布)display invF(n1,n2,P)(F 分布的逆運算,若F(n1,n2,f)=p,那么invF(n1,n2,p)=f) display invFtail(n1,n2,p)(Ftail 的逆運算)display tden(n,t)( display ttail(n,t)(度為n 的t 分布)度為n 的反向累計t 分布)display invttail(n,p)

25、(ttail 的逆運算)給數(shù)據(jù)庫和變量做標(biāo)記:label data (對現(xiàn)用的數(shù)據(jù)庫做標(biāo)記,就是標(biāo)記,可自行填寫) label variable x (對變量 x 做標(biāo)記)label values x label1(賦予變量x 一組 label define label1 1 a1 2 a2(定義當(dāng)x=2 時,標(biāo)記為 a2)頻數(shù)表:tabulate x1,sort:label1)的具體內(nèi)容:當(dāng)x=1 時,標(biāo)記為 a1,tab1 x1-x7,sort(做x1 到x7 的頻數(shù)表,并按照頻數(shù)以降序顯示行)table c1,c(n x1 mean x1 sd x1)(在分類變量 c1 的不同水平上列出

26、x1 的樣本量和平均值)二維交互表:auto 數(shù)據(jù)庫:table rep78 foreign, c(n mpg mean mpg sd mpg median mpg) center row col(rep78,foreign 均為分類變量,rep78 為行變量,foreign 為列變量,center 表示結(jié)果顯示在單元格中間,row 表示計算行變量整體的統(tǒng)計量,col 表示計算列變量整體的統(tǒng)計量)tabulate x1 x2,all(做x1 和x2 的二維交互表,要求顯示獨立性檢驗 chi2、似然比卡方獨立性檢驗 lrchi2、對定序變量適用的等級相關(guān)系數(shù)gamma 和taub、以及對名義變量

27、適用的 V)tabulate x1 x2,column chi2(做 x1 和x2 的二維交互表,要求顯示列百分比和行變量和列變量的獨立性檢驗零假設(shè)為變量之間獨立無統(tǒng)計關(guān)系)tab2 x1-x7,all nofreq(對 x1 到x7 這七個變量兩兩地做二維交互表,不顯示頻數(shù):nofreq)三維交互表:by x3,sort:tabulate x1 x2,nofreq col chi2(同時進行x3 的每一個取值內(nèi)的x1 和x2的二維交互表,不顯示頻數(shù)、顯示列百分比和獨立性檢驗)交互表:table x1 x2 x3,c(ferq mean x1 mean x2 mean x3) by(x4)ta

28、bs tabsX1 X2,by(X3) ss(mean n q max min sd var cv) col(ss)X1 X2,by(X3) ss(mean range q sd var cv p5 p95 median),aw=X4(以 X4為權(quán)重求 X1、X2 的均值,標(biāo)準(zhǔn)差、方差等)ttest X1=1 count if X1=0count if X1=0gen X2=1 if X1=0corr x1 x2 x3(做x1、x2、x3 的相關(guān)系數(shù)表)swilk x1 x2 x3(用Shapiro-Wilk W test 對x1、x2、x3 進行正太性分析) sktest x1 x2 x3(

29、對x1、x2、x3 進行正太性分析,可以求出峰度和偏度) ttest x1=x2(對x1、x2 的均值是否相等進行T 檢驗)ttest x1,by(x2) unequal(按x2 的分組方式對x1 進行T 檢驗,假設(shè)方差不齊性)sdtest x1=x2(方差齊性檢驗)sdtest x1,by(x2)(按x2 的分組方式對x1 進行方差齊性檢驗)聚類分析:cluster kmeans y x1 x2 x3, k(3)依據(jù)y、x1、x2、x3,將樣本分為n 類,聚類的核為隨機選取cluster kmeans y x1 x2 x3, k(3) measure(L1) start(everykth)

30、start用于確定聚類的核,everykth表示將通過構(gòu)造三組樣本獲得聚類核:構(gòu)造方法為將樣本id 為 1、1+3、1+32、 1+33分為一組、將樣本 id 為 2、 2+3、2+32、2+33分為第二組,以此類推,將這三組的均值作為聚類的核; measure用 于計算相似性和相異性的方法,L1表示采用歐式距離的絕對值,也直接可采用歐式距離(L2)和歐式距離的平方(L2squared)。PS:這個方法 所得的結(jié)果與SPSS 所得結(jié)果相同。sort c1 c2(對 c1 和c2 兩個分類變量排序)by c1 c2:reg y x1 x2 x3(在 c1、c2 的各個水平上分別進行回歸)byso

31、rt c1 c2:reg y x1 x2 x3 if c3=1(逗號前面相當(dāng)于將上面兩步驟合一,既排序又回歸,逗號后面的“if c3=1”表示只有在 c3=1 的情況下才進行回歸)stepwise, pr(.2): reg y x1 x2 x3(使用Backward selection,去除 P 值大于 0.2 時變量) stepwise, pe(.2): reg y x1 x2 x3(使用forward selection,去除P 值小于 0.2 時變量) stepwise, pr(.2) pe(.01):reg y x1 x2 x3(使用backward-stepwise selectio

32、n,取P 值在 0.01 和 0.2 之間的變量)stepwise, pe(.2) forward: reg y x1 x2 x3(使用forward-stepwise selection) reg y x1 x2 x3predict Yhat,xb predict u,residpredict ustd,stdr(獲得殘差的標(biāo)準(zhǔn)誤)predict std,stdp(獲得y 估計值的標(biāo)準(zhǔn)誤)predict stdf,stdf(獲得y值的標(biāo)準(zhǔn)誤)predict e,e(1,12)(獲得y 在 1 到 12 之間的估計值) predict p,pr(1,12)(獲得y 在 1 到 12 之間的概率

33、) predict rstu,rstudent(獲得student 的t 值)predict lerg,leverage(獲得杠桿值) predict ckd,cooksd(獲得cooksd) reg y x1 x2 x3 c1 c2adjust x1 x2 x3,se(使得變量 x1、x2 和x3 等于其均值,求 y 的值和標(biāo)準(zhǔn)誤)adjust x1 x2 x3,stdf ci(使得變量x1、x2 和x3 等于其均值,求y 的值,預(yù)測標(biāo)準(zhǔn)誤和置信區(qū)間)adjust x1 x2,by(c1) se ci(控制變量x1、x2,亦即取它們的均值,在分類變量 c1的不同水平上求y值,標(biāo)準(zhǔn)誤和置信區(qū)間

34、)adjust x1 x2 x3,by(c1) stdf ci(控制變量x1、x2、x3,亦即取它們的均值,在分類變量 c1 的不同水平上求y值,標(biāo)準(zhǔn)誤和置信區(qū)間)adjust x1 x2,by(c1 c2) se ci(控制變量x1、x2,在分類變量 c1、c2 的不同水平上求y 的值,標(biāo)準(zhǔn)誤和置信區(qū)間)adjust x1 x2 x3,by(c1 c2) stdf ci(控制變量x1、x2、x3,在分類變量 c1、c2 的不同水平上求y 的值,標(biāo)準(zhǔn)誤和置信區(qū)間)adjust x1=a x2=b x3=c,se ci(當(dāng) x1=a、x2=b、x3=c 時,求 y 的和置信區(qū)間)值、標(biāo)準(zhǔn)誤adj

35、ust x1=a x2=b x3=c,by(c1) se ci(當(dāng) x1=a、x2=b、x3=c 時,在分類變量 c1 的不同水平上,求y 的值、標(biāo)準(zhǔn)誤和置信區(qū)間)adjust x1=a x2=b c1=1,by(c1) se c(i 當(dāng)x1=a、x2=b,并假設(shè)所有的樣本均為 c1=1,求在分類變量 c1 的不同水平上,因為變量 x3 的均值不同,而導(dǎo)致的 y 的不同的值)mvreg Y1 Y2 : X1 X2 X3(多元回歸)mvreg y1 y2 y3: x1 x3 x3(多元回歸分析,y1 y2 y3 為因變量,x1 x3 x3 為自變量)以下命令只有在進行了mvreg 之后才能進行t

36、est y1(測試對y1 的回歸系數(shù)聯(lián)合為 0)test y1: x1 x2(測試對y1 的回歸中x1、x2 的系數(shù)為 0)test x1 x2 x3(測試在所有的回歸中,x1、x2、x3 的系數(shù)均為 0) test y1=y2(對y1 的回歸和對y2 的回歸系數(shù)相等)test y1=y2: x1 x2 x3, mtest(對 y1 和y2 的回歸中,分別測試 x1、x2、x3 的系數(shù)是否相等,若沒有mtest 這個命令,則測試他們的聯(lián)和統(tǒng)計)test y1=y2=y3(三個回歸的系數(shù)是否相等,可加mtest 以分別測試)test y1=y2=y3: x1 x2 (測試三個回歸中的x1、x2

37、是否相等,可加mtest) est 命令的用法:(1)回歸結(jié)果:reg y x1 x2 x3(不限于reg,也可 est store A重現(xiàn)回歸結(jié)果:est replay A對回歸結(jié)果進行進一步分析ivreg、mvreg、reg3)est for A:sum(對 A 回歸結(jié)果中的各個變量運行 sum 命令)異方差問題:獲得穩(wěn)健性標(biāo)準(zhǔn)誤reg y x1 x2 x3 if c1=1(當(dāng)分類變量 c1=1 時,進行y 和諸 x 的回歸)reg y x1 x2 x3,robust(回歸后顯示各個自變量的異方差-穩(wěn)健性標(biāo)準(zhǔn)誤)es esvif(回歸之后獲得 VIF) hettest,mtest(異方差檢

38、驗)異方差檢驗的套路:(1)Breusch-pagan 法:reg y x1 x2 x3predict u,resid gen usq=u2reg usq x1 x2 x3求F 值display R/(1-R)*n2/n1(n1 表示分子除數(shù),n2 表示分母除數(shù))display Ftail()求LM 值display R*n(n 表示總樣本量)display chi2tail()white 法: reg y x1 x2 x3 predict u,resid gen usq=u2 predict ygen ysq=y2 reg usq y ysq求F 值display R/(1-R)*n2/n1

39、(n1 表示分子除數(shù),n2 表示分母除數(shù))display Ftail()求LM 值display R*n(n 表示總樣本量)display chi2tail()必要補充F 值和LM 值轉(zhuǎn)換為P 值令:display Ftail(n1,n2,a)(利用F 值求p 值,n1 表示分子除數(shù),n2 表示分母除數(shù),a為F 值)display chi2tail(n3,b() 利用 LM 值求p 值,n3 表示b 為 LM 值)度的損失量,一般等于 n1,異方差的糾正WLS(weighted least square estimator)基本思路:reg y x1 x2 x3 aw=x1(將 x1 作為異方

40、差的來源,對方程進行修正)上式相當(dāng)于:reg y/(x10.5) 1/(x10.5) x1/(x10.5) x2/(x10.5) x3/(x10.5),noconstant糾正異方差的常用套路(構(gòu)造h 值)reg y x1 x2 x3 predict u,resid gen usq=u2gen logusq=log(usq) reg logusq x1 x2 x3 predict ggen h=exp(g)reg y x1 x2 x3 aw=1/h異方差hausman 檢驗: reg y x1 x2 x3est store A(將上述回歸結(jié)果 reg y x1 x2 x3 aw=1/hest

41、store B hausman A B到A 中)當(dāng)因變量為對數(shù)形式時(log(y))如何reg logy x1 x2 x3 predict kgen m=exp(k)reg y m,noconstant m 的系數(shù)為iyy 的值=iexp(k)方差分析: 一元方差分析anova y g1 / g1|g2 /(g*表示不同分類變量,計算g1 和交互項/ g1|g2 /這兩種分類的y 值是否存在組內(nèi)差異)anova y d1 d2 d1*d2(d*表示虛擬變量,計算d1、d2 和d1*d2 的這三種分類的y值是否有組內(nèi)差異)anova y d1 d2 x1 d2*x1, continuous(x1

42、)(x*表示連續(xù)的控制變量)多元方差分析webuse jawmanova y1 y2 y3 = gender fracture gender*fracture(按互項對y1、y2 和y3 進行方差分析)manova y1 = gender fracture gender*fracture(相當(dāng)于一元方差分析,以y1 為因變量)webuse nobetn gen mycons = 1manova test1 test2 test3 = mycons, noconstant mat c = (1,0,-1 0,1,-1)manovatest mycons, ytransform(c)進行多元回歸的

43、方法:多元回歸分析:(與 mvreg 相同)foreach vname in y1 y2 y3 (確定y 變量組vname)reg vname x1 x2 x3 (將y 變量組中的各個變量與諸x 變量進行回歸分析,注意vname 的標(biāo)點符號)上式等價于:mvreg y1 y2 y3 = x1 x2 x3、是否骨折及二者的交reg3 命令:(1)簡單用法:reg3 (y1 = x1 x2 x3) (y2 = x1 x3 x4) (y3 = x1 x2 x5)測試y1 coefs = 0test y1測試不同回歸中相同變量的系數(shù):test y1=y2=y3, commontest (y1=y2)

44、(y1=y3), common constant(constant 表示包含截距項)(2)用reg3 進行 2SLSreg3 (y1 = y2 x1 x2) (y2 = y1 x4),2sls(2)用reg3 進行OLSreg3 (y1 = y2 x1 x2) (y2 = y1 x4),ols 對兩個回歸結(jié)果進行hausman 檢驗: reg3 (y1=x1 x2 x3)(y2=y1 x4),2slsest store twoslsreg3 (y1=x1 x2 x3)(y2=y1 x4),ols est store olshausman twosls ols,equations(1:1)(對兩

45、次回歸中的方程 1,即“y1=x1 x2 x3”進行hausman 檢驗)hausman twosls ols,equations(2:2)(對兩次回歸中的方程 hausman 檢驗)hausman twosls ols,alleqs(對所有方程一起進行檢驗)檢驗忽略變量(模型的RESET):reg y x1 x2 x32,即“y2=y1x4”進行esovtest滯后變量的對變量y 滯后一期:gen y_l1=y_n-1滯后兩期:gen y_l2=y_n-2以此類推。樣本序號:gen id=_n獲得樣本總量:gen id=_N時間序列回歸:回歸元嚴(yán)格外生時 AR(1)序列相關(guān)的檢驗 reg y

46、 x1 x2predict u,resid gen u_1=u_n-1reg u u_1,noconstant回歸之后,u_1 的序數(shù)如果不異于零,則該序列不相關(guān)用 Durbin-Watson Sistics 檢驗序列相關(guān):tsset year (對時間序列回歸中代表時間的變量進行定義) reg y x1 x2dws(求出時間序列回歸的 DW 值)durbina (對該回歸是否具有序列相關(guān)進行檢驗,H0 為無序列相關(guān),可根據(jù) chi2值求出P 值)durbina,small (small 可以根據(jù)F 值求出P 值,以代替chi2 值) durbina,force (讓檢驗?zāi)茉趓obust、ne

47、way 之后進行)durbina,small lag(1/10) (lag 可以求出更高階滯后的序列相關(guān),如本例中可求出1 到 10 階的序列相關(guān))durbina,robust lag(1/10) (robust 可進行異方差穩(wěn)健性回歸,避免未知形式的異方差)bgodfrey (利用Breusch-Godfrey test 求出高階序列相關(guān)) bgodfrey,small lag(1/10)數(shù)據(jù):survey data源數(shù)據(jù):dataset 文件夾中的svydata步驟:1、定義survey datasvyset psuid pweight=finalwgt, strata(stratid)定

48、義primary sling unit 為psuid??赡苁菧y試的,1or2定義pweight 為finalwgt定義stratum identifer 為stratid??赡苁菧y試中被試的 2、生成malegen male= (sex=1) if !missing(sex)當(dāng) sex 不缺失且等于 1 時,male=sex3、生成行變量為highbp,列變量為sizplace 的表格,1to31svy, subpop(male): tabulate highbp sizplace, col obs pearson lr null waldsubpop 規(guī)定了以male 為數(shù)據(jù)的范圍tabul

49、ate highbp sizplace 表示繪制行變量為 highbp,列變量為sizplace 的表格col 表示每一列的加總為 100%,row 表示每一行的加總為 100%,cell 表示橫縱所有單元格的加總為 100%obs 表示列出每個單元格的樣本量,se 表示列出每個單元格的標(biāo)準(zhǔn)誤,ci 表示列出每個單元格的置信區(qū)間pearson 表示求取pearsons chi-squired,lr 表示求取likelihood rationull 表示求取null-based s isticswald 表示求取 adjusted wald,llwald noadjust 表示求取unadjus

50、ted Wald s istics 4、svy:mean x1 x2 x3對x1、x2、x3 求取mean、se 和 ci的卡方檢定表示求取 adjusted log-linear Wald,5、簡單的tabulate twoway(不用 svyset 就可執(zhí)行)tab2 y x,col chi2 exact lrcol、cell、row 等均可換用,chi2 指的是Pearsons chi-squared、exact 指的是fisher exact test、lr 指的是likelihood-ratio chi-squared 6、svy 的其他用法:svy:reg y x建立人工數(shù)據(jù)集:創(chuàng)

51、建一個包含從獨立標(biāo)準(zhǔn)正態(tài)分布中抽取的2000 個觀察案例和三個隨機Z1、Z2、Z3,并分別定義他們的平均值和標(biāo)準(zhǔn)差。matrix m=(0,2,3) 定義三個變量的平均值 matrix sd=(1,.5,2) 定義三個變量的標(biāo)準(zhǔn)差drawnorm z1 z2 z3,n(2000) means(m) sds(sd) 創(chuàng)建樣本量為 2000,均值和標(biāo)準(zhǔn)差符合上面定義的數(shù)據(jù)集補充:除了定義均值和標(biāo)準(zhǔn)差之外,還可定義相關(guān)矩陣和協(xié)方差矩陣等。logit 回歸logit y x1 x2 x3y 必須為二分變量glogitedata populationdata x1 x2 x3edata 為 目標(biāo)樣 本總

52、 量, populationdata 為觀 測樣 本總量, edata/populationdata 的值便是一個概率,相當(dāng)于logit 命令中的y面板數(shù)據(jù)(Panel Data) 1、基本套路:xtreg y x1 x2,re est store re xtreg y x1 x2,fe est store fe hausman re fe如果hausman 檢驗的結(jié)果為顯著,則采用固定效應(yīng)(fe)模型,不顯著,則選取隨機效應(yīng)(re)模型2、隨機效應(yīng)的檢驗: xtreg y x1 x2,rexttest0 xttest1xttest1 是 xttest0 的擴展,若這 xttest0 的結(jié)果為

53、顯著,則采用隨機效應(yīng)(re)模型xttest1 的假設(shè)是沒有隨機效應(yīng)和/或沒有序列相關(guān),它的七個結(jié)果分別表示:1) LM Test for random effects, aming no serial correlation(假設(shè)沒有序列相關(guān)情況下對隨機效應(yīng)進行LM 檢驗)2) Adjusted LM test for random effects, which works even under serial correlation(假設(shè)有序列相關(guān)的情況下對隨機LM 檢驗)3) One sided verof the LM test for random effects(假設(shè)沒有序列相關(guān)的情

54、況下對隨機效應(yīng)進行單邊檢驗)4) One sided verof the adjusted LM test for random effects(假設(shè)有序列相關(guān)的情況下對隨機效應(yīng)進行單邊檢驗)5) LM test for-order serial correlation, aming no random effects(假設(shè)沒有隨機效應(yīng)的情況下對一階序列相關(guān)進行檢驗)6) Adjusted test for random effects-order serial correlation, which works even under(假設(shè)有隨機效應(yīng)的情況下對一階序列相關(guān)進行檢驗)7) LM J

55、otest for random effects and serial correlation(隨機效應(yīng)和序列相關(guān)的聯(lián)合檢驗)3、固定效應(yīng)模型,可采用廣義最小二乘法(gls)進行估算,也可采用固定效應(yīng)方程(fe): xtserial y x1 x2 xtgls y x1 x2 xttest2xttest3xtserial 用于檢驗固定效應(yīng)模型中的一階序列自相關(guān),可通用于 xtgls 和fe 之前xttest2 用于檢驗不同廠商的相似性,若顯著則各廠家的截面相似,可通用于xtgls 和fe 之后xttest3 用于檢驗固定效應(yīng)模型中的異方差問題,若顯著則有異方差,可通用于xtgls 和fe 之后

56、Sa: 輸出regrestable 到 word 和 excel1. 安裝estout。最簡單的方式是在s ssc install estout, replacea 的指令輸入:EST 安裝的指導(dǎo)跑你的regres寫下這行指令esttab using test.rtf,然后就會出現(xiàn)個漂亮的表格給你(WORD 文是:檔)。只要再小幅修改,就可以直接用了。這個會存在mysa 下。如果你用打開的是一個sa do file,結(jié)果會保存到do 文件所在文件夾中。如果要得到 excel 文件,就把后綴改為.xls 或者.csv 就可以了4.跑多個其實也不難,只要每跑完一個 regres,你把它取個名字存起

57、來:eststore m1。m1 是你要改的,第一個m est store m2,依次類推。所以我叫m1,第二個的話指令就變成5.運行指令:esttab m1 m2 . using test.rtf 就行了。異方差的檢驗:Breusch-Pagan test in SA:其基本命令是:eshettest var1 var2 var3其中,var1 var2 var3 分別為你認(rèn)為導(dǎo)致異方差性的幾個自變量。是你自己設(shè)定的一個滯后項數(shù)量。同樣,如果輸出的P-Value 顯著小于 0.05,則原假設(shè),即不存在異方差性。White 檢驗:其基本命令是在完成基本的OLS 回歸之后,輸入imtest, w

58、hite如果輸出的P-Value 顯著小于 0.05,則原假設(shè),即不存在異方差性處理異方差性問題的方法:方法一:WLSWLS 是 GLS(一般最小二乘法)的一種,也可以說在異方差情形下的 GLS 就是 WLS。在 WLS 下,設(shè)定擾動項的條件方差是某個解釋變量子集的函數(shù)。之所以被稱為最小二乘法,是因為這個估計最小化的是殘差的平方和,而上述函數(shù)的倒數(shù)恰為其權(quán)重。在sa 中實現(xiàn)WLS 的方法如下:reg (被解釋變量) (解釋變量 1) (解釋變量 2) aweight=變量名其中,aweight 后面的變量就是權(quán)重,是設(shè)定的函數(shù)。一種經(jīng)常的設(shè)定是假設(shè)擾動項的條件方差是所有解釋變量的某個線性組合的

59、指數(shù)函數(shù)。在sa 中也可以方便地實現(xiàn):首先做標(biāo)準(zhǔn)的OLS 回歸,并得到殘差項;reg (被解釋變量) (解釋變量 1) (解釋變量 2) predict r, resid生成新變量logusq,并用它對所有解釋變量做回歸,得到這個回歸的擬合值,再對這個擬合值求指數(shù)函數(shù);gen logusq=ln(r2)reg logusq (解釋變量 1) (解釋變量 2) predict g, xbgen h=exp(g)最后以h 作為權(quán)重做 WLS 回歸;reg (被解釋變量) (解釋變量 1) (解釋變量 2) aweight=h確切地知道擾動項的協(xié)方差矩陣的形式,那么 GLS 估計是最小方差線如果性無

60、偏估計,是所有線性估計中最好的。顯然它比 OLS 更有效率。雖然GLS 有很多好處,但有一個致命弱點:就是一般而言不知道擾動項的協(xié)方差矩陣,因而無法保證結(jié)果的有效性。方法二:HC SEThere are 3 kinds of HC SE(1)Huber-White Robust Standard Errors HC1, 其基本命令是:reg var1 var2 var3, robustWhite(1980)證明了這種方法得到的標(biāo)準(zhǔn)誤是漸進可用(asymptotically valid)的。這種方法的優(yōu)點是簡單,而且需要的信息少,在各種情況下都通用。缺點是損失了一些效率。這種方法在日常的中是最經(jīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論