第五章statar軟件教程-描述性統(tǒng)計(jì)分析_第1頁(yè)
第五章statar軟件教程-描述性統(tǒng)計(jì)分析_第2頁(yè)
第五章statar軟件教程-描述性統(tǒng)計(jì)分析_第3頁(yè)
第五章statar軟件教程-描述性統(tǒng)計(jì)分析_第4頁(yè)
第五章statar軟件教程-描述性統(tǒng)計(jì)分析_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章描述性統(tǒng)計(jì)分析5.1描述性統(tǒng)計(jì)的原理5.1.1定性變量定義5.1對(duì)給定的類,類(或組)頻數(shù)是指落入這個(gè)類中的觀測(cè)值的個(gè)數(shù)。定義5.2對(duì)給定的類,類(或組)相對(duì)頻率是指落入這個(gè)類中的觀測(cè)值的個(gè)數(shù)相對(duì)于觀測(cè)值總數(shù)的比例。因此,頻率和頻數(shù)是描述定性變量的兩個(gè)重要指標(biāo)。5.1.2.定量變量 集中趨勢(shì)的度量:均值、中位數(shù)、眾數(shù)。 變異程度的度量:極差、方差、標(biāo)準(zhǔn)差 相對(duì)位置的度量:標(biāo)準(zhǔn)得分 偏度和峰度:如果數(shù)據(jù)的分布是對(duì)稱的,則偏度系數(shù)為0;如果偏度系數(shù)明顯不等于0,表明分布是非對(duì)稱的。若偏度系數(shù)大于1或者小于-1,被稱為高度偏態(tài)分布。峰度通常是與標(biāo)準(zhǔn)正態(tài)分布比較,Stata計(jì)算的峰度系數(shù)未減3,故而是與3作比較而不是與0作比較。若峰度系數(shù)等于3則服從標(biāo)準(zhǔn)正態(tài)分布,反之則意味著分布比正態(tài)分布更尖或者更平。5.2描述性統(tǒng)計(jì)量的Stata實(shí)現(xiàn)使用summarize命令計(jì)算和導(dǎo)出描述性統(tǒng)計(jì)量summarize[varlist][if][in][weight][,options]summarize命令的選項(xiàng)及其含義detail

產(chǎn)生更加詳細(xì)的統(tǒng)計(jì)變量,包括偏度、峰度、最小和最

大的四個(gè)值以及各種百分位數(shù)。meanonly 僅計(jì)算和顯示平均數(shù),本選項(xiàng)在編程中比較有用。format

使用變量的顯示格式。separator(#) 每#個(gè)變量畫(huà)一條分界線,默認(rèn)為separator(5),separator(0)

禁止使用分界線。【例5-1】現(xiàn)在我們利用小時(shí)工資數(shù)據(jù)集舉例說(shuō)明summarize的使用。要求使用summarize命令對(duì)wage.dta執(zhí)行如下操作:(1)對(duì)wage、educ、exper、tenure、nonwhite、female、married做基本的統(tǒng)計(jì)分析,(2)Summarize命令加上detail選項(xiàng)容許我們對(duì)某些重要的變量做更加詳盡的分析,(3)在summarize后使用in或者if來(lái)限制條件,可以獲得對(duì)某個(gè)子樣本的描述性統(tǒng)計(jì)。(4)使用outreg2命令導(dǎo)出描述性統(tǒng)計(jì)量。使用tabstat命令計(jì)算描述性統(tǒng)計(jì)量.tabstatvarlist[if][in][weight][,options]選項(xiàng) 含義mean 平均數(shù)

count/n 觀測(cè)值數(shù)目

sum 加總

max/min 最大值、最小值range 極差

sd 標(biāo)準(zhǔn)差var 方差

cv 變異系數(shù)(sd/mean)semean 平均標(biāo)準(zhǔn)誤(sd/sqrt(n))skewness偏度

kurtosis

峰度median 中位數(shù)

p# #%百分位數(shù)iqr 四分位數(shù)間距(p75-p25)q 等價(jià)于寫p25p50p75【例5-2】這里使用的是wage1.dta數(shù)據(jù)集,我們說(shuō)明使用tabstat計(jì)算變量wage和log(wage)的相關(guān)統(tǒng)計(jì)量。(1)首先使用stat()要求定制輸出地統(tǒng)計(jì)指標(biāo):觀測(cè)值的個(gè)數(shù)、平均數(shù)、中位數(shù)、標(biāo)準(zhǔn)差、偏度、峰度,(2)如果在命令中加入選項(xiàng)col(stat)通過(guò)讓統(tǒng)計(jì)量以列的方式呈現(xiàn),可以使結(jié)果更便于分析和對(duì)比,(3)下面我們加入by(female)選項(xiàng)和long選項(xiàng),要求Stata根據(jù)性別分別統(tǒng)計(jì)wage和lwage兩個(gè)變量,并且標(biāo)注變量名稱:5.3探測(cè)異常值——箱線圖 下面的第一個(gè)命令繪制縱向圖,第二個(gè)命令繪制橫向圖。graphboxyvars[if][in][weight][,options]graphhboxyvars[if][in][weight][,options] graphbox命令的選項(xiàng):over(varname[,over_subopts]):設(shè)定分組變量,變量可以是數(shù)值型或者字符型變量,可以設(shè)置多達(dá)三個(gè)的分組變量。[,over_subopts]可以指定用于排序的變量名稱,也可以使用sort(1),則表明按照第一個(gè)分組變量排序。默認(rèn)排序方式為從小到大,在[,over_subopts]加入descending則指定為按照中位數(shù)從大到小降序排列。by():另一種設(shè)置分組的方法,當(dāng)分組變量過(guò)多時(shí),利用該選項(xiàng)可以是圖形更加美觀明了?!纠?-3】我們?nèi)砸詗age數(shù)據(jù)集為例,說(shuō)明箱線圖繪制命令的使用。(1)首先在不加入任何選項(xiàng)的情況下繪制箱線圖:(2)利用箱線圖還可以比較不同性別的工資分布情況,5.4數(shù)據(jù)的正態(tài)性檢驗(yàn)和數(shù)據(jù)轉(zhuǎn)換 1.分位——正態(tài)圖分位——正態(tài)圖的繪制的命令格式如下,qnormvarname[if][in][,options] 2.正態(tài)性統(tǒng)計(jì)檢驗(yàn)這里我們介紹進(jìn)行偏度—峰度檢驗(yàn)(sktest)、D’Agostino檢驗(yàn)、Shapiro—WilkW檢驗(yàn)和Shapiro—FranciaW’檢驗(yàn)的Stata命令。各種正態(tài)性統(tǒng)計(jì)檢驗(yàn)的命令格式和選項(xiàng)如下:①偏度—峰度檢驗(yàn)sktestvarlist[if][in][weight][,noadjust]noadjust選項(xiàng)用未經(jīng)調(diào)整過(guò)的檢驗(yàn)結(jié)果代替Royston(1991)對(duì)整體卡方檢驗(yàn)和顯著性水平做調(diào)整后的結(jié)果,可能會(huì)降低檢驗(yàn)的顯著性水平,使拒絕原假設(shè)的可能下降。②Shapiro—WilkW檢驗(yàn)swilkvarlist[if][in][,options] 該命令的選項(xiàng)及其含義是:generate(newvar):產(chǎn)生包含W檢驗(yàn)系數(shù)的新變量;lnnormal:對(duì)ln(X-k)做正態(tài)性檢驗(yàn),其中k使得ln(X)偏度為0。我們使用lnskew0來(lái)確定k的取值。③Shapiro—FranciaW’檢驗(yàn)sfranciavarlist[if][in]④D’Agostino檢驗(yàn)sktestdcvarlist[=exp][ifexp][inrange][,noadjust] 【例5-4】下面我們依次舉例說(shuō)明這四個(gè)命令的使用,這里用到的數(shù)據(jù)仍然是小時(shí)工資數(shù)據(jù)集wage1.dta。首先我們對(duì)wage變量進(jìn)行偏度—峰度檢驗(yàn),(2)接下來(lái)我們對(duì)wage變量分別進(jìn)行W檢驗(yàn)Swilk(Shapiro-WilkWtestfornormality)和W'檢驗(yàn)Sfrancia(Shapiro-FranciaW'testfornormality),(3)最后演示D’Agostino檢驗(yàn),使用的命令是sktestdc,這里我們使用未經(jīng)調(diào)整過(guò)的卡方檢驗(yàn),即添加noadjust選項(xiàng):5.4.3改變數(shù)據(jù)的分布Stata提供了一個(gè)非常強(qiáng)大的工具“冪階梯”(ladderofpowers)可以嘗試表5-11所列的九種轉(zhuǎn)換的可能,然后依次進(jìn)行偏度——峰度檢驗(yàn)。冪階梯共有三個(gè)相關(guān)的命令,第一個(gè)命令ladder嘗試表5.8所涉及到的九種轉(zhuǎn)換,然后分別進(jìn)行正態(tài)性檢驗(yàn),這是冪階梯最基本的命令:laddervarname[if][in]接下來(lái)兩個(gè)命令可以對(duì)這九種轉(zhuǎn)換分別作直方圖和分位正態(tài)圖,以便直觀地判斷各種轉(zhuǎn)換的可行性,它們的格式是:gladdervarname[if][in]qladdervarname[if][in]【例5-5】下面我們具體說(shuō)明這三個(gè)命令的使用,這里仍然使用wage.dta數(shù)據(jù)集。(1)對(duì)wage嘗試表5.11中的各種轉(zhuǎn)換(2)嘗試命令gladder以及分位—正態(tài)圖的冪階梯版本qladder,通過(guò)這兩個(gè)命令可以非常輕松地比較每種轉(zhuǎn)換的直方圖和正態(tài)分布曲線。5.5相關(guān)系數(shù)常用的相關(guān)系數(shù)共有如下四種:Pearson相關(guān)系數(shù)、.Kendallτ相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)以及偏相關(guān)系數(shù)。Stata的相關(guān)系數(shù)命令不僅可以得到通常的相關(guān)系數(shù),還可以計(jì)算協(xié)方差矩陣,更為有用的是它還提供了對(duì)缺失值的不同處理方法。Pearson相關(guān)系數(shù)correlate[varlist][if][in][weight][,correlate_options]pwcorr[varlist][if][in][weight][,pwcorr_options]【例5-6】使用數(shù)據(jù)集wage.dta,完成如下任務(wù):(1)得到的wage、educ、exper、tenure之間的相關(guān)系數(shù)矩陣,(2)得到的wage、educ、exper、tenure之

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論