第六章 列聯(lián)分析課件_第1頁
第六章 列聯(lián)分析課件_第2頁
第六章 列聯(lián)分析課件_第3頁
第六章 列聯(lián)分析課件_第4頁
第六章 列聯(lián)分析課件_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、,第六章 列聯(lián)表分析,1,學(xué)習(xí)交流PPT,6.1列聯(lián)表分析,列聯(lián)表是分析兩個分類變量(名義變量或者定序變量)之間關(guān)系的基本統(tǒng)計方法。設(shè)兩個變量A和B分別有r和c個類型,則他們可以構(gòu)成一個的列聯(lián)表。 獨立性檢驗統(tǒng)計量 在對兩變量進(jìn)行列聯(lián)表分析時,首先要檢驗它們的獨立性,這就涉及到獨立性檢驗統(tǒng)計量,常用的統(tǒng)計量有皮爾遜卡方統(tǒng)計量(Pearson Chi-Square)和似然比統(tǒng)計量(Likelihood Ratio)。 Fisher精確檢驗仍采用卡方統(tǒng)計量作為檢驗統(tǒng)計量,只是在計算統(tǒng)計量的分布時,利用概率論中的超幾何分布來計算每一種情況發(fā)生的概率,然后才能得到P值。當(dāng)樣本量較大,或者列聯(lián)表的行數(shù)及

2、列數(shù)較大時,F(xiàn)isher檢驗的計算量會變得很大,以至于無法承受。,2,學(xué)習(xí)交流PPT,列聯(lián)表中的相關(guān)測量統(tǒng)計量 對于名義變量,通常采用基于卡方統(tǒng)計量的各種統(tǒng)計量來進(jìn)行關(guān)聯(lián)性度量,最常的是Cramers V系數(shù) 對于有序變量,關(guān)聯(lián)性度量的統(tǒng)計量通常是基于觀測中的一致對和不一致對的個數(shù)??梢远x以下統(tǒng)計量來描述有序變量之間的有序關(guān)聯(lián)性的大小: 統(tǒng)計量:gamma統(tǒng)計量和 Kendall統(tǒng)計量,3,學(xué)習(xí)交流PPT,6.2 Stata的列聯(lián)表分析table和tabulate命令6.2.1使用table命令生成列聯(lián)表,table命令可以用于生成一維到多維的列聯(lián)表,表中不僅可以包含常見的頻數(shù),還可以包含任

3、意其他變量的描述性統(tǒng)計量。 table命令的格式如下: table rowvar colvar supercolvar if in weight , options 其中rowvar代表行變量,colvar代表列變量,supercolvar代表更高階的列變量,同之前一樣,in和if用于選擇樣本或者選擇范圍,weight用于添加權(quán)重。,4,學(xué)習(xí)交流PPT,表6-2 table命令可以報告的統(tǒng)計量 freq 頻數(shù) mean 平均數(shù) sd 標(biāo)準(zhǔn)差 semean 標(biāo)準(zhǔn)誤 (sd/sqrt(n) sum 總和 count、n 觀測值個數(shù) max 最大值 min 最小值 median 中位數(shù) p# 各種百

4、分位數(shù) iqr IQR四分位距,5,學(xué)習(xí)交流PPT,【例6.1】 數(shù)據(jù)集auto.dta是Stata系統(tǒng)自帶的關(guān)于1978年汽車市場的一個調(diào)查數(shù)據(jù),該數(shù)據(jù)集共有74個觀測值,12個變量。變量的具體情況是:make是字符型變量,表明生產(chǎn)廠商。其他均為數(shù)值型變量,price是汽車的價格(萬元),mpg是行駛里程(英里),rep78是在該年度修理次數(shù),foreign是虛擬變量,賦值1代表國外產(chǎn),0代表國產(chǎn)。數(shù)據(jù)用幾個變量揭示了汽車的重要特征:headroom、trunk、length、turn、displacemen、gea_ratio依次代表汽車內(nèi)部空間大小、后備箱空間大小、身長、轉(zhuǎn)彎半徑、排氣量

5、和變速比。 本例演示如何利用table命令完成如下兩個任務(wù): (1)使用table命令創(chuàng)建關(guān)于rep78的頻數(shù)表,并在表中顯示mpg的觀測值個數(shù)、平均數(shù)、標(biāo)準(zhǔn)差和中位數(shù)。 (2)使用table命令創(chuàng)建關(guān)于foreign和rep78的二維表格,并在表中顯示mpg的平均數(shù)。,6,學(xué)習(xí)交流PPT,【例6.2】本例使用一個關(guān)于肺炎的調(diào)查數(shù)據(jù)集byssin1.dta來說明table命令創(chuàng)建多維表格。數(shù)據(jù)集中每個觀測值代表了一類人,變量prob是該類人罹患肺炎的概率,smokes是代表是否吸煙的虛擬變量,race是關(guān)于是否是白人的虛擬變量,workplace按照工作場所的煙塵等級劃分為三類,1為最少,3為

6、最多,sex是性別,1代表男性。最關(guān)鍵的變量是pop,表示具有該觀測值的個體的數(shù)量,比如,pop=3,則意味著樣本中有3個人具有該觀測值所揭示的性質(zhì)。在這個數(shù)據(jù)集中,pop的取值從0到507不等,其中0說明沒有任何個體具有該觀測值所揭示的性質(zhì),507則說明有507個個體具有同樣的性質(zhì)。我們鼓勵讀者使用codebook命令對這些變量的具體賦值更深入地考察。 下面我們演示如何完成如下兩個創(chuàng)建多維表格的任務(wù)。 (1)創(chuàng)建一個關(guān)于workplace、smokes和race的三維列聯(lián)表。 (2)創(chuàng)建一個關(guān)于workplace、smokes、race和sex的四維列聯(lián)表。,7,學(xué)習(xí)交流PPT,8,學(xué)習(xí)交流

7、PPT,6.2.2使用tabulate命令進(jìn)行列聯(lián)表分析1 一維tabulate命令,tabulate的一維命令主要用于生成含有頻數(shù)的一維表格,使用比較簡單,當(dāng)我們想查看某個變量的賦值情況時,也可以使用tabulate來得到大體的印象。下面是這個命令的標(biāo)準(zhǔn)結(jié)構(gòu): tabulate varname if in weight , tabulate1_options 同之前一樣,in和if用于選擇樣本或者選擇范圍,weight用于添加權(quán)重。 tabulate一維命令還有一個配套的方便工具tab1,在其后可以添加多個變量,然后stata會對每個變量創(chuàng)建以為表格,也就是相當(dāng)于多次執(zhí)行tabulate命令

8、。tab1的結(jié)構(gòu)如下: tab1 varlist if in weight , tab1_options,9,學(xué)習(xí)交流PPT,【例6.3】使用auto.dta數(shù)據(jù)創(chuàng)建rep78和foreign的一維頻數(shù)表。,10,學(xué)習(xí)交流PPT,2 二維tabulate命令,二維tabulate命令在生成二維表格的同時,可以計算多種獨立性檢驗統(tǒng)計量和相關(guān)測量統(tǒng)計量,包括常用的Pearsons chi-squared、likelihood-ratio chi-squared、Cram s V、Fishers exact test、Goodman and Kruskals gamma、Kendalls tau-b

9、,這些統(tǒng)計量在前面均介紹過。下面是該命令的標(biāo)準(zhǔn)格式: tabulate varname1 varname2 if in weight , options 同之前一樣,in和if用于選擇樣本或者選擇范圍,weight用于添加權(quán)重。 同tabulate的一維表格一樣,二維tabulate命令也有tab2,可用于快速生成varlist中所羅列的變量所有可能的二維表格,tab2的標(biāo)準(zhǔn)格式如下: tab2 varlist if in weight , options,11,學(xué)習(xí)交流PPT,【例6.4】利用關(guān)于肺炎的調(diào)查數(shù)據(jù)byssin1.dta來檢驗得肺炎概率與是否抽煙、工作場所空氣質(zhì)量這兩個變量之間的

10、獨立性(當(dāng)然,憑借常識,它們應(yīng)該是有關(guān)系的),即分別對probcat和smokes以及probcat和workplace做標(biāo)準(zhǔn)的列聯(lián)分析。,12,學(xué)習(xí)交流PPT,6.3利用Stata生成包含描述性統(tǒng)計量的列表6.3.1 tabstat命令,tabstat可以在一個表格中顯示多個變量的多種描述性統(tǒng)計量,這些統(tǒng)計量包括平均數(shù)、最大最小值、極差、方差、標(biāo)準(zhǔn)差、偏度、峰度以及各種百分位數(shù)。tabstat是summarize命令的替代選擇,前者比后者更加靈活,可以自由選擇表格中包含的統(tǒng)計量種類。通過添加by(),tabstat對每類觀測值報告各自的統(tǒng)計量。 tabstat的標(biāo)準(zhǔn)格式如下: tabstat

11、 varlist if in weight , options 同之前一樣,in和if用于選擇樣本或者選擇范圍,weight用于添加權(quán)重。,13,學(xué)習(xí)交流PPT,rangerange = max - min mean平均數(shù) sd 標(biāo)準(zhǔn)差 variance方差 semean 標(biāo)準(zhǔn)誤 (sd/sqrt(n) sum 總和 count 觀測值個數(shù) max min 最大值 最小值 median 中位數(shù) p# 各種百分位數(shù) p 相當(dāng)于p25 p50 p75 iqr IQR四分位距,14,學(xué)習(xí)交流PPT,【例6-6】利用auto.dta數(shù)據(jù)集完成如下兩個任務(wù): (1)生成包含price、weight、mp

12、g、rep78的均值的表格。 (2)對上述四個變量按照foreign分類報告平均數(shù)、標(biāo)準(zhǔn)差和最小值、最大值。,15,學(xué)習(xí)交流PPT,6.3.2 tabulate, summarize (),tabulate, summarize()用于生成一維或者二維的包含均值和標(biāo)準(zhǔn)差的表格,事實上,table比 tabulate, summarize()更加靈活,它可以生成一維到多維的包含更多統(tǒng)計量的表格,因此table命令更好,而tabulate, summarize()的特點在于運行更快。 tabulate, summarize()命令的標(biāo)準(zhǔn)格式如下: tabulate varname1 varname2 if in weight , options,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論