《實(shí)用統(tǒng)計(jì)方法》課件sh5_第1頁(yè)
《實(shí)用統(tǒng)計(jì)方法》課件sh5_第2頁(yè)
《實(shí)用統(tǒng)計(jì)方法》課件sh5_第3頁(yè)
《實(shí)用統(tǒng)計(jì)方法》課件sh5_第4頁(yè)
《實(shí)用統(tǒng)計(jì)方法》課件sh5_第5頁(yè)
已閱讀5頁(yè),還剩75頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1實(shí)用統(tǒng)計(jì)方法第五章屬性數(shù)據(jù)分析(CategoricalDataAnalysis)2第五章屬性數(shù)據(jù)分析

為了某種目的通過(guò)調(diào)查表進(jìn)行社會(huì)調(diào)查得到的數(shù)據(jù)----調(diào)查數(shù)據(jù),一般都是屬性數(shù)據(jù)。即在許多調(diào)查研究中,所得到的信息是樣本中個(gè)體的分類(lèi),而不是定量變量的值。例如,在某次調(diào)查中,根據(jù)人們的性別,對(duì)顏色的喜好等,將他們分類(lèi)。在某次政府調(diào)查中,根據(jù)公司的產(chǎn)品類(lèi)型,公司的所在地區(qū),及產(chǎn)品是否出口,將這些公司分為不同組。在市場(chǎng)研究中,為了了解一種新產(chǎn)品的吸引力,根據(jù)顧客是否已看到這種新產(chǎn)品的廣告以及是否已購(gòu)買(mǎi)了該新產(chǎn)品,將顧客分為不同組。這種類(lèi)型的數(shù)據(jù)可以方便地匯總在一張表格中,用來(lái)表示每個(gè)組中的觀測(cè)個(gè)數(shù)。3第五章屬性數(shù)據(jù)分析

例1性別與所喜愛(ài)顏色的調(diào)查表

假定隨機(jī)地抽取100個(gè)人,提問(wèn)每個(gè)人下面的問(wèn)題:紅、蘭、綠三色中,你最喜歡那種顏色?那么將結(jié)果整理為以下最簡(jiǎn)單的一張調(diào)查匯總表(見(jiàn)表5.1或表5.2)

我們關(guān)心的問(wèn)題是性別不同是否與所喜愛(ài)的顏色有關(guān)。

例2

為了比較兩種冶療方法的效果,將患者隨機(jī)地分為兩個(gè)處理組,每組50人。分別用兩種方法治療一段時(shí)間后,記錄患者的狀態(tài)(全愈,未愈)。假定得到的結(jié)果見(jiàn)表5.3。

我們關(guān)心的問(wèn)題是兩種方案的療效是否有顯著的差別?哪種冶療方案更好些。4第五章§5.1屬性數(shù)據(jù)

變量的類(lèi)型---名義變量(Nominal)變量:飲料的種類(lèi)

名義變量的值之間無(wú)邏輯次序可按任何次序排序編碼例如性別,職業(yè),地區(qū),…都是名義變量.5第五章§5.1屬性數(shù)據(jù)

變量的類(lèi)型---有序變量

(Ordinal)變量:飲料杯的型號(hào)小中大有序變量的值有明確的邏輯次序,但各

個(gè)值之間的距離并不清楚6第五章§5.1屬性數(shù)據(jù)

變量的類(lèi)型---連續(xù)型(區(qū)間變量和比率變量)

區(qū)間變量是有大小順序的連續(xù)數(shù)值變量,且數(shù)值間的差值是有意義的。例如考慮溫度,40度比10度熱30度,而40度和10度是相對(duì)于人們?nèi)《ǖ?度而言的。這類(lèi)變量對(duì)減法:兩值之差是有意義的;但對(duì)兩個(gè)數(shù)值的比率是沒(méi)有意義的。例如由40/10=4,而認(rèn)為40度比10度熱3倍的說(shuō)法是不合適。

區(qū)間變量與有序變量相對(duì)比,有序變量值之差是沒(méi)有什么意義.7第五章§5.1屬性數(shù)據(jù)

變量的類(lèi)型---連續(xù)型(區(qū)間變量和比率變量)

比率變量也是連續(xù)型的變量,不僅數(shù)值之差有意義,而且要求有絕對(duì)的零點(diǎn),兩數(shù)值的比率也是很重要。例如變量:飲料的體積,金子的重量等.

連續(xù)型變量的值是有邏輯次序的可連續(xù)變化的數(shù)值,且它們之間的距離也是有意義的.8第五章§5.1屬性數(shù)據(jù)

變量的類(lèi)型---屬性的與連續(xù)的

屬性變量是指其測(cè)量結(jié)果只能取到較少的不同的值,通常用以表示對(duì)象的分類(lèi)屬性。與屬性變量對(duì)立的是連續(xù)型變量。名義的、有序的變量可作為屬性變量處理,而連續(xù)型變量當(dāng)它們可能取到的數(shù)值較少時(shí),可作為屬性變量處理。變量的類(lèi)型不是絕對(duì)不變的.9第五章§5.1屬性數(shù)據(jù)

屬性數(shù)據(jù)與連續(xù)數(shù)據(jù)分析屬性數(shù)據(jù)分析(Categoricaldataanalysis)是當(dāng)目標(biāo)變量為屬性記錄時(shí)的數(shù)據(jù)分析,

不管問(wèn)題的預(yù)測(cè)變量(自變量)是否為屬性或連續(xù)的。屬性的結(jié)果通常反映屬性分類(lèi)的信息。連續(xù)數(shù)據(jù)分析(Continuousdataanalysis)

是當(dāng)目標(biāo)變量為連續(xù)記錄時(shí)的數(shù)據(jù)分析,

也不論它的預(yù)測(cè)變量是屬性的或連續(xù)的。10第五章§5.1屬性數(shù)據(jù)

屬性數(shù)據(jù)與連續(xù)數(shù)據(jù)分析目標(biāo)變量(第三,四章)(第五章)11第五章§5.1屬性數(shù)據(jù)

屬性數(shù)據(jù)分析(參見(jiàn)習(xí)題5-5)12第五章§5.1屬性數(shù)據(jù)

屬性數(shù)據(jù)分析

對(duì)屬性數(shù)據(jù)進(jìn)行分析,將達(dá)到以下幾方面的目的:①產(chǎn)生匯總分類(lèi)數(shù)據(jù)----列聯(lián)表;②檢驗(yàn)屬性變量間的獨(dú)立性(無(wú)關(guān)聯(lián)性);③計(jì)算屬性變量間的關(guān)聯(lián)性統(tǒng)計(jì)量④對(duì)高維數(shù)據(jù)進(jìn)行分層分析和建模.13第五章§5.2列聯(lián)表分析

屬性變量取值的頻數(shù)表對(duì)屬性變量最基本的統(tǒng)計(jì)特征就是它可取到的不同數(shù)值及取各個(gè)不同數(shù)值的頻數(shù)和概率(頻率).(中學(xué)生數(shù)據(jù)的頻數(shù)表和條形圖.)14第五章§5.2列聯(lián)表分析

屬性變量取值的頻數(shù)表Insight:Distribution(Y)

FrequencyTableAnalyst:StatisticsDescriptive…FrequencyCount...編程:PROCFREQDATA=CLASS;tablesage;run;15第五章§5.2列聯(lián)表分析

多個(gè)屬性變量取值的交叉表

在實(shí)際問(wèn)題中,如問(wèn)卷調(diào)查中,經(jīng)常會(huì)迂二個(gè)或更多個(gè)屬性變量.以上給出的頻數(shù)表是一個(gè)屬性變量(年齡)的情況下取各個(gè)值的頻數(shù)和百分?jǐn)?shù)(頻率).當(dāng)涉及兩個(gè)或多個(gè)屬性變量時(shí),僅有每個(gè)屬性變量(分類(lèi)變量)的頻數(shù)和頻率是不夠的.因?yàn)樗荒芊从硨傩宰兞块g的聯(lián)系.為了得到變量間的關(guān)聯(lián)信息,必須考慮各個(gè)變量取值的不同組合情況下取各個(gè)值的頻數(shù)和百分?jǐn)?shù)(頻率).這樣的一張表稱為列聯(lián)表(或稱為交叉表)。具有兩個(gè)變量的列聯(lián)表通常稱為雙向表,具有三個(gè)變量的表稱為三向表,依次類(lèi)推。當(dāng)雙向表中的兩個(gè)變量都僅有兩個(gè)水平時(shí),這種特殊的表稱為2×2表。本章雖給出了怎樣生成具有多個(gè)變量的交叉表,但是所討論的分析方法僅適用于雙向表。16第五章§5.2列聯(lián)表分析

多個(gè)屬性變量取值的交叉表17第五章§5.2列聯(lián)表分析

由原始數(shù)據(jù)生成列聯(lián)表的例子

例5.2.1

對(duì)某個(gè)“統(tǒng)計(jì)入門(mén)”課題,記錄了該課程中所有學(xué)生的性別和專(zhuān)業(yè)(′是′為統(tǒng)計(jì)專(zhuān)業(yè),′非′為其他專(zhuān)業(yè)).數(shù)據(jù)見(jiàn)以下SAS程序的數(shù)據(jù)行.試用編程方法或菜單系統(tǒng)生成列聯(lián)表.

(1)使用FREQ過(guò)程來(lái)生成列聯(lián)表.

下面的DATA步用來(lái)生成該數(shù)據(jù)集,然后使用FREQ過(guò)程生成列聯(lián)表,其中TABLES語(yǔ)句要求用分類(lèi)變量性別(SEX)和主修專(zhuān)業(yè)(MAJOR)來(lái)生成列聯(lián)表.這些語(yǔ)句產(chǎn)生的輸出見(jiàn)上頁(yè).18datastatclas;inputstudentsex$major$@@;cards;1男是2男非3女是4男非5女是6女是7男非8男非9男是10女是11男非12女是13男是14男是15男非16女是17男是18男非19女非20男是;procfreqdata=statclas;tablessex*major;title′統(tǒng)計(jì)課程中學(xué)生的專(zhuān)業(yè)和性別′;run;

第五章§5.2列聯(lián)表分析

由原始數(shù)據(jù)生成列聯(lián)表的例子19

(2)使用SAS菜單系統(tǒng)“分析員應(yīng)用”生成列聯(lián)表.

首先啟動(dòng)“分析員應(yīng)用”,并打開(kāi)SAS數(shù)據(jù)集STATCLAS.進(jìn)行列聯(lián)表分析的步驟如下:①在“分析員應(yīng)用”菜單欄目中選

Statistics=>TableAnalysis....②在彈出的列聯(lián)表分析主窗口中選擇行變量和列變量:SEX=>Row,MAJOR=>Column.

第五章§5.2列聯(lián)表分析

由原始數(shù)據(jù)生成列聯(lián)表的例子20第五章§5.1屬性數(shù)據(jù)

由原始數(shù)據(jù)生成列聯(lián)表的例子行分類(lèi)變量列分類(lèi)變量單元記數(shù)變量分層變量21第五章§5.1屬性數(shù)據(jù)

由原始數(shù)據(jù)生成列聯(lián)表的例子

指定分類(lèi)變量排序的原則各單元輸出的內(nèi)容關(guān)聯(lián)統(tǒng)計(jì)量設(shè)定分組變量設(shè)定要求表格22第五章§5.1屬性數(shù)據(jù)

由原始數(shù)據(jù)生成列聯(lián)表的例子

③在列聯(lián)表分析主窗口的下方有幾個(gè)鍵:Tables鍵讓用戶選擇所要求的計(jì)算結(jié)果,如觀測(cè)頻數(shù)、期望頻數(shù)及兩者的偏差,還有單元百分?jǐn)?shù)、行百分?jǐn)?shù)和列百分?jǐn)?shù);Input鍵讓用戶指定輸出的列聯(lián)表中分類(lèi)變量各個(gè)水平的排列次序,是按DATA步的輸入順序還是按分類(lèi)變量?jī)?nèi)部值的次序等;Statistics鍵讓?xiě)暨x擇希望計(jì)算的統(tǒng)計(jì)量.

按Tables鍵,在彈出的窗口中選擇計(jì)算觀測(cè)頻數(shù)、單元百分?jǐn)?shù)、行百分?jǐn)?shù)和列百分?jǐn)?shù)=>OK.23

④將要求分析計(jì)算的項(xiàng)選擇完畢后,從相應(yīng)窗口按OK鍵,返回到列聯(lián)表分析的主窗口=>OK,系統(tǒng)將按用戶的要求進(jìn)行分析計(jì)算.

看輸出結(jié)果,從“分析員應(yīng)用”的數(shù)據(jù)窗口左邊的樹(shù)狀表可以選擇你想查看的各類(lèi)計(jì)算結(jié)果.輸出的列聯(lián)表分析的結(jié)果見(jiàn)前面(即書(shū)上輸出5.2.1).結(jié)果解釋見(jiàn)書(shū)上P113-114.第五章§5.2列聯(lián)表分析

由原始數(shù)據(jù)生成列聯(lián)表的例子24

第五章§5.2列聯(lián)表分析

由現(xiàn)有的匯總表生成列聯(lián)表

有些情況下,已經(jīng)匯總并得出表格中每個(gè)單元有多少個(gè)觀測(cè).在收集數(shù)據(jù)時(shí),也許是先建立一張表,然后將觀測(cè)個(gè)數(shù)記到每個(gè)單元中,這樣得到的信息.或許是使用以表格形式發(fā)表的數(shù)據(jù).如:白人黑人是1917

否141149在這種情況下,沒(méi)有給出樣本中每一個(gè)個(gè)體的觀測(cè)數(shù)據(jù).為了由這種類(lèi)型的數(shù)據(jù)生成一張列聯(lián)表,首先建立一個(gè)包含所有單元觀測(cè)個(gè)數(shù)的數(shù)據(jù)集,然后使用帶有WEIGHT語(yǔ)句的FREQ過(guò)程.25

例5.2.2

殺人犯的種族是否會(huì)影響判處死刑的問(wèn)題.對(duì)1976至1977年美國(guó)佛羅里達(dá)州20個(gè)地區(qū)殺人案件中的326個(gè)被告進(jìn)行調(diào)查.考慮的種族有白人與黑人;用“是”或“否”表示是否判處死刑.調(diào)查后已把數(shù)據(jù)整理成表格形式(見(jiàn)下表).試用編程方法或菜單系統(tǒng)生成列聯(lián)表.

白人黑人是191736

否141149290160166326

第五章§5.2列聯(lián)表分析

由現(xiàn)有的匯總表生成列聯(lián)表的例子26

解(1)首先用DATA步生成一個(gè)數(shù)據(jù)集.然后由帶有WEIGHT語(yǔ)句的FREQ過(guò)程步來(lái)生成列聯(lián)表,結(jié)果見(jiàn)下頁(yè).datapenalty;inputdecision$defrace$numcell@@;cards;是白人19是黑人17否白人141否黑人149;procfreqdata=penalty;tablesdecision*defrace;weightnumcell;title′死刑數(shù)據(jù)的列聯(lián)表′;run;第五章§5.2列聯(lián)表分析

由現(xiàn)有的匯總表生成列聯(lián)表的例子27

注意這種情況下,數(shù)據(jù)步中除輸入行變量和列變量外,還要鍵入另一變量(這里為NUMCELL)來(lái)給出各單元的觀測(cè)個(gè)數(shù).因?yàn)檫@個(gè)列聯(lián)表僅有四個(gè)單元,所以該數(shù)據(jù)集僅包含四個(gè)觀測(cè).WEIGHT語(yǔ)句指出用來(lái)說(shuō)明每個(gè)單元中有多少觀測(cè)的變量為NUMCELL.如果使用TABLES語(yǔ)句而不用WEIGHT語(yǔ)句的話,將會(huì)得到一張每個(gè)單元只有一個(gè)觀測(cè)的列聯(lián)表.第五章§5.2列聯(lián)表分析

由現(xiàn)有的匯總表生成列聯(lián)表的例子28第五章§5.2列聯(lián)表分析

由現(xiàn)有的匯總表生成列聯(lián)表的例子29

(2)使用SAS菜單系統(tǒng)“分析員應(yīng)用”生成列聯(lián)表的步驟與例5.2.1類(lèi)似.只是在步驟②中除了指定行變量和列變量外,還要給出頻數(shù)變量:NUMCELL=>ellCountes(參見(jiàn)圖示5.2).輸出的列聯(lián)表分析的結(jié)果見(jiàn)前面(即書(shū)上輸出5.2.2).

第五章§5.2列聯(lián)表分析

由現(xiàn)有的匯總表生成列聯(lián)表的例子30第五章§5.2列聯(lián)表分析

由現(xiàn)有的匯總表生成列聯(lián)表的例子PROCFREQDATA=數(shù)據(jù)集名order=…noprint;

TABLES分層變量*行變量*列變量.../nocolnorownocumnofreqnopercent

missinglistout=數(shù)據(jù)集;

WEIGHT變量名;BY變量名;

RUN;order=data|internal|freq|formatted31第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

(Association)兩個(gè)屬性變量,若一個(gè)變量的取值(水平)不同影響到另一個(gè)變量的分布,就稱這兩個(gè)屬性變量間存在關(guān)聯(lián)性兩個(gè)屬性變量,若一個(gè)變量的分布不隨另一個(gè)變量取值(水平)不同而改變,就稱這兩個(gè)屬性變量間不存在關(guān)聯(lián)性32第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

(Association)您上司的態(tài)度與天氣有關(guān)聯(lián)嗎?無(wú)關(guān)聯(lián)性高興不高興晴天陰天33第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

(Association)您上司的態(tài)度與天氣有關(guān)聯(lián)嗎?有關(guān)聯(lián)性高興不高興晴天陰天34第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

(Association)為了分析兩個(gè)屬性變量間的關(guān)聯(lián)性,通常從雙向列聯(lián)表中的頻數(shù)或期望頻數(shù)進(jìn)行分析35第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)Insight:用拼花圖表現(xiàn)兩個(gè)屬性變量的頻數(shù)分布與關(guān)聯(lián)性36第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

(GeneralAssociation)行百分率nij/ni+列百分率nij/n+j單元百分率pij=nij/n++,pi+=ni+/n++,p+j=n+j/n++這些公式是列聯(lián)表每個(gè)單元中所計(jì)算統(tǒng)計(jì)量37第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)(GeneralAssociation)簡(jiǎn)單隨機(jī)抽樣(兩個(gè)變量都隨機(jī)):無(wú)關(guān)聯(lián):兩變量分布獨(dú)立pij=pi+p+j<==>(nijn=ni+n+j)38第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)(GeneralAssociation)分層簡(jiǎn)單隨機(jī)抽樣(一個(gè)變量控制)無(wú)關(guān)聯(lián):男女作肯定回答的比例相等39第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)(GeneralAssociation)40第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)c2-檢驗(yàn)法檢驗(yàn)屬性變量間是否存在關(guān)聯(lián)性的常用檢

驗(yàn)法是Pearson的c2檢驗(yàn)法。它基于兩個(gè)變

量頻數(shù)分布的交叉表(列聯(lián)表)上進(jìn)行H0:無(wú)關(guān)聯(lián)性

觀測(cè)頻數(shù)=期望頻數(shù)H1:有關(guān)聯(lián)性

觀測(cè)頻數(shù)期望頻數(shù)41第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)c2-檢驗(yàn)法

例(死刑數(shù)據(jù))

用A表示殺人犯是否判處死刑;B表示殺人犯的種族.問(wèn)種族是否會(huì)影響判處死刑的問(wèn)題(即A與B是否無(wú)關(guān)聯(lián)).

解:(1)檢驗(yàn)的假設(shè)H0:A與B無(wú)關(guān)聯(lián)性;H1:A與B有關(guān)聯(lián)性.

(2)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量c2

記P11=P{A=‘否’,B=‘黑人’}=P{被告為黑人沒(méi)有判死刑}P1+=P{A=‘否’};P+1=P{B=‘黑人’}當(dāng)H0成立時(shí),由概率論知識(shí)知道,應(yīng)有

P11=P{A=‘否’,B=‘黑人’}=P{A=‘否’}*P{B=‘黑人’}42第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)c2-檢驗(yàn)法

當(dāng)H0成立時(shí),每個(gè)單元的期望頻數(shù)(理論頻數(shù))記為m11,m12,m21,m22.顯然有

mij=Pij*n(n為觀測(cè)總個(gè)數(shù))=Pi+*P+j*n=ni+*n+j/n利用nij和mij

可以構(gòu)造檢驗(yàn)統(tǒng)計(jì)量c2(Chi-square)

c2=Σ(3)給定顯著性水平0.05;(nij-mij)2

mij43第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)c2-檢驗(yàn)法

(4)由樣本值(觀測(cè)數(shù)據(jù))計(jì)算c2值和p值.

由觀測(cè)到的數(shù)據(jù),可以計(jì)算期望頻數(shù)mij,如m11為

m11=P11*n=P1+*P+1*n=**326=147.67類(lèi)似地有:m12=142.33,m21=18.33,m22=17.67

c2=++….=0.2213p值=P{c2>=0.2213}=0.638290326326166(149-147.67)2147.67(141-142.33)2142.3344第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)c2-檢驗(yàn)法

(5)統(tǒng)計(jì)推斷

因p=0.638>0.05,所以H0

相容.即在0.05的顯著性水平下,可以認(rèn)為A與B無(wú)關(guān)聯(lián)性;也就是種族的不同不會(huì)影響是否判處死刑.45第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)c2-檢驗(yàn)法Analyst:StatisticsTableAnalysisStatistics46

PROCFREQDATA=數(shù)據(jù)集;

TABLES行變量*列變量/

chisqcellchi2expected;RUN;

chisq:進(jìn)行無(wú)關(guān)聯(lián)性的c2檢驗(yàn)和生成基于c2

統(tǒng)計(jì)量的關(guān)聯(lián)性度量

cellchi2:打印單元格的c2貢獻(xiàn)expected:打印無(wú)關(guān)聯(lián)時(shí)單元格的期望頻數(shù)

第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

c2-檢驗(yàn)法47第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

c2-檢驗(yàn)法c2檢驗(yàn)法及相應(yīng)的p-值只是檢驗(yàn)是否存在

關(guān)聯(lián)性c2統(tǒng)計(jì)量及相應(yīng)的p-值大小并不度量關(guān)聯(lián)

程度的強(qiáng)弱(c2統(tǒng)計(jì)量依賴樣本容量)c2檢驗(yàn)法的p-值是根據(jù)其大樣本分布確定

的。當(dāng)有20%或更多的單元格期望頻數(shù)

小于5時(shí),使用它并不一定有效,應(yīng)改用精確p-值48第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

其它檢驗(yàn)統(tǒng)計(jì)量(與Pearson’sc2漸近一致)(僅對(duì)四格表)(mij為期望頻數(shù)

df=(r-1)(c-1))(df=1,r為按scores選項(xiàng)規(guī)定的刻度計(jì)算的Pearson相關(guān)系數(shù))(只對(duì)有序測(cè)量水平)SAS的過(guò)程Freq提供以下幾種檢驗(yàn)關(guān)聯(lián)性的統(tǒng)計(jì)量:49第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

小樣本的精確p-值不宜使用基于漸近分布的c2檢驗(yàn)法50第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

小樣本的精確p-值51第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

小樣本的精確p-值觀測(cè)到的匯總數(shù)據(jù):

(2x2表)p=0.286p=0.571p=0.142P(c2

2.1)

=0.286+0.142

=0.428(雙側(cè))52第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

小樣本的精確p-值Fisher精確分布基于固定邊緣頻數(shù)用超幾何分布計(jì)算各個(gè)結(jié)果的概率53第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

小樣本的精確p-值H1:p11>p1+p+1,右尾左尾H1:p11<p1+p+1,雙測(cè)H1:p11p1+p+1,54第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

小樣本的精確p-值PROCFREQDATA=數(shù)據(jù)集;

TABLES行變量*列變量/exact;

EXACTpchi;

RUN;

選項(xiàng)exact:要求計(jì)算精確的Fisher檢驗(yàn)統(tǒng)計(jì)量.

對(duì)于2x2表系統(tǒng)自動(dòng)計(jì)算.語(yǔ)句exactpchi;要求給出c2統(tǒng)計(jì)量的精確p-值及其它有關(guān)的關(guān)聯(lián)性55第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

進(jìn)行精確Fisher

檢驗(yàn)的例子

例5.3.2

試用菜單系統(tǒng)“分析員應(yīng)用”對(duì)表5.5中的數(shù)據(jù)檢驗(yàn)工藝和產(chǎn)品質(zhì)量是否有關(guān)聯(lián)性(顯著性水平α=0.1)。

解首先啟動(dòng)“分析員應(yīng)用”,并對(duì)表5.5的數(shù)據(jù)生成SAS數(shù)據(jù)集(命名為D532)。檢驗(yàn)工藝和產(chǎn)品質(zhì)量是否有關(guān)聯(lián)性的步驟如下:①在“分析員應(yīng)用”菜單欄目中選擇Statistics=>TableAnalysis.②在彈出的列聯(lián)表分析主窗口中選擇行變量和列變量:A(工藝A1和A2)=>Row,B(質(zhì)量合格或不合格)=>Column,C(單元觀測(cè)頻數(shù))=>CellCounts.③在列聯(lián)表分析主窗口的下方,按Tables鍵來(lái)選擇所要求的計(jì)算內(nèi)容(比如選觀測(cè)頻數(shù)、期望頻數(shù)及兩者的偏差等);按Statistics鍵,并在彈出的窗口中由Statistics(統(tǒng)計(jì)量)欄目下選擇Chi-squarestatistics(使前面方框中打勾),同時(shí)選擇不輸出列聯(lián)表而僅計(jì)算統(tǒng)計(jì)量=>OK,回到列聯(lián)表分析主窗口后按OK,系統(tǒng)將按用戶的要求進(jìn)行分析計(jì)算。56第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

進(jìn)行精確Fisher

檢驗(yàn)的例子

④查看輸出結(jié)果,從“分析員應(yīng)用”的數(shù)據(jù)窗口左邊的樹(shù)狀表可以選擇你想查看的各類(lèi)計(jì)算結(jié)果。輸出的檢驗(yàn)工藝和產(chǎn)品質(zhì)量是否有關(guān)聯(lián)性的結(jié)果見(jiàn)下面(書(shū)上輸出5.3.2)。輸出5.3.2下方的WARNING(警告)信息指出有75%的單元其期望頻數(shù)<5,故χ2檢驗(yàn)可能不是一個(gè)有效的檢驗(yàn)。因P=0.637>0.05,Fisher精確檢驗(yàn)(雙側(cè))的結(jié)果給出在0.05的水平下,無(wú)關(guān)聯(lián)性的假設(shè)是相容的.57第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

進(jìn)行精確Fisher

檢驗(yàn)的例子58第五章§5.3屬性變量的無(wú)關(guān)聯(lián)性檢驗(yàn)

(變量間的其它關(guān)聯(lián)性)若兩個(gè)變量測(cè)量水平都是有序的,則可考慮對(duì)多數(shù)觀測(cè)來(lái)說(shuō),一個(gè)變量水平的增加另一個(gè)變量的水平是否也隨之增加(或減少),這種關(guān)聯(lián)稱為線性關(guān)聯(lián)(或有序的關(guān)聯(lián))。例如工資水平的提高對(duì)職業(yè)的滿意程度是否也會(huì)提高,病痛的嚴(yán)重和手術(shù)的效果是否有線性關(guān)聯(lián).59第五章§5.4有序變量的關(guān)聯(lián)性分析

有序變量的無(wú)有序關(guān)聯(lián)檢驗(yàn)

前節(jié)介紹的兩種檢驗(yàn)方法適用于一般的屬性變量.如果屬性變量是有序的,有時(shí)還關(guān)心有序變量間是否存在有序關(guān)聯(lián)性.即隨著一個(gè)變量取值的增加,另一個(gè)變量的取值是否也有變大(或變小)的趨勢(shì).比如隨著學(xué)歷的提高,犯罪率是否減少.MentelHaenszel檢驗(yàn)法就是針對(duì)以下假設(shè)的一種檢驗(yàn)方法:

H0:行列變量無(wú)有序關(guān)聯(lián),

H1:行列變量存在有序關(guān)聯(lián)該檢驗(yàn)方法在發(fā)現(xiàn)有序關(guān)聯(lián)方面比χ2檢驗(yàn)法要敏感.60第五章§5.4有序變量的關(guān)聯(lián)性分析

有序變量的關(guān)聯(lián)性度量

對(duì)兩個(gè)有序的屬性變量,(xi,yi),(xj,yj)為一對(duì)觀測(cè)(這里把有序值用數(shù)值表示):

(xi-xj)(yi-yj)>0,稱為一致對(duì)(concordant)(xi-xj)(yi-yj)<0,稱為不一致對(duì)(discordant)(xi-xj)(yi-yj)=0,稱為平分對(duì)(tied)單元A,D中配成的對(duì)為一致的單元B,C中配成的對(duì)為不一致的其它的對(duì)為平分的61第五章§5.4有序變量的關(guān)聯(lián)性分析

有序變量的關(guān)聯(lián)性度量

用C表示所有觀測(cè)對(duì)中一致對(duì)的個(gè)數(shù);D表示所有觀測(cè)對(duì)中不一致對(duì)的個(gè)數(shù).則上表中一致對(duì)的總數(shù)C和不一致對(duì)的總數(shù)D為:C=9×(4+88+19+136)+5×(19+136)+18×(88+136)+4×136=7574,D=9×(18+4+11+88)+5×(18+11)+19×(11+88)+4×11=3159.奶牛疾病數(shù)據(jù)沒(méi)有(0)低(1)高(2)

小959

中18419

大118813662第五章§5.4有序變量的關(guān)聯(lián)性分析

有序變量的關(guān)聯(lián)性度量63第五章§5.4有序變量的關(guān)聯(lián)性分析

與c2統(tǒng)計(jì)量聯(lián)系的關(guān)聯(lián)性度量與c2統(tǒng)計(jì)量聯(lián)系的關(guān)聯(lián)性度量64第五章§5.4有序變量的關(guān)聯(lián)性分析

有序變量的關(guān)聯(lián)性度量?jī)蓚€(gè)變量都是有序的測(cè)量水平不要求兩個(gè)變量都是有序的測(cè)量水平65第五章§5.4有序變量的關(guān)聯(lián)性分析

有序變量的關(guān)聯(lián)性度量

對(duì)有序變量,列聯(lián)表中變量各測(cè)量水平必須按順序排列,否則有序關(guān)聯(lián)性的度量是不準(zhǔn)確的(正確的次序)(不正確的次序)66第五章§5.4有序變量的關(guān)聯(lián)性分析

有序變量的關(guān)聯(lián)性度量正確的次序不正確的次序l系數(shù)不確定性系數(shù)不要求兩個(gè)變量都是有序的兩個(gè)變量都是有序變量67第五章§5.4有序變量的關(guān)聯(lián)性分析

l系數(shù)68第五章§5.4有序變量的關(guān)聯(lián)性分析l系數(shù)69第五章§5.4有序變量的關(guān)聯(lián)性分析

不確定性系數(shù)70第五章§5.4有序變量的關(guān)聯(lián)性分析

相對(duì)風(fēng)險(xiǎn)和優(yōu)比率對(duì)22列聯(lián)表,還有相對(duì)風(fēng)險(xiǎn)和優(yōu)比率兩個(gè)關(guān)聯(lián)性度量前瞻性研究(prospective,cohort)不同組的選擇在獲得響應(yīng)之前A組有心血管病的百分率=35/500=7%B組有心血管病的百分率=50/500=10%RR(相對(duì)風(fēng)險(xiǎn))=0.07/0.10=0.7071第五章§5.4有序變量的關(guān)聯(lián)性分析

相對(duì)風(fēng)險(xiǎn)和優(yōu)比率對(duì)一般的22列聯(lián)表:相對(duì)風(fēng)險(xiǎn)為:0RR<RR=1

無(wú)關(guān)聯(lián)72第五章§5.4有序變量的關(guān)聯(lián)性分析

相對(duì)風(fēng)險(xiǎn)和優(yōu)比率回顧性研究(retrospective,case-control)按結(jié)果分組再考察其預(yù)測(cè)變量患癌癥群體中常飲酒者的優(yōu)比為:

(34/60)/(26/60)=1.31不患癌癥群體中常飲酒者的優(yōu)比為:

(24/60)/(36/60)=0.67優(yōu)比率(OR)=(34/26)/(24/36)=1.9673第五章§5.4有序變量的關(guān)聯(lián)性分析

相對(duì)風(fēng)險(xiǎn)和優(yōu)比率結(jié)果1的優(yōu)比率為:對(duì)一般的22列聯(lián)表:OR(1)=1,組別與結(jié)果發(fā)生的可能性大小無(wú)關(guān)聯(lián)OR(1)>1,A組更可能發(fā)生結(jié)果1OR(1)<1,B組更可能發(fā)生結(jié)果174第五章§5.4有序變量的關(guān)聯(lián)性分析

相對(duì)風(fēng)險(xiǎn)和優(yōu)比率對(duì)22列聯(lián)表,使用選項(xiàng)measure顯示關(guān)聯(lián)性度量時(shí),自動(dòng)地提供相對(duì)風(fēng)險(xiǎn)和優(yōu)比率的結(jié)果優(yōu)比率相對(duì)風(fēng)險(xiǎn)75第五章§5.5屬性數(shù)據(jù)的分層分析經(jīng)常鍛煉不經(jīng)常鍛煉不分層數(shù)據(jù):76第五章§5.5屬性數(shù)據(jù)的分層分析將列聯(lián)表的數(shù)據(jù)按行列變量以外的其它變量進(jìn)行分組后分別制作列聯(lián)表進(jìn)行行列關(guān)聯(lián)性分析稱為分層分析(StratifiedAnalysis)分層分析常用的是CMH(Cochran-Mantel-Haenszel)統(tǒng)計(jì)量,它檢驗(yàn)的原假設(shè)為:

H0:每層的行列變量間無(wú)關(guān)聯(lián)77第五章§5.5屬性數(shù)據(jù)的分層分析CMH統(tǒng)計(jì)量是將各層的關(guān)聯(lián)性度量匯總成一個(gè)漸近c(diǎn)2分布統(tǒng)計(jì)量。它并不要求每一層的樣本容量都很大,它只要求總?cè)萘枯^大。CMH統(tǒng)計(jì)量象Fisher精確檢驗(yàn)一樣要求固定每層行列的總和。當(dāng)各層間的行列關(guān)聯(lián)有很大的變化時(shí),CMH統(tǒng)計(jì)量并不合適。即它并不允許層與行列有交互。78第五章§5.5屬性數(shù)據(jù)的分層分析CMH統(tǒng)計(jì)量在考慮各層的關(guān)聯(lián)性度量時(shí)可有三種不同的選擇:當(dāng)行列變量都是有序變量是可用線性關(guān)聯(lián)作度量當(dāng)行(列)變量中為有序時(shí)可用比較各行(列)的平均得分(score)作度量當(dāng)不考慮行列的有序性時(shí)可用Pearsonc2作度量79第五章§5.5屬性數(shù)據(jù)的分層分析檢驗(yàn)線性關(guān)聯(lián)比較列(行)得分檢驗(yàn)一般關(guān)聯(lián)80第五章§5.5屬性數(shù)據(jù)的分層分析CMH統(tǒng)計(jì)量對(duì)有序變量計(jì)算起得分時(shí)有以下幾種選擇:Table:取行列變量的值或表中行列號(hào)作得分Rank:以行列和排定不同水平的秩次作得分Radit:將Rank規(guī)定的秩次分層歸一化Modradit:將Radit乘以nh++/(nh+++1),表示均勻分布次序統(tǒng)計(jì)量的期望值81第五章§5.5屬性數(shù)據(jù)的分層分析PROCFREQDATA=數(shù)據(jù)集名…;

TABLES分層變量*行變量*列變量.../

cmhcmh1cmh2

scores=tablerankraditmodradit;WEIGHT變量名;RUN;cmh:

所有CMH統(tǒng)計(jì)量cmh1:

檢驗(yàn)線性關(guān)聯(lián)的CMH統(tǒng)計(jì)量(相關(guān))cmh2:

前兩個(gè)CMH統(tǒng)計(jì)量(相關(guān),ANOVA)82第五章§5.6成對(duì)數(shù)據(jù)無(wú)關(guān)聯(lián)性檢驗(yàn)

McNemar檢驗(yàn)法有時(shí)得到有關(guān)聯(lián)的對(duì)象對(duì)同一事情的反映

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論