![SPSS統(tǒng)計(jì)方法體系與案例實(shí)驗(yàn)進(jìn)階 課件 李望晨 第7-14章 列聯(lián)表資料的檢驗(yàn)-聚類分析與判別分析_第1頁](http://file4.renrendoc.com/view5/M00/3C/25/wKhkGGYX0tqAYqCeAADzXBXVulo301.jpg)
![SPSS統(tǒng)計(jì)方法體系與案例實(shí)驗(yàn)進(jìn)階 課件 李望晨 第7-14章 列聯(lián)表資料的檢驗(yàn)-聚類分析與判別分析_第2頁](http://file4.renrendoc.com/view5/M00/3C/25/wKhkGGYX0tqAYqCeAADzXBXVulo3012.jpg)
![SPSS統(tǒng)計(jì)方法體系與案例實(shí)驗(yàn)進(jìn)階 課件 李望晨 第7-14章 列聯(lián)表資料的檢驗(yàn)-聚類分析與判別分析_第3頁](http://file4.renrendoc.com/view5/M00/3C/25/wKhkGGYX0tqAYqCeAADzXBXVulo3013.jpg)
![SPSS統(tǒng)計(jì)方法體系與案例實(shí)驗(yàn)進(jìn)階 課件 李望晨 第7-14章 列聯(lián)表資料的檢驗(yàn)-聚類分析與判別分析_第4頁](http://file4.renrendoc.com/view5/M00/3C/25/wKhkGGYX0tqAYqCeAADzXBXVulo3014.jpg)
![SPSS統(tǒng)計(jì)方法體系與案例實(shí)驗(yàn)進(jìn)階 課件 李望晨 第7-14章 列聯(lián)表資料的檢驗(yàn)-聚類分析與判別分析_第5頁](http://file4.renrendoc.com/view5/M00/3C/25/wKhkGGYX0tqAYqCeAADzXBXVulo3015.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
《SPSS統(tǒng)計(jì)方法體系與案例實(shí)驗(yàn)進(jìn)階》第7章列聯(lián)表資料的檢驗(yàn)
調(diào)查研究常見計(jì)數(shù)資料的交叉列聯(lián)表分析.問卷選擇題干是變量名,選項(xiàng)是類別劃分.
列聯(lián)表的行、列屬性變量取值是計(jì)數(shù)資料,即定類(無序)資料或定序(有序)資料.三種類型:雙向無序列聯(lián)表、單向有序列聯(lián)表及雙向有序列聯(lián)表.調(diào)查問卷中多見選擇題,題干就是變量、選項(xiàng)就是分類.調(diào)查對象組成樣本,行列類別交叉制定為表格形式,則選答情況計(jì)數(shù)填入表格.如根據(jù)性別男女+是否吸煙,請推斷總體中性別與吸煙之間獨(dú)立么?卡方檢驗(yàn)適于雙向無序分類變量獨(dú)立(相關(guān))檢驗(yàn),行列變量交換不會影響結(jié)果.但是,定序分類變量的列聯(lián)表分析不適用卡方檢驗(yàn).如學(xué)業(yè)(優(yōu)秀、良好、中等、較差);療效(無效、好轉(zhuǎn)、顯效、痊愈).(1)單向有序分類資料(行列變量一個(gè)有序分類)用秩和檢驗(yàn);(2)雙向定序資料(行列變量全為有序分類)用Kappa檢驗(yàn).7.1雙向無序列聯(lián)表的檢驗(yàn)一、核心知識雙向無序列聯(lián)表檢驗(yàn):(1)兩個(gè)分類變量(行列屬性)之間的獨(dú)立性或關(guān)聯(lián)性推斷;(2)總體率(發(fā)生與不發(fā)生)或構(gòu)成比(類比例)有無差異推斷.一般采用列聯(lián)表的K.Pearson卡方檢驗(yàn).7.1雙向無序列聯(lián)表的檢驗(yàn)
原假設(shè)H0:行列屬性獨(dú)立或各總體率(構(gòu)成比)相等(π1=π2=…=πk).當(dāng)樣本量大于等于40,而理論頻數(shù)大于等于1且小于5時(shí),用校正的卡方統(tǒng)計(jì)量;當(dāng)樣本量小于40或理論頻數(shù)小于1時(shí),要用Fisher精確檢驗(yàn)法.【實(shí)例1】[問題敘述]研究觀察鼻咽癌患者與健康人的血型構(gòu)成,請推斷患鼻咽癌是否與血型有關(guān).血型合計(jì)ABABO鼻咽癌648613020300健康人12513821026499合計(jì)18922434046799[實(shí)驗(yàn)?zāi)康腯理解雙向無序列聯(lián)表卡方檢驗(yàn)適用條件,掌握SPSS操作方法和結(jié)果解讀.[操作步驟]變量要求:☆原始數(shù)據(jù):行、列兩個(gè)屬性變量,數(shù)值型;數(shù)據(jù)為行、列屬性取值.☆列聯(lián)表數(shù)據(jù):頻數(shù)變量、行屬性變量及列屬性變量;頻數(shù)變量要加權(quán)處理;頻數(shù)變量取值就是頻數(shù),行、列兩個(gè)屬性變量取值是各頻數(shù)對應(yīng)的行、列.編碼方案:人群類別變量“鼻咽癌=1、健康人=2”;血型類別變量“A=1、B=2、AB=3、O=4”.頻數(shù)變量“交叉頻數(shù)”錄入列聯(lián)表的所有頻數(shù);行變量“人群類別”和列變量“血型類別”分別錄入各頻數(shù)對應(yīng)行和列.菜單選擇:(1)變量加權(quán)“數(shù)據(jù)(Data)”→“加權(quán)個(gè)案(Weightcases)”,將頻數(shù)變量“交叉頻數(shù)”選入“頻率變量(FrequencyVariable)”框,點(diǎn)擊“確定(OK)”按鈕.(2)雙向無序列聯(lián)表的K.Pearson卡方檢驗(yàn)“分析(Analyze)”→“描述統(tǒng)計(jì)(DescriptiveStatistics)”→“交叉表(Crosstabs).界面設(shè)置:選擇行變量“人群類別”進(jìn)入“行(Row)”框,列變量“血型類別”進(jìn)入“列(Column)”框(注意:“交叉頻數(shù)”不要選擇);點(diǎn)擊“統(tǒng)計(jì)量(Statistics)”按鈕,選“卡方(Chi-Square)”,在“名義”區(qū)域,選“相依系數(shù)(ContingencyCoefficient)”,點(diǎn)擊”確定(OK)”.[結(jié)果分析]
表7-2匯總交叉列聯(lián)表血型類別合計(jì)1234人群類別1648613020300212513821026499合計(jì)18922434046799表7-3列聯(lián)表K.Pearson卡方檢驗(yàn)值df漸進(jìn)Sig.(雙側(cè))Pearson卡方1.921a3.589似然比1.9243.588線性和線性組合1.4521.228有效案例中的N799表7-4相關(guān)系數(shù)及其檢驗(yàn)值近似值Sig.按標(biāo)量標(biāo)定相依系數(shù).049.589有效案例中的N799分類數(shù)據(jù)(如問卷):由SPSS軟件自動匯總為交叉列聯(lián)表形式(見描述性分析).經(jīng)分析,統(tǒng)計(jì)量值=1.921,對應(yīng)的概率值P=0.589,遠(yuǎn)大于顯著性水平0.05,說明鼻咽癌患者與健康人的血型相關(guān)是無統(tǒng)計(jì)學(xué)意義的,認(rèn)為血型與是否患鼻咽癌無關(guān).相關(guān)系數(shù)為0.049(很小),說明相關(guān)程度很低,對應(yīng)的概率值P=0.589,相關(guān)系數(shù)無統(tǒng)計(jì)學(xué)意義,認(rèn)為血型與是否患鼻咽癌無關(guān).7.2單向有序列聯(lián)表的檢驗(yàn)一、核心知識單向有序列聯(lián)表檢驗(yàn)主要指列聯(lián)表的行變量無序,列變量(多個(gè)結(jié)果)有序的兩組構(gòu)成比的比較檢驗(yàn).其檢驗(yàn)方法常用列聯(lián)表的秩和檢驗(yàn)(類似獨(dú)立樣本的秩和檢驗(yàn)).原假設(shè)H0:總體的構(gòu)成比一致.不同于前面給出原始資料情形下的秩和檢驗(yàn),這是經(jīng)過列聯(lián)表匯總的計(jì)數(shù)資料(頻數(shù)資料)情形下的秩和檢驗(yàn).一般為大樣本,SPSS軟件結(jié)果中一般取統(tǒng)計(jì)量值為“Z”,對應(yīng)的概率值P取“漸近顯著性(Asymp.Sig.)”.【實(shí)例2】[問題敘述]某醫(yī)生用A、B兩種藥物治療慢性病,療效評價(jià)采取自我評價(jià),共有185人進(jìn)行了治療結(jié)束后的自我評價(jià).請推斷A、B兩種藥物對該慢性病的總體療效有無差別.表7-5兩種藥物療效比較結(jié)果藥物療效合計(jì)無效好轉(zhuǎn)顯效治愈A1521242989B2033251896合計(jì)35544947185[實(shí)驗(yàn)?zāi)康腯理解單向有序列聯(lián)表秩和檢驗(yàn)適用條件,掌握SPSS操作方法和結(jié)果解讀.[操作步驟]變量要求:☆原始數(shù)據(jù):檢驗(yàn)變量,變量類型為數(shù)值型,取值是兩組的所有等級值數(shù)據(jù)結(jié)果;分組變量,變量類型為數(shù)值型,取值為數(shù)據(jù)結(jié)果分組編號(如1、2).☆列聯(lián)表數(shù)據(jù):檢驗(yàn)變量,變量類型為數(shù)值型,取值是各個(gè)等級值;分組變量,變量類型為數(shù)值型,取值為分組編號(如1、2);頻數(shù)變量,變量類型為數(shù)值型,取值為行、列變量對應(yīng)的頻數(shù).定義三個(gè)變量,數(shù)值型:“頻數(shù)”、“療效”、“種類”.編碼方案:種類變量“A藥=1、B藥=2”;療效變量“無效=1、好轉(zhuǎn)=2、顯效=3、治愈=4”.將數(shù)據(jù)錄入“頻數(shù)”變量,錄入時(shí)行、列變量與頻數(shù)變量取值對應(yīng).菜單選擇:(1)變量加權(quán)“數(shù)據(jù)(Data)”→“加權(quán)個(gè)案(Weightcases)”,將頻數(shù)變量“頻數(shù)”選入“頻率變量(FrequencyVariable)”框,點(diǎn)擊”確定(OK)”按鈕.(2)單向有序列聯(lián)表的秩和檢驗(yàn)“分析(Analyze)”→“非參數(shù)檢驗(yàn)(NonparametricTests)”→“兩個(gè)獨(dú)立樣本(2IndependentSamples)”.界面設(shè)置:選擇變量“療效”進(jìn)入“檢驗(yàn)變量列表(TestVariablesList)”框;選擇變量“種類”進(jìn)入“分組變量(GroupingVariable)”框,點(diǎn)擊“定義組(DefineGroups)”按鈕,在“組1(Group1)”和“組2(Group2)”框中分別輸入分組變量的兩個(gè)取值1和2.點(diǎn)擊“確定(OK)”.[結(jié)果分析]種類N秩均值秩和療效A藥89101.319016.50B藥9685.308188.50總數(shù)185檢驗(yàn)統(tǒng)計(jì)量a療效Mann-WhitneyU3532.500WilcoxonW8188.500Z-2.103漸近顯著性(雙側(cè)).035a.分組變量:種類A藥和B藥兩組頻數(shù)的平均秩分別為101.31和85.30,A藥療效的平均秩較高.統(tǒng)計(jì)量值Z=-2.103,對應(yīng)的概率值P=0.035,小于顯著性水平0.05,說明A藥和B藥兩組療效差異有統(tǒng)計(jì)學(xué)意義,認(rèn)為兩種藥物對療效有差別.7.3雙向有序列聯(lián)表的檢驗(yàn)一、核心知識行、列變量取值有序、一致的行列屬性相關(guān)檢驗(yàn),如兩種治療方法分類結(jié)果符合一致性程度用Kappa法.原假設(shè)H0:行列變量的屬性值不一致(K=0).注意:Kappa法用于行列屬性一致檢驗(yàn);McNemar法用于行列屬性差別性檢驗(yàn);前者利用全部信息;后者僅利用非主對角線信息,分析結(jié)論會有一定差異.研究者可以從關(guān)注一致性,還是差異性來選擇方法.【實(shí)例3】[問題敘述]收集147例冠心病病人,分別用對比法和核素法檢查病人室壁收縮運(yùn)動情況.請推斷兩種方法的檢查結(jié)果是否一致?表7-8兩法檢查冠心病人室壁收縮運(yùn)動的符合情況對比法核素法合計(jì)正常減弱異常正常582363減弱142750異常891734合計(jì)675327147[實(shí)驗(yàn)?zāi)康腯理解雙向有序列聯(lián)表且屬性相同的Kappa一致性檢驗(yàn)適用條件,掌握SPSS操作方法和結(jié)果解讀.[操作步驟]變量要求:☆原始數(shù)據(jù):行列兩個(gè)待檢驗(yàn)的屬性變量,變量類型為數(shù)值型或字符型;數(shù)據(jù)為行列兩屬性變量取值.☆列聯(lián)表數(shù)據(jù):頻數(shù)變量、行屬性變量及列屬性變量,頻數(shù)變量要加權(quán)處理.頻數(shù)變量取值是列聯(lián)表的交叉頻數(shù),行、列兩個(gè)屬性變量的取值是等級值.本例為匯總列聯(lián)表數(shù)據(jù),定義三個(gè)變量:頻數(shù)變量“交叉頻數(shù)”錄入列聯(lián)表的所有頻數(shù);行屬性變量“對比法組”和列屬性變量“核素法組”分別錄入各等級的取值1,2,3.菜單選擇:(1)變量加權(quán)主菜單“數(shù)據(jù)(Data)”→“加權(quán)個(gè)案(Weightcases)”,將頻數(shù)變量“交叉頻數(shù)”選入“頻率變量(FrequencyVariable)”框,點(diǎn)擊”確定(OK)”按鈕.(2)雙向有序列聯(lián)表且屬性值相同的Kappa檢驗(yàn)“分析(Analyze)”→“描述統(tǒng)計(jì)(DescriptiveStatistics)”→“交叉表(Crosstabs)”.界面設(shè)置:選擇行屬性變量“對比法組”進(jìn)入“行(Row)”框,列屬性變量“核素法組”進(jìn)入“列(Column)”框;點(diǎn)擊“統(tǒng)計(jì)量(Statistics)”按鈕,選“Kappa”,點(diǎn)擊“確定(OK)”.[結(jié)果分析]
表7-10一致性Kappa系數(shù)及其檢驗(yàn)對稱度量值漸進(jìn)標(biāo)準(zhǔn)誤差a近似值Tb近似值Sig.一致性度量Kappa.681.05011.411.000有效案例中的N147經(jīng)分析,一致性Kappa系數(shù)為0.681,說明兩者一致性程度較高;檢驗(yàn)統(tǒng)計(jì)量T=11.411,對應(yīng)的概率值P=0.000<0.001,Kappa系數(shù)有統(tǒng)計(jì)學(xué)意義,認(rèn)為對比法和核素法檢查病人的室壁收縮運(yùn)動的結(jié)果一致性較高.【練習(xí)1】[問題敘述]
治療急性無黃疸型病毒性肝炎,請推斷療法療效差異有無差別?“交叉表卡方檢驗(yàn)”組別有效無效西藥組5149中藥組3545中西結(jié)合5915【練習(xí)2】[問題敘述]用羅氏培養(yǎng)基(A法)和羅氏+慶大霉素培養(yǎng)基(B法)分別對120只豚鼠皮膚真菌的生長情況進(jìn)行觀察.結(jié)果A法陽性率為50%,B法陽性率為25%,共同陽性率為20%.請推斷兩種培養(yǎng)基對真菌的檢出率是否不同?“交叉表卡方檢驗(yàn)”
A法B法陽性陰性合計(jì)陽性24630陰性365490合計(jì)6060120【練習(xí)3】[問題敘述]某醫(yī)療小組用兩種療法治療腦血管梗死得到療效結(jié)果.請推斷療法對治療腦血管梗死的總體療效有無差別?“交叉表秩和檢驗(yàn)”表7-12兩種療法的療效測定結(jié)果療法療效合計(jì)無效好轉(zhuǎn)顯效治愈甲21183230101乙26322717102合計(jì)47505947203【練習(xí)4】[問題敘述]某抗體間接血凝實(shí)驗(yàn),樣品測定方法有血清法、濾片紙法.請推斷兩種方法結(jié)果是否一致?“交叉表Kappa檢驗(yàn)”表7-13兩種方法的測定結(jié)果濾片紙法血清法合計(jì)-++++++-80109+0101011++0126229+++01067合計(jì)81228856一、核心知識兩個(gè)定類變量相關(guān)性分析,就是雙向無序的列聯(lián)表行、列屬性的相關(guān)性分析,在第6章介紹過一種卡方檢驗(yàn)的非參數(shù)檢驗(yàn)方法.例如,在交叉列聯(lián)表界面(主菜單“分析(Analyze)”→“描述統(tǒng)計(jì)(DescriptiveStatistics)”→“交叉表(Crosstabs)”,點(diǎn)擊“統(tǒng)計(jì)量(Statistics)”按鈕.相關(guān)關(guān)系,如:身高與體重、教育程度與收入、學(xué)業(yè)成就與家庭環(huán)境等.8.1計(jì)數(shù)資料的相關(guān)分析8.11定類(名義)資料的相關(guān)性分析學(xué)習(xí)目標(biāo):1、熟悉分類變量的相關(guān)分析2、掌握數(shù)值變量的相關(guān)分析重點(diǎn):數(shù)值變量的相關(guān)分析第8章資料的相關(guān)性分析定類(名義)變量相關(guān)性方法:1.相依系數(shù)或列聯(lián)系數(shù)(contingencycoefficient):值介于0~1之間,越大表明兩變量間相關(guān)性越強(qiáng).2.Phi和Cramer變量(PhiandCramer'sV):φ系數(shù)(Phicoefficient),介于0~1之間,值越大則關(guān)聯(lián)程度越強(qiáng).Cramer'sV是Phi的一個(gè)調(diào)整.常用相依系數(shù)說明定類變量相關(guān)程度有無統(tǒng)計(jì)學(xué)意義.8.12定序(等級)資料的相關(guān)性分析指行、列變量雙向有序取值情況下,列聯(lián)表資料的行、列屬性的相關(guān)性分析.利用交叉列聯(lián)表界面(主菜單“分析(Analyze)”→“描述統(tǒng)計(jì)(DescriptiveStatistics)”→“交叉表(Crosstabs)”,點(diǎn)擊“統(tǒng)計(jì)量(Statistics)”按鈕.1.Gamma系數(shù):描述有序分類數(shù)據(jù)聯(lián)系強(qiáng)度的度量,介于-1~1之間.雙變量相關(guān)界面主菜單“分析(Analyze)”→“相關(guān)(Correlate)”→“雙變量(Bivariate)”.常用Gamma系數(shù)說明定序變量的相關(guān)程度有無統(tǒng)計(jì)學(xué)意義.除外,對于非交叉表(計(jì)數(shù)資料)形式下的兩個(gè)定序或等級變量采用Spearman等級相關(guān)系數(shù)衡量定序變量相關(guān)關(guān)系,說明相關(guān)程度有無統(tǒng)計(jì)學(xué)意義.【實(shí)例1】[問題敘述]某醫(yī)生觀察某種皮膚真菌感染的臨床試驗(yàn).請推斷該病的療效是否與病程有關(guān).病程(月)痊愈好轉(zhuǎn)無效合計(jì)<1792481111~30131443~1028330215>6029261065合計(jì)24014649435[實(shí)驗(yàn)?zāi)康腯理解計(jì)數(shù)資料(定序、定序)相關(guān)分析的適用條件,掌握SPSS操作方法及結(jié)果解讀.[操作步驟]變量要求:☆原始數(shù)據(jù):定義行、列屬性變量,變量類型為數(shù)值型.數(shù)據(jù)分別為行列屬性變量的取值.☆列聯(lián)表數(shù)據(jù):定義頻數(shù)變量、行屬性變量及列屬性變量,變量類型皆為數(shù)值型,且頻數(shù)變量要加權(quán)處理;頻數(shù)變量取值是頻數(shù),行、列屬性變量取值是頻數(shù)對應(yīng)的行、列等級.病程和療效都是等級資料,但分類不一致,且為匯總列聯(lián)表數(shù)據(jù).定義三個(gè)變量:頻數(shù)變量“頻數(shù)”錄入列聯(lián)表的所有頻數(shù);行變量“病程”和列變量“療效”分別錄入對應(yīng)行(1,2,3,4)和列等級(1,2,3).界面設(shè)置:選擇變量“病程”進(jìn)入“行(Row)”框,變量“療效”進(jìn)入“列(Column)”框;單擊“統(tǒng)計(jì)量(Statistics)”按鈕,在“有序(Ordinal)”區(qū)域選擇“Gamma”,單擊“繼續(xù)(Continue)”,單擊“確定(OK)”按鈕.菜單選擇:(1)變量加權(quán)主菜單“數(shù)據(jù)(Data)”→“加權(quán)個(gè)案(Weightcases)”,將“頻數(shù)”選入“頻率變量(FrequencyVariable)”框,點(diǎn)擊“確定(OK)”按鈕.(2)計(jì)算Gamma系數(shù)分析“分析(Analyze)”→“描述統(tǒng)計(jì)(DescriptiveStatistics)”→“交叉表(Crosstabs)”.(2)Spearman等級相關(guān)分析主菜單“分析(Analyze)”→“相關(guān)(Correlate)”→“雙變量(Bivariate)”.界面設(shè)置:
選擇變量“病程”、“療效”進(jìn)入右側(cè)“變量(Variables)”框;相關(guān)系數(shù)選擇“Spearman”,點(diǎn)擊“確定(OK)”按鈕.[結(jié)果分析](1)Spearman等級相關(guān)分析結(jié)果病程療效Spearman的rho病程相關(guān)系數(shù)1.000.215**Sig.(雙側(cè))..000N435435療效相關(guān)系數(shù).215**1.000Sig.(雙側(cè)).000.N435435經(jīng)分析,病程和療效的Spearman等級相關(guān)系數(shù)為0.215,對應(yīng)的概率值P=0.000<0.001,說明兩者相關(guān)程度有統(tǒng)計(jì)學(xué)意義,認(rèn)為病程和療效之間有低度相關(guān)性.注意:大樣本情況下相關(guān)系數(shù)較低,總體相關(guān)卻有統(tǒng)計(jì)學(xué)意義,查公式便知.(2)Gamma系數(shù)分析結(jié)果表8-3Gamma系數(shù)表值漸進(jìn)標(biāo)準(zhǔn)誤差a近似值Tb近似值Sig.按順序γ.316.0664.676.000有效案例中的N435病程和療效的Gamma系數(shù)為0.316,對應(yīng)的概率值P=0.000<0.001,遠(yuǎn)小于0.05,說明兩者相關(guān)程度較低,但有統(tǒng)計(jì)學(xué)意義,認(rèn)為病程和療效之間有低度相關(guān)性.8.2計(jì)量資料的相關(guān)分析一、核心知識1.Pearson積差相關(guān)系數(shù)常用于度量定距變量間的線性相關(guān)關(guān)系,反映兩變量線性相關(guān)程度的強(qiáng)弱,但不能用于度量兩變量之間的非線性關(guān)系.皮爾遜線性相關(guān)系數(shù)特點(diǎn):X與Y均是服從正態(tài)分布的連續(xù)型數(shù)值變量.(1)對稱性:X與Y相關(guān)系數(shù)和Y與X相關(guān)系數(shù)相等.(2)無量綱性:r數(shù)值大小與X和Y的原點(diǎn)位置及量綱(或單位\尺度)無關(guān).(3)線性關(guān)系度量:描述線性關(guān)系程度,不能反映非線性關(guān)系.(4)非依存關(guān)系度量:r是線性“共變”關(guān)系的度量.r取值[-1,1];|r|=1完全相關(guān);r>0則兩個(gè)變量正相關(guān),r<0則兩個(gè)變量負(fù)相關(guān);若不滿足應(yīng)用條件,則用Spearman等級相關(guān)系數(shù).2.相關(guān)系數(shù)顯著性檢驗(yàn):樣本相關(guān)系數(shù)r根據(jù)樣本觀測值計(jì)算,作為隨機(jī)變量(統(tǒng)計(jì)量)受抽樣誤差影響,由樣本相關(guān)系數(shù)推斷總體相關(guān)系數(shù)是否為0:(1)
建立原假設(shè)H0:
=0(X與Y不相關(guān));備擇假設(shè)H1:≠0(2)
計(jì)算樣本相關(guān)系數(shù)r值;(3)
給定顯著性水平,自由度為n-2,查表得臨界值r
/2(n-2);(4)
當(dāng)|r|≥r
/2,則P<,拒絕H0,認(rèn)為變量X與Y相關(guān)性有統(tǒng)計(jì)學(xué)意義;當(dāng)|r|<r
/2,則P>,接受H0,認(rèn)為變量X與Y相關(guān)性有統(tǒng)計(jì)學(xué)意義.3.Spearman相關(guān)分析(等級相關(guān)分析)【實(shí)例2】[問題敘述]研究兒童體重(X)與心臟橫徑(Y)之間的關(guān)系,測量10名8歲正常男童的體重與心臟橫徑,試分析X和Y相關(guān)性.編號12345678910體重(kg,X)25.519.524.020.525.022.021.523.526.523.5心臟橫徑(cm,Y)9.27.89.48.69.08.89.09.49.78.8非參數(shù)法,變量分布無嚴(yán)格要求,范圍廣,適于非正態(tài)分布或定序(等級)資料:如變量X與Y不服從正態(tài)分布、分布類型未知、等級資料.將原始數(shù)值由小到大排序,編秩,以秩計(jì)算Spearman相關(guān)系數(shù)rs.[實(shí)驗(yàn)?zāi)康腯理解K.Pearson積差相關(guān)系數(shù)特點(diǎn)、適用范圍及條件,掌握SPSS操作方法及結(jié)果解讀.[操作步驟]變量要求:兩個(gè)(或多個(gè))檢驗(yàn)變量,變量類型為數(shù)值型.定義2個(gè)變量:體重、心臟橫徑,變量類型為數(shù)值型的;分別錄入相關(guān)數(shù)據(jù).菜單選擇:主菜單“分析(Analyze)”→“相關(guān)(Correlate)”→“雙變量(Bivariate)”.界面設(shè)置:選擇變量“體重”、“心臟橫徑”進(jìn)入右側(cè)“變量(Variables)”框;相關(guān)系數(shù)選擇“Pearson”,點(diǎn)擊“確定(OK)”按鈕.[結(jié)果分析]表8-5K.Pearson相關(guān)分析表體重心臟橫徑體重Pearson相關(guān)性1.830**顯著性(雙側(cè)).003N1010心臟橫徑Pearson相關(guān)性.830**1顯著性(雙側(cè)).003N1010經(jīng)分析,“體重”和“心臟橫徑”的K.Pearson相關(guān)系數(shù)r=0.830,對應(yīng)的概率值P=0.003,小于顯著性水平0.05,說明兩者線性相關(guān)程度較高,且有統(tǒng)計(jì)學(xué)意義,認(rèn)為兒童體重和心臟橫徑之間有較明顯線性相關(guān)關(guān)系.【練習(xí)1】[問題敘述]研究住戶人口密度與婆媳沖突是否相關(guān),住戶人口密度分為低(1)、中(2)、高(3)三個(gè)級別,婆媳沖突分為低(1)、中(2)、高(3)三個(gè)級別.調(diào)查某市200個(gè)住戶,請對住戶人口密度與婆媳矛盾進(jìn)行相關(guān)性分析.婆媳沖突住戶人口密度合計(jì)高中低高2320447中11552894低8272459合計(jì)4210256200【練習(xí)2】[問題敘述]研究身高和體重關(guān)系,調(diào)查10名學(xué)生身高和體重資料,請進(jìn)行相關(guān)分析.表8-710名學(xué)生身高與體重資料編號12345678910身高(cm)171167177154169175163152172162體重(kg)53566449556652475850回歸分析中有因變量(被解釋變量)和自變量(解釋變量),因變量是隨機(jī)變量,自變量也稱為因素變量,是可以加以控制的變量.9.1線性回歸分析回歸分析中,自變量和因變量之間關(guān)系是線性相關(guān)關(guān)系時(shí),稱線性回歸分析.按照自變量多少分為一元回歸分析和多元回歸分析;回歸分析步驟:(1)自變量和因變量;(2)模型選擇;(3)參數(shù)估計(jì);(4)模型檢驗(yàn);(5)模型應(yīng)用.包括線性回歸、曲線回歸、二元logistic回歸、Probit回歸、非線性回歸等.學(xué)習(xí)目標(biāo):1、掌握一元線性回歸分析2、掌握多元線性回歸分析3、熟悉曲線回歸分析和非線性回歸分析重點(diǎn):1、一元線性回歸分析2、多元線性回歸分析第9章回歸分析一、核心知識1.1一元線性回歸模型僅有一個(gè)自變量的線性回歸模型,用于揭示因變量與自變量之間線性關(guān)系.1.2一元回歸分析步驟:(1)繪制散點(diǎn)圖,顯示變量之間關(guān)系;(2)求相關(guān)系數(shù),衡量變量之間關(guān)系的密切程度;(3)判斷變量之間有無因果(或依存)關(guān)系;(4)確定自變量x和因變量y;(5)設(shè)計(jì)回歸分析模型結(jié)構(gòu);(6)估計(jì)模型中參數(shù),識別回歸方程;(7)回歸方程顯著性檢驗(yàn);(8)回歸模型應(yīng)用.
1.3多元線性回歸模型多元線性回歸模型用于揭示因變量與其他多個(gè)自變量之間的線性依存關(guān)系.模型整體性檢驗(yàn)、回歸系數(shù)檢驗(yàn)、殘差自相關(guān)檢驗(yàn)(D-W)、多重共線性分析以及模型的擬合優(yōu)度分析等.自變量篩選有進(jìn)入、逐步、刪除、向后、向前方法,常用逐步回歸法.變量x1,x2,…,xm多重共線性:(1)模型擬合效果很好,但偏回歸系數(shù)無統(tǒng)計(jì)學(xué)意義.(2)偏回歸系數(shù)估計(jì)值方差很大.(3)偏回歸系數(shù)估計(jì)值不穩(wěn)定,隨著樣本含量增減,偏回歸系數(shù)變化較大,或當(dāng)自變量被引入或剔除時(shí)其余變量偏回歸系數(shù)有變化影響.(4)偏回歸系數(shù)估計(jì)值大小和符號與經(jīng)驗(yàn)難以解釋.【實(shí)例1】[問題敘述]某地8名14歲男童身高x1(cm),體重x2(kg),肺活量y(L)的實(shí)測值數(shù)據(jù)見表9-1,試對該地區(qū)14歲男童肺活量關(guān)于身高、體重進(jìn)行多元線性回歸分析.編號12345678身高(x1)135.1163.6156.2167.8145.0165.5153.3154.6體重(x2)32.046.237.141.533.049.541.039.5肺活量(y)1.752.752.752.752.503.002.752.50[實(shí)驗(yàn)?zāi)康腯理解線性回歸分析適用條件,掌握SPSS操作方法及結(jié)果解讀.[操作步驟]
變量要求:一個(gè)因變量,變量是服從(或近似服從)正態(tài)分布的連續(xù)型變量;一個(gè)(或多個(gè))自變量,類型可以是連續(xù)型變量,也可以是有序變量或分類變量.定義“身高”、“體重”、“肺活量”3個(gè)變量,變量類型為數(shù)值型的,分別錄入.菜單選擇:主菜單“分析(Analyze)”→“回歸(Regression)”→“線性(Linear)”.界面設(shè)置:選擇變量“肺活量”進(jìn)入“因變量(Dependent)”框,選擇變量“身高”、“體重”進(jìn)入“自變量(Independent)”框,在“自變量(Independent)”下方的“方法(Method)”下拉列表中選用“逐步(Stepwise)”法進(jìn)行回歸.單擊“統(tǒng)計(jì)量(Statistics)”按鈕,在”回歸系數(shù)(RegressionCoefficient)區(qū)域,選擇“估計(jì)(Estimates)”用于估計(jì)回歸方程系數(shù)并檢驗(yàn)、“模型擬合度(Modelfit)”用于擬合優(yōu)度分析、“描述性(Descriptives)”、“共線性診斷(CoffinearityDiagnostics)”用于多重共線性分析;在“殘差(Residuals)”區(qū)域,選“Durbin-waston”用于殘差自相關(guān)檢驗(yàn),單擊“繼續(xù)(Continue)”按鈕返回主界面;單擊“繪制(Plots)”按鈕,選用DEPENDENT和*ZPRED作圖,在“標(biāo)準(zhǔn)化殘差圖”區(qū)域,選擇“直方圖(Histogram)”和“正態(tài)概率圖(Normalprobabilityplots)”(P-P圖),單擊“繼續(xù)(Continue)”按鈕返回主界面.其它選項(xiàng)默認(rèn),點(diǎn)擊“確定(OK)”按鈕.[結(jié)果分析]均值標(biāo)準(zhǔn)偏差N肺活量2.5938.376498身高155.137511.009088體重39.97506.018968(2)變量輸入或者移去的情況模型輸入的變量移去的變量方法1身高步進(jìn)(準(zhǔn)則:F-to-enter的概率<=.050,F-to-remove的概率>=.100).經(jīng)分析,采用逐步回歸法變量引入和剔除,顯示引入與剔除的判別標(biāo)準(zhǔn)(引入標(biāo)準(zhǔn)是P<0.05,剔除標(biāo)準(zhǔn)是P>0.10).自變量“身高”被引入,“體重”沒有被引入.(3)模型摘要模型RR方調(diào)整R方標(biāo)準(zhǔn)估計(jì)的誤差Durbin-Watson1.872a.760.720.199132.036經(jīng)分析,復(fù)相關(guān)系數(shù)(R)為0.872,判定系數(shù)(R2)為0.760,調(diào)整判定系數(shù)(R2)為0.720,從而認(rèn)為擬合效果較好.由殘差自相關(guān)系數(shù)Durbin-Watson=2.036,認(rèn)為無自相關(guān)性(1.5~2.5則無自相關(guān)性).(4)方差分析模型平方和df均方FSig.1回歸.7541.75419.023.005殘差.2386.040總計(jì).9927經(jīng)分析,F統(tǒng)計(jì)量值為19.023,對應(yīng)的概率值P=0.005,小于顯著性水平0.05,認(rèn)為回歸方程有效,肺活量與身高之間有線性關(guān)系.(5)回歸方程的系數(shù)以及系數(shù)檢驗(yàn)?zāi)P头菢?biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.共線性統(tǒng)計(jì)量B標(biāo)準(zhǔn)誤差容差VIF1(常量)-2.0321.063-1.912.104身高.030.007.8724.362.0051.0001.000經(jīng)分析,偏回歸系數(shù)、回歸系數(shù)檢驗(yàn)t統(tǒng)計(jì)量值、對應(yīng)的概率值P均已給出.方程的常數(shù)項(xiàng)為-2.032,偏回歸系數(shù)b1為0.030,對應(yīng)的概率值P=0.005,小于顯著性水平0.05,說明有統(tǒng)計(jì)學(xué)意義.線性回歸方程為容差(容忍度)越接近1,方差膨脹因子(VIP)越小,則多重共線性越弱.9.2曲線回歸分析一、核心知識1.基本原理變量間的非線性關(guān)系可以分為本質(zhì)線性關(guān)系和本質(zhì)非線性關(guān)系.本質(zhì)線性關(guān)系是指可以轉(zhuǎn)化為線性關(guān)系,再利用線性回歸分析;本質(zhì)非線性關(guān)系是指非線性關(guān)系不能轉(zhuǎn)化為線性關(guān)系,無法利用線性回歸分析建立模型,只能選取非線性回歸分析,而由迭代法進(jìn)行參數(shù)識別.首先,作散點(diǎn)圖以粗略觀察曲線形狀;其次,結(jié)合專業(yè)知識分析,或從長期積累數(shù)據(jù)中找出變量關(guān)系.比如細(xì)菌繁殖成倍增長時(shí),細(xì)菌總量與時(shí)間t有指數(shù)函數(shù)變化關(guān)系.有時(shí)難以確定哪種模型更接近,如二次曲線、三次曲線和指數(shù)曲線不好選擇.不妨首先點(diǎn)選多個(gè)模型,再比較優(yōu)選.模型參數(shù)估計(jì)并輸出回歸方程顯著性檢驗(yàn)的F值和概率值P、判定系數(shù)R2,以判定系數(shù)R2為依據(jù)選擇最優(yōu)模型.以時(shí)間t為自變量、數(shù)據(jù)本身y為因變量確定曲線模型,時(shí)間序列擬合及預(yù)測.【實(shí)例2】[問題敘述]研究發(fā)現(xiàn),錫克氏試驗(yàn)陰性率(y)隨兒童年齡(x)增長而升高.已知山東省某地1~7歲兒童資料,請選擇合適曲線建立非線性回歸分析模型.表9-9兒童錫克氏試驗(yàn)陰性率情況表年齡x(歲)1234567陰性率y(%)56.775.990.893.296.695.796.3[實(shí)驗(yàn)?zāi)康腯理解曲線回歸的適用條件,根據(jù)樣本數(shù)據(jù)建立曲線回歸方程,選擇相對最優(yōu)模型.[操作步驟]變量要求:一個(gè)因變量,變量類型為數(shù)值型;一個(gè)自變量,變量類型為數(shù)值型.定義“年齡”和“陰性率”兩個(gè)變量,兩個(gè)變量的類型為數(shù)值型,錄入數(shù)據(jù).菜單選擇:主菜單“分析(Analyze)”→“回歸(Regression)”→“曲線估計(jì)(CurveEstimation)”.界面設(shè)置:選擇變量“陰性率”進(jìn)入“因變量(Dependent)”框,選擇變量“年齡”進(jìn)入“變量(Variable)”框;在“模型(Models)”區(qū)域,選擇“線性(Linear)”、“二次項(xiàng)(Quadratic)”、“對數(shù)(Logarithmic)”、“立方(Cubic)”.點(diǎn)擊“確定(OK)”按鈕.[結(jié)果分析](1)模型情況表9-11曲線回歸估計(jì)結(jié)果情況因變量:陰性率方程模型匯總參數(shù)估計(jì)值R方Fdf1df2Sig.常數(shù)b1b2b3線性.71512.55315.01763.0005.864對數(shù).91452.99915.00160.99020.911二次.97166.18624.00138.71422.055-2.024三次.995196.22133.00124.71437.999-6.690.389經(jīng)分析,四個(gè)模型判定系數(shù)都比較大,模型擬合程度通過顯著性檢驗(yàn).三次曲線擬合優(yōu)度最高(R2=0.995),認(rèn)為對數(shù)據(jù)解釋能力最強(qiáng),對應(yīng)的概率值P=0.001<0.05.三次曲線模型(2)擬合曲線圖形圓圈為實(shí)際值,三次曲線的擬合效果最好9.3非線性回歸分析一、核心知識1.基本原理估計(jì)因變量和自變量之間具有任意關(guān)系的模型,由迭代法估計(jì)參數(shù).(1)函數(shù)是否能準(zhǔn)確描述因變量x和自變量y的關(guān)系.(2)選擇初始值重要,如果初始值不合適,則迭代過程不收斂.【實(shí)例3】[問題敘述]測得某女童1~9月的身高數(shù)據(jù),身高關(guān)于時(shí)間進(jìn)行非線性回歸分析.時(shí)間x(月)123456789身高y(cm)545761636466676869[實(shí)驗(yàn)?zāi)康腯理解非線性回歸分析適用條件,根據(jù)樣本數(shù)據(jù)選擇適當(dāng)?shù)暮瘮?shù)模型和初始值,利用SPSS擬合出因變量關(guān)于自變量的非線性回歸模型.[操作步驟]變量要求:一個(gè)因變量,變量類型為數(shù)值型;一個(gè)(或多個(gè))自變量,變量類型為數(shù)值型.定義“時(shí)間”和“身高”兩個(gè)數(shù)值型變量,然后分別錄入相關(guān)數(shù)據(jù).繪制因變量“身高”關(guān)于自變量“時(shí)間”的散點(diǎn)圖,結(jié)合經(jīng)驗(yàn)、專業(yè)知識,判斷“身高”與“時(shí)間”的關(guān)系曲線與對數(shù)函數(shù)曲線接近.菜單選擇:主菜單“分析(Analyze)”→“回歸(Regression)”→“非線性(Nonlinear)”.界面設(shè)置:選擇變量“身高”進(jìn)入“因變量(Dependent)”框;在“模型表達(dá)式(ModelExpression)”框中,編輯因變量關(guān)于自變量的函數(shù)關(guān)系式“a+b*ln(時(shí)間)”.初始參數(shù)設(shè)置比較重要,因變量隨著自變量增加而增加,初步判斷a、b都是正數(shù),不妨先設(shè)置初始值a=1,b=1.單擊主界面(圖9-6)中的“參數(shù)(Parameters)”按鈕.在“名稱(Name)”框輸入“a”,然后在“初始值(StartingValue)”框輸入“1”,單擊“添加(Add)”按鈕;同樣添加b的初始值為1.[結(jié)果分析](1)參數(shù)估計(jì)值參數(shù)估計(jì)標(biāo)準(zhǔn)誤95%置信區(qū)間下限上限a53.204.44152.16154.248b7.043.2806.3807.705(2)最終分析結(jié)果非線性回歸迭代過程收斂,最優(yōu)解被找到;擬合優(yōu)度好,決定系數(shù)為0.989;模型參數(shù)值有統(tǒng)計(jì)學(xué)意義.最終模型表達(dá)式為:y=53.204+7.043lnx
在實(shí)際應(yīng)用中,經(jīng)常遇到結(jié)局為定類資料情況:二分類變量:
是與否、有與無、陰性與陽性、吸煙與不吸煙、滿意與不滿意;多分類變量:
血型為“A、B、O和AB型”;療效為“痊愈、顯效、好轉(zhuǎn)、無效”.線性回歸無法滿足因變量的要求而失效,Logistic回歸分析可分析此類問題.1.基本原理已知自變量X1,X2,X3,…,Xm,結(jié)局事件Y為二分類因變量,賦值“發(fā)生Y=1,未發(fā)生Y=0”.自變量X1,X2,X3,…,Xm一般為定類變量或定序變量.記P=P(Y=1)為發(fā)生概率,P(Y=0)=1-P為不發(fā)生概率,則P取值介于0~1之間.10.1二分類Logistic回歸分析一、核心知識表達(dá)二分類因變量與多個(gè)自變量(影響因素)關(guān)系.學(xué)習(xí)目標(biāo):1、熟悉logistic回歸分析的提出思想2、掌握二分類logistic回歸分析3、熟悉無序多分類logistic回歸分析和有序多分類logistic回歸分析重點(diǎn):1、二分類logistic回歸分析第10章Logistic回歸分析如果建立線性回歸方程鑒于自變量可取任意值,則P取值范圍變?yōu)轱@然這與P取值[0,1]相互矛盾、無法解釋.考慮構(gòu)造出P的單調(diào)函數(shù)使之取值為且在P=0或1附近變化敏感.取值范圍為稱為發(fā)生與不發(fā)生優(yōu)勢比,流行病學(xué)中廣泛應(yīng)用.不妨作變換取值范圍構(gòu)造與m個(gè)自變量的回歸方程:其中為常數(shù)項(xiàng),為回歸系數(shù).取值范圍系數(shù)解釋為自變量X變化一個(gè)單位,引起的改變量.回歸方程等價(jià)形式為模型參數(shù)根據(jù)樣本數(shù)據(jù)估計(jì)得出,因其過程復(fù)雜性而由軟件完成.2模型參數(shù)2.1優(yōu)勢與優(yōu)勢比(1)優(yōu)勢(odds)優(yōu)勢(odds)是指控制其余自變量而某個(gè)自變量取值變化,結(jié)局事件發(fā)生與不發(fā)生概率的比值,即,稱為比數(shù)或比值.(2)優(yōu)勢比(oddsratio,OR)某個(gè)影響因素不同水平的優(yōu)勢比值之比,也稱為優(yōu)勢比.如有水平值C2和C1,則C2相對于C1的優(yōu)勢比為.OR表示影響因素不同水平變化對結(jié)局事件發(fā)生影響方向和影響能力.OR>1表示該因素為危險(xiǎn)因素;OR<1表示該因素為保護(hù)因素;OR=1表示該因素與事件的發(fā)生沒有關(guān)系.2.2系數(shù)意義假設(shè)自變量Xj有水平值C1、C2,其中C2>C1.也就是P1、P2分別表示Xj取值為C1、C2時(shí)的概率.表示控制其他自變量值,自變量Xj值每增加1個(gè)單位時(shí)變化量.設(shè)Xj暴露賦值1、非暴露賦值0,則暴露相對于非暴露的優(yōu)勢比則水平C2相對于水平C1的優(yōu)勢比:回歸系數(shù)與優(yōu)勢比(OR)j關(guān)系為=ln(OR)j.(1)=0時(shí),(OR)j=1,說明因素Xj對事件發(fā)生(Y=1)不起作用.(2)>0時(shí),(OR)j>1,
說明Xj是危險(xiǎn)因素,Xj取值增大會增加事件(Y=1)概率.(3)<0時(shí),(OR)j<1,說明Xj是保護(hù)因素,Xj取值增大會減少事件(Y=1)概率.3.自變量賦值隨著自變量賦值方式不同,參數(shù)估計(jì)值及符號也不同,則結(jié)果解釋意義也不同.3.1二分類變量賦值較小的水平常作為參照水平,二分類變量X常以0和1賦值.例如“有=1,無=0”;“男=1、女=0”.水平1與水平0的優(yōu)勢比有解釋意義.3.2無序多分類變量若為比較無序分類之間的類別變化,可以將所有分類轉(zhuǎn)化設(shè)置為啞變量形式.OR用于解釋其他類與參照類相比,引起結(jié)局事件Y發(fā)生與不發(fā)生概率的倍數(shù).無序多分類的自變量X轉(zhuǎn)化為啞變量:k個(gè)類別等同為k-1個(gè)啞變量(同進(jìn)同出).如教育程度共4個(gè)水平(類別):文盲、小學(xué)、初中、高中以上.以“文盲”為參照,將教育程度4個(gè)水平(類別)轉(zhuǎn)化為3個(gè)啞變量X1、X2、X3.表10-1啞變量設(shè)置表教育程度X1X2X3“文盲=0”000“小學(xué)=1”100“初中=2”010“高中以上=3”001僅考慮教育程度影響,則回歸方程:文盲小學(xué)初中高中以上以文盲作為參照,比數(shù)比無序多分類變量須設(shè)置啞變量,以最后一個(gè)類別為默認(rèn)參照.參照選取不同,則OR數(shù)值解釋也不同,用戶根據(jù)實(shí)際需要選擇參照水平,在列表框中設(shè)置指示符,點(diǎn)擊更改按鈕并得以生效.OR值:X1→小學(xué)對比文盲、X2→初中對比文盲、X3→高中以上對比文盲.3.3有序多分類變量若為比較有序分類之間的數(shù)值變化,可以不設(shè)置啞變量,則OR用于解釋等級取值每改變一個(gè)單位,引起結(jié)局事件Y發(fā)生與不發(fā)生概率的倍數(shù)變化.如果設(shè)置啞變量,則與無序分類變量相似解釋.3.4連續(xù)型數(shù)值變量若以連續(xù)型數(shù)值變量作為自變量(少用),解釋為取值每改變一個(gè)單位,引起結(jié)局事件Y發(fā)生與不發(fā)生概率的倍數(shù)變化,OR值變化往往無統(tǒng)計(jì)學(xué)意義,一般將其轉(zhuǎn)化為有序分類變量(分類水平值),在每個(gè)水平值間比較分析.例如,以年齡為連續(xù)型數(shù)值變量,比較患與不患高血壓的風(fēng)險(xiǎn)倍數(shù)變化.實(shí)際上,由X歲變?yōu)閄+1歲,1歲增加前后患高血壓風(fēng)險(xiǎn)優(yōu)勢比往往無變化.于是,不妨將年齡分組,討論高年齡組相對于低年齡(參照組)每改變一個(gè)級別引起的患高血壓風(fēng)險(xiǎn)的優(yōu)勢比,更有實(shí)際解釋意義.二、應(yīng)用條件及范圍(1)數(shù)據(jù)來自隨機(jī)樣本,觀察對象之間相互獨(dú)立.(2)因變量為二分類變量.自變量一般為定序變量或定類變量(須轉(zhuǎn)換啞變量).(3)自變量與logit(P)(即)之間為線性表達(dá)式關(guān)系.(4)樣本量足夠大,否則參數(shù)估計(jì)值不穩(wěn)定現(xiàn)象,有時(shí)甚至無法計(jì)算.經(jīng)驗(yàn)認(rèn)為,試驗(yàn)和對照人數(shù)至少為30~50例,樣本量至少為自變量數(shù)5~10倍.三、Logistic回歸分析的應(yīng)用Logistic回歸廣泛用于社會、心理或流行病調(diào)查領(lǐng)域的影響因素分析.(1)尋找危險(xiǎn)(影響)因素,篩選因變量的危險(xiǎn)(影響)因素.(2)預(yù)測:根據(jù)自變量預(yù)測某事件發(fā)生的概率(3)判別:根據(jù)自變量判斷屬于某事件的概率Logistic回歸一般步驟:“變量編碼→啞變量設(shè)置→自變量單因素分析→變量篩選→交互作用考察→模型優(yōu)選→模型評價(jià)→結(jié)果解釋”.在專業(yè)設(shè)計(jì)(調(diào)查問卷)時(shí)有意選擇具有實(shí)際意義的自變量,在統(tǒng)計(jì)設(shè)計(jì)時(shí)首先進(jìn)行單因素分析(粗選),繼續(xù)由Logistic回歸方法作多因素分析.【實(shí)例1】[問題敘述]篩選糖尿病發(fā)生的影響因素,由Logistic回歸模型進(jìn)行分析.令X1,X2,...,X7為自變量,Y為因變量(二分類).表10-2糖尿病患病可能影響因素賦值表因素變量名賦值說明年齡(歲)X1連續(xù)變量性別X2男=1、女=0糖尿病家族史X3無=0、有=1體重指數(shù)X4超重=1、肥胖=2、正常=3吸煙X5不吸煙=0、吸煙=1飲酒X6不飲酒=0、飲酒=1血壓X7正常=0、不正常=1糖尿病Y患病=1、不患病=0表10-3糖尿病相關(guān)影響因素調(diào)查資料(不列出、見數(shù)據(jù)庫)[實(shí)驗(yàn)?zāi)康腯理解二分類Logistic回歸分析的基本原理、應(yīng)用條件、主要用途,掌握模型參數(shù)與優(yōu)勢比OR值的關(guān)系與含義,利用SPSS根據(jù)樣本數(shù)據(jù)建立因變量關(guān)于自變量的Logistic回歸方程,篩選出主要的影響因素,并解釋實(shí)際意義.[操作步驟]變量要求:一個(gè)因變量,變量類型為數(shù)值型或字符型,且是為二分類變量;一個(gè)(或多個(gè))自變量,類型可以是連續(xù)型變量,也可以是定序變量或定類變量.定義9個(gè)變量:編號X1,X2,...,X7,Y,變量類型為數(shù)值型的,分別錄入關(guān)數(shù)據(jù).菜單選擇:主菜單“分析(Analyze)”→“回歸(Regression)”→“二元Logistic(BinaryLogistic)”.界面設(shè)置:選擇因變量Y進(jìn)入“因變量(Dependent)”框,選自變量X1,X2,...,X7到“協(xié)變量(Covariates)”框;在“方法(Method)”中選擇“向前:條件(Forward:Conditional)”方法.自變量篩選方法:進(jìn)入(強(qiáng)行進(jìn)入法,所有變量一次全部進(jìn)入方程)、向前:條件(向前法,基于條件參數(shù)似然比檢驗(yàn)的結(jié)果剔除變量)向前:LR(向前法,基于偏最大似然比檢驗(yàn)的結(jié)果剔除變量)向前:Wald(向前法,基于Wald統(tǒng)計(jì)量的結(jié)果剔除變量)向后:條件(后退法,基于條件參數(shù)似然比檢驗(yàn)的結(jié)果剔除變量)向后:LR(后退法,基于偏最大似然比檢驗(yàn)的結(jié)果剔除變量)向后:Wald(后退法,基于Wald統(tǒng)計(jì)量的結(jié)果剔除變量).無序多分類自變量X4-體重指數(shù)(超重=1、肥胖=2、正常=3),須設(shè)置啞變量.在三個(gè)以上類別情況下,單擊“分類(Categorical)”按鈕,設(shè)置啞變量.將X4選入“分類協(xié)變量(CategoricalCvariates)”框,對比方式以默認(rèn)“指示符”,參考類別是“最后一個(gè)”,點(diǎn)擊更改.OR值是以“體重正?!睘閰⒄?超重和肥胖相對優(yōu)勢之比.單擊“繼續(xù)(Continue)”;單擊“選項(xiàng)(Options)”按鈕,選取“exp(B)CI:95%”,生成OR值95%可信區(qū)間.單擊“確定(OK)”按鈕.表10-5啞變量賦值情況頻率參數(shù)編碼(1)(2)體重指數(shù)超重101.000.000肥胖8.0001.000正常12.000.000[結(jié)果分析]表10-4和表10-5顯示因變量Y和啞變量X4的賦值情況.請注意:二分類Logistic過程默認(rèn)以因變量較大取值的概率P(Y=1),分析結(jié)果時(shí)要弄清因變量的賦值情況,確保解釋正確性;可以設(shè)置啞變量的對照類型,默認(rèn)最后一個(gè).(2)回歸方程的檢驗(yàn)與分析表10-6模型的整體性檢驗(yàn)結(jié)果卡方dfSig.步驟1步驟14.4491.000塊14.4491.000模型14.4491.000步驟2步驟9.5841.002塊24.0332.000模型24.0332.000統(tǒng)計(jì)量為24.033,對應(yīng)的概率值P=0.000<0.001,在顯著性水平0.05下模型有統(tǒng)計(jì)學(xué)意義.表10-7模型擬合優(yōu)度分析結(jié)果步驟-2對數(shù)似然值Cox&SnellR方NagelkerkeR方126.605a.382.513217.021b.551.739經(jīng)擬合優(yōu)度分析,Cox&SnellR2=0.551,NagelkerkeR2=0.739,越接近1說明擬合優(yōu)度越好,本例中的擬合優(yōu)度情況良好.模型回歸系數(shù)檢驗(yàn)方法常用Wald卡方檢驗(yàn).表10-8模型回歸系數(shù)及其檢驗(yàn)和OR值BS.EWald卡方統(tǒng)計(jì)量dfSig.Exp(B)即OR值Exp(B)的95%C.I.下限上限步驟1aX33.245.99810.5771.00125.6673.631181.437常量-1.299.6513.9791.046.273步驟2bX1.187.0766.0561.0141.2051.0391.398X33.5521.4026.4181.01134.8802.234544.468常量-9.9323.8016.8281.009.000B、SE、Wald、df、Sig、Exp(B)及95%CI分別表示偏回歸系數(shù)、標(biāo)準(zhǔn)誤、統(tǒng)計(jì)量、自由度、P值、OR值及其95%置信區(qū)間.經(jīng)分析,經(jīng)過2次變量篩選后,X1(年齡)、X3(糖尿病家族史)被引入方程,回歸系數(shù)的Wald檢驗(yàn),對應(yīng)的概率值P均小于0.05,說明都有統(tǒng)計(jì)學(xué)意義.(3)結(jié)論Logistic回歸方程或影響因素有年齡(OR=1.205)和糖尿病家族史(OR=34.880),OR值均大于1,說明年齡、糖尿病家族史為糖尿病的危險(xiǎn)因素,糖尿病家族史是最危險(xiǎn)因素.若年齡每增加一歲,患與不患糖尿病風(fēng)險(xiǎn)之比是原來年齡的1.205倍;若有糖尿病家族史,患與不患糖尿病風(fēng)險(xiǎn)之比是無糖尿病家族史的34.880倍.由此認(rèn)為,有糖尿病家族史的老年居民是糖尿病的高發(fā)、易發(fā)人群.補(bǔ)充:由經(jīng)驗(yàn)常識,年齡增長1歲則患與不患糖尿病風(fēng)險(xiǎn)之比往往變化不明顯.此題若對年齡按分段組別來劃分:(1)如果將年齡組別劃分為有序分類數(shù)值,則年齡每上升一個(gè)等級,患與不患糖尿病風(fēng)險(xiǎn)之比是原來年齡等級的倍數(shù).(2)如果將年齡組別劃分為無序分類數(shù)值,則不妨以低年齡組作為參照,解釋其他年齡組與低年齡組患與不患糖尿病風(fēng)險(xiǎn)的倍數(shù).【練習(xí)1】[問題敘述]胃癌手術(shù)后預(yù)后因素分析資料共98例,指標(biāo)如下:Y:手術(shù)后三年情況(死亡=1、存活=0)X1:胃癌位置(1=胃底、2=胃體、3=胃竇)X2:胃癌大小(0、1、2、3、4、5級)X3:大體類型(1=潰瘍、2=腫塊、3=浸潤)X4:組織學(xué)類型(1=腺癌、2=粘液癌、3=未分化癌、4=混合型)X5:深度(1、2、3、4、5、6級)X6:淋巴結(jié)轉(zhuǎn)移(0、1、2、3級)X7:手術(shù)方式(1=I式、2=Ⅱ式、3=近胃、4=全切除)X8:血色素(g/L)X9:白細(xì)胞(個(gè)/立方毫米)X10:手術(shù)時(shí)年令(歲)X11:性別(1=男性、0=女性)X12:是否化療(1=用化療、0=未用化療)請以Y為因變量,X1~X12為自變量,逐步進(jìn)行Logistic回歸.注意:X1、X3、X4和X7為無序多分類變量,應(yīng)設(shè)置為啞變量;X2、X5、X6為有序多分類變量,不必設(shè)置為啞變量;X8、X9為連續(xù)型數(shù)值變量,不必設(shè)置為啞變量.不同類型變量篩選中,OR值解釋將會有差別.11.1生命表分析一、核心知識生存資料中要獲得各時(shí)間點(diǎn)上生存函數(shù)的估計(jì)值,常用壽命表法.特點(diǎn):療效指標(biāo)中既有結(jié)局變量、又有時(shí)間變量,隨訪對象可能會釋放或死于其他疾病,由于研究經(jīng)費(fèi)和時(shí)間限制不可能等到所有觀察對象都出現(xiàn)結(jié)局才終止.生存分析方法既考慮結(jié)局Y,又考慮生存時(shí)間t.生存時(shí)間:從起始事件到終點(diǎn)事件之間所經(jīng)歷的時(shí)間跨度.失效事件:反映治療效果特征的時(shí)間,又稱死亡事件或終點(diǎn)事件.資料類型:
完全數(shù)據(jù)或截尾數(shù)據(jù).截尾:
失訪、退出或終止.學(xué)習(xí)目標(biāo):1、掌握壽命表法和LM法2、掌握COX回歸分析重點(diǎn):1、COX回歸分析第11章生存分析1.基本原理壽命表法采用與編制生命表相似的原理計(jì)算生存率,通過計(jì)數(shù)落入?yún)^(qū)間[t,t+k]內(nèi)的失效和截尾的觀察例數(shù)來估計(jì)該區(qū)間死亡概率,然后根據(jù)概率的乘法原則,將不同時(shí)期的生存概率相乘,得到自觀察開始到指定某一時(shí)刻的生存率.2.應(yīng)用條件(1)壽命表法適用于區(qū)間數(shù)據(jù):當(dāng)資料是按照固定時(shí)間間隔收集,隨訪結(jié)果是該年或該月期間若干觀察人數(shù)、出現(xiàn)預(yù)期觀察結(jié)果數(shù)和截尾數(shù)(刪失數(shù)),數(shù)據(jù)總結(jié)成若干個(gè)時(shí)段頻數(shù)表形式,每位患者確切生存時(shí)間未知,應(yīng)當(dāng)用壽命表法進(jìn)行研究;(2)壽命表法適用于觀察例數(shù)較多而分組的大樣本生存資料.
3.適用范圍與對象(1)估計(jì)某生存時(shí)間的生存率,以及生存時(shí)間中位數(shù);(2)繪制各種曲線:如生存函數(shù)、風(fēng)險(xiǎn)函數(shù)曲線等;(3)對某一研究因素不同水平的生存時(shí)間分布的比較;(4)控制另一個(gè)因素后對研究因素不同水平的生存時(shí)間分布的比較;(5)對多組生存時(shí)間分布進(jìn)行兩兩比較.【實(shí)例1】[問題敘述]現(xiàn)有450例肺癌患者的隨訪資料,請對其生存情況進(jìn)行描述.表11-1450例肺癌患者的隨訪資料術(shù)后年數(shù)012345678910期間死亡人數(shù)9082655240302015842期間刪失人數(shù)324108542121[實(shí)驗(yàn)?zāi)康腯理解壽命表基本思想、應(yīng)用條件及適用范圍,掌握SPSS操作方法和結(jié)果解讀.[操作步驟]變量要求:將資料整理成頻數(shù)表形式,時(shí)間變量,類型為數(shù)值型;頻數(shù)變量,類型為數(shù)值型,加權(quán);結(jié)局變量,類型為數(shù)值型;還可以有分組變量,類型為數(shù)值型.隨訪時(shí)間數(shù)據(jù)是時(shí)間變量取值;隨訪期間的死亡和刪失人數(shù)是頻數(shù)變量取值;結(jié)局變量取值為1和0:若頻數(shù)為死亡則賦值1,若頻數(shù)為刪失(截尾)則賦值0.定義一個(gè)時(shí)間變量“術(shù)后年數(shù)”,一個(gè)頻數(shù)變量“人數(shù)”,一個(gè)結(jié)局變量“結(jié)局”,并設(shè)置其“值(Value)”為“1=死亡,0=刪失”.將術(shù)后年數(shù)錄入時(shí)間變量,將期間死亡人數(shù)和期間刪失人數(shù)錄入頻數(shù)變量,將頻數(shù)變量對應(yīng)的兩類數(shù)據(jù)分別錄入1、0至結(jié)局變量.菜單選擇:(1)變量加權(quán):主菜單“數(shù)據(jù)(Data)”→“加權(quán)個(gè)案(WeightCases)”→“加權(quán)個(gè)案(Weightcasesby)”;選頻數(shù)變量“人數(shù)”到“頻率變量(FrequencyVariable)”框,點(diǎn)擊“確定(OK)”按鈕.(2)生命表分析:主菜單“分析(Analyze)”→“生存函數(shù)(Survival)”→“壽命表(LifeTables)”.界面設(shè)置:將“術(shù)后年數(shù)”選入“時(shí)間(Time)”欄;在“顯示時(shí)間間隔(Displaytimeintervals)”區(qū)域,在“0到(0through)”框填入最大生存時(shí)間的上限10;在“步長(by)”框填入生存時(shí)間的組距1;在“狀態(tài)(Status)”框選入結(jié)局變量“結(jié)局”,點(diǎn)擊“定義事件(DefineEvents)”按鈕,在“單值(SingleValue)”框填入1.在主界面中,單擊“選項(xiàng)(Option)”按鈕,在“圖形(Plot)”區(qū)域,勾選“生存函數(shù)(Survival)”,點(diǎn)擊“繼續(xù)(Continue)”,其它按默認(rèn)值,點(diǎn)擊“確定(OK)”按鈕.經(jīng)分析,中位數(shù)生存時(shí)間為2.78年,表明術(shù)后死亡人數(shù)達(dá)到一半時(shí)間為2.78年.其他指標(biāo):☆終結(jié)比例,即死亡概率;☆生存比例,即生存概率;☆期末的累積生存比例,即截止本段上限的累積生存概率;☆概率密度指所有個(gè)體在時(shí)點(diǎn)t后單位時(shí)間內(nèi)死亡概率估計(jì)值;☆風(fēng)險(xiǎn)率,表示活過時(shí)點(diǎn)t后、單位時(shí)間內(nèi)死亡概率估計(jì)值;☆風(fēng)險(xiǎn)率的標(biāo)準(zhǔn)誤等.期初時(shí)間期初記入數(shù)期內(nèi)退出數(shù)歷險(xiǎn)數(shù)期間終結(jié)數(shù)終結(jié)比例生存比例期末累積生存比例概率密度風(fēng)險(xiǎn)率04503448.50090.20.80.80.201.2213572356.00082.23.77.62.184.2622734271.00065.24.76.47.148.27320410199.00052.26.74.35.122.3041428138.00040.29.71.25.100.34594591.50030.33.67.16.080.39659457.00020.35.65.11.058.43735234.00015.44.56.06.047.57818117.5008.46.54.03.027.599928.0004.50.50.02.016.6710312.5002.80.20.00.000.00表11-2肺癌患者術(shù)后壽命表圖11-2為累積生存率曲線圖,橫坐標(biāo)為生存的時(shí)間,而縱坐標(biāo)是生存函數(shù)的大小.顯然,隨著時(shí)間流逝,生存的概率遞減,曲線呈下降趨勢.11.2Kaplan-Meier分析一、核心知識Kaplan-Meier法利用條件概率及概率乘法原理計(jì)算生存率及標(biāo)準(zhǔn)誤,又稱乘積極限法(Product-LimitMethod,P-L法).1.1生存率計(jì)算:(1)生存時(shí)間由小到大排列;(2)生存時(shí)間t對應(yīng)的死亡人數(shù);(3)期初觀察人數(shù);(4)計(jì)算條件死亡率及條件生存率;(5)計(jì)算活過t時(shí)點(diǎn)的生存率.生存率的標(biāo)準(zhǔn)誤計(jì)算:1.2生存曲線:以生存時(shí)間為橫軸,生存率為縱軸繪制生存曲線并描述生存過程,又稱K—M曲線,分析時(shí)應(yīng)注意曲線高度和下降坡度.1.3中位生存時(shí)間(生存時(shí)間中位數(shù)):50%個(gè)體存貨期大于該時(shí)間.2.應(yīng)用條件Kaplan-Meier分析適用于小樣本或者大樣本未分組資料的生存率的估計(jì)和組間生存率的比較,主要用于樣本含量較小的資料分析.3.適用范圍與對象(1)估計(jì)各生存時(shí)間的生存率和中位生存時(shí)間;(2)繪制曲線:如生存函數(shù)、風(fēng)險(xiǎn)函數(shù)曲線等;(3)某因素不同水平的生存時(shí)間有無差異比較;(4)控制某個(gè)分層因素后對研究因素不同水平的生存時(shí)間分布比較;(5)多組生存時(shí)間分布兩兩比較;(6)各總體分布比較采用Log-rank等非參數(shù)方法.【實(shí)例2】[問題敘述]中藥加化療(中藥組)和化療(對照組)療法治療白血病,隨訪記錄患者生存時(shí)間,不帶“+”號者表示已死亡,即完全數(shù)據(jù);帶“+”號者表示尚存活,即截尾數(shù)據(jù),請作生存分析.表11-3兩組療法治療白血病隨訪資料(單位:月)中藥組102+12+13186+19+269+8+6+43+943124對照組2+137+11+61113177[實(shí)驗(yàn)?zāi)康腯理解Kaplan-Meier法基本思想、應(yīng)用條件及適用范圍,掌握SPSS操作方法和結(jié)果解讀.[操作步驟]變量要求:時(shí)間變量,類型為數(shù)值型;結(jié)局變量,類型為數(shù)值型;還可以有分組變量,類型為數(shù)值型或字符型.隨訪時(shí)間數(shù)據(jù)是時(shí)間變量取值;結(jié)局變量取值為1和0(死亡為1,截尾為0).定義時(shí)間變量“生存時(shí)間”;結(jié)局變量“
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商場泔水清運(yùn)專項(xiàng)服務(wù)合同
- 二零二五年度寶石匠人珠寶店珠寶行業(yè)法律咨詢合同
- 廚衛(wèi)改造工程合同樣本
- 旅游規(guī)劃與設(shè)計(jì)行業(yè)智能化旅游目的地打造方案
- 電子通訊網(wǎng)絡(luò)工程指南
- 職業(yè)病診斷與鑒定作業(yè)指導(dǎo)書
- 三農(nóng)產(chǎn)品流通體系國際化與走出去戰(zhàn)略作業(yè)指導(dǎo)書
- 三農(nóng)田灌溉管理方案
- 多應(yīng)用臨時(shí)借款合同常用
- 房產(chǎn)歸男方無債務(wù)離婚協(xié)議書
- 2024年全國統(tǒng)一高考英語試卷(新課標(biāo)Ⅰ卷)含答案
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識 CCAA年度確認(rèn) 試題與答案
- 2022屆“一本、二本臨界生”動員大會(2023.5)
- 肝臟炎性假瘤的影像學(xué)表現(xiàn)培訓(xùn)課件
- 國家行政機(jī)關(guān)公文格式課件
- 耐壓絕緣硅橡膠涂料噴涂作業(yè)指導(dǎo)書
- 小學(xué)《體育與健康》 人教版 三年級 乒乓球運(yùn)動 -乒乓球介紹與球性教學(xué) 第一節(jié)課PPT 課件
- 急性心梗的護(hù)理業(yè)務(wù)學(xué)習(xí)課件
- 導(dǎo)向標(biāo)識系統(tǒng)設(shè)計(jì)(二)課件
- 聚焦:如何推進(jìn)教育治理體系和治理能力現(xiàn)代化
- 化工儀表自動化【第四章】自動控制儀表
評論
0/150
提交評論