SAS的logistic回歸(正式)_第1頁
SAS的logistic回歸(正式)_第2頁
SAS的logistic回歸(正式)_第3頁
SAS的logistic回歸(正式)_第4頁
SAS的logistic回歸(正式)_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、華中科技大學公衛(wèi)學院流行病與衛(wèi)生統(tǒng)計系蔣紅衛(wèi)蔣紅衛(wèi)Email: JHWCCC21CN.COM學習目標學習目標 了解了解LogisticLogistic回歸模型的建立和假設檢驗;回歸模型的建立和假設檢驗; 了解了解LogisticLogistic回歸模型的應用領域;回歸模型的應用領域; 掌握掌握LogisticLogistic回歸模型系數(shù)的解釋,及回歸系數(shù)回歸模型系數(shù)的解釋,及回歸系數(shù)與與OROR值之間的關系;值之間的關系; 掌握掌握LogisticLogistic回歸過程步;回歸過程步; 掌握啞變量的設置和結果的解釋;掌握啞變量的設置和結果的解釋; 掌握多元掌握多元LogisticLogist

2、ic回歸模型的逐步過程法和系數(shù)回歸模型的逐步過程法和系數(shù)的解釋;的解釋; 了解條件了解條件LogisticLogistic回歸的應用;回歸的應用; 掌握條件掌握條件LogisticLogistic回歸的回歸的SASSAS程序;程序;概述概述 線性回歸模型和廣義線性回歸模型要求因變量是線性回歸模型和廣義線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關系。當因變量是分類型變量時,且自變量與因關系。當因變量是分類型變量時,且自變量與因變量沒有線性關系時,線性回歸模型的假設條件變量沒有線性關系時,線性回歸模型的假設條件遭到破壞。這時,最好的

3、回歸模型是遭到破壞。這時,最好的回歸模型是LogisticLogistic回回歸模型,它對因變量的分布沒有要求,從數(shù)學角歸模型,它對因變量的分布沒有要求,從數(shù)學角度看,度看,LogisticLogistic回歸模型非常巧妙地避開了分類回歸模型非常巧妙地避開了分類型變量的分布問題,補充完善了線性回歸模型和型變量的分布問題,補充完善了線性回歸模型和廣義線性回歸模型的缺陷。從醫(yī)學研究角度看,廣義線性回歸模型的缺陷。從醫(yī)學研究角度看,LogisticLogistic回歸模型解決了一大批實際應用問題,回歸模型解決了一大批實際應用問題,對醫(yī)學的發(fā)展起著舉足輕重的作用。對醫(yī)學的發(fā)展起著舉足輕重的作用。 非條

4、件非條件LogisticLogistic回歸回歸 LogisticLogistic回歸分析在醫(yī)學回歸分析在醫(yī)學研究研究中應用廣泛。中應用廣泛。目前目前主要是用于流行病學研究中危險因素主要是用于流行病學研究中危險因素的篩選,但它同時具有良好的判別和預測的篩選,但它同時具有良好的判別和預測功能,尤其是在資料類型不能滿足功能,尤其是在資料類型不能滿足FisherFisher判別和判別和BayesBayes判別的條件時,更顯示出判別的條件時,更顯示出LogisticLogistic回歸判別的優(yōu)勢和效能。本研究對回歸判別的優(yōu)勢和效能。本研究對LogisticLogistic回歸方程的判別分析進行了探討。

5、回歸方程的判別分析進行了探討。非條件非條件LogisticLogistic回歸回歸 醫(yī)學研究中經常需要分析分類型變量的問題。比如,生存醫(yī)學研究中經常需要分析分類型變量的問題。比如,生存與死亡、有病與無病、有效與無效、感染與未感染等二分與死亡、有病與無病、有效與無效、感染與未感染等二分類變量。研究者關心的問題是,哪些因素導致了人群中有類變量。研究者關心的問題是,哪些因素導致了人群中有些人患某種病而有些人不患某種病,哪些因素導致了某種些人患某種病而有些人不患某種病,哪些因素導致了某種治療方法出現(xiàn)治愈、顯效、好轉和無效等不同的效果等。治療方法出現(xiàn)治愈、顯效、好轉和無效等不同的效果等。這類問題,實質上

6、是一個回歸問題,因變量就是上述提到這類問題,實質上是一個回歸問題,因變量就是上述提到的這些分類型變量,自變量的這些分類型變量,自變量x x是與之有關的一些因素。但是與之有關的一些因素。但是,這樣的問題卻不能直接用線性回歸分析方法解決,其是,這樣的問題卻不能直接用線性回歸分析方法解決,其根本原因在于因變量是分類型變量,嚴重違背了線性回歸根本原因在于因變量是分類型變量,嚴重違背了線性回歸分析對數(shù)據的假設條件。那么應該怎樣解決這個問題呢?分析對數(shù)據的假設條件。那么應該怎樣解決這個問題呢?非條件非條件LogisticLogistic回歸回歸 研究者將所研究的問題轉換一個角度,不研究者將所研究的問題轉換

7、一個角度,不是直接分析是直接分析y y與與x x的關系,而是分析的關系,而是分析y y取某個取某個值的概率值的概率P P與與x x的關系。例如,令的關系。例如,令y y為為1 1,0 0變量,變量,y=1y=1表示有病,表示有病,y=0y=0表示未患??;表示未患??;x x是與患病有關的危險因素。如果是與患病有關的危險因素。如果P P表示患病表示患病的概率,即的概率,即P P=prob=prob(y=1y=1),那么研究患),那么研究患病的概率病的概率P P與危險因素與危險因素x x的關系就不是很困的關系就不是很困難的事情了。難的事情了。非條件非條件LogisticLogistic回歸回歸 分析

8、因變量分析因變量y y取某個值的概率取某個值的概率P P與自變量與自變量x x的關系,就是尋的關系,就是尋找一個連續(xù)函數(shù),使得當找一個連續(xù)函數(shù),使得當x x變化時,它對應的函數(shù)值變化時,它對應的函數(shù)值P P不超不超出出00,11范圍。數(shù)學上這樣的函數(shù)是存在且不唯一的,范圍。數(shù)學上這樣的函數(shù)是存在且不唯一的,LogisticLogistic回歸模型就是滿足這種要求的函數(shù)之一。與線性回歸模型就是滿足這種要求的函數(shù)之一。與線性回歸分析相似,回歸分析相似,LogisticLogistic回歸分析的基本原理就是利用一回歸分析的基本原理就是利用一組數(shù)據擬合一個組數(shù)據擬合一個LogisticLogistic

9、回歸模型,然后借助這個模型揭回歸模型,然后借助這個模型揭示總體中若干個自變量與一個因變量取某個值的概率之間示總體中若干個自變量與一個因變量取某個值的概率之間的關系。具體地說,的關系。具體地說,LogisticLogistic回歸分析可以從統(tǒng)計意義上回歸分析可以從統(tǒng)計意義上估計出在其它自變量固定不變的情況下,每個自變量對因估計出在其它自變量固定不變的情況下,每個自變量對因變量取某個值的概率的數(shù)值影響大小。變量取某個值的概率的數(shù)值影響大小。 LogisticLogistic回歸模型有條件與非條件之分,前者適用于配對回歸模型有條件與非條件之分,前者適用于配對病例對照資料的分析,后者適用于隊列研究或非

10、配對的病病例對照資料的分析,后者適用于隊列研究或非配對的病例例- -對照研究成組資料的分析。對照研究成組資料的分析。問題的提出問題的提出 在流行病學研究中,經常遇到因變量為離散型分在流行病學研究中,經常遇到因變量為離散型分類變量的情況。如治療效果的無效好轉、顯效、類變量的情況。如治療效果的無效好轉、顯效、痊愈;不同染毒劑量下小白鼠的存活或死亡;在痊愈;不同染毒劑量下小白鼠的存活或死亡;在某種暴露下的發(fā)病與不發(fā)病等。最常見的情況是某種暴露下的發(fā)病與不發(fā)病等。最常見的情況是因變量為二分變量的問題。因變量為二分變量的問題。 多元線性回歸的局限性多元線性回歸的局限性 經典流行病學統(tǒng)計分析方法經典流行病

11、學統(tǒng)計分析方法分層分析的局限性分層分析的局限性1.1.兩種主要的流行病學設計兩種主要的流行病學設計1 1)病歷對照研究)病歷對照研究2 2)隊列研究)隊列研究2.2.判斷結局(疾?。┖捅┞叮ㄒ蛩兀┞?lián)系強弱的指標判斷結局(疾病)和暴露(因素)聯(lián)系強弱的指標1 1) 相對危險度:相對危險度:RR = p1 / p0 RR = p1 / p0 p1: p1: 暴露于某個危險因素下發(fā)病的概率暴露于某個危險因素下發(fā)病的概率 p0: p0: 不暴露于某個危險因素下發(fā)病的概率(對照)不暴露于某個危險因素下發(fā)病的概率(對照)2 2)比值比:)比值比: OR = P(D=1|E=1)/P(D=0|E=1) /

12、OR = P(D=1|E=1)/P(D=0|E=1) / P(D=1|E=0)/P(D=0|E=0) P(D=1|E=0)/P(D=0|E=0) D=1: D=1: 患某種疾病,患某種疾病, D=0D=0:不患某種疾?。翰换寄撤N疾病 E=1: E=1: 暴露于某個危險因素,暴露于某個危險因素, E=0: E=0: 不暴露于某個危險因素不暴露于某個危險因素 可以簡單地表述成:可以簡單地表述成:OR = (p1 / q1) / (p0 / q0) OR = (p1 / q1) / (p0 / q0) p1 : p1 : 暴露于某個危險因素下發(fā)病的概率暴露于某個危險因素下發(fā)病的概率 q1 : q1

13、: 暴露于某個危險因素下不發(fā)病的概率暴露于某個危險因素下不發(fā)病的概率 p0 : p0 : 不暴露于某個危險因素下發(fā)病的概率不暴露于某個危險因素下發(fā)病的概率 q0 : q0 : 不暴露于某個危險因素下不發(fā)病的概率不暴露于某個危險因素下不發(fā)病的概率 能夠描述病因學意義的指標是能夠描述病因學意義的指標是RRRR OROR本身沒有病因學意義本身沒有病因學意義 OROR的病因學意義主要體現(xiàn)在發(fā)病率的病因學意義主要體現(xiàn)在發(fā)病率/ /患病率比較患病率比較低的情形,此時,低的情形,此時,OROR近似于近似于RRRR OROR值是描述暴露與疾病關聯(lián)強度的指標值是描述暴露與疾病關聯(lián)強度的指標l分層分析中,可以分別

14、計算出分層后的分層分析中,可以分別計算出分層后的各層各層OROR值,如果發(fā)現(xiàn)與總的值,如果發(fā)現(xiàn)與總的OROR有較大有較大的差異,則可以認為該風層因素是混雜的差異,則可以認為該風層因素是混雜因素。必須對該因素進行因素。必須對該因素進行MHMH調整,調調整,調整后的整后的OROR值才能真正反映因素和結局值才能真正反映因素和結局間的關系。間的關系。l如果當分層后各層的如果當分層后各層的OROR值經過一致性值經過一致性檢驗發(fā)現(xiàn):各層間的檢驗發(fā)現(xiàn):各層間的OROR值有統(tǒng)計學差值有統(tǒng)計學差異,這時說明分析因素在分層因素的不異,這時說明分析因素在分層因素的不同水平上與結局變量的聯(lián)系強度是不同同水平上與結局變

15、量的聯(lián)系強度是不同的,這時分層因素和研究因素存在這交的,這時分層因素和研究因素存在這交互作用(效應修飾作用)。這時應該分互作用(效應修飾作用)。這時應該分層報告層報告OROR值,而不能計算調整值,而不能計算調整OROR值。值。l分層分析的局限性分層分析的局限性l只能控制少數(shù)因素(分層因素過多只能控制少數(shù)因素(分層因素過多,每個格子中的樣本例數(shù)太少),每個格子中的樣本例數(shù)太少)l定量資料需要分組,信息丟失定量資料需要分組,信息丟失l不能對因素作用大小進行定量分析不能對因素作用大小進行定量分析(交互作用)(交互作用) 經過數(shù)理統(tǒng)計學家證明:把疾病概率 P 轉換成 pp1ln,會使該回歸方程的統(tǒng)計性

16、能更好一些。而且,在經過轉換以后, pp1ln的值域為-到+,而且這些 pp1ln值都可以和在大于0小于1范圍內的P值相對應。統(tǒng)計學中,常把 pp1ln稱為 Logit 變換。 yy = logy = log2 2x x01二、二、Logistic Logistic 回歸原理回歸原理Logistic 回回歸歸方方程程: pp1ln = nnxx 110 , 而而且且有有: )()(1101101nnnnxxxxeep Logistic 模型中系數(shù)的意義:模型中系數(shù)的意義: 回歸系數(shù)的流行病學意義是:在其它自變量都回歸系數(shù)的流行病學意義是:在其它自變量都不變的條件下,當因素不變的條件下,當因素X

17、 X變化一個測量單位時所引起的變化一個測量單位時所引起的OROR值自然對數(shù)的改變量。值自然對數(shù)的改變量。 pp1ln = 11x 111xepp 1XOR= 00111111 XXXXqpqp=001111111.1.xxxxpppp =1111xxee=0111ee = 1e 三、三、Logistic Logistic 回歸和回歸和OROR值間的關系值間的關系假設建立了如下的假設建立了如下的logisticlogistic回歸方程:回歸方程:Logit P = Logit P = + x + xx x 為二分變量,當暴露時,取值為為二分變量,當暴露時,取值為1 1; 不暴露時,取值為不暴露時

18、,取值為0 0。所以所以暴露暴露時時, ,Logit(PLogit(P1 1) = ) = + + , 比值比值(odds) = exp( + )(odds) = exp( + )所以所以不暴露不暴露時時, , Logit(PLogit(P0 0) = ) = , 比值比值(odds) = exp()(odds) = exp()則,暴露對于不暴露的比值比則,暴露對于不暴露的比值比(odds ratio)(odds ratio)為:為:OR =OR = exp( + ) / exp() = exp()exp( + ) / exp() = exp()以四格表為例來說明最大似然求解的意義及過程。以四

19、格表為例來說明最大似然求解的意義及過程。四格表的一般表達形式四格表的一般表達形式發(fā)病發(fā)病(y=1)(y=1)不發(fā)病不發(fā)病(y=0) (y=0) 暴露暴露(x=1)(x=1)a ab b 不暴露不暴露(x=0)(x=0)c cd d 合計合計a+ca+cb+db+d 暴露者發(fā)病概率暴露者發(fā)病概率 p p1 1 = a /(a+b); = a /(a+b); 不暴露者發(fā)病概率不暴露者發(fā)病概率 p p0 0= c/(c+d)= c/(c+d)OR= ad/(bc)OR= ad/(bc)四、四、Logistic Logistic 回歸最大似然建?;貧w最大似然建模用發(fā)病概率來表示四格表,可以得到四格表的

20、另外一種表示形式:用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式:四格表的另外一種表達形式四格表的另外一種表達形式(1)(1)發(fā)病發(fā)病(y=1)(y=1)不發(fā)病不發(fā)病(y=0) (y=0) 暴露暴露(x=1)(x=1) p p1 1 1- 1- p p1 1 不暴露不暴露(x=0)(x=0) p p0 0 1- 1- p p0 0 暴露者發(fā)病概率暴露者發(fā)病概率: p: p1 1 = exp( = exp( + x)/1+ + x)/1+ exp(exp( + x) + x) 暴露者不發(fā)病概率暴露者不發(fā)病概率: q: q0 0= 1- p= 1- p1 1 = 1/ = 1/ 1+ 1

21、+ exp(exp( + x) + x); ;不暴露者發(fā)病概率不暴露者發(fā)病概率: p: p0 0 = exp( = exp()/1+ )/1+ exp(exp() 不暴露者不發(fā)病概率不暴露者不發(fā)病概率: q: q0 0= 1- p= 1- p0 0 = 1/ = 1/1+ 1+ exp(exp() ; ;用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式:用發(fā)病概率來表示四格表,可以得到四格表的另外一種表示形式:四格表的另外一種表達形式四格表的另外一種表達形式(2)(2)發(fā)病發(fā)病(y=1)(y=1)不發(fā)病不發(fā)病(y=0)(y=0) 暴露暴露(x=1) e(x=1) e( ( + ) +

22、)/1+ /1+ e e ( ( + ) + ) 1/ 1/ 1+ 1+ e e ( ( + ) + ) 不暴露不暴露(x=0) (x=0) e e /1+ /1+ e e 1/ 1/ 1+ 1+ e e 因為四格表的四個實際數(shù)為因為四格表的四個實際數(shù)為a,b,ca,b,c及及d d, 故可構造似然函數(shù)為:故可構造似然函數(shù)為:L = L = e e( ( + ) + )/1+ /1+ e e ( ( + ) + ) a a 1/ 1/ 1+ 1+ e e ( ( + ) + ) b be e /1+ /1+ e e c c 1/ 1/ 1+ 1+ e e d d 取對數(shù),有取對數(shù),有Ln (L

23、) = a (Ln (L) = a ( + ) + ) a ln1+e a ln1+e( + )( + ) b ln1+e b ln1+e ( + )( + ) + c + c c ln 1+e c ln 1+e d ln1+e d ln1+e 對以上似然函數(shù)分別求對對以上似然函數(shù)分別求對 和和 的一階偏導數(shù),再令兩個偏導數(shù)為的一階偏導數(shù),再令兩個偏導數(shù)為零,就可以解得零,就可以解得 和和 的估計值。的估計值。v在經典流行病學分析里對因素的統(tǒng)計學意義檢驗在經典流行病學分析里對因素的統(tǒng)計學意義檢驗是檢驗是檢驗OROR值是否為值是否為1 1v對于對于LogisticLogistic回歸來說,對模型

24、中變量的統(tǒng)計學回歸來說,對模型中變量的統(tǒng)計學檢驗就是對檢驗其回歸系數(shù)是否為檢驗就是對檢驗其回歸系數(shù)是否為0 0v一般常用的方法有三種:似然比檢驗、一般常用的方法有三種:似然比檢驗、WaldWald檢驗檢驗、比分檢驗、比分檢驗五、五、Logistic Logistic 回歸模型的統(tǒng)計學回歸模型的統(tǒng)計學檢驗檢驗1 1)似然比檢驗)似然比檢驗似然比檢驗的原理是通過分析模型中變量似然比檢驗的原理是通過分析模型中變量變化對似然比的影響,來檢驗增加變化對似然比的影響,來檢驗增加/ /減少的自減少的自變量是否對應變量有統(tǒng)計學上的顯著意義。變量是否對應變量有統(tǒng)計學上的顯著意義。 檢驗統(tǒng)計量:檢驗統(tǒng)計量:G =

25、 -2 Ln (LkG = -2 Ln (Lk1) - Ln (Lk) 1) - Ln (Lk) Ln (Lk Ln (Lk1)1)為不包含檢驗變量時模型的對數(shù)為不包含檢驗變量時模型的對數(shù)似然值似然值 Ln (Lk)Ln (Lk)為包含檢驗變量時模型的對數(shù)似然為包含檢驗變量時模型的對數(shù)似然值值v當檢驗一個變量時則當檢驗一個變量時則GG服從自由度為服從自由度為1 1的的 2 2 分分布布v當對模型整個進行檢驗時就是相當于模型中所當對模型整個進行檢驗時就是相當于模型中所有有n n個變量的回歸系數(shù)都為個變量的回歸系數(shù)都為0 0, GG服從自由度服從自由度為為n n的的 2 2 分布分布2 2)Wal

26、d Wald 統(tǒng)計量檢驗回歸系數(shù)是否為統(tǒng)計量檢驗回歸系數(shù)是否為0 0對于方程內單個自變量的檢驗,采用對于方程內單個自變量的檢驗,采用Wald Wald 統(tǒng)計量。統(tǒng)計量。W = / SW = / S S S 為為 的標準誤。的標準誤。其臨界值可取標準正態(tài)分布的臨界值。同時,其臨界值可取標準正態(tài)分布的臨界值。同時,WW2 2遵遵循自由度為循自由度為1 1的卡方分布。的卡方分布。 的的9595可信區(qū)間為:可信區(qū)間為: ( 1.961.96 S S , 1.961.96 S S )OROR的的9595可信區(qū)間為:可信區(qū)間為: ( exp( ( exp( 1.961.96 S S ), exp( + 1

27、.96 ), exp( + 1.96 S S ) ) )3 3)比分檢驗)比分檢驗 在原有模型的基礎上增加一個變量,并假設該在原有模型的基礎上增加一個變量,并假設該變量的回歸系數(shù)為變量的回歸系數(shù)為0 0,似然函數(shù)一階偏導和信息矩陣,似然函數(shù)一階偏導和信息矩陣的乘積為比分檢驗統(tǒng)計量的乘積為比分檢驗統(tǒng)計量S S。S S在樣本量較大時服從自在樣本量較大時服從自由度為檢驗參數(shù)個數(shù)的由度為檢驗參數(shù)個數(shù)的 2 2 分布分布l 上述方法中,似然比檢驗最可靠,上述方法中,似然比檢驗最可靠,WaldWald檢驗和比檢驗和比分檢驗一致。分檢驗一致。l WaldWald檢驗沒有考慮變量間的相互影響,當因素間檢驗沒有

28、考慮變量間的相互影響,當因素間相關時(存在共線性)不可靠相關時(存在共線性)不可靠l 參數(shù)的可信區(qū)間是以參數(shù)的可信區(qū)間是以WaldWald法計算的,在應用可信法計算的,在應用可信區(qū)間時要注意區(qū)間時要注意 PROC LOGISTICPROC LOGISTIC過程過程 SASSAS系統(tǒng)中進行系統(tǒng)中進行LogisticLogistic回歸分析的過程步是回歸分析的過程步是PROC LOGISTICPROC LOGISTIC過程。下面我們先了解以下這過程。下面我們先了解以下這個過程步。個過程步。LOGISTICLOGISTIC過程的語句基本格式如下過程的語句基本格式如下: PROC LOGISTIC d

29、ata= descending PROC LOGISTIC data= descending simple order= ;simple order= ; Model Model 因變量自變量因變量自變量/link= noint rsq cl /link= noint rsq cl rl selection= sle= sls=;rl selection= sle= sls=; freq freq 頻數(shù)變量頻數(shù)變量; ; output out= pred= output out= pred=變量名;變量名; run;run;PROC LOGISTICPROC LOGISTIC過程過程 DESC

30、ENDINGDESCENDING:指令系統(tǒng)輸出因變量取值由大到小的概:指令系統(tǒng)輸出因變量取值由大到小的概率,缺省時,系統(tǒng)輸出因變量取值由小到大的概率。使用率,缺省時,系統(tǒng)輸出因變量取值由小到大的概率。使用和不使用和不使用DESCENDINGDESCENDING語句的回歸模型的回歸系數(shù)絕對語句的回歸模型的回歸系數(shù)絕對值完全相同,但是符號完全相反。值完全相同,但是符號完全相反。 SIMPLESIMPLE:指令系統(tǒng)輸出每一個自變量的基本統(tǒng)計量。:指令系統(tǒng)輸出每一個自變量的基本統(tǒng)計量。 MODELMODEL:給出模型的因變量和自變量。:給出模型的因變量和自變量。 LINKLINK:指定因變量概率函數(shù)的

31、形式:指定因變量概率函數(shù)的形式 NOINTNOINT:指令模型不含常數(shù)項。:指令模型不含常數(shù)項。 RSQRSQ:指定輸出確定系數(shù)。:指定輸出確定系數(shù)。PROC LOGISTICPROC LOGISTIC過程過程 CLCL:指定輸出參數(shù)估計值的可信區(qū)間。:指定輸出參數(shù)估計值的可信區(qū)間。 RLRL:指定輸出相對危險度(或比數(shù)比)的可信區(qū)間。:指定輸出相對危險度(或比數(shù)比)的可信區(qū)間。 SELECTIONSELECTION、SLESLE和和SLSSLS:和:和REGREG過程步的對應選項一過程步的對應選項一樣,用于逐步回歸分析。樣,用于逐步回歸分析。 FREQFREQ:是否使用,取決于數(shù)據的輸入方法

32、。當:是否使用,取決于數(shù)據的輸入方法。當x x和和y y變量變量的觀察值被直接輸入到的觀察值被直接輸入到SASSAS數(shù)據集時,不需要使用數(shù)據集時,不需要使用FREQFREQ語句。但是,當語句。但是,當x x是分類型變量,且是分類型變量,且x x和和y y變量的觀察值不變量的觀察值不是直接輸入到是直接輸入到SASSAS數(shù)據集時,而是將數(shù)據集時,而是將x x和和y y變量的頻數(shù)輸入變量的頻數(shù)輸入到到SASSAS數(shù)據集中時,需要使用數(shù)據集中時,需要使用FREQFREQ語句。語句。 OUTPUTOUTPUT語句:用來保存指定的分析結果。語句:用來保存指定的分析結果。OutOut選擇項用選擇項用來給出輸

33、出數(shù)據集的名字。來給出輸出數(shù)據集的名字。PredPred選擇項用來給出一個預測選擇項用來給出一個預測概率的變量名。概率的變量名。例題條件二分類例題條件二分類 某北方城市研究喉癌發(fā)病的危險因素,用某北方城市研究喉癌發(fā)病的危險因素,用1 12 2配對的病例配對的病例 對照研究方法進行了調查對照研究方法進行了調查?,F(xiàn)選取了?,F(xiàn)選取了6 6個可能的危險因素,試做條件個可能的危險因素,試做條件logisticlogistic逐步回歸分析逐步回歸分析 。27)15. 0,10. 0( 出出入入 因素因素變量名變量名賦值說明賦值說明咽炎咽炎X1無無=1,偶爾,偶爾=2,經常,經常=3吸煙量吸煙量(支支/日日

34、)X20=1,1=2,5=3,10=4,20=5聲嘶史聲嘶史X3無無=1,偶爾,偶爾=2,經常,經常=3攝食新鮮蔬菜攝食新鮮蔬菜X4少少=1,經常,經常=2,每天,每天=3攝食水果攝食水果X5很少很少=1,少量,少量=2,經常,經常=3癌癥家族史癌癥家族史X6無無=0,有,有=1是否患喉癌是否患喉癌對照對照=0,病例,病例=1Y例題例題2 2多個自變量的二分類多個自變量的二分類 為了探討冠心病發(fā)生的有關危險因素,對為了探討冠心病發(fā)生的有關危險因素,對2626例冠心病病人和例冠心病病人和2828例對照者進行病例例對照者進行病例- -對對照研究,試用照研究,試用logisticlogistic逐步

35、回歸分析方法篩逐步回歸分析方法篩選危險因素選危險因素 。28因素變量名賦值說明年齡(歲)X145=1,45=2,55=3,65=4高血壓史X2無=0,有=1高血壓家族史X3無=0,有=1吸煙X4不吸=0,吸=1高血脂史X5無=0,有=1動物脂肪攝入X6低=0,高=1體重指數(shù)(BMI)X724=1,24=2,26=3A型性格X8否=0,是=1冠心病Y對照=0,病例=1)15. 0,10. 0( 出出入入 例題例題3 3有序分類有序分類 某研究人員隨機選擇某研究人員隨機選擇8484例患某病的病人做例患某病的病人做臨床試驗,以探討性別和治療方法對該病臨床試驗,以探討性別和治療方法對該病療效的影響。變

36、量賦值為:性別(療效的影響。變量賦值為:性別( :男:男=0=0,女,女=1=1)、治療方法()、治療方法( :傳統(tǒng)療法:傳統(tǒng)療法=0=0,新,新型療法型療法=1=1)、療效()、療效( :無效:無效=1=1,有效,有效=2=2,痊愈,痊愈=3=3)。請擬合性別、治療方法對療)。請擬合性別、治療方法對療效的有序效的有序logisticlogistic回歸模型?;貧w模型。29例題例題4 4無序多分類無序多分類 某研究人員欲了解不同社區(qū)和性別之間成某研究人員欲了解不同社區(qū)和性別之間成年居民獲取健康知識途徑是否不同,對年居民獲取健康知識途徑是否不同,對2 2個個社區(qū)的社區(qū)的314314名成人進行了調

37、查,結果見表名成人進行了調查,結果見表16-1116-11。變量賦值為:社區(qū)(。變量賦值為:社區(qū)( :社區(qū):社區(qū)1=01=0,社區(qū),社區(qū)2=12=1)、性別()、性別( :男:男=0=0,女,女=1=1)、)、獲取健康知識途徑(獲取健康知識途徑( :傳統(tǒng)大眾媒介:傳統(tǒng)大眾媒介=1=1,網絡網絡=2=2,社區(qū)宣傳,社區(qū)宣傳=3=3)。請擬合社區(qū)和性)。請擬合社區(qū)和性別對居民獲取健康知識途徑的多分類別對居民獲取健康知識途徑的多分類logisticlogistic回歸模型?;貧w模型。30條件條件LogisticLogistic回歸回歸 醫(yī)學研究中的配對病例對照研究資料可以用條件醫(yī)學研究中的配對病例對

38、照研究資料可以用條件LogisticLogistic回歸模型來分析。條件回歸模型來分析。條件LogisticLogistic回歸模型回歸模型和非條件和非條件LogisticLogistic回歸模型的區(qū)別在于參數(shù)的估回歸模型的區(qū)別在于參數(shù)的估計是否用到了條件概率。所謂的配對病例對照研計是否用到了條件概率。所謂的配對病例對照研究指的是在病例對照研究中,對每一個病例配以究指的是在病例對照研究中,對每一個病例配以性別、年齡或其它條件相似的一個(性別、年齡或其它條件相似的一個(1 1:1 1)或幾)或幾個(個(1 1:MM)對照,然后分析比較病例組與對照組)對照,然后分析比較病例組與對照組以往暴露于致病

39、因素的經歷。分析配對病例對照以往暴露于致病因素的經歷。分析配對病例對照研究資料所用的條件研究資料所用的條件LogisticLogistic回歸模型中參數(shù)的回歸模型中參數(shù)的估計方法也是采用最大似然估計法,參數(shù)和模型估計方法也是采用最大似然估計法,參數(shù)和模型的檢驗方法和非條件的檢驗方法和非條件LogisticLogistic回歸模型也一樣?;貧w模型也一樣。條件條件LogisticLogistic回歸的回歸的SASSAS程序程序 用于條件用于條件LogisticLogistic回歸分析的過程步一般借用生回歸分析的過程步一般借用生存數(shù)據風險回歸分析的存數(shù)據風險回歸分析的PHREGPHREG過程步。實用

40、過程步。實用PHREGPHREG過程步時要注意數(shù)據的輸入方法和過程過程步時要注意數(shù)據的輸入方法和過程步語句的寫法。步語句的寫法。PHREGPHREG過程步的一般格式如下:過程步的一般格式如下: Proc phreg data= ;Proc phreg data= ; Model Model 因變量因變量* *截尾變量截尾變量= =協(xié)變量協(xié)變量/ / ties=risklimits selection= sle= sls details;ties=risklimits selection= sle= sls details; Strata Strata 分組變量分組變量; ; Run; Run;

41、條件條件LogisticLogistic回歸的回歸的SASSAS程序程序 MODELMODEL語句:用于指定模型的結構,適用于生語句:用于指定模型的結構,適用于生存時間有右截尾的情況,且生存時間變量作為模存時間有右截尾的情況,且生存時間變量作為模型的因變量,協(xié)變量作為模型的自變量。型的因變量,協(xié)變量作為模型的自變量。 TIESTIES:用來選擇處理生存時間結點的方法,每一:用來選擇處理生存時間結點的方法,每一種方法使用了不同的公式來計算最大似然值。種方法使用了不同的公式來計算最大似然值。 RISKLIMITSRISKLIMITS:指令輸出危險比的:指令輸出危險比的9595置信區(qū)間置信區(qū)間,供選擇的有:,供選擇的有:backwardbackward、forwardforward、stepwisestepwise、scorescore。條件條件LogisticLogistic回歸的回歸的SASSAS程序程序 SLESLE:指定協(xié)變量進入模型的顯著水平,缺省值:指定協(xié)變量進入模型的顯著水平,缺省值是是0.050.05。 SLSSLS:指定協(xié)變量停留在模型中的顯著水平,缺:指定協(xié)變量停留在模型中的顯著水平,缺省值是省值是0.050.05。 DETAILSDETAILS:指令輸出逐步回歸過程中每一步的詳:指令輸出逐步回歸過程中每一步

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論