流行病學研究中的混雜效應控制課件_第1頁
流行病學研究中的混雜效應控制課件_第2頁
流行病學研究中的混雜效應控制課件_第3頁
流行病學研究中的混雜效應控制課件_第4頁
流行病學研究中的混雜效應控制課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、流行病學研究中的混雜效應控制,1,流行病學研究中的混雜效應控制,北京協(xié)和醫(yī)學院流行病學教研室 廖蘇蘇,流行病學研究中的混雜效應控制,2,混雜效應控制,1、設計階段控制混雜的策略 概述:限制、隨機分配、匹配 匹配的概念 在隊列研究和病例對照研究中使用匹配的實例 過度匹配 2、分析階段控制混雜的技術: 分層分析、標化、多因素分析,流行病學研究中的混雜效應控制,3,1. 限制(Restriction) : “簡化”研究對象某些可能起到“混雜”作用的特征,或者說,讓潛在的混雜變量變?yōu)椋ń频模俺A俊?例如,年齡 2. 隨機分配(Randomized allocation):用隨機分組方法使可能的混雜

2、變量分布在比較組間平衡; 只能用于實驗研究設計,一) 設計階段控制混雜效應的策略,流行病學研究中的混雜效應控制,4,3. 匹配(matching): 常在病例對照或隊列研究中使用; 在實驗研究中按照混雜因素分層后再進行隨機分組(分層隨機)也是一種“頻數(shù)匹配,一) 設計階段控制混雜效應的策略(續(xù),流行病學研究中的混雜效應控制,5,什么是匹配(Matching),匹配是一種抽樣設計 指從研究對象總體中,以指示系列或指示組(index series/group)某些可能的混雜因素分布為“模板”,選擇與之比較的研究對象(比較組或比較系列,comparison series/group),使兩組對象在這

3、些混雜因素上相同或近似。 在隊列研究中就是按暴露組研究對象某些特征選擇非暴露組研究對象; 在病例對照研究中就是按照病例組某些特征選擇對照組,流行病學研究中的混雜效應控制,6,匹配方法(1)個體匹配(Individual matching,把指示組中的一個研究對象(病例或暴露者)與比較組中的一個/幾個研究對象(非病例或非暴露者)進行匹配;分為: 1:1配對(1:1matching; paired matching); 1:n匹配(1:n matching); 即:給每個病例(/暴露者)選擇在一個或多個混雜因素上與之相配的一個或更多個對照(/非暴露者)。 這是分層的特例,即每層只有一個病例(/暴露

4、者)和與之匹配的一個或n個對照(/非暴露者,流行病學研究中的混雜效應控制,7,匹配方法(2)頻數(shù)匹配(Category / frequency/ stratified matching,在不同研究組(如:病例組和對照組;或暴露組和非暴露組)之間進行匹配; 在一個或多個混雜因素的不同水平上,使比較組(即非暴露組或?qū)φ战M)的混雜因素分布頻數(shù)與指示組(即暴露組或病例組)相同,流行病學研究中的混雜效應控制,8,匹配方法(續(xù),匹配實際需要對“指示組”和“比較組”分別“抽樣”: 個體匹配:選擇一個或幾個指示組對象后就給他們匹配比較組 成組匹配:需要在“指示組”收集完成后,再依據(jù)頻數(shù)分別抽取“比較組” 兩種

5、匹配設計的一般原則(通過人為的“選擇”使比較組間在混雜因素構成分布上相似)是一樣的,但是兩種匹配設計的分析方法不同。 匹配后,研究樣本獲得的結果與研究總體的真實情況(即:總體中暴露和結局的關系)一致嗎? (真的能去除混雜效應的影響嗎,流行病學研究中的混雜效應控制,9,匹配實例: 下表是在一個200萬人口的研究對象總體中,不同性別人口的暴露和結局分布情況,流行病學研究中的混雜效應控制,10,在這個研究對象總體中:暴露與疾病結局是否關聯(lián),計算粗總相對危險度(暴露組比非暴露組) 計算男性組相對危險度(暴露組比非暴露組) 計算女性組相對危險度(暴露組比非暴露組) 計算結果說明什么,流行病學研究中的混雜

6、效應控制,11,假如從這個研究總體中抽樣,用隊列研究方法探討暴露和疾病的關聯(lián)(1,建立隊列的方法(一) 假定根據(jù)樣本量估算,我們需要從總體中抽取10%的人做樣本 如果采用隨機抽樣的方法從這個總體中抽樣,抽到的隊列研究樣本性別、暴露變量的構成如何? 如果隨訪一年,暴露和疾病的關聯(lián)測量結果是什么,流行病學研究中的混雜效應控制,12,粗(總)相對危險度: (460/10萬)/(14/10萬)=460/14=32.86 男性組相對危險度:0.0050/0.0005=10 女性組相對危險度:0.0010/0.0001=10,流行病學研究中的混雜效應控制,13,假如從這個研究總體中抽樣,用隊列研究方法探討

7、暴露和疾病的關聯(lián)(2,建立隊列的方法(二):假如抽樣前可以獲得總體人群的“暴露”和“非暴露”信息 暴露隊列:從暴露人口中抽取10%做樣本 非暴露隊列: 從非暴露人口中抽取10%;而且 讓非暴露隊列在性別特征上與暴露隊列相匹配。 這是匹配的隊列抽樣 設 計 ,匹配的目的是? 結果如何,流行病學研究中的混雜效應控制,14,匹配抽樣設計的隊列研究結果,暴露隊列中:男女比例為9:1 非暴露隊列中:男女比例為9:1,匹配的 后果,流行病學研究中的混雜效應控制,15,在隊列研究實例中匹配抽樣對關聯(lián)測量的影響,在研究總體中,性別是暴露和疾病關聯(lián)中的混雜因素(在無病人群中ORef不等于1;非暴露人群中,ORf

8、d不等于1。) 隨機從總體中抽取研究對象再分成暴露和非暴露隊列樣本,估算的粗的RR值仍舊帶有性別的混雜效應;但是,按照性別進行分層分析后,可以去除性別對暴露和結局關聯(lián)的混雜效應; 分別抽取暴露和非暴露組,并對性別匹配后,性別的混雜作用得以消除(粗RR=按照性別分層后的RR);所以在隊列抽樣中,對混雜因素進行匹配設計后,不用分層分析即可以去除混雜因素造成的偏性,流行病學研究中的混雜效應控制,16,假如從這個研究總體中抽樣,用病例對照方法探討暴露和疾病的關聯(lián),病例組:200萬人總體中得到的全部4740位病人; 對照組:按照與病例組的性別分布頻數(shù)匹配后,從總體中沒有病的研究對象中抽取4740位對照,

9、流行病學研究中的混雜效應控制,17,頻數(shù)匹配抽樣設計的病例對照研究結果,流行病學研究中的混雜效應控制,18,在病例對照研究實例中匹配抽樣對關聯(lián)測量的影響,在總體中,性別對暴露因素與疾病的關聯(lián)有混雜效應,因此,暴露效應的粗RR(32.9)分層RR(10.00);提示研究總體中性別對暴露和疾病的關聯(lián)有混雜作用,而且是“正混雜”。 在上述病例對照研究樣本中,按照性別分層的兩個RR相等,等于總體中的分層RR。然而,樣本的粗RR(5.00)樣本分層RR(10.00,流行病學研究中的混雜效應控制,19,在病例對照研究實例中匹配抽樣對關聯(lián)測量的影響(續(xù),提示研究樣本中性別對暴露和疾病的關聯(lián)有混雜效應,但是“

10、負混雜”!換言之,樣本中觀察到的混雜并非是原來總體中的性別混雜效應的反映,而是在匹配過程引入的混雜。 Take-home message (記住)! 在病例對照研究抽樣中,如果使用了匹配設計,在分析資料時,必須按照匹配因素進行相應的配對、分層加權或者條件Logistic回歸等分析方法才能最終得到真實的暴露效應估計值(OR,流行病學研究中的混雜效應控制,20,匹配設計在混雜效應控制中的作用:總結,匹配抽樣設計本身是否能減少或避免混雜因素對暴露與結局變量關聯(lián)測量上的混雜效應,增加關聯(lián)測量的真實性(validity) ? 無論是否進行匹配設計,都可能通過恰當?shù)姆治龇椒?,得到關聯(lián)測量的“真實可靠的”結

11、果,只要: 研究測量了所有可能需要考慮的潛在混雜變量; 并且分析中使用恰當?shù)姆治黾夹g(例如分層等)控制這些潛在混雜變量的影響,流行病學研究中的混雜效應控制,21,匹配設計在混雜效應控制中的作用:總結(續(xù),僅僅有匹配設計并不都能直接增加研究結果的真實性,甚至在病例對照研究設計中還可能引入混雜; 所以,是否需要匹配,常常考慮的是匹配是否可以改善研究效率(efficiency),使數(shù)據(jù)分析可以有效地使用分層等技術來控制混雜,從而提高研究的真實性(validity)。 最終是否進行匹配抽樣還要從研究實際的考慮出發(fā)的,流行病學研究中的混雜效應控制,22,什么時候需要考慮匹配,如果匹配變量與結局變量有很強

12、的相關而且它是簡單的變量,特別是研究對象數(shù)量很少時,匹配可能取得很好的效率收益。 如果匹配變量是混雜變量而且是多組別的測量值(例如,多個等位基因位點;兄弟姐妹關系;職業(yè)等),匹配設計對提高研究效率是非常關鍵的,流行病學研究中的混雜效應控制,23,匹配可能帶來的問題,經(jīng)過匹配的變量,在研究中無法再研究; 匹配變量過多,會使得部分病例找不到對照,致使可用樣本數(shù)量減少,使研究的效率反而降低。 如果匹配變量不是混雜因素但是與暴露無關聯(lián),匹配毫無必要但也不會導致偏性。 在病例對照調(diào)查中匹配不當,會引起過度匹配(overmatching)的問題,掩蓋暴露的真實作用(產(chǎn)生負混雜偏性,流行病學研究中的混雜效應

13、控制,24,過度匹配(Overmatching,指對某個與暴露因素關聯(lián)、但不是(獨立的)結局變量危險因素的變量(理論上,該因素不是一個混雜變量)進行匹配。 過度匹配的后果是什么?舉例,流行病學研究中的混雜效應控制,25,20萬總體人群的情況:性別不是暴露和疾病關系中的混雜因素,因為:男性總體中:暴露率為90%;女性總體中:暴露率10% OREF/非病人= OREF/病人=81(性別與暴露因素關聯(lián)) 但:ORDF/非暴露 =ORDF/暴露 =1(性別不是疾病危險因素,流行病學研究中的混雜效應控制,26,抽取這個總體中全部1310位病人為病例組 再抽取性別上與病人匹配的1310位非病人為對照進行病

14、例對照研究,流行病學研究中的混雜效應控制,27,過度匹配(續(xù),病例對照研究中過度匹配后,如果分析時不進行分層或者配對分析,暴露-結局關聯(lián)測量值將產(chǎn)生趨向無效假設的偏性(引入總體中不存在的混雜效應,流行病學研究中的混雜效應控制,28,過度匹配(續(xù),因為過度匹配使病例和對照在暴露史方面趨向一致。 即便在分析時進行分層或者配對分析,由于過度匹配使病例和對照有更多的對子在暴露史上趨向“一致”。這些“暴露史一致”的“對子”在分析中不能使用,因此可以分析的對子數(shù)減少,所以過度匹配會降低對關聯(lián)測量值估計的精度或效率。 是否匹配要仔細權衡,流行病學研究中的混雜效應控制,29,二)分析中控制混雜的技術,1)個體

15、配對病例對照設計的分析 (2)頻數(shù)匹配的分層分析和關聯(lián)測量指標的Mantel-Haenszel加權調(diào)整 (3)多因素分析模型控制混雜,流行病學研究中的混雜效應控制,30,個體匹配病例對照研究中配對資料的數(shù)據(jù)表,每個格子表示研究對象的“對子數(shù)”) OR=B/C,流行病學研究中的混雜效應控制,31,未匹配/頻數(shù)匹配 病例對照研究數(shù)據(jù)表 不分層的粗OR值,OR=(ad)/(bc,流行病學研究中的混雜效應控制,32,分層分析(Stratified analysis) 分層分析需按混雜因素(F)分層后,分別估計暴露與疾病結局的關聯(lián)(分層的OR或RR值); 使用分層分析法,可以比較分層OR或RR值與不分層

16、的粗關聯(lián)測量,以評價F的混雜效應以及效應修正作用,未匹配/頻數(shù)匹配 病例對照研究數(shù)據(jù)的分析(續(xù),流行病學研究中的混雜效應控制,33,分層分析(續(xù)) 如果分層后,各個分層的OR或RR值大致相等,但不等于未分層的OR或RR值(提示分層因素有混雜效應),可以用Mantel-Haenszel方法計算調(diào)整的總的暴露-結局關聯(lián)值(調(diào)整OR或調(diào)整RR值,未匹配/頻數(shù)匹配 病例對照研究數(shù)據(jù)的分析(續(xù),流行病學研究中的混雜效應控制,34,未匹配/頻數(shù)匹配 病例對照研究數(shù)據(jù)的分層分析數(shù)據(jù)表,在F=0層(樣本量N0,OR0 = (a0 d0)/( b0 c0,在F=1層(樣本量N1,OR1 = (a1 d1)/(

17、b1 c1,流行病學研究中的混雜效應控制,35,計算調(diào)整OR值(ORM-H)的公式: (ai di / Ni) ORM-H = - (bi ci / Ni) 式中:ai,bi,ci,di為每一層中四格表中的四個數(shù); Ni為每層觀察總人數(shù);i為層數(shù)(i = 1 , 2 n,未匹配/頻數(shù)匹配 病例對照研究數(shù)據(jù)的分層分析(續(xù)) 利用Mantel-Haenszel方法計算調(diào)整OR值,流行病學研究中的混雜效應控制,36,1)ORM-H= cOR:F不是混雜因子,cOR不存在混雜偏倚; RRM-H = cRR:F不是混雜因子,cRR不存在混雜偏倚。 (2)ORM-H cOR:F是混雜因子,cOR存在混雜偏

18、倚; RRM-H cRR:F是混雜因子,cRR存在混雜偏倚,流行病學研究中的混雜效應控制,37,分層分析的基本步驟: 1) 初步審閱資料; 2) 計算粗的比值比或相對危險度(cOR 或 cRR); 3) 分層:按懷疑的混雜因子分層,并計算每一層 的比值比或相對危險度(aOR 或 aRR); 4) 比較 cOR 和 aOR (或 cRR 和 aRR); 5) (如果各個層的aOR相等但不等于cOR )用Mantel-Haenszel法計算調(diào)整混雜因子影響后總的ORmh 或 RRmh; 6) 進行 X2mh 檢驗,計算ORmh 或 RRmh 95%可信區(qū)間,流行病學研究中的混雜效應控制,38,多因

19、素分析模型控制混雜效應,當用分層的方法同時控制多個混雜因子的混雜效應時,會出現(xiàn)分層過多的現(xiàn)象,以至難于實現(xiàn)對混雜的有效調(diào)整,此時便需應用多因素分析的方法來控制混雜因子的影響。 多因素模型的選擇與研究設計和結局變量性質(zhì)和結局指標選擇有關,流行病學研究中的混雜效應控制,39,流行病學研究中的混雜效應控制,40,流行病學研究中的混雜效應控制,41,多元Logistic回歸分析控制混雜 例1. 定群研究資料分析弗明漢心血管疾病研究 742名居住在弗明漢年齡為40-49歲的男性,在各自暴露不同水平的影響因素(詳見下表中的7種因素),經(jīng)12年追蹤觀察冠心?。–HD)發(fā)病情況。 根據(jù)此742名受試者每人暴露

20、各項因素的水平和CHD發(fā)病與否的資料,采用多因素LOGISTIC回歸模型進行分析,結果見表1,流行病學研究中的混雜效應控制,42,表1. CHD危險因素定群研究(12年追蹤觀察結果,流行病學研究中的混雜效應控制,43,根據(jù)表1結果,可建立的CHD影響因素的Logistic回歸模型,公式如下: p=1/1+exp-(-13.2573 + 0.1216x1 + 0.0070 x2 + + 0.7206 x7) (1) 計算描述因素與疾病間聯(lián)系強度指標OR值的大小: 例如:膽固醇的值為0.0070,根據(jù)估計OR值的公式計算CHD與 膽固醇的聯(lián)系強度為: OR = e3 e0.0070 = 1.007

21、 表明扣除模型中包含的其它因素的影響以后,膽固醇每上升1mg/dl,CHD累積發(fā)病危險上升1.007倍。 例如:當ECG的值為0.7206時,根據(jù)估計OR值的公式計算CHD與ECG異常的聯(lián)系強度為: OR = e7 = e7 X1 / e7 X 0 = e7 X (1-0) = e0.7206 = 2.056 表明扣除模型中包含的其它因素的影響以后,ECG異常者(=1)CHD發(fā)病是正常者(=0)的2.056倍,流行病學研究中的混雜效應控制,44,2) 預測發(fā)病風險: 例1: 一個原來不吸煙且膽固醇為230 mg/dl的人,如果后來每 天改為吸煙1包(x6=2),膽固醇上升到330 mg/dl的

22、話,即 使其他因素的暴露不發(fā)生任何不利的改變,其發(fā)生冠心 病 的風險在12年間也將會增加4.879倍,即: OR = e3 3306 2 / e3 2306 0 = e0.0070 (330-230) 0.4223 2 4.879,流行病學研究中的混雜效應控制,45,例2. 病例對照研究實例 一項有關口服避孕(OC)藥與心肌梗塞(MI)關系的病例對照研究中,MI病例組234人,對照組1742人。研究因素為口服避孕藥,混雜因素為年齡和吸煙。多因素Logistic回歸分析結果見表2,流行病學研究中的混雜效應控制,46,表2. 口服OC與MI關系的病例對照研究(成組病例對照設計,流行病學研究中的混雜效應控制,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論