




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、藥物臨床試驗多重性問題指導(dǎo)原則(征求意見稿)2020年8月目 錄一、概述1二、多重檢驗中的I類錯誤、總I類錯誤率和II類錯誤1(一)I類錯誤和總I類錯誤率1(二)II類錯誤2三、常見的多重性問題3(一)多個終點3(二)多組間比較6(三)縱向數(shù)據(jù)不同時間點的分析8(四)亞組分析9(五)期中分析9(六)復(fù)雜設(shè)計10四、常見的多重性調(diào)整的策略與方法10(一)多重性問題的決策策略10(二)多重性調(diào)整方法15(三)多重性分析方法20(四)多重性問題的基本解決思路22五、其它考慮22(一)不需要調(diào)整的多重性問題22(二)多重性檢驗的參數(shù)估計問題24(三)與監(jiān)管機構(gòu)的溝通24六、參考文獻(xiàn)25附錄1:詞匯表2
2、8附錄2:中英文對照表31藥物臨床試驗多重性問題指導(dǎo)原則一、概述臨床試驗中普遍存在多重性問題,它是指在一項完整的研究中,需要經(jīng)過不止一次統(tǒng)計推斷(多重檢驗)對研究結(jié)論做出決策的相關(guān)問題。例如,多個終點(如主要終點和關(guān)鍵次要終點)、多組間比較、多階段整體決策(如出于有效性決策為目的的期中分析)、縱向數(shù)據(jù)的多個時間點分析、亞組分析、分層分析、同一模型不同參數(shù)組合或不同數(shù)據(jù)集的分析、敏感性分析等。對于確證性臨床試驗,將總I類錯誤率a(FWER)控制在合理水平是統(tǒng)計學(xué)的基本準(zhǔn)則。上述多重性問題有的可以導(dǎo)致FWER膨脹,有的則不會。對于前者,需要采用恰當(dāng)?shù)臎Q策策略和分析方法將FWER控制在合理水平,這一
3、過程稱為多重性調(diào)整;對于后者,則無需多重性調(diào)整。因此,在制訂臨床試驗方案和統(tǒng)計分析計劃時,采用恰當(dāng)?shù)臎Q策策略和分析方法以控制FWER是非常重要的。本指導(dǎo)原則主要闡述常見的多重性問題和相應(yīng)的解決策略,介紹常用的多重性調(diào)整的統(tǒng)計方法,旨在為確證性藥物臨床試驗中如何控制FWER提供指導(dǎo)意見,所討論的一般原則也適用于其它類型的臨床研究。二、多重檢驗中的I類錯誤、總I類錯誤率和II類錯誤(一)I類錯誤和總I類錯誤率I類錯誤是指原假設(shè)(或稱無效假設(shè))正確但檢驗結(jié)果拒絕了原假設(shè)的錯誤,相當(dāng)于把實際上無效的藥物經(jīng)統(tǒng)計推斷得出有效結(jié)論的錯誤,其概率需控制在某一水平,該水平稱為檢驗水準(zhǔn),或稱顯著性水準(zhǔn)。對于多重檢
4、驗中某一假設(shè)檢驗的檢驗水準(zhǔn)稱之為名義檢驗水準(zhǔn),又稱局部檢驗水準(zhǔn),用ai表示??侷類錯誤率是指在同一試驗所關(guān)注的多個假設(shè)檢驗中,至少一個真的原假設(shè)被拒絕的概率,而不論多次檢驗中哪個或哪些原假設(shè)為真。如此定義的FWER得到控制時,稱為強控制FWER。在所有原假設(shè)都為真的條件下至少一個真的原假設(shè)被拒絕的概率,如此定義的FWER得到控制時,稱為弱控制FWER。弱控制只能得出整體性結(jié)論,而不支持其中單個假設(shè)檢驗的結(jié)論,故在確證性臨床試驗中的應(yīng)用意義不大。本指導(dǎo)原則僅限于強控制FWER的應(yīng)用問題。(二)II類錯誤對于確證性臨床試驗,在I類錯誤得到有效控制的前提下,II類錯誤的風(fēng)險也需要注意。II類錯誤是指
5、原假設(shè)不正確,但檢驗結(jié)果未能拒絕原假設(shè)的錯誤,相當(dāng)于把實際上有效的藥物經(jīng)統(tǒng)計推斷得出無效結(jié)論的錯誤,其概率用表示,相應(yīng)地1-稱為檢驗效能。對于需要調(diào)整的多重檢驗,由于控制FWER降低了多重檢驗中每個獨立檢驗的i,相應(yīng)地也降低了檢驗效能。因此,當(dāng)涉及多重性調(diào)整時,制定研究計劃應(yīng)考慮控制FWER對檢驗效能的影響,例如通過適當(dāng)增加樣本量以保證足夠的檢驗效能。三、常見的多重性問題臨床試驗中常見的多重性問題一般體現(xiàn)在多個終點、多組間比較、亞組分析、期中分析、縱向數(shù)據(jù)不同時間點的分析等方面。(一)多個終點1. 主要終點主要終點是指與臨床試驗所關(guān)注的主要問題(主要目的)直接相關(guān)的、能夠提供最具臨床意義和令人
6、信服的證據(jù)的終點,常用于主分析、樣本量估計和評價試驗是否達(dá)到主要目的。確證性臨床試驗中,單一主要終點較為常見,但某些情況下會涉及多個主要終點,對于多個主要終點的研究,通常有兩類統(tǒng)計假設(shè)策略,即多個主要終點均要求顯著和多個主要終點中至少有一個顯著。(1)多個主要終點均要求顯著。即要求所有主要終點均顯著時才認(rèn)為研究藥物有效(此種情況常稱為共同主要終點)。例如,在一項治療慢性梗阻性肺?。–OPD)的III期臨床試驗中設(shè)置兩個單獨的主要療效終點,第1秒用力呼氣量(FEV1)和患者報告癥狀評分,決策規(guī)定兩個主要終點均顯著才可推斷研究藥物有效。在此情況下,不會導(dǎo)致I類錯誤膨脹,因為這種策略沒有機會選擇對研
7、究藥物最有利的某個或某幾個主要終點,只有一種可能得出藥物有效的結(jié)論(即兩個原假設(shè)都被拒絕)。但是,這會增大II類錯誤和降低檢驗效能。檢驗效能降低的程度與主要終點的個數(shù)和主要終點之間的相關(guān)性有關(guān),個數(shù)越多、相關(guān)性越弱,檢驗效能降低的幅度越大。因此,對于多個主要終點均要求顯著的情形,無需多重性調(diào)整,但應(yīng)留意對檢驗效能的影響。(2)多個主要終點中要求至少一個終點顯著。即至少一個主要終點顯著時就認(rèn)為研究藥物有效。例如,某一確證性臨床試驗旨在驗證一種治療燒傷傷口的藥物,設(shè)置兩個單獨的主要終點:傷口閉合率和瘢痕形成,臨床試驗方案規(guī)定只要其中一個終點顯著,或兩個終點都顯著,就可認(rèn)為該藥物整體臨床有效。此種情
8、況下需要多重性調(diào)整,因為得出藥物有效的結(jié)論包括以下三種可能的情形:傷口閉合率顯著而瘢痕形成不顯著;傷口閉合率不顯著而瘢痕形成顯著;傷口閉合率和瘢痕形成都顯著。由于多個主要終點中至少有一個終點顯著的組合策略不盡相同,多重性調(diào)整策略應(yīng)視具體的統(tǒng)計假設(shè)而定。2. 次要終點臨床試驗的次要終點通常有多個,多數(shù)情況下它們用于提供藥物對主要療效終點療效的支持作用。但在某種情況下,有些次要終點可能用于支持藥品說明書聲稱的獲益,一般被稱為關(guān)鍵次要終點。此時,應(yīng)將關(guān)鍵次要終點與主要終點共同納入I類錯誤控制。只有主要終點的檢驗認(rèn)為整體顯著后,才考慮關(guān)鍵次要終點的檢驗。3. 復(fù)合終點復(fù)合終點是指將多個臨床相關(guān)結(jié)局合并
9、為一個單一變量,如表示心血管事件的復(fù)合終點,只要發(fā)生心肌梗死、心力衰竭、冠心病猝死等其中的任一事件將被視為終點事件發(fā)生;或者將若干癥狀和體征的評分通過一定的方法合并為一個單一變量,如評價類風(fēng)濕關(guān)節(jié)炎的ACR20量表。如果將某一復(fù)合終點作為單一主要終點,將不涉及多重性問題。但是,如果同時將復(fù)合終點中某一組成部分(如某一事件或構(gòu)成量表的某一維度)用于支持藥品說明書聲稱的獲益,應(yīng)將其定位于主要或關(guān)鍵次要終點,再根據(jù)上述定位對所涉及的主要或次要終點的多重性問題予以考慮。4. 探索性終點探索性終點可以是預(yù)先設(shè)定、也可以是非預(yù)先設(shè)定(例如數(shù)據(jù)驅(qū)動)的終點,一般包括預(yù)期發(fā)生頻率很低而無法顯示治療效果的臨床重
10、要事件,或由于其它原因被認(rèn)為不太可能顯示效果但被納入探索性假設(shè)的終點,其結(jié)果可能有助于設(shè)計未來新的臨床試驗。此類終點無需考慮多重性調(diào)整。5. 安全性終點如果安全性終點(事件)是確證性策略的一部分,即用于支持藥品說明書聲稱的獲益,則應(yīng)事先確定,并將其與主要療效終點所涉及的多重性問題做同樣處理。此時,安全性評價和有效性評價均應(yīng)控制各自的FWER。需注意,在臨床試驗的實踐中,由于安全性事件具有很大的不確定性,有時難以事先規(guī)定主要安全性假設(shè),因此,對于多個安全性終點(通常是嚴(yán)重的不良反應(yīng))的確證性策略可能會基于事后的多重性調(diào)整策略,此時應(yīng)充分說明其合理性,并與監(jiān)管機構(gòu)達(dá)成共識。(二)多組間比較臨床研究
11、中多組間的比較頗為常見,如三臂設(shè)計、劑量-反應(yīng)關(guān)系研究、聯(lián)合用藥和復(fù)方藥的評價等。1. 三臂設(shè)計三臂設(shè)計多用于非劣效試驗,安排的三個組分別是試驗組、陽性對照組和安慰劑組。此時,統(tǒng)計假設(shè)應(yīng)該考慮三種情形:試驗組與安慰劑組比較的優(yōu)效性;陽性對照組與安慰劑組比較的優(yōu)效性;試驗組與陽性對照組比較的非劣效性(和可能的優(yōu)效性)。對于這一多重性問題,如果三個假設(shè)檢驗的結(jié)果均顯著才可認(rèn)為試驗藥物有效,無需多重性調(diào)整;或者,基于一個比較弱的研究假設(shè),即只要滿足即可認(rèn)為試驗藥物有效;如果采用固定順序策略,如檢驗順序為®®,此時也無需多重性調(diào)整。但需要注意,后者這種基于較弱的研究假設(shè)需得到監(jiān)管機
12、構(gòu)的認(rèn)可才可實施。其它的三臂設(shè)計如果不是遵循這一多重性檢驗策略,且不滿足所有檢驗結(jié)果均顯著的話,需根據(jù)情況考慮是否需要多重性調(diào)整。2. 劑量-反應(yīng)關(guān)系劑量-反應(yīng)關(guān)系研究對于找到安全有效的治療劑量或劑量范圍至關(guān)重要。劑量探索的方法和目的在II期和III期試驗中有所不同。在II期試驗中,劑量探索研究多用于估計劑量-反應(yīng)關(guān)系,通常基于統(tǒng)計模型證明臨床效應(yīng)與劑量增加總體呈正相關(guān)關(guān)系,不需要對不同劑量組和安慰劑組之間進行比較,故無需控制FWER。但是,如果劑量反應(yīng)研究作為確證性策略的一部分,就需要控制FWER。在確證性臨床試驗中,劑量探索通常是基于假設(shè)檢驗進行多劑量組間的比較,旨在選擇和確證試驗藥物在特
13、定患者人群中推薦使用的一個或多個劑量水平,此時必須控制FWER,如采用基于p值的多重檢驗,或基于參數(shù)方法的多重檢驗(如Dunnett檢驗)。3. 聯(lián)合用藥和復(fù)方藥聯(lián)合用藥是指治療用藥同時使用兩種或以上的藥物,復(fù)方藥是指治療用藥由兩種或以上的藥物組合而成。聯(lián)合用藥或復(fù)方藥臨床試驗的目的主要是驗證聯(lián)合用藥的獲益-風(fēng)險是否優(yōu)于其中的單藥,或復(fù)方藥的獲益-風(fēng)險是否優(yōu)于其組分藥。以兩個單藥的聯(lián)合用藥為例,試驗設(shè)計至少會設(shè)置三個組,即聯(lián)合用藥組、單藥A組和單藥B組,后兩組為陽性對照組。如果再增加一個安慰劑組,就是一個2´2的析因設(shè)計。無論是三組的設(shè)計還是四組的析因設(shè)計,其統(tǒng)計檢驗以推斷聯(lián)合用藥組
14、是否優(yōu)于其它各組為主,這將不會導(dǎo)致I類錯誤膨脹,因為只有所有假設(shè)均顯著的情況下方可證明聯(lián)合治療的療效。(三)縱向數(shù)據(jù)不同時間點的分析縱向數(shù)據(jù),即基于時間點的重復(fù)測量數(shù)據(jù),是臨床試驗常見的數(shù)據(jù)類型。此類數(shù)據(jù)與時間點相關(guān)的分析分兩種情況,一種是在不同時間點進行組間比較;另一種是比較處理組內(nèi)不同時間點的效應(yīng)。假設(shè)研究設(shè)計只有一個主要終點且只涉及兩個處理組(多于一個主要終點或多于兩個處理組的多重性問題上文已述及),如果主要終點評價被定義為在多個時間點中的某一個時間點(如最后一個訪視點)進行處理組間的比較,其它時間點的組間比較被視為次要終點評價,則不涉及多重性調(diào)整;如果主要終點評價被定義為在不止一個時間
15、點進行處理組間的比較,若其所有相關(guān)時間點的組間比較達(dá)到顯著才認(rèn)為有效,就無需多重性調(diào)整,否則,就需要多重性調(diào)整。對于比較處理組內(nèi)不同時間點效應(yīng)的情形,如果目的是通過時間點之間的比較確證最佳時間點的效應(yīng),即當(dāng)時間效應(yīng)成為確證性策略的一部分時,就需要多重性調(diào)整;否則,無需多重性調(diào)整。如果希望回避縱向數(shù)據(jù)的多重性調(diào)整問題,一種可能的解決方案是將不同時間點的效應(yīng)轉(zhuǎn)換為折線下的面積,例如治療后不同時間點的疼痛VAS評分可以轉(zhuǎn)化為折線下面積以代表治療后總的疼痛評分,即把多個變量轉(zhuǎn)化為一個變量,但相應(yīng)地,在這種轉(zhuǎn)換之后,每個時間點的組間比較就無法實施了。另一種可能的解決方案是對重復(fù)測量數(shù)據(jù)用單個模型分析,如
16、重復(fù)測量方差分析或混合效應(yīng)模型。(四)亞組分析亞組分析通常用于說明試驗藥物在某一特定亞組人群中的療效、或者各亞組之間療效的一致性。如果特定亞組的分析用于支持藥品說明書聲稱的獲益,則需要綜合考慮總?cè)巳汉蛠喗M人群的多重性問題,同時還要注意保證亞組有足夠的檢驗效能。反之,如果亞組分析不用于支持藥品說明書聲稱的獲益,則無需多重性調(diào)整。(五)期中分析針對有效性和/或無效性進行監(jiān)查的期中分析,因為在研究過程中需要進行多次決策,所以FWER的控制顯得尤為重要,多重性調(diào)整的策略和方法也復(fù)雜多樣。在制定臨床試驗方案時,應(yīng)仔細(xì)考慮并預(yù)先設(shè)定恰當(dāng)?shù)亩嘀匦哉{(diào)整策略和相應(yīng)的統(tǒng)計方法。(六)復(fù)雜設(shè)計對于用于確證性目的的籃
17、式設(shè)計、傘式設(shè)計、平臺設(shè)計等涵蓋多疾病領(lǐng)域、多種藥物、跨研究的復(fù)雜設(shè)計,由于同時開展多個分題研究,涉及多重決策的問題。但由于這些分題研究多是獨立的研究且回答特定的臨床問題,如適用疾病、目標(biāo)人群等,故一般無需多重性調(diào)整。但是,對于復(fù)雜設(shè)計分題研究的目標(biāo)人群有較大重疊時,以及對于多個分題研究使用同一個對照組時,是否需要多重性調(diào)整,應(yīng)視具體情況而定。此時,建議申辦方與監(jiān)管機構(gòu)進行充分溝通。四、常見的多重性調(diào)整的策略與方法針對臨床試驗中普遍存在的多重性問題,所采用的多重性調(diào)整的策略與方法取決于試驗的目的、設(shè)計、統(tǒng)計假設(shè)及其分析方法。申辦方需在試驗設(shè)計時對選用的多重性調(diào)整的策略與方法進行必要的評估,并在
18、臨床試驗方案和統(tǒng)計分析計劃中詳述。多重性調(diào)整的策略與方法可以從決策策略、調(diào)整方法和分析方法三個層面考慮。(一)多重性問題的決策策略臨床試驗的研究結(jié)論主要依據(jù)綜合所有試驗數(shù)據(jù)分析結(jié)果所做的推斷,也是一個從局部決策到整體決策的過程。多重性問題的決策策略可分為平行策略(或稱單步法)和序貫策略(或稱多步法)。除了從局部決策到整體決策的過程外,還有分階段的整體決策,例如,出于有效性決策為目的的期中分析。1. 平行策略平行策略是指所包含的各個假設(shè)檢驗相互獨立,平行進行,與檢驗順序無關(guān),就像一種并聯(lián)關(guān)系,每個假設(shè)檢驗的推斷結(jié)果不依賴于其它假設(shè)檢驗的推斷結(jié)果。圖1是平行策略的示意圖,H0i為第i個原假設(shè)(i=
19、1,2,m),m為假設(shè)檢驗的個數(shù);HA為整體備擇假設(shè),即整個研究結(jié)論對應(yīng)的假設(shè),HAi為第i個備擇假設(shè);a為FWER水平,ai為第i個名義檢驗水準(zhǔn)。平行策略有以下三種情形:圖1 多重性問題的平行策略示意圖如果所有假設(shè)檢驗均顯著才被認(rèn)為是陽性結(jié)論(如三臂設(shè)計的非劣效試驗,多個主要終點等),即試驗藥物有效(圖1右側(cè)的備擇假設(shè)HA成立),則無需多重性調(diào)整,每個檢驗的名義水準(zhǔn)與FWER水平相同(ai=a)。如果其中至少一個假設(shè)檢驗結(jié)果顯著就被認(rèn)為是陽性結(jié)論但不包含(圖1下方的備擇假設(shè)HA成立),則需要多重性調(diào)整(ai<a)。例如設(shè)有3個主要終點(O1,O2,O3)的試驗,如果采用Bonferro
20、ni法,每個終點的名義檢驗水準(zhǔn)可以相同也可以不同,但其和為FWER水平,即a1+a2+a3=a。圖1上部的HA1、HA2等代表局部決策,即在整體結(jié)論為陽性的前提下,并基于多重性調(diào)整(ai<a)的檢驗結(jié)果,可進一步對某個或某幾個備擇假設(shè)是否成立做出獨立的推斷。仍以設(shè)有3個主要終點的試驗為例,在采用策略得出試驗藥物有效的整體結(jié)論后,局部決策有6種可能的組合,一個終點的假設(shè)檢驗結(jié)果顯著有3種,3個終點中任意兩個終點的假設(shè)檢驗結(jié)果顯著有3種。類似的例子還可見于劑量探索研究的確證性臨床試驗中,如設(shè)置2個或3個劑量組和一個安慰劑對照組,采用策略,只要其中一個劑量組與安慰劑組比較顯著就可整體以推斷試驗
21、藥物有效,并在此基礎(chǔ)上進一步做出局部決策,即哪一個或幾個劑量有效。對于和情形下的多重性調(diào)整可采用Bonferroni法或idák法。2. 序貫策略序貫策略是指按一定順序?qū)υ僭O(shè)進行檢驗,直到滿足相關(guān)條件而停止檢驗,就像一種串聯(lián)關(guān)系,根據(jù)設(shè)定條件前一個假設(shè)檢驗的結(jié)果將決定是否進行后續(xù)的假設(shè)檢驗。序貫順序分為固定順序和非固定順序兩種方式,如下所述。圖2 多重性問題的序貫策略示意圖(以向下法為例)固定順序策略:見圖2上半部分,假設(shè)檢驗的順序需事先確定,分需要和不需要進行多重性調(diào)整兩種情況。以不需要調(diào)整(ai=a)為例,每一個假設(shè)檢驗的名義水準(zhǔn)與FWER水平相同。假設(shè)檢驗以既定順序依次進行,
22、直到某一個假設(shè)檢驗不拒絕原假設(shè)(不顯著)為止,而最終的推斷結(jié)論為該假設(shè)前面的陽性檢驗結(jié)果均被接受。例如,按順序有3個原假設(shè)分別是H01、H02和H03,若第1和第2個假設(shè)檢驗都在0.05水平拒絕了原假設(shè),但第3個假設(shè)檢驗未能拒絕原假設(shè)H03,則備擇假設(shè)HA1和HA2都成立,而HA3不成立。當(dāng)固定順序策略需要做多重性調(diào)整時,可參見回退法一節(jié)。固定順序策略也適用于對假設(shè)檢驗集合進行的檢驗,如守門法,即將所有原假設(shè)分成若干集合,并預(yù)先確定各集合假設(shè)檢驗順序,按順序?qū)Ω骷线M行檢驗。對于復(fù)雜的固定順序策略,可借助圖示方法直觀展現(xiàn)決策規(guī)則。非固定順序策略:見圖2下半部分,以向下法為例,假設(shè)檢驗的順序按事
23、先規(guī)定以檢驗統(tǒng)計量由大到?。╬值由小到大)排序,圖2中下標(biāo)“x”表示順序位次在試驗設(shè)計階段無法確定,只能在事后求出檢驗統(tǒng)計量后才能確定,例如H0x2的含義是在所有檢驗統(tǒng)計量中第2大的假設(shè)檢驗所對應(yīng)的原假設(shè)。該策略需要做多重性調(diào)整(ai<a),每個假設(shè)有各自的名義檢驗水準(zhǔn)。假設(shè)檢驗以規(guī)定的順序依次進行,直到某一個假設(shè)檢驗不拒絕原假設(shè)(不顯著)為止,而最終的推斷結(jié)論為該假設(shè)前面的陽性檢驗結(jié)果均被接受。序貫策略中假設(shè)檢驗的順序以及相應(yīng)的多重性調(diào)整方法的不同對整體結(jié)論的影響也不同,這一點在設(shè)計階段尤其要注意。序貫策略的檢驗效能通常優(yōu)于平行策略,但其置信區(qū)間的計算較為復(fù)雜甚至難以估計。3. 分階段
24、的整體決策策略分階段的整體決策策略是指將整體決策按照時間順序分階段進行,其典型代表是出于有效性為目的的期中分析,如圖3所示。每個階段都進行一次整體決策,確定試驗因有效或無效提前終止還是繼續(xù)。每一階段的整體決策可以采用多重性問題決策策略中的平行策略或序貫策略。多階段決策需要多重性調(diào)整,即每個階段都會消耗一定的a,各階段的名義檢驗水準(zhǔn)ai可以相同,也可以不同,視采用的a消耗策略而定。需要注意,在每個階段的整體決策過程中,如果涉及到局部決策的多重性調(diào)整,則該階段的名義檢驗水準(zhǔn)ai就是該階段的總a水平。圖3 多重性問題的分階段整體決策示意圖(二)多重性調(diào)整方法多重性調(diào)整方法實質(zhì)上是通過調(diào)整整體決策中每
25、一個獨立假設(shè)檢驗的名義檢驗水準(zhǔn)i以達(dá)到控制FWER的目的。名義檢驗水準(zhǔn)的確定方法可以根據(jù)多重性問題的決策策略選擇。1. 平行策略的多重性調(diào)整方法(1)Bonferroni法。Bonferroni法的基本思想是各個獨立檢驗的名義水準(zhǔn)之和等于FWER水平a,即a1+a2+ai+am=a各名義水準(zhǔn)可以相同(ai=a/m),也可以不同,后者往往在各個檢驗假設(shè)的優(yōu)先順序時使用。例如,某臨床試驗設(shè)有3個主要終點,需要進行3次假設(shè)檢驗,設(shè)定a=0.05。如果3個主要終點的優(yōu)先順序相同,則每個檢驗的ai相同,均為0.0167(=0.05/3),則每個假設(shè)檢驗的p值小于0.0167才被認(rèn)為該檢驗顯著;如果3個主
26、要終點的優(yōu)先順序不同,如設(shè)置a1、a2和a3分別為0.030、0.015和0.005,則每個假設(shè)檢驗的p值小于所對應(yīng)的ai才被認(rèn)為該檢驗顯著。該法較為保守,各檢驗統(tǒng)計量正相關(guān)程度越高越保守。盡管如此,由于該法簡單,其應(yīng)用最為廣泛,而且其思想為許多方法所借鑒,如后述的Holm法、Hochberg法、回退法等。(2)前瞻性分配法。前瞻性分配法(PAAS)與Bonferroni法思想相近,可理解為各個假設(shè)檢驗的互余的乘積等于FWER水平a的互余,即(1-1)(1-2)(1-i)(1-m)=(1-)各i可以相同也可以不同,若相同,則可根據(jù)idák法求得i=1-(1-)1/m例如,一個有3個終
27、點的臨床試驗,其中兩個終點被指定分配了i值,1=0.02、2=0.025,若設(shè)為0.05,則根據(jù)上式有0.98×0.975×(1-3)=0.95,求得第3個終點的3為0.0057。如果采用Bonferroni法,則第3個終點的值為0.005??梢奝AAS法分配的3要高于Bonferroi法。如果3個原假設(shè)的i等權(quán)重分配,則基于idák法求得i為0.01695,略高于Bonferroni法分配的0.0167。因此,PAAS法較Bonferroni法可略微增加檢驗效能。2. 序貫策略的多重性調(diào)整方法(1)Holm法。Holm法是一種基于Bonferroni法的檢驗統(tǒng)計
28、量逐步減小(p值逐步增大)的多重調(diào)整方法,又稱向下法。該法首先計算出各檢驗假設(shè)的p值后,將各p值按從小到大排序,記為p1<p2<<pm,其相對應(yīng)的原假設(shè)為H01,H02,H0m,然后按照p值從小到大順序依次與相對應(yīng)的i進行比較,依次檢驗H0i,1im。第一步從最小的p值開始,檢驗原假設(shè)H01,如果p1>1(=/m),則不拒絕原假設(shè)H01,并停止檢驗所有剩余的假設(shè);如果p1<1,則拒絕H01,HA1成立,進入下一個檢驗。第2個檢驗的名義水準(zhǔn)2=/(m-1),將該檢驗的p值與2比較,若p2>2,則停止檢驗余下的假設(shè);否則,HA2成立,并進入下一個檢驗。更一般地,
29、在檢驗第i個原假設(shè)H0i時,如果pi>ai(=a/(mi+1),則停止檢驗并接受H0k,H0m;否則,拒絕H0i(接受HAi),并進入下一個檢驗。(2)Hochberg法。Hochberg法是一種基于Bonferroni法的檢驗統(tǒng)計量逐步增大(p值逐步減小)的多重調(diào)整方法,又稱向上法。該法首先計算出各檢驗假設(shè)的p值,將各p值按從小到大排序,記為p1<p2<<pm,然后按照p值從大到小順序依次與相對應(yīng)的i進行比較。第一步從最大的p值開始,檢驗原假設(shè)H0m,如果pm<,則拒絕所有原假設(shè),并停止檢驗,所有的備擇假設(shè)HAi成立;否則不拒絕H0m,進入下一步檢驗。第2個檢驗
30、的名義水準(zhǔn)m-1=/2,將該檢驗的p值與m-1比較,若pm-1</2,則停止檢驗余下的假設(shè),除HAm外,其余的備擇假設(shè)均成立;否則,不拒絕H0(m-1),并進入下一個檢驗。第3個檢驗的名義水準(zhǔn)m-2=/3將該檢驗的p值與m-2比較,若pm-2</3,則停止檢驗余下的假設(shè),除HAm和HA(m-1)外,其余的備擇假設(shè)均成立;否則,不拒絕H0(m-2),并進入下一個檢驗。余類推。需要注意,Hochberg法在滿足終點變量獨立或檢驗統(tǒng)計量正相關(guān)條件才能實現(xiàn)FWER強控制。(3)回退法?;赝朔ㄊ枪潭樞虿呗灾械囊环N多重性調(diào)整方法。對于固定順序策略不做多重性調(diào)整的情況,由于固定順序的限制,一旦
31、前一個檢驗結(jié)果不顯著,后續(xù)的其它檢驗將終止,這種策略可能失去發(fā)現(xiàn)有意義的研究假設(shè)的機會。例如,一項設(shè)有2個主要終點的臨床試驗,采用固定順序策略(O1®O2),為0.05。如果兩個終點的檢驗結(jié)果分別是p1=0.062,p2=0.005,那么決策的結(jié)論是兩個終點均無效,因為第1個檢驗的結(jié)果不顯著,未能進行到第2個檢驗,喪失了發(fā)現(xiàn)對第2個終點獲益的機會?;赝朔ㄐ枋孪雀鶕?jù)固定順序策略對各假設(shè)排序,并采用Bonferroni法確定每個檢驗的i,然后依順序進行檢驗。該法首先在1水平檢驗H01,如果拒絕H01,則在1+2水平檢驗H02;如果不拒絕H01,則在2水平檢驗H02,余類推。該法具有兩個特
32、點,一是在前一個原假設(shè)未被拒絕時,仍可繼續(xù)后續(xù)的檢驗,例如上例,采用回退法,對應(yīng)O1和O2的名義水準(zhǔn)分別是0.04和0.01,最終的決策結(jié)論為試驗藥物對第2個主要終點O2有顯著獲益;二是如果前一個檢驗顯著,其對應(yīng)的i可以疊加到下一個檢驗的名義水準(zhǔn),體現(xiàn)了i的傳遞思想。例如,假設(shè)對應(yīng)O1和O2的名義水準(zhǔn)分別是0.04和0.01,如果對O1的假設(shè)檢驗顯著(1=0.04),則對O2的檢驗水準(zhǔn)為0.05(=0.01+0.04),即把前一次檢驗顯著的名義水準(zhǔn)傳遞給了下一次檢驗。對于固定順序策略是否采用多重性調(diào)整各有利弊,需權(quán)衡之。3. 期中分析常見的分割方法期中分析較經(jīng)典的分割方法有Pocock法、OB
33、rien-Fleming法和Haybittle-Peto法。這三種分割方法的一個共同前提是每一次期中分析的間隔和樣本量相同,只是每次假設(shè)檢驗i的分配有不同側(cè)重。更為靈活的分割方法則是消耗函數(shù),如Lan-DeMets 消耗函數(shù),該方法是上述經(jīng)典方法的擴展,它不要求期中分析間隔樣本量相等,在設(shè)定期中分析時間點上更為靈活。例如,一項評價免疫靶點抑制劑抗腫瘤藥物的確證性臨床試驗,主要評價指標(biāo)為全因死亡,擬進行一次期中分析,可基于有效性早期終止試驗??紤]到免疫靶點抑制劑起效時間可能存在延遲,因此計劃在研究相對較晚的時間點,即觀察到75%的死亡事件時,開展期中分析。采用近似OBrien Fleming邊界
34、的Lan-Demets 消耗函數(shù),且要求雙側(cè)FWER控制在0.05,則期中分析和最終分析的雙側(cè)名義檢驗水準(zhǔn)分別為0.019和0.044。(三)多重性分析方法對于需要解決的多重性問題,多數(shù)是基于具體的統(tǒng)計檢驗方法結(jié)合多重性調(diào)整方法來實現(xiàn)的。例如,對于不同數(shù)據(jù)類型的多個終點(如定量、定性、生存時間),組間比較會用到不同的統(tǒng)計分析方法(如協(xié)方差分析、M-H c2檢驗、Kaplan-Meier檢驗),與此同時,還要依靠多個終點的多重性調(diào)整方法(如Bonferroni法等)來確定每個假設(shè)檢驗的檢驗水準(zhǔn)i,然后才能做出決策結(jié)論。對于單一終點變量、同一研究階段的多組比較,有些統(tǒng)計分析方法是在整體檢驗的基礎(chǔ)上
35、解決多重比較的問題,其根本思想是兩兩比較所涉及的標(biāo)準(zhǔn)誤是整體檢驗的標(biāo)準(zhǔn)誤,由此達(dá)到控制FWER的目的。例如,定量結(jié)局變量基于方差分析的兩兩比較有LSD法、SNK(Student-Neuman-Keuls)法、Scheffe法、Tukey法、Levy法、Ryan法、Duncan法,等等,多組與參照組的比較有Dunnett法、Dunnett-SNK法、Dunnett-Levy法等;定性結(jié)局變量的多重比較可通過變量變換(如反正弦變換)成為定量變量,然后采用上述定量變量的分析方法;生存時間結(jié)局變量基于Kaplan-Meier法的log rank檢驗(Mantel-Cox法)、Breslow法(擴展Wi
36、lcoxon法)、Tarone-Ware法等。上述方法可通過專業(yè)統(tǒng)計軟件實現(xiàn)。對于在整體檢驗的基礎(chǔ)上無法實現(xiàn)多重比較的統(tǒng)計分析方法,就需要采用局部檢驗(兩兩比較)結(jié)合a分配的方法(如Bonferroni法等)。多變量的參數(shù)方法(如多元方差分析)是解決多重性問題的手段之一,特別是對于多終點的情況,但是此類方法一則要求滿足多元正態(tài)分布,二則分析結(jié)果的解釋往往不直觀,限制了其應(yīng)用。重復(fù)抽樣(如bootstrap法和permutation法)也是解決多重性問題的手段之一,此類方法的優(yōu)點是在控制FWER的同時還能保證較高的檢驗效能;其不足之處在于它所基于的經(jīng)驗分布難以驗證從而導(dǎo)致估計的準(zhǔn)確性不足,此外它
37、更依賴于大樣本。因此,該類方法在臨床試驗中少有實踐,需慎重使用。由于解決多重性問題的統(tǒng)計分析方法眾多,每種方法都有其優(yōu)勢與不足,申辦方需要在臨床試驗方案或統(tǒng)計分析計劃中事先規(guī)定針對多重性問題所采用的統(tǒng)計分析方法。(四)多重性問題的基本解決思路臨床試驗的多重性問題較為普遍而且復(fù)雜,解決這一問題的基本思路如圖4所示。首先,根據(jù)研究目的和試驗方案,梳理出可能的多重性問題。其次,判斷哪些多重性問題需要多重性調(diào)整,哪些不需要。之后,進入多重性調(diào)整過程。先判斷是做一次整體決策還是分階段做若干次整體決策(如基于有效性決策的期中分析),對某一個整體決策而言可采用平行策略、序貫策略或平行+序貫策略,最后根據(jù)所選
38、策略確定每一個檢驗假設(shè)(局部決策)所對應(yīng)的統(tǒng)計分析方法和名義水準(zhǔn)i的分配策略(如需要)。圖4 多重性問題的基本解決思路五、其它考慮(一)不需要調(diào)整的多重性問題不需要調(diào)整的多重性問題包括但不限于以下情形(均不包含有效性的期中分析):1. 針對單一主要終點的非劣效試驗的標(biāo)準(zhǔn)三臂設(shè)計,所有假設(shè)檢驗結(jié)果均顯著才被視為有效;2. 針對單一主要終點,研究假設(shè)為試驗藥物的療效至少非劣于陽性對照藥,即檢驗假設(shè)為固定順序,第一步驗證試驗藥物的療效非劣于陽性對照藥的假設(shè),第二步驗證試驗藥物的療效優(yōu)于陽性對照藥的假設(shè)(在第一步假設(shè)被拒絕后),每一步的檢驗水準(zhǔn)與FWER水平相同;3. 針對多個主要終點,當(dāng)且僅當(dāng)所有終
39、點的假設(shè)檢驗結(jié)果均顯著才被視為有效;4. 針對多個均不以說明書聲稱的獲益為目的的次要終點;5. 有效性和安全性評價應(yīng)分別獨立控制FWER,兩者間無需調(diào)整;6. 對于籃式設(shè)計、傘式設(shè)計、平臺設(shè)計等跨研究的復(fù)雜設(shè)計,如果分題研究多是獨立的研究且回答各自的臨床問題,如適用疾病、目標(biāo)人群等;7. 在統(tǒng)計分析過程中,對同一主要終點指標(biāo),可能會對不同的分析數(shù)據(jù)集進行分析,只要事先定義以哪個分析數(shù)據(jù)集為主要結(jié)論依據(jù);8. 采用不同的統(tǒng)計模型或同一模型采用不同的參數(shù)設(shè)置,只要事先定義主分析模型;9. 根據(jù)不同的假設(shè)進行敏感性分析,例如采用不同的缺失數(shù)據(jù)估計方法填補后的分析,對離群值采用不同處理后的分析等。(二
40、)多重性檢驗的參數(shù)估計問題多重性調(diào)整的假設(shè)檢驗方法眾多,有的方法較為復(fù)雜,可能難以做出相應(yīng)的區(qū)間估計,此時應(yīng)該考慮采用較為簡單但是相對保守的方法進行區(qū)間估計,例如采用Bonferroni方法調(diào)整置信區(qū)間。多重性調(diào)整還有可能帶來點估計的選擇性偏倚。例如,在含有多個劑量組的確證性臨床試驗中,如果多重性問題的決策策略選擇了在藥物說明書中標(biāo)示與安慰劑差異最大的劑量組的效應(yīng)量,則有可能高估藥物的療效。類似的選擇性偏倚也會因亞組的選擇而產(chǎn)生。因此,有必要評估多重性調(diào)整可能帶來的選擇性偏倚。(三)與監(jiān)管機構(gòu)的溝通在臨床試驗方案和統(tǒng)計分析計劃中應(yīng)事先明確多重性問題和多重性調(diào)整的策略和方法。對于復(fù)雜的多重性問題
41、,是否需要多重性調(diào)整以及如何調(diào)整,現(xiàn)有的策略和方法可能面臨挑戰(zhàn),因此鼓勵申辦方在確證性臨床試驗設(shè)計階段積極與監(jiān)管機構(gòu)溝通,以求雙方能夠達(dá)成共識。在試驗過程中,如果因為更改多重性調(diào)整策略和方法而使臨床試驗方案做出重大調(diào)整,應(yīng)與監(jiān)管機構(gòu)充分溝通,在征得同意的情況下對方案進行修改和備案。六、參考文獻(xiàn)1. CDE. 非劣效設(shè)計臨床試驗指導(dǎo)原則2. CDE. 臨床試驗數(shù)據(jù)監(jiān)查委員會指導(dǎo)原則(征求意見稿)3. CDE. 藥物臨床試驗適應(yīng)性設(shè)計指導(dǎo)原則(征求意見稿)4. CDE. 藥物臨床試驗的富集策略與設(shè)計指導(dǎo)原則(征求意見稿)5. CDE. 藥物臨床試驗亞組分析的指導(dǎo)原則(征求意見稿)6. ICH E9
42、(臨床試驗的統(tǒng)計學(xué)指導(dǎo)原則)7. ICH E8(臨床研究的一般注意事項)8. ICH E17(多地區(qū)臨床試驗計劃與設(shè)計總體原則)9. 錢俊,陳平雁. Bootstrap和Permutation方法在樣本率多重比較中的應(yīng)用. 中國醫(yī)院統(tǒng)計,2008;15(1):43-45.10. 錢俊,陳平雁. 多個樣本率的多重比較. 中國衛(wèi)生統(tǒng)計,2008;25(2):206-212.11. 錢俊,陳平雁. 樣本率多重比較方法的模擬研究. 中國衛(wèi)生統(tǒng)計,2009;26(2):131-134.12. Bretz F, Tamhane AC, Pinheiro J, et al. Multiple Testing
43、 in Dose-Response Problem, Chapter 3 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.13. Chen J, Luo JF, Liu K, et al. On power and sample size computation for multiple testing procedures. Computational Statistics and Data Analysis, 2011; 55: 110-122.14. Collignon O, Ch
44、ristian Gartner C, Haidich AB, et al. Current statistical considerations and regulatory perspectives on the planning of confirmatory basket umbrella and platform trial. Clinical Pharmacology & Therapeutics, 2020; doi:10.1002/cpt.1804.15. Dmitrienko A, Tamhane AC, Bretz F, et al. Multiple Testing
45、 Methodology, Chapter 2 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.16. Dmitrienko A, Tamhane AC, Bretz F, et al. Gatekeeping Procedures in Clinical Trials, Chapter 5 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.17. EMA. Guidance on
46、Multiplicity Issues in Clinical Trials.18. FDA. Multiple Endpoints in Clinical Trials Guidance for the Industry.19. Hochberg Y, Tamhane A. Multiplicity Comparison Procedure. New York: Wiley, 1987.20. Huque MF, Rohmel J. Multiplicity Problem in Clinical Trials, Chapter 1 of Multiplicity Testing Probl
47、em in Pharmaceutical Statistics. CRC Press, 2010.21. Lan KKG, DeMets DL. Discrete sequential boundaries for clinical trials. Biometrika, 1983; 70: 659-663.22. OBrien PC, Fleming TR. A multiple testing procedure for clinical trials. Biometrics, 1979; 35: 549-556.23. Peto R, Pike MC, Armitage P, et al
48、. Design and analysis of randomized clinical trials requiring prolonged observations of each patient, I. Introduction and design. British Journal of cancer, 1976; 34: 585-612.24. Pocock SJ. Group sequential methods in the design and analysis of clinical trials. Biornetrika, 1997; 64:191-199.25. Sen.
49、 Some remark on Simes-type multiple tests of significance. Journal of statistical Planning and Inference, 1991; 82:139-145.26. Wang DL, Li YH, Wang X, et al. Overview of multiple testing methodology and recent development in clinical trials. Contemporary Clinical Trials, 2015; 45: 13-20.附錄1:詞匯表I類錯誤(
50、Type I Error):指原假設(shè)(或稱無效假設(shè))正確但檢驗結(jié)果拒絕了原假設(shè)的錯誤,相當(dāng)于把實際上無效的藥物經(jīng)統(tǒng)計推斷得出有效結(jié)論的錯誤,其概率需控制在某一水平,該水平稱為檢驗水準(zhǔn),或稱顯著性水準(zhǔn),習(xí)慣用a表示。II類錯誤(Type II Error):指原假設(shè)不正確,但檢驗結(jié)果未能拒絕原假設(shè)的錯誤,相當(dāng)于把實際上有效的藥物經(jīng)統(tǒng)計推斷得出無效結(jié)論的錯誤。消耗函數(shù)( Spending Function):當(dāng)某個臨床研究分若干階段進行整體決策時(如基于有效性或無效性所做的期中分析),每個階段都要消耗一定的,隨著研究進展,研究所完成的比例(如1/3、1/2、60%等)與累積的I類錯誤率呈現(xiàn)某種函數(shù)關(guān)系,如下圖所示。Bonferroni法(Bonferroni Method):Bonferroni法的基本思想是各個獨立檢驗的名義水準(zhǔn)之和等于FWER水平a,即a1+a2+ai+am=a(m是獨立檢驗的個數(shù))各名義水準(zhǔn)可以相同(ai=a/m
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB3707T 135-2025大蔥三系雜交制種技術(shù)規(guī)程
- 江西公路瀝青路面施工方案
- 馬尾松種植中發(fā)生的主要病蟲害及針對性防治方法的多角度分析
- 醫(yī)療機構(gòu)水污染物的監(jiān)測與檢測方法
- 穩(wěn)定和擴大就業(yè)的背景與意義
- 就業(yè)質(zhì)量提升的路徑
- 2025年配網(wǎng)自動化監(jiān)控項目合作計劃書
- 廣東省佛山市2017-2018學(xué)年高一上學(xué)期期末考試教學(xué)質(zhì)量檢測政治試題
- 浙江省臺州市2024-2025學(xué)年高二上學(xué)期期末質(zhì)量評估數(shù)學(xué)試題2
- 四川省棠湖中學(xué)2017-2018學(xué)年高二下學(xué)期開學(xué)考試語文試題
- 激光原理與技術(shù):第六章 調(diào)Q技術(shù)
- 養(yǎng)老護理技術(shù)操作規(guī)范評分標(biāo)準(zhǔn)
- 中國文化概論-緒論
- 網(wǎng)頁設(shè)計基礎(chǔ)ppt課件(完整版)
- 2023高中物理步步高大一輪 第十章 專題強化十八 帶電粒子在有界勻強磁場中的運動
- 供應(yīng)商管理控制流程圖
- 義務(wù)教育語文課程標(biāo)準(zhǔn)(2022年版)
- 初中物理公式總結(jié)大全(最新歸納)
- 小學(xué)四年級《雞兔同籠》優(yōu)秀獲獎公開課分析
- 不均勻系數(shù)和曲率系數(shù)自動升程計算(升級版)
- 《弟子規(guī)》(精美圖片版)(課堂PPT)
評論
0/150
提交評論