




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、摘 要復雜數(shù)據(jù)主要表現(xiàn)在相依、非線性、維數(shù)高與不完全觀測等,在股市、基因序列和經(jīng)濟等領域中經(jīng)常出現(xiàn)。為解決巨型數(shù)據(jù)集合問題,數(shù)據(jù)挖掘的理論、方法和技術已應運而生。而針對諸如怎樣同時檢驗成千上萬個基因中哪些基因的表達水平有顯著性差異之類的高維統(tǒng)計推斷問題,以錯誤發(fā)現(xiàn)率為主要特征的非參數(shù)估計方法無疑為其提供了一個有效的解決途徑。本文主要研究考察錯誤發(fā)現(xiàn)率的在各種參數(shù)模型和非參數(shù)模型下的控制檢驗方法,全文共分為四章。文章首先介紹了所選取課題的背景和意義,以及國內(nèi)外在該方向的研究現(xiàn)狀。在多重假設檢驗的背景下,給出了錯誤發(fā)現(xiàn)率的定義,提出利用p值進行假設檢驗,并在假設檢驗獨立和相依的情形下對錯誤發(fā)現(xiàn)率的
2、控制方法進行了探討。在研究錯誤發(fā)現(xiàn)率的控制方法時,發(fā)現(xiàn)在處理多重假設檢驗問題時,核心的問題是如何估計真實零假設的個數(shù),因此本文采用經(jīng)驗貝葉斯估計來估計它的值。在參數(shù)混合模型和非參數(shù)混合模型中研究真實零假設的估計問題是本文的核心內(nèi)容。針對正態(tài)混合分布模型和Beta混合分布模型兩種參數(shù)混合模型,文章采用矩估計方法和基于p值的最小二乘估計方法進行研究;在研究非參數(shù)混合模型時,分別介紹了最小二乘估計方法、Beta分布擬合模型和Beinstein多項式擬合模型的方法。文章的最后以Hedenfalk報告的一組乳腺癌患者的基因數(shù)據(jù)為例進行仿真研究,發(fā)現(xiàn)錯誤發(fā)現(xiàn)率為微陣列數(shù)據(jù)的多重假設檢驗提供了合適的錯誤控制
3、指標。 關鍵詞:錯誤發(fā)現(xiàn)率;多重假設檢驗;p值;非參數(shù)估計;微陣列數(shù)據(jù)AbstractComplex data always appear in the stock market, gene sequences, economic and other fields, which mainly show the characteristic of dependent, nonlinear, high dimension and incomplete observations. In order to solve the problem of huge data collection, the t
4、heories, methods and techniques of data mining are proposed. While how to examine the high-dimensional statistical inference problem, such as the significant differences of expression levels in thousands of genes, the non-parametric estimation of false discovery rate provide an effective solution.Th
5、is paper mainly investigate the test method based on the false discovery rate of various parametric model and non-parametric model, which is divided into four chapters. Firstly, this paper introduce the background and significance of the topic, and the current studies in this direction at home and a
6、broad. Under the background of multiple hypotheses testing, the paper describe the definition of the false discovery rate, propose using the p-value to test the hypothesis testing, and discuss the controlling method of the false discovery rate when the hypotheses testing is independent or dependent.
7、 When we investigate the controlling method of the false discovery rate and studied the multiple hypothesis testing problem, we find that the central problem is how to estimate the number of true null hypothesis, so this paper use the empirical Bayes estimation to estimate its value. Investigating t
8、he estimation of true null hypothesis in the mixing parametric model and non-parametric model is core of the dissertation. Aiming at the mixed normal distribution model and Beta mixture distribution model, This paper use the method of moment estimation and least squares estimation method based on th
9、e p-value to estimate its value; On studying the non-parametric mixture model, the paper introduce the least square estimation method, Beta distribution fitting model method and the Beinstein polynomial fitting model method. Finally, the paper conduct the simulation research based on a group of pati
10、ents with breast cancer gene data by Hedenfalk, and find that the false discovery rate is able to provide a suitable error control targets for the multiple hypothesis testing of microarray data.Keywords: false discovery rate, multiple hypotheses testing, p-value, non-parametric estimation, microarra
11、y data目 錄摘 要IAbstractII第1章 緒 論11.1 課題研究的背景及意義11.2 國內(nèi)外在該方向的研究現(xiàn)狀1131.3 本文擬研究的主要內(nèi)容31.4 創(chuàng)新點3第2章 錯誤發(fā)現(xiàn)率的多重檢驗方法52.1 多重假設檢驗的錯誤測度52.2 值的定義、性質(zhì)和計算方法62.3 獨立情形下基于FDR控制的檢驗方法72.4 相依情形下基于FDR控制的檢驗方法82.5 真實零假設的個數(shù)或比值的估計9估計9112.6 本章小結12第3章 參數(shù)混合模型和非參數(shù)混合模型的估計133.1 引言133.2 正態(tài)分布混合模型133.3 Beta分布混合模型173.4 非參數(shù)混合模型的估計2122 Beta
12、分布擬合模型23 Beinstein多項式擬合模型253.5 本章小結26第4章 錯誤發(fā)現(xiàn)率的估計方法的應用274.1 引言274.2 微陣列數(shù)據(jù)實例研究274.3 本章小結29結 論30參考文獻31哈爾濱工業(yè)大學學位論文原創(chuàng)性聲明和使用權限34致 謝35第1章 緒 論1.1 課題研究的背景及意義復雜數(shù)據(jù)主要表現(xiàn)在相依、維數(shù)高、非線性與不完全觀測等,經(jīng)常出現(xiàn)在股市、基因序列和經(jīng)濟等領域中。在研究處理低維的簡單數(shù)據(jù)時,采用傳統(tǒng)的數(shù)理統(tǒng)計方法是有效的,但在研究比較復雜的數(shù)據(jù)時,就會變得比較困難。因此,“復雜數(shù)據(jù)的統(tǒng)計推斷問題”已被列為我國統(tǒng)計學研究的重點課題。隨著科學技術的不斷發(fā)展,在實際的統(tǒng)計研
13、究過程中,出現(xiàn)了越來越多的大型數(shù)據(jù)集合問題。在研究巨型數(shù)據(jù)的高維統(tǒng)計推斷問題時,以錯誤發(fā)現(xiàn)率為主要特征的非參數(shù)估計方法為其提供了一個有效地解決途徑。在巨型數(shù)據(jù)問題的統(tǒng)計分析中,錯誤發(fā)現(xiàn)率( false discovery rate, FDR)有著非常重要的作用,現(xiàn)已被越來越多地應用在微陣列(Microarray)數(shù)據(jù)研究和功能磁共振成像(Functional magnetic resonance imaging, fMRI)等領域。以微陣列數(shù)據(jù)研究和功能磁共振成像(fMRI)為代表的現(xiàn)代生物技術已經(jīng)給醫(yī)學界的研究帶來了很大的影響。由于錯誤發(fā)現(xiàn)率可以為大規(guī)模數(shù)據(jù)多重檢驗中的錯誤控制提供一個合適的
14、測量標準,因此在微陣列數(shù)據(jù)的研究中,研究者通常采用錯誤發(fā)現(xiàn)率(FDR)來控制多重假設檢驗的錯誤率。例如在研究基因表達的差異性試驗中,假設我們挑選了個差異表達的基因,其中有個是真正有差異表達的,另外有個其實是沒有差異表達的,也就是說是假陽性的。在試驗中我們希望錯誤比例不能超過某個預先設定的值(比如),在統(tǒng)計學意義上,這就等價于控制FDR不能超過.1.2 國內(nèi)外在該方向的研究現(xiàn)狀多重假設檢驗的統(tǒng)計顯著性問題已經(jīng)引起了許多統(tǒng)計學者的注意。1995年,Benjamini和Hochberg在研究多重假設檢驗時首次提出了錯誤發(fā)現(xiàn)率的概念,并在多重檢驗中對它的控制方法做了研究,給出了計算方法1。然而,由于當
15、時沒有學者研究大規(guī)模數(shù)據(jù),因此并未受到重視,甚至還受到廣大學者的質(zhì)疑。若干年后,隨著微陣列數(shù)據(jù)研究的不斷發(fā)展,大規(guī)模數(shù)據(jù)的頻繁出現(xiàn)使得FDR有了實際的應用,錯誤發(fā)現(xiàn)率的理論和應用研究也在逐漸走向成熟。FDR(false discovery rate)的定義如下:上式中的和分別表示個假設檢驗中錯誤拒絕和正確拒絕檢驗的個數(shù),表示個假設檢驗中總的拒絕原假設的個數(shù),表示數(shù)學期望。Storey和Tibshirani(2003)提出了陽性錯誤發(fā)現(xiàn)率( positive false discovery rate,pFDR)的定義,并在DNA微陣列數(shù)據(jù)試驗應用過程中,分別給出了統(tǒng)計數(shù)據(jù)獨立和相關條件下的程序計
16、算過程2。pFDR的定義為:其中和的含義與上文相同。比較FDR和pFDR兩者的定義可知,pFDR是FDR的一種特例。設假設檢驗的檢驗統(tǒng)計量為,分別假設和,令和分別表示檢驗統(tǒng)計量的零分布和相間分布。同時進行次試驗。也就是說,考察個假設檢驗:及其檢驗統(tǒng)計量. 對每個,分別假設和. 假定對每個,都有和. 被當做的一個樣本,且具有混合分布 (1-1)設全體試驗的拒絕域的集合為。未被發(fā)現(xiàn)的錯誤率( false non-discovery rate,F(xiàn)NR)首次被Genovese和Wasserman(2002)3提出。從參考文獻4和5中,我們可以得到正錯誤發(fā)現(xiàn)率(pFDR)和未被發(fā)現(xiàn)的錯誤率(FNR)的貝
17、葉斯解釋: 上式中的分母和可以由經(jīng)驗分布估計得出結果,有時也會從已知的或者由采樣的方法得到的零分布中得到結果。如果可以由檢驗統(tǒng)計量估計,那么pFDR和pFNR就是可以估計的。Allison等人(2002)采用有限Beta混合模型,利用這些數(shù)量模擬了微陣列數(shù)據(jù)分析中的值6。關于多重假設檢驗問題的研究,也受到了國際著名統(tǒng)計學家的高度重視,且已編入了國際統(tǒng)計學的教材中。Erich Lehmann編著的Theory of Point Estimation和Testing Statistical Hypotheses是世界各國培養(yǎng)統(tǒng)計學研究生的標準教材,被世界各國的大學廣泛采用。2005年,Lehman
18、n還撰文提出了k-族錯誤率(k-FWER)的概念。另外,斯坦福大學統(tǒng)計系教授Bradley Efron也對此問題作出了深入的研究,并在許多重要報告中介紹了FDR的應用成果7-9。 在國內(nèi)統(tǒng)計學研究中,目前對多重假設檢驗中錯誤發(fā)現(xiàn)率問題的研究才剛剛起步。黃麗萍等(2003)以腦功能磁共振成像(fMRI)為實驗,對多重假設檢驗的FDR控制方法進行了研究,他們利用計算機編程技術對FDR控制方法進行了詳細的研究,并在功能磁共振成像(fMRI)數(shù)據(jù)分析中加以應用10??姲仄?2005)和朱鈺(2005)介紹了FDR控制檢驗方法取得的顯著成果11。東北師范大學郭建華教授指導的裴艷波(2005)的碩士論文對
19、多重假設檢驗問題中關于三種錯誤測度-FWER,FDR和pFDR及其控制方法進行了較全面的介紹12。此外,茍鵬程(2006)對微陣列數(shù)據(jù)的多重比較進行了探討13。1.3 本文擬研究的主要內(nèi)容本文主要研究錯誤發(fā)現(xiàn)率的非參數(shù)估計方法,并以微陣列數(shù)據(jù)為實例進行仿真研究。在第二章中,我們從多重假設檢驗的錯誤測度的角度出發(fā),引入錯誤發(fā)現(xiàn)率的概率意義,研究了p值的定義和性質(zhì),并著重介紹真實零假設的個數(shù)或比值的估計方法;在第三章,我們詳細介紹比值在參數(shù)混合模型與非參數(shù)混合模型下的估計方法;第四章以微陣列數(shù)據(jù)為例,進行仿真研究,并得出相關結論。1.4 創(chuàng)新點本文的創(chuàng)新點在于:首先,本文在多重假設檢驗的背景下,介
20、紹了錯誤發(fā)現(xiàn)率的定義,并提出利用p值進行假設檢驗;其次,在對正態(tài)混合分布模型和Beta混合分布模型兩種參數(shù)混合模型進行研究時,文章采用矩估計方法和基于p值的最小二乘估計方法進行研究;在研究非參數(shù)混合模型時,分別采用最小二乘估計方法、Beta分布擬合模型和Beinstein多項式擬合模型的方法進行研究;最后,在以Hedenfalk的乳腺癌微陣列數(shù)據(jù)作為實例對微陣列數(shù)據(jù)進行仿真研究時,本文采用置換檢驗的方法對錯誤發(fā)現(xiàn)率的控制方法進行研究,得到合理的實驗結果。第2章 錯誤發(fā)現(xiàn)率的多重檢驗方法2.1多重假設檢驗的錯誤測度在研究多重假設檢驗問題時,最核心的內(nèi)容就是如何控制總體檢驗所犯的錯誤。由于涉及多重
21、檢驗,因此情況將變得非常復雜。例如,同時對個假設進行檢驗,分別記為. 如果原假設為真,則令,否則令. 記. , 即分別為 和 中含有的元素的個數(shù)。顯然有. 對于這個檢驗結果的分類見表2-1.其中,表示拒絕總數(shù),即個檢驗中顯著性假設的個數(shù),是一個可觀測的隨機變量;表示個檢驗中犯第類錯誤的個數(shù);表示犯第類錯誤(假陰性)的總數(shù),和均為不可觀測的隨機變量。在實際的檢驗過程中我們發(fā)現(xiàn),表2-1中的一些量,例如是不可觀測的。在多重假設檢驗中,為了衡量檢驗總體的第類錯誤,我們必須首先要尋找一種比較合理的錯誤測度,然后進一步研究該錯誤測度的控制檢驗方法,以達到盡可能多地發(fā)現(xiàn)顯著性假設的目的。這里我們主要介紹錯
22、誤發(fā)現(xiàn)率(FDR) 的定義及其衍生出來的各種相關測度。定義2.1:FDR 稱為錯誤發(fā)現(xiàn)率(False discovery rate)。1995年,Cahgeton和Peshereg提出了錯誤發(fā)現(xiàn)率的概念。下面是由錯誤發(fā)現(xiàn)率衍生出來的各種相關概念。定義2.2:cFDR(r)稱為條件錯誤發(fā)現(xiàn)率(conditional FDR).定義2.3:eFDR(r)稱之為經(jīng)驗FDR(empirical FDR).定義2.4:mFDR稱之為邊緣FDR(marginal FDR).定義2.5:pFDR稱之為陽性FDR(positive FDR).定義2.6:FNR稱之為假非發(fā)現(xiàn)錯誤率(False non-disc
23、overy rate).定義2.7:pFNR稱之為陽性FNR(positive FNR).這些衍生的錯誤測度與FDR之間的關系可有下列式子表示出:且當時,有和2.2 值的定義、性質(zhì)和計算方法為了能夠直觀的得到接受或拒絕原假設的置信程度,我們通常采用值來研究。在多重假設檢驗的研究中,采用值進行假設檢驗已經(jīng)成為國際上比較流行的方法。因此,在研究模型的估計方法之前,有必要先研究下值的定義和性質(zhì)。定義2.8:設檢驗統(tǒng)計量為,樣本觀測值為,對于一族拒絕域統(tǒng)計量的值可以定義為: 在實際的假設檢驗中,由定義2.8所得到的值,如果, 說明檢驗結果是顯著的;如果, 則說明檢驗結果非常顯著。下面給出值的計算方法和
24、作用,并不加證明的給出值的性質(zhì)。(1)值的計算方法當為真時,統(tǒng)計量的值可由樣本數(shù)據(jù)計算出,根據(jù)檢驗統(tǒng)計量的實際分布,可以求出值. 具體地講,就是:1.左側檢驗的值是統(tǒng)計量小于樣本統(tǒng)計值的概率,即:;2.右側檢驗的值是統(tǒng)計量大于樣本統(tǒng)計值的概率,即:; 3.當統(tǒng)計量的分布具有對稱的性質(zhì)時(例如正態(tài)分布,t分布等),雙側檢驗的值是統(tǒng)計量落在樣本統(tǒng)計值為端點的尾部區(qū)域內(nèi)的概率的2倍,也就是說:當位于分布曲線的右側時,有當位于分布曲線的左側時,有(2)值的性質(zhì)1.如果原假設為真,那么由定義2.8計算出的值滿足區(qū)間上的平均分布,即;2.如果原假設非真,則值的分布不易確定,但由值的統(tǒng)計意義可知,其分布具有
25、遞減的趨勢。(3)值的作用在假設檢驗中,我們先利用樣本數(shù)據(jù)計算出值,然后將值與提前給出的檢驗水平比較,得出檢驗的結論:1.如果則在顯著水平下接受原假設;2.如果則在顯著水平下拒絕原假設。在實際實驗過程中,若,則可以適當提高樣本的大小,再次進行檢驗。2.3 獨立情形下基于FDR控制的檢驗方法在多重假設檢驗中,利用值來研究錯誤發(fā)現(xiàn)率的控制方法有很多。在這一節(jié),我們先研究獨立情形下基于FDR控制的檢驗方法。Benjamini和Hochberg在提出錯誤發(fā)現(xiàn)率的概念的同時,給出了FDR最初的檢驗方法,記為BH法。BH法:設個假設檢驗對應的值分別為將他們從小到大排序,得到其中對應于 對于給定的檢驗水平,
26、令則拒絕對應的原假設。實際上,當時提出的BH法只是用來控制總體的錯誤測度(FWER)。由下面的定理我們可以發(fā)現(xiàn),如果檢驗水平已知,那么該方法就可以有效地控制FDR。定理2.1 :【Benjamini and Hochberg (1995)】14如果多重假設檢驗的統(tǒng)計量所對應的值相互獨立,且具有連續(xù)的分布,為給定的檢驗水平,那么BH法控制.受BH法的啟示,Benjamini和Liu(1999)提出了一個step-up的錯誤發(fā)現(xiàn)率的檢驗方法,記為BL1法15。BL1法:取 經(jīng)過計算可以知道,是單調(diào)上升的,即令 則拒絕所對應的零假設。注:在上面的BL1方法中,如果不存在這樣的, 那么拒絕所有的原假設
27、。定理2.2 :【Benjamini and Liu(1999a)】如果多重假設檢驗的統(tǒng)計量所對應的值相互獨立,且具有連續(xù)的分布,則BL1法控制 其中為提前給定的檢驗水平。由定理2.2可知,在相互獨立的條件下,BH法把FDR的水平控制在 若已知,則可令取代BH法中的檢驗水平,從而可以更精確地控制FDR在水平內(nèi)。2.4相依情形下基于FDR控制的檢驗方法在上一節(jié),我們討論了獨立情形下FDR控制的檢驗方法,但是在實際的試驗過程中,統(tǒng)計量一般會具有著這樣或那樣的依存關系,從而使得上面研究的控制方法是無效的。因此本節(jié)將介紹在統(tǒng)計量對應的值相依的條件下FDR的控制方法。針對多重檢驗中檢驗統(tǒng)計量自由分布的情
28、形,我們有下述檢驗方法,由于該方法是由Benjamini and Liu提出來的,因此叫做BL2法16。BL2法:令, 有, 令,那么拒絕 對應的原假設;若不存在上述條件的, 則拒絕所有原假設。定理2.3 :【Benjamini and Liu(1999b)】上述針對分布自由的檢驗統(tǒng)計量的BL2法,有.針對多重檢驗中檢驗統(tǒng)計量自由分布的情形,還有下述的FDR控制方法,該方法由Benjamini and Yekutieli提出,因此記為BY法。BY法:令 ,則拒絕 所對應的原假設。注:在上述檢驗方法中,如果不存在這樣的,則不拒絕任何原假設。定理2.4:【Benjamini and Yekutie
29、li(2001)】上述對于多重檢驗自由分布的step-down 的FDR控制方法控制FDR在水平17。2.5 真實零假設的個數(shù)或比值的估計通過上文在獨立情形和相依情形下基于FDR控制的檢驗方法的研究,我們可以知道,在多重假設檢驗中,如果真實零假設的個數(shù)或者比值已知,那么就可以根據(jù)檢驗統(tǒng)計量之間相依或者獨立的關系,采用上文介紹的檢驗方法來控制FDR. 然而在實際研究中,或者往往是未知的,因此,最重要的問題就是如何估計的值,或者等價的估計的值。本節(jié)就來研究這個問題,我們分兩種方法進行具體研究。估計基于值在不同假設條件下的分布差異性,Storey(2002)提出了一種的估計方法,記為估計方法18。若
30、假設同分布,設為個假設所對應的值。對,我們記,那么可由下式估計出: (2-1)由上式可以看出,的取值不同,由(2-1)式所得到的的估計值就不同,且所得到的估計值都比真實值偏大,這是因為,有 ,從而有 ,上式中的表示備擇假設下值的密度函數(shù)。由值的性質(zhì)可知,密度函數(shù)是漸進遞減的,而且顯然有. 因此由上式可以看出,當減小時,的誤差就會變小,反之則變大。而且由可以看出,當增大時,的方差就會增大,這就造成了估計值的不穩(wěn)定性。那么如何才能尋找一個合適的,使得估計值達到最優(yōu)呢?2002年,統(tǒng)計學家Storey提出了一個選取的計算方法:考慮使均方誤差 (2-2)最小化的取值。由于上式中的未知,我們可以用取代(
31、2-2)式的,這是因為對,估計值都偏大,于是有其中表示第次對值樣本進行抽樣后,采用(2-1)式重新計算得到的估計值。從而最優(yōu)為從而可以得到最優(yōu)估計由于,因此我們可以考慮采用格點法,即在區(qū)間上等距離地抽取有限個值,然后利用(2-1)式計算最小化均方誤差19。在對微陣列數(shù)據(jù)進行研究時,Efron, B. and Tibshirani, R. (2002)20提出可采用經(jīng)驗貝葉斯方法來估計FDR. 令表示不同條件下基因表達無差別的概率,則表示基因表達存在差別的概率。我們采用來表示零假設和備擇假設檢驗下檢驗統(tǒng)計量的密度函數(shù),對應的分布函數(shù)分別為. 則檢驗統(tǒng)計量的密度函數(shù)可以表示為計算后驗概率,有如果是
32、已知的,或者已經(jīng)被估計出來,記為,則由得到不等式從而得到的一個估計式上式也可以改寫為其中和為對應的經(jīng)驗分布函數(shù)。2.6 本章小結在第一節(jié)中,我們介紹了多重假設檢驗中錯誤測度的定義,給出了錯誤發(fā)現(xiàn)率的概念;第二節(jié)介紹了P值的定義和性質(zhì);第三節(jié)和第四節(jié)分別介紹了檢驗統(tǒng)計量在獨立情形和相依情形下FDR控制的檢驗方法,第五節(jié)介紹了兩種真實零假設或比值的估計方法,為后面參數(shù)混合模型的估計方法奠定了基礎。第3章 參數(shù)混合模型和非參數(shù)混合模型的估計3.1 引言在實際多重假設檢驗的研究中,我們往往使用隨機的檢驗。當時,統(tǒng)計量的密度函數(shù)記為, 當時,統(tǒng)計量的密度函數(shù)與某個未知的參數(shù)有關,記為. 這里的. 如果固
33、定,統(tǒng)計量的密度函數(shù)就可以表示為 (3-1)與之相對應的值密度函數(shù)就可以表示為 (3-2)其中上式中的和分別表示值在零假設和備擇假設下的密度函數(shù)。顯然模型(3-1)和(3-2)是關于的參數(shù)混合模型。在模型(3-1)中,參數(shù)與均是可辨別的,其中表示冗余參數(shù)。同理,在模型(3-2)里面,參數(shù)和也是可辨別的。下面分別研究在正態(tài)混合分布模型和Beta混合分布模型下的估計方法。3.2 正態(tài)分布混合模型為了方便研究,本節(jié)我們對模型(3-1)中的密度函數(shù)加以條件限制。假設統(tǒng)計量在零假設下服從標準正態(tài)分布,即, 那么為標準正態(tài)分布密度函數(shù),我們把它記為; 在備擇假設下,統(tǒng)計量, 也就是說,是期望為,方差為1的
34、正態(tài)分布密度函數(shù),記為。從而隨機變量的其密度函數(shù)可以表示為 (3-3)在這個模型中,參數(shù)是可辨別的,其中是我們要研究的參數(shù),為冗余參數(shù)。對于任何一個樣本,如果樣本容量足夠,就可以由樣本的前兩階矩得到方程組解這個方程組,得 (3-4)即為參數(shù)的矩估計。 我們利用基于值的最小二乘估計來研究參數(shù)的估計方法,這里我們只考慮右側檢驗。令表示標準正態(tài)分布的分布函數(shù),則有,即。于是有,其中表示正態(tài)分布的上側分位點,為檢驗水平,有。記,則有 上式可以寫成 (3-5)我們?nèi)。瑒t上式變?yōu)樵倭?(3-6)若已知,對點列作最小二乘估計,可以得到參數(shù)的估計值,即由得到參數(shù)的估計值 (3-7) 而實際上是未知的,而可以采
35、用矩估計的方法得到它的初始估計值。那么這個算法的步驟如下:算法一:第一步:采用矩估計方法,由(3-4)式得到參數(shù)和的估計,即參數(shù)和的初值,記為和;第二步:令,帶入到(3-6)式中,計算點列;第三步:對點列作最小二乘估計,由(3-7)式得到新的估計值;第四步:利用的最小化方法,求得;第五步:令,重復計算第二步至第四步,直到估計值收斂為止。我們再來利用統(tǒng)計量的擬合方法來研究參數(shù)的估計值。定義并記, 其中為給定的檢驗水平,經(jīng)過計算得 從而 (3-8) (3-9) 那么,由(3-8)和(3-9)式可以得到 (3-10)其中。從而 (3-10)式可化為與前文類似,令,則有記 (3-11)于是,由可以得到
36、的最小二乘估計值同式(3-7) 。從而這個算法的具體步驟如下:算法二:第一步:由(3-4)式得到參數(shù)和的初值和;第二步:令,代入到(3-11) 式中,計算點列;第三步:對點列作最小二乘估計,由(3-7) 式得到的新估計值;第四步:利用的最小化求得;第五步:令,重復計算第二步到第四步到估計值收斂為止。3.3 Beta分布混合模型這一節(jié)我們來研究關于值的模型(3-2). 由第二章值的性質(zhì),我們可以考慮采用Beta分布來擬合模型,那么關于值的模型(3-2)轉(zhuǎn)化為 (3-12) 其中是參數(shù)為的Beta分布的密度函數(shù),其具體表示如下:特別情況下,當時,模型(3-12)就轉(zhuǎn)化為 (3-13) 其中。再來看
37、模型(3-12),我們令表示為Beta分布的分布函數(shù),則有與前面所描述的正態(tài)混合模型類似,同樣可以采用最小二乘估計。設為檢驗水平,記,則有令,代入上式中,經(jīng)過計算得到記則若參數(shù)已知,利用點的最小二乘估計方法,可以求得的估計值同式(3-7)。和上節(jié)相同,我們?nèi)匀徊捎镁毓烙嫹椒ㄇ蟮脜?shù)的初值。由樣本的前三階矩可以得到下列方程組 (3-14) 解這個方程組,得到的初始矩估計,記為。我們來研究參數(shù)的極大似然估計方法。由模型(3-12),其對數(shù)似然函數(shù)為,上式中的. 關于的偏導數(shù)為 這里表示Digmma函數(shù),即,為Gamma函數(shù)。從而有 其中同理,有令,則有方程組 (3-15)若已知,則可以由方程組(3
38、-15)求的參數(shù)的估計值。與上文相同,我們利用基于值的最小二乘擬合來研究參數(shù)的估計方法。定義并記。與上文一致,記, 且。經(jīng)過計算可得從而有 且有,則有 即 (3-16) 令,記 (3-17) 容易知道,若參數(shù)已知,當,(3-16)式的左邊可以由來估計,而右邊中括號的部分可由來估計。于是我們可以通過最小二乘估計,得到的最小二乘估計式同式(3-7)。類似于3.2節(jié)中的算法二,我們可以得到模型(3-12)的的算法如下:第一步:采用矩估計方法,由方程組(3-14)得到參數(shù)的估計,即參數(shù)的初值,記為;第二步:令,代入到(3-17)式中計算點列,;第三步:對于點列,由(3-7)式得到的最小二乘估計值;第四
39、步:由,解方程組(3-15),得到參數(shù)的新估計值,記為;第五步:令,重復計算第二步到第四步直至估計值收斂為止??紤]到后驗概率,我們有如下EM算法:第一步:采用矩估計方法,由方程組(3-14)得到參數(shù)的估計,即參數(shù)的初值,記為;第二步(E步):計算 (3-18) 且有第三步(M步):解方程組(3-15) ,得到的新估計值,從而由(3-18) 式得到的新估計值第四步:重復第一步到第三步致參數(shù)值收斂。3.4 非參數(shù)混合模型的估計在第二節(jié)和第三節(jié)中,我們介紹了參數(shù)混合模型,并分別研究了兩種混合模型下的估計方法。設統(tǒng)計量在零假設和備擇假設下下的密度函數(shù)分別為為和. 本節(jié)將這個模型推廣到非參數(shù)的情形 (3
40、-19) 或等價考慮其值密度函數(shù) (3-20) 其中和分別表示值在零假設和備擇假設下的密度函數(shù)。可以證明在這個沒有條件限制的混合模型中,參數(shù)或是不可辨別的。事實上,如果存在,滿足對任意的,有上式可化為當時,若,取由上式可以發(fā)現(xiàn),參數(shù)與參數(shù)顯然是不同的,所以說模型(3-19)中的參數(shù)是無法識別的。同理可證模型(3-20)中的參數(shù)也是不可辨別的。由此可以看出,在研究模型(3-19)時,為了使參數(shù)是可辨別的,需要加以某些限制條件。本節(jié)就對統(tǒng)計量的觀測值和值的分布情況加以限制進行研究。在研究非參數(shù)混合模型時,我們?nèi)匀豢紤]隨機的檢驗。與Beta分布混合模型(3-12)作對比,我們不難發(fā)現(xiàn),模型(3-20
41、)為模型(3-12)的非參數(shù)推廣形式。因此,我們可以將Beta分布混合模型(3-12)的方法推廣到非參數(shù)模型(3-20)上來。類似于第二節(jié)那樣,定義并記。令表示服從0-1分布的隨機變量,表示零假設成立,表示零假設不成立。記,。經(jīng)過計算得 從而有 并且知道,。于是有 即有 (3-21)令,記 (3-22) 若函數(shù)是已知的,當時,式(3-21)的左邊可以由來估計,而右邊中括號里面的部分可以由來估計。于是對點列作最小二乘擬合,即得到的最小二乘估計同式(3-7).而在實際研究過程中,密度函數(shù)往往是未知的,那么點列也是未知的,因此我們需要先估計出密度函數(shù). 如果是帶有兩個參數(shù)的分布密度函數(shù),記為,則這個
42、模型就轉(zhuǎn)化為參數(shù)混合模型(3-12),具體的估計方法見章節(jié)3.2.統(tǒng)計學家Parker and Rothenberg(1988)指出,區(qū)間上的任何概率分布都可由21。因此,統(tǒng)計學家Allison等人提出了利用Beta值的密度函數(shù)22。如果值的密度函數(shù)可以由個Beta分布來擬合,那么它的密度函數(shù)可以表示為: (3-23)這里的表示參數(shù)為的Beta分布的密度函數(shù),即其中為Beta函數(shù)。易知在模型(3-23)中,參數(shù)滿足下列條件:再來看模型(3-20),即Tang,Ghosal and Roy(2007)23提出,在模型的非參數(shù)部分采用Beta分布的混合模型: (3-24)上式中的為參數(shù)的聯(lián)合分布函
43、數(shù)。從而基于值的密度函數(shù)的模型(3-20)就可以寫成 (3-25)下面我們來研究分析模型(3-25). 容易知道,當參數(shù)的聯(lián)合分布函數(shù)為離散分布且質(zhì)量集中在個點組成的集合上時,模型(3-25)就和有限混合模型(3-23)是相同的。因此可以說模型(3-23)是非參數(shù)模型(3-25)的一種特殊情形。在多重假設檢驗的研究中,由值的性質(zhì)可知,其密度函數(shù)在區(qū)間上遞減的,且由Beta分布函數(shù)的性質(zhì),我們可以將參數(shù)的聯(lián)合分布函數(shù)的支撐包含在集合中。考慮邊界的特殊情形,當時,的密度函數(shù)滿足,從而使得,這就導致了參數(shù)不可辨別。因此只考慮,即限制參數(shù),的支撐包含在集合中的情況24。本節(jié)將考慮值的非參數(shù)混合模型(3
44、-20),記. 由前文可知,這個模型是不可辨別的。為了使之可以辨別,須假定. 進一步地講,假設密度函數(shù)在區(qū)間上連續(xù)且有,則函數(shù)在區(qū)間上連續(xù)且有, 在這樣的前提條件下,如果值的概率密度可以被估計,記為,那么就是的估計。由上面的討論可知,只要我們能夠估計出值的概率密度函數(shù),那么的估計問題就迎刃而解。在研究密度函數(shù)的估計方法時,我們需要考慮邊界效應。由維爾斯特拉斯逼近定理可知,閉區(qū)間上的連續(xù)函數(shù)都可以由Beinstein多項式來逼近,因此值的密度函數(shù)可以由Beinstein多項式逼近的方法來估計。令表示參數(shù)為和的二項分布律:的階Beinstein展開式為從而得到的第階估計為其中為密度估計,滿足上式中
45、的為基于樣本值的經(jīng)驗分布函數(shù)。選取適當?shù)模瑒t的估計值為 (3-26) 當時,對于較大的和,有. 因此,當成立時,為的合適的估計。當時,這個估計可望有較小的方差25。 3.5 本章小結本章主要對參數(shù)混合模型和非參數(shù)混合模型做了詳細的研究分析。在對參數(shù)混合模型進行研究時,考慮隨機化檢驗,分別對正態(tài)分布混合模型和Beta混合分布模型給出了的計算方法。針對兩種不同的分布模型,我們均采用矩估計的方法給出迭代算法的初值,然后采用基于值的最小二乘估計得到迭代點列,并利用最小化方法作迭代算法,得到的估計值。在第四節(jié),我們將參數(shù)混合模型推廣到非參數(shù)的情形,并分別對最小二乘估計方法、Beta分布擬合模型、Bein
46、stein多項式擬合模型進行了研究討論,得出了相應的算法。第4章 錯誤發(fā)現(xiàn)率的估計方法的應用4.1 引言隨著科學技術的不斷發(fā)展,在實際的統(tǒng)計研究過程中,出現(xiàn)了越來越多的大型數(shù)據(jù)集合問題。在研究巨型數(shù)據(jù)的高維統(tǒng)計推斷問題時,以錯誤發(fā)現(xiàn)率為主要特征的非參數(shù)估計方法為其提供了一個有效地解決途徑。在微陣列數(shù)據(jù)研究中,往往需要同時對數(shù)以千計的基因數(shù)據(jù)進行檢驗,因此就涉及多重檢驗的問題,由此產(chǎn)生的多重性問題,我們采用控制錯誤發(fā)現(xiàn)率(FDR)的方法對微陣列數(shù)據(jù)進行研究。例如在研究基因表達的差異性試驗中,假設我們挑選了個差異表達的基因,其中有個是真正有差異表達的,另外有個其實是沒有差異表達的,也就是說是假陽性
47、的。在試驗中我們希望錯誤比例不能超過某個預先設定的值(比如),在統(tǒng)計學意義上,這就等價于控制FDR不能超過.4.2 微陣列數(shù)據(jù)實例研究在研究諸如基因表達的大規(guī)模數(shù)據(jù)時,我們令表示檢測的基因個數(shù),表示樣本容量,全體基因表達數(shù)據(jù)就構成了一個的數(shù)據(jù)矩陣. 通常情況下有。由于基因的個數(shù)非常大,在對個假設同時進行檢驗時,就需要考慮檢驗的整體錯誤率,這里我們主要關注檢驗中錯誤發(fā)現(xiàn)率(FDR)的考察。我們以Hedenfalk等(2001)報告的一組乳腺癌患者的基因數(shù)據(jù)為例進行研究。該數(shù)據(jù)集為15例乳腺癌患者的5361個基因,包含了兩種不同的基因突變26。表4-1給出了Hedenfalk的乳腺癌微陣列數(shù)據(jù)集,
48、這里(Hedenfalk數(shù)據(jù)中的有效數(shù)據(jù)),.設次多重假設檢驗的零假設分別為. 這里,對應的統(tǒng)計量和值分別記為,其中值的數(shù)據(jù)集由R軟件包中獲取。與第二章的符號一致,假設檢驗的各種結果見表4-2.在假設檢驗中,普遍的做法是用總體錯誤率(FWER)來作為檢驗錯誤率的控制指標,然而在微陣列數(shù)據(jù)的研究中,F(xiàn)WER控制就顯得太嚴格和保守。我們研究的首要問題是能否盡可能多地識別出差異表達的基因,因此我們采用FDR的控制方法來進行估計。假設給定的檢驗水平為,由定理2.1可知,BH方法控制FDR的水平為, 其中.對數(shù)據(jù)作對數(shù)變換,其中表示患者的基因表達水平,則對應的檢驗統(tǒng)計量為:上式中的分別表示兩種基因突變患
49、者的第i個基因的樣本均值(即平均表達水平),表示對應的樣本方差,. 在樣本容量較大的情況下,由上式計算出的統(tǒng)計量服從自由度為的分布,其中但由于在該數(shù)據(jù)集中,樣本容量和比較小,為了方便研究,需要得到樣本容量較大的統(tǒng)計量,進而研究統(tǒng)計量的分布情況和值,我們考慮采用置換檢驗的方法進行研究。根據(jù)置換檢驗的原理,如果原假設為真,采用置換檢驗的方法就可以得到適合多重檢驗的統(tǒng)計量,從而可以得到統(tǒng)計量的精確分布。過程如下:(1) 引入向量,其取值由1到15,對進行無放回抽樣,就可以得到一個置換樣本,記得到的重抽樣樣本為,具體結果見表4-3;(2) 對每一個樣本,計算統(tǒng)計量;(3) 對前兩步重復1000次,得到
50、;(4) 對應的(圖4-1)的計算方法為:。按照給定的檢驗標準,在原始的3170個中(P值由R軟件包獲取),有個,在傳統(tǒng)的總體錯誤率(FWER)研究中,就算我們假設這些基因都是沒有差別的,但由式可知,仍可以得到158.5個平均意義下的錯誤拒絕,因此需要控制檢驗的多重性,這里我們采用2.3節(jié)中的BH法對錯誤發(fā)現(xiàn)率(FDR)進行控制研究。由R統(tǒng)計軟件得到樣本的P值后,將其進行排序,并利用BH方法得到, 這里的, 因此由可知,采用BH法對FDR的控制存在3.8個錯誤拒絕,遠小于總體錯誤率(FWER)控制方法所得到的錯誤拒絕數(shù),從而說明FDR的控制方法比總體錯誤率(FWER)控制方法有效,即更少地發(fā)現(xiàn)
51、錯誤拒絕27。4.3 本章小結本章以Hedenfalk的乳腺癌微陣列數(shù)據(jù)作為實例,采用置換方法對錯誤發(fā)現(xiàn)率的方法進行了研究,發(fā)現(xiàn)錯誤發(fā)現(xiàn)率(FDR)的控制方法所得到的錯誤拒絕個數(shù)遠小于總體錯誤率(FWER)控制方法的錯誤拒絕數(shù),從而說明FDR的控制方法比總體錯誤率(FWER)控制方法有效。結 論本文主要研究考察了錯誤發(fā)現(xiàn)率的在各種參數(shù)模型和非參數(shù)模型下的控制檢驗方法,在多重假設檢驗的背景下,我們給出了錯誤發(fā)現(xiàn)率的定義,提出利用p值進行假設檢驗,并在假設檢驗獨立和相依的情形下對錯誤發(fā)現(xiàn)率的控制方法進行了探討。在研究錯誤發(fā)現(xiàn)率的控制方法時我們發(fā)現(xiàn),在處理多重假設檢驗問題時,最核心的問題是如何估計真
52、實零假設的個數(shù),因此本文采用經(jīng)驗貝葉斯估計來估計它的值。針對正態(tài)混合分布模型和Beta混合分布模型兩種參數(shù)混合模型,本文采用矩估計方法和基于p值的最小二乘估計方法進行研究;在研究非參數(shù)混合模型時,分別介紹了最小二乘估計方法、Beta分布擬合模型和Beinstein多項式擬合模型的方法。文章的最后以Hedenfalk報告的一組乳腺癌患者的基因數(shù)據(jù)為例進行仿真研究,發(fā)現(xiàn)與總體錯誤率(FWER)的控制方法相比較,錯誤發(fā)現(xiàn)率(FDR)的控制方法更加有效,即更少的發(fā)現(xiàn)錯誤拒絕。隨著信息社會的不斷發(fā)展和進步,大規(guī)模的數(shù)據(jù)研究已經(jīng)成為現(xiàn)今統(tǒng)計學的一個重點課題。錯誤發(fā)現(xiàn)率的控制方法的確可以很好地控制整體檢驗的錯誤率,但是隨著數(shù)據(jù)變得越來越復雜,大規(guī)模數(shù)據(jù)之間就會存在這樣或那樣的相依關系,這就使得研究變得相當困難。伴隨著醫(yī)學的飛速
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 船舶建造材料創(chuàng)新考核試卷
- 石油產(chǎn)品營銷渠道整合優(yōu)化考核試卷
- 玉石加工過程中的能耗與減排考核試卷
- 紡織原料企業(yè)動態(tài)考核試卷
- 營養(yǎng)補充劑批發(fā)商的綠色營銷策略實施考核試卷
- 航天器空間飛行器對接機構考核試卷
- 起重機制造材料性能優(yōu)化與選材指導考核試卷
- 森林火災撲救安全防護知識考核試卷
- 淘寶店鋪直播平臺內(nèi)容運營合作協(xié)議
- 股權激勵行權協(xié)議(含稅務籌劃、分紅及股權激勵期限延長)
- 泥水平衡頂管施工工藝詳解
- 施工現(xiàn)場門禁管理制度
- 醫(yī)學知識進小學生講座
- 老年人智能手機培訓課件
- 2025年中國人壽招聘筆試筆試參考題庫附帶答案詳解
- 2025湖北省安全員-B證(項目經(jīng)理)考試題庫
- 2025年中國科技成果轉(zhuǎn)化服務行業(yè)市場集中度、企業(yè)競爭格局分析報告-智研咨詢發(fā)布
- 第16課《有為有不為》公開課一等獎創(chuàng)新教學設計
- 體育賽事經(jīng)濟影響評估模型-深度研究
- 小學一年級奧數(shù)經(jīng)典100試題(五篇)
- 2025年中國消防救援學院第二批面向應屆畢業(yè)生招聘28人歷年管理單位筆試遴選500模擬題附帶答案詳解
評論
0/150
提交評論