最大似然估計概述_第1頁
最大似然估計概述_第2頁
最大似然估計概述_第3頁
最大似然估計概述_第4頁
最大似然估計概述_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

最大似然估計概述最大似然估計是一種統(tǒng)計方法,它用來求一個樣本集的相關概率密度函數的參數。

這個方法最早是遺傳學家以及統(tǒng)計學家羅納德?費雪 爵士在1912年至1922年間開始使用的?!八迫弧笔菍ikelihood的一種較為貼近文言文的翻譯, “似然”用現代的中文來說即“可能性”。故而,若稱之為“最大可能性估計”則更加通俗易懂。最大似然法明確地使用概率模型,其目標是尋找能夠以較高概率產生觀察數據的系統(tǒng)發(fā)生樹。最大似然法是一類完全基于統(tǒng)計的系統(tǒng)發(fā)生樹重建方法的代表。該方法在每組序列比對中考慮了每個核苷酸替換的概率。最大似然法是要解決這樣一個問題:給定一組數據和一個參數待定的模型,如何確定模型的參數,使得這個確定參數后的模型在所有模型中產生已知數據的概率最大。 通俗一點講,就是在什么情況下最有可能發(fā)生已知的事件。 舉個例子,假如有一個罐子,里面有黑白兩種顏色的球,數目多少不知,兩種顏色的比例也不知。我們想知道罐中白球和黑球的比例,但我們不能把罐中的球全部拿出來數。現在我們可以每次任意從已經搖勻的罐中拿一個球出來,記錄球的顏色,然后把拿出來的球再放回罐中。這個過程可以重復,我們可以用記錄的球的顏色來估計罐中黑白球的比例。 假如在前面的一百次重復記錄中, 有七十次是白球,請問罐中白球所占的比例最有可能是多少?我想很多人立馬有答案:70%。這個答案是正確的??墒菫槭裁茨兀浚ǔWR嘛!這還要問?!)其實,在很多常識的背后,都有相應的理論支持。在上面的問題中,就有最大似然法的支持例如,轉換出現的概率大約是顛換的三倍。 在一個三條序列的比對中, 如果發(fā)現其中有一列為一個C,一個T和一個G,我們有理由認為,C和T所在的序列之間的關系很有可能更接近。由于被研究序列的共同祖先序列是未知的, 概率的計算變得復雜;又由于可能在一個位點或多個位點發(fā)生多次替換, 并且不是所有的位點都是相互獨立, 概率計算的復雜度進一步加大。盡管如此,還是能用客觀標準來計算每個位點的概率, 計算表示序列關系的每棵可能的樹的概率。然后,根據定義,概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。最大似然估計的原理給定一個概率分布D,假定其概率密度函數(連續(xù)分布)或概率聚集函數(離散分布)為fD,以及一個分布參數0,我們可以從這個分布中抽出一個具有 n個值的采樣,通過利用fD,我們就能計算出其概率:卩(列嚴2,…,為)=fD(XU...,Xn|0)但是,我們可能不知道0的值,盡管我們知道這些采樣數據來自于分布D。那么我們如何才能估計出0呢?一個自然的想法是從這個分布中抽出一個具有n個值的采樣X1,X2,…,Xn,然后用這些采樣數據來估計0.一旦我們獲得,我們就能從中找到一個關于0的估計。最大似然估計會尋找關于 0的最可能的值(即,在所有可能的0取值中,尋找一個值使這個采樣的“可能性”最大化)。這種方法正好同一些其他的估計方法不同,如 0的非偏估計,非偏估計未必會輸出一個最可能的值,而是會輸出一個既不高估也不低估 的0值。要在數學上實現最大似然估計法,我們首先要定義可能性lik(O)=局(九…‘禺|0)并且在0的所有取值上,使這個[[函數最大化。這個使可能性最大的「值即被稱為0的最大似然估計這里的可能性是指, ■不變時,關于0的一個函數。最大似然估計函數不一定是惟一的,甚至不一定存在。最大似然估計的例子離散分布,離散有限參數空間考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋 80次(即,我們獲取一個采樣:— S-“并把正面的次數記下來,正面記為H,反面記為T)。并把拋出一個正面的概率記為p,拋出一個反面的概率記為1-p(因此,這里的p即相當于上邊的0)。假設我們拋出了49個正面,31個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子里頭取出的。這三個硬幣拋出正面的概率分別為p=1/3,p=1/2,p=2/3.這些硬幣沒有標記,所以我們無法知道哪個是哪個。使用最大似然估計,通過這些試驗數據(即采樣數據),我們可以計算出哪個硬幣的可能性最大。這個可能性函數取以下三個值中的一個:P(II=49,T=31 |p=1/3)=(黑)(1/3嚴(1一 1/3嚴a0.000P(H=493T=31 Ip=1/2) = 0(1/2嚴(1一 1/2嚴a0.012P(H=49,T=31 |p=2/3)=(需)(2/3)49(1- 2/3)31 0.054我們可以看到當 -時,可能性函數取得最大值。這就是p的最大似然估計離散分布,連續(xù)參數空間現在假設例子1中的盒子中有無數個硬幣,對于;;二沃--中的任何一個p,都有一個拋出正面概率為p的硬幣對應,我們來求其可能性函數的最大值:融⑹=%(H=49T=8(M9|p)=(般瀘(I—戸嚴p取微分,并使其中::丄「丄.我們可以使用微分法來求最值。方程兩邊同時對p取微分,并使0= 4(?A1-P)31)oc49p48(l—p)31—31p49(l—p)^= —p)m3O[49(1—p)—3Ip]在不同比例參數值下一個二項式過程的可能性曲線 t=3,n=10;其最大似然估計值發(fā)生在其眾數(數學)并在曲線的最大值處。其解為p=0,p=1,以及p=49/80.使可能性最大的解顯然是p=49/80(因為p=0和p=1這兩個解會使可能性為零)。因此我們說最大似然估計值 為匚:—■-■-;::,..這個結果很容易一般化。只需要用一個字母 t代替49用以表達伯努利試驗中的被觀察數據(即樣本)的'成功'次數,用另一個字母n代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值 :亠tp——n對于任何成功次數為t,試驗總數為n的伯努利試驗。連續(xù)分布,連續(xù)參數空間最常見的連續(xù)概率分布是正態(tài)分布 ,其概率密度函數如下:其n個正態(tài)隨機變量的采樣的對應密度函數(假設其獨立并服從同一分布)為:或:幾刼,…衛(wèi)”|乩以)=(不異這個分布有兩個參數:卩,62.有人可能會擔心兩個參數與上邊的討論的例子不同,上邊的例子都只是在一個參數上對可能性進行最大化。 實際上,在兩個參數上的求最大值的方法也差不多:只需要分別把可能性 — I沁?:*在兩個參數上最大化即可。當然這比一個參數麻煩一些,但是一點也不復雜。使用上邊例子同樣的符號,

最大化一個似然函數同最大化它的自然對數是等價的。 因為自然對數log是一個連續(xù)且在似然函數的值域內嚴格遞增的函數。 [注意:可能性函數(似然函數)的自然對數跟信息熵以及Fisher信息聯系緊密。求對數通常能夠一定程度上簡化運算, 比如在這個例子中可以看到:這個方程的解是i)(陽(令)蘿_氓寄迤血Q—這個方程的解是i)(陽(令)蘿_氓寄迤血Q—2叫(匝一“)t-1.這的確是這個函數的最大值,頭惟一的拐點并且二階導數嚴格小于零。3刀二1(趴一總尸+琬忑一“尸)3刀二1(趴一總尸+琬忑一“尸),os(汾) 濟一n|刀;二(業(yè)一至尸_|_機返~甘尸*7十 胃導,并使其為零?!跎滓籪if/n這個方程的解是因此,其關于0=(i,d2)的最大似然估計為:o=(弘滬)=(爲f(②-丘尸血)性質泛函不變性(Functionalinvarianee)如果f是0的一個最大似然估計,那么a=g(0)的最大似然估計是 1.函數g無需是一個一一映射。漸近線行為最大似然估計函數在采樣樣本總數趨于無窮的時候達到最小方差 (其證明可見于

Cramer-Raolowerbound)。當最大似然估計非偏時,等價的,在極限的情況下我們可以稱其有最小的均方差。對于獨立的觀察來說,最大似然估計函數經常趨于正態(tài)分布。偏差最大似然估計的非偏估計偏差是非常重要的??紤]這樣一個例子,標有 1到n的n張票放在一個盒子中。從盒子中隨機抽取票。如果 n是未知的話,那么n的最大似然估計值就是抽出的票上標有的n,盡管其期望值的只有(n+1)/2.為了估計出最高的n值,我們能確定的只能是n值不小于抽出來的票上的值。最大似然估計法的思想很簡單:在已經得到試驗結果的情況下,我們應該尋找使這個結果出現的可能性最大的那個作為真的估計。我們分兩種情進行分析:1?離散型總體設二’為離散型隨機變量,其概率分布的形式為論設二’為離散型隨機變量,其概率分布的形式為論pg仇h屁),則樣本VVkY 尸洛二X』占二X」二口F(召同屁人砂■j固定時,的概率分布為 ,在■j固定時,1?■!'*」1固定時,上式表示 取值 的概率;當它是-.■的函數,我們把它記為叭邛何)并稱M!£何A’吐)二口鞏松厲A T/nnhnx為似然函數。似然函數 的值的大小意味著該樣本值出現的可能性的大小。既然已經得到了樣本值,那它出現的可能性應該是大的,即似然函數的值應該是大的。因而我們選擇使達到最大值的那個「作為真「的估計。2.連續(xù)型總體設二’為連續(xù)型隨機變量,其概率密度函數為 為從該總體抽出的樣本。因為 相互獨立且同分布,于是,樣本的聯合概率密度函數為77■:是固定時,它是,耳,兔,A.址)二「jyx心&—A氐)77■:是固定時,它是,在X站AX站A怎在 處的密度,它的大小與 落在-J附近的概率的大小成正比,而當樣本值■■ ■■■■.,固定時,它是'J -.匕的函數。我們仍把它記為",?打并稱"I」為似然函數。類似于剛才的討論,我們選擇二1y\最大的那個匕作為真匕的估計??傊?,在有了試驗結果即樣本值A時,似然函數 反映了匕的各個不同值總之,在有了試驗結果即樣本值A時,似然函數 反映了匕的各個不同值導出這個結果的可能性的大小。我們選擇使叭環(huán)傀)達到最大值的那個/.■作為真]的估計。這種求點估計的方法就叫作最大似然法。導出這個結果的可能性的大小。722 最大似然估計的求法假定現在我們已經觀測到一組樣本 要去估計未知參數%,A血。一種直觀的想法是,哪一組能數值使現在的樣本 出現的可能性最大,哪一組參數可能就是真正的參數,我們就要用它作為參數的估計值。這里,假定我們有一組樣本 ,&.如果對參數的兩組不同的值和,似然函數有如下關系■■一 G -'■■■■.1,那么,從如A居;0』傀)又是概率密度函數的角度來看,上式的意義就是參數出現的可能性比參數 使 出現的可能性大,當然參數,Jj:1'":比-:l. ?Ji更像是真正的參數.這樣的分析就導致了參數估計的一種方法, 即用使似然函數達到最大值的點(8;A£),作為未知參數的估計,這就是所謂的最大似然估計。 現在我們討論求最大似然估計的具體方法.為簡單起見,以下記 兀8』屁),求0的極大似然估計就歸結為求 的最大值點.由于對數函數是單調增函數,所以(721)log£(硏二Mlog/(兀%A竝)(721)2-1有相同的最大值點。而在許多情況下,求logL?的最大值點比較簡單,于是,我們就將求L⑨的最大值點改為求logL(e)的最大值點.對logL(e)關于 求導數,并命其等于零,得到方程組a宓込q, ■-I.-'..,■< (722)稱為似然方程組。解這個方程組,又能驗證它

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論