版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
混合高斯模型(Mixtures-of-Gaussians)和EM算法混合高斯模型(MixturesofGaussians)和EM算法
這篇討論使用期望最大化算法(Expectation-Maximization)來進行密度估計(densityestimation)。
與k-means一樣,給定的訓練樣本是,我們將隱含類別標簽用表示。與k-means的硬指定不同,我們首先認為是滿足一定的概率分布的,這里我們認為滿足多項式分布,,其中,有k個值{1,…,k}可以選取。而且我們認為在給定后,滿足多值高斯分布,即。由此可以得到聯(lián)合分布。
整個模型簡單描述為對于每個樣例,我們先從k個類別中按多項式分布抽取一個,然后根據(jù)所對應的k個多值高斯分布中的一個生成樣例,。整個過程稱作混合高斯模型。注意的是這里的仍然是隱含隨機變量。模型中還有三個變量和。最大似然估計為。對數(shù)化后如下:
這個式子的最大值是不能通過前面使用的求導數(shù)為0的方法解決的,因為求的結果不是closeform。但是假設我們知道了每個樣例的,那么上式可以簡化為:
這時候我們再來對和進行求導得到:
就是樣本類別中的比率。是類別為j的樣本特征均值,是類別為j的樣例的特征的協(xié)方差矩陣。實際上,當知道后,最大似然估計就近似于高斯判別分析模型(Gaussiandiscriminantanalysismodel)了。所不同的是GDA中類別y是伯努利分布,而這里的z是多項式分布,還有這里的每個樣例都有不同的協(xié)方差矩陣,而GDA中認為只有一個。
之前我們是假設給定了,實際上是不知道的。那么怎么辦呢?考慮之前提到的EM的思想,第一步是猜測隱含類別變量z,第二步是更新其他參數(shù),以獲得最大的最大似然估計。用到這里就是:循環(huán)下面步驟,直到收斂:{
(E步)對于每一個i和j,計算
(M步),更新參數(shù):
}
對應于上述問題,Y是,X是,是,g是到的映射。這樣解釋了式子(2)中的期望,再根據(jù)凹函數(shù)時的Jensen不等式:
可以得到(3)。
這個過程可以看作是對求了下界。對于的選擇,有多種可能,那種更好的?假設已經(jīng)給定,那么的值就決定于和了。我們可以通過調整這兩個概率使下界不斷上升,以逼近的真實值,那么什么時候算是調整好了呢?當不等式變成等式時,說明我們調整后的概率能夠等價于了。按照這個思路,我們要找到等式成立的條件。根據(jù)Jensen不等式,要想讓等式成立,需要讓隨機變量變成常數(shù)值,這里得到:
c為常數(shù),不依賴于。對此式子做進一步推導,我們知道,那么也就有,(多個等式分子分母相加不變,這個認為每個樣例的兩個概率比值都是c),那么有下式:
至此,我們推出了在固定其他參數(shù)后,的計算公式就是后驗概率,解決了如何選擇的問題。這一步就是E步,建立的下界。接下來的M步,就是在給定后,調整,去極大化的下界(在固定后,下界還可以調整的更大)。那么一般的EM算法的步驟如下:循環(huán)重復直到收斂{
(E步)對于每一個i,計算
(M步)計算
那么究竟怎么確保EM收斂?假定和是EM第t次和t+1次迭代后的結果。如果我們證明了,也就是說極大似然估計單調增加,那么最終我們會到達最大似然估計的最大值。下面來證明,選定后,我們得到E步
這一步保證了在給定時,Jensen不等式中的等式成立,也就是
然后進行M步,固定,并將視作變量,對上面的求導后,得到,這樣經(jīng)過一些推導會有以下式子成立:
解釋第(4)步,得到時,只是最大化,也就是的下界,而沒有使等式成立,等式成立只有是在固定,并按E步得到時才能成立。
況且根據(jù)我們前面得到的下式,對于所有的和都成立
第(5)步利用了M步的定義,M步就是將調整到,使得下界最大化。因此(5)成立,(6)是之前的等式結果。
這樣就證明了會單調增加。一種收斂方法是不再變化,還有一種就是變化幅度很小。
再次解釋一下(4)、(5)、(6)。首先(4)對所有的參數(shù)都滿足,而其等式成立條件只是在固定,并調整好Q時成立,而第(4)步只是固定Q,調整,不能保證等式一定成立。(4)到(5)就是M步的定義,(5)到(6)是前面E步所保證等式成立條件。也就是說E步會將下界拉到與一個特定值(這里)一樣的高度,而此時發(fā)現(xiàn)下界仍然可以上升,因此經(jīng)過M步后,下界又被拉升,但達不到與另外一個特定值一樣的高度,之后E步又將下界拉到與這個特定值一樣的高度,重復下去,直到最大值。
如果我們定義
從前面的推導中我們知道,EM可以看作是J的坐標上升法,E步固定,優(yōu)化,M步固定優(yōu)化。3.重新審視混合高斯模型
我們已經(jīng)知道了EM的精髓和推導過程,再次審視一下混合高斯模型。之前提到的混合高斯模型的參數(shù)和計算公式都是根據(jù)很多假定得出的,有些沒有說明來由。為了簡單,這里在M步只給出和的推導方法。E步很簡單,按照一般EM公式得到:
簡單解釋就是每個樣例i的隱含類別為j的概率可以通過后驗概率計算得到。
在M步中,我們需要在固定后最大化最大似然估計,也就是
這是將的k種情況展開后的樣子,未知參數(shù)和。
固定和,對求導得
等于0時,得到
這就是我們之前模型中的的更新公式。
然后推導的更新公式??粗暗玫降?/p>
在和確定后,分子上面的一串都是常數(shù)了,實際上需要優(yōu)化的公式是:
需要知道的是,還需要滿足一定的約束條件就是。
這個優(yōu)化問題我們很熟悉了,直接構造拉格朗日乘子。
還有一點就是,但這一點會在得到的公式里自動滿足。
求導得,
等于0,得到
也就是說再次使用,得到
這樣就神奇地得到了。
那么就順勢得到M步中的更新公式:
的推導也類似,不過稍微復雜一些,畢竟是矩陣。結果在之前的混合高斯模型中已經(jīng)給出。4.總結
如果將樣本看作觀察值,潛在類別看作是隱藏變量,那么聚類問題也就是參數(shù)估計問題,只不過聚類問題中參數(shù)分為隱含類別變量和其他參數(shù),這猶如在x-y坐標系中找一個曲線的極值,然而曲線函數(shù)不能直接求導,因此什么梯度下降方法就不適用了。但固定一個變量后,另外一個可以通過求導得到,因此可以使用坐標上升法,一次固定一個變量,對另外的求極值,最后逐步逼近極值。對應到EM上,E步估計隱含變量,M步估計其他參數(shù),交替將極值推向最大。EM中還有“硬”指定和“軟”指定的概念,“軟”指定看似更為合理,但計算量要大,“硬”指定在某些場合如K-means中更為實用(要是保持一個樣本點到其他所有中心的概率,就會很麻煩)。
另外,EM的收斂性證明方法確實很牛,能夠利用log的凹函數(shù)性質,還能夠想到利用創(chuàng)造下界,拉平函數(shù)下界,優(yōu)化下界的方法來逐步逼近極大值。而且每一步迭代都能保證是單調的。最重要的是證明的數(shù)學公式非常精妙,硬是分子分母都乘以z的概率變成期望來套上Jensen不等式,前人都是怎么想到
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中歷史 第一單元 從“朕即皇帝”到“主權在民”第1節(jié) 歐洲的君主專制教案 岳麓版選修2
- 2024秋五年級語文上冊 第四單元 15 小島教案 新人教版
- 2023六年級數(shù)學上冊 6 百分數(shù)教案 新人教版
- 湖南省衡陽市高中數(shù)學 第一章 集合與函數(shù)概念 1.3 函數(shù)的基本性質 1.3.1 單調性與最大(?。┲到贪?新人教A版必修1
- 八年級地理上冊 第二章 第三節(jié) 氣候與人類活動教案1 中圖版
- 2024-2025學年高中化學 第一章 物質結構元素周期律 第二節(jié) 元素周期律第3課時教案1 新人教版必修2
- 租用家庭氧氣瓶合同(2篇)
- 棕櫚油供銷合同(2篇)
- 銀行貸款居間合同(2篇)
- 人教版墨梅課件
- 全國教育科學規(guī)劃課題申報書:27.《教育數(shù)字化轉型的區(qū)域實踐探索研究》
- 2024年村級防止返貧集中排查總結會議記錄
- 2024年復蘇中心建設與管理急診專家共識
- 部編版三年級上冊語文全冊教案(教案)
- 電信營業(yè)廳業(yè)務辦理指南預案
- 靜脈輸液治療護理技術操作規(guī)范
- 2023年12月英語四級真題及答案-第2套
- 2024天貓男裝行業(yè)秋冬趨勢白皮書
- 運營內控副行長/經(jīng)理資格認證考試題庫(2021版)
- 辦公技能競賽試題
- 《正確對待外來文化》名師課件
評論
0/150
提交評論