![機(jī)器學(xué)習(xí)Bayes學(xué)習(xí)_第1頁](http://file4.renrendoc.com/view/f38d1f9752c51a9b69dafb5c6a11c9d3/f38d1f9752c51a9b69dafb5c6a11c9d31.gif)
![機(jī)器學(xué)習(xí)Bayes學(xué)習(xí)_第2頁](http://file4.renrendoc.com/view/f38d1f9752c51a9b69dafb5c6a11c9d3/f38d1f9752c51a9b69dafb5c6a11c9d32.gif)
![機(jī)器學(xué)習(xí)Bayes學(xué)習(xí)_第3頁](http://file4.renrendoc.com/view/f38d1f9752c51a9b69dafb5c6a11c9d3/f38d1f9752c51a9b69dafb5c6a11c9d33.gif)
![機(jī)器學(xué)習(xí)Bayes學(xué)習(xí)_第4頁](http://file4.renrendoc.com/view/f38d1f9752c51a9b69dafb5c6a11c9d3/f38d1f9752c51a9b69dafb5c6a11c9d34.gif)
![機(jī)器學(xué)習(xí)Bayes學(xué)習(xí)_第5頁](http://file4.renrendoc.com/view/f38d1f9752c51a9b69dafb5c6a11c9d3/f38d1f9752c51a9b69dafb5c6a11c9d35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第3.2節(jié)貝葉斯學(xué)習(xí)內(nèi)容貝葉斯理論概述Brute-Force貝葉斯分類器兩種概率學(xué)習(xí)算法貝葉斯最優(yōu)分類器樸素貝葉斯分類器EM算法與混合模型概述貝葉斯推理提供了一種概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根據(jù)這些概率及已觀察到的數(shù)據(jù)進(jìn)行推理,以作出最優(yōu)的決策。貝葉斯推理為衡量多個假設(shè)的置信度提供了定量的方法貝葉斯推理為直接操作概率的學(xué)習(xí)算法提供了基礎(chǔ),也為其他算法的分析提供了理論框架貝葉斯學(xué)習(xí)算法與機(jī)器學(xué)習(xí)相關(guān)的兩個原因:貝葉斯學(xué)習(xí)算法能夠計算顯示假設(shè)概率貝葉斯方法為理解多數(shù)學(xué)習(xí)算法提供了一種有效的分析手段,而這些算法不一定直接操縱概率數(shù)據(jù),比如決策樹神經(jīng)網(wǎng)絡(luò)學(xué)習(xí):選擇使誤差平方和最小化的神經(jīng)網(wǎng)絡(luò)概述貝葉斯學(xué)習(xí)方法的特性觀察到的每個訓(xùn)練樣例可以增量地降低或升高某假設(shè)的估計概率。先驗知識可以與觀察數(shù)據(jù)一起決定假設(shè)的最終概率,先驗知識的形式是:1)每個候選假設(shè)的先驗概率;2)每個可能假設(shè)在可觀察數(shù)據(jù)上的概率分布貝葉斯方法允許假設(shè)做出不確定性的預(yù)測新的實例分類可由多個假設(shè)一起做出預(yù)測,用它們的概率來加權(quán)貝葉斯方法計算復(fù)雜度有時較高,它們可作為一個最優(yōu)的決策標(biāo)準(zhǔn)衡量其他方法貝葉斯方法的難度難度之一:需要概率的初始知識,當(dāng)概率預(yù)先未知時,可以基于背景知識、預(yù)先準(zhǔn)備好的數(shù)據(jù)以及基準(zhǔn)分布的假定來估計這些概率難度之二:確定貝葉斯最優(yōu)假設(shè)的計算代價比較大在某些特定情形下,大多通過條件獨立性假設(shè),降低計算代價內(nèi)容貝葉斯理論概述Brute-Force貝葉斯分類器介紹兩種直接操作概率的學(xué)習(xí)算法貝葉斯最優(yōu)分類器樸素貝葉斯分類器EM算法與混合模型貝葉斯法則機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的任務(wù)在給定訓(xùn)練數(shù)據(jù)D時,確定假設(shè)空間H中的最佳假設(shè)。最佳假設(shè)一種方法是把它定義為在給定數(shù)據(jù)D以及H中不同假設(shè)的先驗概率的有關(guān)知識下的最可能假設(shè)貝葉斯理論提供了一種計算假設(shè)概率的方法基于假設(shè)的先驗概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身先驗概率和后驗概率用P(h)表示在沒有訓(xùn)練數(shù)據(jù)前假設(shè)h擁有的初始概率。P(h)被稱為h的先驗概率。先驗概率反映了關(guān)于h是一正確假設(shè)的機(jī)會的背景知識如果沒有這一先驗知識,可以簡單地將每一候選假設(shè)賦予相同的先驗概率類似地,P(D)表示訓(xùn)練數(shù)據(jù)D的先驗概率,P(D|h)表示假設(shè)h成立時D的概率機(jī)器學(xué)習(xí)中,我們關(guān)心的是P(h|D)即給定D時h的成立的概率,稱為h的后驗概率貝葉斯公式貝葉斯公式提供了從先驗概率P(h)、P(D)和P(D|h)計算后驗概率P(h|D)的方法P(h|D)隨著P(h)和P(D|h)的增長而增長,隨著P(D)的增長而減少即如果D獨立于h被觀察到的可能性越大,那么D對h的支持度越小極大后驗假設(shè)學(xué)習(xí)器在候選假設(shè)集合H中尋找給定數(shù)據(jù)D時可能性最大的假設(shè)h,h被稱為極大后驗假設(shè)(MAP)確定MAP的方法是用貝葉斯公式計算每個候選假設(shè)的后驗概率,計算式如下 最后一步,去掉了P(D),因為它是不依賴于h的常量極大似然假設(shè)在某些情況下,可假定H中每個假設(shè)有相同的先驗概率,這樣式子可以進(jìn)一步簡化,只需考慮P(D|h)來尋找極大可能假設(shè)。P(D|h)常被稱為給定h時數(shù)據(jù)D的似然度,而使P(D|h)最大的假設(shè)被稱為極大似然假設(shè)只要這些命題的概率之和為1,假設(shè)空間H可擴(kuò)展為任意互斥命題集合舉例:一個醫(yī)療診斷問題有先驗知識:在所有人口中,癌癥患病率是0.008,對確實有病的患者的化驗準(zhǔn)確率為98%,對確實無病的患者的化驗準(zhǔn)確率為97%,問題:假定有一個新病人,化驗結(jié)果為+,是否應(yīng)將病人斷定為有癌癥?貝葉斯法則和概念學(xué)習(xí)貝葉斯法則為計算給定訓(xùn)練數(shù)據(jù)下任一假設(shè)的后驗概率提供了原則性方法,因此可以直接將其作為一個基本的學(xué)習(xí)方法:計算每個假設(shè)的概率,再輸出其中概率最大的。這個方法稱為Brute-Force貝葉斯概念學(xué)習(xí)算法。Brute-Force貝葉斯學(xué)習(xí)總結(jié)概念學(xué)習(xí)問題有限假設(shè)空間H定義在實例空間X上,任務(wù)是學(xué)習(xí)某個目標(biāo)概念c。Brute-ForceMAP學(xué)習(xí)算法對于H中每個假設(shè)h,計算后驗概率輸出有最高后驗概率的假設(shè)上面算法需要較大計算量因為它要計算每個假設(shè)的后驗概率,對于大的假設(shè)空間顯得不切實際,但是它提供了一個標(biāo)準(zhǔn)以判斷其他概念學(xué)習(xí)算法的性能內(nèi)容貝葉斯理論概述Brute-Force貝葉斯分類器兩種概率學(xué)習(xí)算法貝葉斯最優(yōu)分類器樸素貝葉斯分類器EM算法與混合模型貝葉斯最優(yōu)分類器前面我們討論的問題是:給定訓(xùn)練數(shù)據(jù),最可能的假設(shè)是什么?另一個相關(guān)的更有意義的問題是:給定訓(xùn)練數(shù)據(jù),對新實例的最可能的分類是什么?顯然,第二個問題的解決可以將第一個問題的結(jié)果(MAP)應(yīng)用到新實例上得到還存在更好的算法?貝葉斯最優(yōu)分類器例子考慮一個包含三個假設(shè)h1,h2,h3的假設(shè)空間。假定已知訓(xùn)練數(shù)據(jù)時三個假設(shè)的后驗概率分別是0.4,0.3,0.3,因此h1為MAP假設(shè)。若一新實例x被h1分類為正,被h2和h3分類為負(fù),計算所有假設(shè),x為正例的概率為0.4,為反例的概率為0.6。這時最可能的分類與MAP假設(shè)生成的分類不同。貝葉斯最優(yōu)分類器一般而言,新實例的最可能分類可通過合并所有假設(shè)的預(yù)測得到,用后驗概率來加權(quán)。如果新實例的可能分類可取某集合Y中的任一值yj,那么概率P(yj|D)表示新實例分類為yj的概率新實例的最優(yōu)分類為使P(yj|D)最大的yj值,貝葉斯最優(yōu)分類器為:貝葉斯最優(yōu)分類器貝葉斯最優(yōu)分類器在給定可用數(shù)據(jù)、假設(shè)空間及這些假設(shè)的先驗概率下使新實例被正確分類的可能性達(dá)到最大貝葉斯最優(yōu)分類器的一個屬性:它所做的分類可以對應(yīng)于H中不存在的假設(shè)使用式子(上頁最后一式)來分類X中的每個實例,按此定義的實例標(biāo)注不一定對應(yīng)于H中的任一單個假設(shè)h對實例的標(biāo)注將貝葉斯分類器看成是不同于假設(shè)空間H的另一空間H’,在其上應(yīng)用貝葉斯公式。H’有效地包含了一組假設(shè),它能在H中多個假設(shè)的線性組合所作的預(yù)言中進(jìn)行比較內(nèi)容貝葉斯理論概述Brute-Force貝葉斯分類器兩種概率學(xué)習(xí)算法貝葉斯最優(yōu)分類器樸素貝葉斯分類器EM算法與混合模型樸素貝葉斯分類器*工程應(yīng)用的學(xué)習(xí)任務(wù):每個實例x可由屬性值聯(lián)合描述,而目標(biāo)函數(shù)f(x)從某有限集Y中取值,忽略假設(shè)貝葉斯方法的新實例分類目標(biāo)是在給定描述實例的屬性值<x1,...,xn>下,得到最可能的目標(biāo)值yMAP使用貝葉斯公式變化上式樸素貝葉斯分類器*基于訓(xùn)練數(shù)據(jù)估計式(上頁)中的兩個數(shù)據(jù)項的值估計P(yj)很容易:計算每個目標(biāo)值yj出現(xiàn)在訓(xùn)練數(shù)據(jù)中的頻率估計P(x1,...xn|yj)遇到數(shù)據(jù)稀疏問題,除非有一個非常大的訓(xùn)練數(shù)據(jù)集,否則無法獲得可靠的估計樸素貝葉斯分類器引入一個簡單的假設(shè)避免數(shù)據(jù)稀疏問題:在給定目標(biāo)值時,屬性值之間相互條件獨立,即樸素貝葉斯分類器*樸素貝葉斯分類器的定義:從訓(xùn)練數(shù)據(jù)中估計不同P(xi|yj)項的數(shù)量比要估計P(x1,...,xn|yj)項所需的量小得多只要條件獨立性得到滿足,樸素貝葉斯分類yNB等于MAP分類,否則是近似樸素貝葉斯分類器與其他已介紹的學(xué)習(xí)方法的一個區(qū)別:沒有明確地搜索可能假設(shè)空間的過程(假設(shè)的形成不需要搜索,只是簡單地計算訓(xùn)練樣例中不同數(shù)據(jù)組合的出現(xiàn)頻率)編號天氣溫度濕度風(fēng)是否去打球1晴天炎熱高弱不去2晴天炎熱高強(qiáng)不去3陰天炎熱高弱去4下雨適中高弱去5下雨寒冷正常弱去6下雨寒冷正常強(qiáng)不去7陰天寒冷正常強(qiáng)去8晴天適中高弱不去9晴天寒冷正常弱去10下雨適中正常弱去11晴天適中正常強(qiáng)去12陰天適中高強(qiáng)去13陰天炎熱正常弱去14下雨適中高強(qiáng)不去表-1是否去打球的數(shù)據(jù)統(tǒng)計—訓(xùn)練數(shù)據(jù)樸素貝葉斯分類器計算是否去打球舉例:學(xué)習(xí)分類文本內(nèi)容貝葉斯理論概述Brute-Force貝葉斯分類器兩種概率學(xué)習(xí)算法貝葉斯最優(yōu)分類器樸素貝葉斯分類器EM算法與混合模型EM算法與GMMs如何獲得更準(zhǔn)確的概率分布?EM算法是存在隱含變量時廣泛使用的一種學(xué)習(xí)方法,可用于變量的值從來沒有被直接觀察到的情形,只要這些變量所遵循的概率分布的一般形式已知混合概率模型的學(xué)習(xí)用于貝葉斯網(wǎng)的訓(xùn)練GaussianMixtureModels(GMMS)高斯混合模型GMMS的參數(shù)估計當(dāng)給定從一個正態(tài)分布中抽取的數(shù)據(jù)實例x1,...,xN時,很容易計算該分布的均值的極大似然假設(shè),它是一個特例,表示如下然而,現(xiàn)在的問題涉及k個不同正態(tài)分布,而且不知道哪個實例是哪個分布產(chǎn)生的。這是一個涉及隱藏變量的典型例子對于的例子,每個實例的完整描述yi=<xi,zij>,其中xi是第i個實例的觀測值,zij表示樣本xi屬于第j個正態(tài)分布,是隱藏變量GMMS的參數(shù)估計EM算法根據(jù)當(dāng)前假設(shè)<1...k>,不斷地再估計隱藏變量zij的期望值,然后用這些隱藏變量的期望值重新計算極大似然假設(shè)先將假設(shè)初始化為h=<1,…,k>計算每個隱藏變量zij的期望值E[zij]計算一個新的極大似然假設(shè)h’=<’1,…,’k>,假定每個隱藏變量zij所取值是第一步得到的期望值E[zij]。將假設(shè)替換為h’=<’1,…,’k>,然后循環(huán)GMMS的參數(shù)估計-EM算法E[zij]正是實例xi由第j個正態(tài)分布生成的概率第二步,使用第一步得到的P[zij]來導(dǎo)出新的極大似然假設(shè)多項分布及其數(shù)學(xué)期望假設(shè)A1,A2,...,An是某一試驗下的完備事件群,即事件兩兩互斥,分別以p1,p2,...,pn記為事件A1,A2,...,An發(fā)生的概率?,F(xiàn)將試驗獨立重復(fù)N次,以Zi記為在N次試驗中事件Ai出現(xiàn)的次數(shù),Z=(Z1,Z2,...,Zn)為n維隨機(jī)向量。則Z的概率分布就叫做多項分布。對于N次獨立重復(fù)試驗,事件A1,A2,...,An發(fā)生的次數(shù)分別為k1,k2,...,kn發(fā)生的概率是:GMMS的參數(shù)估計-EM算法第二步中表達(dá)式類似于求均值,只是變成了加權(quán)樣本均值EM算法的要點:當(dāng)前的假設(shè)用于估計未知變量,而這些變量的期望值再被用于改進(jìn)假設(shè)可以證明算法的每一次循環(huán)中,EM算法能使似然P(D|h)增加,除非P(D|h)達(dá)到局部最大,因此算法收斂到一個局部最大似然假設(shè)GMMS的參數(shù)估計-EM算法貝葉斯問題框架要估計k個正態(tài)分布的均值=<1...k>觀察到的數(shù)據(jù)是X={<xi>}隱藏變量Z={<zi1,...,zik>}表示k個正態(tài)分布中哪一個生成xi用于表達(dá)式Q(h’|h)的推導(dǎo)單個樣本的概率GMMS的參數(shù)估計-EM算法所有實例的概率的對數(shù)計算期望值EGM
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度股權(quán)投資基金投資合同模板-專業(yè)投資與風(fēng)險共擔(dān)協(xié)議
- 2025年度城市綠化工程抗滑樁施工合同范本
- 2025年度花椒病蟲害防治與生態(tài)保護(hù)服務(wù)合同
- 2025年度紅磚批發(fā)合作協(xié)議書二零二五年度建筑材料供應(yīng)合同
- 2025年度腳手架租賃合同糾紛處理條款
- 2025年度智能教育平臺設(shè)計與實施合同
- 2025年度跨境電子商務(wù)平臺合作開發(fā)合同
- 2025年度城市污水處理廠升級改造合同-@-6
- 2025年度環(huán)保污水處理承包合同
- 2025年度房地產(chǎn)項目代銷代理合同
- 小學(xué)六年級數(shù)學(xué)上冊《簡便計算》練習(xí)題(310題-附答案)
- 2024年河南省《輔警招聘考試必刷500題》考試題庫及答案【全優(yōu)】
- -情景交際-中考英語復(fù)習(xí)考點
- 安全隱患報告和舉報獎勵制度
- 地理標(biāo)志培訓(xùn)課件
- 2023行政主管年終工作報告五篇
- 2024年中國養(yǎng)老產(chǎn)業(yè)商學(xué)研究報告-銀發(fā)經(jīng)濟(jì)專題
- 公園衛(wèi)生保潔考核表
- 培訓(xùn)如何上好一堂課
- 高教版2023年中職教科書《語文》(基礎(chǔ)模塊)下冊教案全冊
- 2024醫(yī)療銷售年度計劃
評論
0/150
提交評論