第6章貝葉斯學(xué)習(xí)_第1頁
第6章貝葉斯學(xué)習(xí)_第2頁
第6章貝葉斯學(xué)習(xí)_第3頁
第6章貝葉斯學(xué)習(xí)_第4頁
第6章貝葉斯學(xué)習(xí)_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第6章貝葉斯學(xué)習(xí)貝葉斯法則給定訓(xùn)練數(shù)據(jù)集D,確定假設(shè)空間H中的最佳假設(shè)什么是最佳假設(shè)?在給定數(shù)據(jù)集D的基礎(chǔ)上,H中不同假設(shè)里發(fā)生概率最大(最可能發(fā)生)的一個貝葉斯法則可以通過直接計(jì)算找到這種最可能性貝葉斯公式P(h):h的先驗(yàn)概率(priorprobability),反映了事先擁有的關(guān)于h的背景知識P(D):得到的訓(xùn)練數(shù)據(jù)D的先驗(yàn)概率P(D|h):若h成立,則觀察到D的概率P(h|D):給定訓(xùn)練數(shù)據(jù)D時,h成立的概率公式分析P(h|D)稱為后驗(yàn)概率,相對于先驗(yàn)概率如果D獨(dú)立于h時被觀察到的可能性越大,那么D對h的支持度也越小如果h的先驗(yàn)概率越大,則在數(shù)據(jù)D的條件下出現(xiàn)h的可能性也越大求每一假設(shè)h的P(h|D),取其中最大者,為MAP假設(shè)(maximumaposteriori)基本概率公式兩事件A和B交的概率:兩事件A和B并的概率:給定D時h的后驗(yàn)概率:全概率法則: 若事件互斥且則6.1簡介貝葉斯學(xué)習(xí)提供了一種推理的概率手段:即待考查的量遵循某種概率分布且可根據(jù)這些概率及已觀察到的數(shù)據(jù)進(jìn)行推理以作出最優(yōu)決策貝葉斯學(xué)習(xí)為直接操作概率的學(xué)習(xí)算法提供了基礎(chǔ)貝葉斯學(xué)習(xí)也為其他算法的分析提供了理論框架貝葉斯學(xué)習(xí)與機(jī)器學(xué)習(xí)的關(guān)系貝葉斯學(xué)習(xí)算法能夠顯式計(jì)算假設(shè)的概率樸素貝葉斯分類器利用樸素貝葉斯分類器分類進(jìn)行文本文檔分類為理解許多算法提供了有效手段,這些算法不一定直接操縱概率數(shù)據(jù)在使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練收斂判據(jù)時,可以選擇比誤差平方和最小原則更合適的交叉熵原則貝葉斯學(xué)習(xí)方法的特性觀察到的每個訓(xùn)練樣例可以增量地降低或增高某假設(shè)的估計(jì)概率先驗(yàn)知識可以與觀察數(shù)據(jù)一起決定假設(shè)的最終概率兩類先驗(yàn)知識:候選假設(shè)的先驗(yàn)概率;每個可能假設(shè)在可觀察數(shù)據(jù)中的概率分布允許假設(shè)做出不確定性的預(yù)測新實(shí)例可以由多個假設(shè)的概率加權(quán)和確定重要的算法評價(jià)理論依據(jù)舉例醫(yī)療診斷問題做決定:(1)得癌癥;(2)無癌癥診斷依據(jù):某化驗(yàn)測試,測試結(jié)果為+或-先驗(yàn)知識:所有人口中此癌癥的發(fā)生概率為0.008測試有病的準(zhǔn)確率為0.98測試無病的準(zhǔn)確率為0.97現(xiàn)在,某病人測試結(jié)果為+,問是否可以確診此病人有病?舉例假設(shè)在某種病癥的化學(xué)檢測中:對有病的病人,檢驗(yàn)的陽性率為95%對沒病者,檢驗(yàn)的陽性率為5%該病的發(fā)病率為0.5%現(xiàn)在隨便從街上拉一個人做檢測,結(jié)果陽性,問此人患此病的概率是多少?貝葉斯學(xué)習(xí)利用貝葉斯法則進(jìn)行概念學(xué)習(xí)給定訓(xùn)練數(shù)據(jù)下求后驗(yàn)概率從先驗(yàn)概率到后驗(yàn)概率的概率改變體現(xiàn)學(xué)習(xí)效果BRUTE-FORCE貝葉斯概念學(xué)習(xí)對于H中每個假設(shè)h,計(jì)算后驗(yàn)概率輸出有最高后驗(yàn)概率的假設(shè)hMAP貝葉斯最優(yōu)分類器前面討論問題:給定訓(xùn)練數(shù)據(jù),最可能的假設(shè)是什么需討論的問題:給定訓(xùn)練數(shù)據(jù),對新的實(shí)例的最可能分類是什么可以直接利用MAP假設(shè)來分類新實(shí)例也有更好的算法6.7貝葉斯最優(yōu)分類器MAP假設(shè)分類的問題P125新實(shí)例的最可能分類應(yīng)該通過合并所有假設(shè)的預(yù)測得到即用后驗(yàn)概率來加權(quán)貝葉斯最優(yōu)分類器(BayesOptimalClassifier):分類結(jié)果可以對應(yīng)于H中不存在的假設(shè)P1266.8GIBBS算法基于給定訓(xùn)練數(shù)據(jù),貝葉斯最優(yōu)分類器可以給出最好性能但計(jì)算開銷很大GIBBS算法:按照H上的后驗(yàn)概率分布,從H中隨機(jī)選取假設(shè)h使用h來處理待分類實(shí)例誤分類率:最多為貝葉斯最優(yōu)分類器的兩倍6.9樸素貝葉斯分類器實(shí)用性很高的算法學(xué)習(xí)任務(wù):每個實(shí)例x由屬性的合取表示目標(biāo)函數(shù)f(x)從有限集會V中取值學(xué)習(xí)器根據(jù)提供的一系列關(guān)于目標(biāo)函數(shù)的訓(xùn)練樣例以及新實(shí)例(屬性值的元組),給出新實(shí)例的分類6.9樸素貝葉斯分類器舉例:根據(jù)天氣情況判斷某人是否會打網(wǎng)球樸素貝葉斯分類器是否將要打網(wǎng)球?4個天氣屬性

OutlookTemperatureHumidityWind對新實(shí)例進(jìn)行預(yù)測:yesorno舉例:學(xué)習(xí)分類文本樸素貝葉斯分類器問題框架目標(biāo):要求計(jì)算機(jī)學(xué)習(xí)從大量的在線文本文檔中自動過濾出最相關(guān)文檔給讀者目標(biāo)值:like和dislike每個位置上的每個單詞定義為一個屬性值簡化:每個屬性的條件概率相互獨(dú)立特定單詞出現(xiàn)的概率獨(dú)立于單詞所在的位置6.11貝葉斯信念網(wǎng)最優(yōu)貝葉斯分類器要求考慮每個屬性與其他屬性的關(guān)系,太繁瑣,而且不現(xiàn)實(shí)樸素貝葉斯分類器要求每個屬性的條件概率相互獨(dú)立,限制太嚴(yán)格折中:貝葉斯信念網(wǎng)比樸素貝葉斯分類器限制少比最優(yōu)貝葉斯分類器切實(shí)可行EM算法用處:變量的值從來沒有直接觀察到的情況問題:估計(jì)k個高斯分布的均值EM算法的一般表述K均值算法的推導(dǎo)6.12.1估計(jì)k個高斯分布的均值得到一些數(shù)據(jù):來自于k個正態(tài)分布首先隨機(jī)選擇一個正態(tài)分布然后依概率取到隨機(jī)變量的值求正態(tài)分布的參數(shù)難點(diǎn)1:不知道正態(tài)分布是如何選取的難點(diǎn)2:通過不確定歸屬的數(shù)據(jù)來估計(jì)正態(tài)分布的參數(shù)6.12.1估計(jì)k個高斯分布的均值簡單情況:只有兩個正態(tài)分布各個正態(tài)分布基于均勻的概率進(jìn)行選擇各個正態(tài)分布具有相同的方差σ2,且σ2已知已知:采樣得到的數(shù)據(jù)集{x1,x2,。。。}求正態(tài)分布的期望:μ1和μ26.12.1估計(jì)k個高斯分布的均值問題解決思路:假設(shè)h=<μ1…μk>

然后求能使檢測數(shù)據(jù)集D出現(xiàn)概率最大的假設(shè)h即為μ找到極大似然假設(shè)即找到使P(D|h)最大的假設(shè)h單個的概率分布時:P1376.12.1估計(jì)k個高斯分布的均值K個不同正態(tài)分布的混合每個實(shí)例完整描述為三元組<xi,zi1,zi2>

因?yàn)閦i1和zi2未知,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論