




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第6章貝葉斯學(xué)習(xí)貝葉斯法則給定訓(xùn)練數(shù)據(jù)集D,確定假設(shè)空間H中的最佳假設(shè)什么是最佳假設(shè)?在給定數(shù)據(jù)集D的基礎(chǔ)上,H中不同假設(shè)里發(fā)生概率最大(最可能發(fā)生)的一個貝葉斯法則可以通過直接計算找到這種最可能性貝葉斯公式P(h):h的先驗概率(priorprobability),反映了事先擁有的關(guān)于h的背景知識P(D):得到的訓(xùn)練數(shù)據(jù)D的先驗概率P(D|h):若h成立,則觀察到D的概率P(h|D):給定訓(xùn)練數(shù)據(jù)D時,h成立的概率公式分析P(h|D)稱為后驗概率,相對于先驗概率如果D獨(dú)立于h時被觀察到的可能性越大,那么D對h的支持度也越小如果h的先驗概率越大,則在數(shù)據(jù)D的條件下出現(xiàn)h的可能性也越大求每一假設(shè)h的P(h|D),取其中最大者,為MAP假設(shè)(maximumaposteriori)基本概率公式兩事件A和B交的概率:兩事件A和B并的概率:給定D時h的后驗概率:全概率法則: 若事件互斥且則6.1簡介貝葉斯學(xué)習(xí)提供了一種推理的概率手段:即待考查的量遵循某種概率分布且可根據(jù)這些概率及已觀察到的數(shù)據(jù)進(jìn)行推理以作出最優(yōu)決策貝葉斯學(xué)習(xí)為直接操作概率的學(xué)習(xí)算法提供了基礎(chǔ)貝葉斯學(xué)習(xí)也為其他算法的分析提供了理論框架貝葉斯學(xué)習(xí)與機(jī)器學(xué)習(xí)的關(guān)系貝葉斯學(xué)習(xí)算法能夠顯式計算假設(shè)的概率樸素貝葉斯分類器利用樸素貝葉斯分類器分類進(jìn)行文本文檔分類為理解許多算法提供了有效手段,這些算法不一定直接操縱概率數(shù)據(jù)在使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練收斂判據(jù)時,可以選擇比誤差平方和最小原則更合適的交叉熵原則貝葉斯學(xué)習(xí)方法的特性觀察到的每個訓(xùn)練樣例可以增量地降低或增高某假設(shè)的估計概率先驗知識可以與觀察數(shù)據(jù)一起決定假設(shè)的最終概率兩類先驗知識:候選假設(shè)的先驗概率;每個可能假設(shè)在可觀察數(shù)據(jù)中的概率分布允許假設(shè)做出不確定性的預(yù)測新實例可以由多個假設(shè)的概率加權(quán)和確定重要的算法評價理論依據(jù)舉例醫(yī)療診斷問題做決定:(1)得癌癥;(2)無癌癥診斷依據(jù):某化驗測試,測試結(jié)果為+或-先驗知識:所有人口中此癌癥的發(fā)生概率為0.008測試有病的準(zhǔn)確率為0.98測試無病的準(zhǔn)確率為0.97現(xiàn)在,某病人測試結(jié)果為+,問是否可以確診此病人有???舉例假設(shè)在某種病癥的化學(xué)檢測中:對有病的病人,檢驗的陽性率為95%對沒病者,檢驗的陽性率為5%該病的發(fā)病率為0.5%現(xiàn)在隨便從街上拉一個人做檢測,結(jié)果陽性,問此人患此病的概率是多少?貝葉斯學(xué)習(xí)利用貝葉斯法則進(jìn)行概念學(xué)習(xí)給定訓(xùn)練數(shù)據(jù)下求后驗概率從先驗概率到后驗概率的概率改變體現(xiàn)學(xué)習(xí)效果BRUTE-FORCE貝葉斯概念學(xué)習(xí)對于H中每個假設(shè)h,計算后驗概率輸出有最高后驗概率的假設(shè)hMAP貝葉斯最優(yōu)分類器前面討論問題:給定訓(xùn)練數(shù)據(jù),最可能的假設(shè)是什么需討論的問題:給定訓(xùn)練數(shù)據(jù),對新的實例的最可能分類是什么可以直接利用MAP假設(shè)來分類新實例也有更好的算法6.7貝葉斯最優(yōu)分類器MAP假設(shè)分類的問題P125新實例的最可能分類應(yīng)該通過合并所有假設(shè)的預(yù)測得到即用后驗概率來加權(quán)貝葉斯最優(yōu)分類器(BayesOptimalClassifier):分類結(jié)果可以對應(yīng)于H中不存在的假設(shè)P1266.8GIBBS算法基于給定訓(xùn)練數(shù)據(jù),貝葉斯最優(yōu)分類器可以給出最好性能但計算開銷很大GIBBS算法:按照H上的后驗概率分布,從H中隨機(jī)選取假設(shè)h使用h來處理待分類實例誤分類率:最多為貝葉斯最優(yōu)分類器的兩倍6.9樸素貝葉斯分類器實用性很高的算法學(xué)習(xí)任務(wù):每個實例x由屬性的合取表示目標(biāo)函數(shù)f(x)從有限集會V中取值學(xué)習(xí)器根據(jù)提供的一系列關(guān)于目標(biāo)函數(shù)的訓(xùn)練樣例以及新實例(屬性值的元組),給出新實例的分類6.9樸素貝葉斯分類器舉例:根據(jù)天氣情況判斷某人是否會打網(wǎng)球樸素貝葉斯分類器是否將要打網(wǎng)球?4個天氣屬性
OutlookTemperatureHumidityWind對新實例進(jìn)行預(yù)測:yesorno舉例:學(xué)習(xí)分類文本樸素貝葉斯分類器問題框架目標(biāo):要求計算機(jī)學(xué)習(xí)從大量的在線文本文檔中自動過濾出最相關(guān)文檔給讀者目標(biāo)值:like和dislike每個位置上的每個單詞定義為一個屬性值簡化:每個屬性的條件概率相互獨(dú)立特定單詞出現(xiàn)的概率獨(dú)立于單詞所在的位置6.11貝葉斯信念網(wǎng)最優(yōu)貝葉斯分類器要求考慮每個屬性與其他屬性的關(guān)系,太繁瑣,而且不現(xiàn)實樸素貝葉斯分類器要求每個屬性的條件概率相互獨(dú)立,限制太嚴(yán)格折中:貝葉斯信念網(wǎng)比樸素貝葉斯分類器限制少比最優(yōu)貝葉斯分類器切實可行EM算法用處:變量的值從來沒有直接觀察到的情況問題:估計k個高斯分布的均值EM算法的一般表述K均值算法的推導(dǎo)6.12.1估計k個高斯分布的均值得到一些數(shù)據(jù):來自于k個正態(tài)分布首先隨機(jī)選擇一個正態(tài)分布然后依概率取到隨機(jī)變量的值求正態(tài)分布的參數(shù)難點(diǎn)1:不知道正態(tài)分布是如何選取的難點(diǎn)2:通過不確定歸屬的數(shù)據(jù)來估計正態(tài)分布的參數(shù)6.12.1估計k個高斯分布的均值簡單情況:只有兩個正態(tài)分布各個正態(tài)分布基于均勻的概率進(jìn)行選擇各個正態(tài)分布具有相同的方差σ2,且σ2已知已知:采樣得到的數(shù)據(jù)集{x1,x2,。。。}求正態(tài)分布的期望:μ1和μ26.12.1估計k個高斯分布的均值問題解決思路:假設(shè)h=<μ1…μk>
然后求能使檢測數(shù)據(jù)集D出現(xiàn)概率最大的假設(shè)h即為μ找到極大似然假設(shè)即找到使P(D|h)最大的假設(shè)h單個的概率分布時:P1376.12.1估計k個高斯分布的均值K個不同正態(tài)分布的混合每個實例完整描述為三元組<xi,zi1,zi2>
因為zi1和zi2未知,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CECS 10072-2019綠色建材評價雨水處理設(shè)備
- T/CECS 10011-2022聚乙烯共混聚氯乙烯高性能雙壁波紋管材
- T/CCT 008-2023智能化選煤廠建設(shè)分級評價
- T/CCMA 0167-2023施工升降機(jī)圖形符號
- T/CCAS 035-2023大宗散裝粉料(水泥)多式聯(lián)運(yùn)罐式集裝箱技術(shù)規(guī)范
- 化工消防考試題及答案
- 國外服裝考試題及答案
- 公司面試題庫及答案
- 工作定位面試題及答案
- 改善環(huán)境面試題及答案
- 2025至2030年中國護(hù)腰帶行業(yè)投資前景及策略咨詢報告
- 廣告宣傳服務(wù)方案投標(biāo)文件(技術(shù)方案)
- 2025年山東省聊城市東昌府區(qū)中考二模語文試題(含答案)
- 2025年“六一”少先隊新隊員入隊儀式主持詞
- 空調(diào)崗位試題庫及答案
- 2024紡織機(jī)械操作流程掌握試題及答案
- 2025年貴州水投水庫運(yùn)營管理西秀有限公司招聘筆試參考題庫附帶答案詳解
- 基于新課標(biāo)的初中英語單元整體教學(xué)設(shè)計與實踐
- 《我的削筆刀》教學(xué)設(shè)計 -2023-2024學(xué)年科學(xué)一年級上冊青島版
- 2025分布式光伏工程驗收標(biāo)準(zhǔn)規(guī)范
- 門診輸液工作管理制度
評論
0/150
提交評論