




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第5章貝葉斯分類器與貝葉斯網絡掌握貝葉斯公式和樸素貝葉斯分類器原理。熟悉樸素貝葉斯分類器的優(yōu)缺點及應用領域。了解貝葉斯網絡的構建方法及推理過程。本章學習目標5.1貝葉斯方法5.2貝葉斯分類器5.3貝葉斯網絡第5章貝葉斯分類器與貝葉斯網絡貝葉斯(1702-1761)ThomasBayes,英國數學家。1742年成為英國皇家學會會員。1761年4月7日逝世。貝葉斯在數學方面主要研究概率論。他首先將歸納推理法用于概率論基礎理論,并創(chuàng)立了貝葉斯統計理論,對于統計決策函數、統計推斷、統計的估算等做出了貢獻。他死后,理查德·普萊斯(RichardPrice)于1763年將他的著作《Anessaytowardssolvingaprobleminthedoctrineofchances》寄給了英國皇家學會,對于現代概率論和數理統計產生了重要的影響。5.1貝葉斯方法例:假設某個動物園里的雌性和雄性熊貓的比例是4:6,雌性熊貓中90%的熊貓是干凈整潔的,雄性熊貓中20%是干凈整潔的。1.求解“正向概率”:在動物園中看到一只干凈整潔的雄性熊貓的概率是多少?2.求解“逆向概率”:如果看到一只熊貓是干凈整潔的,它是雄性的概率是多少?
貝葉斯公式5.1貝葉斯方法貝葉斯公式5.1貝葉斯方法樣本空間的劃分5.1貝葉斯方法條件獨立公式:
如果和相互獨立,則有:其中,是事件發(fā)生的概率。條件概率公式:
其中,表示事件已發(fā)生的條件下,事件發(fā)生的概率,也稱為條件概率??梢酝ㄟ^全概率公式計算。
數學基礎5.1貝葉斯方法全概率公式:其中,事件構成一個完備事件組,即。數學基礎5.1貝葉斯方法5.1貝葉斯方法貝葉斯方法的特點是用概率表示不確定性,概率規(guī)則表示推理或學習,隨機變量的概率分布表示推理或學習的最終結果。貝葉斯理論源于貝葉斯提出的貝葉斯定理。貝葉斯定理是關于隨機事件A和B的條件概率的一則定理,它基于下述貝葉斯公式:
如果我們已經知道事件A和B各自發(fā)生的概率,已知當事件A發(fā)生前提下事件B也發(fā)生的條件概率,那么就可以用貝葉斯公式求得在事件B發(fā)生前提下事件A發(fā)生的概率。貝葉斯公式提供了從先驗概率計算后驗概率的方法。5.1貝葉斯方法由全概率公式可以得到如下貝葉斯公式:5.1貝葉斯方法5.2貝葉斯分類器5.3貝葉斯網絡第5章貝葉斯分類器與貝葉斯網絡訓練數據集:由X和Y的聯合概率分布P(X,Y)獨立同分布產生樸素貝葉斯通過訓練數據集學習聯合概率分布P(X,Y),即先驗概率分布:及條件概率分布:5.2貝葉斯分類器條件獨立性假設:“樸素”貝葉斯名字由來,犧牲分類準確性。貝葉斯定理:代入上式:5.2貝葉斯分類器貝葉斯分類器:分母對所有ck都相同:5.2貝葉斯分類器樸素貝葉斯分類模型是一種簡單的構造分類器的方法。樸素貝葉斯分類模型是將問題分為特征向量和決策向量兩類,并假設問題的特征向量都是相互獨立地作用于決策向量的,即問題的特征之間都是互不相關的。盡管有這樣過于簡單的假設,但樸素貝葉斯分類模型能指數級降低貝葉斯網絡構建的復雜性,同時還能較好地處理訓練樣本的噪聲和無關屬性,所以樸素貝葉斯分類模型仍然在很多現實問題中有著高效的應用,例如入侵檢測和垃圾郵件過濾等領域。目前許多研究學者也在致力于改善特征變量間的獨立性的限制使得樸素貝葉斯分類模型可以應用到更多問題上。5.2貝葉斯分類器原理:對于待分類的樣本,假設各個特征之間滿足樸素獨立的條件,基于貝葉斯公式,通過訓練樣本的特征概率,求解未知樣本的概率分布,從而預測樣本的分類。步驟:對于訓練樣本集包含分類標簽,其中有個樣本,每個樣本包含個特征,表示如下:
對應的訓練集有個輸出類別,表示為。5.2貝葉斯分類器樸素貝葉斯分類對于測試樣本集,分別統計每個樣本對應標簽的所有輸出類別對應的概率:由于每個樣本的特征獨立,根據條件獨立公式,計算樣本中每個特征的條件概率,再計算出對應標簽的所有類別的概率,如下所示:5.2貝葉斯分類器樸素貝葉斯分類對于新的測試樣本集,根據貝葉斯公式可以得到:如果,其中,則,即認為。衡量分類器精度,可以利用統計分類器計算與真實標簽對比的正確率。5.2貝葉斯分類器樸素貝葉斯分類數據
以上表格通過不同的天氣特征來預測球賽是否可以進行,數據集中可以比賽(Yes)的樣本有9個,而不能比賽的樣本(No)有5個,對于一組新的天氣數據,采用貝葉斯理論基于以前的經驗數據,預測為可以比賽的概率要比預測為不能比賽的概率高幾乎兩倍,這就稱為先驗概率(Priorprobability)。5.2貝葉斯分類器樸素貝葉斯分類對于以上數據集,求先驗概率如下:對于新樣本:采用貝葉斯分類法來預測首先需要統計數據集,計算如下的條件概率:5.2貝葉斯分類器樸素貝葉斯分類5.2貝葉斯分類器樸素貝葉斯分類根據貝葉斯公式可以計算出新樣本X的兩個似然概率(LikelihoodProbability)如下所示:
對于以上兩個算式,發(fā)現的乘積項中出現了0,這是因為訓練數據集中的這個條件概率為0而導致的,這時候如果增加有效的訓練數據,就需要采取拉普拉斯修正(Laplacecorrection)。5.2貝葉斯分類器樸素貝葉斯分類修正后重新計算先驗概率如下:修正后重新計算條件概率如下:5.2貝葉斯分類器樸素貝葉斯分類修正后重新計算似然概率如下:5.2貝葉斯分類器樸素貝葉斯分類回顧貝葉斯公式構建分類器的數學模型:
其中上式的分子項,為先驗概率(Priorprobability),為通過條件概率(Conditionalprobability)計算出來的似然概率(LikelihoodProbability)。5.2貝葉斯分類器樸素貝葉斯分類而分母項為現象概率(Evidenceprobability),可以通過數學證明其對所有分類相同。公式的左邊為所要預測的樣本分類,稱為后驗概率(Posteriorprobability)。所以上式也常表達為當分母相同時,可以認為后驗概率與似然和先驗概率成正比:計算本例中的后驗概率如下:
5.2貝葉斯分類器樸素貝葉斯分類
回顧貝葉斯理論用于分類預測時的結論,當且僅當以下條件滿足時:可以得到結論:預測屬于。所以,對于本例的新樣本,可以預測其分類結果為,也就是在天氣條件為的時候,預測比賽可以進行。5.2貝葉斯分類器樸素貝葉斯分類5.2貝葉斯分類器樸素貝葉斯分類貝葉斯垃圾郵件過濾器傳統的垃圾郵件過濾方法是關鍵詞過濾,但這種方法過于絕對,很容易出現誤判的情況。貝葉斯垃圾郵件過濾會同時考慮關鍵詞在正常郵件和垃圾郵件中出現的概率,并且學習用戶的偏好,可以減少誤判的可能性。假設收到一封電子郵件E,郵件由n個關鍵詞構成。設X=1表示郵件是正常郵件,X=0表示郵件是垃圾郵件。那么判定新郵件是否為垃圾郵件的問題可以表示為比較下列兩式值的問題:
5.2貝葉斯分類器樸素貝葉斯分類其中和?可以很容易地在郵箱里查出,所以只需要計算?和?
。這里可以簡單假設E中n個關鍵詞是互不相關,即將問題轉化為樸素貝葉斯分類模型。所以就有:
等式右邊的每個分式的計算都是很容易的,于是就可以很容易地得到上文需要的兩個概率值。可以預先設定好垃圾郵件的概率閾值,比較?和?即可實現自動的垃圾郵件標識與過濾。5.1貝葉斯方法5.2貝葉斯分類器5.3貝葉斯網絡第5章貝葉斯分類器與貝葉斯網絡貝葉斯網絡(Bayesiannetwork),又稱為信念網絡(Beliefnetwork),是一種通過有向無環(huán)圖(Directedacyclicgraph,DAG)表示一組隨機變量及其條件依賴概率的概率圖模型。概率圖中,每個節(jié)點表示一個隨機變量,每一條有向邊表示隨機變量間的依賴關系,同時每個節(jié)點都對應一個條件概率表(ConditionProbabilityTable,CPT),用于描述該變量與父變量之間的依賴強度,也就是聯合概率分布。沒有父節(jié)點的節(jié)點用先驗概率表達信息。兩個節(jié)點若無連接則表示相互獨立的隨機變量。貝葉斯網絡是由圖論和概率論結合而成的描述多元統計關系的模型,它為多個變量之間復雜依賴關系的表示提供了統一的框架,具有緊湊有效、簡潔直觀的特點。
5.3貝葉斯網絡貝葉斯網絡中的節(jié)點可以表示任意問題,豐富的概率表達能力使能較好地處理不確定性信息或問題。貝葉斯網絡中所有節(jié)點都是可見的,并且節(jié)點間的因果關系可以非常直觀地觀察到。由于貝葉斯網絡對大規(guī)模復雜系統簡約而緊湊的表示能力,使得其成為人工智能、專家系統、模式識別、數據挖掘和軟件測試等領域的研究熱點。5.3貝葉斯網絡
有向圖模型5.3貝葉斯網絡根據貝葉斯網絡的緊湊的聯合分布,可得上圖貝葉斯網絡的聯合分布為有向圖模型貝葉斯網絡示例5.3貝葉斯網絡
有向圖模型5.3貝葉斯網絡通過聯合分布的緊湊表示或者通過局部條件獨立性的形式化語義,都可以分析出貝葉斯網絡中變量的一些條件獨立性,但是這兩種方法并沒有將所有的獨立性情況包括。事實上,通過圖的一些特殊結構和規(guī)則可以簡單直觀地得到所關心變量的條件獨立性。接下來介紹三種基本的變量依賴情況,三種情況對應三種不同的圖結構:有向圖模型5.3貝葉斯網絡
有向圖模型5.3貝葉斯網絡
有向圖模型5.3貝葉斯網絡
有向圖模型5.3貝葉斯網絡貝葉斯網絡的學習貝葉斯網絡學習是對數據進行統計分析獲取貝葉斯網絡的過程。學習包括了參數學習和結構學習兩部分。參數學習是在網絡結構已知的情況下確定參數即條件概率表中的值。結構學習則既需要確定網絡結構G以定性反映變量間的依賴關系,又需要確定網絡參數以定量得到條件概率表中的值。在對貝葉斯網絡進行參數學習時,我們已經知道了網絡結構G和G中所有節(jié)點或部分節(jié)點的狀態(tài)值,這些狀態(tài)值就是需要進行學習的數據集。5.3貝葉斯網絡貝葉斯網絡的推理貝葉斯網絡的推理是指在已知網絡結構G和參數Θ下,給定某些證據或變量的值通過概率論的方法求目標變量值的過程。貝葉斯網絡的推理主要包括兩種,一種為自頂向下的推理,一種為自底向上的推理。推理主要運用的方法有精確推理和近似推理兩種,分別有一些算法來解決實際問題。不同情況下有不同因素影響推理,貝葉斯網絡拓撲結構和推理任務是兩大主要復雜度來源。網絡的大小、變量的類型和分布情況、推理任務的類型和相關證據的特征都會影響推理過程和結果,實際應用中也應靈活選擇推理方法。5.3貝葉斯網絡貝葉斯網絡的推理精確推理最簡單的方法即計算全局的聯合概率,但直接對聯合概率進行計算的效率很低,常常采用變量消元法分別聯合概率的求解達到簡化計算的目的。變量消元法利用鏈式乘積法則和條件獨立性對聯合概率計算表達式進行變換,改變基本運算的次序改變消元的次序,最終達到減少計算量的目的。該方法的基本思想可以通過一個簡單例子描述,假設有如下所示的簡單貝葉斯網絡:
5.3貝葉斯網絡貝葉斯網絡的推理精確推理5.3貝葉斯網絡貝葉斯網絡的推理在貝葉斯網絡節(jié)點很多或依賴關系很復雜時,精確推理的復雜度很高,通常需要降低推理的復雜度,在問題的因果關系在網絡中可獨立于某一部分存在時,可以將這一部分結構提取出來用精確推理的方法推理。在不能利用局部獨立時,就需要降低計算的精度,即采用近似推理的方法。隨機抽樣算法是最常用的近似推理方法。該方法又被認為蒙特卡洛算法或隨機仿真。算法的基本思想上根據某種概率分布進行隨機抽樣以得到一組隨機樣本,再根據這一組隨機樣本近似地估計需要計算的值。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西班牙語教學中的案例教學法應用論文
- 多源數據融合故障預測方法-全面剖析
- 隆迪語中的傳統節(jié)日工具詞匯研究論文
- 2025-2030中國馬鈴薯去皮切片設備行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國香料行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國音像制品加工行業(yè)市場深度調研及價值評估與投資前景研究報告
- 2025-2030中國露營地烹飪用具行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國集裝袋行業(yè)發(fā)展分析及發(fā)展前景與投資研究報告
- 平板舶運輸合同范本
- 有機蔬菜種植模式-全面剖析
- 我的家鄉(xiāng)東營廣饒旅游宣傳介紹
- 英語48個國際音標課件(單詞帶聲、附有聲國際音標圖)
- 電商運營總監(jiān)工作的崗位職責與電商運營經理崗位的具體職責
- 國家開放大學國開電大《電商數據分析》終考考核
- 教科版科學四年級下冊第二單元《電路》單元作業(yè)設計
- 吊籃施工安全管理培訓課件
- 《用戶體驗設計導論》第14章-用戶體驗質量的測試與評價課件
- 圓的面積(全國一等獎)
- 我國優(yōu)撫安置政策法規(guī)考試試題
- 2023學年完整公開課版線橋偏心
- 2023年上海嘉定區(qū)國資委下屬企業(yè)向社會招聘筆試參考題庫附帶答案詳解
評論
0/150
提交評論