




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Chapter 2 Bayesian Decision Theory 貝葉斯決策論.要點: 重點掌握貝葉斯決策論、最小誤差率分類規(guī)那么、分類器與判別函數、正態(tài)密度、正態(tài)分布的判別函數 了解貝葉斯決策論(離散性特征). 在不知道更多信息的情況下,每次出現鱸魚的先驗概率為 ,而鮭魚的先驗概率為 ,其中先驗概率反映了在魚沒有出現之前,我們擁有能夠出現魚的類別的先驗知識。 例如:對于鮭魚與鱸魚的2類問題,假設用表示類別形狀,那么當 時是鱸魚,當 時是鮭魚。由于每次出現的類別不確定,可以假設是一個用概率來描畫的隨機變量。 2.1 引 言 貝葉斯決策是統(tǒng)計方式識別的根本方法, 采用概率的方式來描畫,它的前
2、提是:(1). 各類別的總體概率分布是知的.(2). 要決策分類的類別數是一定的. 利用類條件概率密度: 及 描畫了兩種魚類外觀上光澤度的差別。 其中,x為光澤度目的。 類條件概率密度為類別形狀為時的x的概率密度函數 僅根據先驗信息的斷定準那么 假設 ,那么事件 成立; 反之,那么 成立。 錯誤的概率是它們之中較小的那個. 但通常不這樣做!. 注 : 假定的類條件概率密度函數圖,顯示了方式處于類別 時察看某個特定特征值 x 的概率密度.假設 x 代表了魚的長度,那么這兩條曲線可描畫兩種魚的長度區(qū)別.概率函數已歸一化,因此每條曲線下的面積為1.貝葉斯公式: 處于類別 并具有特征值 x的方式的結合
3、概率密度可寫成兩種方式: 其中 稱為形狀的后驗概率.混合概率密度函數:于是,可以導出貝葉斯公式: 1.在先驗概率 及圖2-1給出的后驗概率圖.此情況下,假定一個方式具有特征值 , 那么它屬于 類的概率約為0.08, 屬于 的概率約為0.92.在每個x 處的后驗概率之和為1.0. 基于后驗概率的決策準那么 (x 表示察看值) 假設 類別斷定 假設 類別斷定 決策后所導致的錯誤率 假設斷定 假設斷定. 最小化錯誤概率條件下的貝葉斯決策規(guī)那么 為了追求最小的錯誤率,采取如下斷定準那么: 假設 ,那么斷定類別為 ; 反之,判為 。 可以證明,依從這樣的準那么可以獲得最小錯誤率: 我們稱該準那么為“貝葉
4、斯決策準那么。 平均錯誤率:. 根據貝葉斯公式,由于p(x)為標量,那么可以采用等價斷定準那么: 假設 ,那么斷定類別為 ; 反之,判為 。. 2.2 貝葉斯決策論-延續(xù)性特征允許利用多于一個的特征允許多于兩種類別形狀的情形允許有其它行為而不僅是斷定類別。引入損失函數替代誤差概率。 概 述.令1, 2, c表示一系列類別形狀。令1, 2, a表示一系列能夠采取的行動或決策。令 (i | j)表示當實踐形狀為 j 時,采取i 的行為會帶來的風險。那么,特征x與行動i 相關聯(lián)的損失為:因此, 稱為條件風險。 調查損失函數對斷定準那么的影響 借助 可以提供一個總風險的優(yōu)化過程,即遇到特征x,我們可以
5、選擇最小化風險的行為來使預期的損失到達最小。 假設對于特征x,決策的行為是 ,那么總風險可表示為:.為了最小化總風險,對一切 計算條件風險選擇行為i ,使得 最小化。最小化后的總風險值稱為貝葉斯風險,記為 ,它是可獲得的最優(yōu)結果。(12). 兩類分類問題行為1對應類別判決1, 2那么對應2 。為了簡化符號,令那么可得兩種行為的損失函數. 決策 按照貝葉斯決策規(guī)那么,為了使得條件風險最小, 假設那么判為 相反,那么判為 結合貝葉斯公式,用先驗概率與條件密度來表示 后驗概率,等價規(guī)那么為 假設 那么判為 否那么,判決為 用后驗概率來表示,等價規(guī)那么為 假設 那么判為 否那么,判決為通常: ?. 決
6、策等價規(guī)那么為 假設 那么判為 ; 否那么,判決為留意公式(18)的右邊是與x無關的常數,因此可以視為左邊的似然比超越某個閾值,那么判為18.左圖闡明,假設引入一個0-1損失或分類損失,那么判別邊境將由閾值 決議;而假設損失函數將方式 判為 的懲罰大于反過來情況,將得到較大的閾值 使得R1變小. 當損失函數簡化到所謂的“對稱損失或“0-1損失 函數 這個損失函數將0損失賦給一個正確的判決,而將一 個單位損失賦給任何一種錯誤判決,因此一切誤判都是 等價的。與這個損失函數對應的風險就是平均誤差概率。 2.3 最小誤差率分類.對于 , 假設 ,那么斷定類別為 ;反之,判為 。因此, 最小化風險, 就
7、是最大化后驗概率 , 即最小誤差率的分類準那么。.2.3.1 極小極大化準那么先驗概率未知情形 有時我們需求設計在整個先驗概率范圍內都能很好操作的 分類器。一種合理的設計方法就是使先驗概率取任何一種 值時所引起的總風險的最壞情況盡能夠小,也就是說最小 化最大能夠的風險。 我們以R1表示分類器判為1時的特征空間的區(qū)域,同樣的 有R2和 2,總風險的方式可表示為 判為1判為2.結合公式 與可以得到等式闡明一旦判別邊境確定后,總風險與 成線形關系。假設能找到一個邊境使比例為0,那么風險將與先驗概率獨立。這就是極小極大化求解。風險作業(yè):計算.2.3.2 Neyman-Pearson準那么 最小化某個約
8、束的風險資源有限的情形。 對某個給定的i,最小化在約束條件 的總風險。 例如:將鱸魚誤判為鮭魚的誤差率不得超越1%。. 2.4 分類器與判別函數2.4.1 多類情況有許多方式來表述方式分類器,用的最多的是一種判別函數 假設對于一切的 都有那么分類器將這個特征向量x判給.上圖為包含d個輸入c個判別函數的系統(tǒng)。確定哪個判別函數值最大,并相應地對輸入作分類。. 不同情況下的分類器的表示方式 普通風險的情況下為 最小誤差概率情況下 其它一些較常見的方式. 雖然判別函數可寫成各種不同的方式,但是判決規(guī)那么是一樣的。 每種判決規(guī)那么都是將特征空間劃分c個判決區(qū)域, 假設對于一切的 ,有 那么x屬于 。 要
9、求我 們將x分給 。此區(qū)域由判決邊境來分割,其判決邊境即判決 空間中使判決函數值最大的曲面。如圖.在這個二維的兩類問題的分類器中,概率密度為高斯分布。判別邊境由兩個雙曲面構成,因此判決區(qū)域R2并非是簡單連通的。橢圓輪廓線標志出1/e乘以概率密度的峰值。.那么假設 ,那么將x判給 ,否那么給 。2.4.2 兩類情況二分分類器-dichotomizer對于二分分類器,可以定義一個簡單判別函數 最小誤差概率情況下或:. 2.5 正態(tài)密度 單變量密度函數單變量正態(tài)分布容易計算其期望值與方差.單變量正態(tài)分布大約有95%的區(qū)域在 范圍內,如圖此分布的峰值為. 正態(tài)分布與熵之間的關系熵的定義單位為奈特; 假
10、設換為 ,單位為比特。熵是一個非負的量用來描畫一種分布中隨機選取的樣本點的不確定性。可以證明正態(tài)分布在一切具有給定均值和方差的分布中具有最大熵。并且,如中心極限定理所述,大量的小的,獨立的隨機分布的總和等效為高斯分布。. 多元密度函數多元正態(tài)密度其中x是一個d維列向量, 是d維均值向量, 是 的協(xié)方差矩陣, 和 分別是其行列式的值和逆。方式上有:. 協(xié)方差矩陣 通常是對稱的且半正定。我們將嚴厲限定 是正定的。對角線元素 是相應的 方差; 非對角線元素 是 和 的協(xié)方差。假設 和 統(tǒng)計獨立,那么 。假設一切的非對 角線元素為0,那么p(x)變成了x中各元素的單變量正態(tài)密度函數的 內積。 服從正態(tài)
11、分布的隨機變量的線性組合,不論這些隨機變量是獨立 還是非獨立的,也是一個正態(tài)分布。(這是個非常有用的結論特別地,假設 ,A是一d*k的矩陣且 是一k維向量,那么. 白化(Whitening) 變換 F: 其列向量是 S的正交特征向量. L: 與特征值對應的對角矩陣.白化(Whitening) 變換. 2.6 正態(tài)分布的判別函數最小誤差概率分類可經過判別函數獲得假設知那么其中:.情況1: 這種情況發(fā)生在各特征統(tǒng)計獨立,且每個特征具有一樣的 方差時。此時的協(xié)方差陣是對角陣,僅僅是 與單位陣I 的乘積。幾何上它與樣本落于相等大小的超球體聚類中的 情況相對應,第i類的聚類以均值向量 為中心。 省略掉其
12、它無關緊要的附加常量,可得到簡單的判決函數.展開后我們得到省略附加常量,等價于線性判決函數其中且稱 為第 i個方向的閾值或者偏置。. 運用線性判別函數的分類器稱為“線性機器。這類分類器有許多有趣的實際性質,其中一些將在第5章中詳細討論。此處只需留意到一個線性機器的斷定面是一些超平面,它們是由兩類問題中可獲得最大后驗概率的線性方程 來確定。 在以上的例子中,該方程可寫為其中且此方程定義了一個經過 x0 且與向量 w 正交的超平面。由于 ,將 Ri 與 Rj 分開的超平面與兩中心點的連線垂直。假設 那么上式右邊第二項為零,因此超平面垂直平分兩中心點的連線。如圖.假設兩種分布的協(xié)方差矩陣相等且與單位
13、陣成比例,那么它們呈d維球狀分布,其判決邊境是一個d-1維歸一化超平面,垂直于兩個中心的連線。在這些一維,二維及三維的例子中,是假設在 的情況下來顯示 和判決邊境的。. 假設一切c類的先驗概率 相等,那么 項就成了另一可省略 的附加常量。此種情況下,最優(yōu)判決規(guī)那么可簡單陳說如下: 為將某特征向量 x 歸類,經過丈量每一個 x 到 c 個均值向量中的 每一個歐氏間隔,并將 x 歸為離它最近的那一類中。這樣一個分類 器被稱為 “最小間隔分類器。假設每個均值向量被看成是其所屬模 式類的一個理想原型或模板,那么本質上是一個模板匹配技術。.如圖:隨著先驗概率的改動,判決邊境也隨之改動;對于差別較大的離散
14、先驗概率而言,判決邊境不會落于這些一維, 二維 及三維球狀高斯分步的中心點之間。.情況2 : 第二類簡單的情況是一切類的協(xié)方差陣都相等,但各自的均值向量 是恣意的。幾何上,這種情況對應于樣本落在一樣大小和一樣外形 的超橢球體聚類中,第 i類的聚類中心在向量 附近。此時的判決 函數可從 簡化為 將二次型展開后,可再次得到線性判決函數其中.由于判決函數是線性的,判決邊境同樣是超平面其中且假設先驗概率相等,其判決面與均值連線相交于中點;假設不等,最優(yōu)邊境超平面將遠離能夠性較大的均值。如圖.相等但非對稱的高斯分布概率密度由二維平面和三維橢球面表示及判決區(qū)域。判決超平面未必和均值連線垂直正交。.情況3
15、:在普通的多元正態(tài)分布的情況下,每一類的協(xié)方差是不同,其判決函數顯然也是二次型其中在兩類問題中,其對應的判決面是超二次曲面。.恣意高斯分布導致普通超二次曲面的貝葉斯判決邊境。反之,給定恣意超二次曲面,就能求出兩個高斯分布,其貝葉斯判別邊境就是該超二次曲面。它們的方差由常概率密度的圍線表示.P42 例1.P42 例3. 2.9 貝葉斯決策論 -離散特征 到目前為止所討論的特征向量 x 可以為 d 維歐氏空間中的恣意一點。但 是,在許多實踐運用中,x中的元素能夠是二進制,三進制或者更高的離散整數值,以致于 x 可以被以為是m個離散值 中的一個。在這種情況下, 變得奇特化,積分方式 轉變?yōu)榍蠛头绞狡?/p>
16、它方面與延續(xù)的情況根本一樣,這里不一一贅述。概率密度函數 換成 概率分布函數.思索兩類問題,其中特征向量的元素為二值的,并且條件獨立。令 ,其中 能夠為0或1,且2.9.1 獨立的二值特征且假設條件獨立,可將x元素的概率寫為 ,即且那么似然比為.由公式 得判決函數假設 判別為 ;否那么為留意判決函數對 是線性的,可改寫為其中且. g(x)可以看作是x的各分量的加權組合。 留意權重Wi 的意義。 特征獨立的條件產生線性分類器,而假設特征不獨立將產生復雜的分類器。.Example: 三維二值特征的貝葉斯決策.Example: 三維二值特征的貝葉斯決策. 2.7 誤差概率和誤差積分 二分分類器: 思
17、索以非最優(yōu)方式將空間分成兩個區(qū)域Ri 與 Rj , 那么誤差概率為:上式的值與判決點的取值有關. 多類情況正確分類的概率貝葉斯分類器經過選擇對一切x使得被積函數最大化的區(qū)域使正確分類的概率最大化。沒有其他分類方法能產生更小的分類概率。.2.8 正態(tài)密度的錯誤上界在高斯函數的情況下, 整個誤差率計算過程相當復雜。特別是高維情形。判決區(qū)域能夠不延續(xù)。在兩類情況下,普通錯誤積分公式可近似的給出一個誤差率的上界。.Chernoff 界習題36,作業(yè)!其中:.Chernoff Bound 0.66Bhattacharyya Bound 0.5.Bhattacharyya Bound.Example: 在高斯分布下的錯誤率的界.Example:在高斯分布下的錯誤率的界Bhattacharyya 界 k(1/2) = 4.06 P(error) x*|x in w2)一次虛警: P(xx*|x in w1)一次漏檢: P(xx*|x in w2)一次正確回絕: P(xx*|x1).喪失特征舉例:2.10 喪失特征和噪聲特征 喪失特征 思索訓練集數據未受損,測試集數據受損情形。.喪失特征情形下的決策:其中:是判別函數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 木蘭詞中英雄形象塑造分析教案
- 國學小名士觀后感
- 在線服務技術維護與支持服務合同協(xié)議
- 貨幣銀行學知識點測試卷
- 產品委托加工承攬合同協(xié)議
- 新聞傳媒產業(yè)發(fā)展趨勢試題集錦
- 智慧城市交通出行優(yōu)化方案設計報告
- 員工請假及銷假記錄表
- 格林童話幼兒故事解讀
- 木地板購銷質量保證合同
- 中國傳統(tǒng)文化經典解讀-《菜根譚》智慧樹知到期末考試答案章節(jié)答案2024年陜西工商職業(yè)學院
- 2024年江蘇國信儀征 高郵熱電有限責任公司招聘筆試參考題庫含答案解析
- 小班社會《認識家用電器》課件
- JTG C10-2007 公路勘測規(guī)范
- 2024年廣州市高三一模高考英語試卷試題答案詳解(含作文范文)
- 小學英語繪本-小雞
- GB 19644-2024食品安全國家標準乳粉和調制乳粉
- 中學數學教學典型課例研究
- 閱讀讓我們更聰明
- 牙周病科普講座課件
- 工業(yè)地產營銷推廣方案
評論
0/150
提交評論