模式識別第三章StatisticDiscriminant_第1頁
模式識別第三章StatisticDiscriminant_第2頁
模式識別第三章StatisticDiscriminant_第3頁
模式識別第三章StatisticDiscriminant_第4頁
模式識別第三章StatisticDiscriminant_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章統(tǒng)計判別3.1.貝葉斯判別原則3.2.Bayes最小風險判別準則3.3.聶曼-皮爾遜判別準則3.4.正態(tài)分布模式的貝葉斯分類器3.5.貝葉斯分類器的錯誤概率3.1作為統(tǒng)計判別問題的模式分類隨機特征向量的概念模式識別的目的就是要確定某一個給定的模式樣本屬于哪一類。可以通過對被識別對象的多次觀察和測量,構(gòu)成特征向量,并將其作為某一個判決規(guī)則的輸入,按此規(guī)則來對樣本進行分類。隨機特征向量的概念在獲取模式的觀測值時,有些事物具有確定的因果關(guān)系,即在一定的條件下,它必然會發(fā)生或必然不發(fā)生。例如識別一塊模板是不是直角三角形,只要憑“三條直線邊閉合連線和一個直角”這個特征,測量它是否有三條直線邊的閉合連線并有一個直角,就完全可以確定它是不是直角三角形。這種現(xiàn)象是確定性的現(xiàn)象,前一章的模式判別就是基于這種現(xiàn)象進行的。隨機特征向量的概念但在現(xiàn)實世界中,由許多客觀現(xiàn)象的發(fā)生,就每一次觀察和測量來說,即使在基本條件保持不變的情況下也具有不確定性。只有在大量重復(fù)的觀察下,其結(jié)果才能呈現(xiàn)出某種規(guī)律性,即對它們觀察到的特征具有統(tǒng)計特性。特征值不再是一個確定的向量,而是一個隨機向量。此時,只能利用模式集的統(tǒng)計特性來分類,以使分類器發(fā)生錯誤的概率最小。兩類模式集的分類目的:要確定x(隨機特征向量)是屬于ω1類還是ω2類,要看x是來自于ω1類的概率大還是來自ω2類的概率大。剖析:

x是來自于ω1類的概率大

把x劃分到ω1類,正確的可能性大,錯誤的可能性小。3.1.0貝葉斯判別原則基本概念(1)樣本概率P(x)

模式空間的樣本x是通過多次觀察得到的,樣本點的出現(xiàn)具有隨機性,那么也就有重復(fù)性。P(x)表示樣本X=x出現(xiàn)的概率。也就是在全體樣本中出現(xiàn)的概率

基本概念

(2)先驗概率、條件概率、后驗概率(3.1-1)其中后驗概率

我們通常稱為似然函數(shù),它可以通過已知的樣本來求得。帶入3.1-1式子,則有

3.1.1最小錯誤貝葉斯判別準則

該式稱為貝葉斯判別。關(guān)于這個判別表達式的直觀意義解釋是:總是劃分到它出現(xiàn)概率最多的某個類中,從而使分類錯誤概率最小。整理前述公式有:總結(jié)最小錯誤貝葉斯判別規(guī)則1,2很容易衍生多類形式例子對一大批人進行某種疾病普查,患癌者以ω1類代表,正常人以ω2類代表。設(shè)被試驗的人中患有某種疾病的概率為0.005,即P(ω1)=0.005,則P(ω2)=1-0.005=0.995現(xiàn)任意抽取一人,要判斷他是否患有某種疾病。顯然,因為P(ω2)>P(ω1),只能說是正常的可能性大。如要進行判斷,只能通過某一種化驗來實現(xiàn)。例子設(shè)有一種診斷某種疾病的試驗,其結(jié)果為“陽性”和“陰性”兩種反應(yīng)。若用這種試驗來對一個病人進行診斷,提供的化驗結(jié)果以模式x代表,這里x為一維特征,且只有x=“陽”和x=“陰”兩種結(jié)果。假設(shè)根據(jù)臨床記錄,發(fā)現(xiàn)這種方法有以下統(tǒng)計結(jié)果患有該疾病的人試驗反應(yīng)為陽性的概率=0.95,即p(x=陽|ω1)=0.95患有該疾病的人試驗反應(yīng)為陰性的概率=0.05,即p(x=陰|ω1)=0.05正常人試驗反應(yīng)為陽性的概率=0.01,即p(x=陽|ω2)=0.01正常人試驗反應(yīng)為陰性的概率=0.99,即p(x=陰|ω2)=0.99問題若被化驗的人具有陽性反應(yīng),他患該疾病的概率為多少,即求P(ω1|

x=陽)=?這里P(ω1)是根據(jù)以往的統(tǒng)計資料得到的,為患某種疾病的先驗概率?,F(xiàn)在經(jīng)過化驗,要求出P(ω1|

x=陽),即經(jīng)過化驗后為陽性反應(yīng)的人中患某種疾病的概率,稱為后驗概率。[計算]

例:疾病細胞識別;正常P(ω1)=0.9,異常P(ω2)=0.1,

對某個未知細胞特征值x,先從類條件概率密度分布曲線上查到:解:該細胞屬于正常細胞還是異常細胞,先計算后驗概率:p(x/ω1)=0.2,

p(x/ω2)=0.4當考慮到對于某一類的錯誤判決要比對另一類的判決更為關(guān)鍵時,就需要把最小錯誤概率的貝葉斯判別做一些修正假定要判斷某人是正常(ω1)還是肺病患者(ω2),于是在判斷中可能出現(xiàn)以下情況:第一類,判對(正?!?λ11

;第二類,判錯(正常→肺病)λ21

;第三類,判對(肺病→肺病)λ22;第四類,判錯(肺病→正常)λ12

。在判斷時,除了能做出“是”ωi類或“不是”ωi類的動作以外,還可以做出“拒識”的動作。為了更好地研究最小風險分類器,我們先說明幾個概念:3.1.2Bayes最小風險判別在整個特征空間中定義期望風險,期望風險:風險R(期望損失):對未知x采取一個決策為α(x)所付出的代價(損耗)決策αi:表示把模式x判決為αi的一次動作。損耗函數(shù)λii=λ(αi,ωi)表示模式X本來屬于ωi類而錯判為αi所受損失。因為這是正確判決,故損失最小。損耗函數(shù)λij=λ(αi,ωj)表示模式X本來屬于ωj類錯判為αi所受損失。因為這是錯誤判決,故損失大。條件風險(也叫條件期望損失):條件風險只反映對某x取值的決策行動αi所帶來的風險。期望風險則反映在整個特征空間不同的x取值的決策行動所帶來的平均風險。最小風險Bayes決策規(guī)則:二類問題:把x歸于ω1時風險:把x歸于ω2時風險:通常取若則x劃分到ω1閾值似然比兩類的貝葉斯判決條件:(I)當(ii)當(iii)當,則,則,則或者當滿足如下條件時,最小風險代價的貝葉斯判決方法就是最小錯誤概率判決方法:[一般多類(M類)的情況]如果特別的(習慣稱為0-1代價)則此時有3.2聶曼-皮爾遜判別

直接使用上述貝葉斯分類器需要知道先驗概率,如果先驗概率不知道,而知道條件概率,此時,可以使用聶曼-皮爾遜判決方法。同樣力求錯誤分類的概率最小。以一維為例分析為類被錯劃分成類的錯誤概率為類被錯劃分成類的錯誤概率實際中經(jīng)常用到:在限制某一類的錯誤一定的條件下,使另一類的錯誤最小的決策問題。從因在a1范圍內(nèi),故同理有

綜合上面兩個式子因此聶曼-皮爾遜判別準則最終就是尋找閾值T,該值可以用作為劃分a1和a2的邊界,也是最為判別分類的準則。其中

在確定了ε2的值后,就可以求出T的值。從而找到判決閾值例兩個二維正態(tài)分布求聶曼-皮爾遜判別閾值。解:查標準正態(tài)分布表:前邊的討論都是假定先驗概率不變,現(xiàn)在討論在P(ωi)變化時如何使最大可能風險最小,先驗概率P(ω1)與風險R間的變化關(guān)系如下:3.2.1最大最小判別準則這樣,就得出最小風險與先驗概率的關(guān)系曲線,如圖所示:討論:上式證明,所選的判別邊界,使兩類的概率相等:這時可使最大可能的風險為最小,這時先驗概率變化,其最大風險不變迄今為止所討論的分類問題,關(guān)于待分類樣本的所有信息都是一次性提供的。但是,在許多實際問題中,觀察實際上是序貫的。隨著時間的推移可以得到越來越多的信息。一種方法是計算停止損失和計算繼續(xù)損失,在兩者的臨界點上得到分類決策。這種方法需要知道先驗概率、決策損失以及觀測每個新特征需要的代價。后來開發(fā)了一系列基于這種方法的快速算法。3.2.2序貫分類假設(shè)對樣品進行第i次觀察獲取一序列特征為:X=(x1,x2,…,xi)T則對于ω1,ω2兩類問題,若X∈ω1,則判決完畢若X∈ω2

,則判決完畢若X不屬ω1也不屬ω2

,則不能判決,進行第i+1次觀察,得X=(x1,x2,…,xi,xi+1)T,再重復(fù)上面的判決,直到所有的樣品分類完畢為止。這樣做的好處是使那些在二類邊界附近的樣本不會因某種偶然的微小變化而誤判,當然這是以多次觀察為代價的。另外一種是基于錯誤概率的序貫處理。由最小錯誤概率的Bayes判決,對于兩類問題,似然比為現(xiàn)在來確定A、B的值。因為序貫分類決策規(guī)則:上下門限A、B是由設(shè)計給定的錯誤概率P1(e),P2(e)來確定的,Wald已證明,觀察次數(shù)不會很大,它收斂的很快。3.2.3分類器設(shè)計(1)判別函數(shù):

(2)決策面方程:(3)分類器設(shè)計:(類似線性分類器多類第三種情況)一、正態(tài)分布判別函數(shù)

1、為什么采用正態(tài)分布:

a、正態(tài)分布在物理上是合理的、廣泛的。

b、正態(tài)分布數(shù)學上簡單,N(μ,σ2)只有均值和方差兩個參數(shù)。

2、單變量正態(tài)分布:3.3正態(tài)分布模式的貝葉斯分類器3、(多變量)多維正態(tài)分布(1)函數(shù)形式:(2)、性質(zhì):①、μ與∑對分布起決定作用P(X)=N(μ,∑),μ由n個分量組成,∑由n(n+1)/2元素組成?!喽嗑S正態(tài)分布由n+n(n+1)/2個參數(shù)組成。

②、等密度點的軌跡是一個超橢球面。區(qū)域中心由μ決定,區(qū)域形狀由∑決定。③、不相關(guān)性等價于獨立性。若xi與xj互不相關(guān),則xi與xj一定獨立。 ④、邊緣分布和條件分布也是正態(tài)的。 ⑤、線性變換的正態(tài)性Y=AX,A為線性變換矩陣。若X為正態(tài)分布,則Y也是正態(tài)分布。 ⑥、線性組合的正態(tài)性。判別函數(shù):類條件概率密度用正態(tài)來表示:二、最小錯誤率(Bayes)分類器:從最小錯誤率這個角度來分析Bayes分類器

1.第一種情況:各個特征統(tǒng)計獨立,且同方差情況。(最簡單情況)決策面方程:

判別函數(shù):最小距離分類器:未知x,找最近的μi把x歸類如果M類先驗概率相等:討論:未知x,把x與各類均值相減,把x歸于最近一類。最小距離分類器。2、第二種情況:

即各類協(xié)方差相等。討論:針對ω1,ω2二類情況,如圖:3、第三種情況(一般情況):Σ?為任意,各類協(xié)方差矩陣不等,二次項xT

Σ?x與i有關(guān)。所以判別函數(shù)為二次型函數(shù)。3.4貝葉斯分類器的錯誤概率3.4.1錯誤概率的概念以兩類問題為例,錯誤分類的概率為

2、正態(tài)分布最小錯誤率(在正態(tài)分布情況下求最小錯誤率)3.4.2負對數(shù)似然比的概率分布設(shè)模式向量分布為多變量正態(tài)密度函數(shù),其協(xié)方差矩陣相等要滿足錯誤概率最小,則將x分到ωi時候,因該滿足:其中a就對應(yīng)于閾值的對數(shù)是x的函數(shù),也為正態(tài)分布,所以其在ωi類的期望值取則其在ωi內(nèi)的方差同樣可推導(dǎo)在ωj內(nèi)的期望值和方差,所以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論