隨機(jī)模式分類方式相關(guān)資料_第1頁(yè)
隨機(jī)模式分類方式相關(guān)資料_第2頁(yè)
隨機(jī)模式分類方式相關(guān)資料_第3頁(yè)
隨機(jī)模式分類方式相關(guān)資料_第4頁(yè)
隨機(jī)模式分類方式相關(guān)資料_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨機(jī)模式分類方式相關(guān)資料 目 錄2.1 引言12.2 最小錯(cuò)誤率判決規(guī)那么最簡(jiǎn)單的Bayes分類方法22.3 最小風(fēng)險(xiǎn)判決規(guī)那么32.4 最大似然比判決規(guī)那么42.5 Neyman-Pearsen判決規(guī)那么- 有時(shí)不知道先驗(yàn)概率,僅知道類概率密度52.6 最小最大判決規(guī)那么-先驗(yàn)概率是變化的62.7 分類器設(shè)計(jì)62.1 引言隨機(jī)模式 在可以覺(jué)察到的客觀世界中,存在著大量的物體和事件,他們?cè)诟緱l件不變時(shí),具有某種不確定性,每一次觀測(cè)的結(jié)果沒(méi)有重復(fù)性,這種模式就是隨機(jī)模式。 雖然隨機(jī)模式樣本測(cè)量值具有不確定性,但同類抽樣實(shí)驗(yàn)的大量樣本的觀測(cè)值具有某種統(tǒng)計(jì)特性,這個(gè)統(tǒng)計(jì)特性是建立各種分類方法的根本

2、依據(jù)。 先看一下確定性模式判決函數(shù)的問(wèn)題。2.1 引言 通過(guò)判決函數(shù),特征空間被區(qū)分界面劃分成兩種類型的區(qū)域A和B。由于模式樣本的觀測(cè)值是確定性的,經(jīng)常被正確分配到類型區(qū)域A、B之中。 假設(shè)我們用概率的形式來(lái)表達(dá),就是:在類型A的條件下觀測(cè)模式樣本x,那么x位于區(qū)域A的概率為1,而位于區(qū)域B的概率為0。 同樣,在類型B的條件下觀測(cè)模式樣本x,情況正好相反,x位于區(qū)域A的概率為0,而位于區(qū)域B的概率為1。這實(shí)際上是將概率的方法引入到確定模式,對(duì)于大多數(shù)實(shí)際情況,這是非常理想的概率分布。 許多實(shí)際情況,即使在類型A的條件下,模式樣本x位于區(qū)域A的概率也往往小于1,而位于區(qū)域B的概率也不為0。對(duì)于類

3、型B的條件也一樣。這種交錯(cuò)分布的樣本使分類發(fā)生錯(cuò)誤,是模式隨機(jī)性的一種表現(xiàn)。此時(shí),分類方法就從確定性模式轉(zhuǎn)到隨機(jī)模式。 “如何使分類錯(cuò)誤率盡可能小,是研究各種分類方法的中心議題。2.1 引言Bayes決策理論是隨機(jī)模式分類方法最重要的根底。 其中幾個(gè)重要的概念:先驗(yàn)概率 先驗(yàn)概率是預(yù)先的或者可以估計(jì)的模式識(shí)別系統(tǒng)位于某種類型的概率。類條件概率密度 它是系統(tǒng)位于某種類型條件下,模式樣本x出現(xiàn)的概率密度分布函數(shù) 后驗(yàn)概率 后驗(yàn)概率可以根據(jù)貝葉斯公式計(jì)算出來(lái),可直接用作分類判決的依據(jù)。2.1 引言先驗(yàn)概率 先驗(yàn)概率是預(yù)先的或者可以估計(jì)的模式識(shí)別系統(tǒng)位于某種類型的概率。假設(shè)仍然用兩個(gè)類型A和B為例,可

4、用 和 表示各自的先驗(yàn)概率,此時(shí)滿足 。 推廣到一般的c類問(wèn)題中,用 表示類型,那么各自的先驗(yàn)概率用 表示,且滿足: 其實(shí),在處理實(shí)際問(wèn)題時(shí),有時(shí)不得不以先驗(yàn)概率的大小作為判決的依據(jù)。如:有一批木材,其中樺木占70,松木占30,A樺木,B松木,那么,如果從中任取一塊木材,而又要用先驗(yàn)概率作出判決,那就判為樺木。 先驗(yàn)概率不能作為判決的唯一依據(jù), 但領(lǐng)先驗(yàn)概率相當(dāng)大時(shí),它也能成為主要因素。2.1 引言2.1 引言2類條件概率密度 它是系統(tǒng)位于某種類型條件下,模式樣本x出現(xiàn)的概率密度分布函數(shù),常用 ,以及 來(lái)表示。 先驗(yàn)概率密度在分類方法中起至關(guān)重要的作用,它的函數(shù)形式及主要參數(shù)或者是的,或者是可

5、通過(guò)大量抽樣實(shí)驗(yàn)估計(jì)出來(lái)。3. 后驗(yàn)概率 它是系統(tǒng)在某個(gè)具體的模式樣本x條件下,位于某種類型的概率,常以 ,以及 表示。后驗(yàn)概率可以根據(jù)貝葉斯公式計(jì)算出來(lái),可直接用作分類判決的依據(jù)。 例如:一個(gè)2類問(wèn)題,w1表示診斷為無(wú)癌癥,w2診斷為有癌癥。P(w1) 表示診斷正常的概率,P(w2) 表示某地區(qū)的人被診斷出患上癌癥的概率,該值可以通過(guò)大量的統(tǒng)計(jì)得到,x表示“試驗(yàn)反響呈陽(yáng)性。那么,P(x|w1)表示診斷為無(wú)癌癥且試驗(yàn)反響為陽(yáng)性,P(w1|x)表示試驗(yàn)為陽(yáng)性,而且沒(méi)有癌癥。同樣,可以有w2的類概率密度和后驗(yàn)概率。2.2 最小錯(cuò)誤率判決規(guī)那么最簡(jiǎn)單的Bayes分類方法 分析一個(gè)“兩類問(wèn)題。 以上一

6、個(gè)例子為例,用w1和w2表示兩種不同的類型,如w1表示診斷正常,w2表示診斷出患有癌癥。 用 和 分別表示先驗(yàn)概率。如: 診斷正常的概率, 表示某地人患癌癥的概率,可通過(guò)大量的統(tǒng)計(jì)得到。用 和 表示兩個(gè)類概率密度。 樣本x表示“試驗(yàn)反響陽(yáng)性,那么 診斷為無(wú)癌癥且試驗(yàn)反響為陽(yáng)性, 試驗(yàn)為陽(yáng)性且沒(méi)有癌癥。根據(jù)全概率公式,模式樣本x出現(xiàn)的全概率密度為:2.21 根據(jù)Bayes公式,在模式樣本x出現(xiàn)的條件下,兩個(gè)類型的后驗(yàn)概率為:2.22 此時(shí),樣本歸屬于“后驗(yàn)概率較高的那種類型。也就是:,那么偶然決定,或2.23,那么,那么根據(jù)2.22式,上述判決規(guī)那么等價(jià)于:,那么,那么2.24,那么偶然決定,或

7、 上面只是給出了最小錯(cuò)誤率貝葉斯決策規(guī)那么,但沒(méi)有證明按這種規(guī)那么進(jìn)行分類確實(shí)使錯(cuò)誤率最小。 2.2 最小錯(cuò)誤率判決規(guī)那么下面用一維情況來(lái)證明最小錯(cuò)誤率貝葉斯決策規(guī)那么,其結(jié)果不難推廣到多維。 如以下圖所示,在一維特征空間里,判決門(mén)限t把空間劃分為兩個(gè)類型區(qū)域R1,R2 在R1中,那么在R2中,那么;陰影區(qū)域是兩類樣本的交錯(cuò)分配區(qū)域,陰影面積就是這種分類方法的錯(cuò)誤概率。2.2 最小錯(cuò)誤率判決規(guī)那么總錯(cuò)誤率有兩種情況:,而判為,斜線區(qū)域。,而判為所以,總錯(cuò)誤率:,紋線區(qū)域。其中,表示在整個(gè)d維特征空間上的積分。對(duì)上述兩類問(wèn)題:當(dāng)時(shí),那么顯然作出決策w2時(shí),x的條件錯(cuò)誤概率為,反之為。也就是:=2

8、.2 最小錯(cuò)誤率判決規(guī)那么假設(shè)令t為兩類分界面,特征向量x為一維時(shí),t為x軸上的一個(gè)點(diǎn),如上圖所示: 也可寫(xiě)為: 2.2 最小錯(cuò)誤率判決規(guī)那么 所以要使 最小,判決門(mén)限應(yīng)如上圖所示,否那么就會(huì)有多余的陰影面。而2.2-3、2.2-4表達(dá)的判決規(guī)那么,判決門(mén)限正好如上圖所示,所以稱之為“最小錯(cuò)誤概率判決規(guī)那么。2.2 最小錯(cuò)誤率判決規(guī)那么可以把上述兩類問(wèn)題導(dǎo)出的最小錯(cuò)誤率判決規(guī)那么一般化,推廣到c類問(wèn)題中,表達(dá)為:假設(shè):,那么等價(jià)于:,那么2.2 最小錯(cuò)誤率判決規(guī)那么例1:為了對(duì)癌癥進(jìn)行診斷,對(duì)一批人進(jìn)行一次普查,各每個(gè)人打試驗(yàn)針,觀察反響,然后進(jìn)行統(tǒng)計(jì),規(guī)律如下:這一批人中,每1000個(gè)人中有

9、5個(gè)癌癥病人;這一批人中,每100個(gè)正常人中有一個(gè)試驗(yàn)呈陽(yáng)性反響;這一批人中,每100個(gè)癌癥病人中有95人試驗(yàn)呈陽(yáng)性反響。問(wèn):假設(shè)某人甲呈陽(yáng)性反響,甲是否正常?2.2 最小錯(cuò)誤率判決規(guī)那么解:假定x表示實(shí)驗(yàn)反響為陽(yáng)性, (1)人分為兩類:w1正常人,w2癌癥患者, (2)由條件計(jì)算概率值:先驗(yàn)概率: 類條件概率密度: (3)決策過(guò)程 由最小錯(cuò)誤判決規(guī)那么,可知:由于 比 大很多,所以先驗(yàn)概率起了較大作用。2.3 最小風(fēng)險(xiǎn)判決規(guī)那么 最小風(fēng)險(xiǎn)判決規(guī)那么也是一種Bayes分類方法。最小錯(cuò)誤率判決規(guī)那么沒(méi)有考慮錯(cuò)誤判決帶來(lái)的“風(fēng)險(xiǎn),或者說(shuō)沒(méi)有考慮某種判決帶來(lái)的損失。 同一問(wèn)題中,某種判決總會(huì)有一定的

10、損失,特別是錯(cuò)誤判決有風(fēng)險(xiǎn)。不同的錯(cuò)誤判決有不同的風(fēng)險(xiǎn),如上一節(jié)的例子中,判斷細(xì)胞是否為癌細(xì)胞,可能有兩種錯(cuò)誤判決: 正常細(xì)胞錯(cuò)判為癌細(xì)胞; 癌細(xì)胞錯(cuò)判為正常細(xì)胞。 兩種錯(cuò)誤帶來(lái)的風(fēng)險(xiǎn)不同。在中,會(huì)給健康人帶來(lái)不必要的精神負(fù)擔(dān),在中,會(huì)使患者失去進(jìn)一步檢查、治療的時(shí)機(jī),造成嚴(yán)重后果。顯然,第種錯(cuò)誤判決的風(fēng)險(xiǎn)大于第種。 判決風(fēng)險(xiǎn)也可以理解為判決損失,即使在正確判決的情況下,一般也會(huì)付出某種代價(jià),也會(huì)有損失。正是由于有判決風(fēng)險(xiǎn)的存在,最小錯(cuò)誤率判決就不夠了,必須引入最小風(fēng)險(xiǎn)判決規(guī)那么。假定有c類問(wèn)題,用表示類型,用表示可能作出的判決。實(shí)際應(yīng)用中,判決數(shù)a和類型數(shù)c可能相等,也可能不等,即允許除c類

11、的c個(gè)決策之外,可以采用其它決策,如“拒絕決策,此時(shí)。;對(duì)于給定的模式樣本x,令表示而判決為的風(fēng)險(xiǎn)。假設(shè)判決一定,對(duì)c個(gè)不同類型的,有c個(gè)不同的。2.3 最小風(fēng)險(xiǎn)判決規(guī)那么維風(fēng)險(xiǎn)矩陣。 的c個(gè)離散值隨類型的性質(zhì)變化,具有很大的隨機(jī)性,可看成是隨機(jī)變量。另外,由于判決數(shù)目有a個(gè),這樣對(duì)于不同的判決和不同類型就有一個(gè)一般風(fēng)險(xiǎn)矩陣2.3 最小風(fēng)險(xiǎn)判決規(guī)那么假定某樣本x的后驗(yàn)概率已經(jīng)確定,那么有:,且,對(duì)于每一種判決,可求出隨機(jī)變量 的條件平均風(fēng)險(xiǎn),也叫“條件平均損失:2.3-1最小風(fēng)險(xiǎn)判決規(guī)那么就是把樣本x歸屬于“條件平均風(fēng)險(xiǎn)最小的那一種判決。也就是:假設(shè),那么 (2.3-2)2.3 最小風(fēng)險(xiǎn)判決規(guī)

12、那么實(shí)施最小風(fēng)險(xiǎn)判決規(guī)那么的步驟如下:(1) 在給定樣本x條件下,計(jì)算各類后驗(yàn)概率,。(2) 按照(2.3-1)式求各種判決的條件平均風(fēng)險(xiǎn),為此,需要知道風(fēng)險(xiǎn)矩陣。按照(2.3-2式,比較各種判決的條件平均風(fēng)險(xiǎn),把樣本x歸屬于條件平均風(fēng)險(xiǎn)最小的那一種判決。2.3 最小風(fēng)險(xiǎn)判決規(guī)那么2.3 最小風(fēng)險(xiǎn)判決規(guī)那么和。解:從風(fēng)險(xiǎn)矩陣中得到: 將例1中計(jì)算出的后驗(yàn)概率: 代入2.3-1式: 根據(jù)最小風(fēng)險(xiǎn)判決規(guī)那么,即試驗(yàn)人屬于癌癥病人,與例1 的結(jié)論相反。例2:在例1的癌癥診斷問(wèn)題中,所有的化驗(yàn)結(jié)果可分為兩類。 w1正常,w2癌癥。 得到的判決也有兩種2.3 最小風(fēng)險(xiǎn)判決規(guī)那么注意:實(shí)際工作中,列出適宜

13、的風(fēng)險(xiǎn)矩陣很不容易,要根據(jù)研究的具問(wèn)題,分析錯(cuò)誤決策造成損失的嚴(yán)重程度,與有關(guān)專家共同商討決定。上面分析了兩種決策規(guī)那么,下面討論它們之間的關(guān)系:判決風(fēng)險(xiǎn)又叫判決損失,又叫損失函數(shù)?,F(xiàn)假設(shè)正確判決損失為0,錯(cuò)誤判決損失為1,且判決數(shù)目與類型數(shù)目相等。即有01損失函數(shù):=0 1 (2.3-3)2.3 最小風(fēng)險(xiǎn)判決規(guī)那么代入式(2.3-1),有:結(jié)果代入式(2.3-2)中,得到:假設(shè) ,那么這就是最小錯(cuò)誤率判決規(guī)那么。 結(jié)論:在01損失函數(shù)情況下,最小風(fēng)險(xiǎn)判決規(guī)那么退化為最小錯(cuò)誤率判決規(guī)那么。也就是說(shuō),最小錯(cuò)誤率判決規(guī)那么是最小風(fēng)險(xiǎn)判決規(guī)那么的一個(gè)特例。2.4 最大似然比判決規(guī)那么0 類概率密度又

14、稱為“似然函數(shù),兩個(gè)類概率密度之比稱為“似然比函數(shù)。 最大似然比判決規(guī)那么也是一種Bayes分類方法。描述:類型分別與其它類型的似然比均大于相應(yīng)的門(mén)限值,分別與的似然比均小于相應(yīng)的門(mén)限值,那么樣本。 而其它類型1由最小錯(cuò)誤率判決規(guī)那么引出最大似然比判決規(guī)那么2由最小風(fēng)險(xiǎn)判決規(guī)那么引出最大似然比判決規(guī)那么2.4 最大似然比判決規(guī)那么0 1由最小錯(cuò)誤率判決規(guī)那么引出最大似然比判決規(guī)那么假設(shè),最小錯(cuò)誤率判決規(guī)那么:兩邊同時(shí)除以有:定義類型與的似然比為:(2.4-1) 那么判決門(mén)限為: (2.4-2)一般先驗(yàn)概率,也就了。2.4 最大似然比判決規(guī)那么0 ,那么,那么(2.4-3),那么偶然決定或2由最

15、小風(fēng)險(xiǎn)判決規(guī)那么引出最大似然比判決規(guī)那么假設(shè),有代入,有:即:所以“最小錯(cuò)誤率判決規(guī)那么就變?yōu)椋杭僭O(shè):2.4 最大似然比判決規(guī)那么0 又由Bayes公式:代入上式:即:式中:(2.4-4)為判決門(mén)限??偨Y(jié):最小風(fēng)險(xiǎn)判決引出的最大似然比判決與最小錯(cuò)誤率判決引出的最大似然比判決的公式相同,只是判決門(mén)限 的計(jì)算公式不同。2.4 最大似然比判決規(guī)那么0 同樣:在(2.4-4)中取01損失函數(shù),即:那么(2.4-4)退化為(2.4-2)。在01損失函數(shù)情況下,最小風(fēng)險(xiǎn)判決退化為最小錯(cuò)誤率判決。將上述討論進(jìn)一步推廣,假定有c個(gè)類型,分別用表示,定義:,且(2.4-5)由最小錯(cuò)誤率判決規(guī)那么導(dǎo)出:0 假設(shè),

16、那么其中,(2.4-7)2.4-62.4 最大似然比判決規(guī)那么由最小風(fēng)險(xiǎn)判決規(guī)那么導(dǎo)出,對(duì)于2.4-6式,定義為:同樣在01損失函數(shù)的情況下,(2.4-8)退化為(2.4-7)。(2.4-8)似然函數(shù)的性質(zhì):,因此,在c類問(wèn)題中,假設(shè)有一個(gè)那么不可能再有另外的類型例3:對(duì)于前面的例1、2可以用上述方法求出。滿足式(2.4-6)式。滿足(2.4-6)式,2.5 Neyman-Pearsen判決規(guī)那么0 在兩類別決策問(wèn)題中,有犯兩種錯(cuò)誤分類的可能性,一種是在采取決策時(shí) ,其實(shí)際自然狀態(tài)為 ;另一種是在采取決策時(shí) ,其實(shí)際自然狀態(tài)為 。, 在實(shí)際應(yīng)用中,有時(shí)不知道先驗(yàn)概率,僅知道類概率密度,應(yīng)如何確

17、定判決門(mén)限呢?假定在處理過(guò)程中,先驗(yàn)概率保證不變,這時(shí)可以使用聶曼皮爾遜(NeymanPearson)判決規(guī)那么。兩種錯(cuò)誤的概率分別為: 和 ,最小錯(cuò)誤率Bayes決策是使這兩種錯(cuò)誤之和 最小。2.5 Neyman-Pearsen判決規(guī)那么0 在兩類問(wèn)題中,兩類的類概率密度曲線如以下圖所示,假定判決門(mén)限選為t,可能發(fā)生的兩類分類錯(cuò)誤與陰影區(qū)面積 和 成正比。 聶曼皮爾遜判決規(guī)那么的根本思想是:在一種錯(cuò)誤率不變的條件下,使另一種錯(cuò)誤率最小。2.5 Neyman-Pearsen判決規(guī)那么0 這是具有實(shí)際意義的,例如,在細(xì)胞的化驗(yàn)中,由于把異常細(xì)胞錯(cuò)判為正常細(xì)胞的風(fēng)險(xiǎn)較大,可以要求這種錯(cuò)判的錯(cuò)誤率不

18、大于某個(gè)指定的常數(shù)作為前提條件,使正常細(xì)胞錯(cuò)判為異常細(xì)胞的錯(cuò)誤率盡可能小,以此為原那么來(lái)選擇判決門(mén)限t,這就是聶曼皮爾遜判決規(guī)那么的根本思想。從上圖可以看出:(2.5-1)(2.5-2)假定 不變,為某個(gè)給定的正數(shù),令:2.5-32.5 Neyman-Pearsen判決規(guī)那么0 為了使 最小化,就要通過(guò)適當(dāng)?shù)剡x擇某個(gè)正數(shù) 使 最小。把2.5-4式和2.5-2式代入2.5-3式,得到:2.5-42.5-5 2.5-6把2.5-5式和2.5-1式代入2.5-3式,得到: 2.5-70 若,則 (2.5-8),則若 為了使 最小化,上兩式中的被積函數(shù)最好為負(fù)數(shù),從而得到聶曼皮爾遜判決規(guī)那么為:2.5 Neyman-

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論