模式識別學(xué)習心得_第1頁
模式識別學(xué)習心得_第2頁
模式識別學(xué)習心得_第3頁
模式識別學(xué)習心得_第4頁
模式識別學(xué)習心得_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

模式識別學(xué)習心得模式識別學(xué)習心得什么是模式呢?廣義地說,存在于時刻和空間中可觀察的事物,若是咱們能夠區(qū)別它們是不是相同或是不是相似,都能夠稱之為模式。模式識別就是按照觀察到的事物的模式對事物進行分類的進程。在圖像識別技術(shù)中,模式識別占有核心的地位。所以的圖像處置技術(shù)都是為了更好地進行模式識別做預(yù)備。模式識別是圖像識別的實質(zhì)性階段。2。有兩種大體的模式識別方式,即統(tǒng)計模式識別方式和結(jié)構(gòu)(句法)模式識別方式,與此相應(yīng)的模式識別系統(tǒng)都由兩個進程所組成,即設(shè)計和實現(xiàn)。設(shè)計是指用必然數(shù)量的樣本(叫做訓(xùn)練集或?qū)W習集)進行分類器的設(shè)計。實現(xiàn)是指用所設(shè)計的分類器對待識別的樣本進行分類決策。模式識別系統(tǒng)(如圖6-2)中,信息獲取和預(yù)處置部份大致能夠與圖像的獲取與處置對應(yīng)。一般情形下,模式識別技術(shù)主要包括"特征提取和選擇"和"分類器的設(shè)計"。近幾十年來,模式識別技術(shù)進展專門快。但是,進展較成熟、應(yīng)用較普遍的主如果統(tǒng)計模式識別技術(shù)。統(tǒng)計模式識別從一個廣義的角度看,模式識別能夠看成是一種機械學(xué)習的進程。依照機械學(xué)習進程的性質(zhì),能夠?qū)⒛J阶R別方式分成有監(jiān)督的模式識別方式和非監(jiān)督的模式識別方式,后者又稱為聚類分析方式。這兩種方式在圖像識別中都有普遍的應(yīng)用。(1)有監(jiān)督的模式識別方式從識別技術(shù)的大體思路和方式看,有監(jiān)督的模式識別能夠分成兩類:基于模型的方式和直接分類的方式基于模型的方式的基礎(chǔ)是貝葉斯(Bayes)決策理論方式,它對模式分析和分類器的設(shè)計有實在際的指導(dǎo)意義,是統(tǒng)計模式識別中的一個大體方式,用那個方式進行分類時要求:各類別整體的概率散布(即所謂的先驗概率和類條件概率)是已知的;要決策分類的類別數(shù)是必然的。假設(shè)要研究的分類問題有c個類別,各類別狀態(tài)用曲來表示,i=1,2,…,c;對應(yīng)于各個類別曲出現(xiàn)的先驗概率P@i)和類條件概率密度函數(shù)p(x|3i)是已知的。若是在特征空間已觀察到某一貫量x,那么應(yīng)該把x分到那一類中去才最合理呢?最大體的想法是按照觀察到的信息,選擇適當?shù)姆诸惒呗裕狗诸惪赡艹霈F(xiàn)的錯誤最少,即:若是對于任意jHi,都有P@i|x)P(3j|x),則將x歸入類曲這就是"最小錯誤率的貝葉斯決策"。一個例子是國際體育聯(lián)合會對運動員興奮劑檢查的策略。由于對服用興奮劑的運動員發(fā)生漏檢,最多只是喪失某一次比賽的結(jié)果的公平;而錯怪沒有服用興奮劑的運動員有可能毀掉那個運動員的整個運動生涯。所以,當出現(xiàn)疑問時,國際體育聯(lián)合會的原則是:寧可使一千人漏網(wǎng),也不能錯怪一個好人。類似的思想體此刻模式識別中,即是"基于最小風險的貝葉斯決策"。設(shè)X(ai|wj)是將wj類中的樣本歸入ai類所帶來的損失,則當觀察到x時,將x歸入ai類的風險能夠概念為:。最小風險的貝葉斯決策就是把x歸入使最小的類中,即:若是對于任意jHi,都有R(ai|x)R(aj|x),則將x歸入類wi基于模型的識別技術(shù)中,關(guān)鍵就是要估量概率密度函數(shù)。其方式可分為參數(shù)估量和非參數(shù)估量兩類在許多實際問題中,由于樣本特征空間的類條件概率密度的形式常常很難肯定,利用Parzen窗等非參數(shù)方式估量散布又往往需要大量樣本,而且隨著特征空間維數(shù)的增加所需樣本數(shù)急劇增加。由此,在實際問題中,咱們往往不去恢復(fù)類條件概率密度,而是利用樣本集直接設(shè)計分類器。具體說就是第一給定某個判別函數(shù)類,然后利用樣本集肯定出判別函數(shù)中的未知參數(shù)。這種方式就是有監(jiān)督的模式識別方式中的另一類重要的方式:直接分類方式。這種方式有3個要素:分類函數(shù)的類型(線性仍是非線性)、分類目標函數(shù)、優(yōu)化算法。下面別離介紹線性判別函數(shù)法和非線性判別函數(shù)法。線性判別函數(shù)法利用一類較為簡單的判別函數(shù)。它第一假定判別函數(shù)g(x)是x的線性函數(shù),即g(x)二wTx十wO,對于c類問題,能夠概念c個判別函數(shù)。這里關(guān)鍵的問題是如何利用樣本集求得w和wO。不同的實際情形,往往提出不同的設(shè)計要求。這些設(shè)計要求,在數(shù)學(xué)上一般表現(xiàn)為特定的函數(shù)形式,咱們稱之為準則函數(shù)。"盡可能好"的結(jié)果相應(yīng)于準則函數(shù)取最優(yōu)值。這實際上是將分類器設(shè)計問題轉(zhuǎn)化為求準則函數(shù)極值的問題了,如此就可以夠利用最優(yōu)化技術(shù)解決模式識別問題。線性判別函數(shù)法的代表有:Fisher線性判別法、感知準則函數(shù)法。Fisher線性判別法應(yīng)用統(tǒng)計方式解決模式識別問題時,一再碰著的問題之一是維數(shù)問題。在低維空間里解析上或計算上行得通的方式,在高維空間里往往行不通。因此,降低維數(shù)有時就成為處置實際問題的關(guān)鍵。Fisher準則函數(shù)的大體思想是,構(gòu)造評價函數(shù),使適當評價函數(shù)最優(yōu)時被分類的類別之間的距離盡可能大,同時各類內(nèi)部樣本間距離盡可能小。下式就是Fisher準則函數(shù):式中分子代表類間距離;分子代表類內(nèi)離散度。分類器的設(shè)計進程就是通過已知樣本求得w和w0使JF(w)取得最大值感知準則函數(shù)法設(shè)有一組樣本y1,y2,???,yn,其中yn是規(guī)范化增廣樣本向量,咱們的目的是找一個解向量a*,使得顯然,對于線性可分情形,問題才有解:為此這里第一考慮處置線性可分問題的算法。此刻先構(gòu)造如此一個準則函數(shù)式中求和是對所有被權(quán)向量a錯分的樣本進行的。當y被錯分時就有-aTy>0,因此,上式中的,JP(a)老是大于等于0。當且僅當錯分集為空集時.JP(a)=minJP(a)=0,這時將不存在錯分樣本,"就是咱們要尋覓的解向量"。這一準則函數(shù)是20世紀50年代由Rosenblatt提出來,試圖用于腦模型感知器上的,故一般稱為感知準則函數(shù)。近鄰法最初的近鄰法是由Cover和Hart于1968年提出的。由于對該方式在理論上進行了深切分析,直至此刻仍是模式識別非參數(shù)法中最重要的方式之一。最簡單的近鄰決策規(guī)則是最近鄰決策規(guī)則。所謂最近鄰決策,是尋覓與待分類樣本最近的已知樣本,以為待分類樣本與后者同屬一類。最近鄰法的一個顯然的推行是k近鄰法。從字義上看,那個方式就是取未知樣本x的k個近鄰,看這k個近鄰中多數(shù)屬于哪一類,就把x歸為哪一類。近鄰法的一個缺點是計算量大。解決的途徑之一是采用快速算法,稱之為快速搜索近鄰法。其大體考慮是將樣本分級分成一些不相交的子集,并在子集的基礎(chǔ)上進行搜索。該算法對最近鄰法和近鄰法都適用。(2)非監(jiān)督的模式識別方式在很多實際應(yīng)用中由于缺少形成模式類進程的知識.或由于實際工作中的困難(例如衛(wèi)星遙感照片上各像元的分類問題),咱們往往只能用沒有類別標簽的樣本集進行工作。這就是通常所說的非監(jiān)督學(xué)習方式。一般來講非監(jiān)督學(xué)習方式能夠分成兩大類,即基于概率密度函數(shù)估量的直接方式和基于樣本間相似性氣宇的間接聚類方式。不論是哪一種方式,在把樣本集劃分為若干個子集(類別)后,咱們或直接用它解決分類問題.或把它作為訓(xùn)練樣本集進行分類器設(shè)計。單峰子集(類)的分離方式:在沒有任何類條件概率散布的先驗知識情形下,咱們只能把特征空間劃分為若干個區(qū)域Si,i=l,2,…,c,在每一個區(qū)域中的混合密度應(yīng)該是單峰的,如圖6-3所示。咱們把這些區(qū)域叫作單峰區(qū)域。假定每一個單峰區(qū)域Si和一個類別曲相對應(yīng)。有各類算法來實現(xiàn)這些單峰區(qū)域的劃分。在應(yīng)用中,單峰子集(類)的分離方式,需要估量概率密度函數(shù)。為了避免估量概率密度函數(shù)的困難,咱們能夠在必然條件下,依照樣本間的相似性把集合劃分成若干個子集,劃分的結(jié)果應(yīng)使某種表示聚類質(zhì)量的準則函數(shù)為最大。當用距離來表示兩個樣本間的相似度時,如此做的結(jié)果就把特征空間劃分成若干個區(qū)域,每一個區(qū)域相當于一個類別。一些常常利用的距離氣宇都能夠作為這種相似件氣宇,在工程中,之所以常常常利用距離來表示樣本間的相似度,是因為從經(jīng)驗上看,凡是同一類的樣本,其特征向量應(yīng)該是彼此靠近的,而不同類的樣本其特征向量之間的距離要大得多。這種方式雖然看起來似乎和上述的基于混合概率密度函數(shù)估量的聚類分離方式?jīng)]有聯(lián)系,可是由于概率密度的估量也是在樣本間距離的基礎(chǔ)上進行的,距離很近的兩個特征向量常常是屬于同一單峰子集。所以兩種方式在概念上仍然是彼此關(guān)聯(lián)的。常常利用的對數(shù)據(jù)集進行聚類的方式有兩種,迭代的動態(tài)聚類算法和非迭代的分級聚類算法。動態(tài)聚類方式是一種普遍采用的方式,它具有以下3個要點:選定某種距離氣宇作為樣本間的相似性氣宇;肯定某個評價聚類結(jié)果質(zhì)量的準則函數(shù);約定某個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論