




已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
模式識(shí)別(Pattern Recognition):確定一個(gè)樣本的類別屬性(模式類)的過程,即把某一樣本歸屬于多個(gè)類型中的某個(gè)類型。樣本(Sample):一個(gè)具體的研究(客觀)對(duì)象。如患者,某人寫的一個(gè)漢字,一幅圖片等。模式(Pattern):對(duì)客體(研究對(duì)象)特征的描述(定量的或結(jié)構(gòu)的描述),是取自客觀世界的某一樣本的測量值的集合(或綜合)。特征(Features):能描述模式特性的量(某一模式的測量值集合中的同一量)。在統(tǒng)計(jì)模式識(shí)別方法中,通常用一個(gè)矢量表示,稱之為特征矢量,記為。(一個(gè)特征矢量描述一種模式)模式類(Class):具有某些共同特性的模式的集合。模式識(shí)別的三大任務(wù)模式采集:從客觀世界(對(duì)象空間)到模式空間的過程稱為模式采集。特征提取和特征選擇:由模式空間到特征空間的變換和選擇。類型判別:特征空間到類型空間所作的操作。模式識(shí)別系統(tǒng)的主要環(huán)節(jié)特征提?。悍?hào)表示,如長度、波形、。特征選擇:選擇有代表性的特征,能夠正確分類學(xué)習(xí)和訓(xùn)練:利用已知樣本建立分類和識(shí)別規(guī)則分類識(shí)別:對(duì)所獲得樣本按建立的分類規(guī)則進(jìn)行分類識(shí)別一、 統(tǒng)計(jì)模式識(shí)別模式描述方法: 特征向量 模式判定:模式類用條件概率分布P(X/wi)表示,m類就有m個(gè)分布,然后判定未知模式屬于哪一個(gè)分布。主要方法:線性、非線性分類、Bayes決策、聚類分析主要優(yōu)點(diǎn): 1)比較成熟 2)能考慮干擾噪聲等影響 3)識(shí)別模式基元能力強(qiáng)主要缺點(diǎn): 1)對(duì)結(jié)構(gòu)復(fù)雜的模式抽取特征困難2)不能反映模式的結(jié)構(gòu)特征,難以描述模式的性質(zhì)3)難以從整體角度考慮識(shí)別問題二、句法模式識(shí)別模式描述方法:符號(hào)串,樹,圖模式判定:是一種語言,用一個(gè)文法表示一個(gè)類,m類就有m個(gè)文法,然后判定未知模式遵循哪一個(gè)文法。主要方法:自動(dòng)機(jī)技術(shù)、CYK剖析算法、Early算法、轉(zhuǎn)移圖法主要優(yōu)點(diǎn):1)識(shí)別方便,可以從簡單的基元開始,由簡至繁。2)能反映模式的結(jié)構(gòu)特征,能描述模式的性質(zhì)。3)對(duì)圖象畸變的抗干擾能力較強(qiáng)。主要缺點(diǎn):當(dāng)存在干擾及噪聲時(shí),抽取特征基元困難,且易失誤三、模糊模式識(shí)別模式描述方法: 模糊集合 A=(ua,a), (ub,b),. (un,n)模式判定: 是一種集合運(yùn)算。用隸屬度將模糊集合劃分為若干子集, m類就有m個(gè)子集,然后根據(jù)擇近原則分類。主要方法:模糊統(tǒng)計(jì)法、二元對(duì)比排序法、推理法、模糊集運(yùn)算規(guī)則、模糊矩陣主要優(yōu)點(diǎn):由于隸屬度函數(shù)作為樣本與模板間相似程度的度量,故往往能反映整體的與主體的特征,從而允許樣本有相當(dāng)程度的干擾與畸變。主要缺點(diǎn):準(zhǔn)確合理的隸屬度函數(shù)往往難以建立,故限制了它的應(yīng)用。四、人工神經(jīng)網(wǎng)絡(luò)法模式描述方法: 以不同活躍度表示的輸入節(jié)點(diǎn)集(神經(jīng)元)模式判定: 是一個(gè)非線性動(dòng)態(tài)系統(tǒng)。通過對(duì)樣本的學(xué)習(xí)建立起記憶,然后將未知模式判決為其最接近的記憶。主要方法:BP模型、HOP模型、高階網(wǎng)主要優(yōu)點(diǎn):可處理一些環(huán)境信息十分復(fù)雜,背景知識(shí)不清楚,推理規(guī)則不明確的問題。允許樣本有較大的缺損、畸變。主要缺點(diǎn):模型在不斷豐富與完善中,目前能識(shí)別的模式類還不夠多。五、邏輯推理法(人工智能法)模式描述方法: 字符串表示的事實(shí)模式判定: 是一種布爾運(yùn)算。從事實(shí)出發(fā)運(yùn)用一系列規(guī)則,推理得到不同結(jié)果,m個(gè)類就有m個(gè)結(jié)果。主要方法:產(chǎn)生式推理、語義網(wǎng)推理、框架推理主要優(yōu)點(diǎn):已建立了關(guān)于知識(shí)表示及組織,目標(biāo)搜索及匹配的完整體系。對(duì)需要眾多規(guī)則的推理達(dá)到識(shí)別目標(biāo)確認(rèn)的問題,有很好的效果。主要缺點(diǎn):當(dāng)樣本有缺損,背景不清晰,規(guī)則不明確甚至有歧義時(shí),效果不好。特征矢量:設(shè)一個(gè)研究對(duì)象的N個(gè)特征量測量值分別為,將它們作為一個(gè)整體來考慮,讓他們構(gòu)成一個(gè)N維特征向量特征空間:各種不同的特征矢量構(gòu)成了N維特征空間。特征矢量是特征空間中的一點(diǎn),隨機(jī)矢量:對(duì)許多對(duì)象而言,各個(gè)特征分量都是隨機(jī)變量,即許多對(duì)象的特征向量在n維空間中呈隨機(jī)性分布,稱為隨機(jī)矢量。設(shè)為隨機(jī)矢量,為確定性矢量。隨機(jī)矢量的聯(lián)合概率分布函數(shù)定義為:隨機(jī)矢量的聯(lián)合概率密度函數(shù)定義為:當(dāng)?shù)趇類為類的情況下,則他的概率分布和概率密度函數(shù)如下在模式識(shí)別中,經(jīng)常以類別作為條件,在這種情況下隨機(jī)矢量的條件期望矢量定義為隨機(jī)矢量的自協(xié)方差矩陣表征各分量圍繞其均值的散布情況及各分量間的相關(guān)關(guān)系,其定義為:式中是第i個(gè)分量與第j個(gè)分量的協(xié)方差 正態(tài)分布隨機(jī)矢量的概率密度函數(shù)定義為:正態(tài)分布隨機(jī)矢量性質(zhì):分布函數(shù)完全由和確定等概率密度點(diǎn)的軌跡為一超球面對(duì)正態(tài)分布,不相關(guān)等價(jià)于獨(dú)立其邊緣密度和條件密度仍然是正態(tài)分布正態(tài)分布隨機(jī)矢量的線性變化仍然是正態(tài)分布隨機(jī)矢量聚類分析的基本思想 相似的歸為一類。 模式相似性的度量和聚類算法。無監(jiān)督分類(Unsupervised)。特征量的類型 物理量-(重量、長度、速度) 次序量-(等級(jí)、技能、學(xué)識(shí))名義量-(性別、狀態(tài)、種類)分類無效時(shí)的情況1. 特征選取不當(dāng)使分類無效2. 特征選取不足可能使不同類別的模式判為一類3. 特征選取過多可能無益反而有害,增加分析負(fù)擔(dān)并使分析效果變差4. 量綱選取不當(dāng)對(duì)分類結(jié)果會(huì)產(chǎn)生極大影響的問題選擇什么特征?選擇多少個(gè)特征?選擇什么樣的量綱?選擇什么樣的距離測度?聚類過程的基本步驟一、特征選擇(feature selection)盡可能多地包含任務(wù)關(guān)心的信息二、近鄰測度(proximity measure) 定量測定兩特征如何“相似”或“不相似”三、聚類準(zhǔn)則(clustering criterion) 以蘊(yùn)涵在數(shù)據(jù)集中類的類型為基礎(chǔ)四、聚類算法(clustering algorithm) 按近鄰測度和聚類準(zhǔn)則揭示數(shù)據(jù)集的聚類結(jié)構(gòu)五、結(jié)果驗(yàn)證(validation of the results) 常用逼近檢驗(yàn)驗(yàn)證聚類結(jié)果的正確性六、結(jié)果判定(interpretation of the results) 由專家用其他方法判定結(jié)果的正確性聚類的應(yīng)用(四個(gè)基本方向)一、 減少數(shù)據(jù)二、假說生成三、假說檢驗(yàn)四、基于分組的預(yù)測模式相似性測度用于描述各模式之間特征的相似程度一、 距 離 測 度(差值測度)測度基礎(chǔ):兩個(gè)矢量矢端的距離測度數(shù)值:兩矢量各相應(yīng)分量之差的函數(shù)。常用的距離測度有:1. 歐氏(Euclidean)距離2. 絕對(duì)值距離(街坊距離或Manhattan距離)3. 切氏(Chebyshev)距離4. 明氏(Minkowski)距離5. 馬氏距離馬氏距離對(duì)一切非奇異線性變換都是不變的,這說明它不受特征量綱選擇的影響,并且是平移不變的。V的含義是這個(gè)矢量集的協(xié)方差陣的統(tǒng)計(jì)量,故馬氏距離加入了對(duì)特征的相關(guān)性的考慮。二、相 似 測 度測度基礎(chǔ):以兩矢量的方向是否相近作為考慮的基礎(chǔ),矢量長度并不不重要。1. 角度相似系數(shù)(夾角余弦) 2. 相關(guān)系數(shù) 3. 指數(shù)相似系數(shù)三、匹 配 測 度當(dāng)特征只有兩個(gè)狀態(tài)(0,1)時(shí),常用匹配測度。0表示無此特征 1表示有此特征。故稱之為二值特征。 對(duì)于給定的x和y中的某兩個(gè)相應(yīng)分量xi與yj若xi=1,yj=1 ,則稱 xi與yj是 (1-1)匹配;a代表1-1匹配特征數(shù)目若xi=0,yj=1 ,則稱 xi與yj是 (0-1)匹配;b代表0-1匹配特征數(shù)目若xi=1,yj=0 ,則稱 xi與yj是 (1-0)匹配;c代表1-0匹配特征數(shù)目若xi=0,yj=0 ,則稱 xi與yj是 (0-0)匹配。;e代表0-0匹配特征數(shù)目1. Tanimoto測度等于共同具有的特征數(shù)目與分別具有的特征種類總數(shù)之比。這里只考慮(1-1)匹配而不考慮(0-0)匹配。2. Rao測度(1-1)匹配特征數(shù)目和所選用的特征數(shù)目之比。3. 簡單匹配系數(shù)(1-1)匹配特征數(shù)目與(0-0)匹配特征數(shù)目之和與特征總數(shù)目之比。4. Dice系數(shù)(1-1)匹配總個(gè)數(shù)與x,y矢量中1的總個(gè)數(shù)之比。5. Kulzinsky系數(shù)(1-1)匹配總個(gè)數(shù)與(1-0)匹配和(0-1)匹配總個(gè)數(shù)之比。模式類定義之1 設(shè)特征矢量集合S中任意元素與間的距離(距離測度)有其中h為給定的閥值,稱集合S對(duì)于閥值h組成一模式類。類間距離測度方法兩個(gè)模式類的類間距離。1 最近距離法表示與之間的距離。表示兩模式類中模式距離測度的最小值。2 最遠(yuǎn)距離法表示與之間的距離。表示兩模式類中模式距離測度的最大值。3 中間距離法其中(模式類L中的特征矢量是模式類p和模式類q中特征矢量的集合)。4 重心距離法其中(模式類L中的特征矢量是模式類p和模式類q中特征矢量的集合)。分別為模式類中特征矢量的個(gè)數(shù)。5 平均距離法表示與之間的距離。6 離差平方和法類內(nèi)離差平方和法其中是模式類的重心。其中。則其中分別為模式類的重心。聚類的準(zhǔn)則函數(shù)判別分類結(jié)果好壞的一般標(biāo)準(zhǔn):類內(nèi)距離小,類間距離大。如果聚類準(zhǔn)則函數(shù)選擇得好,聚類質(zhì)量就會(huì)高。聚類準(zhǔn)則往往是和類的定義有關(guān)的,是類的定義的某種體現(xiàn)。一、 類內(nèi)距離準(zhǔn)則類內(nèi)距離準(zhǔn)則函數(shù)定義為:其中為待分類的模式集合,表示將該模式劃分在類中。是分入模式類的均值矢量。分類的目標(biāo)是使得 最小,這種方法也稱作誤差平方和準(zhǔn)則。加權(quán)類內(nèi)距離準(zhǔn)則:其中N為待分類模式的總數(shù)。為分入模式類的模式的個(gè)數(shù)。表示類內(nèi)兩模式間的均方距離。二、類間距離準(zhǔn)則其中為分入模式類的模式的均值。是待分模式的均值。加權(quán)類間距離準(zhǔn)則:三、基于類內(nèi)距離類間距離的準(zhǔn)則函數(shù)分入類的類內(nèi)離差陣定義為總的類內(nèi)離差陣定義為類間離差陣定義為類內(nèi)類間離差陣則為可以證明四個(gè)聚類準(zhǔn)則,為了得到更好的聚類效果,應(yīng)該使他們的值足夠大。聚類分析的算法歸納起來就是三大類:1、 按最小距離原則簡單聚類方法針對(duì)具體問題確定相似性閾值,將模式到各聚類中心間的距離與閾值比較,當(dāng)大于閾值時(shí)該模式就作為另一類的類心,小于閾值時(shí)按最小距離原則將其分劃到某一類中。這類算法運(yùn)行中模式的類別及類的中心一旦確定將不會(huì)改變。2、 按最小距離原則進(jìn)行兩類合并的方法首先視各模式自成一類,然后將距離最小的兩類合并成一類,不斷地重復(fù)這個(gè)過程,直到成為兩類為止。這類算法運(yùn)行中,類心不斷地修正,但模式類別一旦指定后就不再改變,就是模式一旦劃為一類后就不再被分劃開,這類算法也稱為譜系聚類法。3、依據(jù)準(zhǔn)則函數(shù)動(dòng)態(tài)聚類方法設(shè)定一些分類的控制參數(shù),定義一個(gè)能表征聚類結(jié)果優(yōu)劣的準(zhǔn)則函數(shù),聚類過程就是使準(zhǔn)則函數(shù)取極值的優(yōu)化過程。算法運(yùn)行中,類心不斷地修正,各模式的類別的指定也不斷地更改。這類方法有C均值法、ISODATA法等。聚類的算法一 簡單聚類算法(1) 取任意一個(gè)模式特征矢量作為第一個(gè)聚類中心。例如令類的中心 (2) 計(jì)算下一個(gè)模式特征矢量到的距離,若則建立新類,類的中心;否則,將歸入類(3) 假設(shè)已有類,其中心分別為,計(jì)算尚未確定模式到各類中心的距離,如果有則建立新類,類的中心;否則如果,則模式歸入類中。檢查所有模式是否劃分結(jié)束,如果沒有結(jié)束,重復(fù)步驟3。算法特點(diǎn):這類算法的突出優(yōu)點(diǎn)是算法簡單。但聚類過程中,類的中心一旦確定將不會(huì)改變,模式一旦指定類后也不再改變。二、 最大最小距離法(1) 取任意一個(gè)模式特征矢量作為第一個(gè)聚類中心。例如令類的中心 (2) 從待分類模式特征矢量集中選距離最遠(yuǎn)的特征矢量作為第二個(gè)類的中心 (3) 計(jì)算未被作為聚類中心的各模式特征矢量與的距離(4) 若,則模式特征矢量作為第三個(gè)聚類中心;否則,轉(zhuǎn)至最后一步(6)(5) 假設(shè)已有類,其中心分別為,計(jì)算尚未確定模式到各類中心的距離,并計(jì)算出,若,則模式特征矢量作為第 個(gè)聚類中心,然后轉(zhuǎn)至步驟(5);否則轉(zhuǎn)至步驟(6)(6) 當(dāng)判斷出不再有新的聚類中心產(chǎn)生之后,將未分類的模式特征矢量按照最小距離原則分到各類中去。計(jì)算,當(dāng)則把特征矢量描述的模式劃分到類中。這種算法的聚類結(jié)果與參數(shù)以及第一個(gè)聚類心的選取有關(guān)。三、 譜系聚類法(1) 初始分類。摸個(gè)模式自成一類,其中表示第K次合并時(shí)的第i類。(2) 計(jì)算各類間的距離,生成一個(gè)對(duì)稱的距離矩陣,m為類的個(gè)數(shù)(初始m=N)。(3) 找出矩陣中的最小元素,假設(shè)是與間的距離,將與合并成一類,令(4) 檢查類的個(gè)數(shù),如果個(gè)數(shù)大于2,則轉(zhuǎn)至步驟(2);否則停止。四、 動(dòng)態(tài)聚類算法動(dòng)態(tài)聚類算法要點(diǎn)1、 確定模式和聚類的距離測度。當(dāng)采用歐氏距離時(shí),是計(jì)算此模式和該類中心的歐氏距離;為能反映出類的模式分布結(jié)構(gòu),應(yīng)采用馬氏距離2、 確定評(píng)估聚類質(zhì)量的準(zhǔn)則函數(shù)。3、 確定模式分劃及聚類合并或分裂的規(guī)則。動(dòng)態(tài)聚類算法基本步驟1、 建立初始聚類中心,進(jìn)行初始聚類;2、 計(jì)算模式和類的距離,調(diào)整模式的類別;3、 計(jì)算各聚類的參數(shù),刪除、合并或分裂一些聚類;4、 從初始聚類開始,運(yùn)用迭代算法動(dòng)態(tài)地改變模式的類別和聚類的中心使準(zhǔn)則函數(shù)取得極值或設(shè)定的參數(shù)達(dá)到設(shè)計(jì)要求時(shí)停止。(1) C-均值法第一步:選取C個(gè)初始聚類中心第二步:計(jì)算各個(gè)模式到各個(gè)類的中心的距離測度,選取將模式歸入類中。第三步:根據(jù)新建的類更新聚類中心。,若存在,則重復(fù)第二步;否則結(jié)束。當(dāng)模式分布呈現(xiàn)類內(nèi)團(tuán)聚狀,C-均值算法是能達(dá)到很好的聚類結(jié)果,故應(yīng)用較多。C-均值算法是能使各模式到其所判屬的類別中心距離(平方)之和為最小的最佳聚類。 C的調(diào)整:作一條C一J曲線,其曲率變化的最大點(diǎn)對(duì)應(yīng)的類數(shù)是比較接近最優(yōu)的類數(shù)。在類別數(shù)未知的情況下,可使類數(shù)C由較小值逐步增加,對(duì)于每個(gè)選定的C分別使用該算法。初始聚類中心的選取: 憑經(jīng)驗(yàn)選擇初始類心。 將模式隨機(jī)地分成C類,計(jì)算每類中心,以其作為初始類心。 (最大密度),求以每個(gè)特征點(diǎn)為球心、某一正數(shù)d0為半徑的球形域中特征點(diǎn)個(gè)數(shù),這個(gè)數(shù)稱為該點(diǎn)的密度。選取密度最大的特征點(diǎn)作為第一個(gè)初始類心Z1,然后在與Z1大于某個(gè)距離d的那些特征點(diǎn)中選取具有“最大”密度的特征點(diǎn)作為第二個(gè)初始類心Z2 ,如此進(jìn)行,選取C個(gè)初始聚類中心。 用相距最遠(yuǎn)的C個(gè)特征點(diǎn)作為初始類心。具體地講,是按前述的最大最小距離算法求取C個(gè)初始聚類中心。 當(dāng)N較大時(shí),先隨機(jī)地從N個(gè)模式中取出一部分模式用譜系聚類法聚成C類,以每類的重心作為初始類心。 設(shè)已標(biāo)準(zhǔn)化的待分類模式集為希望將它們分為C類。,若最接近整數(shù),則把分劃至類中,通過初始劃分的類計(jì)算類中心。用類核代替類中心:當(dāng)類的分布不是球狀或近似球狀時(shí),這種算法很難有較好的效果。類核可以是一個(gè)函數(shù)、一個(gè)點(diǎn)集或其他適當(dāng)?shù)哪P?。比如馬式距離。(2) IOSDATA法第一步:設(shè)定聚類分析控制參數(shù):-預(yù)期的類數(shù),-初始聚類中心個(gè)數(shù)(可以不等于),-每一類中允許的最少模式數(shù)目和分裂時(shí)判定,-類內(nèi)各分量分布的距離標(biāo)準(zhǔn)差上界(分裂用),-兩類中心間的最小距離下界(合并用),-在每次迭代中可以合并的類的最多對(duì)數(shù),-允許的最多迭代次數(shù)。選定初始聚類中心 :可隨機(jī)選擇待分類模式集合中的個(gè)模式為類中心。第二步:按照最小距離原則將模式集中的每一個(gè)模式分到某一個(gè)類中。,模式分入類中。第三步:依據(jù)判斷合并。如果類中的模式個(gè)數(shù),則取消該類,取消類中心,轉(zhuǎn)至第二步第四步:計(jì)算分類后的參數(shù):各類中心、類內(nèi)平均距離及總體平均距離。 計(jì)算各類的中心: 計(jì)算各類中模式到類心的平均距離 計(jì)算各個(gè)模式到其類內(nèi)中心的總體平均距離第五步:依據(jù)判斷停止、分裂或合并。 若迭代次數(shù)達(dá)到 ,則轉(zhuǎn)第十一步(準(zhǔn)備停止) 若,則轉(zhuǎn)到第六步(進(jìn)行分裂) 若,則轉(zhuǎn)到第九步(進(jìn)行合并) 若,當(dāng)為奇數(shù)時(shí)轉(zhuǎn)至第六步(進(jìn)行分裂),當(dāng)為偶數(shù)時(shí)轉(zhuǎn)至第九步(進(jìn)行合并)第六步:計(jì)算各類類內(nèi)距離的標(biāo)準(zhǔn)差矢量。代表類的類內(nèi)距離標(biāo)準(zhǔn)差的第分量。第七步:對(duì)每一聚類求出類內(nèi)距離標(biāo)準(zhǔn)差矢量的最大分量第八步:在中,對(duì)每一個(gè),同時(shí)又滿足下列條件之一:1)(類中模式到類心的平均距離大于所有類的模式到類心的總體平均距離)并且(類中模式超過閾值)2)。則將該類分裂為兩類, ,新類的中心 計(jì)算規(guī)則:在原來的類中心的分量上對(duì)應(yīng)加減,并且使得新的類中心仍然在老的類域空間且,新的類中心與類域模式近,與其他類域模式較遠(yuǎn)。當(dāng)所有進(jìn)行判斷過,并且進(jìn)行過類分裂,則,然后轉(zhuǎn)至第二步;否則轉(zhuǎn)至第九步。第九步:計(jì)算各類間距離第十步:依據(jù)進(jìn)行合并判斷。取出中小于的值,進(jìn)行遞增排序,若個(gè)數(shù)超過則取前個(gè)值。對(duì)每個(gè)值,從最小的開始合并,若沒有進(jìn)行過合并,則將相應(yīng)的兩類合并(注意一個(gè)類只能被合并一次,假如存在,則不能與合并),合并后,新的類中心,。第十一步:迭代次數(shù),則停止計(jì)算。否則,若需要調(diào)整參數(shù),轉(zhuǎn)至第一步;不需要調(diào)整參數(shù),轉(zhuǎn)至第二步。判別域代數(shù)界面方程法(有監(jiān)督分類)用判別域界面方程分類的概念分類原理:不同模式對(duì)應(yīng)不同特征點(diǎn)在空間中散部。運(yùn)用已知類別的訓(xùn)練樣本進(jìn)行學(xué)習(xí),產(chǎn)生若干代數(shù)界面,將代數(shù)空間劃分成一些互不重疊的子區(qū)域。又稱判別函數(shù)。線性可分的定義:對(duì)于來自兩類的一組模式,如果能用一個(gè)線性判別函數(shù)將其分為兩類,則稱他們是線性可分的。線性判別函數(shù) 稱為增廣權(quán)矢量,稱為增廣特征矢量兩類處理設(shè)判別函數(shù)為,判別準(zhǔn)則如下多類處理方法一:兩分法將屬于與不屬于的模式分劃開。將劃分成C個(gè)類的問題分解為劃分成C-1個(gè)類的問題??梢越個(gè)判別函數(shù)。經(jīng)過訓(xùn)練,使判別函數(shù)具有以下性質(zhì)判決規(guī)則:對(duì)于C個(gè)判別函數(shù)如果有,則模式。注意:如果存在兩個(gè)及以上判別函數(shù),那么無法判斷模式屬于哪個(gè)類。如果所有判別函數(shù),那么無法判斷模式屬于哪個(gè)類。方法二:存在不確定區(qū)的兩分法對(duì)C個(gè)類中的兩個(gè)類建立一個(gè)判別函數(shù)。此函數(shù)不提供其他類的信息,需要提供個(gè)判別函數(shù)。經(jīng)過訓(xùn)練,得到區(qū)分兩類的判別函數(shù)具有以下性質(zhì)判決規(guī)則:對(duì)于個(gè)判別函數(shù)如果有,則模式(所有含有類判別的判別函數(shù)都判別為)。注意:當(dāng)不存在一個(gè)能夠滿足上面的條件,則為不確定區(qū)域。方法三:沒有不確定區(qū)的兩分法取判定函數(shù)。當(dāng)則,此時(shí)模式屬于類。因此只需要對(duì)每一個(gè)類建立一個(gè)判別函數(shù)。C類問題有C個(gè)判別函數(shù)。判決規(guī)則:若,則該模式屬于類。判別函數(shù)值的大小、正負(fù)的數(shù)學(xué)意義線性判別界面方程是一個(gè)超平面。那么其存在一下性質(zhì):1) 系數(shù)矢量為其法向量。2) 判別函數(shù)的值正比于到超平面的距離。(定理:所確定的空間中的平面,空間中任意一點(diǎn)到界面的距離為,同時(shí)為平面的法向量)3) 若等價(jià)于,則位于法向量指向的半空間;否則,位于法向量背向的半空間權(quán)空間增廣特征矢量與增廣權(quán)矢量是相對(duì)的。當(dāng)進(jìn)行樣本訓(xùn)練時(shí),應(yīng)視為的權(quán),判別函數(shù)記為 。若等價(jià)于,則位于法向量指向的半空間;否則,位于法向量背向的半空間。權(quán)空間為以為坐標(biāo)系的n+1維空間。權(quán)空間中任意一點(diǎn)到界面的距離為。解矢量當(dāng)模式根據(jù)已知類,進(jìn)行訓(xùn)練時(shí),判別函數(shù)記為,。當(dāng)訓(xùn)練模式時(shí),;當(dāng)訓(xùn)練模式時(shí),這時(shí)的稱為解矢量。解空間N個(gè)訓(xùn)練模式將有N個(gè)界面(解矢量界面),每一個(gè)界面將權(quán)控件分成兩個(gè)半空間,N個(gè)正的半子空間的交空間是一個(gè)以原點(diǎn)為頂點(diǎn)的凸多面錐。滿足(為矢量(各訓(xùn)練模式,1)的所有都在該錐內(nèi)部。解矢量不是唯一的,凸多面錐包含了全部解矢量,稱其為解區(qū),解空間,解錐。每一個(gè)訓(xùn)練模式都對(duì)解區(qū)提供一個(gè)約束,訓(xùn)練模式越多,解區(qū)的限制就越多,解區(qū)就越小,就越靠近解區(qū)的中心,解矢量就越可靠,由它構(gòu)造的判別函數(shù)錯(cuò)分的可能性就越小。余量為了使解矢量更可靠,可以通過增加訓(xùn)練模式數(shù)以及引入余量。使得,從而達(dá)到更好的效果。引入余量后界面方程變?yōu)?,此時(shí)權(quán)空間中任意一點(diǎn)到界面的距離為,而該點(diǎn)到界面的距離為,因此由確定的凸面錐在確定的凸面錐內(nèi)部,邊界距離為。引入了余量可有效地避免量測的誤差、引入的誤差以及某些算法求得的解矢量收斂于解區(qū)的邊界上,從而提高了解的可靠性。Fisher線性判別思想:將N維模式投影到一維空間方法:根據(jù)訓(xùn)練確定最佳投影方向(根據(jù)使準(zhǔn)則函數(shù)獲取最大值),確定判別規(guī)則假設(shè)給定已經(jīng)分類的訓(xùn)練模式集,分屬于C個(gè)類,每個(gè)類中的模式集合為, 代表某個(gè)類,代表模式集中的某個(gè)模式。則各類的模式均值矢量,全部模式均值矢量,總的類內(nèi)離差陣,類間離差陣。(1) 確定最佳投影方向模式經(jīng)過投影后。經(jīng)過投影變換后的各類的模式均值矢量,全部模式均值矢量,總的類內(nèi)離差度,類間離差度。定義目標(biāo)準(zhǔn)則函數(shù),確定能夠使得目標(biāo)準(zhǔn)則函數(shù)取得最大值的,即為投影方向。,此時(shí),由于都為標(biāo)量,我們只關(guān)心的方向,因此將標(biāo)量都置1,得,因此Fisher變換函數(shù)為(2) 確定判別規(guī)則根據(jù)訓(xùn)練模式確定閾值,判別閾值可取兩個(gè)類心在方向上軸的投影連線的中點(diǎn)作為閾值。兩類問題中確定權(quán)值的感知器算法給定符合規(guī)范化(若,則保持不變,若,則取反,保證規(guī)范化后的訓(xùn)練集中所有模式屬于同一個(gè)類)后的增廣訓(xùn)練集,屬于兩個(gè)類(1) 置步數(shù),令增量為一正的常數(shù),賦值權(quán)值分量為任一較小值(2) 輸入訓(xùn)練模式,計(jì)算判別函數(shù)值(3) 調(diào)整權(quán)值,規(guī)則如下若,則(增大判別函數(shù)值)若,則(4) 若,則,轉(zhuǎn)(2)。否則檢驗(yàn)判別函數(shù)對(duì)所有能否正確分類。若正確則停止;否則令,轉(zhuǎn)(2)。兩類問題中確定權(quán)值的梯度下降法構(gòu)造準(zhǔn)則函數(shù),的最小值0,當(dāng)且僅當(dāng)。我們的目標(biāo)是,對(duì)于已經(jīng)符號(hào)規(guī)范化后的增廣訓(xùn)練集,尋找使得所有,即對(duì)構(gòu)造的準(zhǔn)則函數(shù),尋找使取得最小值的。令k = 1/2,求得準(zhǔn)則函數(shù)梯度。增廣權(quán)矢量的修正迭代公式為(最速下降法:為時(shí)性能指標(biāo)函數(shù)達(dá)到最小值,迭代時(shí)):當(dāng)為正常數(shù)時(shí),梯度下降法與感知器算法相同。若較小,則收斂慢,若較大,則會(huì)引起震蕩??墒闺S變化而變化。多類問題中感知器算法判決規(guī)則:若,則該模式屬于類。算法步驟:(1) 賦初值,分別給C個(gè)權(quán)矢量賦任意的初值, 選擇正常數(shù),置步數(shù)。(2) 輸入已知類別的增廣訓(xùn)練模式,計(jì)算C個(gè)判別函數(shù)(3) 若,將每個(gè)判別函數(shù)與進(jìn)行比較:若,則,繼續(xù)比較若,則,跳出比較(4) 若,則,轉(zhuǎn)(2)。否則檢驗(yàn)判別函數(shù)對(duì)所有能否正確分類。若正確則停止;否則令,轉(zhuǎn)(2)。二次準(zhǔn)則函數(shù)一次準(zhǔn)則函數(shù)及其算法(如感知器算法)只適用于線性可分的情況,如果是線性不可分的,分類過程將不收斂!二次準(zhǔn)則函數(shù)能夠測試出模式樣本集是否線性可分,并且對(duì)線性不可分的情況也能給出“次最優(yōu)”的解。最小錯(cuò)分模式數(shù)目準(zhǔn)則:對(duì)于兩類問題,設(shè)已經(jīng)符號(hào)規(guī)范化后的N+1維增廣訓(xùn)練集,如果訓(xùn)練模式是線性可分的,則存在權(quán)矢量使不等式組成立,若線性可分,不等式組有解,線性不可分,不等式無解。引入N維余量,則不等式方程組變?yōu)?,其中。?duì)構(gòu)造方差準(zhǔn)則函數(shù),當(dāng)取最小時(shí),都在附近,因此,被錯(cuò)分的模式數(shù)目可達(dá)到最小。求對(duì)的梯度,。1)偽逆法求解 令,可得,當(dāng)存在的時(shí)候,當(dāng)不存在的時(shí)候,為的廣義逆矩陣。2)梯度法求解由于廣義逆矩陣計(jì)算量比較大,因此常采用梯度下降法。由梯度可得,對(duì)于任意初值的增廣權(quán)矢量的修正迭代公式為:,當(dāng)時(shí),該算法使得權(quán)矢量序列收斂于,該稱為MES解。為了減少計(jì)算量和存儲(chǔ)量,可以仿照單樣本修正法:由于,迭代式可以修正為。此算法通常稱為WH(WidrowHoff)算法。W-H算法有兩個(gè)性質(zhì):1、 當(dāng)時(shí),MES解等價(jià)于Fisher解。2、 當(dāng)時(shí),當(dāng)樣本書,MES解以最小均方誤差逼近貝葉斯判決函數(shù)。3)HK算法在之前的算法中,為取定的常量,這將影響的求取。HK算法通過求解使趨向于最小值的,來獲取最佳分類器。 的迭代公式為。記誤差矢量,若,則(當(dāng)小于,此時(shí)足夠大,不需要調(diào)整);若,則(當(dāng)小于,此時(shí)太小,余量不夠,加大余量)??山y(tǒng)一記為。由得到。HK算法步驟:1、 將訓(xùn)練樣本規(guī)范化,求2、 置初值,3、 計(jì)算,4、 執(zhí)行判斷:若各分量連續(xù)兩次都為負(fù)值,沒有可行解,退出;若,則輸出可行解,退出;否則,執(zhí)行下一步5、 更新。6、 ,轉(zhuǎn)至步驟3廣義線性判別函數(shù)原理:將n維模式特征集映射到m維模式特征級(jí),其中,為對(duì)應(yīng)的映射,為不同的映射函數(shù),經(jīng)過映射之后的能夠線性可分。經(jīng)變化后的線性判別函數(shù),其中。典型的(1)為二次多項(xiàng)式 變換后的特征的維數(shù)為(2)為次多項(xiàng)式,1項(xiàng),項(xiàng),項(xiàng),項(xiàng)的項(xiàng)數(shù)為:變換后的特征的維數(shù)為-1二次判別函數(shù)在 n 維特征空間中,二次判別函數(shù)的一般表示式為:一般的判別規(guī)則是:計(jì)算訓(xùn)練模式,構(gòu)造判別函數(shù):對(duì)未知模式:位勢(shì)函數(shù)分類法特點(diǎn):( 1)可直接確定判決函數(shù)(位勢(shì)函數(shù)) ( 2)適用于非線性和線性可分的情況對(duì)于兩類問題認(rèn)為:如果,則帶正電荷;如果,則帶負(fù)電荷。定義模式位勢(shì)函數(shù),表示模式在的勢(shì)場中的位勢(shì)或模式在的勢(shì)場中的位勢(shì)。有如下性質(zhì):;連續(xù)光滑;與相距越遠(yuǎn),位勢(shì)越趨近于0,當(dāng),位勢(shì)最高。兩種模式位勢(shì)函數(shù)(1) 設(shè)是一組正交函數(shù)集,則(2) 取關(guān)于距離的對(duì)稱函數(shù),例如確定判別函數(shù)步驟設(shè)訓(xùn)練集,分屬于,定義一個(gè)模式位勢(shì)函數(shù)。通過以下步驟確定位勢(shì)函數(shù)中的值。(1) 令初始位勢(shì)函數(shù),判錯(cuò)標(biāo)記,步數(shù) (2) ,調(diào)整位勢(shì)函數(shù):若,則若,則若,則,若,則,(3) 若,轉(zhuǎn)(2)。否則判斷判錯(cuò)標(biāo)記是否為0,為0,退出;否則,轉(zhuǎn)(2)。位勢(shì)函數(shù)分類法與感知器算法有其相似點(diǎn):在訓(xùn)練時(shí),當(dāng)判別函數(shù)錯(cuò)誤時(shí),對(duì)判別函數(shù)進(jìn)行修正(若,但,則向增加正值;若,但,則向增加負(fù)值)。對(duì)于多類問題,位勢(shì)函數(shù)分類法確定判別函數(shù)步驟:(1) 令初始位勢(shì)函數(shù),判錯(cuò)標(biāo)記,步數(shù) (2) ,假設(shè),對(duì)每一個(gè)位勢(shì)函數(shù)與進(jìn)行比較若,則,繼續(xù)比較若,則, ,跳出比較(3) 若,轉(zhuǎn)(2)。否則判斷判錯(cuò)標(biāo)記是否為0,為0,退出;否則,轉(zhuǎn)(2)。統(tǒng)計(jì)判決隨機(jī)模式分類識(shí)別,通常稱為Bayes(貝葉斯)判決。主要依據(jù)類的概率、概密,按照某種準(zhǔn)則使分類結(jié)果從統(tǒng)計(jì)上講是最佳的。準(zhǔn)則函數(shù)不同,所導(dǎo)出的判決規(guī)則就不同,分類結(jié)果也不同?;A(chǔ)知識(shí):先驗(yàn)概率:表示類出現(xiàn)的先驗(yàn)概率,簡稱類的概率。后驗(yàn)概率:表示在出現(xiàn)條件下類出現(xiàn)的概率,稱其為類別的后驗(yàn)概率,對(duì)于模式識(shí)別來講可理解為來自類的概率。類概密: 表示在類條件下的概率密度,即類模式的概率分布密度,簡稱為類概密。(由于可以在空間中取任意值,因此代表其概率)。根據(jù)后驗(yàn)概率進(jìn)行判決若,則若,則根據(jù)Bayes公式,后驗(yàn)概率可表示為:因此判決也為:若,則若,則最小誤判概率準(zhǔn)則
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030中國LED太陽能路燈行業(yè)需求動(dòng)態(tài)與盈利前景研究報(bào)告
- 2025-2030高溫手套產(chǎn)業(yè)政府戰(zhàn)略管理與區(qū)域發(fā)展戰(zhàn)略研究報(bào)告
- 2025-2030銀飾行業(yè)風(fēng)險(xiǎn)投資發(fā)展分析及投資融資策略研究報(bào)告
- 2025-2030針織內(nèi)衣產(chǎn)業(yè)規(guī)劃專項(xiàng)研究報(bào)告
- 2025-2030造船鋼板市場前景分析及投資策略與風(fēng)險(xiǎn)管理研究報(bào)告
- 2025-2030調(diào)速電機(jī)行業(yè)行業(yè)風(fēng)險(xiǎn)投資發(fā)展分析及投資融資策略研究報(bào)告
- 2025-2030自由飛行攝影機(jī)行業(yè)市場現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030胎兒語音計(jì)行業(yè)市場現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030羽絨服行業(yè)風(fēng)險(xiǎn)投資發(fā)展分析及投資融資策略研究報(bào)告
- 2025-2030電腦顯示器行業(yè)市場現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評(píng)估規(guī)劃分析研究報(bào)告
- 運(yùn)用精益管理(TPS)縮短醫(yī)院門診患者就診時(shí)間醫(yī)院品質(zhì)管理成果匯報(bào)
- 環(huán)保行業(yè)人才培養(yǎng)機(jī)制方案
- 專題18 熱學(xué)-五年(2020-2024)高考物理真題分類匯編(解析版)
- 十二生肖調(diào)查報(bào)告
- 健身塑形瑜伽學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2024-2025年遼寧省面試真題
- 2024年高考真題-地理(河北卷) 含答案
- 單位駕駛員勞務(wù)派遣投標(biāo)方案投標(biāo)文件(技術(shù)方案)
- 資本經(jīng)營-終結(jié)性考試-國開(SC)-參考資料
- 2024年浙江省中考科學(xué)試卷
- 拆除工程地坪拆除施工方案
評(píng)論
0/150
提交評(píng)論