模式識(shí)別期末復(fù)習(xí)總結(jié)._第1頁
模式識(shí)別期末復(fù)習(xí)總結(jié)._第2頁
模式識(shí)別期末復(fù)習(xí)總結(jié)._第3頁
模式識(shí)別期末復(fù)習(xí)總結(jié)._第4頁
模式識(shí)別期末復(fù)習(xí)總結(jié)._第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1、貝葉斯分類器貝葉斯分類器的定義:在具有模式的完整統(tǒng)計(jì)知識(shí)的條件下,按照貝葉斯決策理論進(jìn)行設(shè)計(jì)的一種最優(yōu)分類器。貝葉斯分類器的分類原理:通過某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。貝葉斯分類器是各種分類器中分類錯(cuò)誤概率最小或者在預(yù)先給定代價(jià)的情況下平均風(fēng)險(xiǎn)最小的分類器。貝葉斯的公式:什么情況下使用貝葉斯分類器:對(duì)先驗(yàn)概率和類概率密度有充分的先驗(yàn)知識(shí),或者有足夠多的樣本,可以較好的進(jìn)行概率密度估計(jì),如果這些條件不滿足,則采用最優(yōu)方法設(shè)計(jì)出的分類器往往不具有最優(yōu)性質(zhì)。2、K近鄰法kNN算法的核心思想: 如果一個(gè)樣本在

2、特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。假設(shè)有N個(gè)已知樣本分屬c個(gè)類i, i=1,c ,考察新樣本x在這些樣本中的前K個(gè)近鄰,設(shè)其中有ki個(gè)屬于i類,則i類的判別函數(shù)就是 gix=ki i=1,c決策規(guī)則: 若gkx= max1icgix則xk什么情況下使用K近鄰法:kNN只是確定一種決策原則,在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別,并不需要利用已知數(shù)據(jù)事先訓(xùn)練出一個(gè)判別函數(shù),這種方法不需要太多的先驗(yàn)知識(shí)。在樣本數(shù)量不足時(shí),KNN法通常也可以得到不錯(cuò)的結(jié)果。但是這種決策算法需要始終存儲(chǔ)所有的

3、已知樣本,并將每一個(gè)新樣本與所有已知樣本進(jìn)行比較和排序,其計(jì)算和存儲(chǔ)的成本都很大。對(duì)于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。 3、PCA和LDA的區(qū)別Principal Components Analysis (PCA):uses a signal representation criterion Linear Discriminant Analysis (LDA):uses a signal classification criterion LDA:線性判別分析,一種分類方法。它尋找線性分類器最佳的法線向量方向,將高維數(shù)據(jù)投影到一維空間,使兩類樣本在該方向上的投

4、影滿足類內(nèi)盡可能密集,類間盡可能分開。即使投影后兩類相隔盡可能遠(yuǎn),而同時(shí)每一類的樣本又盡可能聚集。PCA:主成分分析法,一種數(shù)據(jù)降維方法。它將高維的數(shù)據(jù)映射到低維的空間中表示,新特征是原有特征的線性組合。降維之后能夠最大化保持?jǐn)?shù)據(jù)的內(nèi)在信息,并期望在所投影的維度上數(shù)據(jù)的方差最大,以此使用較少的數(shù)據(jù)維度,同時(shí)保留住較多的原數(shù)據(jù)點(diǎn)的特性。PCA和LDA的區(qū)別:PCA主要是從特征的協(xié)方差角度,去找到比較好的投影方式;LDA選擇分類性能最好的方向,期望投影后類間距更大,類內(nèi)距更小。PCA是無監(jiān)督的方式,它沒有分類標(biāo)簽,降維之后需要采用K-Means或自組織映射網(wǎng)絡(luò)等無監(jiān)督的算法進(jìn)行分類;LDA是有監(jiān)督

5、的,它先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行降維,然后找出一個(gè)線性判別函數(shù)。PCA投影的坐標(biāo)系都是正交的;LDA根據(jù)類別的標(biāo)注,關(guān)注分類能力,因此不保證投影到的坐標(biāo)系是正交的。4、開測(cè)試,閉測(cè)試開測(cè)試:測(cè)試樣本不包含訓(xùn)練樣本閉測(cè)試:測(cè)試樣本包含訓(xùn)練樣本5、維數(shù),訓(xùn)練樣本對(duì)分類器性能的影響維數(shù):從理論上講,在有無限的訓(xùn)練樣本的情況下。不斷的增加新的特征并不會(huì)影響最終的分類結(jié)果,最壞的情況也就是分類器忽略了新加的特征,而只要新特征提供了有用的信息,那么分類器的精確度就會(huì)提高。在實(shí)際情況中,剛開始隨著維數(shù)的增加,精確度也會(huì)越來越高,但當(dāng)維數(shù)到達(dá)一定值后,精確度會(huì)下降。這就是“維數(shù)災(zāi)難”:因?yàn)槲覀兊臉颖静皇菬o限多的,在高維

6、的情況下,樣本密度會(huì)越來越稀疏,很容易就能找到一個(gè)超平面將訓(xùn)練樣本分開,但當(dāng)其映射到低維空間時(shí),得到的是一個(gè)復(fù)雜的非線性分類器。如果將其用來辨別那些未曾出現(xiàn)在訓(xùn)練樣本中的測(cè)試樣本時(shí),通常結(jié)果不太理想。這其實(shí)就是我們?cè)跈C(jī)器學(xué)習(xí)中學(xué)過的過擬合問題。另外,隨著維數(shù)的增加,大部分分類器計(jì)算的時(shí)間復(fù)雜度會(huì)呈指數(shù)型提高。樣本數(shù)量:從理論上講,樣本越多,分類器的精確度也會(huì)越高。在實(shí)際情況中,因?yàn)榇嬖谔卣骶S數(shù)的限制,隨著樣本增多,精確度會(huì)逐漸升高然后趨于穩(wěn)定。又因?yàn)閷?shí)際情況的樣本中可能存在著噪聲,如果后來增加的樣本噪聲太多,精確度反而可能下降。從效率上來說,樣本越多,時(shí)間復(fù)雜度會(huì)線性提高。6、監(jiān)督學(xué)習(xí)在概率密

7、度函數(shù)不知道的情況下怎么分類對(duì)于貝葉斯分類器來說,就是用學(xué)習(xí)樣本估計(jì)特征向量的類條件概率密度函數(shù)。在已知類條件概率密度函數(shù)形式的條件下,用給定的獨(dú)立和隨機(jī)獲取的樣本集,根據(jù)最大似然法或貝葉斯學(xué)習(xí)估計(jì)出類條件概率密度函數(shù)的參數(shù)。例如,假定模式的特征向量服從正態(tài)分布,樣本的平均特征向量和樣本協(xié)方差矩陣就是正態(tài)分布的均值向量和協(xié)方差矩陣的最大似然估計(jì)。在類條件概率密度函數(shù)的形式未知的情況下,有各種非參數(shù)方法,直接用學(xué)習(xí)樣本對(duì)類條件概率密度函數(shù)進(jìn)行估計(jì)。方法一:非參數(shù)估計(jì)。不對(duì)概率密度函數(shù)的形式作出任何假設(shè),而是直接用樣本估計(jì)出整個(gè)函數(shù)。最大似然方法和貝葉斯方法都屬于參數(shù)化的估計(jì)方法,要求待估計(jì)的概率

8、密度函數(shù)形式已知,只是利用樣本來估計(jì)函數(shù)中的某些參數(shù)。但是當(dāng)樣本的分布未知,無法事先給出概率密度函數(shù),或者很難用簡(jiǎn)單的函數(shù)來描述概率密度函數(shù)時(shí),就需要使用非參數(shù)估計(jì)的方法,即不對(duì)概率密度函數(shù)的形式作出任何假設(shè),而是直接用樣本估計(jì)出整個(gè)函數(shù)。非參數(shù)估計(jì)的方法可以看做是從所有可能的函數(shù)中進(jìn)行一種選擇。常見的非參數(shù)估計(jì)方法有直方圖法,KN近鄰估計(jì)法,Parzen窗法等。(可以稍微解釋下這三種方法)方法二:使用基于數(shù)據(jù)的模式識(shí)別方法。無需進(jìn)行概率密度估計(jì),而是直接根據(jù)要解決的問題和訓(xùn)練樣本就求出判別函數(shù)的分類器,例如神經(jīng)網(wǎng)絡(luò)和SVM。甚至是使用直接確定分類原則,連分類器都不需要的模式識(shí)別方法,例如近鄰

9、法。7、分類器性能衡量衡量方法一、利用所假設(shè)的參數(shù)模型來計(jì)算例如代入未知參數(shù)的均值和協(xié)方差的估計(jì)來評(píng)估誤差率的上界。這種方法存在的問題:誤差估計(jì)過分樂觀;參數(shù)模型的有效性無法驗(yàn)證;訓(xùn)練樣本獨(dú)有的特性沒有被揭示;衡量方法二、訓(xùn)練錯(cuò)誤率(閉測(cè)試)用分類器對(duì)全部訓(xùn)練樣本進(jìn)行分類,其中分類錯(cuò)誤的樣本占總樣本數(shù)的比例就是訓(xùn)練錯(cuò)誤率。這種方法存在的問題:在一定程度上反映了機(jī)器推廣能力;但是這種做法偏樂觀,存在信息泄露問題,因此這種訓(xùn)練錯(cuò)誤率不能很好的反映分類器在未來樣本上的表現(xiàn)。衡量方法三、測(cè)試錯(cuò)誤率(開測(cè)試)將樣本劃分成訓(xùn)練集和測(cè)試集,其中,訓(xùn)練集樣本不包含測(cè)試集樣本互不相交。測(cè)試錯(cuò)誤率:使用常規(guī)訓(xùn)練集

10、訓(xùn)練分類器完成后,用分類器對(duì)驗(yàn)證集訓(xùn)練樣本進(jìn)行分類,其中分類錯(cuò)誤的樣本占驗(yàn)證集的比例就是測(cè)試錯(cuò)誤率。這種方法存在的問題:在樣本數(shù)不是很多時(shí),如果把一部分樣本劃分為測(cè)試集,則訓(xùn)練樣本數(shù)目就大大減少,可能影響分類器性能;測(cè)試集本身也不大,所以測(cè)試錯(cuò)誤率估計(jì)的方差本身也比較大。衡量方法4:交叉驗(yàn)證一般的衡量分類器的性能常用的就是CV2的交叉驗(yàn)證方法。在現(xiàn)有總樣本不變的情況下,隨機(jī)選用一部分樣本作為臨時(shí)的訓(xùn)練集,其余樣本作為臨時(shí)測(cè)試集得到一個(gè)錯(cuò)誤率估計(jì);然后隨機(jī)選用另外一部分樣本作為臨時(shí)訓(xùn)練集,其余樣本作為臨時(shí)測(cè)試集,再得到一個(gè)錯(cuò)誤率估計(jì)如此反復(fù)多次,最后各個(gè)錯(cuò)誤率求平均,得到交叉驗(yàn)證錯(cuò)誤率。8、高斯

11、混合模型參數(shù)怎么確定?用EM算法確定GMM認(rèn)為數(shù)據(jù)是從幾個(gè)GSM中生成出來的,即 K需要事先確定好,就像K-means中的K一樣。k是權(quán)值因子。 其中的任意一個(gè)高斯分布N(x;uk,k)叫作這個(gè)模型的一個(gè)component。GMM是一種聚類算法,每個(gè)component就是一個(gè)聚類中心。即在只有樣本點(diǎn),不知道樣本分類(含有隱含變量)的情況下,計(jì)算出模型參數(shù)(,u和)-這顯然可以用EM算法來求解。再用訓(xùn)練好的模型去差別樣本所屬的分類,方法是:step1隨機(jī)選擇K個(gè)component中的一個(gè)(被選中的概率是k);step2把樣本代入剛選好的component,判斷是否屬于這個(gè)類別,如果不屬于則回到step1。EM算法:在統(tǒng)計(jì)計(jì)算中,最大期望(EM)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計(jì)或者最大后驗(yàn)估計(jì)的算法,其中概率模型依賴于無法觀測(cè)的隱藏變量(Latent Variable)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)聚類(Data Clustering)領(lǐng)域。最大期望算法經(jīng)過兩個(gè)步驟交替進(jìn)行計(jì)算:第一步是計(jì)算期望(E),利用對(duì)隱藏變量的現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論