第6章 特征的選擇與提取_第1頁
第6章 特征的選擇與提取_第2頁
第6章 特征的選擇與提取_第3頁
第6章 特征的選擇與提取_第4頁
第6章 特征的選擇與提取_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第6章特征選擇和特征提取6.1類別可分離性判據(jù)6.2特征提取6.3

特征的選擇返回本章首頁以前我們假定給出了維數(shù)為n的確定的模式樣本集,代表模式的特征是選擇好的。但在實際設計一個模式識別系統(tǒng)時,首先要解決的問題用各種可能的手段對識別對象的性質(zhì)作各種可能的測量,并將這些測量值作為分類的特征。而為了設計出好的分類器,一般需要對原始的測量值集合進行分析,進行選擇或變換,組成識別特征,在保證一定分類精度的前提下,減少特征維數(shù),使分類器的工作又快又準確。要達到上述目的,關(guān)鍵是所提供的模式特征應具有很好的可分性(類別可分離性判據(jù)來衡量),同時去掉那些關(guān)聯(lián)性較強的特征。下面我們看一下本章中設計到的基本概念。返回本章首頁特征形成根據(jù)被識別的對象產(chǎn)生出來的一組基本特征。特征提取在原始特征的維數(shù)很高的情況下,通過映射(或變換)的方法用低維空間來表示樣本,這個過程叫特征提取。

特征選擇從一組特征中挑選出一些最有效的特征以達到降低特征空間維數(shù)的目的,稱為特征選擇。返回本章首頁6.1類別可分離性判據(jù)返回本章首頁我們可以依據(jù)某種準則進行特征提取和選擇,為此,應當首先構(gòu)造這樣的準則——類別可分離性判據(jù)。這些判據(jù)應能反映各類在特征空間中的分布情況,應能刻畫各特征分量在分類識別中的重要性或貢獻。1類別可分離性判據(jù)滿足的要求(1)與錯誤概率(或其的上下界)有單調(diào)關(guān)系;(2)當特征獨立時有可加性返回本章首頁(3)具有“距離”的某些特性,即(4)對特征數(shù)目是單調(diào)不減,即加入新的特征后,判據(jù)值不減。這里指出,所構(gòu)造的可分離性判據(jù)并不一定同時具有上述的四個性質(zhì),但這并不影響它在實際使用中的性質(zhì)。下面對幾種常用的判據(jù)進行討論。返回本章首頁2用于可分離性判據(jù)的類內(nèi)類間距離我們說,各類樣本可以分開是因為它們位于特征空間中的不同的區(qū)域,顯然這些區(qū)域之間的距離越大類別可分離性就越大。兩個類區(qū)和之間的平均距離多類情況下,各類之間的平均距離返回本章首頁定義第i

類樣本集的均值向量所有各類的樣本集總平均向量各類之間的平均距離又可表示為

返回本章首頁返回本章首頁返回本章首頁3基于概率分布的可分性判據(jù)下面我們以兩類問題為例,來分析一下基于概率分布的可分性判據(jù)。先來看一下面的一個簡單的例子。由上啟發(fā)我們可用兩類概率密度函數(shù)的重疊程度(相似程度)來度量可分性,構(gòu)造基于類概率的可分性判據(jù)。它可以是概率密度函數(shù)的乘積、比或差的積分來刻畫重疊程度。返回本章首頁構(gòu)造的基于類概率的可分性判據(jù)應滿足的條件:(1);(2)當兩類不重疊時,;(3)當兩類概率密度完全重合時,;(4)相對于兩個概率密度具有“對稱性”;下面我們介紹三個判據(jù)(部分可以參考p38)一、(Bhattacharyya判據(jù))它與錯誤率的上界有直接關(guān)系:返回本章首頁二、(Chernoff判據(jù))(1)對一切,;(2)對一切,;(3)當?shù)母鞣至勘舜霜毩r,(4)當?shù)母鞣至勘舜霜毩r,返回本章首頁三、(D—判據(jù))返回本章首頁散度具有的性質(zhì):(1);(2);(3)當?shù)母鞣至勘舜霜毩r,(4)當?shù)母鞣至勘舜霜毩r,(5);返回本章首頁下面我們求正態(tài)分布時的表達式。已知返回本章首頁返回本章首頁返回本章首頁返回本章首頁返回本章首頁6.2特征提取返回本章首頁前面我們提到了基于類內(nèi)類間矩陣的可分離性判據(jù)和基于概率分布的可分離性判據(jù)。我們可以依據(jù)這些判據(jù)進行特征的提取,為此,設原特征向量,對作線性變換,產(chǎn)生d

維向量,即

矩陣,稱為特征提取矩陣或變換矩陣,稱為二次特征。按歐氏距離度量的特征提取返回本章首頁返回本章首頁下面我們著重討論選擇的情況。在線性變換矩陣的作用下在變換后的子空間非奇異線性變換的不變性返回本章首頁這里不加證明的給出一下結(jié)論:和分別為和對應的本征值。這樣,要選則最佳變換是要選擇一個d維子空間,使得在此子空間中,的本征值同樣是這樣選擇。參考教材P188例題8-1返回本章首頁例題6-1已知有兩類數(shù)據(jù),分別為

試求:該組數(shù)據(jù)的類內(nèi)及類間離散矩陣。解:返回本章首頁返回本章首頁例題6-2

1)已知兩個正態(tài)分布時的散度公式為

試將其轉(zhuǎn)換成用于兩個一維正態(tài)分布及時的公式。2)兩個一維正態(tài)分布,其期望與方差分別為

第一組:

第二組:

求其散度。

返回本章首頁解:

返回本章首頁例題6-3

對上題給出的數(shù)據(jù),求使達到最大的特征提取。解:由前面所得由于秩為1,故只有一個非零本征值,是矩陣,即,為求的本征值應解方程:返回本章首頁由于為標量,所以返回本章首頁習題講解(P81)習題3-1解:極大似然估計返回本章首頁Bayes估計返回本章首頁習題講解(P81)習題3-4求Bayes估計量解:由樣本集求出樣本聯(lián)合分布返回本章首頁的后驗分布Bayes估計量返回本章首頁返回本章首頁6.3特征選擇返回本章首頁設在D個可用作分類的特征中,為在不降低分類精度的前提下,從中直接選出d個作為分類特征。解決兩個問題(1)選擇的標準;(2)選擇的算法;選擇的標準(分兩種情況進行討論)(1)對于獨立特征的選擇準則—基于距離的可分性判據(jù)(2)一般特征的選擇準則

1離散度矩陣判據(jù)

2散度和變換散度判據(jù)選擇的算法分支定界搜索法返回本章首頁對于獨立特征的選擇準則—基于距離的可分性判據(jù)類別可分性判據(jù)的一般性質(zhì):對于基于距離的可分性判據(jù)來說,不同模式特征的均值向量之間的距離應最大,而屬于同一類的模式特征,其方差和應最小。定義可分性判別函數(shù)返回本章首頁

——均值向量在k

維方向的分量

——在k

維方向的方差

按大小排列,選出開頭最大的d個作為特征向量,就達到了特征選擇的目的。上述的判據(jù)雖然簡單,但其使用范圍與模式特征的概率分布有關(guān),幾種特殊的情況。返回本章首頁返回本章首頁一般特征的選擇準則由于特征分量之間的相關(guān)性,各分量單獨判別并不能獲得最優(yōu)的選擇結(jié)果。這時可采用類內(nèi)類間的離散度矩陣、散度等可分性判據(jù)。(1)離散度矩陣判據(jù)類內(nèi):類間:總體:離散度矩陣可分離性判據(jù):返回本章首頁(2)散度和變換散度對于類概率密度為正態(tài)分布的兩類問題,散度為使最大的子集,就是最適于分離和兩類模式的特征。推廣到c類,可以計算平均散度選出平均散度為最大的子集作為c類的分類特征,是合理,但不是最優(yōu)的。同時,若其中有一種類對的散度很大,就使平均散度顯著偏離,因而掩蓋了對散度小的那些類對的判別,這里引入變換散度來改善這種情況。返回本章首頁變換散度平均變換散度從圖可以看出,當類對的散度很大,其變換散度最大也只能趨于100%;對于散度小的情況,變換散度卻比較敏感。因此,變換平均散度比平均散度有更可靠的可分性判別能力。同時和是單調(diào)的,和并不一定是單調(diào)的。返回本章首頁分支定界法(BAB法)1先確定尋求最優(yōu)特征選擇的搜索過程的樹結(jié)構(gòu),即確定搜索樹或解樹;2然后根據(jù)搜索樹叢上至下,從右至左進行搜索,包含的幾個子過程:向下搜索、更新界值、向上回溯、停止回溯再向下搜索。注:開始時,置界值,首先從樹的根節(jié)點沿最右邊的一支自上而下搜索。對于一個節(jié)點,它的子樹最右邊的一支總是無分支的,此時可直接到達葉節(jié)點。計算該節(jié)點特征組的可分性判據(jù),更新界值,然后向上回溯。一旦遇到有分支的那個節(jié)點則停止回溯轉(zhuǎn)入向下搜索。從這一節(jié)點向下首先搜索右邊的子樹,當某節(jié)點的值不大于當

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論