




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第五章 特征選擇和提取第五章 特征選擇和提取 特征選擇和提取是模式識(shí)別中的一個(gè)關(guān)鍵問(wèn)題 前面討論分類器設(shè)計(jì)的時(shí)候,一直假定已給出了特征向量維數(shù)確定的樣本集,其中各樣本的每一維都是該樣本的一個(gè)特征; 這些特征的選擇是很重要的,它強(qiáng)烈地影響到分類器的設(shè)計(jì)及其性能; 假若對(duì)不同的類別,這些特征的差別很大,則比較容易設(shè)計(jì)出具有較好性能的分類器。第五章 特征選擇和提取 特征選擇和提取是構(gòu)造模式識(shí)別系統(tǒng)時(shí)的一個(gè)重要課題 在很多實(shí)際問(wèn)題中,往往不容易找到那些最重要的特征,或受客觀條件的限制,不能對(duì)它們進(jìn)行有效的測(cè)量; 因此在測(cè)量時(shí),由于人們心理上的作用,只要條件許可總希望把特征取得多一些; 另外,由于客觀上
2、的需要,為了突出某些有用信息,抑制無(wú)用信息,有意加上一些比值、指數(shù)或?qū)?shù)等組合計(jì)算特征; 如果將數(shù)目很多的測(cè)量值不做分析,全部直接用作分類特征,不但耗時(shí),而且會(huì)影響到分類的效果,產(chǎn)生“特征維數(shù)災(zāi)難”問(wèn)題。第五章 特征選擇和提取 為了設(shè)計(jì)出效果好的分類器,通常需要對(duì)原始的測(cè)量值集合進(jìn)行分析,經(jīng)過(guò)選擇或變換處理,組成有效的識(shí)別特征; 在保證一定分類精度的前提下,減少特征維數(shù),即進(jìn)行“降維”處理,使分類器實(shí)現(xiàn)快速、準(zhǔn)確和高效的分類。 為達(dá)到上述目的,關(guān)鍵是所提供的識(shí)別特征應(yīng)具有很好的可分性,使分類器容易判別。為此,需對(duì)特征進(jìn)行選擇。 應(yīng)去掉模棱兩可、不易判別的特征; 所提供的特征不要重復(fù),即去掉那些
3、相關(guān)性強(qiáng)且沒(méi)有增加更多分類信息的特征。第五章 特征選擇和提取 說(shuō)明 實(shí)際上,特征選擇和提取這一任務(wù)應(yīng)在設(shè)計(jì)分類器之前進(jìn)行; 從通常的模式識(shí)別教學(xué)經(jīng)驗(yàn)看,在討論分類器設(shè)計(jì)之后講述特征選擇和提取,更有利于加深對(duì)該問(wèn)題的理解。第五章 特征選擇和提取 所謂特征選擇,就是從n個(gè)度量值集合x(chóng)1, x2, xn中,按某一準(zhǔn)則選取出供分類用的子集,作為降維(m維,mn)的分類特征; 所謂特征提取,就是使(x1, x2, xn)通過(guò)某種變換,產(chǎn)生m個(gè)特征(y1, y2, ym) (mn) ,作為新的分類特征(或稱為二次特征); 其目的都是為了在盡可能保留識(shí)別信息的前提下,降低特征空間的維數(shù),已達(dá)到有效的分類。第
4、五章 特征選擇和提取 以細(xì)胞自動(dòng)識(shí)別為例 通過(guò)圖像輸入得到一批包括正常細(xì)胞和異常細(xì)胞的圖像,我們的任務(wù)是根據(jù)這些圖像區(qū)分哪些細(xì)胞是正常的,哪些細(xì)胞是異常的; 首先找出一組能代表細(xì)胞性質(zhì)的特征,為此可計(jì)算 細(xì)胞總面積 總光密度 胞核面積 核漿比 細(xì)胞形狀 核內(nèi)紋理 第五章 特征選擇和提取 以細(xì)胞自動(dòng)識(shí)別為例 這樣產(chǎn)生出來(lái)的原始特征可能很多(幾十甚至幾百個(gè)),或者說(shuō)原始特征空間維數(shù)很高,需要降低(或稱壓縮)維數(shù)以便分類; 一種方式是從原始特征中挑選出一些最有代表性的特征,稱之為特征選擇; 另一種方式是用映射(或稱變換)的方法把原始特征變換為較少的特征,稱之為特征提取。5.1 模式類別可分性的測(cè)度
5、距離和散布矩陣 點(diǎn)到點(diǎn)之間的距離 點(diǎn)到點(diǎn)集之間的距離 類內(nèi)距離5.1 模式類別可分性的測(cè)度 距離和散布矩陣 類內(nèi)散布矩陣 對(duì)屬于同一類的模式樣本,類內(nèi)散布矩陣表示各樣本點(diǎn)圍繞其均值周圍的散布情況,這里即為該分布的協(xié)方差矩陣。 類間距離和類間散布矩陣 多類模式集散布矩陣 以上各類散布矩陣反映了各類模式在模式空間的分布情況,但它們與分類的錯(cuò)誤率沒(méi)有直接聯(lián)系。 (若與分類錯(cuò)誤率聯(lián)系起來(lái),可采用散度作為類別可分性的度量,在此不詳細(xì)介紹)5.2 特征選擇 設(shè)有n個(gè)可用作分類的測(cè)量值,為了在不降低(或盡量不降低)分類精度的前提下,減小特征空間的維數(shù)以減少計(jì)算量,需從中直接選出m個(gè)作為分類的特征。 問(wèn)題:在
6、n個(gè)測(cè)量值中選出哪一些作為分類特征,使其具有最小的分類錯(cuò)誤?5.2 特征選擇 從n個(gè)測(cè)量值中選出m個(gè)特征,一共有 中可能的選法。 一種“窮舉”辦法:對(duì)每種選法都用訓(xùn)練樣本試分類一下,測(cè)出其正確分類率,然后做出性能最好的選擇,此時(shí)需要試探的特征子集的種類達(dá)到 種,非常耗時(shí)。 需尋找一種簡(jiǎn)便的可分性準(zhǔn)則,間接判斷每一種子集的優(yōu)劣。 對(duì)于獨(dú)立特征的選擇準(zhǔn)則 一般特征的散布矩陣準(zhǔn)則5.2 特征選擇 對(duì)于獨(dú)立特征的選擇準(zhǔn)則 類別可分性準(zhǔn)則應(yīng)具有這樣的特點(diǎn),即不同類別模式特征的均值向量之間的距離應(yīng)最大,而屬于同一類的模式特征,其方差之和應(yīng)最小。 假設(shè)各原始特征測(cè)量值是統(tǒng)計(jì)獨(dú)立的,此時(shí),只需對(duì)訓(xùn)練樣本的n個(gè)
7、測(cè)量值獨(dú)立地進(jìn)行分析,從中選出m個(gè)最好的作為分類特征即可。 例:對(duì)于i和j兩類訓(xùn)練樣本的特征選擇5.2 特征選擇 討論:上述基于距離測(cè)度的可分性準(zhǔn)則,其適用范圍與模式特征的概率分布有關(guān)。 三種不同模式分布的情況 (a) 中特征xk的分布有很好的可分性,通過(guò)它足以分離i和j兩種類別; (b) 中的特征分布有很大的重疊,單靠xk達(dá)不到較好的分類,需要增加其它特征; (c) 中的i類特征xk的分布有兩個(gè)最大值,雖然它與j的分布沒(méi)有重疊,但計(jì)算Gk約等于0,此時(shí)再利用Gk作為可分性準(zhǔn)則已不合適。 因此,假若類概率密度函數(shù)不是或不近似正態(tài)分布,均值和方差就不足以用來(lái)估計(jì)類別的可分性,此時(shí)該準(zhǔn)則函數(shù)不完全
8、適用。5.2 特征選擇 一般特征的散布矩陣準(zhǔn)則 類內(nèi)、類間和總體的散布矩陣Sw、Sb和St Sw的行列式值越小且Sb的行列式值越大,可分性越好。 散布矩陣準(zhǔn)則J1和J2形式 使J1或J2最大的子集可作為所選擇的分類特征。 注:這里計(jì)算的散布矩陣不受模式分布形式的限制,但需要有足夠數(shù)量的模式樣本才能獲得有效的結(jié)果。作業(yè) 設(shè)有如下三類模式樣本集1,2和3,其先驗(yàn)概率相等,求Sw和Sb1:(1 0)T, (2 0) T, (1 1) T2:(-1 0)T, (0 1) T, (-1 1) T3:(-1 -1)T, (0 -1) T, (0 -2) T5.3 離散K-L變換 全稱:Karhunen-L
9、oeve變換(卡洛南-洛伊變換) 前面討論的特征選擇是在一定準(zhǔn)則下,從n個(gè)特征中選出k個(gè)來(lái)反映原有模式。 這種簡(jiǎn)單刪掉某n-k個(gè)特征的做法并不十分理想,因?yàn)橐话銇?lái)說(shuō),原來(lái)的n個(gè)數(shù)據(jù)各自在不同程度上反映了識(shí)別對(duì)象的某些特征,簡(jiǎn)單地刪去某些特征可能會(huì)丟失較多的有用信息。 如果將原來(lái)的特征做正交變換,獲得的每個(gè)數(shù)據(jù)都是原來(lái)n個(gè)數(shù)據(jù)的線性組合,然后從新的數(shù)據(jù)中選出少數(shù)幾個(gè),使其盡可能多地反映各類模式之間的差異,而這些特征間又盡可能相互獨(dú)立,則比單純的選擇方法更靈活、更有效。 K-L變換就是一種適用于任意概率密度函數(shù)的正交變換。5.3 離散K-L變換5.3.1 離散的有限K-L展開(kāi) 展開(kāi)式的形式 如果對(duì)
10、c種模式類別ii=1,c做離散正交展開(kāi),則對(duì)每一模式可分別寫成:xi= ai,其中矩陣 取決于所選用的正交函數(shù)。 對(duì)各個(gè)模式類別,正交函數(shù)都是相同的,但其展開(kāi)系數(shù)向量ai則因類別的不同模式分布而異。 K-L展開(kāi)式的性質(zhì) K-L展開(kāi)式的根本性質(zhì)是將隨機(jī)向量x展開(kāi)為另一組正交向量j的線性和,且其展開(kāi)式系數(shù)aj(即系數(shù)向量a的各個(gè)分量)具有不同的性質(zhì)。 在此條件下,正交向量集j的確定 K-L展開(kāi)式系數(shù)的計(jì)算步驟5.3 離散K-L變換5.3.2 按K-L展開(kāi)式選擇特征 K-L展開(kāi)式用于特征選擇相當(dāng)于一種線性變換。 若從K個(gè)特征向量中取出m個(gè)組成變換矩陣,即 = (1 2 m),mK此時(shí),是一個(gè)n*m維
11、矩陣,x是n維向量,經(jīng)過(guò)Tx變換,即得到降維為m的新向量。 選取變換矩陣,使得降維后的新向量在最小均方差條件下接近原來(lái)的向量x5.3 離散K-L變換5.3.2 按K-L展開(kāi)式選擇特征 結(jié)論 從K-L展開(kāi)式的性質(zhì)和按最小均方差的準(zhǔn)則來(lái)選擇特征,應(yīng)使Eaj=0。由于Ea=ETx= TEx,故應(yīng)使Ex=0?;谶@一條件,在將整體模式進(jìn)行K-L變換之前,應(yīng)先將其均值作為新坐標(biāo)軸的原點(diǎn),采用協(xié)方差矩陣C或自相關(guān)矩陣R來(lái)計(jì)算特征值。如果Ex0,則只能得到“次最佳”的結(jié)果。5.3 離散K-L變換5.3.2 按K-L展開(kāi)式選擇特征 結(jié)論 將K-L展開(kāi)式系數(shù)aj(亦即變換后的特征)用yj表示,寫成向量形式:y=
12、 Tx。此時(shí)變換矩陣用m個(gè)特征向量組成。為使誤差最小,不采用的特征向量,其對(duì)應(yīng)的特征值應(yīng)盡可能小。因此,將特征值按大小次序標(biāo)號(hào),即1 2 m n=0若首先采用前面的m個(gè)特征向量,便可使變換誤差最小。此時(shí)的變換矩陣為5.3 離散K-L變換5.3.2 按K-L展開(kāi)式選擇特征 結(jié)論 K-L變換是在均方誤差最小的意義下獲得數(shù)據(jù)壓縮的最佳變換,且不受模式分布的限制。對(duì)于一種類別的模式特征提取,它不存在特征分類問(wèn)題,只是實(shí)現(xiàn)用低維的m個(gè)特征來(lái)表示原來(lái)高維的n個(gè)特征,使其誤差最小,亦即使其整個(gè)模式分布結(jié)構(gòu)盡可能保持不變。5.3 離散K-L變換5.3.2 按K-L展開(kāi)式選擇特征 結(jié)論 通過(guò)K-L變換能獲得互不相關(guān)的新特征。若采用較大特征值對(duì)應(yīng)的特征向量組成變換矩陣,則能對(duì)應(yīng)地保留原模式中方差最大的特征成分,所以K-L變換起到了減小相關(guān)性、突出差異性的效果。在此情況下, K-L變換也稱為主成分變換。5.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電蒸鍋買賣合同5篇
- 11《牛郎織女(二)》教學(xué)設(shè)計(jì)-2024-2025學(xué)年五年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版
- 2025年OXONE過(guò)硫酸氫鉀項(xiàng)目投資可行性研究分析報(bào)告
- 人教版2025-2026學(xué)年一年級(jí)數(shù)學(xué)下冊(cè)教學(xué)工作計(jì)劃(含進(jìn)度表)
- 城市休閑公園建筑設(shè)計(jì)與綠化布局
- 蠶絲(教學(xué)設(shè)計(jì))-2023-2024學(xué)年數(shù)學(xué)四年級(jí)下冊(cè)北師大版
- 2025終止合同協(xié)議書(shū):二零二五年度終止虛擬現(xiàn)實(shí)教育平臺(tái)合作
- 二零二五年度節(jié)慶活動(dòng)搭建安全規(guī)范與責(zé)任書(shū)合同
- 5景區(qū)設(shè)施居間服務(wù)合同
- 小學(xué)一年級(jí)數(shù)學(xué)兩位數(shù)加減一位數(shù)評(píng)價(jià)試題訓(xùn)練題大全附答案
- 2025年度智慧醫(yī)療服務(wù)平臺(tái)建設(shè)合同范本
- 2025年酒店總經(jīng)理崗位職責(zé)與薪酬協(xié)議
- 2024項(xiàng)目管理人員安全培訓(xùn)考試題(審定)
- 2024年全國(guó)職業(yè)院校技能大賽中職組(母嬰照護(hù)賽項(xiàng))考試題庫(kù)(含答案)
- 2024年同等學(xué)力人員申請(qǐng)碩士學(xué)位英語(yǔ)試卷與參考答案
- 小學(xué)一年級(jí)數(shù)學(xué)20以內(nèi)的口算題(可直接打印A4)
- 自動(dòng)化設(shè)備技術(shù)合作協(xié)議書(shū)范文
- SF-36生活質(zhì)量調(diào)查表(SF-36-含評(píng)分細(xì)則)
- 作文紙(網(wǎng)格600字A4)
- 原子光譜的精細(xì)結(jié)構(gòu)
- QGDW 11860-2018 抽水蓄能電站項(xiàng)目后評(píng)價(jià)技術(shù)標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論