中科院模式識(shí)別第二章黃慶明

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-04-14 格式：PPT 頁(yè)數(shù)：37 大?。?.13MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩32頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二章聚類分析第二章聚類分析2.1 聚類分析的相關(guān)概念2.2 模式相似性的測(cè)度和聚類準(zhǔn)則2.3 基于試探的聚類搜索算法2.4 系統(tǒng)聚類法2.5 動(dòng)態(tài)聚類法2.6 聚類結(jié)果的評(píng)價(jià)2.1 聚類分析的相關(guān)概念定義對(duì)一批沒(méi)有標(biāo)出類別的模式樣本集，按照樣本之間的相似程度分類，相似的歸為一類，不相似的歸為另一類，這種分類稱為聚類分析，也稱為無(wú)監(jiān)督分類。2.1 聚類分析的相關(guān)概念模式相似/分類的依據(jù)把整個(gè)模式樣本集的特征向量看成是分布在特征空間中的一些點(diǎn)，點(diǎn)與點(diǎn)之間的距離即可作為模式相似性的測(cè)量依據(jù)。聚類分析是按不同對(duì)象之間的差異，根據(jù)距離函數(shù)的規(guī)律（大?。┻M(jìn)行模式分類的。2.1 聚類分析的相關(guān)概念

2、聚類分析的有效性聚類分析方法是否有效，與模式特征向量的分布形式有很大關(guān)系。若向量點(diǎn)的分布是一群一群的，同一群樣本密集（距離很近），不同群樣本距離很遠(yuǎn)，則很容易聚類；若樣本集的向量分布聚成一團(tuán)，不同群的樣本混在一起，則很難分類；對(duì)具體對(duì)象做聚類分析的關(guān)鍵是選取合適的特征。特征選取得好，向量分布容易區(qū)分，選取得不好，向量分布很難分開(kāi)。2.1 聚類分析的相關(guān)概念兩類模式分類的實(shí)例：一攤黑白圍棋子選顏色顏色作為特征進(jìn)行分類，用“1”代表白，“0”代表黑，則很容易分類；選大小大小作為特征進(jìn)行分類，則白子和黑子的特征相同，不能分類（把白子和黑子分開(kāi)）。2.1 聚類分析的相關(guān)概念特征選擇的維

3、數(shù)在特征選擇中往往會(huì)選擇一些多余的特征，它增加了維數(shù)，從而增加了聚類分析的復(fù)雜度，但對(duì)模式分類卻沒(méi)有提供多少有用的信息。在這種情況下，需要去掉相關(guān)程度過(guò)高的特征（進(jìn)行降維處理）。降維方法結(jié)論：若rij-1，則表明第i維特征與第j維特征所反映的特征規(guī)律接近，因此可以略去其中的一個(gè)特征，或?qū)⑺鼈兒喜橐粋€(gè)特征，從而使維數(shù)降低一維。2.1 聚類分析的相關(guān)概念模式對(duì)象特征測(cè)量的數(shù)字化計(jì)算機(jī)只能處理離散的數(shù)值，因此根據(jù)識(shí)別對(duì)象的不同，要進(jìn)行不同的數(shù)據(jù)化處理。連續(xù)量的量化：用連續(xù)量來(lái)度量的特性，如長(zhǎng)度、重量、面積等等，僅需取其量化值；量級(jí)的數(shù)量化：度量時(shí)不需要詳盡的數(shù)值，而是相應(yīng)地劃分成一些有次

4、序的量化等級(jí)的值。病人的病程名義尺度：指定性的指標(biāo)，即特征度量時(shí)沒(méi)有數(shù)量關(guān)系，也沒(méi)有明顯的次序關(guān)系，如黑色和白色的關(guān)系，男性和女性的關(guān)系等，都可將它們分別用“0”和“1”來(lái)表示。超過(guò)2個(gè)狀態(tài)時(shí)，可用多個(gè)數(shù)值表示。2.2 模式相似性的測(cè)度和聚類準(zhǔn)則2.2.1 相似性測(cè)度目的：為了能將模式集劃分成不同的類別，必須定義一種相似性的測(cè)度，來(lái)度量同一類樣本間的類似性和不屬于同一類樣本間的差異性。歐氏距離量綱對(duì)分類的影響（下頁(yè)圖例）馬氏距離特點(diǎn)：排除了模式樣本之間的相關(guān)性問(wèn)題：協(xié)方差矩陣在實(shí)際應(yīng)用中難以計(jì)算一般化的明氏距離角度相似性函數(shù) 特點(diǎn)：反映了幾何上相似形的特征，對(duì)于坐標(biāo)系的旋

5、轉(zhuǎn)、放大和縮小等變化是不變的。當(dāng)特征的取值僅為(0,1)兩個(gè)值時(shí)的特例量綱對(duì)分類的影響（圖例）2.2 模式相似性的測(cè)度和聚類準(zhǔn)則2.2.2 聚類準(zhǔn)則有了模式的相似性測(cè)度，還需要一種基于數(shù)值的聚類準(zhǔn)則，能將相似的模式樣本分在同一類，相異的模式樣本分在不同的類。試探方法聚類準(zhǔn)則函數(shù)法2.2 模式相似性的測(cè)度和聚類準(zhǔn)則2.2.2 聚類準(zhǔn)則試探方法憑直觀感覺(jué)或經(jīng)驗(yàn)，針對(duì)實(shí)際問(wèn)題定義一種相似性測(cè)度的閾值，然后按最近鄰規(guī)則指定某些模式樣本屬于某一個(gè)聚類類別。例如對(duì)歐氏距離，它反映了樣本間的近鄰性，但將一個(gè)樣本分到不同類別中的哪一個(gè)時(shí)，還必須規(guī)定一個(gè)距離測(cè)度的閾值作為聚類的判別準(zhǔn)則。2.2 模式相

6、似性的測(cè)度和聚類準(zhǔn)則2.2.2 聚類準(zhǔn)則聚類準(zhǔn)則函數(shù)法依據(jù)：由于聚類是將樣本進(jìn)行分類以使類別間可分離性為最大，因此聚類準(zhǔn)則應(yīng)是反映類別間相似性或分離性的函數(shù)；由于類別是由一個(gè)個(gè)樣本組成的，因此一般來(lái)說(shuō)類別的可分離性和樣本的可分離性是直接相關(guān)的；可以定義聚類準(zhǔn)則函數(shù)為模式樣本集x和模式類別Sj, j=1,2,c的函數(shù)，從而使聚類分析轉(zhuǎn)化為尋找準(zhǔn)則函數(shù)極值的最優(yōu)化問(wèn)題。2.2 模式相似性的測(cè)度和聚類準(zhǔn)則2.2.2 聚類準(zhǔn)則聚類準(zhǔn)則函數(shù)法一種聚類準(zhǔn)則函數(shù)J的定義 J代表了屬于c個(gè)聚類類別的全部模式樣本與其相應(yīng)類別模式均值之間的誤差平方和。對(duì)于不同的聚類形式，J值是不同的。目的：求取使

7、J值達(dá)到最小的聚類形式。2.3 基于試探的聚類搜索算法2.3.1 按最近鄰規(guī)則的簡(jiǎn)單試探法算法討論這種方法的優(yōu)點(diǎn)：計(jì)算簡(jiǎn)單，若模式樣本的集合分布的先驗(yàn)知識(shí)已知，則可通過(guò)選取正確的閾值和起始點(diǎn)，以及確定樣本的選取次序等獲得較好的聚類結(jié)果。2.3 基于試探的聚類搜索算法2.3.1 按最近鄰規(guī)則的簡(jiǎn)單試探法討論（續(xù)）在實(shí)際中，對(duì)于高維模式樣本很難獲得準(zhǔn)確的先驗(yàn)知識(shí)，因此只能選用不同的閾值和起始點(diǎn)來(lái)試探，所以這種方法在很大程度上依賴于以下因素：第一個(gè)聚類中心的位置待分類模式樣本的排列次序距離閾值T的大小樣本分布的幾何性質(zhì)2.3 基于試探的聚類搜索算法2.3.1 按最近鄰規(guī)則的簡(jiǎn)單試探

8、法討論（續(xù)）距離閾值T對(duì)聚類結(jié)果的影響2.3 基于試探的聚類搜索算法2.3.2 最大最小距離算法基本思想：以試探類間歐氏距離為最大作為預(yù)選出聚類中心的條件。2.3 基于試探的聚類搜索算法2.3.2 最大最小距離算法算法（實(shí)例）2.4 系統(tǒng)聚類法基本思想將模式樣本按距離準(zhǔn)則逐步分類，類別由多到少，直到獲得合適的分類要求為止。算法2.4 系統(tǒng)聚類法距離準(zhǔn)則函數(shù)進(jìn)行聚類合并的一個(gè)關(guān)鍵就是每次迭代中形成的聚類之間以及它們和樣本之間距離的計(jì)算，采用不同的距離函數(shù)會(huì)得到不同的計(jì)算結(jié)果。主要的距離計(jì)算準(zhǔn)則：最短距離法最長(zhǎng)距離法中間距離法重心法類平均距離法2.4 系統(tǒng)聚類法舉例設(shè)有6個(gè)五維模式樣本

9、如下，按最小距離準(zhǔn)則進(jìn)行聚類分析：x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0 x3: 3, 3, 0, 0, 1x4: 1, 1, 0, 2, 0 x5: 3, 2, 1, 2, 1x6: 4, 1, 1, 1, 02.4 系統(tǒng)聚類法舉例系統(tǒng)聚類的樹(shù)狀表示作業(yè)畫(huà)出給定迭代次數(shù)為n的系統(tǒng)聚類法的算法流程框圖對(duì)如下5個(gè)6維模式樣本，用最小聚類準(zhǔn)則進(jìn)行系統(tǒng)聚類分析：x1: 0, 1, 3, 1, 3, 4x2: 3, 3, 3, 1, 2, 1x3: 1, 0, 0, 0, 1, 1x4: 2, 1, 0, 2, 2, 1x5: 0, 0, 1, 0, 1, 02.4

10、系統(tǒng)聚類法練習(xí) 對(duì)如下6個(gè)五維模式樣本，按最大距離準(zhǔn)則進(jìn)行聚類分析（直到分成三個(gè)類別為止）：x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0 x3: 3, 3, 0, 0, 1x4: 1, 1, 0, 2, 0 x5: 3, 2, 1, 2, 1x6: 4, 1, 1, 1, 02.5 動(dòng)態(tài)聚類法基本思想首先選擇若干個(gè)樣本點(diǎn)作為聚類中心，再按某種聚類準(zhǔn)則（通常采用最小距離準(zhǔn)則）使樣本點(diǎn)向各中心聚集，從而得到初始聚類；然后判斷初始分類是否合理，若不合理，則修改分類；如此反復(fù)進(jìn)行修改聚類的迭代算法，直至合理為止。 K-均值算法 ISODATA算法（迭代自組織數(shù)據(jù)分

11、析算法）2.5.1 K-均值算法思想：基于使聚類性能指標(biāo)最小化，所用的聚類準(zhǔn)則函數(shù)是聚類集中每一個(gè)樣本點(diǎn)到該類中心的距離平方之和，并使其最小化。算法2.5.1 K-均值算法舉例對(duì)如圖模式樣本用K-均值算法進(jìn)行分類2.5.1 K-均值算法討論K-均值算法的結(jié)果受如下選擇的影響：所選聚類的數(shù)目聚類中心的初始分布模式樣本的幾何性質(zhì) 讀入次序在實(shí)際應(yīng)用中，需要試探不同的K值和選擇不同的聚類中心的起始值。如果模式樣本可以形成若干個(gè)相距較遠(yuǎn)的孤立的區(qū)域分布，一般都能得到較好的收斂效果。 K-均值算法比較適合于分類數(shù)目已知的情況。2.5.1 K-均值算法作業(yè)/練習(xí) （選k=2,z1(1

12、)=x1,z2(1)=x10,用K-均值算法進(jìn)行聚類分析）計(jì)算機(jī)編程編寫(xiě)K-均值聚類算法程序，對(duì)下圖所示數(shù)據(jù)進(jìn)行聚類分析(選k=2)：2.5.2 ISODATA算法與K-均值算法的比較 K-均值算法通常適合于分類數(shù)目已知的聚類，而ISODATA算法則更加靈活；從算法角度看， ISODATA算法與K-均值算法相似，聚類中心都是通過(guò)樣本均值的迭代運(yùn)算來(lái)決定的； ISODATA算法加入了一些試探步驟，并且可以結(jié)合成人機(jī)交互的結(jié)構(gòu)，使其能利用中間結(jié)果所取得的經(jīng)驗(yàn)更好地進(jìn)行分類。2.5.2 ISODATA算法基本步驟和思路（1）選擇某些初始值?？蛇x不同的參數(shù)指標(biāo)，也可在迭代過(guò)程中人為修改，以將N

13、個(gè)模式樣本按指標(biāo)分配到各個(gè)聚類中心中去。（2）計(jì)算各類中諸樣本的距離指標(biāo)函數(shù)。（3）（5）按給定的要求，將前一次獲得的聚類集進(jìn)行分裂和合并處理（4）為分裂處理，（5）為合并處理），從而獲得新的聚類中心。（6）重新進(jìn)行迭代運(yùn)算，計(jì)算各項(xiàng)指標(biāo)，判斷聚類結(jié)果是否符合要求。經(jīng)過(guò)多次迭代后，若結(jié)果收斂，則運(yùn)算結(jié)束。2.5.2 ISODATA算法算法舉例對(duì)如圖模式樣本用ISODATA算法進(jìn)行分類2.6 聚類結(jié)果的評(píng)價(jià) 迅速評(píng)價(jià)聚類結(jié)果，在上述迭代運(yùn)算中是很重要的，特別是具有高維特征向量的模式，不能直接看清聚類效果，因此，可考慮用以下幾個(gè)指標(biāo)來(lái)評(píng)價(jià)聚類效果：聚類中心之間的距離距離值大，通常可考慮分為不同類聚類域中的樣本數(shù)目樣本數(shù)目少且聚類中心距離遠(yuǎn)，可考慮是否為噪聲聚類域內(nèi)樣本的距離方差方差過(guò)大的樣本可考慮是否屬于這一類討論：模式聚類目前還沒(méi)有一種通用的放之四海而皆準(zhǔn)的準(zhǔn)則，往往需要根據(jù)實(shí)際應(yīng)用來(lái)選擇合適的方法。作業(yè)畫(huà)出ISODATA算法的流程框圖試用ISODATA算法對(duì)如下模式分布進(jìn)行聚類分析：x

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

中科院模式識(shí)別第二章黃慶明

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

中科院模式識(shí)別第二章黃慶明

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔