聚類分析及其應用實例_第1頁
聚類分析及其應用實例_第2頁
聚類分析及其應用實例_第3頁
聚類分析及其應用實例_第4頁
聚類分析及其應用實例_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

聚類分析及其應用實例Outlines聚類的思想常用的聚類方法實例分析:層次聚類1.聚類的思想Oh?1.聚類的思想Oh!1.聚類的思想聚類(clustering)是對物理的或抽象的對象集合分組的過程即把“性質相似”或“相互關系密切”的樣品或指標聚在一起。同一個類內樣本之間彼此相似,不同類間的樣本足夠不相似。尋找數(shù)據(jù)中潛在的自然分組結構或感興趣的關系。samecolor!基本原理:將隨機現(xiàn)象歸類的統(tǒng)計學方法;分類R型聚類:指標聚類,目的是指標降維從而選擇有代表性的指標;Pearson、Spearman系數(shù)Q型聚類:樣本聚類,目的是找出樣品間的共性;歐氏距離、絕對距離、馬氏距離及明氏距離等。逐步聚類法---用于對大樣本的樣品間聚類K-均值聚類方法系統(tǒng)聚類法---用于對小樣本的樣品間聚類及對指標聚類。層次聚類模糊聚類法---建立在模糊數(shù)學基礎上,適用于小樣本分割聚類法---適用于對指標聚類

……2常用的聚類分析方法3.實例分析:層次聚類算法凝聚的方法(自底向上)『常用』

思想:一開始將每個對象作為單獨的一組,然后根據(jù)同類相近,異類相異的原則,合并對象,直到所有的組合并成一個,或達到一個終止條件。分裂的方法(自頂向下)

思想:一開始將所有的對象置于一類,在迭代的每一步中,一個類不斷地分為更小的類,直到每個對象在單獨的一個類中,或達到一個終止條件

定義:對給定的數(shù)據(jù)進行層次的分解X1:Gibbon(長臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)X3X4X1X5X2

凝聚的層次聚類示意圖Oh?常用的聚類統(tǒng)計量距離函數(shù)----用于對樣品的聚類歐式距離:兩點之間的直線距離馬氏距離:數(shù)據(jù)的協(xié)方差距離切比雪夫距離:兩個向量之間的最大距離曼哈頓距離:運動物體走過的實際距離

。。。。。。

相似系數(shù)----常用于對變量的聚類Pearson相關系數(shù):兩個連續(xù)變量間呈線性相關Spearman相關系數(shù):利用兩變量的秩次大小作線性相關分析Kendall等級相關系數(shù),。。。X1:Gibbon(長臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)X3X4X1X5X2

凝聚的層次聚類示意圖

C3C4常用的類間距離最短距離最長距離類平均距離幾何平均距離離差平方和法最短距離(singlelinkage):Gp和Gq中最鄰近的兩個樣本的距離為這兩個類之間的距離。GpGq最長距離(completelinkage

):Gp和Gq中相距最遠的兩個樣本的距離為這兩個類之間的距離。類平均距離(averagelinkage):

Gp和Gq中每兩兩樣本間距離的平均值作為兩個類之間的距離。幾何中心距離(centroidlinkage):用Gp和Gq兩類幾何中心的距離為兩個類之間的距離。用Gp和Gq表示兩個類,它們所包含的樣本數(shù)目分別為tp和tq,類Gp和Gq之間的距離用Dpq表示。ClusterPClusterQClusterM離差平方和法(wardmethod

):各元素到類中心的歐式距離之和。凝聚的層次聚類法舉例已知:根據(jù)5種靈長類動物朊粒蛋白的氨基酸序列比較,得到它們之間的距離矩陣(經(jīng)過數(shù)據(jù)變換處理)。X(1):Gibbon(長臂猿);X(2):Symphalangus(合趾猿);X(3)

:Human(人);X(4)

:Gorilla(大猩猩);X(5)

:Chimpanzee(黑猩猩)構造:樣本間距離——歐氏距離;類間距離——最短距離;X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0步驟15個物種各自構成1類,得到5類,有:初始分類G(1)={X(i)}(i=1,2,3,4,5)初始類別數(shù)目m=5初始類間距離矩陣D(1)X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0D(1)X3X4X1X5X2X(3)X(4)X(5)C(4)X(3)01.53.5X(4)02X(5)0C(4)0步驟2由D(1)知,合并X(1)和X(2)為新類C(4)={X(1),X(2)},有:新的G(2)={X(3),

X(4),

X(5),

C(4)}新的類別數(shù)目m=4新的類間距離矩陣D(2)D(2)X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0D(1)C(4)X1X3X4X5X2C42.546步驟3由D(2)知,合并X(3)和X(4)為一新類C(3)={X(3),X(4)},有:新的G(3)={

X(5),

C(4),

C(3)}新的類別數(shù)目m=3新的類間距離矩陣D(3)X(5)C(4)C(3)X(5)06C(4)0C(3)0D(3)X1X3X4X5X2C4X(3)X(4)X(5)C(4)X(3)01.53.52.5X(4)024X(5)06C(4)0C3C32.52步驟4由D(3)知,合并X(5)和C(3)為一新類C(2)={X(5),C(3)},有:新的G(4)={C(4),

C(2)}新的類別數(shù)目m=2新的類間距離矩陣D(4)C(4)C(2)C(4)0C(2)0D(4)C4C3X3X4X5X2X1X(5)C(4)C(3)X(5)062C(4)02.5C(3)0D(3)C2C22.5C4步驟5由D(4)知,最后合并C(4)和C(2)為一新類C(1)={C(4),C(2)},有:新的G(5)={C(4),

C(2)}新的類別數(shù)目m=1新的類間距離矩陣D(5)C(1)C(1)0D(5)C3X3X4X5X2C2X1C1C(4)C(2)C(4)02.5C(2)0C3X1:Gibbon(長臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)Human(人)Gorilla(大猩猩)Chimpanzee(黑猩猩)Symphalangus(合趾猿)Gibbon(長臂猿)X3X4X1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論