版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
聚類分析及其應用實例Outlines聚類的思想常用的聚類方法實例分析:層次聚類1.聚類的思想Oh?1.聚類的思想Oh!1.聚類的思想聚類(clustering)是對物理的或抽象的對象集合分組的過程即把“性質相似”或“相互關系密切”的樣品或指標聚在一起。同一個類內樣本之間彼此相似,不同類間的樣本足夠不相似。尋找數(shù)據(jù)中潛在的自然分組結構或感興趣的關系。samecolor!基本原理:將隨機現(xiàn)象歸類的統(tǒng)計學方法;分類R型聚類:指標聚類,目的是指標降維從而選擇有代表性的指標;Pearson、Spearman系數(shù)Q型聚類:樣本聚類,目的是找出樣品間的共性;歐氏距離、絕對距離、馬氏距離及明氏距離等。逐步聚類法---用于對大樣本的樣品間聚類K-均值聚類方法系統(tǒng)聚類法---用于對小樣本的樣品間聚類及對指標聚類。層次聚類模糊聚類法---建立在模糊數(shù)學基礎上,適用于小樣本分割聚類法---適用于對指標聚類
……2常用的聚類分析方法3.實例分析:層次聚類算法凝聚的方法(自底向上)『常用』
思想:一開始將每個對象作為單獨的一組,然后根據(jù)同類相近,異類相異的原則,合并對象,直到所有的組合并成一個,或達到一個終止條件。分裂的方法(自頂向下)
思想:一開始將所有的對象置于一類,在迭代的每一步中,一個類不斷地分為更小的類,直到每個對象在單獨的一個類中,或達到一個終止條件
定義:對給定的數(shù)據(jù)進行層次的分解X1:Gibbon(長臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)X3X4X1X5X2
凝聚的層次聚類示意圖Oh?常用的聚類統(tǒng)計量距離函數(shù)----用于對樣品的聚類歐式距離:兩點之間的直線距離馬氏距離:數(shù)據(jù)的協(xié)方差距離切比雪夫距離:兩個向量之間的最大距離曼哈頓距離:運動物體走過的實際距離
。。。。。。
相似系數(shù)----常用于對變量的聚類Pearson相關系數(shù):兩個連續(xù)變量間呈線性相關Spearman相關系數(shù):利用兩變量的秩次大小作線性相關分析Kendall等級相關系數(shù),。。。X1:Gibbon(長臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)X3X4X1X5X2
凝聚的層次聚類示意圖
C3C4常用的類間距離最短距離最長距離類平均距離幾何平均距離離差平方和法最短距離(singlelinkage):Gp和Gq中最鄰近的兩個樣本的距離為這兩個類之間的距離。GpGq最長距離(completelinkage
):Gp和Gq中相距最遠的兩個樣本的距離為這兩個類之間的距離。類平均距離(averagelinkage):
Gp和Gq中每兩兩樣本間距離的平均值作為兩個類之間的距離。幾何中心距離(centroidlinkage):用Gp和Gq兩類幾何中心的距離為兩個類之間的距離。用Gp和Gq表示兩個類,它們所包含的樣本數(shù)目分別為tp和tq,類Gp和Gq之間的距離用Dpq表示。ClusterPClusterQClusterM離差平方和法(wardmethod
):各元素到類中心的歐式距離之和。凝聚的層次聚類法舉例已知:根據(jù)5種靈長類動物朊粒蛋白的氨基酸序列比較,得到它們之間的距離矩陣(經(jīng)過數(shù)據(jù)變換處理)。X(1):Gibbon(長臂猿);X(2):Symphalangus(合趾猿);X(3)
:Human(人);X(4)
:Gorilla(大猩猩);X(5)
:Chimpanzee(黑猩猩)構造:樣本間距離——歐氏距離;類間距離——最短距離;X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0步驟15個物種各自構成1類,得到5類,有:初始分類G(1)={X(i)}(i=1,2,3,4,5)初始類別數(shù)目m=5初始類間距離矩陣D(1)X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0D(1)X3X4X1X5X2X(3)X(4)X(5)C(4)X(3)01.53.5X(4)02X(5)0C(4)0步驟2由D(1)知,合并X(1)和X(2)為新類C(4)={X(1),X(2)},有:新的G(2)={X(3),
X(4),
X(5),
C(4)}新的類別數(shù)目m=4新的類間距離矩陣D(2)D(2)X(1)X(2)X(3)X(4)X(5)X(1)013.557X(2)02.546X(3)01.53.5X(4)02X(5)0D(1)C(4)X1X3X4X5X2C42.546步驟3由D(2)知,合并X(3)和X(4)為一新類C(3)={X(3),X(4)},有:新的G(3)={
X(5),
C(4),
C(3)}新的類別數(shù)目m=3新的類間距離矩陣D(3)X(5)C(4)C(3)X(5)06C(4)0C(3)0D(3)X1X3X4X5X2C4X(3)X(4)X(5)C(4)X(3)01.53.52.5X(4)024X(5)06C(4)0C3C32.52步驟4由D(3)知,合并X(5)和C(3)為一新類C(2)={X(5),C(3)},有:新的G(4)={C(4),
C(2)}新的類別數(shù)目m=2新的類間距離矩陣D(4)C(4)C(2)C(4)0C(2)0D(4)C4C3X3X4X5X2X1X(5)C(4)C(3)X(5)062C(4)02.5C(3)0D(3)C2C22.5C4步驟5由D(4)知,最后合并C(4)和C(2)為一新類C(1)={C(4),C(2)},有:新的G(5)={C(4),
C(2)}新的類別數(shù)目m=1新的類間距離矩陣D(5)C(1)C(1)0D(5)C3X3X4X5X2C2X1C1C(4)C(2)C(4)02.5C(2)0C3X1:Gibbon(長臂猿)X2:Symphalangus(合趾猿)X3:Human(人)X4:Gorilla(大猩猩)X5:Chimpanzee(黑猩猩)Human(人)Gorilla(大猩猩)Chimpanzee(黑猩猩)Symphalangus(合趾猿)Gibbon(長臂猿)X3X4X1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度書畫展覽舉辦方與參展者合同范本3篇
- 2024年度農(nóng)產(chǎn)品電商平臺運營與供應鏈管理合同6篇
- 2024年天然氣管道施工環(huán)保勞務合同范本3篇
- 2024年度服裝設計:有限合伙合同范例3篇
- 2024版大數(shù)據(jù)與智慧交通管理系統(tǒng)合同2篇
- 2024年棄土處理場土地復墾與開發(fā)協(xié)議合同3篇
- 2024年特許經(jīng)營合同標的及其屬性
- 2024年人事代理聘用合同簽訂與履行標準流程2篇
- 2024年版權質押合同法律效力與操作流程
- 2024年某企業(yè)與廣告公司就品牌宣傳推廣所簽訂的委托合同
- PPT2023版中國近現(xiàn)代史綱要課件第十一專題決定當代中國命運的關鍵一招PPT
- 義務教育化學課程標準(2022年版)
- 2023年朱文峰《中醫(yī)診斷學》視頻講稿
- 少兒美術教案課件-《美麗的楓葉》
- 中國傳統(tǒng)文化剪紙PPT模板
- 健康生活方式與慢性病
- 系列壓路機xmr30s40s操作保養(yǎng)手冊
- 廣州教科版六年級英語上冊M1-6復習練習題(含答案)
- GB/T 37136-2018電力用戶供配電設施運行維護規(guī)范
- GB/T 20388-2006紡織品鄰苯二甲酸酯的測定
- GB/T 19066.1-2003柔性石墨金屬波齒復合墊片分類
評論
0/150
提交評論