聚類分析及實(shí)現(xiàn)_第1頁
聚類分析及實(shí)現(xiàn)_第2頁
聚類分析及實(shí)現(xiàn)_第3頁
聚類分析及實(shí)現(xiàn)_第4頁
聚類分析及實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

聚類分析及實(shí)現(xiàn)第一頁,共六十五頁,編輯于2023年,星期五統(tǒng)計(jì)方法(聚類分析):聚類分析—所研究的樣本或者變量之間存在程度不同的相似性,要求設(shè)法找出一些能夠度量它們之間相似程度的統(tǒng)計(jì)量作為分類的依據(jù),再利用這些量將樣本或者變量進(jìn)行分類系統(tǒng)聚類分析—將n個(gè)樣本或者n個(gè)指標(biāo)看成n類,一類包括一個(gè)樣本或者指標(biāo),然后將性質(zhì)最接近的兩類合并成為一個(gè)新類,依此類推。最終可以按照需要來決定分多少類,每類有多少樣本(指標(biāo))第二頁,共六十五頁,編輯于2023年,星期五統(tǒng)計(jì)方法(系統(tǒng)聚類分析步驟):系統(tǒng)聚類方法步驟:計(jì)算n個(gè)樣本兩兩之間的距離構(gòu)成n個(gè)類,每類只包含一個(gè)樣品合并距離最近的兩類為一個(gè)新類計(jì)算新類與當(dāng)前各類的距離(新類與當(dāng)前類的距離等于當(dāng)前類與組合類中包含的類的距離最小值),若類的個(gè)數(shù)等于1,轉(zhuǎn)5,否則轉(zhuǎn)3畫聚類圖決定類的個(gè)數(shù)和類。第三頁,共六十五頁,編輯于2023年,星期五系統(tǒng)聚類分析:主要介紹系統(tǒng)聚類分析方法。系統(tǒng)聚類法是聚類分析中應(yīng)用最為廣泛的一種方法,它的基本原理是:首先將一定數(shù)量的樣品或指標(biāo)各自看成一類,然后根據(jù)樣品(或指標(biāo))的親疏程度,將親疏程度最高的兩類進(jìn)行合并。然后考慮合并后的類與其他類之間的親疏程度,再進(jìn)行合并。重復(fù)這一過程,直至將所有的樣品(或指標(biāo))合并為一類。

第四頁,共六十五頁,編輯于2023年,星期五系統(tǒng)聚類分析用到的函數(shù):函數(shù)功能pdist計(jì)算觀測量兩兩之間的距離

squareform將距離矩陣從上三角形式轉(zhuǎn)換為方形形式,或從方形形式轉(zhuǎn)換為上三角形式

linkage創(chuàng)建系統(tǒng)聚類樹

dendrogram輸出冰柱圖

cophenet計(jì)算Cophenetic相關(guān)系數(shù)

cluster根據(jù)linkage函數(shù)的輸出創(chuàng)建分類

clusterdata根據(jù)數(shù)據(jù)創(chuàng)建分類

inconsistent計(jì)算聚類樹的不連續(xù)系數(shù)

第五頁,共六十五頁,編輯于2023年,星期五聚類分析研究對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)方法,是依據(jù)研究對(duì)象的個(gè)體的特征進(jìn)行分類的方法。聚類分析把分類對(duì)象按一定規(guī)則分成若干類,這些類非事先給定的,而是根據(jù)數(shù)據(jù)特征確定的。在同一類中這些對(duì)象在某種意義上趨向于彼此相似,而在不同類中趨向于不相似。職能是建立一種能按照樣品或變量的相似程度進(jìn)行分類的方法。第六頁,共六十五頁,編輯于2023年,星期五第七頁,共六十五頁,編輯于2023年,星期五聚類分析有兩種:一種是對(duì)樣品的分類,稱為Q型,另一種是對(duì)變量(指標(biāo))的分類,稱為R型。R型聚類分析的主要作用:⒈不但可以了解個(gè)別變量之間的親疏程度,而且可以了解各個(gè)變量組合之間的親疏程度。⒉根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行Q型聚類分析或回歸分析。(R2為選擇標(biāo)準(zhǔn))Q型聚類分析的主要作用:⒈可以綜合利用多個(gè)變量的信息對(duì)樣本進(jìn)行分析。⒉分類結(jié)果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類結(jié)果。⒊聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。在課堂上主要討論Q型聚類分析,Q型聚類常用的統(tǒng)計(jì)量是距離.第八頁,共六十五頁,編輯于2023年,星期五4.1樣品(變量)間相近性度量4.1.1聚類分析的基本思想在生產(chǎn)實(shí)際中經(jīng)常遇到給產(chǎn)品等級(jí)進(jìn)行分類的問題,如一等品、二等品等,在生物學(xué)中,要根據(jù)生物的特征進(jìn)行分類;在考古時(shí)要對(duì)古生物化石進(jìn)行科學(xué)分類;在球類比賽中經(jīng)常要對(duì)各球隊(duì)進(jìn)行分組如何確定種子隊(duì),這些問題就是聚類分析問題。隨著科學(xué)技術(shù)的發(fā)展,我們利用已知數(shù)據(jù)首先提取數(shù)據(jù)特征,然后借助計(jì)算機(jī)依據(jù)這些特征進(jìn)行分類,聚類的依據(jù)在于各類別之間的接近程度如何計(jì)量,通常采取距離與相似系數(shù)進(jìn)行衡量。第九頁,共六十五頁,編輯于2023年,星期五設(shè)有n個(gè)樣品的p元觀測數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣其中每一行表示一個(gè)樣品,每一列表示一個(gè)指標(biāo),xij表示第i個(gè)樣品關(guān)于第j項(xiàng)指標(biāo)的觀測值,聚類分析的基本思想就是在樣品之間定義距離,在指標(biāo)之間定義相似系數(shù),樣品之間距離表明樣品之間的相似度,指標(biāo)之間的相似系數(shù)刻畫指標(biāo)之間的相似度。將樣品(或變量)按相似度的大小逐一歸類,關(guān)系密切的聚集到較小的一類,關(guān)系疏遠(yuǎn)的聚集到較大的一類,聚類分析通常有:譜系聚類、快速聚類,我們主要介紹譜系聚類的方法與MATLAB實(shí)現(xiàn)第十頁,共六十五頁,編輯于2023年,星期五4.1.2樣品間的相似度量—距離一.常用距離的定義設(shè)有n個(gè)樣品的p元觀測數(shù)據(jù):這時(shí),每個(gè)樣品可看成p元空間的一個(gè)點(diǎn),每兩個(gè)點(diǎn)之間的距離記為滿足條件:第十一頁,共六十五頁,編輯于2023年,星期五1.歐氏距離pdist(x)2.絕對(duì)距離pdist(x,’cityblock’)3.明氏距離pdist(x,’minkowski’,r)4.切氏距離max(abs(xi-xj))5.方差加權(quán)距離將原數(shù)據(jù)標(biāo)準(zhǔn)化以后的歐氏距離6.馬氏距離pdist(x,’mahal’)第十二頁,共六十五頁,編輯于2023年,星期五7.蘭氏距離8.杰氏距離(Jffreys&Matusita)第十三頁,共六十五頁,編輯于2023年,星期五例1.為了研究遼寧、浙江、河南、甘肅、青海5省1991年城鎮(zhèn)居民生活消費(fèi)規(guī)律,需要利用調(diào)查資料對(duì)五個(gè)省進(jìn)行分類,指標(biāo)變量共8個(gè),意義如下:x1:人均糧食支出,x2:人均副食支出;x3:人均煙酒茶支出,x4:人均其他副食支出,x5:人均衣著商品支出,x6:人均日用品支出,x7:人均燃料支出,x8人均非商品支出X1X2X3X4X5X6X7X8遼寧7.939.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.319.2514.592.7514.87河南9.4227.938.28.1416.179.421.559.76甘肅9.1627.989.019.3215.999.11.8211.35青海10.0628.6410.5210.0516.188.391.9610.81表11991年五省城鎮(zhèn)居民生活月均消費(fèi)(元/人)第十四頁,共六十五頁,編輯于2023年,星期五計(jì)算各省之間的歐氏、絕對(duì)、明氏距離解:a=[7.9 39.77 8.49 12.94 19.27 11.05 2.04 13.297.68 50.37 11.35 13.3 19.25 14.59 2.75 14.879.42 27.93 8.2 8.14 16.17 9.42 1.55 9.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81];d1=pdist(a);%此時(shí)計(jì)算出各行之間的歐氏距離,為了得到書中的距離矩陣,我們鍵入命令:D=squareform(d1),%注意此時(shí)d1必須是一個(gè)行向量,結(jié)果是實(shí)對(duì)稱矩陣若想得到書中的三角陣,則有命令:S=tril(squareform(d1))第十五頁,共六十五頁,編輯于2023年,星期五S=0000011.6726000013.805424.635300013.127824.05912.20330012.798323.53893.50372.21590d2=pdist(a,'cityblock');S2=tril(squareform(d2))S2=0000019.89000027.247.0500024.5843.394.660026.5242.318.085.380d3=pdist(a,'minkowski',3);S3=tril(squareform(d3))第十六頁,共六十五頁,編輯于2023年,星期五序號(hào)國家1990199520001澳大利亞1249.391273.611282.682巴西821.6859.85919.733加拿大1641.011591.541608.324中國1330.451382.681462.085法國1546.551501.771525.956德國1656.521630.521570.697印度861.30862.51945.118意大利1321.771232.31243.519日本1873.681949.891851.2010俄羅斯1475.161315.87129711南非794.25787.48782.3812英國1486.751441.711465.1213美國2824.292659.642740.12例2.13個(gè)國家1990,1995,2000可持續(xù)發(fā)展能力如下:分成4類采用不同的距離,得到結(jié)果如下第十七頁,共六十五頁,編輯于2023年,星期五類別歐氏距離(最短距離)1日本2澳大利亞、加拿大、英、德、意、中、俄、法3巴西、印度、南非4美國類別歐氏距離(ward距離)1澳大利亞、中、意、俄2加拿大、英、德、法、日本3巴西、印度、南非4美國第十八頁,共六十五頁,編輯于2023年,星期五類別馬氏距離(ward距離)1日本2澳大利亞、加拿大、英、德、意、南非、俄、法3巴西、印度、中4美國第十九頁,共六十五頁,編輯于2023年,星期五4.1.3變量間的相似度量——相似系數(shù)當(dāng)對(duì)p個(gè)指標(biāo)變量進(jìn)行聚類時(shí),用相似系數(shù)來衡量變量之間的相似程度(關(guān)聯(lián)度),若用表示變量之間的相似系數(shù),則應(yīng)滿足:相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦。第二十頁,共六十五頁,編輯于2023年,星期五①夾角余弦兩變量的夾角余弦定義為:

第二十一頁,共六十五頁,編輯于2023年,星期五②相關(guān)系數(shù)兩變量的相關(guān)系數(shù)定義為:

第二十二頁,共六十五頁,編輯于2023年,星期五例3.計(jì)算例1中各指標(biāo)之間的相關(guān)系數(shù)與夾角余弦解:a=[7.9 39.77 8.49 12.94 19.27 11.05 2.0413.297.68 50.37 11.35 13.3 19.25 14.59 2.75 14.879.42 27.93 8.2 8.14 16.17 9.42 1.559.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81];R=corrcoef(a);%指標(biāo)之間的相關(guān)系數(shù)a1=normc(a);%將a的各列化為單位向量J=a1’*a1%計(jì)算a中各列之間的夾角余弦J=1.00000.94100.98470.96130.98240.95460.96200.96950.94101.00000.97820.99390.98530.99770.99470.99350.98470.97821.00000.98590.99110.98400.99310.99090.96130.99390.98591.00000.99440.99190.99470.99810.98240.98530.99110.99441.00000.99010.99010.99680.95460.99770.98400.99190.99011.00000.99520.99530.96200.99470.99310.99470.99010.99521.00000.99680.96950.99350.99090.99810.99680.99530.99681.0000第二十三頁,共六十五頁,編輯于2023年,星期五4.2譜系聚類法譜系聚類法是目前應(yīng)用較為廣泛的一種聚類法。譜系聚類是根據(jù)生物分類學(xué)的思想對(duì)研究對(duì)象進(jìn)行分類的方法。在生物分類學(xué)中,分類的單位是:門、綱、目、科、屬、種。其中種是分類的基本單位,分類單位越小,它所包含的生物就越少,生物之間的共同特征就越多。利用這種思想,譜系聚類首先將各樣品自成一類,然后把最相似(距離最近或相似系數(shù)最大)的樣品聚為小類,再將已聚合的小類按各類之間的相似性(用類間距離度量)進(jìn)行再聚合,隨著相似性的減弱,最后將一切子類都聚為一大類,從而得到一個(gè)按相似性大小聚結(jié)起來的一個(gè)譜系圖。第二十四頁,共六十五頁,編輯于2023年,星期五聚類分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣本的多個(gè)觀測指標(biāo),具體找出一些彼此之間相似程度較大的樣本(或指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣本(或指標(biāo))又聚合為另一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有樣本(或指標(biāo))都聚合完畢,把不同的類型一一劃分出來,形成一個(gè)由小到大的分類系統(tǒng)。最后把整個(gè)分類系統(tǒng)畫成一張譜系圖,用它把所有樣本(或指標(biāo))間的親疏關(guān)系表示出來。這種方法是最常用的、最基本的一種,稱為系統(tǒng)聚類分析。第二十五頁,共六十五頁,編輯于2023年,星期五4.2.1類間距離前面,我們介紹了兩個(gè)向量之間的距離,下面我們介紹兩個(gè)類別之間的距離:設(shè)dij表示兩個(gè)樣品xi,xj之間的距離,Gp,Gq分別表示兩個(gè)類別,各自含有np,nq個(gè)樣品.(1)最短距離即用兩類中樣品之間的距離最短者作為兩類間距離(2)最長距離即用兩類中樣品之間的距離最長者作為兩類間距離第二十六頁,共六十五頁,編輯于2023年,星期五最短距離(NearestNeighbor)x21?x12?x22?x11?最長距離(FurthestNeighbor

)???x11?x21????第二十七頁,共六十五頁,編輯于2023年,星期五重心距離????????第二十八頁,共六十五頁,編輯于2023年,星期五最長距離最短距離ABCDEF第二十九頁,共六十五頁,編輯于2023年,星期五中間距離第三十頁,共六十五頁,編輯于2023年,星期五(3)類平均距離即用兩類中所有兩兩樣品之間距離的平均作為兩類間距離(4)重心距離其中分別是Gp,Gq的重心,這是用兩類的重心之間的歐氏距離作為兩類間的距離。(5)離差平方和距離(ward)顯然,離差平方和距離與重心距離的平方成正比。第三十一頁,共六十五頁,編輯于2023年,星期五4.2.2類間距離的遞推公式設(shè)有兩類Gp,Gq合并成新的一類Gr,包含了nr=np+nq個(gè)樣品,如何計(jì)算Gr與其他類別Gk之間的距離,這就需要建立類間距離的遞推公式。(1)最短距離(2)最長距離(3)類平均距離(4)重心距離第三十二頁,共六十五頁,編輯于2023年,星期五證明:將代入(1)(1)

將上式中加上再減去與,合并同類項(xiàng)得第三十三頁,共六十五頁,編輯于2023年,星期五上式第二行合并同類項(xiàng),得(5)離差平方和距離第三十四頁,共六十五頁,編輯于2023年,星期五1.選擇樣本間距離的定義及類間距離的定義;2.計(jì)算n個(gè)樣本兩兩之間的距離,得到距離矩陣

3.構(gòu)造個(gè)類,每類只含有一個(gè)樣本;4.合并符合類間距離定義要求的兩類為一個(gè)新類;5.計(jì)算新類與當(dāng)前各類的距離。若類的個(gè)數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4;6.畫出聚類圖;

7.決定類的個(gè)數(shù)和類。4.2.3譜系聚類法的步驟

譜系聚類的步驟如下:第三十五頁,共六十五頁,編輯于2023年,星期五系統(tǒng)聚類分析的方法系統(tǒng)聚類法的聚類原則決定于樣品間的距離以及類間距離的定義,類間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法。以下用dij表示樣品X(i)和X(j)之間的距離,當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時(shí),令;以下用D(p,q)表示類Gp和Gq之間的距離。第三十六頁,共六十五頁,編輯于2023年,星期五(1)n個(gè)樣品開始作為n個(gè)類,計(jì)算兩兩之間的距離或相似系數(shù),得到實(shí)對(duì)稱矩陣(2)從D0的非主對(duì)角線上找最?。ň嚯x)或最大元素(相似系數(shù)),設(shè)該元素是Dpq,則將Gp,Gq合并成一個(gè)新類Gr=(Gp,Gq),在D0中去掉Gp,Gq所在的兩行、兩列,并加上新類與其余各類之間的距離(或相似系數(shù)),得到n-1階矩陣D1。第三十七頁,共六十五頁,編輯于2023年,星期五(3)從D1出發(fā)重復(fù)步驟(2)的做法得到D2,再由D2出發(fā)重復(fù)上述步驟,直到所有樣品聚為一個(gè)大類為止。(4)在合并過程中要記下合并樣品的編號(hào)及兩類合并時(shí)的水平,并繪制聚類譜系圖。例4.

從例1算得的樣品間的歐氏距離矩陣出發(fā),用下列方法進(jìn)行譜系聚類。(1)最短距離,(2)最長距離解:我們用1,2,3,4,5分別表示遼寧、浙江、河南、甘肅和青海,將距離矩陣記為D0第三十八頁,共六十五頁,編輯于2023年,星期五(1)最短距離法:將各省看成一類,即Gi={i}i=1,…,5,從D0可以看出各類中距離最短的是d43=2.20,因此將G3,G4在2.20水平上合成一個(gè)新類G6={3,4},計(jì)算G6和G1,G2,G5之間的最短距離

,得第三十九頁,共六十五頁,編輯于2023年,星期五將計(jì)算結(jié)果作為第一列,從D0中去掉第3、4行與3、4列,剩余元素作為其余各列得到D1從D1可以看出G6與G5的距離最小,因此在2.21的水平上將G6與G5合成一類G7,即G7={3,4,5}計(jì)算G7與G1,G2之間的最短距離,得第四十頁,共六十五頁,編輯于2023年,星期五將計(jì)算結(jié)果作為第一列,從D1中劃掉{3,4}與{5}所在的行與列,剩余元素作為其他列得從D2可以看出G1,G2最接近,在11.67的水平上合并成一類G8,至此只剩下G7,G8兩類,他們之間的距離為:12.8,故在此水平上將合成一類,包含了全部的五個(gè)省份。最后,我們作出譜系聚類圖:

第四十一頁,共六十五頁,編輯于2023年,星期五圖1最短距離聚類圖最長距離聚類方法,同學(xué)練習(xí)第四十二頁,共六十五頁,編輯于2023年,星期五例為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費(fèi)情況的分布規(guī)律,根據(jù)調(diào)查資料做類型分類,用最短距離做類間分類。數(shù)據(jù)如下:x1x2x3x4x5x6x7x8遼寧17.9039.778.4912.9419.2711.052.0413.29浙江27.6850.3711.3513.3019.2514.592.7514.87河南39.4227.938.208.1416.179.421.559.76甘肅49.1627.989.019.3215.999.101.8211.35青海510.0628.6410.5210.0516.188.391.9610.81第四十三頁,共六十五頁,編輯于2023年,星期五將每一個(gè)省區(qū)視為一個(gè)樣品,先計(jì)算5個(gè)省區(qū)之間的歐式距離,用D0表示距離矩陣(對(duì)稱陣,故給出下三角陣)因此將3.4合并為一類,為類6,替代了3、4兩類類6與剩余的1、2、5之間的距離分別為:

d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21第四十四頁,共六十五頁,編輯于2023年,星期五得到新矩陣合并類6和類5,得到新類7類7與剩余的1、2之間的距離分別為:

d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54第四十五頁,共六十五頁,編輯于2023年,星期五得到新矩陣合并類1和類2,得到新類8此時(shí),我們有兩個(gè)不同的類:類7和類8。它們的最近距離d(7,8)

=min(d71,d72)=min(12.80,23.54)=12.80第四十六頁,共六十五頁,編輯于2023年,星期五得到矩陣最后合并為一個(gè)大類。這就是按最短距離定義類間距離的系統(tǒng)聚類方法。最長距離法類似!第四十七頁,共六十五頁,編輯于2023年,星期五4.2.4譜系聚類的MATLAB實(shí)現(xiàn):(1)輸入數(shù)據(jù)矩陣,注意行與列的實(shí)際意義;(2)計(jì)算各樣品之間的距離(行?列?)歐氏距離:d=pdist(A)%注意計(jì)算A中各行之間的距離;絕對(duì)距離:d=pdist(A,'cityblock');明氏距離:d=pdist(A,'minkowski',r);%r要填上具體的實(shí)數(shù);方差加權(quán)距離:d=pdist(A,'seuclid');馬氏距離:d=pdist(A,'mahal');第四十八頁,共六十五頁,編輯于2023年,星期五注意:以上命令輸出的結(jié)果是一個(gè)行向量,如果要得到距離矩陣,可以用命令:

D=squareform(d),若得到三角陣,可以用命令:D=tril(squareform(d1))(3)

選擇不同的類間距離進(jìn)行聚類最短距離:z1=linkage(d)%此處及以下的d都是(2)中算出的距離行向量最長距離:z2=linkage(d,'complete')中間距離:z3=linkage(d,'centroid')重心距離:z4=linkage(d,'average')離差平方和:z5=linkage(d,'ward')第四十九頁,共六十五頁,編輯于2023年,星期五注意:此時(shí)輸出的結(jié)果是一個(gè)n-1行3列的矩陣,每一行表示在某水平上合并為一類的序號(hào);(4)作出譜系聚類圖H=dendrogram(z,d)%注意若樣本少于30,可以省去d,否則必須填寫.(5)根據(jù)分類數(shù)目,輸出聚類結(jié)果T=cluster(z,k)%注意k是分類數(shù)目,z是(3)中的結(jié)果Find(T==k0)%找出屬于第k0類的樣品編號(hào)第五十頁,共六十五頁,編輯于2023年,星期五例5.將例1利用MATLAB軟件進(jìn)行聚類解:b=[7.9 39.77 8.49 12.94 19.27 11.05 2.04 13.297.68 50.37 11.35 13.3 19.25 14.59 2.75 14.879.42 27.93 8.2 8.14 16.17 9.42 1.55 9.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81];歐氏距離:d1=pdist(b);%b中每行之間距離%五種類間距離聚類z1=linkage(d1);z2=linkage(d1,'complete');z3=linkage(d1,'average');z4=linkage(d1,'centroid');z5=linkage(d1,'ward');第五十一頁,共六十五頁,編輯于2023年,星期五其中z1輸出結(jié)果為:z1=3.00004.00002.20336.00005.00002.21591.00002.000011.67268.00007.000012.7983

%在2.2033的水平,G3,G4合成一類為G6%在2.2159的水平,G6,G5合成一類為G7%在11.6726的水平,G1,G2合成一類為G8%在12.7983的水平,G7,G8合成一類第五十二頁,共六十五頁,編輯于2023年,星期五作譜系聚類圖:H=dendrogram(z1)%輸出分類結(jié)果T=cluster(z1,3)T12333

圖2.最短距離聚類圖結(jié)果表明:若分為三類,則遼寧是一類,浙江是一類,河南、青海和甘肅是另一類。第五十三頁,共六十五頁,編輯于2023年,星期五以上是樣品之間是歐氏距離,類間距離是最短距離聚類的結(jié)果,實(shí)際上,對(duì)樣品之間的每一種距離,可以由五種不同的類間距離進(jìn)行聚類。那么哪一種最好呢?為此我們可以計(jì)算復(fù)合相關(guān)系數(shù),若該系數(shù)越接近于1則該聚類越理想。在MATLAB中計(jì)算復(fù)合相關(guān)系數(shù)的命令如下:R=cophenet(z,d)其中,z是用某種類間距離linkage后的結(jié)果,d是樣品之間的某種距離,

想了解利用歐氏距離聚類,那種類間距離最好,可以計(jì)算五個(gè)復(fù)合相關(guān)系數(shù):

第五十四頁,共六十五頁,編輯于2023年,星期五R=[cophenet(z1,d1),cophenet(z2,d1),cophenet(z3,d1),cophenet(z4,d1),cophenet(z5,d1)]結(jié)果為:0.84130.85710.86230.86220.8532

由于0.8623最大,故認(rèn)為若樣品之間采用歐氏距離,則類間距離以中間距離最好,如果我們要找到最理想的分類方法,可以對(duì)每一種樣品之間的距離,都計(jì)算上述的復(fù)合相關(guān)系數(shù),這樣就可以找到最理想的樣品距離與對(duì)應(yīng)的類間距離。第五十五頁,共六十五頁,編輯于2023年,星期五a=[28,18,11,21,26,20,16,14,24,2229,23,22,23,29,23,22,23, 29,2728,18,16,22,26 ,22,22,24, 24,24];對(duì)a的各列進(jìn)行聚類,如何計(jì)算復(fù)合相關(guān)系數(shù)d=[pdist(a');pdist(a','mahal');pdist(a','cityblock');pdist(a','seuclid');pdist(a','minkowski',0.4)];fori=1:5d1=linkage(d(i,:));r1(i)=cophenet(d1,d(i,:));endfori=1:5d2=linkage(d(i,:),'complete');r2(i)=cophenet(d2,d(i,:));end第五十六頁,共六十五頁,編輯于2023年,星期五fori=1:5d3=linkage(d(i,:),'average');r3(i)=cophenet(d3,d(i,:));endfori=1:5d4=linkage(d(i,:),'centroid');r4(i)=cophenet(d4,d(i,:));endfori=1:5d5=linkage(d(i,:),'ward');r5(i)=cophenet(d5,d(i,:));endr=[r1;r2;r3;r4;r5];第五十七頁,共六十五頁,編輯于2023年,星期五4.3快速聚類法快速聚類法又稱為動(dòng)態(tài)聚類法,該方法首先將樣品進(jìn)行粗糙分類,然后依據(jù)樣品間的距離按一定規(guī)則進(jìn)行調(diào)整,直至不能調(diào)整為止.該方法適用于樣品數(shù)量較大的數(shù)據(jù)集的聚類分析,但是需要事先給定聚類數(shù)目,此數(shù)目對(duì)最終聚類結(jié)果有很大影響,實(shí)際應(yīng)用時(shí)要選擇多個(gè)數(shù)目進(jìn)行分類,然后找出合理的分類結(jié)果.4.3.1快速聚類的步驟1.選擇聚點(diǎn)聚點(diǎn)是一批有代表性的樣品,他的選擇決定了初始分類,并對(duì)最終分類有很大影響,選擇聚點(diǎn)之前要先確定聚類數(shù)k.第五十八頁,共六十五頁,編輯于2023年,星期五通常,有以下確定聚點(diǎn)的方法:①經(jīng)驗(yàn)確定:對(duì)樣品非常熟悉,根據(jù)經(jīng)驗(yàn)確定k個(gè)樣品作為聚點(diǎn).(比如確定種子隊(duì))②將n個(gè)樣品隨機(jī)地分為k類,然后以每一類的均值向量作為聚點(diǎn).③最小最大原則:若n個(gè)樣品分為k類,先選擇所有樣品中距離最大的兩個(gè)樣品xi1,xi2為兩個(gè)初始聚點(diǎn),即d(xi1,xi2)=max(dij),然后選擇第3個(gè)聚點(diǎn)xi3,使得該點(diǎn)到上述兩點(diǎn)距離最小是所有其它點(diǎn)到上述兩點(diǎn)距離最小中最大者,即min{d(xi3,xir),r=1,2}=max{min[d(xj,xr),r=1,2]}④按照同樣的原則選取xi4,依次下去,直至選出k個(gè)聚點(diǎn)xi1,xi2,…,xik第五十九頁,共六十五頁,編輯于2023年,星期五序號(hào)國家1990199520001澳大利亞1249.391273.611282.682巴西821.6859.85919.733加拿大1641.011591.541608.324中國1330.451382.681462.085法國1546.551501.771525.956德國1656.521630.521570.697印度861.30862.51945.118意大利1321.771232.31243.519日本1873.681949.891851.2010俄羅斯1475.161315.87129711南非794.25787.48782.3812英國1486.751441.711465.1213美國2824.292659.642740.12前例2中,分成4類用不同方法確定聚點(diǎn)①人為確定:澳大利亞、中國、英國、美國第六十頁,共六十五頁,編輯于2023年,星期五②首先按照亞非洲、美洲、歐洲、大洋洲分為四類,以每一類的均值向量作為聚點(diǎn).③最小最大準(zhǔn)則(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論