版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
聚類分析
“人以類聚,物以群分”。對事物進(jìn)行分類,是人們認(rèn)識事物的出發(fā)點(diǎn),也是人們認(rèn)識世界的一種重要方法。因此,分類學(xué)已成為人們認(rèn)識世界的一門基礎(chǔ)學(xué)科。
聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種多元統(tǒng)計(jì)方法,所謂類,通俗地說,就是指相似元素的集合。
本次主要介紹譜系聚類、K均值聚類、模糊C均值聚類和模糊減法聚類及其MATLAB實(shí)現(xiàn).1距離聚類
1.1聚類的思想在社會經(jīng)濟(jì)領(lǐng)域中存在著大量分類問題,比如對我國30個(gè)省市自治區(qū)獨(dú)立核算工業(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析,一般不是逐個(gè)省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟(jì)效益的代表性指標(biāo),如:百元固定資產(chǎn)實(shí)現(xiàn)利稅、資金利稅率、產(chǎn)值利稅率、百元銷售收入實(shí)現(xiàn)利潤、全員勞動(dòng)生產(chǎn)率等等,根據(jù)這些指標(biāo)對30個(gè)省市自治區(qū)進(jìn)行分類,然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評價(jià),就易于得出科學(xué)的分析。由于要考察的物價(jià)指數(shù)很多,通常先對這些物價(jià)指數(shù)進(jìn)行分類??傊枰诸惖膯栴}很多,因此聚類分析這個(gè)有用的數(shù)學(xué)工具越來越受到人們的重視,它在許多領(lǐng)域中都得到了廣泛的應(yīng)用。聚類問題的一般提法是:設(shè)有個(gè)樣品的元觀測數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣其中每一行表示一個(gè)樣品,每一列表示一個(gè)指標(biāo),表示第個(gè)樣品最新第項(xiàng)指標(biāo)的觀測值,要根據(jù)觀測值矩陣X對樣品或指標(biāo)進(jìn)行分類。分類的思想:在樣品之間定義距離,在指標(biāo)之間定義相似系數(shù).樣品距離表明樣品之間的相似度,指標(biāo)之間的相似系數(shù)刻畫指標(biāo)之間的相似度.
聚類分析的基本思想:將樣品(或變量)按相似度的大小逐一歸類,關(guān)系密切的聚集到較小的一類,關(guān)系疏遠(yuǎn)的聚集到較大的一類,直到所有的樣品(或變量)都聚集完畢。向量的距離
設(shè)有n個(gè)樣品的p元觀測數(shù)據(jù)這時(shí),每個(gè)樣品可看成n元空間的一個(gè)點(diǎn),也即一個(gè)維向量,兩個(gè)向量之間的距離記為,滿足如下條件:(1)(非負(fù)性)且當(dāng)且僅當(dāng)(2)(對稱性)(3)(三角不等式)在聚類分析中最常用的是歐氏距離。1.歐氏(Euclidean)距離2.絕對距離3.明可夫斯基(Minkowski)距離4.切貝雪夫(Chebyshev)距離其中m(m>0)為常數(shù)。
5.方差加權(quán)(seuclidean)距離6.馬氏(mahalanobis)距離其中為樣品的協(xié)方差矩陣.其中
在MATLAB中,計(jì)算距離的命令是pdist.調(diào)用格式Y(jié)=pdist(X,distance)輸入的X是一個(gè)矩陣,行為個(gè)體,列為指標(biāo),distance是距離的類型。若缺省distance,則輸出的Y是一個(gè)行向量,向量的長度為(N-1)*N/2,其中N是樣本的容量,Y的元素分別為個(gè)體(1,2),(1,3),...,(1,N),(2,3),...(2,N),.....(N-1,N)之間的歐氏距離??蛇x項(xiàng)distance有:‘euclidean’歐氏距離;‘cityblock’絕對距離;‘minkowski’明氏距離(m=2);‘chebychev’切氏距離;‘seuclidean’方差加權(quán)距離;‘mahalanobis’馬氏距離;‘jaccard’Jaccard相關(guān)系數(shù)。?。ㄊ校┕ば绞杖?元/人)經(jīng)營凈收入(元/人)財(cái)產(chǎn)性收入(元/人)轉(zhuǎn)移性收入(元/人)北京18738.96778.36452.757707.87上海21791.111399.14369.126199.77安徽9302.38959.43293.923603.72陜西8354.63638.7665.332610.61新疆9422.22938.15141.751976.49表省(區(qū)、市)城鎮(zhèn)居民人均家庭收入例1.12021年我國5省、區(qū)、市城鎮(zhèn)居民人均年家庭收入如下表為了研究上述5個(gè)省、區(qū)、市的城鎮(zhèn)居民收入差異,需要利用統(tǒng)計(jì)資料對其進(jìn)行分類,指標(biāo)變量有4個(gè),計(jì)算各省、區(qū)、市之間的前6種距離9、人的價(jià)值,在招收誘惑的一瞬間被決定。2023/2/32023/2/3Friday,February3,202310、低頭要有勇氣,抬頭要有低氣。2023/2/32023/2/32023/2/32/3/20234:39:03PM11、人總是珍惜為得到。2023/2/32023/2/32023/2/3Feb-2303-Feb-2312、人亂于心,不寬余請。2023/2/32023/2/32023/2/3Friday,February3,202313、生氣是拿別人做錯(cuò)的事來懲罰自己。2023/2/32023/2/32023/2/32023/2/32/3/202314、抱最大的希望,作最大的努力。03二月20232023/2/32023/2/32023/2/315、一個(gè)人炫耀什么,說明他內(nèi)心缺少什么。。二月232023/2/32023/2/32023/2/32/3/202316、業(yè)余生活要有意義,不要越軌。2023/2/32023/2/303February202317、一個(gè)人即使已登上頂峰,也仍要自強(qiáng)不息。2023/2/32023/2/32023/2/32023/2/3解:x=[18738.96778.36452.757707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d1=pdist(x);%或者命令d1=pdist(x,'euclidean')此時(shí)計(jì)算出各行之間的歐氏距離,為了得到距離矩陣,鍵入命令:
D=squareform(d1);%注意此時(shí)d1必須是一個(gè)行向量,結(jié)果為實(shí)對稱矩陣9、人的價(jià)值,在招收誘惑的一瞬間被決定。2023/2/32023/2/3Friday,February3,202310、低頭要有勇氣,抬頭要有低氣。2023/2/32023/2/32023/2/32/3/20234:39:03PM11、人總是珍惜為得到。2023/2/32023/2/32023/2/3Feb-2303-Feb-2312、人亂于心,不寬余請。2023/2/32023/2/32023/2/3Friday,February3,202313、生氣是拿別人做錯(cuò)的事來懲罰自己。2023/2/32023/2/32023/2/32023/2/32/3/202314、抱最大的希望,作最大的努力。03二月20232023/2/32023/2/32023/2/315、一個(gè)人炫耀什么,說明他內(nèi)心缺少什么。。二月232023/2/32023/2/32023/2/32/3/202316、業(yè)余生活要有意義,不要越軌。2023/2/32023/2/303February202317、一個(gè)人即使已登上頂峰,也仍要自強(qiáng)不息。2023/2/32023/2/32023/2/32023/2/3D=1.0e+004*00.34621.02931.15751.09440.346201.27631.39321.30801.02931.276300.14280.16391.15751.39320.142800.12801.09441.30800.16390.12800矩陣D中的第3行第2列為12763,表示上海與山西的歐氏距離為12763,其余類推.若想得到下三角陣,則有命令:S=tril(squareform(d1))S=1.0e+004*000000.346200001.02931.27630001.15751.39320.1428001.09441.30800.16390.12800若想得到上三角矩陣,可用命令S=triu(squareform(d1))歐氏距離與量綱有關(guān),因此,有時(shí)需要對數(shù)據(jù)進(jìn)行預(yù)處理,如標(biāo)準(zhǔn)化等,在Matlab中的命令是:zscore(x).
輸入x表示N行p列的原始觀測矩陣,行為個(gè)體,列為指標(biāo)。輸出Z為x的標(biāo)準(zhǔn)化矩陣,即Z=(x-ones(N,1)*mean(x))./(ones(N,1)*std(x)),其中mean(x)為行向量,表示各個(gè)指標(biāo)的均值估計(jì),std(x)表示指標(biāo)的標(biāo)準(zhǔn)差估計(jì)。./表示對應(yīng)元素相除,ones(N,1)表示元素全為1的行向量,向量的長度為N。
Z=(x-ones(5,1)*mean(x))./(ones(5,1)*std(x))d3=pdist(x,'minkowski',3);%計(jì)算明氏距離,d3為1行10列的行向量d4=pdist(x,'chebychev')
%計(jì)算切氏距離.d5=pdist(x,'seuclidean')
%計(jì)算方差加權(quán)距離.d6=pdist(x,'mahalanobis')%計(jì)算馬氏距離d2=pdist(x,'cityblock');
%計(jì)算絕對距離D2=squareform(d2)D2=1.0e+004*00.52651.38811.60091.55190.526501.56001.80901.72811.38811.560000.24900.19211.60091.80900.249000.20781.55191.72810.19210.20780
聚類分析方法不僅可以對樣品進(jìn)行分類,而且可以對變量進(jìn)行分類,在對變量進(jìn)行分類時(shí),常常采用相似系數(shù)來度量變量之間的相似性。對個(gè)指標(biāo)變量進(jìn)行聚類時(shí),用相似系數(shù)來衡量變量之間的相似程度(關(guān)聯(lián)度),若用表示變量之間的相似系數(shù),則應(yīng)滿足:(1)且
(2)當(dāng)且僅當(dāng)
(3)相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦.例1.2.
計(jì)算例1.1中各指標(biāo)之間的相關(guān)系數(shù)與夾角余弦解:x=[…];%與例6.1.1數(shù)據(jù)相同R=corrcoef(x);%指標(biāo)之間的相關(guān)系數(shù)R=[1.00000.61830.81380.89310.61831.00000.42870.29270.81380.42871.00000.92350.89310.29270.92351.0000]其中x表示第i行元素,y表示第j行元素。x1=normc(x);%將x的各列化為單位向量J=x1'*x1
%計(jì)算夾角余弦J=1.00000.95360.96090.97970.95361.00000.90260.89900.96090.90261.00000.98330.97970.89900.98331.00003類間距離與遞推公式前面,我們介紹了兩個(gè)向量之間的距離,下面我們介紹兩個(gè)類別之間的距離:設(shè)表示兩個(gè)樣品之間的距離,分別表示兩個(gè)類別,各自含有(1)最短距離即用兩類中樣品之間的距離最短者作為兩類間距離.個(gè)樣品.(2)最長距離即用兩類中樣品之間的距離最長者作為兩類間距離.(3)類平均距離即用兩類中所有兩兩樣品之間距離的平均作為兩類間距離.(4)重心距離其中分別是兩類重心之間的歐氏距離作為類間距離.一組數(shù)據(jù)的平均數(shù)即為這組數(shù)據(jù)的重心。的重心,這是用(5)離差平方和距離(ward)顯然,離差平方和距離與重心距離的平方成正比.設(shè)有兩類合并成新的一類,包含了個(gè)樣品,如何計(jì)算與其他類別之間的距離,這就需要建立類間距離的遞推公式.(1)最短距離(2)最長距離(3)類平均距離(4)重心距離(5)離差平方和距離
2譜系聚類與K均值聚類譜系聚類法是目前應(yīng)用較為廣泛的一種聚類法.譜系聚類是根據(jù)生物分類學(xué)的思想對研究對象進(jìn)行分類的方法.在生物分類學(xué)中,分類的單位是:門、綱、目、科、屬、種,其中種是分類的基本單位,分類單位越小,它所包含的生物就越少,生物之間的共同特征就越多.利用這種思想,譜系聚類首先將各樣品自成一類,然后把最相似(距離最近或相似系數(shù)最大)的樣品聚為小類,再將已聚合的小類按各類之間的相似性(用類間距離度量)進(jìn)行再聚合,隨著相似性的減弱,最后將一切子類都聚為一大類,從而得到一個(gè)按相似性大小聚結(jié)起來的一個(gè)譜系圖.2.1譜系聚類1譜系聚類的步驟(1)
個(gè)樣品開始作為個(gè)類,
距離或相似系數(shù),得到實(shí)對稱矩陣
計(jì)算兩兩之間的(2)從
的非主對角線上找最小元素(距離)或最大元素(相似系數(shù)),設(shè)該元素是
則將
合并成一個(gè)新類
在
中去掉
所在的兩行、兩列,并加上新類
之間的距離或相似系數(shù),得到
與其余各類階矩陣
(3)從出發(fā)重復(fù)步驟(2)的做法得到,再由出發(fā)重復(fù)上述步驟,直到兩個(gè)樣品聚為一個(gè)大類為止.
(4)在合并過程中要記下合并樣品的編號及兩類合并時(shí)的水平,并繪制聚類譜系圖.例2.1從例1.1算得的樣品間的歐氏距離矩陣出發(fā),用下列方法進(jìn)行譜系聚類.(1)最短距離,(2)最長距離.解:我們用1,2,3,4,5分別表示北京,上海,安徽,陜西和新疆,將歐氏距離矩陣除以,記為(1)最短距離法:將各個(gè)樣品看成一類,即,從可以看出各類中距離最短的是,因此將在水平上合成一個(gè),計(jì)算與之間的最短距離,得新類將計(jì)算結(jié)果作為第一列,從,剩余元素作為其余各列得到,中去掉第4、5行與4、5列從可以看到與的距離最小,因此在的水平上將與合成一類,即,計(jì)算與之間的最短距離,得將計(jì)算結(jié)果作為第一列,從中劃掉與所在的行與列,剩余元素作為其他列得從可以看出最接近,在的水平上合并成一類,至此只剩下兩類他們之間的距離為:故在此水平上將合成一類,包含了全部的五個(gè)樣品.2譜系聚類的MATLAB實(shí)現(xiàn)為了方便快捷地實(shí)現(xiàn)大樣本的聚類分析,我們將利用MATLAB軟件實(shí)現(xiàn)譜系聚類的方法.(1)譜系聚類命令linkage。調(diào)用格式:Z=linkage(Y,method)輸入Y是一個(gè)距離矩陣,例如Y是由pdist命令生成的歐氏距離向量。Method是一個(gè)可選項(xiàng),如最長距離,最短距離等。
'single'----最短距離(缺省狀態(tài))
'complete'----最長距離
'average'----類平均距離
'weighted'----加權(quán)平均距離
'centroid'----重心距離
'ward'----離差平方和距離輸出Z是一個(gè)矩陣(N-1行,3列),Z的第一列和第二列均為正整數(shù),第3列表示聚類的水平,每一行表示在相同的聚類水平上將個(gè)體合并成新的一類,每生成一個(gè)新的類,其編號將在現(xiàn)有基礎(chǔ)上增加1。(2)作譜系聚類圖命令dendrogram,其調(diào)用格式
H=dendrogram(z,N)輸入Z是一個(gè)(N-1)行3列的矩陣,由linkage命令生成,N是樣本容量。輸出產(chǎn)生一個(gè)樹譜系聚類圖,每兩類通過線段連接,高度表示類間的距離。
此命令作出m個(gè)樣本的圖形,缺省時(shí)默認(rèn)為30。(3)輸出聚類結(jié)果命令cluster,調(diào)用格式
T=cluster(z,k)輸入Z是一個(gè)(N-1)行3列的矩陣,由linkage命令生成,N是樣本容量。k是分類數(shù)目.輸出T是一個(gè)列向量(N行1列),每一個(gè)元素均為正整數(shù),且最大的數(shù)字不超過k,第i行的數(shù)字l表示第i個(gè)個(gè)體屬于第l類。如果遇到大樣本數(shù)據(jù),為了便于得到每一類樣本的編號,可以利用如下命令:
find(T==l)%找出屬于第l類的樣品編號例2.2利用MATLAB軟件對例6.1.1中的5個(gè)省、區(qū)、市進(jìn)行聚類解:
x=[18738.96778.36452.757707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d=pdist(x);%歐氏距離類間距離為最短距離,Matlab中的命令:z1=linkage(d),輸出結(jié)果為:z1=1.0e+004*0.00040.00050.1280%在1280的水平,G4,G5合成一類為G60.00030.00060.1428%在1428的水平,G6,G3合成一類為G70.00010.00020.3462%在3462的水平,G1,G2合成一類為G80.00070.00081.0293%在10293的水平,G7,G8合成一類譜系聚類圖:H=dendrogram(z1)圖5.1最短距離聚類圖(2)當(dāng)類間距離為最長距離時(shí),Matlab中的命令:z2=linkage(d,'complete'),輸出結(jié)果為:z2=1.0e+004*0.00040.00050.1280%在1280的水平,G4,G5合成一類為G6
0.00030.00060.1639%在1639的水平,G6,G3合成一類為G70.00010.00020.3462
%在3462的水平,G1,G2合成一類為G80.00070.00081.3932%在13932的水平,G7,G8合成一類圖5.2最長距離聚類圖譜系聚類圖:H1=dendrogram(z2)(3)當(dāng)類間距離為類平均距離時(shí),Matlab中的命令:z3=linkage(d,'average'),輸出結(jié)果為z3=
1.0e+004*0.00040.00050.1280
%在1280的水平,G4,G5合成一類為G6
0.00030.00060.1533
%在1533的水平,G6,G3合成一類為G7
0.00010.00020.3462
%在3462的水平,G1,G2合成一類為G8
0.00070.00081.2098
%在12098的水平,G7,G8合成一類圖5.3類平均距離聚類圖若我們不知道實(shí)際的觀測數(shù)據(jù),但已經(jīng)知道樣品之間的距離,那么如何在MATLAB中實(shí)現(xiàn)相應(yīng)的聚類?例2.3歐州各國語言有許多相似之處,有的十分相近,以E,N,Da,Du,G,Fr,S,I,P,H,Fi分別表示英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和荷蘭語等11種語言.人們以任兩種語言對1-10這十個(gè)數(shù)字拼寫中第一個(gè)字母不相同的個(gè)數(shù)定義兩種語言間的‘距離’.這種距離是廣義距離.例如,英語和挪威語只有數(shù)字1和8的第一個(gè)字母不同,故這兩種語言間的距離定義為2.這樣得到11種語言間的距離矩陣如下:解:d=[227666679915466678965655689599910897778992151091310941091098];%按列輸入距離矩陣(只輸入下三角陣中的非零元素)z4=linkage(d,'centroid');
%重心距離
H2=dendrogram(z4)%譜系圖
z5=linkage(d,
'ward');
%離差平方和距離
figure(2)H3=dendrogram(z5)%譜系圖圖6.4重心距離的譜系聚類圖圖6.5離差平方和距離的譜系聚類圖例
2.4RAFisher在1936年發(fā)表的Iris數(shù)據(jù)中,研究某植物的萼片長、寬及花瓣長、寬.x1:萼片長,x2:萼片寬,x3:花瓣長,x4:花瓣寬.Iris數(shù)據(jù)保存在MATLAB軟件系統(tǒng)的文件fisheriris.mat中,用meas命名了取自三個(gè)總類G1,G2和G3,每一類取50個(gè)樣本。試?yán)米V系聚類對Iris數(shù)據(jù)進(jìn)行聚類.解:從MATLAB系統(tǒng)中導(dǎo)入樣本數(shù)據(jù)的命令loadfisheriris。程序如下。loadfisheriris%導(dǎo)入萼片的相關(guān)數(shù)據(jù),d=pdist(meas)
%計(jì)算歐氏距離z1=linkage(d)%類間為最短距離T=cluster(z1,3)
%分為3類g1=find(T==1)
%第一類里的樣品編號g2=find(T==2)
%第二類里的樣品編號g3=find(T==3)
%第三類里的樣品編號loadfisheririssubplot(2,3,1)plot(meas(1:50,1),meas(1:50,2),'*',meas(51:100,1),...,meas(51:100,2),'g*',meas(101:150,1),meas(101:150,2),...,'ro'),title('x1-x2')subplot(2,3,2)plot(meas(1:50,1),meas(1:50,3),'*',meas(51:100,1),...,meas(51:100,3),'g*',meas(101:150,1),meas(101:150,3),...,'ro'),title('x1-x3')subplot(2,3,3)plot(meas(1:50,1),meas(1:50,4),'*',meas(51:100,1),...,meas(51:100,4),'g*',meas(101:150,1),meas(101:150,4),...,'ro'),title('x1-x4')subplot(2,3,4)
plot(meas(1:50,2),meas(1:50,3),'*',meas(51:100,2),...,meas(51:100,3),'g*',meas(101:150,2),meas(101:150,3),'ro'),...,title('x2-x3')subplot(2,3,5)plot(meas(1:50,2),meas(1:50,4),'*',meas(51:100,2),...,meas(51:100,4),'g*',meas(101:150,2),meas(101:150,4),'ro'),...,title('x2-x4')subplot(2,3,6)plot(meas(1:50,3),meas(1:50,4),'*',meas(51:100,3),...,meas(51:100,4),'g*',meas(101:150,3),meas(101:150,4),'ro'),...,title('x3-x4')結(jié)果顯示第一類里只有兩個(gè)樣品,說明聚類效果不理想,為了提高聚類效果的優(yōu)良性,我們將運(yùn)用K均值聚類和模糊C均值聚類對其進(jìn)行再討論.圖6.6
Iris數(shù)據(jù)的散點(diǎn)圖(兩個(gè)指標(biāo))同理可作兩兩指標(biāo)經(jīng)聚類分類后的數(shù)據(jù)散點(diǎn)圖。從圖形6.6也可看出
聚類效果不理想。2.2K-均值聚類譜系聚類法是先將每個(gè)樣品看成一類,通過比較距離的大小逐步擴(kuò)充類,因此,對于給定的數(shù)據(jù),譜系聚類一定能夠?qū)悠泛喜橐活悾诸惖慕Y(jié)果唯一,但是譜系聚類有一個(gè)缺點(diǎn),樣品一旦被分到某一類中就不能改變,且當(dāng)樣本容量較大時(shí),計(jì)算量也相應(yīng)地變大.克服此缺點(diǎn)的一個(gè)方法就是K均值聚類法,又稱快速聚類法或動(dòng)態(tài)聚類法.在運(yùn)用K均值聚類法之前,要根據(jù)實(shí)際問題先確定分類數(shù)k,在每一類中選擇有代表性的樣品,這樣的樣品稱為聚點(diǎn).選擇聚點(diǎn)的方法通常有最小最大原則.若將個(gè)樣品分成k類,則先選擇所有樣品中距離為前兩個(gè)聚點(diǎn),即選擇,使得最遠(yuǎn)的兩個(gè)樣品然后選擇第3個(gè)聚點(diǎn),使得與前兩個(gè)聚點(diǎn)的較小距離中的距離最小者等于所有其余的與最大的,即然后按相同的原則選取,重復(fù)前面的步驟,直至確定k個(gè)聚點(diǎn)K均值聚類的步驟樣品之間的距離采用歐氏距離.設(shè)第k個(gè)初始聚點(diǎn)的集合是:記于是,將樣品分成不相交的k類,得到一個(gè)初始分類(2)從出發(fā),計(jì)算新的聚點(diǎn)集合,計(jì)算其中是類中的樣品數(shù),得到一個(gè)新的集合從開始再進(jìn)行分類,將樣品作新的分類,記得到一個(gè)新的分類依次重復(fù)計(jì)算下去.(3)重復(fù)上述步驟次得其中是類的重心.
不一定是樣品.當(dāng)逐漸增大時(shí),分類趨于穩(wěn)定.同時(shí)可以近似地看作的重心,
即,此時(shí)結(jié)束計(jì)算.實(shí)際計(jì)算時(shí),若對某一個(gè)m,與相同,則結(jié)束計(jì)算.MATLAB軟件中實(shí)現(xiàn)K-均值聚類的命令是kmeans,其調(diào)用格式
IDX=kmeans((X,K)功能是將原始數(shù)據(jù)矩陣X聚成K類,使得樣本到類重心距離和最小,使用歐氏平方距離。其中輸入X為原始觀測數(shù)據(jù),行為個(gè)體,列為指標(biāo)。輸出IDX為N行1列的列向量,包含每個(gè)樣品屬于哪一類的信息,類似于Cluster的輸出結(jié)果。例2.5從12不同地區(qū)測得了某樹種的平均發(fā)芽率與發(fā)芽勢表212個(gè)地區(qū)某樹種發(fā)芽情況地區(qū)1234567891011120.7070.6000.6930.7170.6880.5330.8770.5130.8150.6330.7400.7770.3850.4330.5050.3430.6050.3800.7130.3530.6750.4650.5800.723,數(shù)據(jù)如下采用歐氏距離,將這12個(gè)地區(qū)以樹種發(fā)芽情況按k均值聚類法聚為2類.解:利用Matlab軟件中的命令:kmeans,可以實(shí)現(xiàn)k均值聚類y=[.707.6.693.717.688.533.877.513.815.633.74.777;.385.433.505.343.605.38.713.353.675.465.58.723];x=y';%矩陣x的行為個(gè)體,列為指標(biāo)[a,b]=kmeans(x,2)
%分為2類,輸出:a為聚類的結(jié)果,b為聚類重心,每一行表示一個(gè)類的重心a=[222212121211]’b=0.77940.65920.62800.4091x1=x(find(a==1),:)%提取第1類里的樣品x2=x(find(a==2),:)%提取第2類里的樣品x1=0.68800.60500.87700.71300.81500.67500.74000.58000.77700.7230x2=0.70700.38500.60000.43300.69300.50500.71700.34300.53300.38000.51300.35300.63300.4650sd1=std(x1),sd2=std(x2)
%分別計(jì)算第1類和第2類的標(biāo)準(zhǔn)差sd1=0.07190.0641sd2=0.08310.0603plot(x(a==1,1),x(a==1,2),'r.',x(a==2,1),x(a==2,2),'b.')%作出聚類的散點(diǎn)圖圖6.7分類結(jié)果的散點(diǎn)圖例2.6(續(xù)例6.2.2)利用K均值聚類對5個(gè)省、區(qū)、市進(jìn)行聚類分析.解:x=[…]
%輸入數(shù)據(jù),行為個(gè)體,列為指標(biāo)[a,b]=kmeans(x,3)
%分為3類a=[1
1
233]’b=1.0e+004*2.02650.10890.04110.69540.93020.09590.02940.36040.88880.07880.01040.2294說明北京和上海為一類,安徽為一類,陜西和新疆為一類.例2.7(續(xù)例6.2.4)利用K均值聚類法對Fisher的Iris
數(shù)據(jù)分為3類.解:loadfisheriris[ab]=kmeans(meas,3)a=1111111111…1111111111…1111111111…1111111111…1111111111…3323333333…3333333333…3333333233…3333333333…3333333333…2322223222…2223322223…2323223322…2223222232…2232223223b=5.00603.42801.46200.24606.85003.07375.74212.07115.90162.74844.39351.4339n1=length(find(a==1))%第1類的樣品數(shù)n2=length(find(a==2))%第2類的樣品數(shù)n3=length(find(a==3))%第3類的樣品數(shù)n1=62,n2=38,n3=50由此可見,K均值聚類的效果比譜系聚類效果好,但與實(shí)際的分類情況相比,K均值聚類的結(jié)果依然不甚理想.模糊均值聚類本小節(jié)我們將簡述兩種常用的模糊聚類方法:模糊C均值聚類和模糊減法聚類.模糊聚類是用模糊理論對重要數(shù)據(jù)分析和建模的方法,建立了樣本類屬的不確定性描述,能比較客觀地反映現(xiàn)實(shí)世界,它已經(jīng)有效地應(yīng)用在大規(guī)模數(shù)據(jù)分析、數(shù)據(jù)挖掘、矢量量化、圖像分割、模式識別等領(lǐng)域,具有重要的理論與實(shí)際應(yīng)用價(jià)值,隨著應(yīng)用的深入發(fā)展,模糊聚類算法的研究不斷豐富。模糊c-均值聚類算法fuzzyc-meansalgorithm(FCMA)或稱(FCM)。模糊C-均值(FCM)算法通過優(yōu)化目標(biāo)函數(shù)得到每個(gè)樣本點(diǎn)對所有類中心的隸屬度,從而決定樣本點(diǎn)的類屬以達(dá)到自動(dòng)對樣本數(shù)據(jù)進(jìn)行分類的目的。
設(shè)為樣品集,為樣本容量.將分成類等價(jià)于將集合表示成且設(shè)是第個(gè)樣品屬于第個(gè)中心的隸屬度,則是一個(gè)的矩陣,稱為隸屬度矩陣或特征矩陣,其中每一列的元素只有一個(gè)1,其余全部為0.硬劃分的一個(gè)延拓是將隸屬度矩陣定義為:此時(shí)的聚類方法稱為模糊C均值聚類.模糊C均值聚類通過求解如下的優(yōu)化問題:其中是聚類中心,是加權(quán)指數(shù),的取值能夠影響聚類的效果.聚類中心和隸屬度矩陣通過求解如下的方程:
上述求解過程是一個(gè)不斷重復(fù)的過程,直到達(dá)到控制誤差范圍之內(nèi).具體的求解步驟如下:(1)預(yù)先給定分類數(shù)(如何選擇合適的分類數(shù)將在聚類的,初始化隸屬度矩陣使得(2)計(jì)算聚類中心有效性詳細(xì)討論)和加權(quán)指數(shù)(3)計(jì)算新的隸屬度矩陣;(4)若小于預(yù)先給定的正數(shù),則聚類過程結(jié)束,否則,轉(zhuǎn)到步驟(2).MATLAB軟件里實(shí)現(xiàn)模糊C均值聚類的命令是fcm,其調(diào)用格式
[center,U,obj_fcn]=fcm(data,n_cluster)輸入data為原始觀測數(shù)據(jù),行為個(gè)體,列為指標(biāo),n_cluster為預(yù)先給定的聚類數(shù)。輸出center是一個(gè)n_cl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年學(xué)校體育工作計(jì)劃例文(三篇)
- 2024年安檢部部長崗位責(zé)任制范文(二篇)
- 2024年單間房屋租賃合同參考范文(二篇)
- 2024年宅基地轉(zhuǎn)讓合同常用版(二篇)
- 2024年學(xué)前班班務(wù)工作計(jì)劃范文(二篇)
- 2024年小學(xué)四年級心理健康教育計(jì)劃范本(四篇)
- 2024年基本公共衛(wèi)生服務(wù)監(jiān)督管理制度(二篇)
- 2024年售后服務(wù)合同樣本(二篇)
- 2024年地測防治水部職責(zé)制度(四篇)
- 2024年學(xué)校安全工作十項(xiàng)制度(三篇)
- 2023版北京協(xié)和醫(yī)院重癥醫(yī)學(xué)科診療常規(guī)
- 2021年成都西嶺文旅投資運(yùn)營集團(tuán)有限公司校園招聘筆試試題及答案解析
- 2021年國家能源集團(tuán)新能源院校園招聘筆試試題及答案解析
- 護(hù)理專業(yè)醫(yī)療質(zhì)量控制指標(biāo)2020年版解讀課件
- 中藥藥劑學(xué)實(shí)驗(yàn)報(bào)告2
- (施工方案)固結(jié)灌漿施工方案
- 水磨石施工技術(shù)交底
- 第12課《與朱元思書》課件(共38張ppt) 部編版語文八年級上冊
- 廣東省綜合評標(biāo)專家?guī)煸囶}
- 小學(xué)語文人教五年級上冊第四組-《讀三國故事論英雄關(guān)羽》教學(xué)設(shè)計(jì)
- Q∕SY 1752-2014 采油用凍膠型堵水調(diào)剖劑性能評價(jià)方法
評論
0/150
提交評論