統(tǒng)計(jì)方法6聚類分析x_第1頁(yè)
統(tǒng)計(jì)方法6聚類分析x_第2頁(yè)
統(tǒng)計(jì)方法6聚類分析x_第3頁(yè)
統(tǒng)計(jì)方法6聚類分析x_第4頁(yè)
統(tǒng)計(jì)方法6聚類分析x_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)方法6聚類分析x第PAGE 頁(yè)碼頁(yè)碼頁(yè) / 共NUMPAGES 總頁(yè)數(shù)總頁(yè)數(shù)頁(yè)統(tǒng)計(jì)方法6聚類分析 【-述職報(bào)告ppt】 統(tǒng)計(jì)方法6 聚類分析 第一節(jié) 基本概念 1分類問題 直觀解釋:聚類分析就是用某種準(zhǔn)則將靠近的點(diǎn)集歸為一類 對(duì)樣本(觀測(cè)值)進(jìn)行聚類,也可以對(duì)指標(biāo)(變量)進(jìn)行聚類。 2 距離 樣品之間的距離 設(shè)p維空間內(nèi)的點(diǎn)x?(x1,x2,.,xp)?及y?(y1,y2,.yp)? 定義兩點(diǎn)之間的距離 (1)歐氏距離 dxy?(?(xi?yi)1/2 2 i?1 p 2 (2)馬氏距離 ?2 dxyx?y(x?y) 其中?是數(shù)據(jù)矩陣的協(xié)方差陣。 馬氏距離的優(yōu)點(diǎn)是考慮了空間內(nèi)的概率分布,在

2、正態(tài)總體的情況下,有比較好的效果。 距離的定義比較靈活,只要滿足條件都可以作為聚類時(shí)的距離。變量之間的距離 變量之間的距離要考慮到變量之間的相互關(guān)系。常用的距離如夾角余弦,相關(guān)系數(shù)等 類和類之間的距離 在聚類過程中,要涉及到類和類之間的合并,因此也要考慮類間的距離。如 類間最短距離 設(shè)dij是樣本i和樣本j之間的距離,dpq是類gp和類gq之間的距離 定義類間的最短距離 為 min dij dpq=i? p,j?q 類似的可以定義類間的最長(zhǎng)距離,平均距離等。 第二節(jié) 系統(tǒng)聚類法 系統(tǒng)聚類方法是非常容易在計(jì)算機(jī)上實(shí)現(xiàn)的一種聚類方法,其聚類步驟為: 1)將空間各點(diǎn)各自視為一類,計(jì)算每類間的距離矩陣

3、,將距離最小者歸為一類。2)對(duì)與新的類重新計(jì)算類與類間的距離矩陣,再將距離最小者歸為一類。3)這一過程一直進(jìn)行下去,直到所有的點(diǎn)歸為一類為止。 ? 例 8.2.1:設(shè)抽六個(gè)樣,每個(gè)樣本只有一個(gè)變量,即:1,2,5,7,9,10。定義距 離為:兩點(diǎn)的絕對(duì)值。試用最小距離法對(duì)它們進(jìn)行系統(tǒng)聚類。 g1g2 1) 計(jì)算得距離矩陣d(0),為g3 g1g2g3g4g5g6?01?468?9? 030527485 ? 0? ? 20?310 g4g5g6 2) d(0)的最小距離時(shí)是1,對(duì)應(yīng)元素d12=d56=1,則將 g1,g2并成g7;g5;g6并成g8。3)計(jì)算g7,g8與其他類道距離,得d(1)

4、g7g3g4g8 g7g3g4g8 ?030? ?5207420? 4)的d(1)的最小距離是2,把g3,g4,g8合并為類g9, 5)把g7和g9合并為g10,聚類距離為3。此時(shí)已將全部樣本合并為一類,聚類結(jié)束。 可以按照聚類的距離,通過譜系圖把聚類的過程表示出來。 最后,選擇合適的閾值,確定聚類的個(gè)數(shù)。如取閾值為2.5,則分為2類,g7和g9 第三節(jié) 動(dòng)態(tài)聚類法(k均值法) k-均值法是一種劃分方法。函數(shù)kmeans把數(shù)據(jù)劃分為k個(gè)互不相交的類,然后對(duì)每個(gè)觀測(cè)返回類的標(biāo)號(hào)。對(duì)于大量的數(shù)據(jù)k-均值法比系統(tǒng)聚類法更合適。 kmeans 把數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)視為占有空間中某個(gè)位置的對(duì)象。k-均

5、值法尋找劃分 使得每一類內(nèi)部的數(shù)據(jù)足夠近而類之間的數(shù)據(jù)足夠遠(yuǎn) 。函數(shù)提供了5種距離的測(cè)量。步驟 step1:選擇k 個(gè)樣品作為初始凝聚點(diǎn),或者將樣品分為k 個(gè)初始類,然后將其重心(均值)作為初始凝聚點(diǎn) step2:將每個(gè)樣品歸入離其凝聚點(diǎn)最近的類(通常采用歐氏距離)。step3:重新計(jì)算每個(gè)類的重心(均值); step4:重復(fù)step2,直到各類重心不再變化,類不再變化為止。 動(dòng)態(tài)聚類的結(jié)果嚴(yán)重依賴初始凝聚點(diǎn)的選取。經(jīng)驗(yàn)表明,聚類過程的絕大多數(shù)重要變化均發(fā)生在第一次再分類中。 第四節(jié)matlab統(tǒng)計(jì)工具箱中的聚類分析 a系統(tǒng)聚類法 1.點(diǎn)點(diǎn)距離的計(jì)算命令pdist y = pdist(x) y

6、 = pdist(x,metric) y = pdist(x,distfun) y = pdist(x,minkowski,p) 這里: x:為數(shù)據(jù)矩陣 metric:各種距離方法 euclidean:歐幾里得距離euclidean distance (default) seuclidean:標(biāo)準(zhǔn)歐幾里得距離. mahalanobis:馬氏 距離 cityblock:絕對(duì)值距離 minkowski:明可夫斯基距離 cosine:cosine角度距離(對(duì)變量聚類) correlation:相關(guān)系數(shù)距離.(對(duì)變量聚類) hamming:hamming 距離(符號(hào)變量求距離) jaccard: ja

7、ccard 系數(shù)距離(符號(hào)變量求距離) chebychev:切比雪夫距離 2.類類距離的計(jì)算命令linkage,基本語(yǔ)法為; z = linkage(y) z = linkage(y,method) 這里: y:為pdist輸出的結(jié)果,即點(diǎn)點(diǎn)的距離矩陣。method:為計(jì)算類類間距離的方法。它們有: single: 最短距離法 (系統(tǒng)內(nèi)定) complete:最長(zhǎng)距離法。averaunjsge:平均距離法。 weighted:加權(quán)平均距離法。centroid:中心距離法。median:加權(quán)重心法。 3)聚類命令cluster,語(yǔ)法為: t = cluster(z,cutoff,c) t = c

8、luster(z,maxclust,n) 這里: z:為linkage輸出的層次數(shù)據(jù)。 cutoff:按某個(gè)值進(jìn)行切割,值c?。?,1)之間的值。 maxclust:按最大聚類數(shù)聚類,n為指定的聚類數(shù)。4)作聚類圖命令dendrogram,其語(yǔ)法為: h = dendrogram(z) h = dendrogram(z,p) h,t = dendrogram(.) h,t,perm = dendrogram(.) . = dendrogram(.,colorthreshold,t) . = dendrogram(.,orientation,orient) . = dendrogram(.,la

9、bels, s) 這里: z:為linkage輸出的層次數(shù)據(jù)。 p:原始結(jié)點(diǎn)個(gè)數(shù)的設(shè)置,p=0顯示全部點(diǎn)。系統(tǒng)內(nèi)定顯示30個(gè)點(diǎn)。colorthreshold:顏色設(shè)置,其值t0。 orientation:聚類圖的位置,內(nèi)定是從上到下??蛇x值為: top : 從上到下 (default) bottom:從下到上 left:從左到右 right:從右到左 labels:標(biāo)號(hào) 例 16個(gè)地區(qū)(北京,天津,河北,山西,內(nèi)蒙古,遼寧,吉林,黑龍江,上海,江蘇,浙江,安徽,福建,江西,山東,河南)農(nóng)民支出情況調(diào)查,指標(biāo)為食品,衣著,燃料,住房,生活用品,文化生活服務(wù). x=190.33 43.77 9.7

10、3 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.44 22.81 2.8;104.78 25.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.99 3.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.75 6.04;221.11 38.64 12.53 115.65 50.82 5.89;14

11、4.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.11 23.09 15.62 23.54 18.18 6.39;144.92 21.26 16.96 19.52 21.75 6.73;140.54 21.5 17.64 19.19 15.97 4.94;115.84 30.26 12.2 33.61 33.77 3.85;101.18 23.26 8.46 20.2 20.5 4.3; zx=zscore(x); y=pdist(zx); z=linkage(y,average) z = 12.0000

12、13.0000 0.6656 3.0000 16.0000 0.9931 4.0000 18.0000 1.0711 14.0000 17.0000 1.2032 10.0000 11.0000 1.2670 5.0000 19.0000 1.2756 2.0000 15.0000 1.2833 21.0000 23.0000 1.7088 6.0000 7.0000 1.8245 8.0000 20.0000 1.8799 24.0000 25.0000 2.3302 26.0000 27.0000 2.6476 22.0000 28.0000 2.9664 1.0000 9.0000 3.

13、1788 29.0000 30.0000 5.2728 s=北京,天津,河北,山西,內(nèi)蒙古,遼寧,吉林,黑龍江,上海,江蘇,浙江,安徽,福建,江西,山東,河南 dendrogram(z,orientation,right,labels,s) 上 海北京內(nèi)蒙古山西河南河北吉林遼寧浙江江蘇山東天津黑龍江江西福建安徽 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 t=cluster(z,5) t = 4 2 3 3 3 2 2 1 5 2 2 1 1 1 2 3 find(t=1) ans = 8 13 14 find(t=2) ans = 2 6 7 10 11 15 fin

14、d(t=3) ans = 3 4 5 16 find(t=4) ans = 1 find(t=5) ans = 9 或者: t = clusterdata(zx,distance,euclid,linkage,average,maxclust,5) t = 4 2 3 3 3 2 2 1 5 2 2 1 1 1 2 它與前面的cluster(z,5)相等 b k均值法 函數(shù)kmeans把數(shù)據(jù)劃分為k個(gè)互不相交的類,然后對(duì)每個(gè)觀測(cè)返回類的標(biāo)號(hào)。kmeans把數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)視為占有空間中某個(gè)位置的對(duì)象。k-均值法尋找劃分使得每一類內(nèi)部的數(shù)據(jù)足夠近而類之間的數(shù)據(jù)足夠遠(yuǎn) 。函數(shù)提供了5種距離的測(cè)

15、量。idx = kmeans(x,k) 將n個(gè)點(diǎn)分為k類,返回的idx為每個(gè)點(diǎn)的類標(biāo)號(hào)。idx,c = kmeans(x,k) 返回的c為每個(gè)類的中心。 idx,c,sumd = kmeans(x,k) sumd返回類內(nèi)的距離。 idx,c,sumd,d = kmeans(x,k) 返回的d是一個(gè)矩陣,里邊的元素 dij 是第i個(gè)元素到第j類的距離。 . = kmeans(.,param1,val1,param2,val2,.) param1為參數(shù)名,val1為參數(shù)值。這些參數(shù)用來控制迭代算法。繼續(xù)上例,采用k均值法 分類的結(jié)果為: idx = kmeans(x,4)%分為4類 idx = 1

16、 3 4 4 2 3 3 2 1 3 3 3 3 3 2 4 分類的結(jié)果為: idx = kmeans(x,5) %分為5類 idx = 1 5 2 2 3 5 5 3 4 5 1 5 5 5 3 2 分類的結(jié)果為: 輪廓圖 可以利用輪廓圖作為評(píng)價(jià)分類結(jié)果的一種標(biāo)準(zhǔn)。 silhouette函數(shù)可以用來根據(jù)cluster,clusterdata,kmeans的聚類結(jié)果繪制輪廓圖。從圖上可以看每個(gè)點(diǎn)的分類是否合理。輪廓圖上第i點(diǎn)的輪廓值定義為 s(i)= min(b)?a ,i?1.n maxa,min(b) 其中,a是第i個(gè)點(diǎn)與同類其它點(diǎn)的平均距離。b 是向量,其元素表示第i個(gè)點(diǎn)與不同類的類內(nèi)各

17、點(diǎn)的平均距離。 s(i)的取值范圍-1,1,此值越大,說明該點(diǎn)的分類越合理。特別當(dāng)s(i) silhouette(x,clust) s = silhouette(x,clust) %此命令只返回輪廓值,不畫輪廓圖 s,h = silhouette(x,clust) . = silhouette(x,clust,metric) . = silhouette(x,clust,distfun,p1,p2,.) 上例分為4類的情況 s,h = silhouette(x,idx) s = 0.3966 0.8080 0.8171 0.1771 0.7020 0.6955 0.7293 1.0000 0.

18、6564 0.2927 0.7608 0.6757 0.5099 0.4582 0.8398 上例分為5類的情況 s,h = silhouette(x,idx) s = 0.7623 0.0555 0.8037 0.4817 0.4747 0.5376 0.0540 1.0000 0.4960 0.2927 0.6268 0.4506 0.1971 0.1993 0.8479 比較兩圖,此例使用k均值法分四類要更合適 第五節(jié) 模糊聚類 聚類分析是一種無監(jiān)督的學(xué)習(xí)方法。很多的分類問題中,分類對(duì)象往往沒有明確的界限。用傳統(tǒng)的聚類方法,把樣本點(diǎn)嚴(yán)格的分到某個(gè)類中,可能存在一定的不合理性。借助于模糊數(shù)

19、學(xué)的思想,可以有模糊聚類的方法。 使用模糊聚類將n個(gè)樣品劃分為c類,記v?(v1,v2,.vc)為c個(gè)類的聚類中心。在模糊聚類中每個(gè)樣品不是嚴(yán)格的劃分到某一類,而是按照一定的隸屬度屬于某一類。 設(shè)uik表示第k個(gè)樣品屬于第i類的隸屬度,取值0,1,且?u i?1cik?1。 定義目標(biāo)函數(shù) j(u,v)?u k?1i?1ncmik2 dik 其中u為隸屬度矩陣,dik?xk?vi 所以該目標(biāo)函數(shù)表示各類中樣品到聚類中心的加權(quán)的距離平方和。 模糊c均值聚類法的準(zhǔn)則是求u,v使j(u,v)得到最小值。 具體步驟: (1)確定類的個(gè)數(shù)c,冪指數(shù)m(1)和初始隸屬度矩陣u(0)。通常的做法是取0,1上的

20、均勻分布隨機(jī)數(shù)來確定初始隸屬度矩陣。令l=1表示第一步迭代。 (2)通過下式計(jì)算第l步的聚類中心: (l?1)m(u?ik)xk k?1nvi(l)? ?(u k?1nml?1ik,i?1,2,.,c ) (l)(3)修正隸屬度矩陣u 其中 (l)uik?(l),計(jì)算目標(biāo)函數(shù)值j。?( j?1cldikdljk2,i?1,2,.c;k?1,2,.,n m?1) (4)對(duì)于迭代算法,給定隸屬度終止容限?u?0(或目標(biāo)函數(shù)終止容限?j?0,或給定最大迭代 ax步長(zhǎng))。當(dāng)m()l?uik?(u)1iklu(或當(dāng)l1, j(l)?j(l?1)l,或大于最大步長(zhǎng)),停止迭代, 否則l=l+1,返回(2)

21、。 經(jīng)迭代可以求得最終的隸屬度矩陣u和聚類中心v,使目標(biāo)函數(shù)達(dá)最小。根據(jù)最終的隸屬度矩陣u中元素的取值來確定最終所有樣品的歸屬,當(dāng)ujk?maxuik時(shí),把xk歸于第j1?i?c 類。 模糊邏輯工具箱中模糊c聚類的函數(shù):fcm center,u,obj_fcn = fcm(data,cluster_n) center,u,obj_fcn =fcm(data,cluster_n,options) 說明:cluster_n是類的個(gè)數(shù)。 options中的第一個(gè)參數(shù)是隸屬度的冪指數(shù),默認(rèn)為2;第二個(gè)參數(shù)是最大迭代次數(shù),默認(rèn)值為100,第三個(gè)參數(shù)是目標(biāo)函數(shù)的終止容限,默認(rèn)值為10。第四個(gè)參數(shù)用來控制是

22、否顯示中間迭代過程。取值為0,則不顯示。?5 輸出參數(shù)center是cluster_n個(gè)類的類中心坐標(biāo)矩陣(cluster_n x p)。u是隸屬度矩陣(cluster_n x n),uik表示其元素第k個(gè)樣品屬于第i類的隸屬度。根據(jù)u中每列元素的取值判定元素的歸屬。obj_fcn是目標(biāo)函數(shù)值向量,其第i個(gè)元素表示第i步迭代的目標(biāo)函數(shù)值,它包含的元素總個(gè)數(shù)就是實(shí)際迭代的總步數(shù)。 繼續(xù)前面的例子 x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.44 22.81 2.

23、8;104.78 25.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.99 3.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.75 6.04;221.11 38.64 12.53 115.65 50.82 5.89;144.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.11 23.09 15.62 23.54 18.18 6.39;144.92

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論