系統(tǒng)聚類分析_第1頁(yè)
系統(tǒng)聚類分析_第2頁(yè)
系統(tǒng)聚類分析_第3頁(yè)
系統(tǒng)聚類分析_第4頁(yè)
系統(tǒng)聚類分析_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章系統(tǒng)聚類分析(共兩次課)(HierarchicalClusterAnalysis)主要內(nèi)容(參見(jiàn)書(shū)87面-)聚類分析概述聚類要素的數(shù)據(jù)處理距離和相似系數(shù)的計(jì)算常用系統(tǒng)聚類法環(huán)境應(yīng)用一、聚類分析概述引例1:書(shū)89面例4.1.-問(wèn)題:6個(gè)站點(diǎn)可否按其指標(biāo)的相似性進(jìn)行分類?如何綜合考慮5個(gè)指標(biāo)?表1某地區(qū)9個(gè)農(nóng)業(yè)區(qū)的7項(xiàng)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)

區(qū)代號(hào)人均耕地X1/(hm2·人-1)勞均耕地X2/(hm2·個(gè)-1

)水田比重X3/%復(fù)種指數(shù)x4/%糧食單產(chǎn)x5/(kg·hm-2)人均糧食x6/(kg·人-1

)稻谷占糧食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17

引例2:可否對(duì)9個(gè)農(nóng)業(yè)區(qū)進(jìn)行分類?聚類分析的概念:聚類分析就是按照事物間的相似性進(jìn)行科學(xué)的區(qū)分或分類的過(guò)程。聚類對(duì)象:聚類所針對(duì)的對(duì)象聚類要素:聚類所考慮的因素

二、聚類要素的數(shù)據(jù)處理

在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結(jié)果的準(zhǔn)確性和可靠性。在分類和分區(qū)研究中,被聚類的對(duì)象常常是多個(gè)要素構(gòu)成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會(huì)對(duì)分類結(jié)果產(chǎn)生影響。因此當(dāng)分類要素的對(duì)象確定之后,在進(jìn)行聚類分析之前,首先要對(duì)聚類要素進(jìn)行數(shù)據(jù)處理。

假設(shè)有m個(gè)聚類的對(duì)象,每一個(gè)聚類對(duì)象都有n個(gè)要素構(gòu)成。它們所對(duì)應(yīng)的要素?cái)?shù)據(jù)可用表3.4.1給出。

(主要省略號(hào)的記號(hào))表3.4.1聚類對(duì)象與要素?cái)?shù)據(jù)

在聚類分析中,常用的聚類要素(變量)的數(shù)據(jù)處理方法有如下幾種:

總和標(biāo)準(zhǔn)化。分別求出各聚類要素所對(duì)應(yīng)的數(shù)據(jù)的總和,以各要素的數(shù)據(jù)除以該要素的數(shù)據(jù)的總和,即這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù)滿足(3.4.1)②

標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即由這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù),各要素的平均值為0,標(biāo)準(zhǔn)差為1,即有(3.4.2)

極大值標(biāo)準(zhǔn)化,即經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。

④極差的標(biāo)準(zhǔn)化,即

經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。

(3.4.3)(3.4.4)例題:通過(guò)Excel對(duì)某地區(qū)9個(gè)農(nóng)業(yè)區(qū)的7項(xiàng)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理(見(jiàn)Excel文件“聚類分析例子.xls)極差標(biāo)準(zhǔn)化

區(qū)代號(hào)X1X2X3X4X5X6X7G10.91310.0730.1530.18310.143G210.86600.00200.2360G30.20.1480.0680.4370.4390.0790.071G40.4330.37900.1320.1780.1269E-04G50.0250.0341110.4691G60.0290.0330.6060.6890.6540.1340.595G7000.9040.8120.8350.1290.997G80.9080.5320.0698E-040.0960.4270.087G90.3830.2550.03500.15400.004三(1)“聚類對(duì)象”之間的距離及其計(jì)算

常見(jiàn)的“距離”有

①絕對(duì)值距離(下面公式中的i=1應(yīng)為k=1)

②歐氏距離

③明科夫斯基距離(1)

(2)

(3)

切比雪夫距離。當(dāng)明科夫斯基距時(shí),有實(shí)例中9個(gè)農(nóng)業(yè)區(qū)之間的絕對(duì)值距離矩陣如下(4)

(5)

聚類分析不僅可以對(duì)“樣本”分類,也可以對(duì)“變量分類”(例如書(shū)113面的第3題)。在此情況下分類的依據(jù)是“相似性系數(shù)”而不是“距離”。兩種常用的相似系數(shù)(書(shū)97面):

(1)夾角余弦

(2)相關(guān)系數(shù)三(2)變量之間相似系數(shù)的計(jì)算

四(1)、直接聚類法

原理及步驟(書(shū)100面)(1)將每個(gè)對(duì)象或樣本看做1類,共m類,記為G1,G2,…,Gm(2)定義并計(jì)算樣本之間的兩兩“距離”,得到第1個(gè)距離矩陣D0(3)合并距離最近的兩類為一新類,其它的樣本暫不合并這樣可得到共m-1類。(4)對(duì)新得到的分類重復(fù)步驟(2)&(3),直至將全部樣本分為1類為止。第二次課四(1)、直接聚類法

原理及步驟(書(shū)100面)(5)繪系統(tǒng)聚類樹(shù)形圖。(6)選取距離臨界值,根據(jù)樹(shù)形圖確定分類個(gè)數(shù)和分類結(jié)構(gòu)

例題:某地區(qū)的9個(gè)農(nóng)業(yè)區(qū)的聚類分析。極差標(biāo)準(zhǔn)化矩陣如下(書(shū)101面,程序HCA_Example3.m)

例題:某地區(qū)的9個(gè)農(nóng)業(yè)區(qū)的聚類分析。

絕對(duì)值距離矩陣如下(書(shū)102面,程序HCA_Example3.m)

聚類分析步驟如下(書(shū)102-104面):(1)在距離矩陣D中,除去對(duì)角線元素以外,d49=d94=0.49為最小者,故將第4區(qū)與第9區(qū)并為一類,得到一個(gè)新的共8類的暫時(shí)分類結(jié)果;

(2)按新的分類結(jié)果重新計(jì)算距離矩陣(見(jiàn)103面),發(fā)現(xiàn)d57=0.85最小,故將第5區(qū)與第7區(qū)并為一類,得到一個(gè)新的共7類的暫時(shí)分類結(jié)果;(3)按上面的方法依此類推。圖3.4.1直接聚類譜系圖

聚類譜系圖(樹(shù)形圖)說(shuō)明(1)聚類譜系圖顯示的是一個(gè)一般的分類結(jié)構(gòu),不是一個(gè)特定的分類結(jié)果。(2)用戶可設(shè)定“距離臨界值”并根據(jù)設(shè)定的臨界值進(jìn)行分類。例如,如設(shè)定距離臨界值”在1.78-3.10之間,則9個(gè)農(nóng)業(yè)區(qū)可分為3大類,即{G1,G2,G8},{G3,G4,G9},{G5,G6,G7}(3)“距離臨界值”的選取沒(méi)有一個(gè)嚴(yán)格的標(biāo)準(zhǔn),一般取距離跨度較大的兩個(gè)值中間的值。四(2)、最短距離聚類法

最短距離聚類法,是在原來(lái)的m×m距離矩陣找出“距離最小”的兩個(gè)分類對(duì)象Gp和Gq,并將其歸并為一新類Gr,然后按“距離最短”計(jì)算公式

計(jì)算原來(lái)各類與新類之間的距離,這樣就得到一個(gè)新的(m-1)階的距離矩陣;再?gòu)男碌木嚯x矩陣中選出距離最小者dij,把Gi和Gj歸并成新類;再計(jì)算各類與新類的距離,這樣一直下去,直至各分類對(duì)象被歸為一類為止。

例題:用最短距離聚類法對(duì)某地區(qū)的9個(gè)農(nóng)業(yè)區(qū)進(jìn)行聚類分析(注意此距離矩陣跟我們書(shū)上計(jì)算的略有出入,估計(jì)是數(shù)據(jù)標(biāo)準(zhǔn)化后進(jìn)行四舍五入后造成的)。

回憶前面的直接聚類法(1)在9×9階距離矩陣D中,非對(duì)角元素中最小者是d94=0.51,首先將第4區(qū)與第9區(qū)并為一類,記為G10={G4,G9}。按照最短距離公式分別計(jì)算G1,G2,G3,G5,G6,G7,G8與G10之間的距離得d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29這樣就得到G1,G2,G3,G5,G6,G7,G8,G10上的一個(gè)新的8×8階距離矩陣如下:

在上一步驟中所得到的8×8階距離矩陣中,非對(duì)角元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11={G5,G7}。

按照最短距離公式分別計(jì)算G1,G2,G3,G6,G8,G10與G11之間的距離,可得到一個(gè)新的7×7階距離矩陣圖3.4.2最短距離聚類譜系圖依此類推,經(jīng)過(guò)9個(gè)步驟后可以得到最短距離聚類譜系圖。結(jié)果與前面的直接聚類法一致

四(3)、最遠(yuǎn)距離聚類法

“最遠(yuǎn)距離聚類法”與“最短距離聚類法”的區(qū)別在于計(jì)算原來(lái)的類與新類之間的距離時(shí)采用的公式不

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論