版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第4章系統(tǒng)聚類分析(共兩次課)(HierarchicalClusterAnalysis)主要內(nèi)容(參見書87面-)聚類分析概述聚類要素的數(shù)據(jù)處理距離和相似系數(shù)的計算常用系統(tǒng)聚類法環(huán)境應(yīng)用一、聚類分析概述引例1:書89面例4.1.-問題:6個站點可否按其指標的相似性進行分類?如何綜合考慮5個指標?表1某地區(qū)9個農(nóng)業(yè)區(qū)的7項經(jīng)濟指標數(shù)據(jù)
區(qū)代號人均耕地X1/(hm2·人-1)勞均耕地X2/(hm2·個-1
)水田比重X3/%復(fù)種指數(shù)x4/%糧食單產(chǎn)x5/(kg·hm-2)人均糧食x6/(kg·人-1
)稻谷占糧食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17
引例2:可否對9個農(nóng)業(yè)區(qū)進行分類?聚類分析的概念:聚類分析就是按照事物間的相似性進行科學的區(qū)分或分類的過程。聚類對象:聚類所針對的對象聚類要素:聚類所考慮的因素
二、聚類要素的數(shù)據(jù)處理
在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結(jié)果的準確性和可靠性。在分類和分區(qū)研究中,被聚類的對象常常是多個要素構(gòu)成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會對分類結(jié)果產(chǎn)生影響。因此當分類要素的對象確定之后,在進行聚類分析之前,首先要對聚類要素進行數(shù)據(jù)處理。
假設(shè)有m個聚類的對象,每一個聚類對象都有n個要素構(gòu)成。它們所對應(yīng)的要素數(shù)據(jù)可用表3.4.1給出。
(主要省略號的記號)表3.4.1聚類對象與要素數(shù)據(jù)
在聚類分析中,常用的聚類要素(變量)的數(shù)據(jù)處理方法有如下幾種:
①
總和標準化。分別求出各聚類要素所對應(yīng)的數(shù)據(jù)的總和,以各要素的數(shù)據(jù)除以該要素的數(shù)據(jù)的總和,即這種標準化方法所得到的新數(shù)據(jù)滿足(3.4.1)②
標準差標準化,即由這種標準化方法所得到的新數(shù)據(jù),各要素的平均值為0,標準差為1,即有(3.4.2)
③
極大值標準化,即經(jīng)過這種標準化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。
④極差的標準化,即
經(jīng)過這種標準化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。
(3.4.3)(3.4.4)例題:通過Excel對某地區(qū)9個農(nóng)業(yè)區(qū)的7項指標進行標準化處理(見Excel文件“聚類分析例子.xls)極差標準化
區(qū)代號X1X2X3X4X5X6X7G10.91310.0730.1530.18310.143G210.86600.00200.2360G30.20.1480.0680.4370.4390.0790.071G40.4330.37900.1320.1780.1269E-04G50.0250.0341110.4691G60.0290.0330.6060.6890.6540.1340.595G7000.9040.8120.8350.1290.997G80.9080.5320.0698E-040.0960.4270.087G90.3830.2550.03500.15400.004三(1)“聚類對象”之間的距離及其計算
常見的“距離”有
①絕對值距離(下面公式中的i=1應(yīng)為k=1)
②歐氏距離
③明科夫斯基距離(1)
(2)
(3)
④
切比雪夫距離。當明科夫斯基距時,有實例中9個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣如下(4)
(5)
聚類分析不僅可以對“樣本”分類,也可以對“變量分類”(例如書113面的第3題)。在此情況下分類的依據(jù)是“相似性系數(shù)”而不是“距離”。兩種常用的相似系數(shù)(書97面):
(1)夾角余弦
(2)相關(guān)系數(shù)三(2)變量之間相似系數(shù)的計算
四(1)、直接聚類法
原理及步驟(書100面)(1)將每個對象或樣本看做1類,共m類,記為G1,G2,…,Gm(2)定義并計算樣本之間的兩兩“距離”,得到第1個距離矩陣D0(3)合并距離最近的兩類為一新類,其它的樣本暫不合并這樣可得到共m-1類。(4)對新得到的分類重復(fù)步驟(2)&(3),直至將全部樣本分為1類為止。第二次課四(1)、直接聚類法
原理及步驟(書100面)(5)繪系統(tǒng)聚類樹形圖。(6)選取距離臨界值,根據(jù)樹形圖確定分類個數(shù)和分類結(jié)構(gòu)
例題:某地區(qū)的9個農(nóng)業(yè)區(qū)的聚類分析。極差標準化矩陣如下(書101面,程序HCA_Example3.m)
例題:某地區(qū)的9個農(nóng)業(yè)區(qū)的聚類分析。
絕對值距離矩陣如下(書102面,程序HCA_Example3.m)
聚類分析步驟如下(書102-104面):(1)在距離矩陣D中,除去對角線元素以外,d49=d94=0.49為最小者,故將第4區(qū)與第9區(qū)并為一類,得到一個新的共8類的暫時分類結(jié)果;
(2)按新的分類結(jié)果重新計算距離矩陣(見103面),發(fā)現(xiàn)d57=0.85最小,故將第5區(qū)與第7區(qū)并為一類,得到一個新的共7類的暫時分類結(jié)果;(3)按上面的方法依此類推。圖3.4.1直接聚類譜系圖
聚類譜系圖(樹形圖)說明(1)聚類譜系圖顯示的是一個一般的分類結(jié)構(gòu),不是一個特定的分類結(jié)果。(2)用戶可設(shè)定“距離臨界值”并根據(jù)設(shè)定的臨界值進行分類。例如,如設(shè)定距離臨界值”在1.78-3.10之間,則9個農(nóng)業(yè)區(qū)可分為3大類,即{G1,G2,G8},{G3,G4,G9},{G5,G6,G7}(3)“距離臨界值”的選取沒有一個嚴格的標準,一般取距離跨度較大的兩個值中間的值。四(2)、最短距離聚類法
最短距離聚類法,是在原來的m×m距離矩陣找出“距離最小”的兩個分類對象Gp和Gq,并將其歸并為一新類Gr,然后按“距離最短”計算公式
計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣;再從新的距離矩陣中選出距離最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。
例題:用最短距離聚類法對某地區(qū)的9個農(nóng)業(yè)區(qū)進行聚類分析(注意此距離矩陣跟我們書上計算的略有出入,估計是數(shù)據(jù)標準化后進行四舍五入后造成的)。
回憶前面的直接聚類法(1)在9×9階距離矩陣D中,非對角元素中最小者是d94=0.51,首先將第4區(qū)與第9區(qū)并為一類,記為G10={G4,G9}。按照最短距離公式分別計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離得d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29這樣就得到G1,G2,G3,G5,G6,G7,G8,G10上的一個新的8×8階距離矩陣如下:
在上一步驟中所得到的8×8階距離矩陣中,非對角元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11={G5,G7}。
按照最短距離公式分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,可得到一個新的7×7階距離矩陣圖3.4.2最短距離聚類譜系圖依此類推,經(jīng)過9個步驟后可以得到最短距離聚類譜系圖。結(jié)果與前面的直接聚類法一致
四(3)、最遠距離聚類法
“最遠距離聚類法”與“最短距離聚類法”的區(qū)別在于計算原來的類與新類之間的距離時采用的公式不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋買賣合同的二手房買賣合同
- 購銷學校帳篷合同書
- 行車安全保障函
- 網(wǎng)絡(luò)電商合作合同樣本
- 臨時工合同書
- 電力使用安全責任
- 家用中央空調(diào)采購合同
- 軟裝材料選購協(xié)議
- 忠誠守護男友的誓言
- 工程分包合同分項工程
- DB11 827-2011 廢舊爆炸物品銷毀處置安全規(guī)程
- 拒絕校園欺凌·守護身心健康(初高中版)
- 語 文病句專題講練-2024-2025學年統(tǒng)編版語文七年級上冊
- 第三單元(復(fù)習課件)一年級語文上冊(統(tǒng)編版2024秋)
- 2024年大學試題(計算機科學)-數(shù)字圖像處理考試近5年真題集錦(頻考類試題)帶答案
- 文旅深度融合長期發(fā)展規(guī)劃
- ASTM-D3359-(附著力測試標準)-中文版
- 5 協(xié)商決定班級事務(wù) (教學設(shè)計)-2024-2025學年道德與法治五年級上冊統(tǒng)編版
- 2024年清潔機器人項目合作計劃書
- 高校實驗室安全通識課學習通超星期末考試答案章節(jié)答案2024年
- 銀行客戶經(jīng)理招聘面試題與參考回答(某大型集團公司)
評論
0/150
提交評論