版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
地質(zhì)與環(huán)境學(xué)院CollegeofGeology&Environment
俗話說(shuō):“物以類聚,人以群分”,
在社會(huì)、經(jīng)濟(jì)、管理、氣象、地質(zhì)、人口、考古等眾多領(lǐng)域,都存在著大量的分類研究問(wèn)題。分類是自然科學(xué)重要研究?jī)?nèi)容之一第五章聚類分析第一節(jié)概述第二節(jié)數(shù)據(jù)的規(guī)格化處理第三節(jié)相似性度量第四節(jié)系統(tǒng)聚類法第五節(jié)應(yīng)用實(shí)例地質(zhì)與環(huán)境學(xué)院CollegeofGeology&Environment
合理的科學(xué)的分類,能夠反映某類事物的最基本的特征以及同別類事物的區(qū)別,推動(dòng)學(xué)科的發(fā)展和科學(xué)研究。第一節(jié)概述在地學(xué)領(lǐng)域:巖石、礦物、構(gòu)造、地層、古生物等在環(huán)境領(lǐng)域:環(huán)境質(zhì)量在經(jīng)濟(jì)領(lǐng)域:股市
聚類分析:是一種分類技術(shù),它是根據(jù)“物以類聚”的道理,對(duì)事物(樣品或指標(biāo))進(jìn)行分類的一種多元統(tǒng)計(jì)方法,
又稱“群分析、點(diǎn)群分析、簇群分析”。一、聚類分析的含義根據(jù)事物本身的特征分類,即,將事物性質(zhì)相近的歸為一類,將事物性質(zhì)的差異較大的歸在不同的類。所謂“類”,通俗地說(shuō)就是相似元素的集合。分類,是將一個(gè)觀測(cè)對(duì)象指定到某一類(組)。聚類分析特點(diǎn):將事物性質(zhì)相近的歸為一類,將事物性質(zhì)的差異較大的歸在不同的類。
當(dāng)有一個(gè)分類指標(biāo)時(shí),分類比較容易。當(dāng)有多個(gè)分類指標(biāo)時(shí),要進(jìn)行分類就不是很容易了。由于不同的指標(biāo)項(xiàng)對(duì)重要程度或依賴關(guān)系是相互不同的,所以也不能用平均的方法,這樣會(huì)忽視相對(duì)重要程度的問(wèn)題。聚類分析的含義聚類分析方法的產(chǎn)生
傳統(tǒng)的分類方法起源很早,在古老的分類學(xué)中,人們主要靠經(jīng)驗(yàn)和專業(yè)知識(shí)進(jìn)行定性的分析,許多分類往往帶有主觀性和任意性,不能揭示客觀事物的內(nèi)在本質(zhì)差別和聯(lián)系。聚類分析方法的產(chǎn)生隨著人類科學(xué)技術(shù)的發(fā)展,對(duì)分類的要求越來(lái)越高,僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)難以確切的進(jìn)行分類,特別是對(duì)于多因素、多指標(biāo)的分類問(wèn)題。數(shù)學(xué)工具引用到分類學(xué)中,形成數(shù)值分類學(xué),后來(lái)又將多元分析的技術(shù)引入到數(shù)值分類學(xué),逐步形成聚類分析這一數(shù)值分類方法。聚類分析方法的分類根據(jù)分類對(duì)象Q型:研究樣品之間的關(guān)系,把不同的物體歸類分群R型:研究同一物種不同變量之間的關(guān)系根據(jù)維數(shù):1、2、多根據(jù)聚類的方法:系統(tǒng)聚類、分解法系統(tǒng)聚類法:
最短距離法(近鄰連接法)、最長(zhǎng)距離法(遠(yuǎn)鄰連接法)
類平均法、重心法、離差平方和增量法二、聚類分析的對(duì)象類型R型聚類
以分類對(duì)象為標(biāo)準(zhǔn),可以將變量(指標(biāo))分類——R型聚類分析。
如城鎮(zhèn)居民消費(fèi)水平通常用八項(xiàng)指標(biāo)來(lái)描述,八項(xiàng)指標(biāo)間存在一定的線性相關(guān)。為研究城鎮(zhèn)居民的消費(fèi)結(jié)構(gòu),需將相關(guān)性強(qiáng)的指標(biāo)歸并到一起,這實(shí)際上就是對(duì)指標(biāo)聚類等。
在生產(chǎn)活動(dòng)中不乏有變量聚類的實(shí)例,如:衣服型號(hào)就是根據(jù)人體各部分尺寸數(shù)據(jù)找出最有代表性的指標(biāo)如身長(zhǎng)、胸圍和褲長(zhǎng)、腰圍作為上衣和褲子的代表性指標(biāo)。變量聚類使批量生產(chǎn)成為可能。R型聚類是對(duì)變量進(jìn)行分類處理。一般來(lái)說(shuō),可以反映研究對(duì)象特點(diǎn)的變量有許多,由于對(duì)客觀事物的認(rèn)識(shí)有限,往往難以找出彼此獨(dú)立且有代表性的變量,影響對(duì)問(wèn)題進(jìn)一步的認(rèn)識(shí)和研究。
因此需要先進(jìn)行變量聚類,找出相互獨(dú)立又有代表性的變量,而又不丟失大部分信息。Q型聚類
Q型聚類是對(duì)樣品進(jìn)行分類,即對(duì)觀測(cè)進(jìn)行分類。
根據(jù)觀測(cè)有關(guān)變量的特征,將特征相似的樣品歸為一類。它是聚類分析中用的最多的一種。Q型、R型這兩種聚類在數(shù)學(xué)上是對(duì)稱的,沒(méi)有什么不同。主要討論Q型聚類分析問(wèn)題。三、聚類分析的基本思想我們所研究的樣品或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系),于是:(1)根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體找出一些能夠度量樣品或變量(指標(biāo))之間相似程度的統(tǒng)計(jì)量;
與多元分析的其它方法比,聚類分析方法較為粗糙,理論上還不夠完善,但應(yīng)用方便、廣泛,與回歸分析、判別分析一起被稱為多元分析的三大方法。(2)以這些統(tǒng)計(jì)量為分類的依據(jù),建立一種分類方法,將一批樣品或變量(指標(biāo)),按照它們?cè)谛再|(zhì)上的親疏、相似程度進(jìn)行分類。第二節(jié)數(shù)據(jù)的規(guī)格化處理一、聚類分析的數(shù)據(jù)格式
設(shè)有n個(gè)樣品單位,每個(gè)樣品測(cè)得m項(xiàng)變量(指標(biāo)),原始資料陣為:第i個(gè)樣品Xi為矩陣X的第i行所描述,
任何兩個(gè)樣品Xk與XL之間的相似性,可以通過(guò)矩陣X中的第K行與第L行的相似程度來(lái)刻劃;xij(i=1,…n;j=1,…m)為第i個(gè)樣品的第j個(gè)指標(biāo)的觀測(cè)數(shù)據(jù)。任何兩個(gè)變量xk與xL之間的相似性,可以通過(guò)第K列與第L列的相似程度來(lái)刻劃。xij(i=1,…n;j=1,…m)為第i個(gè)樣品的第j個(gè)指標(biāo)的觀測(cè)數(shù)據(jù)。為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。無(wú)論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來(lái)描述的,變量的類型不同,描述方法也就不同。二、變量測(cè)量尺度的類型通常,變量按照測(cè)量的尺度不同,可以分為三類:二、變量測(cè)量尺度的類型
間隔尺度(定距尺度、定量變量):變量用連續(xù)的量表示,由測(cè)量、計(jì)數(shù)或統(tǒng)計(jì)所得到的量。
如,長(zhǎng)度、重量、經(jīng)濟(jì)統(tǒng)計(jì)數(shù)字、抽樣調(diào)查數(shù)據(jù)等;間隔尺度、有序尺度、
名義尺度有序尺度(定序變量、定性變量):
用該變量度量時(shí)沒(méi)有明確的數(shù)量表示,只有次序(等級(jí))關(guān)系。如,產(chǎn)品質(zhì)量,分為一等品、二等品等。名義尺度(定類變量、定性變量):
具有該種特性的變量在度量時(shí)既沒(méi)有數(shù)量表示,也沒(méi)有次序關(guān)系,而只有性質(zhì)上的差異(用一些類表示)。
如,性別、職業(yè)等。不同類型的變量,在定義距離和相似系數(shù)時(shí),其方法有很大差異。
在實(shí)際應(yīng)用中,研究比較多的是間隔尺度,本章主要討論具有間隔尺度變量的樣品聚類分析方法。數(shù)據(jù)的規(guī)格化處理
為了使不同量綱、不同取值范圍的數(shù)據(jù)能放在一起進(jìn)行比較,通常需要對(duì)數(shù)據(jù)進(jìn)行規(guī)格化處理,
即將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算,把它變?yōu)橐粋€(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。第二節(jié)數(shù)據(jù)的規(guī)格化處理1、數(shù)據(jù)標(biāo)準(zhǔn)化第二節(jié)數(shù)據(jù)的規(guī)格化處理常用的變換方法2、數(shù)據(jù)正規(guī)化3、中心化4、對(duì)數(shù)化5、極大值規(guī)格化6、均值規(guī)格化7、標(biāo)準(zhǔn)差規(guī)格化第三節(jié)相似性度量聚類分析用于系統(tǒng)類群相似性的研究的實(shí)質(zhì),尋找一種能客觀反映事物(樣品或變量)之間親疏(相近或相似)關(guān)系的統(tǒng)計(jì)量,根據(jù)這種統(tǒng)計(jì)量把事物(樣品或變量)分成若干類。相似性度量:能夠度量變量(或樣品)之間相似性程度的數(shù)量指標(biāo)。常用的有相似系數(shù)、相關(guān)系數(shù)、歐氏距離、斜交距離、
離差(誤差)平方和增量等。
描述樣品(或變量)間相近(親疏)、相似程度的統(tǒng)計(jì)量很多,目前用得最多的聚類統(tǒng)計(jì)量是距離和相似系數(shù),距離系數(shù)一般用于對(duì)樣品分類,相似系數(shù)一般用于對(duì)變量聚類。距離
假使每個(gè)樣品有p個(gè)變量,則每個(gè)樣品都可以看成p維空間中的一個(gè)點(diǎn),n個(gè)樣品就是p維空間中的n個(gè)點(diǎn),用距離來(lái)度量樣品之間接近的程度,
即兩個(gè)樣品間接近程度用p維空間中兩點(diǎn)的距離來(lái)度量。距離在聚類過(guò)程中,距離較近的點(diǎn)傾向于歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類。樣品間相近性(親疏程度)的測(cè)度首先我們看樣本數(shù)據(jù):距離距離1、定義距離的準(zhǔn)則
定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件)(樣品i和樣品j的各指標(biāo)相同)(對(duì)稱性)(三角不等式)2、常用距離的算法
通常我們定義的距離一般是指歐氏距離(直線距離),幾何平面上的點(diǎn)P(x1,x2)到原點(diǎn)o(0,0)的歐氏距離,依勾股定理距離
Rp中兩點(diǎn)X(x1,x2,…,xp)和Y(y1,y2,…,yp)之間的歐氏距離為:2、常用距離的算法距離
常用距離——明氏距離(Minkowski距離):(通用的距離測(cè)度公式)2、常用距離的算法距離2、常用距離的算法距離(最直觀的距離)當(dāng)q=2時(shí):歐氏距離(Euclidean)當(dāng)q=1時(shí):絕對(duì)值距離當(dāng)q=∞時(shí):切比雪夫距離(Chebychev)①當(dāng)量綱不一致時(shí),往往突出數(shù)量級(jí)高的變量的作用,壓低數(shù)量級(jí)低的變量作用→結(jié)果與實(shí)際有較大偏差②維數(shù)m增加使Dik變大,其變化無(wú)規(guī)律可循解決:①原始數(shù)據(jù)預(yù)處理②修正公式歐氏距離系數(shù)Dik大小受變量觀測(cè)值量綱影響和變量個(gè)數(shù)(維數(shù))的影響。量綱→原始數(shù)據(jù)預(yù)處理統(tǒng)一量綱變換:
成為無(wú)量綱的、具有統(tǒng)一尺度的數(shù)據(jù),
使每個(gè)變量在同一水平上顯示各自的作用。維數(shù)→修正公式
消除維數(shù)影響,并將歐氏距離系數(shù)的變化范圍限制在(0,1)之間。當(dāng)兩點(diǎn)距離越小↓,dik越大↑,兩樣品相似性愈大↑;反之,距離↑,dik↓,相似性↓例如:對(duì)體重和身高進(jìn)行測(cè)量,采用不同單位,其距離測(cè)量的結(jié)果不同。當(dāng)長(zhǎng)度為cm時(shí):當(dāng)長(zhǎng)度為mm時(shí):通常改進(jìn)辦法有兩個(gè):(1)當(dāng)各指標(biāo)的測(cè)量值相差懸殊時(shí),先對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。
標(biāo)準(zhǔn)化后的數(shù)據(jù),每個(gè)變量的樣本均值為0,標(biāo)準(zhǔn)差為1,與變量的量綱無(wú)關(guān);常用的聚類分析軟件中都有這項(xiàng)功能,可以自動(dòng)完成。(2)為克服變量之間的相關(guān)性影響,可以采用馬氏距離。
下面用一個(gè)一維的例子說(shuō)明歐氏距離與馬氏距離在概率上的差異。
設(shè)有兩個(gè)正態(tài)總體,
給定一個(gè)樣品位于A處,試問(wèn)A處的樣品離哪一個(gè)總體較近。按歐氏距離來(lái)度量,A點(diǎn)離的中心,
要比離的中心“近一些”,從概率論的角度來(lái)看,A點(diǎn)位于右側(cè)約處,
而位于左側(cè)約處,用標(biāo)準(zhǔn)差來(lái)度量,那么A點(diǎn)離要比離“近一些”。
從圖上看,顯然,概率論的角度的度量更為合理。它是用坐標(biāo)差平方除以方差(或乘以方差的倒數(shù)),從而化為無(wú)量綱數(shù),推廣到多維就要乘以協(xié)方差陣的逆矩陣,
這就是是馬氏距離的概念。馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯于1936年引入的,故稱為馬氏距離。這一距離在多元統(tǒng)計(jì)分析中起著十分重要的作用。2、常用距離的算法,考慮點(diǎn)X到G1、G2的相對(duì)距離:設(shè)其中如果存在,則兩個(gè)樣品之間的馬氏距離為:馬氏距離雖然考慮了觀測(cè)變量之間的相關(guān)性,并且也不受觀測(cè)變量量綱不同的影響,在聚類分析之前,如果用全部數(shù)據(jù)計(jì)算的均值向量和協(xié)方差矩陣來(lái)計(jì)算馬氏距離,效果并不是很好。馬氏距離2、常用距離的算法比較合理的辦法是用各個(gè)類的樣本來(lái)計(jì)算各自的協(xié)方差矩陣,同一類樣本的馬氏距離應(yīng)當(dāng)用這一類的協(xié)方差矩陣來(lái)計(jì)算。然而,類的形成要依賴于樣品之間的距離,反過(guò)來(lái)樣品間合理的馬氏距離又依賴于類,這就形成了一個(gè)惡性循環(huán)。馬氏距離2、常用距離的算法因此,在實(shí)際聚類分析處理中,馬氏距離也不是理想的距離。蘭氏距離(Canberra)僅適用于一切的情況,這個(gè)距離有助于克服各指標(biāo)之間量綱的影響,沒(méi)有考慮指標(biāo)之間的相關(guān)性。2、常用距離的算法距離3、歐氏距離系數(shù)一維:DAB=|xA-xB|二維:勾股定理M維(歐氏距離系數(shù)):4、斜交距離離差平方和增量組內(nèi)離差平方和:先計(jì)算組內(nèi)每個(gè)變量的平均值,再用每個(gè)變量與該平均值相減后的平方和相加得此值?!鞍戳杏?jì)算”組內(nèi)平均值計(jì)算:組內(nèi)每個(gè)樣品的某個(gè)變量(列)求和再除以樣品數(shù)2、常用距離的算法距離以上幾種距離的定義均要求變量是間隔尺度的,
如果使用的變量是有序尺度或名義尺度的,則有相應(yīng)的一些定義距離的方法。歐氏距離是聚類分析中用得最廣泛的距離。2、常用距離的算法距離兩兩樣品的距離都算出來(lái)后,形成距離陣D,其中:,D是一個(gè)實(shí)對(duì)稱陣,
只須計(jì)算上(或下)三角形部分,根據(jù)D可對(duì)n個(gè)點(diǎn)進(jìn)行分類,距離近的點(diǎn)歸為一類,距離遠(yuǎn)的點(diǎn)歸為不同的類。距離矩陣:相似系數(shù)
有些事物的相似,并非要求數(shù)值上的一致或相近,例如:
三角形的相似、盡管尺寸、大小相差懸殊,卻非常相似,又如:兩形象平行,也可為非常相似,為此,必須引入另外一個(gè)聚類分析的統(tǒng)計(jì)量——相似系數(shù)。
在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來(lái)度量變量之間的相似性,變量之間的關(guān)系越是密切,其相似系數(shù)越接近于1(或-1);變量之間的關(guān)系越是疏遠(yuǎn),其相似系數(shù)越接近于0。相似系數(shù)在聚類過(guò)程中,———變量間相似性的測(cè)度相似系數(shù)比較相似的變量?jī)A向于歸為一類,不怎么相似的變量歸屬不同的類。相似系數(shù)變量Xi
與
Xj的相似系數(shù)用Cij來(lái)表示。對(duì)于間隔尺度,最常用的相似系數(shù)有兩種:
夾角余弦和相關(guān)系數(shù)。相似系數(shù)1.夾角余弦—cosine
盡管圖中AB和CD長(zhǎng)度不一樣,但形狀相似。
當(dāng)長(zhǎng)度不是主要矛盾時(shí),就可利用夾角余弦這樣的相似系數(shù)。相似系數(shù)變量Xi的n次觀測(cè)值(X1i,X2i……,Xni)看成n維空間的向量,則Xi和Xj夾角aij的余弦稱為兩向量的相似系數(shù)。(它是P維空間中變量Xi的觀測(cè)向量與變量Xj的觀測(cè)向量之間夾角的余弦函數(shù))。1.夾角余弦:相似系數(shù)將任何兩個(gè)樣品與看成p維空間的兩個(gè)向量,這兩個(gè)向量的夾角余弦用表示。則:1.夾角余弦:由于-1≤cosθij
≤1,其值越接近于1,說(shuō)明二樣品的相似程度越高。求出兩兩樣品的相似系數(shù),得到相似系數(shù)矩陣:它是一個(gè)n階實(shí)對(duì)稱矩陣,其主對(duì)角元素為1。1.夾角余弦:相似系數(shù)2.相關(guān)系數(shù):相關(guān)系數(shù)常用rij表示,把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來(lái),可形成樣品相關(guān)系數(shù)矩陣。其中,可根據(jù)R可對(duì)n個(gè)樣品進(jìn)行分類。2.相關(guān)系數(shù):第四節(jié)系統(tǒng)聚類法系統(tǒng)聚類分析的基本思想
系統(tǒng)聚類法(分層聚類):
是諸聚類分析方法中使用最多的一種,
它是將類由多變到少的一種方法。系統(tǒng)聚類分析的基本思想:首先將所研究的每個(gè)樣品各自看成一類,然后根據(jù)樣品間的相似程度,每次將最相似的兩類合并。計(jì)算新類與其他類之間的相似程度,再選擇最相似者加以合并,這樣每合并一次,就減少一類,繼續(xù)這一過(guò)程,直到將所有樣品合并成一類為止。計(jì)算新類與其他類之間的相似程度,再選擇最相似類合并,這樣每合并一次,就減少一類,系統(tǒng)聚類分析的方法(一)類間距離
根據(jù)問(wèn)題和數(shù)據(jù)的實(shí)際情況,
樣品之間的距離:可從介紹過(guò)的幾種聚類統(tǒng)計(jì)量中選取最合適的一種。
類與類之間的距離:主要解決以誰(shuí)來(lái)代表全類,
由此產(chǎn)生不同的類間距離和不同的系統(tǒng)聚類過(guò)程。
以下用表示樣品與之間距離,用表示類與之間的距離。系統(tǒng)聚類分析的方法(一)類間距離常用系統(tǒng)聚類方法1.最短距離法(singlelinkage,nearestneighbor)樣品間:歐氏距離類類間:兩類間兩兩樣品距離最短。
即,下圖中樣品A1和B2之間的距離.類間距離B1B3B2A1A2最短距離(singlelinkage)聚類算法:把兩個(gè)類之間的距離定義為一個(gè)類的所有樣品與另一個(gè)類的所有樣品之間距離的最小者。
定義類Gi與Gj之間的距離為兩類最近樣品的距離,即
將GK和GL合并成一個(gè)新類,記為GM,則任一類GJ
與GM的距離:
(1)規(guī)定樣品之間的距離,計(jì)算n個(gè)樣品的距離矩陣D(0),它是一個(gè)對(duì)稱矩陣,開(kāi)始每個(gè)樣品自成一類,。(2)選擇D(0)中非對(duì)角線的最小元素,設(shè)為DKL,將GK和GL合并成一個(gè)新類,記為GM,即GM={GK,GL}。1.最短距離法聚類步驟:
(3)計(jì)算新類與任一類之間的距離為DJM=min{DJK,DJL}
將D(0)中K、L行,K、L列用上式并成一個(gè)新行新列,新行新列對(duì)應(yīng)GM,所得矩陣記作D(1)。(4)對(duì)D(1)重復(fù)上述對(duì)D(0)的兩步得D(2),直至如果某一步D(m)中最小的元素不止一個(gè),
則對(duì)應(yīng)這些最小元素的類可以同時(shí)合并。所有元素合并成一類為止。
例:5個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為:1.0,2.0,3.5,7.0,9.0,試用最短距離進(jìn)行聚類分析。G1G2G3G4G5G1G2G3G4G50102.5
1.5
06
5
3.50
8
7
5.520解:(1)樣品間的距離采用絕對(duì)距離,計(jì)算樣品兩兩距離,得距離矩陣D(0):G6G3G4G5G6G3G4G50
1.5053.5075.52.00G1G2G3G4G5G1G2G3G4G50102.5
1.5
06
5
3.50
8
7
5.520(2)D(0)樣中非對(duì)角線最小元素為1,即D12=1,根據(jù)最短距離準(zhǔn)則將G1、G2合并為一新類,記為G6={G1,G2};(3)計(jì)算G6與剩余其他類的距離,按照公式:D=min(Di1,Di2),即D(0)的前兩列中取較小者,得距離矩陣D(1)
:G6G3G4G5G6G3G4G50
1.5053.5075.52.00G1G2G3G4G5G1G2G3G4G50102.5
1.5
06
5
3.50
8
7
5.520(2)D(0)樣中非對(duì)角線最小元素為1,即D12=1,根據(jù)最短距離準(zhǔn)則將G1、G2合并為一新類,記為G6={G1,G2};(3)計(jì)算G6與剩余其他類的距離,按照公式:D=min(Di1,Di2),即D(0)的前兩列中取較小者,得距離矩陣D(1)
:G6G3G4G5G6G3G4G50
1.5053.5075.52.00(4)D(1)樣中非對(duì)角線最小元素為1.5,即D36=1.5,根據(jù)最短距離準(zhǔn)則將G3、G6合并為一新類,記為G7={G1,G2,G3};即,D(1)的前兩列中取較小者,得距離矩陣D(2)
:G3G4G5G3G4G503.505.52.00G6G3G4G5G6G3G4G50
1.5053.5075.52.00(4)D(1)樣中非對(duì)角線最小元素為1.5,即D36=1.5,根據(jù)最短距離準(zhǔn)則將G3、G6合并為一新類,記為G7={G1,G2,G3};即,D(1)的前兩列中取較小者,得距離矩陣D(2)
:G3G4G5G3G4G503.505.52.00(5)D(2)樣中非對(duì)角線最小元素為2.0,即D45=2.0,根據(jù)最短距離準(zhǔn)則將G4、G5合并為一新類,記為G8={G4,G5};即,D(2)的前兩列中取較小者,得距離矩陣D(3)
:G7G4G5G7G4G503.505.52.00G7G8G7G803.50(5)D(2)樣中非對(duì)角線最小元素為2.0,即D45=2.0,根據(jù)最短距離準(zhǔn)則將G4、G5合并為一新類,記為G8={G4,G5};即,D(2)的前兩列中取較小者,得距離矩陣D(3)
:G7G4G5G7G4G503.505.52.00G7G8G7G803.50X1X5X4X3X2G6G7G8G9系統(tǒng)聚類譜系圖常用系統(tǒng)聚類方法2.最長(zhǎng)距離法(completelinkage,furthestneighbor)樣品間:歐氏距離類類間:兩類間樣品兩兩距離最長(zhǎng)。
即下圖中樣品A2和B3之間的距離最長(zhǎng)距離(completelinkage)類間距離B1B3A1A2B2聚類算法:(1)把兩個(gè)類之間的距離定義為一個(gè)類的所有樣品與另一個(gè)類
的所有樣品之間的距離最大者,(2)并類的標(biāo)準(zhǔn)仍采用它與其它類的最小距離。
例:5個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為:1.0,2.0,3.5,7.0,9.0,試用最長(zhǎng)距離進(jìn)行聚類分析。解:(1)樣品間的距離采用絕對(duì)距離,計(jì)算樣品兩兩距離,得距離矩陣D(0):G1G2G3G4G5G1G2G3G4G501
02.5
1.506
53.50
8
75.52.00G1G2G3G4G5G1G2G3G4G50102.5
1.50653.50875.52.00(2)D(0)樣中非對(duì)角線最小元素為1,即D12=1,根據(jù)最短距離準(zhǔn)則將G1、G2合并為一新類,記為G6={G1,G2};(3)計(jì)算G6與剩余其他類的距離,按照公式:D=max(Di1,Di2),即D(0)的前兩列中取較小者,得距離矩陣D(1)
:(2)D(0)樣中非對(duì)角線最小元素為1,即D12=1,根據(jù)最短距離準(zhǔn)則將G1、G2合并為一新類,記為G6={G1,G2};(3)計(jì)算G6與剩余其他類的距離,按照公式:D=max(Di1,Di2),即D(0)的前兩列中取較小者,得距離矩陣D(1)
:G6G3G4G5G6G3G4G50
2.5
06
3.508
5.52.00
G1G2G3G4G5G1G2G3G4G50102.5
1.50653.50875.520(4)D(1)樣中非對(duì)角線最小元素為2.0,即D45=2.0,根據(jù)最短距離準(zhǔn)則將G4、G5合并為一新類,記為G7={G4,G5};即,D(1)的前兩列中取較小者,得距離矩陣D(2)
:G6G3G4G5G6G3G4G50
2.5
06
3.508
5.52.00
G6G3G4G5G6G3G4G50
2.506
3.508
5.52.00
G6G3G7G6G3G70
2.5
08
5.50
(4)D(1)樣中非對(duì)角線最小元素為2.0,即D45=2.0,根據(jù)最短距離準(zhǔn)則將G4、G5合并為一新類,記為G7={G4,G5};即,D(1)的前兩列中取較小者,得距離矩陣D(2)
:(5)D(2)樣中非對(duì)角線最小元素為2.5,即D36=2.5,根據(jù)最短距離準(zhǔn)則將G3、G6合并為一新類,記為G8={G3,G6};即,D(2)的前兩列中取較小者,得距離矩陣D(3)
:G8G7G8G7080G6G3G7G6G3G70
2.5
08
5.50
X1X5X4X3X2G6G8G7G9系統(tǒng)聚類譜系圖有兩種形式:一種是組間聯(lián)結(jié)法,組間聯(lián)結(jié)法在計(jì)算距離時(shí),只考慮兩類之間樣品之間的距離的平均,另一種是組內(nèi)聯(lián)結(jié)法,組內(nèi)聯(lián)結(jié)法在計(jì)算距離時(shí)把兩組所有樣品之間的距離都考慮在內(nèi)。3.類平均法(averagelinkagebetweengroup)常用系統(tǒng)聚類方法類間距離B1B3B2A1A2平均距離(average)4.
重心法常用系統(tǒng)聚類方法(centroidmethod)樣品間:歐氏距離類類間:兩類重心(即該類樣品的均值)之間的距離重心法類的重心之間的距離從物理觀點(diǎn)來(lái)看,一類即一組質(zhì)點(diǎn),用它的重心(質(zhì)量的中心)做為代表比較合理,由此產(chǎn)生重心法。類與類之間的距離:定義為它們的重心(均值)之間的(平方)歐氏距離。
設(shè)GK和GL的重心分別為xk和xL,
則GK與GL之間的平方距離為:(centroidmethod)4.
重心法設(shè)某一步將GK和GL合并的新類為GM,它們的重心分別是Xk、XL、Xm,它們各有nk、nL、nm(nm=nk+nL)個(gè)樣品,顯然,新類GM與任一類GJ(重心為xJ)的平方距離是這就是重心法的距離遞推公式。4.
重心法
重心法的歸類步驟與以上三種方法基本上一樣,所不同的是每合并一次類,就要重新計(jì)算新類的重心及各類與新類的距離。
重心法在處理異常值方面比其它系統(tǒng)聚類法更穩(wěn)健,有很好的代表性。4.
重心法常用系統(tǒng)聚類方法(centroidmethod)5.
Ward最小方差法常用系統(tǒng)聚類方法(Ward’minimumvariancemethod
)樣品間:歐氏距離類類間:離差平方和增量法Ward最小方差法
由沃德提出,其思想來(lái)源于方差分析。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 旅行社之間合作協(xié)議
- 美蘇技術(shù)合作協(xié)議
- 2025版施工合同放棄及回函流程規(guī)范3篇
- 2025版智能交通管理系統(tǒng)安全生遵守協(xié)議書3篇
- 2025版小額貸款合同簽訂中的合同簽訂中的合同解除權(quán)與條件2篇
- 2025年全球及中國(guó)不銹鋼晶圓環(huán)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)閉芯變壓器行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)鋁角行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球絲束預(yù)浸料設(shè)備行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025版施工現(xiàn)場(chǎng)安全生產(chǎn)管理及應(yīng)急救援服務(wù)合同2篇
- 河南省濮陽(yáng)市2024-2025學(xué)年高一上學(xué)期1月期末考試語(yǔ)文試題(含答案)
- 割接方案的要點(diǎn)、難點(diǎn)及采取的相應(yīng)措施
- 2025年副護(hù)士長(zhǎng)競(jìng)聘演講稿(3篇)
- 外科護(hù)理(高職護(hù)理專業(yè))PPT完整全套教學(xué)課件
- 超聲科圖像質(zhì)量評(píng)價(jià)細(xì)則及超聲科制度匯編
- 創(chuàng)傷嚴(yán)重程度(ISS)評(píng)分表(完整版)
- 中國(guó)古代文學(xué)史 馬工程課件(中)24第六編 遼西夏金元文學(xué) 緒論
- 2022版義務(wù)教育(勞動(dòng))課程標(biāo)準(zhǔn)(含2022年修訂部分)
- 最新交管12123學(xué)法減分題庫(kù)含答案(通用版)
- 碳排放核查員模擬考試題
- 奢侈品管理概論完整版教學(xué)課件全書電子講義(最新)
評(píng)論
0/150
提交評(píng)論