




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第五章 聚類分析第一節(jié) 引言 第二節(jié) 相同性量度 第三節(jié) 系統(tǒng)聚類分析法 第四節(jié) K均值聚類分析 第五節(jié) K中心點聚類第六節(jié) R codes多元統(tǒng)計分析聚類分析第1頁第一節(jié) 引言 “物以類聚,人以群分”無監(jiān)督分類聚類分析分析怎樣對樣品(或變量)進行量化分類問題Q型聚類對樣品進行分類R型聚類對變量進行分類多元統(tǒng)計分析聚類分析第2頁相同性和相異性Similarity數(shù)值測量兩個數(shù)據(jù)對象類似程度目標(biāo)越相同時值越大通常介于 0,1Dissimilarity (e.g., 距離distance)數(shù)值測量兩個數(shù)據(jù)對象差異程度Lower when objects are more alikeMinimum
2、dissimilarity is often 0Upper limit varies鄰近度Proximity refers to a similarity or dissimilarity多元統(tǒng)計分析聚類分析第3頁數(shù)據(jù)矩陣和相異度矩陣Data matrixn data points with p dimensionsDissimilarity matrixn data points, but registers only the distance A triangular matrix多元統(tǒng)計分析聚類分析第4頁例: 數(shù)據(jù)矩陣和相異度矩陣Dissimilarity Matrix (with Eu
3、clidean Distance)Data Matrix多元統(tǒng)計分析聚類分析第5頁第二節(jié) 相同性量度 一 樣品相同性度量 二 變量相同性度量 多元統(tǒng)計分析聚類分析第6頁含名義變量樣本相同性度量例: 學(xué)員資料包含六個屬性:性別(男或女);外語語種(英、日或俄);專業(yè)(統(tǒng)計、會計或金融);職業(yè)(教師或非教師);居住處(校內(nèi)或校外);學(xué)歷(本科或本科以下)現(xiàn)有兩名學(xué)員: X1=(男,英,統(tǒng)計,非教師,校外,本科) X2=(女,英,金融,教師,校外,本科以下)對應(yīng)變量取值相同稱為配合,不然稱為不配合記配合變量數(shù)為m1,不配合變量數(shù)為m2,則樣本之間距離可定義為本例中X1 與X2 之間距離為2/3多元統(tǒng)
4、計分析聚類分析第7頁二進制屬性鄰近度量二進制數(shù)據(jù)列聯(lián)表contingency table 對稱二元變量距離側(cè)度: 不對稱二元變量距離側(cè)度: Jaccard系數(shù)(不對稱二元變量相同性側(cè)度): Note: Jaccard coefficient is the same as “coherence”:Object iObject j多元統(tǒng)計分析聚類分析第8頁二進制屬性相異度量Example性別是對稱屬性The remaining attributes are asymmetric binary令Y and P 值為1, 且N值為0多元統(tǒng)計分析聚類分析第9頁有序變量Ordinal Variables一
5、個序變量能夠離散或連續(xù)Order is important, e.g., rankCan be treated like interval-scaled 用他們序代替xif映射每一個變量范圍于0,1,用以下值代替第f-th變量i-th對象多元統(tǒng)計分析聚類分析第10頁混合型屬性 A database may contain all attribute typesNominal, symmetric binary, asymmetric binary, numeric, ordinal能夠用加權(quán)法計算合并影響f is binary or nominal:dij(f) = 0 if xif = xj
6、f , or dij(f) = 1 otherwisef is numeric: use the normalized distancef is ordinal Compute ranks rif and Treat zif as interval-scaled多元統(tǒng)計分析聚類分析第11頁規(guī)范數(shù)值數(shù)據(jù)Z-score: X: 需標(biāo)準(zhǔn)化原始數(shù)值, : 總體均值, : 標(biāo)準(zhǔn)差在標(biāo)準(zhǔn)偏差單位下,原始分數(shù)和總體均值之間距離“-”, “+”另一個方法: Calculate the mean absolute deviation其中standardized measure (z-score):使用平均絕對偏
7、差比使用標(biāo)準(zhǔn)差更穩(wěn)健多元統(tǒng)計分析聚類分析第12頁一、樣品相同性度量Q型聚類分析,慣用距離來測度樣品之間相同程度每個樣品有p個指標(biāo)(變量)從不一樣方面描述其性質(zhì),形成一個p維向量。假如把n個樣品看成p維空間中n個點,則兩個樣品間相同程度就可用p維空間中兩點距離公式來度量。令dij 表示樣品Xi與Xj距離,普通應(yīng)滿足: (i) dij0,對一切i,j;(ii) dij=0,當(dāng)且僅當(dāng)?shù)趇個樣品與第j個樣品各變量值相同;(iii) dij=dji,對一切i,j;(iv) dijdik+dkj,對一切i,j,k。多元統(tǒng)計分析聚類分析第13頁1明考夫斯基距離(明氏距離) 一、樣品相同性度量多元統(tǒng)計分析聚類
8、分析第14頁Example: Minkowski DistanceDissimilarity MatricesManhattan (L1)Euclidean (L2)Supremum 多元統(tǒng)計分析聚類分析第15頁2馬氏距離 設(shè)Xi與Xj是來自均值向量為 ,協(xié)方差為 (0)總體G中p維樣品,則兩個樣品間馬氏距離為 馬氏距離又稱為廣義歐氏距離馬氏距離考慮了觀察變量之間相關(guān)性若各變量之間相互獨立,馬氏距離退化加權(quán)歐氏距離馬氏距離還考慮了觀察變量之間變異性,不再受各指標(biāo)量綱影響一、樣品相同性度量多元統(tǒng)計分析聚類分析第16頁3蘭氏距離 它僅適合用于一切Xij0情況能夠克服各個指標(biāo)之間量綱影響;對大奇異值
9、不敏感,尤其適合于高度偏倚數(shù)據(jù);但它沒有考慮指標(biāo)之間相關(guān)性;一、樣品相同性度量多元統(tǒng)計分析聚類分析第17頁不一樣距離公式側(cè)重點和實際意義都有所不一樣同一批數(shù)據(jù)采取不一樣距離公式,可能會得到不一樣分類結(jié)果距離公式選擇基本標(biāo)準(zhǔn):要考慮所選擇距離公式在實際應(yīng)用中有明確意義歐氏距離就有非常明確空間距離概念馬氏距離有消除量綱影響作用要綜合考慮對樣本觀察數(shù)據(jù)預(yù)處理和將要采取聚類分析方法如在進行聚類分析之前已經(jīng)對變量作了標(biāo)準(zhǔn)化處理,則通??刹扇W氏距離要考慮研究對象特點和計算量大小歸根到底:Application Driven: 依據(jù)研究對象特點不一樣做出詳細分折Try一、樣品相同性度量多元統(tǒng)計分析聚類分析
10、第18頁二、變量相同性度量相對于數(shù)據(jù)大小,更多地對變量改變趨勢或方向感興趣變量間相同性-方向趨同性或“相關(guān)性” “夾角余弦法”“相關(guān)系數(shù)”多元統(tǒng)計分析聚類分析第19頁余弦相同性 Cosine SimilarityA document can be represented by thousands of attributes, each recording the frequency of a particular word (such as keywords) or phrase in the document.Other vector objects: gene features in mi
11、cro-arrays, Applications: information retrieval, biologic taxonomy, gene feature mapping, .Cosine measure: If d1 and d2 are two vectors (e.g., term-frequency vectors), then cos(d1, d2) = (d1 d2) /|d1| |d2| , where indicates vector dot product, |d|: the length of vector d多元統(tǒng)計分析聚類分析第20頁 Example: Cosin
12、e Similaritycos(d1, d2) = (d1 d2) /|d1| |d2| , where indicates vector dot product, |d|: the length of vector dEx: Find the similarity between documents 1 and 2.d1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0)d2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1)d1 d2 = 5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1 = 25|d1|= (5*5+0*0+3*3
13、+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5 = 6.481|d2|= (3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5 = 4.12cos(d1, d2 ) = 0.94多元統(tǒng)計分析聚類分析第21頁2相關(guān)系數(shù)變量Xi與Xj相關(guān)系數(shù)定義為 顯然有,rij 1。二、變量相同性度量多元統(tǒng)計分析聚類分析第22頁它們絕對值都小于1,統(tǒng)記為cij當(dāng)cij= 1時,說明變量Xi與Xj完全相同;當(dāng)cij近似于1時,說明變量Xi與Xj非常親密;當(dāng)cij = 0時,說明變量Xi與Xj完全不一樣;當(dāng)cij近似于0時,說明變
14、量Xi與Xj差異很大。變換為距離度量: dij = 1 cij或 dij2 = 1 cij2 二、變量相同性度量多元統(tǒng)計分析聚類分析第23頁距離度量與相同性度量由距離來結(jié)構(gòu)相同系數(shù)總是可能:由相同系數(shù)結(jié)構(gòu)距離并不總是可行Gower證實,當(dāng)相同系數(shù)矩陣(cij)為非負定時: 則dij滿足距離定義四個條件多元統(tǒng)計分析聚類分析第24頁第三節(jié) 系統(tǒng)聚類分析法 一 系統(tǒng)聚類基本思想 二 類間距離與系統(tǒng)聚類法 三 類間距離統(tǒng)一性 多元統(tǒng)計分析聚類分析第25頁一、系統(tǒng)聚類基本思想距離相近樣品(或變量)先聚成類,距離相遠后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到適當(dāng)類中系統(tǒng)聚類過程:(假設(shè)總共有n
15、個樣品(或變量)1. 將每個樣品(或變量)獨自聚成一類,共有n類;2. 依據(jù)所確定樣品(或變量)“距離”公式,把距離較近兩個樣品(或變量)聚合為一類,其它樣品(或變量)仍各自聚為一類,共聚成n 1類;3. 將“距離”最近兩個類深入聚成一類,共聚成n 2類;4. 循環(huán)之5. 將全部樣品(或變量)全聚成一類譜系圖描繪聚類過程多元統(tǒng)計分析聚類分析第26頁二、類間距離與系統(tǒng)聚類法類間距離-類與類之間距離定義不一樣,方法不一樣,結(jié)果不一樣最短距離法(Single linkage)最長距離法(Complete method)中間距離法(Median method)重心法(Centriod method)類
16、平均法(Avarage linkage)可變類平均法(Flexible-beta method)可變法(McQuitty, MCQ)離差平方和法(Ward)多元統(tǒng)計分析聚類分析第27頁dij表示樣品Xi與Xj之間距離,用Dij表示類Gi與Gj之間距離。1. 最短距離法定義類間距離為兩類最近樣品距離,即為 合并成一個新類后,則任一類與之距離為 二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第28頁最短距離法步驟以下:(1)依據(jù)選取距離計算樣品兩兩距離,得一距離陣記為D(0) ,開始每個樣品自成一類,顯然這時Dij =dij(2)找出距離最小元素,設(shè)為Dpq,則將Gp和Gq合并成一個新類,記為Gr,
17、即Gr = Gp,Gq(3)計算新類與其它類距離 (4)重復(fù)(2)、(3)兩步,直到全部元素。并成一類為止假如某一步距離最小元素不止一個,則對應(yīng)這些最小元素類能夠同時合并二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第29頁例:設(shè)有六個樣品,每個只測量一個指標(biāo),分別是1,2,5,7,9,10,試用最短距離法將它們分類。 (1)樣品采取絕對值距離,計算樣品間距離陣D(0) 二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第30頁(2)D(0)中最小元素是D12D561,于是將G1和G2合并成G7,G5和G6合并成G8,計算新類與其它類距離D(1) 二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第31頁(
18、3)在D(1)中最小值是D34D482,因為G4與G3合并,又與G8合并,所以G3、G4、G8合并成一個新類G9,其與其它類距離D(2) 二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第32頁(4)最終將G7和G9合并成G10,這時全部六個樣品聚為一類,其過程終止。譜系圖表示橫坐標(biāo)刻度表示并類距離二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第33頁二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第34頁再找距離最小兩類并類,直至全部樣品全歸為一類為止最長距離法與最短距離法只有兩點不一樣:一是類與類之間距離定義不一樣;一是計算新類與其它類距離所用公式不一樣二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第
19、35頁3. 中間距離法(折中)中間距離將類Gp與Gq類合并為類Gr,則任意類Gk和Gr距離公式為 (14 0) 設(shè)DkqDkp最短距離法,則Dkr = Dkp;最長距離法,則Dkr = Dkq。中間距離法:取它們中間某一點二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第36頁尤其當(dāng) = 14,它表示取中間點算距離,公式為 二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第37頁二、類間距離與系統(tǒng)聚類法4. 重心法類間距離為兩類重心(各類樣品均值)距離重心指標(biāo)對類有很好代表性,但利用各樣本信息不充分多元統(tǒng)計分析聚類分析第38頁 推導(dǎo)以下:二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第39頁二、類間距離
20、與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第40頁 二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第41頁例:(數(shù)據(jù)同上例)有六個樣品,每個只測量一個指標(biāo),分別是1,2,5,7,9,10試用重心法將它們聚類(1)樣品采取歐氏距離,計算樣品間平方距離陣D2(0)二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第42頁(2)D2(0)中最小元素是D212D2561,于是將G1和G2合并成G7,G5和G6合并成G8,并計算新類與其它類距離得到距離陣D2(1) 其中,二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第43頁(3)在D2(1)中最小值是D2344,那么G3與G4合并一個新類G9,其與其它類距離D2(2) :
21、 二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第44頁(4)其中最小值是12.5,那么合并一個新類,其與其它類距離:二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第45頁(5)最終將G7和G10合并成G11,這時全部六個樣品聚為一類,其過程終止。譜系圖表示:二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第46頁二、類間距離與系統(tǒng)聚類法與最短距離法比較一下:多元統(tǒng)計分析聚類分析第47頁二、類間距離與系統(tǒng)聚類法5. 類平均法類間距離平方取為這兩類元素兩兩之間距離平方平均數(shù)多元統(tǒng)計分析聚類分析第48頁6. 可變類平均法類平均法中沒有反應(yīng)出Gp和Gq之間距離Dpq影響將Gp和Gq合并為新類Gr,類Gk與新
22、并類Gr距離公式推廣為: 其中是可變且 1二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第49頁二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第50頁8. 離差平方和法(Ward方法)基本思想來自于方差分析假如分類正確,同類樣品離差平方和應(yīng)該較小,類與類離差平方和較大。詳細步驟:先將n個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使其增加最小兩類合并,直到全部樣品歸為一類為止。二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第51頁設(shè)將n個樣品分成k類G1,G2,Gk,用Xit表示Gt中第i個樣品,nt表示Gt中樣品個數(shù), 是Gt重心,則Gt樣品離差平方和為 二、類間距離與系
23、統(tǒng)聚類法多元統(tǒng)計分析聚類分析第52頁 二、類間距離與系統(tǒng)聚類法多元統(tǒng)計分析聚類分析第53頁三、類間距離統(tǒng)一上述八種系統(tǒng)聚類法步驟完全一樣,只是距離遞推公式不一樣。蘭斯(Lance)和威廉姆斯(Williams)于1967年給出了一個統(tǒng)一公式。 ap、aq、 、 是參數(shù)不一樣系統(tǒng)聚類法,它們?nèi)〔灰粯又底⒁猓翰灰粯泳垲惙椒ńY(jié)果不一定完全相同,普通只是大致相同可將聚類結(jié)果與實際問題對照,看哪一個結(jié)果更符合經(jīng)驗多元統(tǒng)計分析聚類分析第54頁表 系統(tǒng)聚類法參數(shù)表三、類間距離統(tǒng)一多元統(tǒng)計分析聚類分析第55頁單調(diào)性:令Di是系統(tǒng)聚類法中第i次并類時距離,假如一個系統(tǒng)聚類法能滿足D1D2D3 單調(diào)性符合系統(tǒng)聚類
24、法思想,先合并較相同類,后合并較疏遠類最短距離法、最長距離法、可變法、類平均法、可變類平均法和離差平方和法都含有單調(diào)性中間距離法和重心法不含有單調(diào)性四、單調(diào)性多元統(tǒng)計分析聚類分析第56頁五、類個數(shù)假如能夠分成若干個很分開類,則類個數(shù)就比較輕易確定;假如不論怎樣分都極難分成顯著分開若干類,則類個數(shù)確實定就比較困難慣用方法:給定一個閾值T經(jīng)過觀察譜系圖,給出一個適當(dāng)閾值T,要求類與類之間距離要大于T有較強主觀性觀察樣品散點圖假如樣品只有兩個或三個變量,則可經(jīng)過觀察數(shù)據(jù)散點圖來確定類個數(shù)假如變量個數(shù)超出三個,可先降維(費舍爾判別法等)使用統(tǒng)計量(模型選擇)多元統(tǒng)計分析聚類分析第57頁觀察散點圖能夠從
25、直覺上來判斷所采取聚類方法是否合理可直接從散點圖中進行主觀分類五、類個數(shù)-尋找“自然”類多元統(tǒng)計分析聚類分析第58頁五、類個數(shù)畫圖法依次嘗試不一樣k值(x),計算某個度量(統(tǒng)計量、距離等)(y)畫圖,顯示y隨x改變趨勢找拐點,作為確定k依據(jù)當(dāng)曲線拐點很平緩時,可選擇k很多,這時需要用其它方法來確定多元統(tǒng)計分析聚類分析第59頁第四節(jié) K均值聚類分析 系統(tǒng)聚類法計算量大快速聚類方法-K均值法由麥奎因(MacQueen,1967)提出基本思想:將每一個樣品分配給最近中心(均值)類中:1將全部樣品分成K個初始類;2經(jīng)過距離度量將某個樣品劃入離中心(中心怎么定?)最近類中;3. 對取得樣品與失去樣品類,
26、重新計算中心坐標(biāo);4重復(fù)步驟2、3直到全部樣品都不能再分配時為止。多元統(tǒng)計分析聚類分析第60頁012345678910012345678910012345678910012345678910K=2任意選擇 K個對象作為初始聚類中心將每個對象賦給最類似中心更新聚類平均值重新分配更新聚類平均值K均值聚類分析多元統(tǒng)計分析聚類分析第61頁例:對A、B、C、D四個樣品分別測量兩個變量,得到以下結(jié)果,試將這些樣品聚成兩類。 K均值聚類分析多元統(tǒng)計分析聚類分析第62頁K均值聚類分析第一步:按要求取K=2,先將這些樣品隨意分成兩類,比如(A、B)和(C、D),然后計算這兩個聚類中心坐標(biāo):多元統(tǒng)計分析聚類分析第
27、63頁第二步:計算某個樣品到各類中心歐氏平方距離,然后將該樣品分配給最近一類。對于樣品有變動類,重新計算它們中心坐標(biāo),為下一步聚類做準(zhǔn)備。先計算A到兩個類平方距離:因為A到(A、B)距離小于到(C、D)距離,所以A不用重新分配;計算B到兩類平方距離:對C、D一樣(略)K均值聚類分析多元統(tǒng)計分析聚類分析第64頁因為B到(A、B)距離大于到(C、D)距離,所以B要分配給(C、D)類,得到新聚類是(A)和(B、C、D)更新中心坐標(biāo):K均值聚類分析多元統(tǒng)計分析聚類分析第65頁第三步:再次檢驗每個樣品,以決定是否需要重新分類。計算各樣品到各中心距離平方:發(fā)覺:每個樣品都已經(jīng)分配給距離中心最近類,聚類過程
28、到此結(jié)束最終得到K=2聚類結(jié)果是A獨自成一類,B、C、D聚成一類K均值聚類分析多元統(tǒng)計分析聚類分析第66頁K均值聚類分析系統(tǒng)聚類與K均值聚類都是距離度量類聚類方法系統(tǒng)聚類對不一樣類數(shù)產(chǎn)生一系列聚類結(jié)果K均值法只能產(chǎn)生指定類數(shù)聚類結(jié)果詳細類數(shù)確實定?實踐經(jīng)驗積累(機理研究)借助系統(tǒng)聚類法以一部分樣品為對象進行聚類,其結(jié)果作為K均值法確定類數(shù)參考多元統(tǒng)計分析聚類分析第67頁優(yōu)點: 相對有效性: O(tkn), 其中 n 是對象數(shù)目, k 是簇數(shù)目, t 是迭代次數(shù); 通常:k, t n.比較: PAM: O(k(n-k)2), CLARA: O(ks2 + k(n-k)PAM (Partition
29、ing Around Medoid,圍繞代表點劃分)CLARA (Clustering LARge Applications)當(dāng)結(jié)果簇是密集,而簇與簇之間區(qū)分顯著時,它效果很好K均值聚類分析多元統(tǒng)計分析聚類分析第68頁弱點只有在簇平均值(mean)被定義情況下才能使用.可能不適合用于一些應(yīng)用包括有分類屬性數(shù)據(jù)需要預(yù)先指定簇數(shù)目k 不能處理噪音數(shù)據(jù)和孤立點(outliers)經(jīng)常終止于局部最優(yōu)(初值依賴). 嘗試不一樣初值全局最優(yōu) 能夠使用諸如模擬退火(simulated annealing)和遺傳算法(genetic algorithms)等技術(shù)得到K均值聚類分析多元統(tǒng)計分析聚類分析第69頁K
30、均值方法變種, 它們在以下方面有所不一樣初始k個平均值選擇距離度量計算聚類平均值策略 處理分類屬性: k- 模(k-modes) 方法(Huang98)用模(modes眾數(shù))替換聚類平均值使用新距離度量方法來處理分類對象 用基于頻率方法k-原型(k-prototype)方法: k-平均和k-模結(jié)合, 處理含有數(shù)值和分類屬性數(shù)據(jù)K均值聚類分析多元統(tǒng)計分析聚類分析第70頁 R codes一 例一二 例二 多元統(tǒng)計分析聚類分析第71頁例 一設(shè)有20個土壤樣品分別對5個變量觀察數(shù)據(jù)如表所表示,試?yán)孟到y(tǒng)聚類法對其進行樣品聚類分析。表 土壤樣本觀察數(shù)據(jù)多元統(tǒng)計分析聚類分析第72頁例 一多元統(tǒng)計分析聚類分
31、析第73頁R code# This program performs cluster analysis on the given data.# Enter the data and assign variable names.data - read.table(file = datasets/turang.txt, header=T, s = c(bh, x1, x2, x3, x4, x5) # Create a matrix of variables to be used in the cluster analysis# and a vector of id numbers
32、id-data ,1data.x-data ,2:6# Standardize the datadata.mean-apply(data.x,2,mean)data.std-sqrt(apply(data.x,2,var)data.sx-sweep(data.x,2,data.mean,FUN=-)data.sx-sweep(data.sx,2,data.std,FUN=/)多元統(tǒng)計分析聚類分析第74頁R codepar(mfrow=c(3,1)# Use complete linkage (最長距離法), this is also the default methodhc - hclust(
33、dist(data.sx),method=complete)plclust(hc,label=id)title(Complete Linkage Cluster Analysis) # Use average linkage (類平均值法)hc - hclust(dist(data.sx),method=average)plclust(hc,label=id)title(Average Linkage Cluster Analysis) # Use single linkage (最短距離法)hc-hclust(dist(data.sx),method=single)plclust(hc,la
34、bel=id)title(Single Linkage Cluster Analysis) 多元統(tǒng)計分析聚類分析第75頁R code# Compute K-means cluster analysis starting with the results from# an average linkage cluster analysis. The centroids from seven# aveargae linkage clusters are stored as rows in the matrix initialhc - hclust(dist(data.sx),method=avera
35、ge) initial - tapply(as.matrix(data.sx), list(rep(cutree(hc,3),ncol(data.sx),col(data.sx), mean)km - kmeans(data.sx, initial)cbind(as.character(data$bh),km$cluster)# Compute K-means cluster analysis starting with random intializationskm - kmeans(x = data.sx, centers = 3)cbind(as.character(data$bh),k
36、m$cluster)多元統(tǒng)計分析聚類分析第76頁主要運行結(jié)果解釋1. 在結(jié)果輸出窗口中能夠看到譜系圖(Dendrogram)若將20個樣品分為兩類:樣品2、6、19、7、18和樣品1為一類其余為另一類;若將樣品分為三類:樣品8、9、4從第二類中分離出來,自成一類;依這類推例 一多元統(tǒng)計分析聚類分析第77頁圖 系統(tǒng)聚類法譜系圖例 一多元統(tǒng)計分析聚類分析第78頁例 二我國各地域三個產(chǎn)業(yè)產(chǎn)值如表所表示,試依據(jù)三個產(chǎn)業(yè)產(chǎn)值利用K均值法對我國31個省、自治區(qū)和直轄市進行聚類分析。 多元統(tǒng)計分析聚類分析第79頁R code# This program performs cluster analysis o
37、n the given data.# Enter the data and assign variable names.par(mfrow=c(3,1)data - read.table(file = datasets/chanzhi.txt, header=T, s = c(Province, x1, x2, x3) # Create a matrix of variables to be used in the cluster analysis# and a vector of id numbersid-data ,1data.x-data ,2:4# Standardiz
38、e the datadata.mean-apply(data.x,2,mean)data.std-sqrt(apply(data.x,2,var)data.sx-sweep(data.x,2,data.mean,FUN=-)data.sx-sweep(data.sx,2,data.std,FUN=/)多元統(tǒng)計分析聚類分析第80頁R code# Use complete linkage, this is also the default methodhc - hclust(dist(data.sx),method=complete)plclust(hc,label=id)title(Comple
39、te Linkage Cluster Analysis) # Use average linkagehc - hclust(dist(data.sx),method=average)plclust(hc,label=id)title(Average Linkage Cluster Analysis) # Use single linkagehc-hclust(dist(data.sx),method=single)plclust(hc,label=id)title(Single Linkage Cluster Analysis) 多元統(tǒng)計分析聚類分析第81頁R code# Compute K-
40、means cluster analysis starting with the results from# an average linkage cluster analysis. The centroids from seven# aveargae linkage clusters are stored as rows in the matrix initialhc - hclust(dist(data.sx),method=average) initial - tapply(as.matrix(data.sx), list(rep(cutree(hc,3),ncol(data.sx),c
41、ol(data.sx), mean)km - kmeans(data.sx, initial)cbind(as.character(data$Province),km$cluster)# Compute K-means cluster analysis starting with random intializations# Note that this is the default and is controlled by nstart # (by default,this is one).km - kmeans(x = data.sx, centers = 3, nstart = 1000
42、0)cbind(as.character(data$Province),km$cluster)多元統(tǒng)計分析聚類分析第82頁表 各觀察量所屬類組員表例 二 (SPSS結(jié)果)多元統(tǒng)計分析聚類分析第83頁能夠看出31個地域被分成3類第一類包含:江蘇、浙江、山東和廣東4個省。這一類類中心三個產(chǎn)業(yè)產(chǎn)值分別為1102.14億元、6423.01億元和4454.26億元,屬于三個產(chǎn)業(yè)都比較發(fā)達地域;第二類包含:天津、山西、內(nèi)蒙古、吉林、江西、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏和新疆16個地域。這一類類中心三個產(chǎn)業(yè)產(chǎn)值分別為307.61億元、795.41億元和673.63億元,屬于欠發(fā)達
43、地域;剩下11個地域為第三類。這一類類中心三個產(chǎn)業(yè)產(chǎn)值分別為713.28億元、2545.20億元和212.87億元,屬于中等發(fā)達地域。比較初始值vs自動例 二多元統(tǒng)計分析聚類分析第84頁k-均值聚類算法對孤立點(異常點)很敏感!因為含有尤其大值對象可能顯著地影響數(shù)據(jù)分布.k-中心點(k-Medoids): 不采取簇中對象平均值作為參考點, 而是選取簇中位置最中心對象, 即中心點(medoid,代表點)作為參考點. 012345678910012345678910012345678910012345678910K中心點聚類分析多元統(tǒng)計分析聚類分析第85頁PAM (Partitioning Aro
44、und Medoids) (Kaufman and Rousseeuw, 1987)是最早提出k-中心點聚類算法基本思想:首先為每個簇隨意選擇一個代表對象; 剩下對象依據(jù)其與代表對象距離分配給最近一個簇然后重復(fù)地用非代表對象來替換代表對象, 以改進聚類質(zhì)量聚類結(jié)果質(zhì)量用一個代價函數(shù)來估算, 該函數(shù)評定了對象與其參考對象之間平均距離 K中心點聚類分析多元統(tǒng)計分析聚類分析第86頁為了判定一個非代表對象Orandom 是否是當(dāng)前一個代表對象Oj好替換, 對于每一個非代表對象p,考慮下面四種情況: 第一個情況:p當(dāng)前隸屬于代表對象 Oj. 假如Oj被Orandom所代替, 且p離Oi最近, ij, 那
45、么p被重新分配給Oi 第二種情況:p當(dāng)前隸屬于代表對象 Oj. 假如Oj 被Orandom代替, 且p離Orandom最近, 那么p被重新分配給Orandom 第三種情況:p當(dāng)前隸屬于Oi,ij。假如Oj被Orandom代替,而p依然離Oi最近,那么對象隸屬不發(fā)生改變 第四種情況:p當(dāng)前隸屬于Oi,ij。假如Oj被Orandom代替,且p離Orandom最近,那么p被重新分配給Orandom K中心點聚類分析多元統(tǒng)計分析聚類分析第87頁1. 重新分配給Oi 2. 重新分配給Orandom 3. 不發(fā)生改變 4.重新分配給Orandom 數(shù)據(jù)對象+ 簇中心 替換前 替換后 圖 k-中心點聚類代價
46、函數(shù)四種情況+OrandomOiOjp+OrandomOiOjp +OrandomOiOjp+OrandomOiOjpK中心點聚類分析多元統(tǒng)計分析聚類分析第88頁算法: k-中心點(1) 隨機選擇k個對象作為初始代表對象(中心點);(2) repeat(3) 指派每個剩下對象給離它最近代表對象所代表簇;(4) 隨意地選擇一個非代表對象Orandom;(5) 計算用Orandom代替Oj總代價S;S=代替后點平方誤差函數(shù)-原來平方誤差函數(shù)(6) 假如S0,則用Orandom替換Oj,形成新k個代表對象集合;(7) until 不發(fā)生改變K中心點聚類分析多元統(tǒng)計分析聚類分析第89頁Total Cost = 2001234567891001234567891
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 創(chuàng)業(yè)融資租賃合同范本
- 公路護欄修建合同范本
- 個人用電協(xié)議合同范例
- 公司運輸購銷合同范本
- 刻字木材出售合同范本
- 個人旅游陪玩合同范本
- 個人住家保姆合同范本
- 勞務(wù)代理加盟合同范例
- fidic銀皮書合同范例
- 出售電廠燒火料合同范本
- 生物基有機硅材料的研究進展及前景展望
- 國有企業(yè)保密管理制度
- 一年級上冊數(shù)學(xué)試題-期中試卷五 蘇教版(含答案)
- Unit2大單元整體教學(xué)設(shè)計-小學(xué)英語四年級上冊(Joinin外研劍橋英語)
- 鄉(xiāng)村振興背景下農(nóng)業(yè)碩士產(chǎn)教融合培養(yǎng)模式的創(chuàng)新
- 人美版(2024)七年級上冊美術(shù)第二單元 色彩魅力第1課《自然的色彩》教學(xué)設(shè)計
- 2024年高級纖維檢驗員職業(yè)鑒定理論考試題庫(含答案)
- 心肺復(fù)蘇科普課件
- 員工食堂就餐統(tǒng)計表
- 2024至2030年中國醫(yī)療保險行業(yè)市場深度分析及投資戰(zhàn)略規(guī)劃報告
- 【班主任培訓(xùn)】初一新生行為習(xí)慣規(guī)范
評論
0/150
提交評論