第十九章-聚類分析推薦課件_第1頁
第十九章-聚類分析推薦課件_第2頁
第十九章-聚類分析推薦課件_第3頁
第十九章-聚類分析推薦課件_第4頁
第十九章-聚類分析推薦課件_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、2021/8/221第十九章 聚類分析 (clustering analysis)2021/8/222判別分析:在已知分為若干個(gè)類的前提下,獲得判別模型,并用來判定觀察對(duì)象的歸屬。 聚類分析:將隨機(jī)現(xiàn)象歸類的統(tǒng)計(jì)學(xué)方法,在不知道應(yīng)分多少類合適的情況下,試圖借助數(shù)理統(tǒng)計(jì)的方法用已收集到的資料找出研究對(duì)象的適當(dāng)歸類方法。已成為發(fā)掘海量基因信息的首選工具。 二者都是研究分類問題的多元統(tǒng)計(jì)分析方法。2021/8/223聚類分析屬于探索性統(tǒng)計(jì)分析方法,按照分類目的可分為兩大類。 例如測(cè)量了n個(gè)病例(樣品)的m個(gè)變量(指標(biāo)),可進(jìn)行:(1)R型聚類: 又稱指標(biāo)聚類,是指將m個(gè)指標(biāo)歸類的方法,其目的是將指標(biāo)

2、降維從而選擇有代表性的指標(biāo)。(2)Q型聚類: 又稱樣品聚類,是指將n個(gè)樣品歸類的方法,其目的是找出樣品間的共性。2021/8/224指標(biāo)聚類目的:目的:把多個(gè)指標(biāo)按相似程度聚成幾類,每類找一個(gè)典型指標(biāo)來代表原來的多個(gè)指標(biāo)。資料要求:資料要求:指標(biāo)是定量的,理論上也可以全部是定性的或等級(jí)的(要少用)效果不好。用途:用途:1.分類找典型指標(biāo) 2.可與回歸分析合用找典型自變量;可與判別分析合用找典型指標(biāo)。2021/8/225樣品聚類目的:目的:把多個(gè)樣品按照相近樣品聚成幾類,作分類比較研究。需要時(shí)也可每類找一個(gè)典型樣品來代表各類樣品。資料要求:資料要求:描述樣品的指標(biāo)全部定量。用途:用途:分類202

3、1/8/226 無論是R型聚類或是Q型聚類的關(guān)鍵是如何定義相似性,即如何把相似性數(shù)量化。聚類的第一步需要給出兩個(gè)指標(biāo)或兩個(gè)樣品間相似性的度量相似系數(shù)(similarity coefficient)的定義。2021/8/227聚類統(tǒng)計(jì)量指標(biāo)聚類(指標(biāo)聚類(R型聚類)的聚類統(tǒng)計(jì)量型聚類)的聚類統(tǒng)計(jì)量:指標(biāo)間的相似系數(shù)。0C1; C越大越相似。大則同類,小則異類。(1)定量指標(biāo):用簡單相關(guān)系數(shù)定義為相似系數(shù)。(定量指標(biāo)包含定性指標(biāo)轉(zhuǎn)化成0,1變量和等級(jí)指標(biāo)轉(zhuǎn)化成的1,2,變量)(2)定性指標(biāo)或等級(jí)指標(biāo)(包括含有定量指標(biāo)轉(zhuǎn)換成的等級(jí)指標(biāo)),可用列聯(lián)系數(shù)定義為 和 指標(biāo)的相似系數(shù):ixjx22ijxcx

4、n2021/8/228R型(指標(biāo))聚類的相似系數(shù) X1,X2,Xm表示m個(gè)變量,R型聚類常用簡單相關(guān)系數(shù)的絕對(duì)值定義變量與間的相似系數(shù): 絕對(duì)值越大表明兩變量間相似程度越高。 同樣也可考慮用Spearman秩相關(guān)系數(shù)定義非正態(tài)變量之間的相似系數(shù)。當(dāng)變量均為定性變量時(shí),最好用列聯(lián)系數(shù)定義類間的相似系數(shù)。 22()() (19-1)()()iijjijiijjXXXXrXXXX2021/8/229樣品聚類(Q型聚類)的聚類統(tǒng)計(jì)量(相似系數(shù)):2個(gè)樣品間距離,越短越接近,短則同類,長則異類。樣品聚類的基本原則:把距離短的樣品歸在相同類,距離長的樣品歸在不同類。2021/8/2210Q型(樣品)聚類常

5、用相似系數(shù) 將n例(樣品)看成是m維空間的n個(gè)點(diǎn),用兩點(diǎn)間的距離定義相似系數(shù),距離越小表明兩樣品間相似程度越高。(1)歐氏距離: 歐氏距離(Euclidean distance) (2)絕對(duì)距離:絕對(duì)距離(Manhattan distance)(3)Minkowski距離:絕對(duì)距離是q=1時(shí)的Minkowski距離;歐氏距離是q=2時(shí)的Minkowski距離。Minkowski距離的優(yōu)點(diǎn)是定義直觀,計(jì)算簡單;缺點(diǎn)是沒有考慮到變量間的相關(guān)關(guān)系?;诖艘M(jìn)馬氏距離。2() (19-3)ijijdXX| (19-4)ijijdXX| (19-5)qqijijdXX2021/8/2211(4)馬氏距離

6、:用S 表示m個(gè)變量間的樣本協(xié)方差矩陣,馬氏距離(Mahalanobis distance)的計(jì)算公式為 其中向量 。不難看出,當(dāng) (單位矩陣)時(shí),馬氏距離就是歐氏距離的平方。 以上定義的4種距離適用于定量變量,對(duì)于定性變量和有序變量必須在數(shù)量化后方能應(yīng)用。 (19-6)ijd1XS X 1122(,)ijijimjmXXXXXXXsI2021/8/2212說明:當(dāng)樣品各指標(biāo)的單位不同時(shí),或各指標(biāo)單位雖相同(包括各指標(biāo)都無單位),但數(shù)量級(jí)相差大時(shí),應(yīng)先將各指標(biāo)標(biāo)準(zhǔn)化,在計(jì)算距離。標(biāo)準(zhǔn)化方法:iiiixxxs2021/8/2213 第二節(jié)第二節(jié) 系統(tǒng)聚類系統(tǒng)聚類系統(tǒng)聚類(hierarchical

7、 clustering analysis)是將相似的樣品或變量歸類的最常用方法,聚類過程如下:1)開始將各個(gè)樣品(或變量)獨(dú)自視為一類,即各類 只含一個(gè)樣品(或變量),計(jì)算類間相似系數(shù)矩陣,其中的元素是樣品(或變量)間的相似系數(shù)。相似系數(shù)矩陣是對(duì)稱矩陣; 2)將相似系數(shù)最大(距離最小或相關(guān)系數(shù)最大)的兩類合并成新類,計(jì)算新類與其余類間相似系數(shù); 重復(fù)第二步,直至全部樣品(或變量)被并為一類。2021/8/2214一、類間相似系數(shù)的計(jì)算 系統(tǒng)聚類的每一步都要計(jì)算類間相似系數(shù)(即:新形成的類別與其他類之間的類間相似系數(shù)的確定),當(dāng)兩類各自僅含一個(gè)樣品或變量時(shí),兩類間的相似系數(shù)即是兩樣品或變量間的相

8、似系數(shù) 或 ,按第一節(jié)的定義計(jì)算。ijdijr2021/8/2215 當(dāng)類內(nèi)含有兩個(gè)或兩個(gè)以上樣品或變量時(shí),計(jì)算當(dāng)類內(nèi)含有兩個(gè)或兩個(gè)以上樣品或變量時(shí),計(jì)算類間類間相似系數(shù)相似系數(shù)有多種方法可供選擇,下面列出有多種方法可供選擇,下面列出5 5種種計(jì)算方法。計(jì)算方法。用用 G G p p,G Gq q 分別表示兩類,各自含有分別表示兩類,各自含有n np p,n nq q個(gè)樣品或個(gè)樣品或變量。變量。2021/8/22161最大相似系數(shù)法最大相似系數(shù)法 G p類中的類中的np個(gè)樣品或變量與個(gè)樣品或變量與Gq類中的類中的nq個(gè)樣品或變量個(gè)樣品或變量兩兩間共有兩兩間共有npnq個(gè)相似系數(shù),以其中最大者定

9、義為個(gè)相似系數(shù),以其中最大者定義為G p與與Gq的類間相似系數(shù)。的類間相似系數(shù)。注意距離最小即相似系數(shù)最大。注意距離最小即相似系數(shù)最大。2最小相似系數(shù)法最小相似系數(shù)法 類間相似系數(shù)計(jì)算公式為類間相似系數(shù)計(jì)算公式為3重心法重心法(僅用于(僅用于樣品聚類樣品聚類) 用用 , 分別表示分別表示 的均值向量(重的均值向量(重心),其分量是各個(gè)指標(biāo)類內(nèi)均數(shù),類間相似系數(shù)計(jì)算公式為心),其分量是各個(gè)指標(biāo)類內(nèi)均數(shù),類間相似系數(shù)計(jì)算公式為,Min () , 19-7Max ( ) , pqpqpqiji Gj Gpqiji Gj GDdrr樣品聚類()指標(biāo)聚類,Max () , 19-8Min ( ) , p

10、qpqpqiji Gj Gpqiji Gj GDdrr樣品聚類()指標(biāo)聚類 (19-9)pqpqDdX Xpxqx,pqG G2021/8/2217 4類平均法(僅用于樣品聚類) 對(duì)G p 類中的 np 個(gè)樣品與Gq類中的nq個(gè)樣品兩兩間的 np nq 個(gè)平方距離求平均,得到兩類間的相似系數(shù)類平均法是系統(tǒng)聚類方法中較好的方法之一,它充分反映了類內(nèi)樣品的個(gè)體信息。221 (19-10)pqijp qDdn n2021/8/22185離差平方和法 又稱Ward法,僅用于樣品聚類。 此法效仿方差分析的基本思想,即合理的分類使得類內(nèi)離差平方和較小,而類間離差平方和較大。2021/8/2219例19-1

11、 測(cè)量了3454名成年女子身高(X1)、下肢長(X2)、腰圍(X3)和胸圍(X4),計(jì)算得相關(guān)矩陣:試用系統(tǒng)聚類法將這4個(gè)指標(biāo)聚類。本例是R型(指標(biāo))聚類,相似系數(shù)選用簡單相關(guān)系數(shù),類間相似系數(shù)采用最大相似系數(shù)法計(jì)算。 732. 0174. 0234. 0055. 0099. 0852. 0432321)0(XXXXXXR2021/8/2220聚類過程如下:聚類過程如下:(1)各個(gè)指標(biāo)獨(dú)自成一類G1=X1,G2=X2,G3=X3,G4=X4,共4類。(2)將相似系數(shù)最大的兩類合并成新類,由于G1和G2類間相似系數(shù)最大,等于0.852,將兩類合并成G5=X1 , X2,形成3類。計(jì)算G5與G3、

12、G4間的類間相似系數(shù) G3,G4,G5的類間相似矩陣351323Max(,)Max(0.099,0.055)0.099rrr451424Max(,)Max(0.234,0.174)0.234rrr234. 0099. 0732. 05443)1(GGGGR732. 0174. 0234. 0055. 0099. 0852. 0432321)0(XXXXXXR2021/8/2221(3)由于G3和G4類間相似系數(shù)最大,等于0.732,將兩類合并成G6=G3 , G4,形成兩類。計(jì)算G6與G5間的類間相似系數(shù)。(4)最終將G5 ,G6合并成G7=G5 , G6,所有指標(biāo)形成一大類。563545Ma

13、x(,)Max(0.099,0.234)0.234rrr2021/8/2222根據(jù)聚類過程,繪制出系統(tǒng)聚類圖(見圖19-1)。圖中顯示分成兩類較好:X1,X2,X3,X4,即長度指標(biāo)歸為一類,圍度指標(biāo)歸為另一類。圖19-1 4 個(gè)指標(biāo)聚類系統(tǒng)聚類圖 身高 下肢長 腰圍 胸圍 G1 G2 G3 G4圖19-1 4個(gè)指標(biāo)聚類的系統(tǒng)聚類圖0.8520.7320.2342021/8/2223如何判斷聚為幾類對(duì)于指標(biāo)聚類而言:M個(gè)指標(biāo)究竟聚幾類為好,即聚成幾類后停止并類,可分析聚類過程表和聚類過程圖,還可以結(jié)合專業(yè)知識(shí)和實(shí)際需要確定。例:指定1個(gè)相似系數(shù)值(比如0.6),規(guī)定類那個(gè)指標(biāo)間的相似系數(shù)值入小

14、于該值,則停止并類。特別是當(dāng)某步驟類使相似系數(shù)值的變化發(fā)生大的跳躍時(shí),更是停止并類的訊號(hào)。2021/8/2224如何找典型指標(biāo)對(duì)指標(biāo)聚類而言:為選擇每類的典型指標(biāo),計(jì)算每類的每個(gè)指標(biāo)與同類其他指標(biāo)的相關(guān)指數(shù)(相關(guān)系數(shù)的平方)的均數(shù),即式中 為指標(biāo) 所在類的指標(biāo)個(gè)數(shù),在各類挑選 值最大的 作為該類的典型指標(biāo)221irRmimix2iR2021/8/2225X1X2X20.89X30.670.84第一類22210.890.670.623 1R2021/8/2226例19-2 今測(cè)得6名運(yùn)動(dòng)員4個(gè)運(yùn)動(dòng)項(xiàng)目(樣品)的能耗、糖耗的均數(shù)見表19-1,欲對(duì)運(yùn)動(dòng)項(xiàng)目歸類,以便提供相應(yīng)的膳食標(biāo)準(zhǔn),提高運(yùn)動(dòng)成績。

15、試用樣品系統(tǒng)聚類法將運(yùn)動(dòng)項(xiàng)目歸類。表19-1 4個(gè)運(yùn)動(dòng)項(xiàng)目的測(cè)定值運(yùn)動(dòng)項(xiàng)目名稱能耗 X1(焦耳/分、m2)糖耗 X2(%)負(fù)重下蹲G127.89261.421.3150.688引體向上G223.47556.830.1740.088俯 臥 撐G318.92445.13-1.001-1.441仰臥起坐G420.91361.25-0.4880.665變量的標(biāo)準(zhǔn)化 X1 X2iiiiSXXX2021/8/2227本例選用歐氏距離,類間距離選用最小相似系數(shù)法。為了克服變量量綱的影響,分析前先將變量標(biāo)準(zhǔn)化, 分別是Xi的樣本均數(shù)與標(biāo)準(zhǔn)差。變換后的數(shù)據(jù)列在表19-1的 , 列。, iiiiiiXXXXSS

16、、1X2X2021/8/2228聚類過程如下:(1)計(jì)算4個(gè)樣品間的相似系數(shù)矩陣,樣品聚類中又稱為距離矩陣。負(fù)重下蹲與引體向上之間的距離按公式(19-3)計(jì)算得同樣負(fù)重下蹲與俯臥撐之間的距離同理,計(jì)算出距離矩陣22221211211222()()(1.3150.174)(0.6880.088)1.289dXXXX22221311311232()()(1.3151.001)(0.6881.441)3.145dXXXX168. 2878. 0803. 1928. 1145. 3289. 1432321)0(GGGGGGD2021/8/2229(2)G2,G4間距離最小,將G2,G4并成一新類G5=

17、 G2,G4。應(yīng)用最小相似系數(shù)法,按公式(19-8)計(jì)算G5與其他各類之間的距離G1,G3,G5的距離矩陣(3)G1,G5間距離最小,將G1,G5并成一新類G6= G1,G5。計(jì)算G6 與G3之間的距離(4)最終將G1 ,G6合并成G7=G1 , G6,所有指標(biāo)形成一大類。168. 2803. 1145. 35331)1 (GGGGD361335Max(,)Max(3.145,2.168)3.145ddd168. 2878. 0803. 1928. 1145. 3289. 1432321)0(GGGGGGDd15=Max(d12,d14)=Max(1.289,1.803)=1.803d35=M

18、ax(d23,d34)=Max(1.928,2.168)=2.1682021/8/2230 根據(jù)聚類過程,繪制出系統(tǒng)聚類圖(見圖19-2)。結(jié)合系統(tǒng)聚類圖和專業(yè)知識(shí)認(rèn)為分成兩類較好: G1,G2,G4, G3。負(fù)重下蹲、引體向上、仰臥起坐三個(gè)運(yùn)動(dòng)項(xiàng)目體能消耗較大,訓(xùn)練時(shí)應(yīng)提高膳食標(biāo)準(zhǔn)。 圖19-2 4個(gè)運(yùn)動(dòng)項(xiàng)目樣品聚類的系 統(tǒng)聚類圖G2 G4 G1 G3 G5G6G72021/8/2231例19-3 調(diào)查了27名瀝青工和焦?fàn)t工的年齡、工齡、吸煙情況,檢測(cè)了血清P21、P53、外周血淋巴細(xì)胞SCE、染色體畸變數(shù)和染色體畸變細(xì)胞數(shù)。數(shù)據(jù)列于表19-3,其中P21倍數(shù)=P21檢測(cè)值/對(duì)照組P21均數(shù)

19、。試用系統(tǒng)聚類法將27名工人歸類。2021/8/2232表19-3 瀝青工和焦?fàn)t工的生物標(biāo)志物檢測(cè)及聚類分析結(jié)果工人編號(hào)(樣品號(hào))年齡工齡吸煙支/d血清P21P21倍數(shù)P53SCE染色體畸變數(shù)染色體畸變細(xì)胞數(shù)聚類結(jié)680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.405518341720465

20、83.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.40001193

21、821529362.310.6911.401112044272068515.390.9912.28762214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.81552242892026122.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.802212021/8/2233 本例選擇了歐氏距離下的最小相似系數(shù)法、類平均法和離差平方和法對(duì)數(shù)據(jù)進(jìn)行聚類分析。分析結(jié)果分

22、別見圖19-3、圖19-4、圖19-5。數(shù)據(jù)分析前,各變量已作標(biāo)準(zhǔn)化處理。2021/8/2234 圖19-3 27名瀝青工和焦?fàn)t工的最小相似系數(shù)法系統(tǒng)聚類圖2021/8/2235圖19-4 27名瀝青工和焦?fàn)t工的類平均法系統(tǒng)聚類圖2021/8/2236圖19-5 27名瀝青工和焦?fàn)t工離差平方和法的系統(tǒng)聚類圖2021/8/2237 三種聚類結(jié)果有較大的出入,可見這些方法分類效果是有差異的,特別是在分類變量較多時(shí)差異愈加明顯,這就要求在聚類分析前,盡可能地選擇要求在聚類分析前,盡可能地選擇有效變量有效變量,如本例的變量P21和P53倍數(shù)。詳細(xì)解讀聚類圖,一般都能夠獲得許多有用的信息。2021/8/

23、2238(聚類實(shí)例分析結(jié)果) 相似系數(shù)的定義以及類間相似系數(shù)的定義的不同將導(dǎo)致系統(tǒng)聚類結(jié)果有所差異。聚類分析的結(jié)果解釋除了要了解聚類方法外,還必須結(jié)合專業(yè)知識(shí)專業(yè)知識(shí)。2021/8/2239 結(jié)合專業(yè)知識(shí),本例認(rèn)為類平均法聚類結(jié)果比較合理,分類結(jié)果列入表19-3最后一欄。它將10,20,23號(hào)工人分為一類,其余分為另一類。研究者最終發(fā)現(xiàn)10,20,23號(hào)工人為癌癥高危人群。根據(jù)離差平法和法聚類圖,不難發(fā)現(xiàn)10,20,23,8,16,26號(hào)聚在一類,提示8,16,26號(hào)工人也可能是癌癥高危人群之一。2021/8/2240以下列出類平均法具體聚類過程,供參考。類平均法系統(tǒng)聚類過程類平均法系統(tǒng)聚類過

24、程聚類步驟兩類合并歐氏距離1步(樣品18,樣品21)合并成新1類1.18562步(樣品5,樣品13)合并成新2類1.49693步(樣品12,樣品24)合并成新3類1.52254步(樣品20,樣品23)合并成新4類1.60505步(新1類,樣品19)合并成新5類1.70796步(樣品6,樣品11)合并成新6類1.82437步(樣品8,樣品26)合并成新7類1.90988步(樣品4,樣品7)合并成新8類1.93179步(樣品1,樣品14)合并成新9類2.162010步(樣品9,樣品15)合并成新10類2.200711步(新6類,樣品27)合并成新11類2.383312步(新7類,樣品22)合并成新

25、12類2.559013步(新3類,樣品25)合并成新13類2.795614步(新5類,新2類)合并成新14類2.869615步(新4類,樣品16)合并成新15類2.960516步(新12類,新8類)合并成新16類3.112717步(新10類,樣品17)合并成新17類3.434618步(新11類,新9類)合并成新18類3.580819步(新16類,新13類)合并成新19類3.937920步(新18類,樣品3)合并成新20類4.082421步(新15類,樣品10)合并成新21類4.415522步(新20類,新14類)合并成新22類4.542023步(新19類,樣品2)合并成新23類5.247924

26、步(新23類,新22類)合并成新24類6.108625步(新24類,新21類)合并成新25類6.910226步(新25類,新17類)合并成新26類7.16422021/8/2241對(duì)于樣品聚類而言如何確定聚為幾類:1.可分析聚類過程表和聚類過程圖,還可以結(jié)合專業(yè)知識(shí)和實(shí)際需要確定。2.當(dāng)某步驟類使相似系數(shù)值(如最大距離發(fā)生大的跳躍時(shí))的變化發(fā)生大的跳躍時(shí),更是停止并類的訊號(hào)。如10個(gè)樣品若從聚成3類變到聚成2類,則最長距離從4.64到12.46發(fā)生變長的大跳躍,于是確定聚成3類而不是2類。2021/8/2242 第三節(jié)第三節(jié) 動(dòng)態(tài)樣品聚類動(dòng)態(tài)樣品聚類 當(dāng)待分類的樣品較多時(shí),如海量數(shù)據(jù)挖掘,系統(tǒng)聚類分析將耗費(fèi)較多的計(jì)算資源來儲(chǔ)存相似系數(shù)矩陣,計(jì)算速度緩慢。另外,用系統(tǒng)聚類方法聚類,樣品一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論