統(tǒng)計十九章聚類分析_第1頁
統(tǒng)計十九章聚類分析_第2頁
統(tǒng)計十九章聚類分析_第3頁
統(tǒng)計十九章聚類分析_第4頁
統(tǒng)計十九章聚類分析_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

371第十九章聚類分析

主講人:胡平成2015年07月30日372中南大學(xué)公共衛(wèi)生學(xué)院研究生導(dǎo)師美國洛杉磯加洲大學(xué)訪問學(xué)者衛(wèi)生部新生兒窒息復(fù)蘇培訓(xùn)項目評估組專家高等學(xué)校國家級精品課程《醫(yī)學(xué)統(tǒng)計學(xué)》課程主講教師國家視頻公開課《醫(yī)學(xué)統(tǒng)計學(xué)》

主講教師中國衛(wèi)生信息學(xué)會衛(wèi)生信息標(biāo)準(zhǔn)化專業(yè)委員會常委湖南省健康管理學(xué)會社區(qū)健康管理專業(yè)委員會副主委湖南省勞動和社會保障廳新職業(yè)鑒定專家國家自學(xué)考試《數(shù)理統(tǒng)計》<首席命題專家胡平成簡介373判別分析:在已知分為若干個類的前提下,獲得判別模型,并用來判定觀察對象的歸屬。

聚類分析:將隨機現(xiàn)象歸類的統(tǒng)計學(xué)方法,在不知道應(yīng)分多少類合適的情況下,試圖借助數(shù)理統(tǒng)計的方法用已收集到的資料找出研究對象的適當(dāng)歸類方法。已成為發(fā)掘海量基因信息的首選工具。

二者都是研究分類問題的多元統(tǒng)計分析方法。374聚類分析屬于探索性統(tǒng)計分析方法,按照分類目的可分為兩大類。

例如測量了n個病例(樣品)的m個變量(指標(biāo)),可進(jìn)行:

(1)R型聚類:又稱指標(biāo)聚類,是指將m個指標(biāo)歸類的方法,其目的是將指標(biāo)降維從而選擇有代表性的指標(biāo)。

(2)Q型聚類:又稱樣品聚類,是指將n個樣品歸類的方法,其目的是找出樣品間的共性。375指標(biāo)聚類目的:把多個指標(biāo)按相似程度聚成幾類,每類找一個典型指標(biāo)來代表原來的多個指標(biāo)。資料要求:指標(biāo)是定量的,理論上也可以全部是定性的或等級的(要少用)效果不好。用途:1.分類找典型指標(biāo)2.可與回歸分析合用找典型自變量;可與判別分析合用找典型指標(biāo)。376樣品聚類目的:把多個樣品按照相近樣品聚成幾類,作分類比較研究。需要時也可每類找一個典型樣品來代表各類樣品。資料要求:描述樣品的指標(biāo)全部定量。用途:分類377無論是R型聚類或是Q型聚類的關(guān)鍵是如何定義相似性,即如何把相似性數(shù)量化。聚類的第一步需要給出兩個指標(biāo)或兩個樣品間相似性的度量——相似系數(shù)(similaritycoefficient)的定義。378聚類統(tǒng)計量指標(biāo)聚類(R型聚類)的聚類統(tǒng)計量:指標(biāo)間的相似系數(shù)。0≤C≤1;C越大越相似。大則同類,小則異類。(1)定量指標(biāo):用簡單相關(guān)系數(shù)定義為相似系數(shù)。(定量指標(biāo)包含定性指標(biāo)轉(zhuǎn)化成0,1變量和等級指標(biāo)轉(zhuǎn)化成的1,2,…變量)(2)定性指標(biāo)或等級指標(biāo)(包括含有定量指標(biāo)轉(zhuǎn)換成的等級指標(biāo)),可用列聯(lián)系數(shù)定義為和指標(biāo)的相似系數(shù):379R型(指標(biāo))聚類的相似系數(shù)

X1,X2,…,Xm表示m個變量,R型聚類常用簡單相關(guān)系數(shù)的絕對值定義變量與間的相似系數(shù):

絕對值越大表明兩變量間相似程度越高。

同樣也可考慮用Spearman秩相關(guān)系數(shù)定義非正態(tài)變量之間的相似系數(shù)。當(dāng)變量均為定性變量時,最好用列聯(lián)系數(shù)定義類間的相似系數(shù)。

3710樣品聚類(Q型聚類)的聚類統(tǒng)計量(相似系數(shù)):2個樣品間距離,越短越接近,短則同類,長則異類。樣品聚類的基本原則:把距離短的樣品歸在相同類,距離長的樣品歸在不同類。3711Q型(樣品)聚類常用相似系數(shù)

將n例(樣品)看成是m維空間的n個點,用兩點間的距離定義相似系數(shù),距離越小表明兩樣品間相似程度越高。

(1)歐氏距離:歐氏距離(Euclideandistance)

(2)絕對距離:絕對距離(Manhattandistance)

(3)Minkowski距離:

絕對距離是q=1時的Minkowski距離;歐氏距離是q=2時的Minkowski距離。Minkowski距離的優(yōu)點是定義直觀,計算簡單;缺點是沒有考慮到變量間的相關(guān)關(guān)系?;诖艘M(jìn)馬氏距離。

3712(4)馬氏距離:用S表示m個變量間的樣本協(xié)方差矩陣,馬氏距離(Mahalanobisdistance)的計算公式為

其中向量。不難看出,當(dāng)(單位矩陣)時,馬氏距離就是歐氏距離的平方。

以上定義的4種距離適用于定量變量,對于定性變量和有序變量必須在數(shù)量化后方能應(yīng)用。3713說明:當(dāng)樣品各指標(biāo)的單位不同時,或各指標(biāo)單位雖相同(包括各指標(biāo)都無單位),但數(shù)量級相差大時,應(yīng)先將各指標(biāo)標(biāo)準(zhǔn)化,在計算距離。標(biāo)準(zhǔn)化方法:3714

第二節(jié)系統(tǒng)聚類

系統(tǒng)聚類(hierarchicalclusteringanalysis)是將相似的樣品或

變量歸類的最常用方法,聚類過程如下:

1)開始將各個樣品(或變量)獨自視為一類,即各類只含一個樣品(或變量),計算類間相似系數(shù)矩陣,其中的元素是樣品(或變量)間的相似系數(shù)。相似系數(shù)矩陣是對稱矩陣;

2)將相似系數(shù)最大(距離最小或相關(guān)系數(shù)最大)的兩類合并成新類,計算新類與其余類間相似系數(shù);

重復(fù)第二步,直至全部樣品(或變量)被并為一類。3715一、類間相似系數(shù)的計算

系統(tǒng)聚類的每一步都要計算類間相似系數(shù)(即:新形成的類別與其他類之間的類間相似系數(shù)的確定),當(dāng)兩類各自僅含一個樣品或變量時,兩類間的相似系數(shù)即是兩樣品或變量間的相似系數(shù)或,按第一節(jié)的定義計算。3716當(dāng)類內(nèi)含有兩個或兩個以上樣品或變量時,計算類間相似系數(shù)有多種方法可供選擇,下面列出5種計算方法。用Gp,Gq分別表示兩類,各自含有np,nq個樣品或變量。3717

1.最大相似系數(shù)法

Gp類中的np個樣品或變量與Gq類中的nq個樣品或變量兩兩間共有npnq個相似系數(shù),以其中最大者定義為Gp與Gq的類間相似系數(shù)。

注意距離最小即相似系數(shù)最大。

2.最小相似系數(shù)法類間相似系數(shù)計算公式為

3.重心法(僅用于樣品聚類)用,分別表示的均值向量(重心),其分量是各個指標(biāo)類內(nèi)均數(shù),類間相似系數(shù)計算公式為

3718

4.類平均法(僅用于樣品聚類)對Gp類中的np個樣品與Gq類中的nq個樣品兩兩間的npnq個平方距離求平均,得到兩類間的相似系數(shù)

類平均法是系統(tǒng)聚類方法中較好的方法之一,它充分反映了類內(nèi)樣品的個體信息。

37195.離差平方和法又稱Ward法,僅用于樣品聚類。此法效仿方差分析的基本思想,即合理的分類使得類內(nèi)離差平方和較小,而類間離差平方和較大。3720例19-1測量了3454名成年女子身高(X1)、下肢長(X2)、腰圍(X3)和胸圍(X4),計算得相關(guān)矩陣:

試用系統(tǒng)聚類法將這4個指標(biāo)聚類。

本例是R型(指標(biāo))聚類,相似系數(shù)選用簡單相關(guān)系數(shù),類間相似系數(shù)采用最大相似系數(shù)法計算。3721聚類過程如下:

(1)各個指標(biāo)獨自成一類G1={X1},G2={X2},G3={X3},G4={X4},共4類。

(2)將相似系數(shù)最大的兩類合并成新類,由于G1和G2類間相似系數(shù)最大,等于0.852,將兩類合并成G5={X1,X2},形成3類。計算G5與G3、G4間的類間相似系數(shù)

G3,G4,G5的類間相似矩陣

3722

(3)由于G3和G4類間相似系數(shù)最大,等于0.732,將兩類合并成G6={G3,G4},形成兩類。計算G6與G5間的類間相似系數(shù)。

(4)最終將G5,G6合并成G7={G5,G6},所有指標(biāo)形成一大類。

3723根據(jù)聚類過程,繪制出系統(tǒng)聚類圖(見圖19-1)。圖中顯示分成兩類較好:{X1,X2},{X3,X4},即長度指標(biāo)歸為一類,圍度指標(biāo)歸為另一類。

身高下肢長腰圍胸圍

G1G2G3G4圖19-14個指標(biāo)聚類的系統(tǒng)聚類圖0.8520.7320.2343724如何判斷聚為幾類對于指標(biāo)聚類而言:M個指標(biāo)究竟聚幾類為好,即聚成幾類后停止并類,可分析聚類過程表和聚類過程圖,還可以結(jié)合專業(yè)知識和實際需要確定。例:指定1個相似系數(shù)值(比如0.6),規(guī)定類那個指標(biāo)間的相似系數(shù)值入小于該值,則停止并類。特別是當(dāng)某步驟類使相似系數(shù)值的變化發(fā)生大的跳躍時,更是停止并類的訊號。3725如何找典型指標(biāo)對指標(biāo)聚類而言:為選擇每類的典型指標(biāo),計算每類的每個指標(biāo)與同類其他指標(biāo)的相關(guān)指數(shù)(相關(guān)系數(shù)的平方)的均數(shù),即式中為指標(biāo)所在類的指標(biāo)個數(shù),在各類挑選值最大的作為該類的典型指標(biāo)3726

X1X2X20.89X30.670.84第一類3727例19-2今測得6名運動員4個運動項目(樣品)的能耗、糖耗的均數(shù)見表19-1,欲對運動項目歸類,以便提供相應(yīng)的膳食標(biāo)準(zhǔn),提高運動成績。試用樣品系統(tǒng)聚類法將運動項目歸類。

表19-14個運動項目的測定值運動項目名稱能耗

X1(焦耳/分、m2)糖耗X2(%)負(fù)重下蹲G127.89261.421.3150.688引體向上G223.47556.830.1740.088俯臥撐G318.92445.13-1.001-1.441仰臥起坐G420.91361.25-0.4880.665變量的標(biāo)準(zhǔn)化X1‘

X2’3728本例選用歐氏距離,類間距離選用最小相似系數(shù)法。為了克服變量量綱的影響,分析前先將變量標(biāo)準(zhǔn)化,分別是Xi的樣本均數(shù)與標(biāo)準(zhǔn)差。變換后的數(shù)據(jù)列在表19-1的,列。3729聚類過程如下:

(1)計算4個樣品間的相似系數(shù)矩陣,樣品聚類中又稱為距離矩陣。負(fù)重下蹲與引體向上之間的距離按公式(19-3)計算得

同樣負(fù)重下蹲與俯臥撐之間的距離

同理,計算出距離矩陣

3730(2)G2,G4間距離最小,將G2,G4并成一新類G5={G2,G4}。應(yīng)用最小相似系數(shù)法,按公式(19-8)計算G5與其他各類之間的距離

G1,G3,G5的距離矩陣

(3)G1,G5間距離最小,將G1,G5并成一新類G6={G1,G5}。計算G6與G3之間的距離

(4)最終將G1,G6合并成G7={G1,G6},所有指標(biāo)形成一大類。d15=Max(d12,d14)=Max(1.289,1.803)=1.803d35=Max(d23,d34)=Max(1.928,2.168)=2.1683731根據(jù)聚類過程,繪制出系統(tǒng)聚類圖(見圖19-2)。結(jié)合系統(tǒng)聚類圖和專業(yè)知識認(rèn)為分成兩類較好:{G1,G2,G4},{G3}。負(fù)重下蹲、引體向上、仰臥起坐三個運動項目體能消耗較大,訓(xùn)練時應(yīng)提高膳食標(biāo)準(zhǔn)。

圖19-24個運動項目樣品聚類的系統(tǒng)聚類圖G2

G4

G1G3

G5G6G73732例19-3調(diào)查了27名瀝青工和焦?fàn)t工的年齡、工齡、吸煙情況,檢測了血清P21、P53、外周血淋巴細(xì)胞SCE、染色體畸變數(shù)和染色體畸變細(xì)胞數(shù)。數(shù)據(jù)列于表19-3,其中P21倍數(shù)=P21檢測值/對照組P21均數(shù)。試用系統(tǒng)聚類法將27名工人歸類。

3733表19-3瀝青工和焦?fàn)t工的生物標(biāo)志物檢測及聚類分析結(jié)果工人編號(樣品號)年齡工齡吸煙支/d血清P21P21倍數(shù)P53SCE染色體畸變數(shù)染色體畸變細(xì)胞數(shù)聚類結(jié)680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.40001193821529362.310.6911.401112044272068515.390.9912.28762214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.81552242892026122.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.802213734

本例選擇了歐氏距離下的最小相似系數(shù)法、類平均法和離差平方和法對數(shù)據(jù)進(jìn)行聚類分析。分析結(jié)果分別見圖19-3、圖19-4、圖19-5。數(shù)據(jù)分析前,各變量已作標(biāo)準(zhǔn)化處理。3735

圖19-327名瀝青工和焦?fàn)t工的最小相似系數(shù)法系統(tǒng)聚類圖3736圖19-427名瀝青工和焦?fàn)t工的類平均法系統(tǒng)聚類圖

3737圖19-527名瀝青工和焦?fàn)t工離差平方和法的系統(tǒng)聚類圖3738

三種聚類結(jié)果有較大的出入,可見這些方法分類效果是有差異的,特別是在分類變量較多時差異愈加明顯,這就要求在聚類分析前,盡可能地選擇有效變量,如本例的變量P21和P53倍數(shù)。詳細(xì)解讀聚類圖,一般都能夠獲得許多有用的信息。3739(聚類實例分析結(jié)果)

相似系數(shù)的定義以及類間相似系數(shù)的定義的不同將導(dǎo)致系統(tǒng)聚類結(jié)果有所差異。聚類分析的結(jié)果解釋除了要了解聚類方法外,還必須結(jié)合專業(yè)知識。

3740

結(jié)合專業(yè)知識,本例認(rèn)為類平均法聚類結(jié)果比較合理,分類結(jié)果列入表19-3最后一欄。它將{10,20,23}號工人分為一類,其余分為另一類。研究者最終發(fā)現(xiàn)10,20,23號工人為癌癥高危人群。根據(jù)離差平法和法聚類圖,不難發(fā)現(xiàn){10,20,23,8,16,26}號聚在一類,提示8,16,26號工人也可能是癌癥高危人群之一。3741以下列出類平均法具體聚類過程,供參考。類平均法系統(tǒng)聚類過程聚類步驟兩類合并歐氏距離1步(樣品18,樣品21)合并成新1類1.18562步(樣品5,樣品13)合并成新2類1.49693步(樣品12,樣品24)合并成新3類1.52254步(樣品20,樣品23)合并成新4類1.60505步(新1類,樣品19)合并成新5類1.70796步(樣品6,樣品11)合并成新6類1.82437步(樣品8,樣品26)合并成新7類1.90988步(樣品4,樣品7)合并成新8類1.93179步(樣品1,樣品14)合并成新9類2.162010步(樣品9,樣品15)合并成新10類2.200711步(新6類,樣品27)合并成新11類2.383312步(新7類,樣品22)合并成新12類2.559013步(新3類,樣品25)合并成新13類2.795614步(新5類,新2類)合并成新14類2.869615步(新4類,樣品16)合并成新15類2.960516步(新12類,新8類)合并成新16類3.112717步(新10類,樣品17)合并成新17類3.434618步(新11類,新9類)合并成新18類3.580819步(新16類,新13類)合并成新19類3.937920步(新18類,樣品3)合并成新20類4.082421步(新15類,樣品10)合并成新21類4.415522步(新20類,新14類)合并成新22類4.542023步(新19類,樣品2)合并成新23類5.247924步(新23類,新22類)合并成新24類6.108625步(新24類,新21類)合并成新25類6.910226步(新25類,新17類)合并成新26類7.16423742對于樣品聚類而言如何確定聚為幾類:1.可分析聚類過程表和聚類過程圖,還可以結(jié)合專業(yè)知識和實際需要確定。2.當(dāng)某步驟類使相似系數(shù)值(如最大距離發(fā)生大的跳躍時)的變化發(fā)生大的跳躍時,更是停止并類的訊號。如10個樣品若從聚成3類變到聚成2類,則最長距離從4.64到12.46發(fā)生變長的大跳躍,于是確定聚成3類而不是2類。3743第三節(jié)動態(tài)樣品聚類

當(dāng)待分類的樣品較多時,如海量數(shù)據(jù)挖掘,系統(tǒng)聚類分析將耗費較多的計算資源來儲存相似系數(shù)矩陣,計算速度緩慢。另外,用系統(tǒng)聚類方法聚類,樣品一旦歸類后就不再變動了,這就要求分類十分準(zhǔn)確。針對系統(tǒng)聚類方法的這些缺陷,統(tǒng)計學(xué)者提出所謂動態(tài)聚類分析方法,這種分類方法既解決了計算速度問題,又能隨著聚類的進(jìn)展對樣品的歸類進(jìn)行調(diào)整。3744動態(tài)樣品聚類的原理是:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論