第18章 聚類分析_第1頁
第18章 聚類分析_第2頁
第18章 聚類分析_第3頁
第18章 聚類分析_第4頁
第18章 聚類分析_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第18章聚類分析中國疾病預(yù)防控制中心學(xué)習(xí)目標(biāo)v 了解聚類分析的基本思想;v 了解聚類分析的一些常見統(tǒng)計量;v 掌握聚類分析的基本方法;v 通過實(shí)例練習(xí)掌握聚類分析的SAS過程步。概述v 聚類分析是將隨機(jī)現(xiàn)象歸類的統(tǒng)計學(xué)方法, 已廣泛應(yīng)用于醫(yī)學(xué)科學(xué)研究之中。聚類分析也稱群分析、點(diǎn)群分析,他是研究分類的一種多元統(tǒng)計方法。v 例如,我們可以根據(jù)學(xué)校的師資、設(shè)備、學(xué)生的情況,將大學(xué)分成一流大學(xué),二流大學(xué)等;國家之間根據(jù)其發(fā)展水平可以劃分為發(fā)達(dá)國家、發(fā)展中國家;概述v 這些問題的本質(zhì)就是希望能找到一種合理的方法將一批研究對象按其所屬特性分門別類。統(tǒng)計學(xué)上用于解決這種分類問題的主要方法是聚類分析法和判別分

2、析法。這一章主要討論聚類分析。聚類分析的基本思想v 聚類分析是將樣本個體或指標(biāo)變量按其具有的特性進(jìn)行分類的一種統(tǒng)計分析方法。我們所研究的樣品或指標(biāo)(變量)之間存在程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣品的多個觀測指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據(jù)。聚類分析的基本思想v 把一些相似程度較大的樣品(或指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標(biāo)) 又聚合為另一類,關(guān)系密切的聚合到一個小的分類 單位,關(guān)系疏遠(yuǎn)的聚合到一個大的分類單位,直到 把所有的樣品(或指標(biāo))聚合完畢,這就是分類的 基本思想。由此得知,聚類分析的任務(wù)有兩個

3、,第 一就是尋找合理的度量事物相似性的統(tǒng)計量;第二是尋找合理的分類方法。聚類分析的基本思想在聚類分析中,通常我們將根據(jù)分類對象的不同分為Q型聚類分析和R型聚類分析兩大類。Q型聚類分析是對樣本進(jìn)行分類處理,又稱為樣本聚類分析; R型聚類分析是對指標(biāo)進(jìn)行分類處理,稱為指標(biāo)聚類分析。對樣品進(jìn)行聚類的目的是將分類不明確的樣品按性質(zhì)相似程度分為若干組,從而發(fā)現(xiàn)同類樣品的共性和不同樣品間的差異。對指標(biāo)進(jìn)行聚類的目的是將分類不明確的指標(biāo)按性質(zhì)相似程度分成若干組,從而在盡量不損失信息的條件下,用一組少量的指標(biāo)來代替原來的多個指標(biāo)。v聚類分析的基本思想R型聚類分析的主要作用是:不但可以了解個別變量之間的關(guān)系的親

4、疏程度,而且可以了解各個指標(biāo)組合之間的親疏程度;根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行回歸分析或Q型聚類分析。Q型聚類分析的作用是:可以綜合利用多個變量的信息對樣本進(jìn)行分類;分類結(jié)果是直觀的,聚類譜系圖非常清楚地表現(xiàn)其數(shù)值分類結(jié)果;聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。vv聚類分析的基本思想v 例如在醫(yī)生醫(yī)療質(zhì)量研究中,有N個醫(yī)生參加醫(yī)療質(zhì)量評比,每一個醫(yī)生有K個醫(yī)療質(zhì)量指標(biāo)被記錄。利用聚類分析可以將N個醫(yī)生按其醫(yī)療質(zhì)量的優(yōu)劣分成幾類,或者把K個醫(yī)療質(zhì)量指標(biāo)所反映的問題側(cè)重點(diǎn)不同分成幾類。前者是聚類分析中的樣品聚類,后者是指標(biāo)聚類。聚類分析的統(tǒng)計量無論是R型

5、聚類或是Q型聚類的關(guān)鍵是如何定義相似性,即如何把相似性數(shù)量化。聚類的第一步需要給出兩個指標(biāo)或兩個樣品間相似性度量的統(tǒng)計量。聚類分析中用來衡量樣本個體之間屬性相似程度的統(tǒng)計量和用來衡量指標(biāo)變量之間屬性相似程度的統(tǒng)計量是不同的,前者用的統(tǒng)計量是距離系數(shù),后者用的統(tǒng)計量是相似系數(shù)。距離系數(shù)的定義有很多,vv如歐式距離、距離、絕對距離等。相似系數(shù)的定義也很多,如相關(guān)系數(shù)、列聯(lián)系數(shù)等。下面給出它們的計算公式。距離v 明氏距離v 馬氏距離v 蘭氏距離v 類間距離類間距離v 最短距離法v 最長距離法v 重心距離法v 平均距離法v 中間距離法v Ward離均差平方和法相關(guān)系數(shù)v 相關(guān)系數(shù)是最容易理解的一種統(tǒng)計

6、量,它就是統(tǒng)計中經(jīng)常用的兩變量之間的簡單相關(guān)系數(shù)。在聚類分析中,相關(guān)系數(shù)用來描述兩個指標(biāo)之間的相似程度。= (x ,L, x,L, x)T,L, x,L, x)T 是第s個指標(biāo)變量,xv x= (xt1t2tnts1sisns是第t個指標(biāo)變量,相關(guān)系數(shù)v 兩個指標(biāo)變量和之間的相關(guān)系數(shù)是:n(xis- xs )( xit - xt )r= i=1stnn(x(x- x- x )2)2issitti=1i=1v 這是一個無量綱統(tǒng)計量。在指標(biāo)聚類分析中,兩個指標(biāo)變量之間的相關(guān)系數(shù)越大,說明這兩個指標(biāo)變量的性質(zhì)越相似。類間相似系數(shù)v 夾角余弦v 相關(guān)系數(shù)聚類分析的方法v 聚類分析的方法很多,本章僅介紹

7、常用的系統(tǒng)聚類法和逐步聚類法。系統(tǒng)聚類法適用于小樣本的樣本聚類或指標(biāo)聚類。逐步聚類法適用于大樣本的樣本聚類。對于小樣本的樣本聚類,如果采用逐步聚類法,聚類結(jié)果將與樣本的順序有關(guān)。聚類指標(biāo)v 一般用系統(tǒng)聚類法來聚類指標(biāo),它的基本思想是先把k個指標(biāo)看成一類;然后用主成分分析法將它分解成若干類,分類的原則是使得每一類的類內(nèi)指標(biāo)總變異盡可能多地被該類的類成分所解釋;如果每一類的類內(nèi)指標(biāo)總變異被類成分所解釋的比例滿足事先給出的要求,則聚類停止;否則,對比例小的類再繼續(xù)進(jìn)行分解,直到所有類的類內(nèi)指標(biāo)總變異被類成分所解釋的比例都滿足事先給出的要求為止。聚類指標(biāo)v 系統(tǒng)聚類法對k個指標(biāo)進(jìn)行聚類的具體步驟如下:

8、v 確定每一類的類內(nèi)指標(biāo)總變異被類成分所解釋的最低比例P;v 把所有指標(biāo)看成一類,計算類內(nèi)指標(biāo)總變異被類成分所解釋的比例,如果所解釋的比例大于或等于P,則聚類停止;否則進(jìn)行;聚類指標(biāo)v 將這個類分解成兩個類,分類原則是使得每一類內(nèi)的指標(biāo)總變異盡可能地被該類的類成分所解釋且類間相關(guān)系數(shù)達(dá)到最小,計算每一類的類內(nèi)指標(biāo)總變異被類成分所解釋的比例,如果所解釋的比例大于或等于P,則聚類停止;否則進(jìn)行;v 最解釋比例最小的一類在繼續(xù)進(jìn)行分解;v 重復(fù)以上步驟,直到所有類的類內(nèi)指標(biāo)總變異被類成分所解釋的比例都大于或等于P為止。系統(tǒng)聚類法聚類樣本v 用系統(tǒng)聚類法聚類樣本v 用系統(tǒng)聚類法聚類樣本的基本思想是先把

9、n個聚類樣本看成n類,然后按類間距離將相似程度最大的兩個類合并為一類,再將所有的類(包括合并形成的新類)中相似程度最大的兩個類合并為一類。重復(fù)此過程,直到所有的類間距離達(dá)到一定的要求為止,或直至所有的樣本被合并為一類為止,然后根據(jù)類間距離的要求以及實(shí)際意義選擇一個適當(dāng)?shù)姆诸?。系統(tǒng)聚類法聚類樣本用系統(tǒng)聚類法對樣本進(jìn)行聚類的具體方法步驟如下:把n個樣本看成n類,類的個數(shù)g=n;計算兩兩類間距離,并將類間距離最小的兩個合并為一類, 則g=n-1;繼續(xù)計算兩兩類間距離,并將類間距離最小的兩個合并為一類,則g=n-2;重復(fù)上述步驟,直到類間距離達(dá)到一定的要求為止,或所有的樣本被合并為一類為止;根據(jù)類間距

10、離的要求以及實(shí)際意義選擇一個適當(dāng)?shù)姆诸?。vvvvvv逐步聚類法聚類樣本v 用逐步聚類法聚類樣本的基本思想是先選擇若干個初始凝聚點(diǎn),這些凝聚點(diǎn)可以是所有樣本中的任意 幾個樣本,也可以是隨意確定的幾個新樣本觀察值。然后把每一個樣本按距離大小歸入到與該樣本最近 的凝聚點(diǎn)所代表的初始類中,再以這些初始類的 “重心”(類內(nèi)各樣本觀察值的平均值)作為新的 凝聚點(diǎn)重新將樣本歸類。重復(fù)以上步驟,直到分成的類再沒有什么變化為止。逐步聚類法聚類樣本用逐步聚類法對樣本進(jìn)行聚類的具體方法步驟如下:確定初始凝聚點(diǎn);計算樣本與每一個初始凝聚點(diǎn)的距離,并將每一個樣本歸入到與該樣本最近的凝聚點(diǎn)所代表的初始類中;計算上述初始類

11、的新凝聚點(diǎn),等于類內(nèi)各樣本觀察值的平均值;計算樣本與上述新凝聚點(diǎn)的距離,并將每一個樣本歸入到與該樣本最近的新凝聚點(diǎn)所代表的類中;重復(fù)上述步驟,直到新分成的類再沒有什么變化為止。vvvvvvVARCLUS過程v SAS系統(tǒng)中利用VARCLUS過程步進(jìn)行指標(biāo)聚類。v VARCLUS過程的語法格式如下:v PROC VARCLUS DATA= OUTTREE= PROPORTION= MAXEIGEN=MAXC=MINC=選項(xiàng);v VAR 變量/選項(xiàng);v RUN;v PROC TREE DATA=v ID _NAME_ ;v RUN;HORIZONTAL=PAGE=SPACE=;VARCLUS過程D

12、ATA語句指定要分析的數(shù)據(jù)集名及一些選項(xiàng),它可以是原SAS數(shù)據(jù)集,也可以是corr、cov、ucorr、ucov等矩陣。OUTTREE選擇項(xiàng)用來保存用于繪制樹狀圖的聚類信息。PROPORTION選擇項(xiàng)用來指定所有類中指標(biāo)變量的總變異至少應(yīng)被類成分解釋的比例。等號后面可以給出介于0和1之間的小數(shù),也可以給出介于1和100之間的正數(shù), PROPORTION=75和PROPORTION=0.75是等價的,表示聚類的結(jié)果必須滿足所有類中指標(biāo)變量的變異至少75%被類成分所解釋,如果一個類的比例小于此值,就要將它繼續(xù)分解為兩類。vvvVARCLUS過程v MAXEIGEN選擇項(xiàng)用來指定所有類中第二特征值的

13、最大允許值,超過此值就要分割為兩類。v MAXC選擇項(xiàng)用來指定允許的最大類別數(shù)。v MINC選擇項(xiàng)用來指定允許的最小類別數(shù)。VARCLUS過程v 第二個過程步用第一個過程步得到的結(jié)果繪制樹狀圖,其中:v DATA語句使用的是VARCLUS過程步的輸出數(shù)據(jù)集,即由OUTTREE輸出的數(shù)據(jù)集。v HORIZONTAL選擇項(xiàng)表示指令樹狀圖的枝干繪制成水平的。v PAGE選擇項(xiàng)指定樹狀圖所需的頁數(shù)。v SPACE選擇項(xiàng)指定指標(biāo)變量之間的間距(行數(shù)或列數(shù))。v ID語句給出的變量名用來作為樹干刻度的標(biāo)記,這個變量名是系統(tǒng)定義的,由指標(biāo)變量名構(gòu)成。CLUSTER過程SAS系統(tǒng)中利用CLUSTER過程步進(jìn)行

14、小樣本聚類。CLUSTER過程的語法格式如下:PROC CLUSTER DATA= OUTTREE= METHOD= STANDARDNONORMRSQUARE選項(xiàng);VAR 指標(biāo)變量/選項(xiàng);vvvvvvvvvID樣本序號變量 ;RUN;PROC TREE DATA=ID樣本序號變量 ; RUN;HORIZONTAL=PAGE=SPACE=;CLUSTER過程第一個過程步用于聚類樣本中,其中DATA語句指定要分析的數(shù)據(jù)集名及一些選項(xiàng),它可以是原SAS數(shù)據(jù)集,也可以是corr、cov、ucorr、ucov等矩陣。OUTTREE選擇項(xiàng)用來保存用于繪制樹狀圖的聚類信息。METHOD選擇項(xiàng)用于確定聚類的

15、方法,選擇的方法有single、complete、centroid、average、median、ward,其中single表示最短距離法,complete表示最長距離法,centroid 表示重心距離平均法,average表示平均距離平方法, median表示中間距離平均法,ward表示最小離均差平方和法。vvvvCLUSTER過程v STANDARD指令系統(tǒng)將原始數(shù)據(jù)標(biāo)準(zhǔn)化。v NONORM表示類間距離不進(jìn)行標(biāo)準(zhǔn)化。v RSQUARE表述輸出每一種聚類的復(fù)相關(guān)系數(shù)的平 方和半偏復(fù)相關(guān)系數(shù)的平方,每一種聚類的復(fù)相關(guān) 系數(shù)的平方等于總體變異被聚類成分所解釋的比例, 半偏復(fù)相關(guān)系數(shù)的平方等于由合

16、并兩個類引起的復(fù) 相關(guān)系數(shù)平方的減少量。v VAR語句給出用來聚類樣本的指標(biāo)變量。v ID語句給出樣本序號變量名。CLUSTER過程v 第二個過程步用第一個過程步得到的結(jié)果繪制樹狀圖,其中:v DATA語句使用的是VARCLUS過程步的輸出數(shù)據(jù)集,即由OUTTREE輸出的數(shù)據(jù)集。v HORIZONTAL選擇項(xiàng)表示指令樹狀圖的枝干繪制成水平的。v PAGE選擇項(xiàng)指定樹狀圖所需的頁數(shù)。v SPACE選擇項(xiàng)指定指標(biāo)變量之間的間距(行數(shù)或列數(shù))。v ID語句給出的變量名也是用來作為樹干刻度的標(biāo)記,但這個變量名由樣本序號構(gòu)成。FASTCLUS過程v 用于大樣本樣品聚類的FASTCLUS過程步使用的是逐步

17、聚類法,其聚類原則是使得類間距離最小。v 和CLUSTER過程步相比,F(xiàn)ASTCLUS過程步的缺點(diǎn)是: 沒有將原始數(shù)據(jù)標(biāo)準(zhǔn)化的功能;不能自動確定類別數(shù);需要確定初始凝聚點(diǎn);不能輸出作樹狀圖的聚類信息。FASTCLUS過程v 因此,在使用FASTCLUS過程步前,要用STANDARD過程步將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即將原始數(shù)據(jù)化為均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)化數(shù)據(jù);要根據(jù)經(jīng)驗(yàn)確定類別數(shù);要根據(jù)經(jīng)驗(yàn)選取凝聚點(diǎn),或者在確定類別數(shù)的基礎(chǔ)上指令系統(tǒng)自動選取初始凝聚點(diǎn)。FASTCLUS過程FASTCLUS過程步的優(yōu)點(diǎn)是能快速地對大樣本進(jìn)行樣本聚類,且聚類后 輸出類內(nèi)指標(biāo)的均值,用于比較類間的差異,找出每一類的特性。

18、 SAS系統(tǒng)中利用FASTCLUS過程步進(jìn)行大樣本聚類。FASTCLUS過程的語法格式如下:PROC STANDARD DATA=OUT=MEAN=0STD=1;VAR 指標(biāo)變量; RUN;vvvvvvvPROC FASTCLUS DATA= MAXC=RADIUS=MAXITER= DISTANCE OUT=OUTSTAT=VARDEF=選項(xiàng);VAR 指標(biāo)變量; RUN;LISTvvFASTCLUS過程v 各語句選項(xiàng)說明如下:v 第一個過程步用于將數(shù)據(jù)標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化的數(shù)據(jù)存在新數(shù)據(jù)集中。v OUT選擇項(xiàng)給出含有標(biāo)準(zhǔn)化數(shù)據(jù)的新數(shù)據(jù)集名。v MEAN選擇項(xiàng)給出標(biāo)準(zhǔn)化數(shù)據(jù)的均值,一般取MEAN=0。v STD選擇項(xiàng)給出標(biāo)準(zhǔn)化數(shù)據(jù)的標(biāo)準(zhǔn)差,一般取STD=1。v VAR語句給出需要標(biāo)準(zhǔn)化的變量。FASTCLUS過程第二個過程用來聚類樣本,使用的數(shù)據(jù)是上面過程步得到的標(biāo)準(zhǔn)化變量。DATA語句給出上面過程步得到的含有標(biāo)準(zhǔn)化變量的新數(shù)據(jù)集。MAXC選擇項(xiàng)用來指定允許的最大類別數(shù)。RADIUS給出確定新凝聚點(diǎn)的準(zhǔn)則r,即只有當(dāng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論