版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第8章聚類分析與判別分析武漢大學(xué)計算機學(xué)院第8章聚類分析與判別分析8.1聚類分析8.2判別分析8.1聚類分析8.1.1聚類分析的一般概念8.1.2系統(tǒng)聚類法的基本思想和步驟8.1.3用CLUSTER過程和TREE過程進行系統(tǒng)聚類8.1.4用VARCLUS過程進行變量聚類8.1.1聚類分析的一般概念設(shè)有n個樣品(多元觀測值),每個樣品測得m項指標(變量),得到觀測數(shù)據(jù)xij(i=1,…,n;j=1,…,m),如表所示。X1X2…XmX(1)x11x12…x1mX(2)x21x22…x2m……………X(n)xn1xn2…xnm表中數(shù)據(jù)又稱為觀測數(shù)據(jù)陣或簡稱為數(shù)據(jù)陣,其數(shù)學(xué)表示為:其中列向量Xj=(x1j,x2j,…,xnj)',表示第j項指標(j=1,2,…,m),行向量X(i)=(xi1,xi2,…,xin)表示第i個樣品。1.兩種聚類分析根據(jù)分類對象的不同,聚類分析分為兩種:
(1)樣品聚類:樣品聚類是對樣品(觀測)進行的分類處理,又稱為Q型分類,相當(dāng)于對觀測數(shù)據(jù)陣按行分類。
(2)變量聚類:變量聚類是對變量(指標)進行的分類處理,又稱為R型分類,相當(dāng)于對觀測數(shù)據(jù)陣按列分類。兩種聚類在形式上是對稱的,處理方法也是相似的。2.聚類分析的方法聚類方法大致可歸納如下:(1)系統(tǒng)聚類法(譜系聚類)
先將l個元素(樣品或變量)看成l類,然后將性質(zhì)最接近(或相似程度最大)的2類合并為一個新類,得到l–1類,再從中找出最接近的2類加以合并變成了l–2類,如此下去,最后所有的元素全聚在一類之中。(2)分解法(最優(yōu)分割法)
其程序與系統(tǒng)聚類相反。首先所有的元素均在一類,然后按照某種最優(yōu)準則將它分成2類、3類,如此下去,一直分裂到所需的k類為止。(3)動態(tài)聚類法(逐步聚類法)開始將l個元素粗糙地分成若干類,然后用某種最優(yōu)準則進行調(diào)整,一次又一次地調(diào)整,直至不能調(diào)整為止。(4)有序樣品的聚類
n個樣品按某種因素(時間或年齡或地層深度等)排成次序,要求必須是次序相鄰的樣品才能聚在一類。
其他還有:有重疊聚類、模糊聚類、圖論聚類等方法。3.聚類統(tǒng)計量
聚類分析實質(zhì)上是尋找一種能客觀反映元素之間親疏關(guān)系的統(tǒng)計量,然后根據(jù)這種統(tǒng)計量把元素分成若干類。常用的聚類統(tǒng)計量有距離系數(shù)和相似系數(shù)兩類。距離系數(shù)一般用于對樣品分類,而相似系數(shù)一般用于對變量聚類。距離的定義很多,如馬氏距離、明考斯基距離、蘭氏距離、切比雪夫距離以及常見的歐氏距離:相似系數(shù)有相關(guān)系數(shù)、夾角余弦、列聯(lián)系數(shù)等。如何度量遠近?如果想要對100個學(xué)生進行分類,如果僅僅知道他們的數(shù)學(xué)成績,則只好按照數(shù)學(xué)成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學(xué)和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類?!敖煺叱?,近墨者黑”,人們往往根據(jù)事物間的遠近距離來判定類別。兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離,還有絕對距離等。類間距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來作為類間距離。定義不同的距離結(jié)果會不同,但一般不會差太多。8.1.2系統(tǒng)聚類法的基本思想和步驟下面以樣品聚類為例介紹系統(tǒng)聚類法。
系統(tǒng)聚類法的基本思想
設(shè)有n個樣品,每個樣品測得m項指標(見表8-1)。系統(tǒng)聚類方法的基本思想是:首先定義樣品間的距離(或相似系數(shù))和類與類之間的距離。一開始將n個樣品各自自成一類,這時類間的距離與樣品間的距離是等價的;然后將距離最近的兩類合并,并計算新類與其他類的類間距離,再按最小距離準則并類。這樣每次減少一類,直到所有的樣品都并成一類為止。這個并類過程可以用譜系聚類圖形象地表達出來。根據(jù)類間距離計算方法的不同,有11種不同的聚類方法:(1)類平均法類平均法(AverageLinkage)用兩類樣品兩兩觀測間距離的平均作為類間距離。類平均法是一種應(yīng)用較廣泛,聚類效果較好的方法(2)重心法重心法(CentroidMethod)用兩個類重心(均值)之間的(平方)歐氏距離定義類間距離(3)最長距離法最長距離法(CompleteMethod)用兩類觀測間最遠一對觀測的距離定義類間距離(4)最短距離法最短距離法(SingleLinkage)用兩類觀測間最近一對觀測的距離定義類間距離(5)Ward最小方差法(離差平方和法)
Ward最小方差法(Ward'sMininum-VarianceMethod)也稱Ward離差平方和法。Ward方法并類時總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。還有最大似然法(EML)法可變類平均法(Flexible-BetaMethod)McQuitty相似分析法(McQuitty‘sSimilarityAnalysis)中間距離法(MedianMethod)兩階段密度估計法(Two–StageDensityLinkage)等。類平均法和Ward最小方差法使用最廣泛。最短距離分類的基本原理例:為考察公司的經(jīng)營業(yè)績并對其分類,可依據(jù)它們的年盈利額進行歸類.公司年盈利(十萬元)甲1乙3丙9丁14單一指標的系統(tǒng)聚類過程譜系聚類圖,簡稱譜系圖系統(tǒng)聚類,也稱譜系聚類或?qū)哟尉垲愖疃叹嚯x分類的基本原理例:為考察投資者的盈利能力,從資金的投入和回報兩方面進行考察投資者資金投入(萬元)回報(萬元)A3560B1540C305D808E9035多指標的系統(tǒng)聚類過程采用歐式距離計算距離按聚類過程依次畫出譜系聚類圖表格表示初始狀態(tài)系統(tǒng)聚類流程圖4.系統(tǒng)聚類類數(shù)的確定
(1)由適當(dāng)?shù)拈y值確定選定某種聚類方法,按系統(tǒng)聚類的方法并類后,得到一張譜系聚類圖,聚類圖(又稱譜系圖)只反映樣品間(或變量間)的親疏關(guān)系,它本身并沒有給出分類,需要給定一個臨界相似尺度,用以分割譜系圖而得到樣品(或變量)的分類,如給定臨界值(閥值)為d,那么,當(dāng)樣品間或已并類間距離小于d時,認為這些樣品和類的關(guān)系密切,應(yīng)該歸屬一類。(2)根據(jù)統(tǒng)計量確定分類個數(shù)在SAS的CLUSTER過程中,提供一些統(tǒng)計量可以近似檢驗類個數(shù)如何選擇更合適,用統(tǒng)計量決定類數(shù)的方法來自統(tǒng)計的方差分析思想,下面作一些介紹。
1)R2統(tǒng)計量其中PG為分類數(shù)為G個類時的總類內(nèi)離差平方和,T為所有樣品或變量的總離差平方和。R2越大,說明分為G個類時每個類內(nèi)的離差平方和都比較小,也就是分為G個類是合適的。但是,顯然分類越多,每個類越小,R2越大,所以我們只能取G使得R2足夠大,但G本身比較小,而且R2不再大幅度增加。
2)半偏R2統(tǒng)計量在把類CK和類CL合并為下一水平的類CM時,定義半偏相關(guān)其中BKL=WM–(WK+WL)為合并類引起的類內(nèi)離差平方和的增量,Wt為類Ct的類內(nèi)離差平方和。半偏R2用于評價一次合并的效果,其值是上一步R2與該步R2的差值。其值越大,說明上一次合并的效果越好。
3)偽F統(tǒng)計量偽偽F統(tǒng)計量評價分為G個類的效果。偽F統(tǒng)計量越大,表示分為G個類越合理。通常取偽F統(tǒng)計量較大而類數(shù)較小的聚類水平。
4)偽t2統(tǒng)計量偽用此統(tǒng)計量評價合并類CK和類CL的效果,該值大說明合并的兩個類CK和CL是很分開的,不應(yīng)合并這兩個類,而應(yīng)該取合并前的水平。當(dāng)然,采用不同的分類方法會得到不同的分類結(jié)果,有時即使是同一種聚類方法,因距離的定義方法不同也會得到不同的分類結(jié)果。對任何觀測數(shù)據(jù)都沒有唯一“正確的”分類方法。實際應(yīng)用中,常采用不同的分類方法對數(shù)據(jù)進行分類,可以提出多種分類意見,由實際工作者決定所需要的分類數(shù)和分類情況。SAS的聚類分析過程CLUSTER
譜系聚類(Q型聚類分析)VARCLUS
變量聚類(R型聚類分析)FASTCLUSK均值快速聚類,適用于大樣本(Q型聚類分析)MODECLUS
非參數(shù)聚類(Q型聚類分析)TREE
繪制樹結(jié)構(gòu)圖,通過CLUSTER和VARCLUS過程計算得到的聚類結(jié)果,繪制出系統(tǒng)聚類的譜系圖。8.1.3用CLUSTER過程和TREE過程進行系統(tǒng)聚類1.CLUSTER過程系統(tǒng)聚類CLUSTER過程的一般格式為:PROCCLUSTERmethod=…<選項列表>;
VAR<聚類用變量>;ID<變量名>;/*標記樣本RUN;其中:
1)PROCCLUSTER語句為調(diào)用CLUSTERS過程的開始,其常用選項及功能見表8-2。其中method=..是必選項!
2)VAR語句指定用來聚類的數(shù)值型變量。如果缺省,則使用沒有列在其他語句中的所有數(shù)值型變量。
3)COPY語句把指定的變量復(fù)制到OUTTREE=的數(shù)據(jù)集中,以備后用。
4)ID語句中指定的變量用于區(qū)分聚類過程中的輸出及OUTTREE數(shù)據(jù)集中的觀測。2.TREE過程
TREE過程可以把CLUSTER過程產(chǎn)生的OUTTREE=數(shù)據(jù)集作為輸入,畫出聚類譜系圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。一般格式如下:PROCTREE<選項列表>;ID<變量>;RUN;其中:
1)PROCTREE語句為調(diào)用TREE過程的開始,其常用選項及功能見表8-3。表8-3PROCTREE語句的常用選項
2)COPY語句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集。
3)ID語句用于指定在輸出樹狀圖中的識別對象,ID變量可以是字符或數(shù)值變量。如果省略,TREE過程將使用變量_NAME_。選項名稱功能說明DATA=數(shù)據(jù)集指定從CLUSTER過程生成的OUTTREE數(shù)據(jù)集作為輸入。OUT=數(shù)據(jù)集指定包含最后分類結(jié)果(每一個觀測屬于哪一類,用一個CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。NCLUSTERS指定最后把樣本觀測分為多少個類。HORIZONTAL橫向畫聚類譜系圖。3.應(yīng)用實例【例8-1】表8-4是全國沿海10省市農(nóng)民2004年支出情況的匯總資料,表中涉及生活消費支出情況的八個指標。假定上述數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.nm10。地區(qū)食品衣著居住家庭設(shè)備及服務(wù)醫(yī)療保健交通和通訊文教、娛樂及服務(wù)其他商品及服務(wù)天津1017.72181.21508.06108.51177.10230.41376.8742.23河北780.09127.06340.8880.42115.97176.60182.5631.33遼寧962.00154.97290.0872.58145.19186.77217.9543.42上海2191.15279.731446.15344.41424.55720.37805.55116.94江蘇1317.88163.53467.62141.43163.16293.07373.3972.47浙江1838.57258.58798.88242.09326.12496.86597.96100.05福建1408.54159.60430.14154.43136.40306.06313.09107.32山東1000.13139.18365.97110.12155.85221.93298.2397.85廣東1581.68116.83494.89131.17153.17350.27314.3498.44廣西1047.5864.42311.4864.8783.64140.13178.8337.65試利用匯總資料對10個地區(qū)進行分類(1)使用CLUSTER過程為了進行系統(tǒng)聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計量,使用如下代碼:procclusterdata=mylib.nm10standardmethod=ward
outtree=otreepseudo;copygroup;/*group是城市名的變量名稱*/run;把此變量復(fù)制到數(shù)據(jù)集otree中,以備制作譜系聚類圖結(jié)果的最后部分為聚類分析的完整過程(ClusterHistory),如圖,內(nèi)容按列劃分從左到右依次為:“NCL”為類別數(shù)量,表示新類別形成后類別的總數(shù);“--ClustersJoined---”為合并的類別,指明這一步合并了哪兩個類,有兩列。其中OBxxx表示某一個原始樣品,而CLxxx表示在某一個聚類水平上產(chǎn)生的類?!癋REQ”表示這次合并得到的類有多少個樣品。“SPRSQ”是半偏R2,“RSQ”是R2,“PSF”為偽F統(tǒng)計量,“PST2”為偽t2統(tǒng)計量,“Tie”指示距離最小的候選類對是否有多對,本例全無。(2)確定分類個數(shù)
1)R2統(tǒng)計量(列標題為RSQ)用于評價每次合并成NCL個類時的聚類效果。R2越大說明NCL個類越分開,故聚類的效果好。R2的值總是在0和1之間,而且R2的值總是隨著分類個數(shù)NCL的減少而變小。通過查看R2值的變化,可以確定n個樣品分為幾類最為合適。本例中,分為3個類之前(NCL>3)的并類過程中R2的減少是逐漸的,改變不大;當(dāng)分為3類時的R2=0.838,而下一次合并后分為2類時R2下降較多(R2=0.721)。這時通過分析R2統(tǒng)計量可得出分為3個類是較合適的。查看R2變化的大小也可以由合并類時的半偏R2(列標題為SPRSQ)得到。半偏R2的值是上一步R2與該步R2的差值,故某步的半偏R2值越大,說明上一步合并的效果好。本例中半偏R2最大和次大分別為NCL=1和2,說明根據(jù)半偏R2準則分為兩個類或三個類是較合適的。
2)偽F統(tǒng)計量(列標題為PSF)用于評價分為NCL個類的聚類效果。偽F值越大表示這些觀測樣品可顯著地分為NCL個類。本例中偽F最大和次大依次為NCL=2和5(局部),說明根據(jù)偽F準則分為兩個類、五個類是較合適的。
3)偽t2統(tǒng)計量用以評價此步合并類的效果。由該統(tǒng)計量的定義知偽t2值大表明上一次合并的兩個類是很分開的,也就是上一次聚類的效果是好的。本例中偽t2最大和次大分別為NCL=1和2,說明根據(jù)偽t2準則分為兩個類或三個類是較合適的。由此看出:R2準則支持分為兩類和三類;偽F統(tǒng)計量支持分為兩類和五類;偽t2統(tǒng)計量支持分為兩類和三類。綜合分析認為,用Ward法10個地區(qū)分為兩類或三類較合適。
使用如下代碼畫出譜系圖proctreedata=otreehorizontal;IDGroup;run;
兩類的結(jié)果為:G1={上海,浙江},G2={天津,江蘇,福建,廣東,山東,河北,遼寧,廣西}。三類的結(jié)果為:G1={上海,浙江},G2={天津,江蘇,福建,廣東,山東},G3={河北,遼寧,廣西}。半偏R的平方相仿地,可以使用類平均法、中間距離法、可變類平均法等方法。不同的聚類方法得到的聚類結(jié)果或多或少會有些差別,在實際應(yīng)用中,應(yīng)綜合各種計算結(jié)果,提出合適的分類個數(shù)。Try:作聚類分析投資者comp資金投入(萬元)pay回報(萬元)incomeA3560B1540C305D808E90358.1.4VARCLUS變量聚類VARCLUS聚類對數(shù)值型變量進行分離或分層聚類PROCVARCLUSDATA=數(shù)據(jù)集聚類方法MAXC=n;VAR變量;RUN;繪制樹狀圖PROCTREEDATA=..ID_NAME_;RUN;例城鎮(zhèn)居民消費水平通常用八項指標描述:X1:人均糧食支出X2:人均副食支出X3:煙酒茶支出X4:人均其他副食支出X5:人均衣著商品支出X6:人均日用品支出X7:人均燃料支出X8:人均非商品支出為研究城鎮(zhèn)居民消費結(jié)構(gòu),需將相關(guān)性強的指標歸并到一起,即指標聚類.dataex18_1;inputx1-x8;cards;7.7848.44820.5122.1215.731.1516.6110.8544.687.3214.5117.1312.081.2611.579.0928.127.49.6217.2611.122.4912.658.3523.537.518.6217.42101.0411.219.2523.756.619.1917.7710.481.7210.517.939.778.4912.9419.2711.052.0413.298.1930.54.729.7816.287.62.5210.327.7329.25.429.4319.298.492.52108.2864.34822.2220.0615.520.7222.897.2145.797.6610.3616.5612.862.2511.697.6850.3711.3513.319.2514.592.7514.878.1437.759.618.4913.159.761.2811.2810.652.417.79.9812.5311.72.3114.696.2535.024.726.2810.037.151.9310.398.8233.77.5910.9818.8214.731.7810.19.4227.938.28.1416.179.421.559.768.6736.057.317.7516.6711.682.3812.886.7738.696.018.8214.7911.441.7413.2912.4776.395.5211.2414.52225.4625.57.2752.653.849.1613.0315.261.9814.5713.4555.855.57.459.559.522.2116.37.1840.917.328.9417.612.751.141
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《標準理解與實施》課件
- 《盾構(gòu)施工測量培訓(xùn)》課件
- 《員工安全教育講義》課件
- 《測序技術(shù)介紹》課件
- 單位管理制度集合大全職工管理篇
- 單位管理制度集粹選集員工管理篇十篇
- 單位管理制度匯編大全職工管理篇
- 單位管理制度合并匯編【職員管理篇】
- 《客服分析報告會》課件
- 單位管理制度分享合集【人力資源管理】十篇
- 工程竣工資料整理工程資料服務(wù)合同
- 智能化手術(shù)室介紹strykerisuite課件
- 水利機械施工方案
- 廣東省佛山市南海區(qū)大瀝鎮(zhèn)2023-2024學(xué)年九年級上學(xué)期期中物理試卷
- ESD內(nèi)部審核日程計劃表+內(nèi)審檢查表+內(nèi)審報告全套資料
- HSK標準教程5下-課件-L
- 電腦基礎(chǔ)知識
- 工程竣工預(yù)驗收簽到表
- 靜鉆根植樁施工組織設(shè)計
- 工程精細化管理
- 小學(xué)音樂-(演唱)小拜年教學(xué)設(shè)計學(xué)情分析教材分析課后反思
評論
0/150
提交評論