數(shù)據(jù)分析-第六章

上傳人：3*** IP屬地：湖北上傳時間：2023-01-11 格式：PPT 頁數(shù)：195 大?。?.07MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩190頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)分析主講：黃劍第六章：聚類分析

聚類分析的基本思想及意義聚類分析是研究分類問題的多元數(shù)據(jù)分析方法聚類分析是數(shù)值分類學(xué)的一分支在經(jīng)濟(jì)學(xué)中有廣泛的應(yīng)用背景城鎮(zhèn)居民收入分析產(chǎn)品質(zhì)量指標(biāo)等等2聚類分析的基本思想及意義聚類分析的基本思想是在樣品之間定義距離，在變量之間定義相似系數(shù)，距離或相似系數(shù)代表樣品或變量之間的相似程度。按相似程度的大小，將樣品（或變量）逐一歸類，關(guān)系密切的類聚集到一個小的分類單位，然后逐步擴(kuò)大，使得關(guān)系疏遠(yuǎn)的聚合到一個大的分類單位，直到所有的樣品（或變量）都聚集完畢，形成一個表示親疏關(guān)系的譜系圖，依次按照某些要求對樣品（或變量）進(jìn)行分類。3聚類分析的基本思想及意義多元數(shù)據(jù)形成數(shù)據(jù)矩陣，在這個數(shù)據(jù)矩陣中，共有n個樣品（列向），p個指標(biāo)（行向）。聚類分析有兩種類型：按樣品聚類或按變量（指標(biāo)）聚類。4聚類分析與判別分析的區(qū)別和聯(lián)系聚類分析一般尋求客觀的分類方法。在進(jìn)行聚類之前，對總體到底有幾類類型并不知道（究竟分幾類較為合適需從計算中探索調(diào)整）。判別分析則是在總體類型劃分已知，在各總體分布或來自總體訓(xùn)練樣本基礎(chǔ)上，對當(dāng)前的新樣本判定它們屬于哪個總體。聯(lián)系：例如當(dāng)我們對研究的多元數(shù)據(jù)的特征不熟悉，就要先進(jìn)行聚類分析，才能考慮判別分析問題。5聚類分析的方法重點介紹譜系聚類法快速聚類法6樣品間的相似性度量－距離設(shè)有n個樣品的多元觀測數(shù)據(jù)：

每個樣品可看成p元空間的一個點，n個樣品組成p元空間的n個點。我們用各點之間的距離來衡量各種樣品之間的相似程度（或靠近程度）。7樣品間的相似性度量－距離設(shè)是樣品之間的距離，一般要求它滿足下列條件：在聚類分析中，有些距離不滿足3），我們在廣義的角度上仍稱它為距離。8聚類分析中的常用距離歐式距離令，形成一個距離矩陣其中。9例6.1為研究遼寧、浙江、河南、甘肅、青海5省份1991年城鎮(zhèn)居民生活消費規(guī)律，需要利用調(diào)查資料對這5個省分類。指標(biāo)變量共8個，含義如下：

x1：人均糧食支出，x2：人均副食支出，

x3：人均煙酒茶支出，x4：人均其他副食支出，

x5：人均衣著商品支出，x5：人均日用品支出，

x7：人均燃料支出，x8：人均非商品支出。數(shù)據(jù)資料示于表6.2。將每個省份的數(shù)據(jù)看成一個樣品，計算樣品之間的歐式距離矩陣。10例6.1表6.21991年5省城鎮(zhèn)居民月均消費（單位：元/人）x1x2x3x4x5x6x7x8遼寧7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肅9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.8111例6.1解以1，2，3，4，5分別表示遼寧、浙江、河南、甘肅、青海5個?。悠罚Ｓ嬎忝績蓚€樣品之間的歐式距離如12例6.1從而得到距離矩陣如下：

（因是對稱矩陣，故只用下三角部分表示）。D中各元素數(shù)值的大小，反映了5個省消費水平的接近程度。13聚類分析中的常用距離絕對距離Minkowski距離

其中。當(dāng)時分別是歐式距離、絕對距離。Minkowski距離又稱距離，距離即歐式距離，距離即絕對距離。14聚類分析中的常用距離Chebyshev距離

Chebyshev距離是Minkowski距離當(dāng)時的極限。15聚類分析中的常用距離以上距離與各變量指標(biāo)的量綱有關(guān)，為消除量綱的影響，有時應(yīng)先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化，然后用標(biāo)準(zhǔn)化數(shù)據(jù)計算距離。標(biāo)準(zhǔn)化數(shù)據(jù)其中16聚類分析中的常用距離方差加權(quán)距離

對標(biāo)準(zhǔn)化數(shù)據(jù)計算歐式距離時，即是方差加權(quán)距離。17聚類分析中的常用距離馬氏距離其中是由樣品算得的協(xié)方差矩陣：其中18樣品間的相似性度量－距離Q型聚類：樣品聚類在SAS系統(tǒng)中，采用歐式距離聚類或先將數(shù)據(jù)標(biāo)準(zhǔn)化，再計算歐式距離進(jìn)行聚類。（實際上就是采用了方差加權(quán)距離）19變量間的相似性度量－相似系數(shù)當(dāng)對p個指標(biāo)變量進(jìn)行聚類時，用相似系數(shù)來衡量變量之間的相似性程度（或關(guān)聯(lián)性程度）。一般的，若表示變量之間的相似系數(shù)，應(yīng)滿足：20變量間的相似性度量－相似系數(shù)相關(guān)系數(shù)設(shè)由樣品算得協(xié)方差矩陣S與相關(guān)矩陣R。設(shè)則變量的相關(guān)系數(shù)為

21變量間的相似性度量－相似系數(shù)

是變量的觀測值與的觀測值間的相關(guān)系數(shù)。22變量間的相似性度量－相似系數(shù)夾角余弦

設(shè)變量的觀測值各為與其夾角余弦為23例6.2設(shè)為兩個二態(tài)變量（設(shè)只取0，1兩個值），其觀測值向量和（注意分量只由0，1構(gòu)成）可總結(jié)為下列聯(lián)表形式：

求（1）的相關(guān)系數(shù)；（2）的夾角余弦。10邊和1aba+b0cdc+d邊和a+cc+dn=a+b+c+d24例6.2解（1）注意：

25例6.2又26例6.2同理因此27例6.2（2）因為所以28變量間的相似性度量－相似系數(shù)變量聚類通常稱為R型聚類。在R型聚類中，相似矩陣

是出發(fā)點。相似系數(shù)矩陣可以是相關(guān)矩陣，也可以是夾角余弦矩陣，Spearman相關(guān)矩陣。29變量間的相似性度量－相似系數(shù)有時變量之間也可以用距離來描述它們的接近程度。距離和相似系數(shù)之間可以相互轉(zhuǎn)化。設(shè)是一個距離，則

是相似系數(shù)，若是相似系數(shù)，則可令或或30譜系聚類法譜系聚類法是目前應(yīng)用很廣泛的一種聚類方法。譜系聚類法的思想重點討論：Q型聚類問題。關(guān)鍵：定義類與類的距離31類間距離以分別表示樣品，以簡記與的距離分別表示兩個類，設(shè)它們分別含有個樣品。若類中有樣品，則其均值稱為類的重心。32類間距離由于類的形式和形狀多種多樣，所以類與類之間的距離有多種定義與計算方法。下面我們介紹類間距離的定義。類與之間的距離記為。

（1）最短距離即用兩類中樣品之間的距離最短者作為兩類距離。33類間距離（2）最長距離即用兩類中樣品之間的距離最長者作為兩類距離。（3）類平均距離即用兩類中所有兩兩樣品之間的距離平均作為兩類之間的距離。類平均距離還可用下列方式定義：34類間距離（4）重心距離其中分別是的重心。這是用兩類的重心之間的距離作為兩類距離。（5）離差平方和距離對重心法而言，。35類間距離的遞推公式按照譜系聚類法的思想，先將樣品聚合成小類，再逐步擴(kuò)大為大類。設(shè)類由類合并所得，則包含個樣品。問題：由與其他類的距離計算與的距離建立類間距離的遞推公式36類間距離的遞推公式類間距離的遞推方式（1）最短距離事實上37類間距離的遞推公式類間距離的遞推方式（2）最長距離事實上38類間距離的遞推公式類間距離的遞推方式（3）類平均距離事實上39類間距離的遞推公式類間距離的遞推方式（3）類平均距離對于類平均距離的下列定義方式：可得遞推公式40類間距離的遞推公式類間距離的遞推方式（4）重心距離事實上，由的合并集的重心是而41類間距離的遞推公式類間距離的遞推方式（4）重心距離由有42類間距離的遞推公式類間距離的遞推方式（5）離差平方和距離若記是離差平方和距離，是重心平方距離，則有43類間距離的遞推公式在一定條件下，以上介紹的5種類間距離的遞推公式可以構(gòu)成統(tǒng)一的形式。假定樣品之間的距離皆采用歐式平方距離，即

則類間距離遞推公式有統(tǒng)一的形式：44類間距離的遞推公式

表6.3類間距離的參數(shù)距離名稱最短距離最長距離類平均距離重心距離離差平方和距離45類間距離的遞推公式注46譜系聚類法的步驟以Q型聚類為例說明譜系聚類法的步驟1）n個樣品開始時作為n個類，計算兩兩之間的距離，構(gòu)成一個對稱距離矩陣此時，。47譜系聚類法的步驟2）選擇中的非對角線上的最小元素，設(shè)這個最小元素是。這時。將合并成一個新類。在中消去所對應(yīng)的行與列，并加入由新類與剩下的其他未聚合的類間的距離組成的一行和一列，得到一個新的距離矩陣，它是n-1階方陣。48譜系聚類法的步驟3）從出發(fā)重復(fù)步驟2的作法得。再由出發(fā)重復(fù)上述步驟，直到n個樣品聚為1個大類為止。4）在合并過程中要記下合并樣品的編號及兩類合并時的水平（即距離）并繪制聚類譜系圖。49譜系聚類－PROC

CLUSTER過程

Proccluster過程提供了最短距離法（SingleLinkage）、最長距離法（Completelinkage）、類平均法（Averagelinkage）、重心法（Centroidmethod）等11種譜系聚類方法。50譜系聚類－PROC

CLUSTER過程基本語句

PROC

CLUSTERoptions；

VARvariables;IDvariable;51譜系聚類－PROC

CLUSTER過程PROC

CLUSTERoptions；1）DATA＝SASdataset：該語句指出要進(jìn)行聚類分析的SAS數(shù)據(jù)集名稱，它可以是含各觀測向量的原始數(shù)據(jù)集，也可以是“距離”矩陣（TYPE＝DISTANCE），其中“距離”可以是通常的歐氏距離，也可以是其他的距離或變換后的相似度量。若是原始觀測數(shù)據(jù)，則每個數(shù)據(jù)向量被當(dāng)作歐氏空間中的坐標(biāo)點以計算歐氏距離矩陣。52譜系聚類－PROC

CLUSTER過程注意本過程總是按照距離矩陣中的元素取值由小到大聚類，因此當(dāng)使用相似度量矩陣對變量聚類時，要首先對相似度量矩陣中的元素作變換，使得值小的元素對應(yīng)兩個更相似的變量，通常采用的變換為、或等，這里為原相似度量矩陣中的元素。53譜系聚類－PROC

CLUSTER過程PROC

CLUSTERoptions；2）OUTTREE＝SASdataset：生成一個用于畫聚類譜系圖的輸出數(shù)據(jù)集。若省略此句，則SAS系統(tǒng)自動用DATA1，DATA2，…規(guī)則命名這種數(shù)據(jù)集。3）METHOD＝name：此語句是本過程必需的，它指出具體使用的聚類方法。它可以是SAS系統(tǒng)中包含的11種方法的任何一種。主要有：54譜系聚類－PROC

CLUSTER過程SINGLE（或SIN）：要求使用最短距離法。COMPLETE（或COM）：要求使用最長距離法。AVERAGE（或AVE）：要求使用類平均法。在此過程中類平均法使用歐氏距離的平方，若不需要再平方，可在“options”部分寫上“NOSQUARE”。CENTROID（或CEN）：要求使用重心法。如果不規(guī)定“NOSQUARE”，則距離數(shù)據(jù)被平方。55譜系聚類－PROC

CLUSTER過程MEDIAN（或MED）：要求使用中間距離法。若不規(guī)定“NOSQUARE”選項，則使用平方距離。WARD（或WAR）：要求使用WARD最小方差法。若不規(guī)定“NOSQUARE”選項，則使用平方距離。56譜系聚類－PROC

CLUSTER過程PROC

CLUSTERoptions；4）NOSQUARE：阻止過程在METHOD＝AVERAGE、CENTROID、MEDIAN或WARD方法中將輸入的距離平方。5）NONORM：阻止將距離規(guī)范化。6）PSEUDO：要求打印偽F統(tǒng)計量及偽統(tǒng)計量的值。只有當(dāng)輸入數(shù)據(jù)是原始觀測數(shù)據(jù)（但“METHOD”選項不能是SIN）或“METHOD”選項是AVE、CEN或WAR時，才可選此項。57譜系聚類－PROC

CLUSTER過程PROC

CLUSTERoptions；7）RSQUARE（或RSQ）：要求打印出統(tǒng)計量和半偏相關(guān)統(tǒng)計量SPRSQ的值。當(dāng)輸入數(shù)據(jù)是原始觀測數(shù)據(jù)且“METHOD”選項是AVE或CEN時，才可選此項。58譜系聚類－PROC

CLUSTER過程VARvariables；

此語句的“variables”部分列出參與聚類分析的數(shù)值變量名稱。若省略此句，則未列在其他語句（如其后的ID語句）中的數(shù)值變量均參與分析。59譜系聚類－PROC

CLUSTER過程IDvariables；

ID變量的值用以表述各樣品的名稱，它通常時定性變量。若該語句被省略，該過程自動將各樣品（或變量）命名為“OBn”，其中n表示第n個樣品（或變量）。60譜系聚類－PROC

TREE過程用于畫出譜系圖基本語句：

PROCTREEoptions；

IDvariable；61譜系聚類－PROC

TREE過程PROCTREEoptions；1）HORIZONTAL：表示譜系圖水平放置。2）VERTICAL：表示譜系圖垂直放置。3）SPACES＝m：表示各ID變量值的間隔單位，這里m是正整數(shù)。4）GRAPHICS：要求畫高分辨率的聚類譜系圖。5）NCLUSTERS＝m：指定在輸出分類結(jié)果數(shù)據(jù)集中所分成的類的個數(shù)。6）OUT＝SASdataset：輸出分類結(jié)果。62例6.3從例6.1算得的樣品間的歐氏距離矩陣出發(fā)用下列方法進(jìn)行譜系聚類。（1）最短距離法；（2）最長距離法；（3）類平均距離法。63例6.3

解

分別用1，2，3，4，5表示遼寧、浙江、河南、甘肅、青海5個省。將距離矩陣記為，64例6.3（1）最短距離法。先將5個省各看成一類，即，。有從看出，最小，故將在水平2.20上合并成一個新類。計算與之間的最短距離，得65例6.3在中劃去所對應(yīng)的行和列，并加上新類到其他類的距離作為新的一行一列，得到：66例6.3

從看到，到的距離最小，為2.21。在水平2.21上將合并得，計算與的距離：在中劃去和所對應(yīng)的行和列，加上的相應(yīng)行列，得到：67例6.3

中最短距離是，故在水平11.67上合并得新類。至此僅有兩類和，其距離為從而得到最后在水平12.80上將合為1個包含所有省份的大類。6869707172737475例6.4歐洲各國語言有許多相似之處，有的甚至十分相近。以E，N，Da，Du，G，F(xiàn)r，S，I，P，H，F(xiàn)i分別表示英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語這11種語言。人們以任兩種語言對1~10這十個數(shù)字拼寫中第一個字母不相同的個數(shù)定義兩種語言間的“距離”。這種“距離”是廣義距離。例如，英語和挪威語只有數(shù)字1和8的第一個字母不同，故這兩種語言間的距離定義為2。這樣得到11種語言間的距離矩陣如下：76例6.4用下列方法對這11種語言進(jìn)行譜系聚類：（1）最短距離法，并畫譜系圖；（2）最長距離法，并畫譜系圖；（3）類平均距離法，并畫譜系圖；（4）重心距離法；（5）離差平方和距離法（Ward法）777879808182838485868788899091929394分為3類9596979899譜系聚類法的統(tǒng)計量一個較好的聚類應(yīng)該在類內(nèi)各樣品盡可能相似的前提下，使得類的個數(shù)盡可能少。主要用到以下幾種統(tǒng)計量統(tǒng)計量半偏相關(guān)統(tǒng)計量偽F統(tǒng)計量偽統(tǒng)計量100統(tǒng)計量設(shè)某譜系水平上類的個數(shù)是G。類中樣品的類內(nèi)離差平方和為

其中是類的重心。越小，說明中各樣品越相似。101統(tǒng)計量在譜系的第G層共有G個類。定義又以T記所有樣品的總離差平方和，其中102統(tǒng)計量定義統(tǒng)計量為統(tǒng)計量可用于評價每次合并時的聚類效果。顯然

1）n個樣品各為一類時，；

2）n個樣品合并成一類時，。

3）的值總是隨著分類數(shù)目的減少而減小，取快速下降的上一類。103半偏相關(guān)統(tǒng)計量這一統(tǒng)計量與離差平方和距離有關(guān)。設(shè)類的離差平方和分別是

將合并成后，離差平方和

104半偏相關(guān)統(tǒng)計量105其中合并后離差平方和的增加量為半偏相關(guān)統(tǒng)計量由類合并成類時的半偏相關(guān)統(tǒng)計量SPRSQ為

SPRSQ是上一步值與該步值的差值。當(dāng)SPRSQ值越大時，說明上一次合并效果越好。

106偽F統(tǒng)計量偽F統(tǒng)計量PSF是

PSF值越大表示這些觀測可顯著地分為G個類。107偽統(tǒng)計量偽統(tǒng)計量PST2是

PST2大，說明合并為后，使得離差平方和的增量相對于原的類內(nèi)離差平方和大。這表明合并的兩個類是很分開的。也就是上一次聚類效果較好。108例6.5對例5.2提供的數(shù)據(jù)進(jìn)行聚類分析?？疾斓?～27號省市區(qū)，指標(biāo)變量的含義如例5.2所述，省市區(qū)的編號如下：

1.山西2.內(nèi)蒙古3.吉林4.黑龍江5.河南6.甘肅

7.青海8.河北9.陜西10.寧夏11.新疆12.湖北

13.云南14.湖南15.安徽16.貴州17.遼寧18.四川

19.山東20.江西21.福建22.廣西23.海南24.天津

25.江蘇26.浙江27.北京109例6.5利用下列聚類法將上述樣品進(jìn)行分類，分析分幾類為合適，并寫出各種聚類方法得到的分類結(jié)果。

（1）最長距離法；

（2）類平均距離法；

（3）重心距離法；

（4）離差平方和距離法；110111112113114115變量聚類變量聚類稱為R型聚類。變量聚類一般從數(shù)據(jù)的相關(guān)矩陣R出發(fā)，設(shè)變量的數(shù)據(jù)的相關(guān)矩陣是116變量聚類從R矩陣的元素，經(jīng)變換得到距離矩陣117例6.6對某地超基性巖的一批樣品，測試6個與礦化有關(guān)的元素:x1(鎳),x2(鈷),x3(銅),x4(鉻),x5(硫),x6(砷),,計算得到他們的相關(guān)矩陣是118例6.6解計算距離矩陣，119120121122123124快速聚類法在譜系聚類法中，因為樣品一旦被歸到某個類后就不變了，所以要求分類方法比較準(zhǔn)確。而樣品容量較大時，譜系聚類法的計算量過大。因此，為了彌補(bǔ)譜系聚類法的不足，產(chǎn)生了快速聚類法，又稱動態(tài)聚類法。快速聚類法先將樣品粗糙地分一下類，然后再按照某種原則進(jìn)行修正，直至分類比較合理為止。125快速聚類法126選擇聚點最終分類合理初始分類分類是否合理修改分類不合理快速聚類法的步驟1

選擇聚點聚點（種子）是一批有代表性的樣品，它的選擇決定了初始分類，對最終分類有較大影響。在進(jìn)行快速聚類法前，要根據(jù)研究問題的要求及了解程度先定下分類數(shù)k，這樣就可以在每一類中選擇一個有代表性的樣品作為聚點（初始聚點）。127快速聚類法的步驟1

選擇聚點選擇聚點有下列方法：

1）經(jīng)驗選擇。如果對研究對象比較了解，根據(jù)以往的經(jīng)驗定下k個樣品作為聚點。

2）將n個樣品人為地（或隨機(jī)地）分成k類，以每類的重心作為聚點。128快速聚類法的步驟1

選擇聚點

3）最小最大原則。設(shè)要將n個樣品分成k類，先選擇所有樣品中距離最遠(yuǎn)的兩個樣品為前兩個聚點，即選擇和，使然后，選擇第3個聚點，使得與前兩個聚點的距離最小者等于所有其余的與的較小距離中最大的，用公式表示為129快速聚類法的步驟然后按相同的原則選取，依次下去，直至選定k個聚點。若已選了l個聚點（l<k）,則第l+1個聚點選取的原則為130快速聚類法的步驟注：在SAS系統(tǒng)procfastclus過程中，分類數(shù)k是事先給定的。在給定k以后，procfastclus過程會按上述方法算出初始聚點的。131快速聚類法的計算步驟先假設(shè)聚類中采用的距離是歐式距離，即1）設(shè)k個初始聚點的集合是用下列原則實現(xiàn)初始分類。記這樣，將樣品分成不相交的k類。以上初始分類的原則是每個樣品以最靠近的初始聚點歸類。132快速聚類法的計算步驟依照以上計算，得到一個初始分類2）從出發(fā)，計算新的聚點集合。以的重心作為新的聚點：其中是類中的樣品數(shù)。這樣，得到新的聚點集合：133快速聚類法的計算步驟從出發(fā)，將樣品作新的分類。記得到分類這樣，依次重復(fù)計算下去。134快速聚類法的計算步驟3）設(shè)在第m步得到分類在以上遞推計算過程中，是類的重心。不一定是樣品，又一般不是的重心。當(dāng)m逐漸增大時，分類趨于穩(wěn)定。此時，就會近似為的重心，從而算法即可結(jié)束。實際計算時，從某一步m開始，分類135快速聚類法的計算步驟與完全相同，計算即告結(jié)束。記理論上可以證明：當(dāng)m增加時，為單調(diào)減下有界序列，故存在，即會逐步趨于穩(wěn)定。因此，分類結(jié)果也將逐步穩(wěn)定，即上述快速聚類法具有收斂性。136快速聚類法的計算步驟設(shè)給定，若則遞推計算過程結(jié)束。注：在procfastclus過程中，的默認(rèn)值是0.02。137快速聚類－procfastclus過程該過程適合于觀測數(shù)目較大的數(shù)據(jù)集的不相交聚類（即各類之間互不相交）。但對于小數(shù)據(jù)集，此過程對于觀測的次序較為敏感。此過程在聚類之前要求指定類的個數(shù)，因為要對不同的類的個數(shù)作分析，需要多次運(yùn)行該過程。主要語句形式為

procfastclusoptions；

varvariables；

IDvariable；138快速聚類－procfastclus過程procfastclusoptions；1）maxcluster（或maxc）＝n：指定所允許的最大分類個數(shù)，若省略，則默認(rèn)n＝100。2）radius＝t：為選擇新的“聚點”指定的最小距離準(zhǔn)則。t的默認(rèn)值為0。用戶必須規(guī)定以上兩個選項之一。139快速聚類－procfastclus過程procfastclusoptions；3）data＝SASdataset：指出用以分析的SAS數(shù)據(jù)集名稱。此過程中，數(shù)據(jù)性質(zhì)是原始觀測數(shù)據(jù)，而不能是距離或相似矩陣。4）mean＝SASdataset：生成一個輸出數(shù)據(jù)集，其中包括每個類的均值和其他統(tǒng)計量的值。5）out＝SASdataset：生成一個輸出數(shù)據(jù)集，其中包括原始數(shù)據(jù)及兩個新變量cluster（用以指示觀測屬于哪個類的變量）和距離distance。140快速聚類－procfastclus過程procfastclusoptions；6）cluster＝name：規(guī)定在4）和5）的輸出數(shù)據(jù)集中用以指示觀測數(shù)據(jù)屬于哪一類的變量名稱。缺省時系統(tǒng)自動命名為cluster。7）distance：要求打印類均值之間的距離。8）list：要求列出所有觀測的ID變量值，觀測所歸入類的類號及觀測與最終“聚點”之間的距離。9）least＝m：表明用Lm準(zhǔn)則進(jìn)行聚類，L1是絕對距離，least＝max是Chebyshev距離。141例6.7從12個不同地區(qū)測得了某樹種的平均發(fā)芽率x1與發(fā)芽勢x2，數(shù)據(jù)見表。采用歐氏距離，將這12個地區(qū)以樹種發(fā)芽情況按快速聚類法聚為2類。142表6.2212個地區(qū)某樹種發(fā)芽情況地區(qū)號123456789101112x10.7070.6000.6930.7170.6880.5330.8770.5130.8150.6330.7400.777x20.3850.4330.5050.3430.6050.3800.7130.3530.6750.4650.5800.723143144145146147例6.81976年74個國家和地區(qū)的人口出生率x1和死亡率x2的數(shù)據(jù)見表6.25（國家與地區(qū)名從略）。表中列出的數(shù)據(jù)是每10萬人的出生數(shù)與死亡數(shù)。試對這74個國家與地區(qū)按人口出生率與死亡率進(jìn)行快速聚類分析。148149假定分3類datashengsi;inputx1x2;cards;……;proc

fastclusdata=shengsiout=a1maxc=3cluster=cdistancelist;proc

plot;plotx2*x1=c;run;150151152153154分為4類datashengsi;inputx1x2;cards;……;proc

fastclusdata=shengsiout=a1maxc=4cluster=cdistancelist;proc

plot;plotx2*x1=c;run;155156157158159例6.9（續(xù)例5.2）對例5.2

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)分析-第六章

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)分析-第六章

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔