第三講聚類分析_第1頁
第三講聚類分析_第2頁
第三講聚類分析_第3頁
第三講聚類分析_第4頁
第三講聚類分析_第5頁
已閱讀5頁,還剩84頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三講聚類分析演示文稿第一頁,共八十九頁。(優(yōu)選)第三講聚類分析第二頁,共八十九頁。2023/2/143§3.1聚類分析的思想3.1.1導(dǎo)言在古老的分類學(xué)中,人們主要靠經(jīng)驗(yàn)和專業(yè)知識(shí),很少利用數(shù)學(xué)方法。隨著生產(chǎn)技術(shù)和科學(xué)的發(fā)展,分類越來越細(xì),以致有時(shí)僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)還不能進(jìn)行確切分類,于是數(shù)學(xué)這個(gè)有用的工具逐漸被引進(jìn)到分類學(xué)中,形成了數(shù)值分類學(xué)。近些年來,數(shù)理統(tǒng)計(jì)的多元分析方法有了迅速的發(fā)展,多元分析的技術(shù)自然被引用到分類學(xué)中,于是從數(shù)值分類學(xué)中逐漸的分離出聚類分析這個(gè)新的分支。目錄上頁下頁返回結(jié)束第三頁,共八十九頁。2023/2/144§3.1聚類分析的思想目錄上頁下頁返回結(jié)束對(duì)樣品的分類常稱為Q型聚類分析,對(duì)變量的分類常稱為R型聚類分析。與多元分析的其他方法相比,聚類分析的方法是很粗糙的,理論上還不完善,但由于它能解決許多實(shí)際問題,很受人們的重視,和回歸分析、判別分析一起被稱為多元分析的三大方法。

第四頁,共八十九頁。2023/2/145§3.1聚類分析的思想目錄上頁下頁返回結(jié)束3.1.2聚類的目的聚類分析的目的就是把相似的研究對(duì)象歸成類。

【例3.1】若我們需要將下列11戶城鎮(zhèn)居民按戶主個(gè)人的收入進(jìn)行分類,對(duì)每戶作了如下的統(tǒng)計(jì),結(jié)果列于表3.1。在表中,“標(biāo)準(zhǔn)工資收入”、“職工獎(jiǎng)金”、“職工津貼”、“性別”、“就業(yè)身份”等稱為指標(biāo),每戶稱為樣品。若對(duì)戶主進(jìn)行分類,還可以采用其他指標(biāo),如“子女個(gè)數(shù)”、“政治面貌”等,指標(biāo)如何選擇取決于聚類的目的。第五頁,共八十九頁。2023/2/146§3.1聚類分析的思想目錄上頁下頁返回結(jié)束第六頁,共八十九頁。2023/2/147§3.1聚類分析的思想目錄上頁下頁返回結(jié)束例3.1中的8個(gè)指標(biāo),前6個(gè)是定量的,后2個(gè)是定性的。如果分得更細(xì)一些,指標(biāo)的類型有三種尺度間隔尺度。變量用連續(xù)的量來表示。有序尺度。指標(biāo)用有序的等級(jí)來表示,有次序關(guān)系,但沒有數(shù)量表示。名義尺度。指標(biāo)用一些類來表示,這些類之間沒有等級(jí)關(guān)系也沒有數(shù)量關(guān)系。不同類型的指標(biāo),在聚類分析中,處理的方式是大不一樣的??偟膩碚f,提供給間隔尺度的指標(biāo)的方法較多,對(duì)另兩種尺度的變量處理的方法不多。第七頁,共八十九頁。2023/2/148§3.1聚類分析的思想目錄上頁下頁返回結(jié)束“什么是類”?粗糙地講,相似樣品(或指標(biāo))的集合稱作類。

聚類分析給人們提供了豐富多采的方法進(jìn)行分類,這些方法大致可歸納為:(1)系統(tǒng)聚類法。(2)模糊聚類法。(3)K-均值法。(4)有序樣品的聚類。(5)分解法。(6)加入法。第八頁,共八十九頁。2023/2/149§3.2相似性度量目錄上頁下頁返回結(jié)束從一組復(fù)雜數(shù)據(jù)產(chǎn)生一個(gè)相當(dāng)簡(jiǎn)單的類結(jié)構(gòu),必然要求進(jìn)行“相關(guān)性”或“相似性“度量。在相似性度量的選擇中,常常包含許多主觀上的考慮,但是最重要的考慮是指標(biāo)(包括離散的、連續(xù)的和二態(tài)的)性質(zhì)或觀測(cè)的尺度(名義的、次序的、間隔的和比率的)以及有關(guān)的知識(shí)。當(dāng)對(duì)樣品進(jìn)行聚類時(shí),“靠近”往往由某種距離來刻畫。另一方面,當(dāng)對(duì)指標(biāo)聚類時(shí),根據(jù)相關(guān)系數(shù)或某種關(guān)聯(lián)性度量來聚類。

第九頁,共八十九頁。2023/2/1410§3.2相似性度量目錄上頁下頁返回結(jié)束第十頁,共八十九頁。2023/2/14中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心11§3.2相似性度量目錄上頁下頁返回結(jié)束第十一頁,共八十九頁。2023/2/1412§3.2相似性度量目錄上頁下頁返回結(jié)束第十二頁,共八十九頁。

*定義距離的準(zhǔn)則

定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件)第十三頁,共八十九頁。D=30cmH=10mD=15cmH=10mD=30cmH=12m第十四頁,共八十九頁。2023/2/1415目錄上頁下頁返回結(jié)束(1)當(dāng)各指標(biāo)的測(cè)量值相差懸殊時(shí),先對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離,即蘭氏距離。(2)一種改進(jìn)的距離就是在前面曾討論過的馬氏距離,它對(duì)一切線性變換是不變的,不受指標(biāo)量綱的影響。它對(duì)指標(biāo)的相關(guān)性也作了考慮,我們僅用一個(gè)例子來說明。

第十五頁,共八十九頁。蘭氏距離這是蘭思和維廉姆斯(Lance&Williams)所給定的一種距離,其計(jì)算公式為:

這是一個(gè)自身標(biāo)準(zhǔn)化的量,適用于一切x>0的情況。由于它對(duì)大的奇異值不敏感,這樣使得它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn),但它也沒有考慮指標(biāo)之間的相關(guān)性。第十六頁,共八十九頁。馬氏距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計(jì)算公式為:

分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測(cè)值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,表示觀測(cè)變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。第十七頁,共八十九頁。

馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測(cè)變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測(cè)變量之間的相關(guān)性,而且也考慮到了各個(gè)觀測(cè)指標(biāo)取值的差異程度。第十八頁,共八十九頁。2023/2/1419§3.2相似性度量目錄上頁下頁返回結(jié)束第十九頁,共八十九頁。2023/2/1420§3.2相似性度量目錄上頁下頁返回結(jié)束第二十頁,共八十九頁。2023/2/1421§3.2相似性度量目錄上頁下頁返回結(jié)束以上幾種距離均是適用于間隔尺度的變量,如果指標(biāo)是有序尺度或名義尺度時(shí)也有一些定義距離的方法。第二十一頁,共八十九頁。2023/2/1422§3.2相似性度量目錄上頁下頁返回結(jié)束定義距離的較靈活的思想方法?!纠?.3】歐洲各國(guó)的語言有許多相似之處,有的十分相似。為了研究這些語言的歷史關(guān)系,也許通過比較它們數(shù)字的表達(dá)比較恰當(dāng)。表3.3列舉了英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語的1,2,…,10的拼法,希望計(jì)算這11種語言之間的距離。第二十二頁,共八十九頁。2023/2/1423§3.2相似性度量目錄上頁下頁返回結(jié)束顯然,此例無法直接用上述公式來計(jì)算距離,仔細(xì)觀察表3.3,發(fā)現(xiàn)前三種文字(英、挪、丹)很相似,尤其每個(gè)單詞的第一個(gè)字母,于是產(chǎn)生一種定義距離的辦法:用兩種語言的10個(gè)數(shù)詞中的第一個(gè)字母不相同的個(gè)數(shù)來定義兩種語言之間的距離,例如英語和挪威語中只有1和8的第一個(gè)字母不同,故它們之間的距離為2。十一種語言之間兩兩的距離列于表3.4中。

第二十三頁,共八十九頁。2023/2/1424§3.2相似性度量目錄上頁下頁返回結(jié)束第二十四頁,共八十九頁。2023/2/1425§3.2相似性度量目錄上頁下頁返回結(jié)束對(duì)于間隔尺度,常用的相似系數(shù)有:(1)夾角余弦。這是受相似形的啟發(fā)而來,圖3.1中的曲線AB和CD盡管長(zhǎng)度不一,但形狀相似,當(dāng)長(zhǎng)度不是主要矛盾時(shí),應(yīng)定義一種相似系數(shù)使AB和CD呈現(xiàn)出比較密切的關(guān)系。而夾角余弦適合這一要求。第二十五頁,共八十九頁。2023/2/1426§3.2相似性度量目錄上頁下頁返回結(jié)束第二十六頁,共八十九頁。27§3.2相似性度量

(2)相關(guān)系數(shù)。這是大家最熟悉的統(tǒng)計(jì)量,它是將數(shù)據(jù)標(biāo)準(zhǔn)化后的夾角余弦。有時(shí)指標(biāo)之間也可用距離來描述它們的接近程度。實(shí)際上距離和相似系數(shù)之間可以互相轉(zhuǎn)化,第二十七頁,共八十九頁。2023/2/1428§3.3類和類的特征目錄上頁下頁返回結(jié)束目的是聚類,那么什么叫類呢?由于客觀事物的千差萬別,在不同的問題中類的含義是不盡相同的。給類下一個(gè)嚴(yán)格的定義,決非易事。下面給出類的適用于不同的場(chǎng)合幾個(gè)定義。第二十八頁,共八十九頁。2023/2/1429§3.3類和類的特征目錄上頁下頁返回結(jié)束第二十九頁,共八十九頁。2023/2/14中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心30§3.3類和類的特征目錄上頁下頁返回結(jié)束在聚類分析中,不僅要考慮各個(gè)類的特征,而且要計(jì)算類與類之間的距離。由于類的形狀是多種多樣的,所以類與類之間的距離也有多種計(jì)算方法。

第三十頁,共八十九頁。2023/2/1431§3.3類和類的特征目錄上頁下頁返回結(jié)束(1)最短距離法。(nearestneighbor或singlelinkagemethod)

第三十一頁,共八十九頁。2023/2/1432§3.3類和類的特征目錄上頁下頁返回結(jié)束(2)最長(zhǎng)距離法(farthestneighbor或completelinkagemethod)。第三十二頁,共八十九頁。2023/2/1433§3.3類和類的特征目錄上頁下頁返回結(jié)束(3)類平均法(groupaveragemethod)。

第三十三頁,共八十九頁。2023/2/1434§3.3類和類的特征目錄上頁下頁返回結(jié)束(4)重心法(Centroidmethod)。

(5)離差平方和法(SumofSquaresmethod)。

第三十四頁,共八十九頁。2,41,56,5紅綠(2,4,6,5)8.75離差平方和增加8.75-2.5=6.25黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=0第三十五頁,共八十九頁。2023/2/1436§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束系統(tǒng)聚類法(hierarchicalclusteringmethod)在聚類分析中諸方法中用的最多,包含下列步驟:

第三十六頁,共八十九頁。2023/2/1437§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束不同的距離定義方式用到系統(tǒng)聚類程序中,得到不同的系統(tǒng)聚類法。我們現(xiàn)在通過一個(gè)簡(jiǎn)單的最短例子,來說明各種系統(tǒng)聚類法。第三十七頁,共八十九頁。第三十八頁,共八十九頁。圖解上述聚類過程如下,此圖清楚說明了分組與分組發(fā)生時(shí)的距離水平。

第三十九頁,共八十九頁。

設(shè)抽取五個(gè)樣品,每個(gè)樣品只有一個(gè)變量,它們是1,2,3.5,7,9。用最短距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離矩陣:

0

10

2.51.50

653.50

875.520第四十頁,共八十九頁。然后和被聚為新類,得:

0

1.50

53.50

75.520第四十一頁,共八十九頁。03.505.520第四十二頁,共八十九頁。03.50第四十三頁,共八十九頁。各步聚類的結(jié)果:(1,2)(3)(4)(5)(1,2,3)(4)(5)(1,2,3)(4,5)(1,2,3,4,5)第四十四頁,共八十九頁。2023/2/1445§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束【例3.4】為了研究遼寧等5省份2000年城鎮(zhèn)居民消費(fèi)支出的分布規(guī)律,根據(jù)調(diào)查資料作類型劃分。指標(biāo)名稱及原始數(shù)據(jù)見表3.5。資料來源[10]

第四十五頁,共八十九頁。2023/2/1446§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束第四十六頁,共八十九頁。2023/2/1447§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.1最短距離法和最長(zhǎng)距離法所謂最短距離法就是類與類之間的距離采用(3.12)的系統(tǒng)聚類方法。

第四十七頁,共八十九頁。2023/2/1448§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束第四十八頁,共八十九頁。2023/2/1449§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束第四十九頁,共八十九頁。2023/2/1450§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束第五十頁,共八十九頁。2023/2/1451§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束第五十一頁,共八十九頁。2023/2/1452§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束所謂最長(zhǎng)距離法是類與類之間的距離采用(3.13)的系統(tǒng)聚類法。選擇最大的距離作為新類與其他類之間的距離,然后將類間距離最小的兩類進(jìn)行合并,一直合并到只有一類為止。上述兩方法中,主要的不同是計(jì)算新類與其他類的距離的遞推公式不同。第五十二頁,共八十九頁。2023/2/1453§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束最短距離法也可用于對(duì)指標(biāo)的分類,分類時(shí)可以用距離也可以用相似系數(shù)。但用相似系數(shù)時(shí)應(yīng)找最大的元素并類,計(jì)算新類與其他類的距離應(yīng)使用公式(3.19)。最短距離法的主要缺點(diǎn)是它有鏈接聚合的趨勢(shì),因?yàn)轭惻c類之間的距離為所有距離中的最短者,兩類合并以后,它與其他類的距離縮小了,這樣容易形成一個(gè)比較大的類,大部分樣品都被聚在一類中,在樹狀聚類圖中,會(huì)看到一個(gè)延伸的鏈狀結(jié)構(gòu),所以最短距離法的聚類效果并不好,實(shí)際中不提倡使用。第五十三頁,共八十九頁。2023/2/1454§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束最長(zhǎng)距離法克服了最短距離法鏈接聚合的缺陷,兩類合并以后與其他類的距離是原來兩個(gè)類中的距離最大者,加大了合并后的類與其他類的距離。本例中最短距離法與最長(zhǎng)距離法得到的結(jié)果是相同的。第五十四頁,共八十九頁。2、最長(zhǎng)距離法???x11?x21????第五十五頁,共八十九頁。

用最長(zhǎng)距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離矩陣:

0

10

2.51.50

653.50

875.520第五十六頁,共八十九頁。

然后和被聚為新類,得:

0

2.50

63.50

85.520第五十七頁,共八十九頁。第五十八頁,共八十九頁。2023/2/1459§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.2重心法和類平均法從物理的觀點(diǎn)看,一個(gè)類用它的重心(該類樣品的均值)做代表比較合理,類與類之間的距離就用重心之間的距離來代表。第五十九頁,共八十九頁。重心法雖有很好的代表性,但并未充分利用各樣本的信息第六十頁,共八十九頁。2023/2/1461§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束類平均法是聚類效果較好、應(yīng)用比較廣泛的一種聚類方法。它有兩種形式,一種是組間聯(lián)結(jié)法(Between-groupslinkage),另一種是組內(nèi)聯(lián)結(jié)法(Within-groupslinkage)。組間聯(lián)結(jié)法在計(jì)算距離時(shí)只考慮兩類之間樣品之間距離的平均,組內(nèi)聯(lián)結(jié)法在計(jì)算距離時(shí)把兩組所有個(gè)案之間的距離都考慮在內(nèi)。第六十一頁,共八十九頁。2023/2/1462§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束第六十二頁,共八十九頁。2023/2/1463§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.3離差平方和法(或稱Ward方法)離差平方和方法是由Ward提出來的,許多資料上稱做Ward法。他的思想是來于方差分析,如果類分得正確,同類樣品的離差平方和應(yīng)當(dāng)較小,類與類之間的離差平方和應(yīng)當(dāng)較大。

第六十三頁,共八十九頁。2023/2/1464§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束第六十四頁,共八十九頁。2023/2/1465§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束離差平方和法放棄了在一切分類中求的極小值的要求,而是設(shè)計(jì)出某種規(guī)格:找到一個(gè)局部最優(yōu)解,Ward法就是找局部最優(yōu)解的一個(gè)方法。其思想是先將n個(gè)樣品各自成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使增加最小的兩類合并,直到所有的樣品歸為一類為止。

第六十五頁,共八十九頁。2,41,56,5紅綠(2,4,6,5)8.75離差平方和增加8.75-2.5=6.25黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=0故按該方法的連接應(yīng)是黃紅首先連接。第六十六頁,共八十九頁。2023/2/1467§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.4分類數(shù)的確定如何選擇分類數(shù)是各種聚類方法中的主要問題之一。在K均值聚類法中聚類之前需要指定分類數(shù),譜系聚類法(系統(tǒng)聚類法)中我們最終得到的只是一個(gè)樹狀結(jié)構(gòu)圖,從圖中可以看出存在很多類,但問題是如何確定類的最佳個(gè)數(shù)。確定分類數(shù)的問題是聚類分析中迄今為止尚未完全解決的問題之一,主要的障礙是對(duì)類的結(jié)構(gòu)和內(nèi)容很難給出一個(gè)統(tǒng)一的定義,這樣就給不出從理論上和實(shí)踐中都可行的虛無假設(shè)。實(shí)際應(yīng)用中人們主要根據(jù)研究的目的,從實(shí)用的角度出發(fā),選擇合適的分類數(shù)。第六十七頁,共八十九頁。2023/2/1468§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束Demir-men曾提出了根據(jù)樹狀結(jié)構(gòu)圖來分類的準(zhǔn)則:準(zhǔn)則1:任何類都必須在鄰近各類中是突出的,即各類重心之間距離必須大。準(zhǔn)則2:各類所包含的元素都不要過分地多。準(zhǔn)則3:分類的數(shù)目應(yīng)該符合使用的目的。準(zhǔn)則4:若采用幾種不同的聚類方法處理,則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的類。第六十八頁,共八十九頁。2023/2/1469§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束由于上述的聚類方法得到的結(jié)果是不完全相同的。于是產(chǎn)生一個(gè)問題:我們應(yīng)當(dāng)選擇哪一個(gè)結(jié)果為好?為了解決這個(gè)問題,需要研究系統(tǒng)聚類法的性質(zhì),現(xiàn)簡(jiǎn)要介紹如下。

第六十九頁,共八十九頁。2023/2/1470§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束第七十頁,共八十九頁。2023/2/1471§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束K-均值法(快速聚類法)非譜系聚類法是把樣品(而不是變量)聚集成K個(gè)類的集合。類的個(gè)數(shù)K可以預(yù)先給定,或者在聚類過程中確定。非譜系方法可應(yīng)用于比系統(tǒng)聚類法大得多的數(shù)據(jù)組。非譜系聚類法或者一開始就對(duì)元素分組,或者從一個(gè)構(gòu)成各類核心的“種子”集合開始。選擇好的初始構(gòu)形,將能免除系統(tǒng)的偏差。一種方法是從所有項(xiàng)目中隨機(jī)地選擇“種子”點(diǎn)或者隨機(jī)地把元素分成若干個(gè)初始類。第七十一頁,共八十九頁。2023/2/1472§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束K-均值法,又叫快速聚類法,是Macqueen于1967年提出的,其思想是把每個(gè)樣品聚集到其最近形心(均值)類中去。在它的最簡(jiǎn)單說明中,這個(gè)過程由下列三步所組成:把樣品粗略分成K個(gè)初始類;進(jìn)行修改,逐個(gè)分派樣品到其最近均值的類中去(通常用標(biāo)準(zhǔn)化數(shù)據(jù)或非標(biāo)準(zhǔn)化數(shù)據(jù)計(jì)算歐氏距離)。重新計(jì)算接受新樣品的類和失去樣品的類的形心(均值);重復(fù)第2步,直到各類無元素進(jìn)出。第七十二頁,共八十九頁。基本思想:開始先初步分類,然后按照某種最優(yōu)的原則修改不合理的分類,直到類分的比較合理為止選凝聚點(diǎn)初始分類修改分類最終分類分類是否合理第七十三頁,共八十九頁。十二個(gè)產(chǎn)區(qū)相思樹種子發(fā)芽情況(見唐守正編著《多元統(tǒng)計(jì)分析方法》75頁)產(chǎn)區(qū)號(hào)123.

…12發(fā)芽率x10.7070.6000.693….0.777發(fā)芽勢(shì)x20.3850.4330.505….0.723第七十四頁,共八十九頁。初部分為m個(gè)類將樣本歸入最近的類計(jì)算重心作為新的m個(gè)凝聚點(diǎn)計(jì)算重心作為新的m個(gè)凝聚點(diǎn)直到m個(gè)凝聚點(diǎn)不再改變(即分類不變)初部分為2個(gè)類:5號(hào)樣本和7號(hào)樣本為凝聚點(diǎn)1,2,3,4,5,6,8,10,117,9,121,2,3,4,5,6,8,107,9,11,121,2,3,4,6,8,105,7,9,11,12第七十五頁,共八十九頁。2023/2/1476§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束3.7.1系統(tǒng)聚類法用SPSS軟件自帶的數(shù)據(jù)文件World95.sav來做一個(gè)實(shí)例分析。為了研究亞洲國(guó)家的經(jīng)濟(jì)發(fā)展水平和文化教育水平,以便于對(duì)亞洲國(guó)家進(jìn)行分類研究,這里我們進(jìn)行聚類分析(在World95.sav數(shù)據(jù)中篩選出亞洲國(guó)家,使用Data→SelectCases→Ifconditionissatisfied中選入region=3)。詳細(xì)步驟如下:(1)打開數(shù)據(jù)。使用菜單中File→Open命令,然后選中要分析的數(shù)據(jù)World95.sav。第七十六頁,共八十九頁。2023/2/1477§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束(2)在菜單中的選項(xiàng)中選擇Analyze→Classify命令,Classify命令下有兩個(gè)聚類分析命令,一是K-meanscluster(K--均值聚類),二是Hierarchicalcluster(系統(tǒng)聚類法)。這里我們選擇系統(tǒng)聚類法。(3)在系統(tǒng)聚類法中,我們看到Cluster下有兩個(gè)選項(xiàng),Cases(樣品聚類或Q型聚類)和Variables(變量聚類或R型聚類)。這里我們選擇對(duì)樣品進(jìn)行聚類。(4)Display下面有兩個(gè)選項(xiàng),分別是Statistics(統(tǒng)計(jì)量)、Plots(輸出圖形),我們可以選擇所需要輸出的統(tǒng)計(jì)量和圖形。

第七十七頁,共八十九頁。2023/2/1478§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束(5)在系統(tǒng)聚類法中底下有四個(gè)按紐,分別是Statistics、Plots、Method、Save。(a)在Statistics中,有Agglomerationschedule(每一階段聚類的結(jié)果),Proximitymatrix(樣品間的相似性矩陣)。由Clustermembership可以指定聚類的個(gè)數(shù),none選項(xiàng)不指定聚類個(gè)數(shù),Singlesolution指定一個(gè)確定類的個(gè)數(shù),Rangeofsolution指定類的個(gè)數(shù)的范圍(如從分3類到分5類)。(b)在Plots中,有Dendrogram(譜系聚類圖,也稱樹狀聚類圖)、Icicle(冰柱圖)、Orientation指冰柱圖的方向(Horizontal水平方向、Vertical垂直方向)。(c)在Method中,Cluster可以選擇聚類方法,Measure中可以選擇計(jì)算的距離。(d)在Save中,可以選擇保存聚類結(jié)果。選好每個(gè)選項(xiàng)后,點(diǎn)“OK”就可以執(zhí)行了。第七十八頁,共八十九頁。2023/2/1479§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束在這個(gè)數(shù)據(jù)文件中,我們選擇的變量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國(guó)內(nèi)生產(chǎn)總值),以Country(國(guó)家或地區(qū))來標(biāo)識(shí)(LabelCases)本例中的17個(gè)亞洲國(guó)家或地區(qū),并以其他5個(gè)變量進(jìn)行Q型聚類分析,即對(duì)國(guó)家進(jìn)行聚類。這里我們將原始變量標(biāo)準(zhǔn)化(在Method選項(xiàng)下TransformValues的Standardize空白框內(nèi),選擇ZScores),在Statistics選項(xiàng)中選擇AgglomerationSchedule,聚類方法選擇組內(nèi)聯(lián)結(jié)法(Within-grouplinkage),計(jì)算距離選擇平方歐氏距離,輸出冰柱圖和樹狀聚類圖。得到的結(jié)果如下:第七十九頁,共八十九頁。2023/2/1480§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束第八十頁,共八十九頁。2023/2/1481§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束第八十一頁,共八十九頁。2023/2/1482§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束將表3-8的聚合系數(shù)利用Excel作出聚合系數(shù)隨分類數(shù)變化曲線,如圖3-13.

第八十二頁,共八十九頁。2023/2/1483§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束第八十三頁,共八十九頁。2023/2/1484§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束輸出結(jié)果中,表3.9表示接近度矩陣,是反映樣品之間相似性或者相異性的矩陣。本例中由于計(jì)算距離使用的是平方歐氏距離,所以樣品間距離越大,樣品越相異,如果我們計(jì)算距離選擇Pearson相關(guān)系數(shù),則接近度矩陣是相似性矩陣。由表中矩陣可以看出,Bangladesh(孟加拉國(guó))與Cambodia(柬埔寨)的距離是最小的,因此它們最先聚為一類。圖3.9是冰柱圖,也是反映樣品聚類情況的圖,如果按照設(shè)定的類數(shù),在那類數(shù)的行上從左到右就可以找到各類所包含的樣品。比如我們希望分為三類,最左邊的類數(shù)應(yīng)選3,每個(gè)樣品右邊都有一列X,如果某個(gè)樣品右邊的X個(gè)數(shù)少于3,那么它和前面多于3個(gè)X的樣品聚為一類,如此下去,直到找到全部三類為止。例如,HongKong右邊的列只有兩個(gè)X,那么它就與Japan和Singapore聚為一類了,而China右邊的列只有一個(gè)X,那么從Taiwan到China又被聚為一類,后面樣品聚為另一類。

第八十四頁,共八十九頁。2023/2/1485§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論