聚類分析課件_第1頁
聚類分析課件_第2頁
聚類分析課件_第3頁
聚類分析課件_第4頁
聚類分析課件_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類分析1

例對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§1什么是聚類分析2例16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量3聚類分析是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來進(jìn)行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的?;舅枷胧歉鶕?jù)事物本身的特性研究個(gè)體分類的方法;聚類原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異較大。4基本程序:根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間距離或相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。具體進(jìn)行聚類時(shí),由于目的、要求不同,因而產(chǎn)生各種不同的聚類方法:(1)由小類合并到大類的方法(2)由大類分解為小類的方法(3)靜態(tài)聚類法、動(dòng)態(tài)聚類法(4)按樣本聚類(Q)、按指標(biāo)聚類(R)5

思考:

1、樣本點(diǎn)之間按什么刻畫距離或相似程度

2、樣本點(diǎn)和類之間按什么刻畫距離或相似程度

3、類與類之間按什么來刻畫距離或相似程度6一、數(shù)據(jù)的變換處理所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。

1、中心化變換中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再?gòu)脑紨?shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測(cè)數(shù)據(jù)矩陣為:§2相似系數(shù)和距離7中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。8

2、極差規(guī)格化變換規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:9經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。3、標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換也是對(duì)變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對(duì)每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:10經(jīng)過標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的(n-1)倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。

4.對(duì)數(shù)變換對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù),將原始數(shù)據(jù)的對(duì)數(shù)值作為變換后的新值。即:

11

二、樣品間親疏程度的測(cè)度研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。12變量之間的聚類即R型聚類分析,常用相似系數(shù)來測(cè)度變量之間的親疏程度。而樣品之間的聚類即Q型聚類分析,則常用距離來測(cè)度樣品之間的親疏程度。

13

1、定義距離的準(zhǔn)則

定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件)14把n個(gè)樣本點(diǎn)看成p維空間的n個(gè)點(diǎn)(1)絕對(duì)距離(Block距離)(2)歐氏距離(Euclideandistance)2、常用距離的算法15(3)閔可夫斯基距離(Minkowski)(4)蘭氏距離(5)馬氏距離(6)切比雪夫距離(Chebychev)16

(3)閔可夫斯基距離主要有以下兩個(gè)缺點(diǎn):

①閔氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說清,而且,任何一個(gè)變量計(jì)量單位的改變都會(huì)使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。

②閔氏距離的定義沒有考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,閔可夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡(jiǎn)單地進(jìn)行了綜合。17

(5)馬氏距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計(jì)算公式為:分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測(cè)值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,

表示觀測(cè)變量之間的協(xié)方差矩陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣

未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。18馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測(cè)變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測(cè)變量之間的相關(guān)性,而且也考慮到了各個(gè)觀測(cè)指標(biāo)取值的差異程度,為了對(duì)馬氏距離和歐氏距離進(jìn)行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系,現(xiàn)考慮一個(gè)例子。19例如,假設(shè)有一個(gè)二維正態(tài)總體,它的分布為:

203、相似系數(shù)的算法(1)相似系數(shù)設(shè)和是第和個(gè)樣品的觀測(cè)值,則二者之間的相似測(cè)度為:其中21(2)夾角余弦夾角余弦時(shí)從向量集合的角度所定義的一種測(cè)度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量

22

4、距離和相似系數(shù)選擇的原則一般說來,同一批數(shù)據(jù)采用不同的親疏測(cè)度指標(biāo),會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的親疏測(cè)度指標(biāo)所衡量的親疏程度的實(shí)際意義不同,也就是說,不同的親疏測(cè)度指標(biāo)代表了不同意義上的親疏程度。因此我們?cè)谶M(jìn)行聚類分析時(shí),應(yīng)注意親疏測(cè)度指標(biāo)的選擇。通常,選擇親疏測(cè)度指標(biāo)時(shí),應(yīng)注意遵循的基本原則主要有:

23

(1)所選擇的親疏測(cè)度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。如在經(jīng)濟(jì)變量分析中,常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的親疏程度。24

(2)親疏測(cè)度指標(biāo)的選擇要綜合考慮已對(duì)樣本觀測(cè)數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法。如在標(biāo)準(zhǔn)化變換之下,夾角余弦實(shí)際上就是相關(guān)系數(shù);又如若在進(jìn)行聚類分析之前已經(jīng)對(duì)變量的相關(guān)性作了處理,則通常就可采用歐氏距離,而不必選用斜交空間距離。此外,所選擇的親疏測(cè)度指標(biāo),還須和所選用的聚類分析方法一致。如聚類方法若選用離差平方和法,則距離只能選用歐氏距離。25

(3)適當(dāng)?shù)乜紤]計(jì)算工作量的大小。實(shí)踐中,在開始進(jìn)行聚類分析時(shí),不妨試探性地多選擇幾個(gè)親疏測(cè)度指標(biāo),分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定出合適的親疏測(cè)度指標(biāo)。

26三、樣本點(diǎn)與類、類與類之間的度量最短距離(NearestNeighbor)x21?x12?x22?x11?27最長(zhǎng)距離(FurthestNeighbor

)???x11?x21????28??????組間平均連接(Between-groupLinkage)29組內(nèi)平均連接法(Within-groupLinkage)x21?x12?x22?x11?30重心法(Centroidclustering):均值點(diǎn)的距離??31離差平方和法連接2,41,56,532紅綠(2,4,6,5)8.75

離差平方和增加8.75-2.5=6.25

黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=0故按該方法黃紅距離最近。33系統(tǒng)聚類法(層次聚類法):在聚類分析的開始,每個(gè)樣本自成一類;然后,按照某種方法度量所有樣本之間的親疏程度,并把最相似(近)的樣本首先聚成一小類;接下來,度量剩余的樣本和小類間的親疏程度,并將當(dāng)前最接近的樣本或小類再聚成一類;再接下來,再度量剩余的樣本和小類間的親疏程度,并將當(dāng)前最接近的樣本或小類再聚成一類;如此反復(fù),直到所有樣本聚成一類為止。越是后來合并的類,距離就越遠(yuǎn)?!?系統(tǒng)聚類方法34

1、根據(jù)樣品的特征,規(guī)定樣品之間的距離,共有個(gè)。將所有列表,記為D(0)表,該表是一張對(duì)稱表。所有的樣本點(diǎn)各自為一類。

2、選擇D(0)表中最小的非零數(shù),不妨假設(shè),于是將和合并為一類,記為。(一)方法開始各樣本點(diǎn)自成一類。35

3、利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的結(jié)果,產(chǎn)生D(1)表。36

4、在D(1)表再選擇最小的非零數(shù),其對(duì)應(yīng)的兩類有構(gòu)成新類,再利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(1)表的相應(yīng)的行和列,并新增一行和一列添上的新類和舊類之間的距離。結(jié)果,產(chǎn)生D(2)表。類推直至所有的樣本點(diǎn)歸為一類為止。37(二)常用的種類

1、最短距離法設(shè)抽取五個(gè)樣品,每個(gè)樣品只有一個(gè)變量,它們是1,2,3.5,7,9。用最短距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離矩陣:

0

10

2.51.50

653.50

875.52038然后和被聚為新類,得:

0

1.50

53.50

75.5203903.505.5204003.5041各步聚類的結(jié)果:(1,2)(3)(4)(5)(1,2,3)(4)(5)(1,2,3)(4,5)(1,2,3,4,5)42

最短距離法的遞推公式

假設(shè)第p類和第q類合并成第r類,第r類與其它各舊類的距離按最短距離法為:43

2、最長(zhǎng)距離法用最長(zhǎng)距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離矩陣:

0

10

2.51.50

653.50

875.52044然后和被聚為新類,得:

0

2.50

63.50

85.52045

最長(zhǎng)距離法的遞推公式

假設(shè)第p類和第q類合并成第類,第r類與其它各舊類的距離按最長(zhǎng)距離法為:463、中間距離法最長(zhǎng)距離最短距離中間距離47中間距離法的遞推公式另外還有類平均法、離差平方和法、重心法等48(三)確定類的個(gè)數(shù)

在聚類分析過程中類的個(gè)數(shù)如何來確定才合適呢?這是一個(gè)十分困難的問題,人們至今仍未找到令人滿意的方法。但是這個(gè)問題又是不可回避的。下面我們介紹幾種方法。

1、給定閾值——通過觀測(cè)聚類圖,給出一個(gè)合適的閾值T。要求類與類之間的距離不要超過T值。例如我們給定T=0.35,當(dāng)聚類時(shí),類間的距離已經(jīng)超過了0.35,則聚類結(jié)束。49總離差平方和的分解2、離差平方和分解法50如果這些樣品被分成兩類51可以證明:總離差平方和=組內(nèi)離差平方和+組間離差平方和構(gòu)造統(tǒng)計(jì)量其中T是數(shù)據(jù)的總離差平方和,是組內(nèi)離差平方和。比較大,說明分G個(gè)類時(shí)類內(nèi)的離差平方和比較小,也就是說分G類是合適的。但是,分類越多,每個(gè)類的類內(nèi)的離差平方和就越小,也就越大;所以我們只能取合適的G,使得足夠大,而G本身很小,隨著G的增加,的增幅不大。比如,假定分4類時(shí),=0.8;下一次合并分三類時(shí),下降了許多,=0.32,則分4類是合適的。52

3、偽F統(tǒng)計(jì)量的定義為

偽F統(tǒng)計(jì)量用于評(píng)價(jià)聚為G類的效果。如果聚類的效果好,類間的離差平方和相對(duì)于類內(nèi)的離差平方和大,所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。

53PseudoFStatistic0102030405060708090100110120NumberofClusters1234567891011121314151617181954

(四)主要步驟1、對(duì)數(shù)據(jù)進(jìn)行變換處理,消除量綱2、構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣本計(jì)算3、n個(gè)樣本兩兩間的距離{dij}4、合并距離最近的兩類為一新類5、計(jì)算新類與當(dāng)前各類的距離,重復(fù)(4)6、畫聚類圖7、決定類的個(gè)數(shù)和類55聚類結(jié)果的解釋和證實(shí)

對(duì)聚類結(jié)果進(jìn)行解釋是希望對(duì)各個(gè)類的特征進(jìn)行準(zhǔn)確的描述,給每類起一個(gè)合適的名稱。這一步可以借助各種描述性統(tǒng)計(jì)量進(jìn)行分析,通常的做法是計(jì)算各類在各聚類變量上的均值,對(duì)均值進(jìn)行比較,還可以解釋各類差別的原因。56如果是變量聚類分析,聚類分析做完之后,各類中仍有較多的指標(biāo)。也就是說聚類分析并沒有達(dá)到降維的目的。這就需要在每類中選出一個(gè)代表指標(biāo),具體做法是:假設(shè)某類中有個(gè)指標(biāo),首先分別計(jì)算類內(nèi)指標(biāo)之間的相關(guān)指數(shù),然后計(jì)算某個(gè)指標(biāo)與類內(nèi)其他指標(biāo)之間相關(guān)指數(shù)的平均數(shù),即

取最大的,做為該類的代表。57省份x1x2x3x4x5x6x7x8遼寧浙江河南甘肅青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042.751.551.821.9613.2914.879.7611.3510.81例1:為了研究遼寧等5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類型劃分58G1={遼寧},G2={浙江},G3={河南},G4={甘肅},G5={青海}=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.21

12345D1=10211.670313.8024.630413.1224.062.200512.8023.543.512.210河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G3,G4}59d61=d(3,4)1=min{d13,d14}=13.12d62=d(3,4)2=min{d23,d24}=24.06d65=d(3,4)5=min{d35,d45}=2.21612560D2=113.120224.0611.67052.2112.8023.540d71=d(3,4,5)1=min{d13,d14,d15}=12.80d72=d(3,4,5)2=min{d23,d24,d25}=23.54

712D3=70112.800223.5411.670河南、甘肅與青海并為一新類G7={G6,G5}={G3,G4,G6}G8={G1,G2}60d78=min{d71,d72}=12.8078D4=70812.80河南3甘肅4青海5遼寧1浙江261例2

某公司下屬30個(gè)企業(yè),公司為了考核下屬企業(yè)的經(jīng)濟(jì)效益,設(shè)計(jì)了8個(gè)指標(biāo)。為了避免重復(fù),需要對(duì)這8個(gè)指標(biāo)進(jìn)行篩選,建立一個(gè)恰當(dāng)?shù)慕?jīng)濟(jì)效益指標(biāo)體系。通過計(jì)算30個(gè)企業(yè)8個(gè)指標(biāo)的相關(guān)系數(shù)距離。得如下表:

x1x2

x3

x4x5

x6

x7

x8

x10

0.600

0.430.460

0.470.450.120

0.570.450.230.220

0.380.400.210.290.220

0.310.790.650.700.800.660

0.450.450.270.230.140.190.770試將它們聚類。x2

x3x4x5

x6

x7

x86263根據(jù)美國(guó)等20個(gè)國(guó)家和地區(qū)的信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r進(jìn)行分類。Call—每千人擁有的電話線數(shù);movel—每千人戶居民擁有的蜂窩移動(dòng)電話數(shù);fee—高峰時(shí)期每三分鐘國(guó)際電話的成本;comp—每千人擁有的計(jì)算機(jī)數(shù);mips—每千人計(jì)算機(jī)功率(每秒百萬指令);

net—每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù)。

64

國(guó)家callmovel

fee

comp

mips

netmeiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.916566§4動(dòng)態(tài)聚類(K-均值聚類)

一、思想

系統(tǒng)聚類法是一種比較成功的聚類方法。然而當(dāng)樣本點(diǎn)數(shù)量十分龐大時(shí),則是一件非常繁重的工作,且聚類的計(jì)算速度也比較慢。比如在市場(chǎng)抽樣調(diào)查中,有4萬人就其對(duì)衣著的偏好作了回答,希望能迅速將他們分為幾類。這時(shí),采用系統(tǒng)聚類法就很困難,而動(dòng)態(tài)聚類法就會(huì)顯得方便,適用。

動(dòng)態(tài)聚類解決的問題是:假如有多個(gè)樣本點(diǎn),要把它們分為小類,使得每一類內(nèi)的元素都是聚合的,并且類與類之間還能很好地區(qū)別開。動(dòng)態(tài)聚類適用于大型數(shù)據(jù)。67用一個(gè)簡(jiǎn)單的例子來說明動(dòng)態(tài)聚類法的工作過程。例如我們要把下頁圖中的點(diǎn)分成兩類。快速聚類的步驟:

1、隨機(jī)選取兩個(gè)點(diǎn)和作為聚核。

2、對(duì)于任何點(diǎn),分別計(jì)算

3、若,則將劃為第一類,否則劃給第二類。于是得圖(c)的兩個(gè)類。

4、分別計(jì)算兩個(gè)類的重心,則得和,以其為新的聚核,對(duì)空間中的點(diǎn)進(jìn)行重新分類,得到新分類。68(a)空間的群點(diǎn)(b)任取兩個(gè)聚核

(c)第一次分類(d)求各類中心69

(e)第二次分類70二、聚類方法系統(tǒng)聚類可以不事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求事先說好要分多少類??雌饋碛行┲饔^!假定要分3類,這個(gè)方法還進(jìn)一步要求事先確定3個(gè)點(diǎn)為“聚類種子”(凝聚點(diǎn))(SPSS軟件自動(dòng)選種子);也就是說,把這3個(gè)點(diǎn)作為三類中每一類的基石。71然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認(rèn)真,它們很可能最后還會(huì)分到同一類中。72動(dòng)態(tài)(快速)聚類步驟1、選擇分析變量2、指定聚類數(shù)目3、選擇k個(gè)樣本作為凝聚點(diǎn)4、按照距初始類中心最小的原則將各觀察量分到聚類中心所在的類中去,形成第一步迭代的k類5、計(jì)算每類中所有變量的均值,作為第二次迭代的中心6、重復(fù)4、5步,直至指定的迭代次數(shù)或達(dá)到終止的條件73選擇凝聚點(diǎn)分類修改分類分類是否合理分類結(jié)束YesNo74例3

我國(guó)經(jīng)濟(jì)發(fā)展的總目標(biāo)是到2000年人民生活達(dá)到小康標(biāo)準(zhǔn),因此,了解各地區(qū)目前對(duì)小康生活質(zhì)量的實(shí)現(xiàn)程度。對(duì)各地區(qū)實(shí)現(xiàn)小康生活質(zhì)量的狀況進(jìn)行綜合評(píng)價(jià),對(duì)各級(jí)政府部門具有重要意義。數(shù)據(jù)是1990年全國(guó)30個(gè)省在經(jīng)濟(jì)(jj)、教育(jy)、健康(jk)和居住環(huán)境(jz)四個(gè)方面對(duì)小康標(biāo)準(zhǔn)已經(jīng)實(shí)現(xiàn)的程度,1表示已經(jīng)達(dá)到或超過小康水平,0表示低于或多或少剛達(dá)到溫飽水平。希望利用該數(shù)據(jù)對(duì)15個(gè)地區(qū)進(jìn)行分類研究。75

jjjyjkjz類別距離beijng0.72580.94131.00000.500010.29550shanghai0.53460.98481.00000.500010.14909

ianjin0.32460.97331.00000.500010.16173henna0.23010.46211.00001.000020.22252

ejiang0.50250.23741.00000.888220.34448

jilin0.34460.77550.8280

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論