![聚類分析 第二講_第1頁(yè)](http://file4.renrendoc.com/view10/M00/07/2E/wKhkGWVyQ9SACVikAAD9-r9UoVU784.jpg)
![聚類分析 第二講_第2頁(yè)](http://file4.renrendoc.com/view10/M00/07/2E/wKhkGWVyQ9SACVikAAD9-r9UoVU7842.jpg)
![聚類分析 第二講_第3頁(yè)](http://file4.renrendoc.com/view10/M00/07/2E/wKhkGWVyQ9SACVikAAD9-r9UoVU7843.jpg)
![聚類分析 第二講_第4頁(yè)](http://file4.renrendoc.com/view10/M00/07/2E/wKhkGWVyQ9SACVikAAD9-r9UoVU7844.jpg)
![聚類分析 第二講_第5頁(yè)](http://file4.renrendoc.com/view10/M00/07/2E/wKhkGWVyQ9SACVikAAD9-r9UoVU7845.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第六章聚類分析聚類分析是定量研究分類問題的一種多元統(tǒng)計(jì)方法。所謂類,就是指相似元素的集合聚類分析的研究目的
把相似的東西歸成類,根據(jù)相似的程度將研究目標(biāo)進(jìn)行分類?!?什么是聚類分析ClusterAnalysis系統(tǒng)聚類的思想產(chǎn)品質(zhì)量分類
1從21個(gè)工廠各抽一件同類產(chǎn)品,每件產(chǎn)品測(cè)量?jī)蓚€(gè)質(zhì)量指標(biāo),記為x1與x2,現(xiàn)要求將各廠的產(chǎn)品按質(zhì)量情況進(jìn)行分類2將每個(gè)工廠產(chǎn)品的兩個(gè)指標(biāo)看成平面上的一個(gè)點(diǎn),并在坐標(biāo)平面上將21個(gè)點(diǎn)畫出來?;舅枷耄褐鸩綄⒕嚯x近的類合并在一起根據(jù)產(chǎn)品質(zhì)量分類系統(tǒng)聚類法的基本思路
基本思想:逐步將距離近的類合并在一起。先將所有n個(gè)樣品看成不同的n類,然后將性質(zhì)最接近(距離最近)的兩類合并為一類;再?gòu)倪@n-1類中找到最接近的兩類加以合并,依次類推,直到所有的樣品被合為一類。系統(tǒng)聚類法的具體步驟先將n個(gè)樣品各自看成一類,即有n個(gè)類,(此時(shí)的類間距離為樣品間距離),選擇距離最小的合并成一個(gè)新類;定義新類與新類之間的距離,然后再將距離最小的合并;每合并一次,至少減少一類;直到所有的樣品都并成一類為止。聚類分析的研究對(duì)象R型分析----對(duì)變量進(jìn)行分類(相似系數(shù))Q型分析----對(duì)樣品進(jìn)行分類(距離)聚類分析研究的主要內(nèi)容如何度量事物之間的相似性?怎樣構(gòu)造聚類的具體方法以達(dá)到分類的目的?
分類統(tǒng)計(jì)量數(shù)據(jù)分類(計(jì)量尺度):分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)一.數(shù)據(jù)資料矩陣的標(biāo)準(zhǔn)化處理變量分類間隔尺度變量有序尺度變量名義尺度變量本章重點(diǎn)介紹間隔尺度變量的聚類分析方法m個(gè)指標(biāo)X1,X2,X3,…,Xm,數(shù)據(jù)資料矩陣為X1,…,Xmm個(gè)指標(biāo)n次觀測(cè)距離和數(shù)量次序§2距離和相似系數(shù)
例對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X、Y和Z分別表示數(shù)學(xué)推理能力、空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424我們的問題是如何來選擇樣品間相似性的測(cè)度指標(biāo),如何將相似的類連接起來?一、相似性的測(cè)度
距離:將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。相似系數(shù):測(cè)度變量之間的親疏程度距離是用來描述樣品間親疏程度的分類統(tǒng)計(jì)量.二.距離和相似系數(shù)1.距離:此處我們將每個(gè)樣品看成是m維空間中的一個(gè)點(diǎn),并在空間中定義距離。根據(jù)樣本間距離的遠(yuǎn)近將樣本進(jìn)行劃分。聚類分析中常用的距離公式:1)閔氏(Minkowski)距離q=1時(shí),絕對(duì)值距離q=2時(shí),歐氏(Euclidean)距離閔氏距離適用于一般p維歐氏空間。缺點(diǎn)是沒有考慮變量之間的相關(guān)性。距離是用來描述樣品間親疏程度的分類統(tǒng)計(jì)量.二維空間歐式距離2)馬氏(Mahalanobis)距離s=(sij)分別為第i號(hào)樣品和第j號(hào)樣品各指標(biāo)的均值
馬氏距離適用于衡量來自正態(tài)總體的樣品點(diǎn)之間接近程度的距離;優(yōu)點(diǎn):馬氏距離既排除了各指標(biāo)間的相關(guān)性干擾,又消除了各指標(biāo)的量綱.1)Pearson相關(guān)系數(shù)兩個(gè)變量相似系數(shù)的絕對(duì)值越接近于1,說明這兩個(gè)變量的關(guān)系越密切,性質(zhì)越接近。相似系數(shù)絕對(duì)值大的變量歸為一類,相似系數(shù)絕對(duì)值小的變量歸屬于不同的類。2.相似系數(shù)相似系數(shù)是用來描述指標(biāo)間親疏程度的分類統(tǒng)計(jì)量。正好是這兩個(gè)向量的夾角余弦。若夾角余弦越大,則夾角越小,則兩個(gè)變量越相似。相關(guān)系數(shù)實(shí)際上是對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化處理后的夾角余弦。2)夾角余弦若將第i個(gè)變量的n個(gè)觀測(cè)值(x1i,x2i,…,xni)T和第j個(gè)變量的n個(gè)觀測(cè)值(x1j,x2j,…,xnj)T看成n維空間中的兩個(gè)向量,則CBAθ’θ
1.用距離作為親疏程度的度量值時(shí),距離越小,樣品之間的關(guān)聯(lián)性越大;用相似系數(shù)作為親疏程度的度量值時(shí),相似系數(shù)的絕對(duì)值越大,意味著指標(biāo)之間的關(guān)聯(lián)性越大。2.有時(shí)樣品之間也可以用相似系數(shù)來描述它們的親疏程度,變量之間也可以用距離來描述它們的親疏程度。3.聚類分析時(shí)到底選擇哪一種分類統(tǒng)計(jì)量,有時(shí)并無最優(yōu)或唯一選擇,通常也可嘗試性地多選擇幾個(gè)不同的度量值進(jìn)行聚類,通過比較分析確定。幾點(diǎn)說明:123452018104471055325.236.328.911.517歐氏距離切比雪夫距離閔氏距離有以下兩個(gè)缺點(diǎn):①閔氏距離的數(shù)值與指標(biāo)的量綱有關(guān)。當(dāng)各變量的測(cè)量值相差懸殊時(shí),常發(fā)生“大數(shù)吃小數(shù)”的現(xiàn)象,為消除量綱的影響,通常先將每個(gè)變量進(jìn)行標(biāo)準(zhǔn)化。②閔氏距離的定義沒有考慮各個(gè)變量之間相關(guān)性的影響。年齡收入家庭人口數(shù)甲3030001乙4032003(2)標(biāo)準(zhǔn)化的歐氏距離設(shè)原始數(shù)據(jù)為
(3)馬氏距離由印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(Mahalanobis)所定義的一種距離,其計(jì)算公式為:
=馬氏距離又稱為廣義歐氏距離。馬氏距離考慮了觀測(cè)變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,此時(shí)馬氏距離就是標(biāo)準(zhǔn)化的歐氏距離。馬氏距離不受指標(biāo)量綱及指標(biāo)間相關(guān)性的影響
二、變量間相似系數(shù)的算法變量和的相關(guān)系數(shù):
(2)夾角余弦(1)相關(guān)系數(shù)系統(tǒng)聚類法直觀,易懂??焖倬垲惙ǎ▌?dòng)態(tài)聚類法)快速,動(dòng)態(tài)。有序聚類法保序(時(shí)間順序或大小順序)。各種聚類方法§3
系統(tǒng)聚類法系統(tǒng)聚類法的基本思想
先將n個(gè)樣品各自看成一類,然后規(guī)定樣品之間的“距離”和類與類之間的距離。選擇距離最近的兩類合并成一個(gè)新類,計(jì)算新類和其它類(各當(dāng)前類)的距離,再將距離最近的兩類合并。這樣,每次合并減少一類,直至所有的樣品都?xì)w成一類為止。系統(tǒng)聚類法的基本步驟:1.
計(jì)算n個(gè)樣品兩兩間的距離,記作D=。2.
構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣品。3.
合并距離最近的兩類為一新類。4.
計(jì)算新類與各當(dāng)前類的距離。5.
重復(fù)步驟3、4,合并距離最近的兩類為新類,直到所有的類并為一類為止。6.
畫聚類譜系圖。7.
決定類的個(gè)數(shù)和類。
最短距離法最長(zhǎng)距離法中間距離法重心法類平均法
離差平方和法(Ward法)系統(tǒng)聚類方法:
上述6種方法歸類的基本步驟一致,只是類與類之間的距離有不同的定義。定義類p與q之間的距離為兩類最近樣品的距離,即xq1?xp2?xq2?xp1?xq3?一、最短距離法設(shè)類p與q合并成一個(gè)新類,記為k,則k與任一類r的距離是pqkr例
最短距離法
設(shè)抽取5個(gè)樣品,每個(gè)樣品觀察2個(gè)指標(biāo),:您每月大約喝多少瓶啤酒,:您對(duì)“飲酒是人生的快樂”這句話的看法如何?觀察數(shù)據(jù)如下,對(duì)這5個(gè)樣品分類。1234520181044710553
②③④⑤①②③④3.610.216.1216.499.4314.8715.6566.32
2計(jì)算5個(gè)樣品兩兩之間的距離記為距離矩陣(采用歐氏距離),2.合并距離最小的兩類為新類,按順序定為第6類。⑥=3、計(jì)算新類⑥與各當(dāng)前類的距離,得距離矩陣如下:②③⑥①②③
3.6
10.216.129.4314.876為最小,⑦=⑥⑦③⑥
6
9.4314.874、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止。
為最小,⑧=5、6、按聚類的過程畫聚類譜系圖45⑥⑨⑧并類距離312⑦7、決定類的個(gè)數(shù)與類。
觀察此圖,我們可以把5個(gè)樣品分為3類,、、。???x11?x21????二、最長(zhǎng)距離法定義類p與q之間的距離為兩類最遠(yuǎn)樣品的距離,即設(shè)類p與q合并成一個(gè)新類,記為k,則k與任一類r的距離是pqkr
②③④⑤①②③④3.610.216.1216.499.4314.8715.6566.32
2計(jì)算5個(gè)樣品兩兩之間的距離記為距離矩陣(采用歐氏距離),2.合并距離最小的兩類為新類,按順序定為第6類。⑥=例最長(zhǎng)距離法
3、計(jì)算新類⑥與各當(dāng)前類的距離,得距離矩陣如下:②③⑥①②③
3.6
10.216.499.4315.656.32為最小,⑦=⑥⑦③⑥6.32
10.216.494、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止。
為最小,⑧=5、6、按聚類的過程畫聚類譜系圖45⑥⑨⑧并類距離312⑦7、決定類的個(gè)數(shù)與類。
觀察此圖,我們可以把5個(gè)樣品分為3類,、、。三、中間距離法定義類與類之間的距離既不采用兩類之間最近的距離,也不采用兩類之間最遠(yuǎn)的距離,而是采用介于兩者之間的距離,故稱為中間距離法。???rpqk
②③④⑤①②③④13104260272892212453640
4計(jì)算5個(gè)樣品兩兩之間的距離記為距離矩陣(采用歐氏距離),2.合并距離最小的兩類為新類,按順序定為第6類。⑥=例中間距離法
3、計(jì)算新類⑥與各當(dāng)前類的距離,得距離矩陣如下:②③⑥①②③
13
1042658923237為最小,⑦=⑥⑦③⑥
37
93.25245.254、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止。
為最小,⑧=5、6、按聚類的過程畫聚類譜系圖45⑥⑨⑧并類距離312⑦7、決定類的個(gè)數(shù)與類。
觀察此圖,我們可以把5個(gè)樣品分為3類,、、。四、重心法(Centroid)??和類與類之間的距離就考慮用重心之間的距離表示。設(shè)p與q的重心分別是,則類p和q的距離為將p和q合并為k,則k類的樣品個(gè)數(shù)為它的重心是某一類r的重心是,它與新類k的距離是經(jīng)推導(dǎo)可以得到如下遞推公式:設(shè)聚類到某一步,類p與q分別有樣品
、個(gè),
②③④⑤①②③④13104260272892212453640
4計(jì)算5個(gè)樣品兩兩之間的距離記為距離矩陣(采用歐氏距離),2.合并距離最小的兩類為新類,按順序定為第6類。⑥=3、計(jì)算新類⑥與各當(dāng)前類的距離,得距離矩陣如下:②③⑥①②③
13
1042658923237為最小,⑦=⑥⑦③⑥
37
93.25245.254、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止。
為最小,⑧=5、6、按聚類的過程畫聚類譜系圖45⑥⑨⑧并類距離312⑦7、決定類的個(gè)數(shù)與類。
觀察此圖,我們可以把5個(gè)樣品分為3類,、、。五、類平均法(Average)定義兩類之間的距離平方為這兩類元素兩兩之間距離平方的平均?????pq將p和q合并為k,則k類的樣品個(gè)數(shù)為設(shè)聚類到某一步,類p與q分別有樣品、個(gè),k類與任一類r的距離為
②③④⑤①②③④13104260272892212453640
4計(jì)算5個(gè)樣品兩兩之間的距離記為距離矩陣(采用歐氏距離),2.合并距離最小的兩類為新類,按順序定為第6類。⑥=例類平均法
3、計(jì)算新類⑥與各當(dāng)前類的距離,得距離矩陣如下:②③⑥①②③
13
1042668923338為最小,⑦=⑥⑦③⑥
38
96.5249.54、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止。
為最小,⑧=5、6、按聚類的過程畫聚類譜系圖45⑥⑨⑧并類距離312⑦7、決定類的個(gè)數(shù)與類。
觀察此圖,我們可以把5個(gè)樣品分為3類,、、。六、差平方和法(Ward法)
反映樣品之間的差異程度設(shè)變量X的n個(gè)樣品觀察值為:n個(gè)樣品的離差平方和為:???????????q?????????????pk設(shè)類p和q分別含有np、nq個(gè)樣品,其離差平方和分別記為和直觀上容易想到把兩群樣品聚為一大群,大群的離差平方和將超過原來兩個(gè)群的離差平方和之和。
如果將p和q并類得到新類k,則類k的離差平方和為把增加的量記為定義類p和q之間的距離為:設(shè)類p和q分別含有np、nq個(gè)樣品,其離差平方和分別記為和可以推得新類k與任一類r的距離:
②③④⑤①②③④6.55213013644.5110.5122.51820
2計(jì)算5個(gè)樣品兩兩之間的距離記為距離矩陣(采用歐氏距離),2.合并距離最小的兩類為新類,按順序定為第6類。⑥=例離差平方和法(Ward法)
兩樣品間的距離的平方恰為它們之間歐氏距離平方的一半。3、計(jì)算新類⑥與各當(dāng)前類的距離,得距離矩陣如下:②③⑥①②③
6.5
52176.6744.5154.6724.67為最小,⑦=⑥⑦③⑥
24.67
62.17245.264、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止。
為最小,⑧=5、6、按聚類的過程畫聚類譜系圖45⑥⑨⑧并類距離312⑦7、決定類的個(gè)數(shù)與類。
觀察此圖,我們可以把5個(gè)樣品分為3類,、、。最短距離法最長(zhǎng)距離法中間距離法重心法類平均法離差平方和法
根據(jù)第三產(chǎn)業(yè)國(guó)內(nèi)生產(chǎn)總值的9項(xiàng)指標(biāo),對(duì)華東地區(qū)6省1市進(jìn)行分類,原始數(shù)據(jù)如下表:交通貿(mào)易金融房服務(wù)
衛(wèi)生文教科研黨政
X1X2X3X4X5X6X7X8X9上海江蘇浙江安徽福建江西山東244.42412.04459.63512.21160.4543.5189.9348.5548.63435.77724.85376.04381.81210.3971.82150.6423.74188.28321.75665.80157.94172.19147.1652.4478.1610.9093.50152.29258.6083.4285.1075.7426.7563.475.8947.02347.25332.59157.32172.48115.1633.8077.278.6979.01145.40143.5497.40100.5043.2817.7151.035.4162.03442.20665.33411.89429.88115.0787.45145.2521.39187.77福建江西安徽浙江山東江蘇上海AverageDistanceBetweenClusters012福建江西安徽浙江山東江蘇上海DistanceBetweenClusterCentroids012動(dòng)態(tài)聚類法
基本思想:選取若干個(gè)樣品作為凝聚點(diǎn),計(jì)算每個(gè)樣品和凝聚點(diǎn)的距離,進(jìn)行初始分類,然后根據(jù)初始分類計(jì)算其重心,再進(jìn)行第二次分類,一直到所有樣品不再調(diào)整為止。選擇凝聚點(diǎn)分類修改分類分類是否合理分類結(jié)束YesNo
用一個(gè)簡(jiǎn)單的例子來說明動(dòng)態(tài)聚類法的工作過程。例如我們要把圖中的點(diǎn)分成兩類??焖倬垲惖牟襟E:
1、隨機(jī)選取兩個(gè)點(diǎn)和作為凝聚點(diǎn)。
2、對(duì)于任何點(diǎn),分別計(jì)算
3、若,則將劃為第一類,否則劃給第二類。于是得圖(b)的兩個(gè)類。4、分別計(jì)算兩個(gè)類的重心,則得和,以其為新的凝聚點(diǎn),對(duì)空間中的點(diǎn)進(jìn)行重新分類,得到新分類。
(b)任取兩個(gè)凝聚點(diǎn)(c)第一次分類(d)求各類中心
(a)空間的群點(diǎn)(e)第二次分類動(dòng)態(tài)聚類法
優(yōu)點(diǎn):計(jì)算量小,方法簡(jiǎn)便,可以根據(jù)經(jīng)驗(yàn),先作主觀分類。缺點(diǎn):結(jié)果受選擇凝聚點(diǎn)好壞的影響,分類結(jié)果不穩(wěn)定。選擇凝聚點(diǎn)和確定初始分類
凝聚點(diǎn)就是一批有代表性的點(diǎn),是欲形成類的中心。凝聚點(diǎn)的選擇直接決定初始分類,對(duì)分類結(jié)果也有很大的影響,由于凝聚點(diǎn)的不同選擇,其最終分類結(jié)果也將出現(xiàn)不同。故選擇時(shí)要慎重.通常選擇凝聚點(diǎn)的方法有:
(1)人為選擇,當(dāng)人們對(duì)所欲分類的問題有一定了解時(shí),根據(jù)經(jīng)驗(yàn),預(yù)先確定分類個(gè)數(shù)和初始分類,并從每一類中選擇一個(gè)有代表性的樣品作為凝聚點(diǎn)。
(2)重心法將數(shù)據(jù)人為地分為A類,計(jì)算每一類的重心,將重心作為凝聚點(diǎn)。(3)密度法以某個(gè)正數(shù)d為半徑,以每個(gè)樣品為球心,落在這個(gè)球內(nèi)的樣品數(shù)(不包括作為球心的樣品)稱為這個(gè)樣品的密度。計(jì)算所有樣品點(diǎn)的密度后,首先
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 服務(wù)器升級(jí)項(xiàng)目-D20風(fēng)險(xiǎn)評(píng)估報(bào)告-模板
- 企業(yè)級(jí)域名注冊(cè)服務(wù)合同
- 舞臺(tái)演出經(jīng)紀(jì)代理合同
- 三方店面租賃合同
- 2025年后輪胎螺栓行業(yè)深度研究分析報(bào)告
- 旅游景區(qū)智慧化管理服務(wù)合同
- 2018-2024年中國(guó)熟食未來發(fā)展趨勢(shì)分析及投資規(guī)劃建議研究報(bào)告
- 網(wǎng)絡(luò)教育項(xiàng)目開發(fā)合同
- 工程施工居間合同
- 高新科技園區(qū)研發(fā)合同
- 日語專八分類詞匯
- GB/T 707-1988熱軋槽鋼尺寸、外形、重量及允許偏差
- GB/T 33084-2016大型合金結(jié)構(gòu)鋼鍛件技術(shù)條件
- 高考英語課外積累:Hello,China《你好中國(guó)》1-20詞塊摘錄課件
- 化學(xué)選修4《化學(xué)反應(yīng)原理》(人教版)全部完整PP課件
- 茶文化與茶健康教學(xué)課件
- 降水預(yù)報(bào)思路和方法
- 虛位移原理PPT
- QE工程師簡(jiǎn)歷
- 輔音和輔音字母組合發(fā)音規(guī)則
- 2021年酒店餐飲傳菜員崗位職責(zé)與獎(jiǎng)罰制度
評(píng)論
0/150
提交評(píng)論