數(shù)據(jù)挖掘聚類分析第六章

上傳人：卓*** IP屬地：廣東上傳時間：2025-02-16 格式：PPT 頁數(shù)：19 大?。?.96MB 積分：11.88 舉報 版權(quán)申訴

已閱讀5頁，還剩14頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘聚類分析第六章例某公司下屬30個企業(yè)，公司為了考核下屬企業(yè)的經(jīng)濟效益，設(shè)計了8個指標(biāo)。為了避免重復(fù)，需要對這8個指標(biāo)進(jìn)行篩選，建立一個恰當(dāng)?shù)慕?jīng)濟效益指標(biāo)體系。通過計算30個企業(yè)8個指標(biāo)的相關(guān)系數(shù)距離，數(shù)據(jù)是1-r2。得如下表:

x1x2

x4x5

x10

0.600

0.430.460

0.470.450.120

0.570.450.230.220

0.380.400.210.290.220

0.310.790.650.700.800.660

0.450.450.270.230.140.190.770試用將它們聚類。x2

x3x4x5

x8第2頁,共19頁，星期六，2024年，5月第3頁,共19頁，星期六，2024年，5月確定類的個數(shù)

在聚類分析過程中類的個數(shù)如何來確定才合適呢？這是一個十分困難的問題，人們至今仍未找到令人滿意的方法。但是這個問題又是不可回避的。

給定閾值——通過觀測聚類圖，給出一個合適的閾值T。要求類與類之間的距離不要超過T值。例如我們給定T=2.2，當(dāng)聚類時，類間的距離已經(jīng)超過了2.2，則聚類結(jié)束。第4頁,共19頁，星期六，2024年，5月什么是好的聚類方法?一個好的聚類方法可以產(chǎn)生高質(zhì)量的聚類：類的內(nèi)部具有較高的相似度類間具有較低的相似度聚類結(jié)果的質(zhì)量依賴于相似度評價方法以及它們的應(yīng)用；聚類結(jié)果的質(zhì)量也取決于它發(fā)現(xiàn)隱藏模式的能力。.第5頁,共19頁，星期六，2024年，5月K-均值聚類K-均值聚類方法是最簡單、最常用的使用使用準(zhǔn)則的方法。K-均值聚類是屬于劃分方法中的基于質(zhì)心技術(shù)的一種方法。劃分的思路是以k為參數(shù)，把n個對象分為k個類，以使類內(nèi)具有較高的相似度，而類間的相似度較低。相似度的計算根據(jù)一個類中對象的平均值(被看作類的重心)來進(jìn)行。第6頁,共19頁，星期六，2024年，5月

K-均值聚類的處理流程如下。首先，隨機選擇k個對象，每個對象都初始地代表一個類的平均值或中心。對剩余的對象，根據(jù)其與各自類中心的距離，將它賦給最近的類。然后重新計算每個類的平均值。這個過程不斷重復(fù)，直到準(zhǔn)則函數(shù)收斂。

第7頁,共19頁，星期六，2024年，5月

注意：類均值的初始值是任意分配的，可以隨機分配也可以直接使用前K個成員的屬性值。第8頁,共19頁，星期六，2024年，5月K-均值聚類實例假設(shè)給定如下要進(jìn)行聚類的元組：{2,4,10,12,3,20,30,11,25}，并假設(shè)k=2.初始時用前兩個數(shù)值作為類的均值；m=2和m=4.利用歐幾里德距離，可得K1={2,3}和K2={4,10,12,20,30,11,25}。數(shù)值3與兩個均值的距離相等，所以任意地選擇K1作為其所屬類。在這種情況下，可以進(jìn)行任意指派。計算均值可得m1=2.5和m2=16。重新對類中的成員進(jìn)行分配，不斷重復(fù)上述過程，直至均值不再變化。第9頁,共19頁，星期六，2024年，5月

具體過程如表：m1m2K1K224{2,3}{4,10,12,20,30,11,25}2.516{2,3,4}{10,12,20,30,11,25}318{2,3,4,10}{12,20,30,11,25}4.7519.6{2,3,4,10,11,12}{20,30,25}725{2,3,4,10,11,12}{20,30,25}第10頁,共19頁，星期六，2024年，5月

注意在最后兩步中類的成員是一致的，由于均值不再變化，所以均值已經(jīng)收斂了。因此，該問題的答案為:K1={2,3,4,10,11,12}和K2={20,30,25}K-均值法要求定義的類均值存在，并且要以期望的類的數(shù)目k作為輸入。要求用戶必須事先給出k（要生成的類的數(shù)目）可以算是該方法的一個缺點。而且，它對于“噪聲”和孤立點數(shù)據(jù)是敏感的，少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響。第11頁,共19頁，星期六，2024年，5月K-Means聚類示例

第12頁,共19頁，星期六，2024年，5月

增量聚類

在越來越多的應(yīng)用中，必須對收集來的大量數(shù)據(jù)進(jìn)行聚類?！按罅俊钡亩x隨著技術(shù)的改變而不同。在六十年代，“大量”意味著幾千個聚類的樣本。現(xiàn)在，有些應(yīng)用涉及到成千上萬個高維樣本的聚類。增量聚類方法是最流行的，我們將解釋它的基本原理，下面是增量聚類方法的所有步驟：第13頁,共19頁，星期六，2024年，5月

1、對樣本排序后，把第一個數(shù)據(jù)項分配到第一個類里。2、考慮下一個數(shù)據(jù)項，把它分配到目前某個類中或一個新類中。給分配是基于一些準(zhǔn)則的，例如新數(shù)據(jù)項到目前類的重心的距離。在這種情況下，每次添加一個新數(shù)據(jù)項到一個目前的類中時，需要重新計算重心的值。3、重復(fù)步驟2，直到所有的數(shù)據(jù)樣本都被聚類完畢。第14頁,共19頁，星期六，2024年，5月

例如：設(shè)x1=(0,2),x2=(0,0),x3=(1.5,0),x4=(5,0),X5=(5,2)

假定樣本的順序是：X1,X2,X3,X4,X5,類間相似度的閾值水平是s=3。1、第一個樣本X1將變成第一個類C1={x1}.x1的坐標(biāo)就是重心坐標(biāo)M1={0，2}。2、開始分析其他樣本。a)把第2個樣本x2和M1比較，距離d為:

d(x2,M1)==2.0<3第15頁,共19頁，星期六，2024年，5月

因此，x2屬于類C1，新的重心是：

M1={(0,1)}b)第3個樣本x3和重心M1（仍是僅有的重心）比較：

d(x3,M1)=C)第4個樣本X4和重心M1比較：

第16頁,共19頁，星期六，2024年，5月

d(x4,M1)=因為樣本到重心M1的距離比閾值s大，因此該樣本將生成一個自己的類C2={X4},

其相應(yīng)的重心為M2={5，0}。d)第5個樣本和這兩個類的重心相比較：

d(x5,M1)=d(x5,M2)=第17頁,共19頁，星期六，2024年，5月

故

C2={X4,X5}得到M2={5，1}3、分析完所有的樣本，最終的聚類解決方案是獲得兩個類：

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘聚類分析第六章

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘聚類分析第六章

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔