




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘聚類分析第六章例某公司下屬30個企業(yè),公司為了考核下屬企業(yè)的經(jīng)濟效益,設(shè)計了8個指標(biāo)。為了避免重復(fù),需要對這8個指標(biāo)進(jìn)行篩選,建立一個恰當(dāng)?shù)慕?jīng)濟效益指標(biāo)體系。通過計算30個企業(yè)8個指標(biāo)的相關(guān)系數(shù)距離,數(shù)據(jù)是1-r2。得如下表:
x1x2
x3
x4x5
x6
x7
x8
x10
0.600
0.430.460
0.470.450.120
0.570.450.230.220
0.380.400.210.290.220
0.310.790.650.700.800.660
0.450.450.270.230.140.190.770試用將它們聚類。x2
x3x4x5
x6
x7
x8第2頁,共19頁,星期六,2024年,5月第3頁,共19頁,星期六,2024年,5月確定類的個數(shù)
在聚類分析過程中類的個數(shù)如何來確定才合適呢?這是一個十分困難的問題,人們至今仍未找到令人滿意的方法。但是這個問題又是不可回避的。
給定閾值——通過觀測聚類圖,給出一個合適的閾值T。要求類與類之間的距離不要超過T值。例如我們給定T=2.2,當(dāng)聚類時,類間的距離已經(jīng)超過了2.2,則聚類結(jié)束。第4頁,共19頁,星期六,2024年,5月什么是好的聚類方法?一個好的聚類方法可以產(chǎn)生高質(zhì)量的聚類:類的內(nèi)部具有較高的相似度類間具有較低的相似度聚類結(jié)果的質(zhì)量依賴于相似度評價方法以及它們的應(yīng)用;聚類結(jié)果的質(zhì)量也取決于它發(fā)現(xiàn)隱藏模式的能力。.第5頁,共19頁,星期六,2024年,5月K-均值聚類K-均值聚類方法是最簡單、最常用的使用使用準(zhǔn)則的方法。K-均值聚類是屬于劃分方法中的基于質(zhì)心技術(shù)的一種方法。劃分的思路是以k為參數(shù),把n個對象分為k個類,以使類內(nèi)具有較高的相似度,而類間的相似度較低。相似度的計算根據(jù)一個類中對象的平均值(被看作類的重心)來進(jìn)行。第6頁,共19頁,星期六,2024年,5月
K-均值聚類的處理流程如下。首先,隨機選擇k個對象,每個對象都初始地代表一個類的平均值或中心。對剩余的對象,根據(jù)其與各自類中心的距離,將它賦給最近的類。然后重新計算每個類的平均值。這個過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。
第7頁,共19頁,星期六,2024年,5月
注意:類均值的初始值是任意分配的,可以隨機分配也可以直接使用前K個成員的屬性值。第8頁,共19頁,星期六,2024年,5月K-均值聚類實例假設(shè)給定如下要進(jìn)行聚類的元組:{2,4,10,12,3,20,30,11,25},并假設(shè)k=2.初始時用前兩個數(shù)值作為類的均值;m=2和m=4.利用歐幾里德距離,可得K1={2,3}和K2={4,10,12,20,30,11,25}。數(shù)值3與兩個均值的距離相等,所以任意地選擇K1作為其所屬類。在這種情況下,可以進(jìn)行任意指派。計算均值可得m1=2.5和m2=16。重新對類中的成員進(jìn)行分配,不斷重復(fù)上述過程,直至均值不再變化。第9頁,共19頁,星期六,2024年,5月
具體過程如表:m1m2K1K224{2,3}{4,10,12,20,30,11,25}2.516{2,3,4}{10,12,20,30,11,25}318{2,3,4,10}{12,20,30,11,25}4.7519.6{2,3,4,10,11,12}{20,30,25}725{2,3,4,10,11,12}{20,30,25}第10頁,共19頁,星期六,2024年,5月
注意在最后兩步中類的成員是一致的,由于均值不再變化,所以均值已經(jīng)收斂了。因此,該問題的答案為:K1={2,3,4,10,11,12}和K2={20,30,25}K-均值法要求定義的類均值存在,并且要以期望的類的數(shù)目k作為輸入。要求用戶必須事先給出k(要生成的類的數(shù)目)可以算是該方法的一個缺點。而且,它對于“噪聲”和孤立點數(shù)據(jù)是敏感的,少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響。第11頁,共19頁,星期六,2024年,5月K-Means聚類示例
第12頁,共19頁,星期六,2024年,5月
增量聚類
在越來越多的應(yīng)用中,必須對收集來的大量數(shù)據(jù)進(jìn)行聚類?!按罅俊钡亩x隨著技術(shù)的改變而不同。在六十年代,“大量”意味著幾千個聚類的樣本。現(xiàn)在,有些應(yīng)用涉及到成千上萬個高維樣本的聚類。增量聚類方法是最流行的,我們將解釋它的基本原理,下面是增量聚類方法的所有步驟:第13頁,共19頁,星期六,2024年,5月
1、對樣本排序后,把第一個數(shù)據(jù)項分配到第一個類里。2、考慮下一個數(shù)據(jù)項,把它分配到目前某個類中或一個新類中。給分配是基于一些準(zhǔn)則的,例如新數(shù)據(jù)項到目前類的重心的距離。在這種情況下,每次添加一個新數(shù)據(jù)項到一個目前的類中時,需要重新計算重心的值。3、重復(fù)步驟2,直到所有的數(shù)據(jù)樣本都被聚類完畢。第14頁,共19頁,星期六,2024年,5月
例如:設(shè)x1=(0,2),x2=(0,0),x3=(1.5,0),x4=(5,0),X5=(5,2)
假定樣本的順序是:X1,X2,X3,X4,X5,類間相似度的閾值水平是s=3。1、第一個樣本X1將變成第一個類C1={x1}.x1的坐標(biāo)就是重心坐標(biāo)M1={0,2}。2、開始分析其他樣本。a)把第2個樣本x2和M1比較,距離d為:
d(x2,M1)==2.0<3第15頁,共19頁,星期六,2024年,5月
因此,x2屬于類C1,新的重心是:
M1={(0,1)}b)第3個樣本x3和重心M1(仍是僅有的重心)比較:
d(x3,M1)=C)第4個樣本X4和重心M1比較:
第16頁,共19頁,星期六,2024年,5月
d(x4,M1)=因為樣本到重心M1的距離比閾值s大,因此該樣本將生成一個自己的類C2={X4},
其相應(yīng)的重心為M2={5,0}。d)第5個樣本和這兩個類的重心相比較:
d(x5,M1)=d(x5,M2)=第17頁,共19頁,星期六,2024年,5月
故
C2={X4,X5}得到M2={5,1}3、分析完所有的樣本,最終的聚類解決方案是獲得兩個類:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度產(chǎn)業(yè)轉(zhuǎn)移招商引資合同匯編
- 《我與地壇》(節(jié)選)教學(xué)設(shè)計 2024-2025學(xué)年統(tǒng)編版高中語文必修上冊
- 2025年度新型建筑材料供應(yīng)商合作協(xié)議
- 15《我與地壇》教學(xué)設(shè)計-2024-2025學(xué)年高一語文同步課堂(統(tǒng)編版必修上冊)
- 2025年度個人變壓器維修保養(yǎng)服務(wù)合同細(xì)則
- 2025年度綠色能源項目承包合作店面運營管理協(xié)議
- 2025年度運動服設(shè)計與生產(chǎn)一體化服務(wù)合同
- 2025年食堂承包單位食堂設(shè)施租賃合同范本
- 2025年智能電網(wǎng)配電設(shè)備合作協(xié)議書
- 愛德萬測試(中國)管理有限公司介紹企業(yè)發(fā)展分析報告
- 壓瘡護理質(zhì)控反饋
- 山東春季高考Photoshop考試復(fù)習(xí)題庫(含答案)
- 湖南省長沙市2023-2024學(xué)年八年級下學(xué)期入學(xué)考試英語試卷(附答案)
- 一年級美術(shù)課后輔導(dǎo)教案-1
- 智慧社區(qū)建設(shè)中的智能化醫(yī)療與康養(yǎng)服務(wù)
- 2023-2024年人教版八年級上冊數(shù)學(xué)期末模擬試卷(含答案)
- 數(shù)據(jù)采集管理制度范文
- 幼兒園小班開學(xué)家長會課件
- 中藥抗骨質(zhì)疏松作用
- 中建綜合支吊架施工方案
- 建筑施工規(guī)范大全
評論
0/150
提交評論