基于劃分方法的聚類分析_第1頁
基于劃分方法的聚類分析_第2頁
基于劃分方法的聚類分析_第3頁
基于劃分方法的聚類分析_第4頁
基于劃分方法的聚類分析_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、南京信息工程大學(xué) 濱江學(xué)院 實(shí)驗(yàn)(實(shí)習(xí))報(bào)告實(shí)驗(yàn)(實(shí)習(xí))名稱基于劃分方法的聚類分析實(shí)驗(yàn)(實(shí)習(xí))日期2011610指導(dǎo)教師 閆雷鳴專業(yè)軟工(動(dòng)畫)年級(jí) 2008 班次 (1 )班 姓名王圓媛 學(xué)號(hào) 20082358002 得分實(shí)驗(yàn)?zāi)康模? )學(xué)習(xí)聚類分析的基本概念、各種數(shù)據(jù)類型、聚類方法的分類。(2 )學(xué)會(huì)典型的劃分方法 K均值和K中心點(diǎn)算法的基本原理、特點(diǎn)、優(yōu)缺點(diǎn)。(3)應(yīng)用 Weka軟件,學(xué)會(huì)導(dǎo)入數(shù)據(jù)文件,并對數(shù)據(jù)文件進(jìn)行預(yù)處理。(4 )學(xué)會(huì)并應(yīng)用劃分方法中 K均值和K中心點(diǎn)算法對數(shù)據(jù)集進(jìn)行聚類分析。、實(shí)驗(yàn)準(zhǔn)備:Ban k-data三、實(shí)驗(yàn)要求:用劃分方法中K均值和K中心點(diǎn)算法對數(shù)據(jù)集進(jìn)行聚

2、類分析四、實(shí)驗(yàn)內(nèi)容:4.1相關(guān)知識(shí)聚類分析中的"類”(cluster )和前面分類的"類”(class )是不同的,對 cluster更加準(zhǔn)確的翻譯應(yīng)該是“簇”。聚類的任務(wù)是把所有的實(shí)例分配到若干的簇,使得同一個(gè)簇的實(shí)例聚集在一個(gè)簇中心的周圍,它們之間距離的比較近; 而不同簇實(shí)例之間的距離比較遠(yuǎn)。對于由數(shù)值型屬性刻畫的實(shí)例來說,這個(gè)距離通常指歐氏距離。聚類分析中使用最常見的K均值(K-means )算法。K 均值聚類方法的步驟如下。(1 ) K均值算法首先隨機(jī)的指定K個(gè)簇中心。(2 )將每個(gè)實(shí)例分配到距它最近的簇中心,得到K個(gè)簇;(3)計(jì)分別計(jì)算各簇中所有實(shí)例的均值,把它們

3、作為各簇新的簇中心。重復(fù)(2)和( 3),直到 K 個(gè)簇中心的位置都固定,簇的分配也固定。上述 K 均值算法只能處理數(shù)值型的屬性, 遇到分類型的屬性時(shí)要把它變?yōu)槿舾蓚€(gè)取值 0 和 1 的屬性。 WEKA 將自動(dòng)實(shí)施這個(gè)分類型到數(shù)值型的變換,而且 Weka 會(huì)自動(dòng)對數(shù)值型 的數(shù)據(jù)作標(biāo)準(zhǔn)化。Weka 中列出了很多聚類算法。 對于 EM 實(shí)現(xiàn), 用戶可指定需要產(chǎn)生多少聚類, 否則所 用的算法可通過交叉驗(yàn)證來決定,在這種情況下,折的數(shù)量固定為10 (除非訓(xùn)練實(shí)例小于10 個(gè))。用戶可指定循環(huán)次數(shù)的最大值,并且為正常的密度計(jì)算設(shè)定可允許的最小標(biāo)準(zhǔn)差。 SimpleKMeans 使用 k 均值來聚類數(shù)據(jù);

4、聚類的數(shù)量通過一個(gè)參數(shù)設(shè)定。 Cobweb 實(shí)現(xiàn)了 用于名詞屬性的 Cobweb 算法和用于數(shù)值性屬性的 Classit 算法。 FarthestFirst 實(shí)現(xiàn) Hochbaum 和 Shmoys 遠(yuǎn)端優(yōu)先遍歷算法。 MakeDensityBaseCluster 是一個(gè)元聚類器, 它包裝一個(gè)聚類算法, 使其返回一個(gè)概率分布和密度。 它為每個(gè)聚類擬合一個(gè)離散分布, 或 一個(gè)對稱的正態(tài)分布。4.2 實(shí)驗(yàn)操作( 1 )在開始程序 (或者桌面圖標(biāo)) 中找到 WEKA3.6.2 ,單擊即可啟動(dòng) WEKA ,啟動(dòng) WEKA時(shí)會(huì)發(fā)現(xiàn)首先出現(xiàn)的一個(gè)命令提示符。接著將出現(xiàn)如下Weka GUI Chooser

5、界面。Tehn COE Oiodsrt(2)選擇GUI Chooser中的探索者(Explorer )用戶界面。點(diǎn)擊預(yù)處理( Preprocess )功能按鈕的,Open file,選擇其中的"bank-data ”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。打開"bank-data.csv”,可以看至U" Current relation ”、“Attributes ” “Selected attribute三個(gè)區(qū)域。(3 )對于原始數(shù)據(jù)“bdaka.csv ”的預(yù)處,刪去屬性id ” AR保存格式后,修改屬性“children為分類型。這樣得到的數(shù)據(jù)文件為ban0a條實(shí)例。,含Cl

6、uster ”選項(xiàng)卡。點(diǎn)擊Choose ”在隨后打開的層級(jí)式菜單中的選擇SimpleKMea ns WEK這是實(shí)現(xiàn)(4)用"Explorer”打開剛才得到的"ban k.arff",并切換到K均值的算法。點(diǎn)擊旁邊的文本框,修改"numClusters"6為說明我們希望把這 600條實(shí)例聚成6類,即K=6。下面的“seed ”參數(shù)是要設(shè)置一個(gè)隨機(jī)種子,依此產(chǎn)生一個(gè)隨機(jī)數(shù),用來得到K均值算法中第一次給出的K個(gè)簇中心的位置,先設(shè)定為10。(7)選中“ Cluster Mode ”的“ Use trainingset ",點(diǎn)擊“Start”按

7、鈕,觀察右邊Clusterer output給出的聚類結(jié)果。也可以在左下角Result list中這次產(chǎn)生的結(jié)果在新窗口中瀏覽結(jié)果。上點(diǎn)右鍵,"View in separate wi ndow(8)實(shí)驗(yàn)結(jié)果:結(jié)果中有這么一行字樣:Within cluster sum of squared errors: 1604.7416683433223這是評(píng)價(jià)聚類好壞的標(biāo)準(zhǔn),數(shù)值越小說明同一簇實(shí)例之間的距離越小?!?seed ”參數(shù)的變化,導(dǎo)致得到的這個(gè)數(shù)值也發(fā)生變化。通過多嘗試變化seed值,并取使得數(shù)值最小的seed 值。接下來“Clusterce ntroids:”之后列出了各個(gè)簇中心的位

8、置。對于數(shù)值型的屬性,簇中心就是它的均值(Mean );分類型的就是它的眾數(shù)(Mode),也就是說這個(gè)屬性上取值為眾數(shù)值的實(shí)例最多。對于數(shù)值型的屬性,還給出了它在各個(gè)簇里的標(biāo)準(zhǔn)差(Std Devs )。最后的“Clustered In sta nces”是各個(gè)簇中實(shí)例的數(shù)目及百分比。為了觀察可視化的聚類結(jié)果,在左下方“ Result list 列出的結(jié)果上右擊,點(diǎn)“ Visualize cluster assignments彈出的窗口給出了各實(shí)例的散點(diǎn)圖。最上方的兩個(gè)框是選擇橫坐標(biāo)和縱坐標(biāo),第二行的color ”是散點(diǎn)圖著色的依據(jù),默認(rèn)是根據(jù)不同的簇Cluster給實(shí)例標(biāo)上不同的顏色??梢栽谶@里點(diǎn)“Save ”把聚類結(jié)果保存南RFF文件。在這個(gè)新的 ARFF文件中,“ instance_number ”屬性表示某實(shí)例的編號(hào),“Cluster ”屬性表示聚類算法給出的該實(shí)例所在的簇。4.3 擴(kuò)展學(xué)習(xí)(1 )選擇其他數(shù)據(jù)集來對其進(jìn)行k-means 聚類分析,并對其聚類結(jié)果進(jìn)行分析研究。(2 )通過對其參數(shù)的修正完善加深理解k-means 聚類分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論