基于優(yōu)化粒計(jì)算下微粒子動(dòng)態(tài)搜索的K-medoids聚類算法_第1頁(yè)
基于優(yōu)化粒計(jì)算下微粒子動(dòng)態(tài)搜索的K-medoids聚類算法_第2頁(yè)
基于優(yōu)化粒計(jì)算下微粒子動(dòng)態(tài)搜索的K-medoids聚類算法_第3頁(yè)
基于優(yōu)化粒計(jì)算下微粒子動(dòng)態(tài)搜索的K-medoids聚類算法_第4頁(yè)
基于優(yōu)化粒計(jì)算下微粒子動(dòng)態(tài)搜索的K-medoids聚類算法_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 基于優(yōu)化粒計(jì)算下微粒子動(dòng)態(tài)搜索的Kmedoids聚類算法 宋紅海 顏宏文摘 要:K-medoids算法具有對(duì)初始聚類中心敏感,聚類準(zhǔn)確度不高及時(shí)間復(fù)雜度大的缺點(diǎn)?;诖耍闹刑岢鲆环N優(yōu)化的K-medoids算法;該算法在已有的粒計(jì)算初始化基礎(chǔ)上進(jìn)行了改進(jìn),以對(duì)象之間的相似性作為判斷依據(jù),結(jié)合最大最小法初始化聚類中心,能有效地獲取最佳或近似最佳的聚類中心;在優(yōu)化的粒計(jì)算前提下,提出了基于微粒子動(dòng)態(tài)搜索策略,以初始中心點(diǎn)作為基點(diǎn),粒子內(nèi)所有對(duì)象到其中心的平均距離為半徑,形成一個(gè)微粒子;在微粒子內(nèi)部,采用離中心點(diǎn)先近后遠(yuǎn)的原則進(jìn)行搜索,能有效地縮小搜索范圍,提高聚類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明:在UCI多

2、個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集中測(cè)試,且與其他改進(jìn)的K-medoids算法比較分析,該算法在有效縮短收斂時(shí)間的同時(shí)保證了算法聚類準(zhǔn)確率。關(guān)鍵字:聚類;K-medoids算法;粒計(jì)算;相似性;微粒子動(dòng)態(tài)搜索文獻(xiàn)標(biāo)志碼: A :TP301.6:2095-2163(2016)02-Novel K-medoids clustering algorithm based on dynamic search of Microparticlesunder optimizedgranular computingSONG Honghai,YAN Hongwen( Institute of Computer and Communic

3、ation Engineering, Changsha University of Sciences and Technology, Changsha Hunan 410114, China)Abstract:The K-medoids algorithm has the disadvantage of sensitivity to cluster center initialization, low clustering accuracyand high the time complexity. So this paper proposes an optimized K-medoids al

4、gorithm; this algorithm has been initialized on the basis of granular computing which takes the similarity between objects as the basis to judge, and combined with the maximum and minimum cluster center initialization method the best or near-best cluster centercan be effectively accessed; Under the

5、precondition of optimization of granular computing, the paper puts forward the dynamic search strategy based on the microparticles, the initial center as a base, all objects within the particles to an average distance of the center of the radius, form a microparticle; In microparticles inside, using

6、 the first after nearly far from the center of the principle of search, can effectively narrow the search, increase the clustering accuracy. Tested on a number of standard data sets in UCIand compared with other improved K-medoids algorithm, the experimental results show that this new algorithm reud

7、uces the convergence time effectively and improves the accuracy of clustering.Key word:clustering; K-medoids algorithm; granular computing;similarity; microparticles dynamic search0 引言聚類就是將擁有不同屬性的事物劃分成不同類的過(guò)程,不依賴于先驗(yàn)信息,只需考慮數(shù)據(jù)本身的特征屬性以及數(shù)據(jù)間的相互關(guān)系1,同一類內(nèi)的事物屬性具有高質(zhì)的相似性,不同類之間的屬性則具有高度不相似性。作為一種重要的數(shù)據(jù)分析方法,聚類已經(jīng)成為一種

8、實(shí)用開(kāi)發(fā)工具,廣泛地應(yīng)用到數(shù)據(jù)挖掘、模式識(shí)別、信息檢索和圖像處理等領(lǐng)域。在時(shí)下經(jīng)典的聚類算法中,K-medoids算法具有了較為普遍應(yīng)用性。算法優(yōu)點(diǎn)是實(shí)現(xiàn)思想簡(jiǎn)單,搜索能力強(qiáng)等,但也存在對(duì)初始化聚類中心敏感,時(shí)間復(fù)雜度較高,精確度不高等問(wèn)題。針對(duì)這一特征狀況,有大量學(xué)者提出了許多改進(jìn)的算法:文獻(xiàn)2-4提出了運(yùn)用粒計(jì)算的思想來(lái)初始化 K-medoids 聚類中心,從而降低了時(shí)間復(fù)雜度,增強(qiáng)了局部搜索能力,但由于粒子多會(huì)表現(xiàn)出一定的隨機(jī)性,使得準(zhǔn)確率未獲提高;文獻(xiàn)5提出了一種改進(jìn)粒計(jì)算的K-medoids算法,在相當(dāng)程度上改善了K-medoids算法對(duì)初始化聚類中心敏感的問(wèn)題,但因其搜索能力不強(qiáng),

9、導(dǎo)致精確度也未見(jiàn)可觀增長(zhǎng);,進(jìn)一步地,文獻(xiàn)6則提出一個(gè)基于最小支撐樹(shù)的初始化聚類中心方法,有效解決了初始化敏感的問(wèn)題,但卻增加了時(shí)間復(fù)雜度;另外,文獻(xiàn)7-8又采用相異度矩陣來(lái)記錄樣本之間的距離,增強(qiáng)了局部搜索能力,同時(shí)降低了時(shí)間復(fù)雜度。綜上可知,各研究文獻(xiàn)從不同方面對(duì)K-medoids算法實(shí)施了改進(jìn)與優(yōu)化,并已取得了一定的成果,但也存在明顯的局限性,具體就是時(shí)間復(fù)雜度和準(zhǔn)確度不能兼顧:有些以增加時(shí)間復(fù)雜度為代價(jià)來(lái)提高準(zhǔn)確度,有些是以犧牲準(zhǔn)確度來(lái)降低時(shí)間復(fù)雜度;還有一些則只是針對(duì)某種特定的數(shù)據(jù)?;诖?,在現(xiàn)有粒計(jì)算的基礎(chǔ)上,本文提出了一種基于優(yōu)化粒計(jì)算初始化,微粒子動(dòng)態(tài)搜索的K-medoids算

10、法。1 傳統(tǒng)的K-medoids算法K-medoids聚類算法根據(jù)K-means算法的思想改進(jìn)而來(lái)9,是一種劃分的方法,能夠有效地處理異常數(shù)據(jù)和噪聲數(shù)據(jù),且具良好的魯棒性。算法中采用歐氏距離來(lái)衡基于粒計(jì)算初始化步驟如下:3 算法的改進(jìn)3.1 粒計(jì)算的改進(jìn)基于粒計(jì)算初始化的步驟6改進(jìn)如下:前2個(gè)初始化中心保持不變,仍然分別是粒子密度最大粒子的中心和距密度最大粒子最遠(yuǎn)且密度最大的粒子的中心,記為 和 ;對(duì)于剩下的粒子不是以歐氏距離作為依據(jù),而是以對(duì)象間的相似度為依據(jù),結(jié)合最大最小法,分別計(jì)算出剩余粒子的中心與 的相似度,記為 ,取 ,例如取第三個(gè)初始化中心時(shí),分別計(jì)算出 ,則 ,依次類推,得到 個(gè)

11、初始化聚類中心。4.2基于微粒子動(dòng)態(tài)搜索基于改進(jìn)的粒計(jì)算初 始化后,同一粒子中的對(duì)象具有高密度和高相似度,即同一粒子中的對(duì)象很大程度上可能屬于同一簇,可以判定與初始化中心相近的對(duì)象是最優(yōu)聚類中心的候選集。因此,提出一種基于微粒子動(dòng)態(tài)搜索的策略。3.2.1 新概念粒子中對(duì)象到其中心的平均距離,對(duì)其數(shù)學(xué)定義可表述為:其中, 是粒子 中對(duì)象 與中心 的歐氏距離, 是粒子 所包含對(duì)象的個(gè)數(shù)。定義5 微粒子:以某一對(duì)象為基點(diǎn),粒子中所有對(duì)象到粒子中心的平均距離為半徑r,這樣包含若干個(gè)對(duì)象的封閉區(qū)域。3.2.2 微粒子搜索過(guò)程以初始化中心 為基點(diǎn),粒子 中所有對(duì)象 的平均距離 為半徑,這樣形成的圓區(qū)域內(nèi)所

12、包含的對(duì)象為一個(gè)微粒子;在微粒子內(nèi),以離初始化中心點(diǎn) 最近的對(duì)象作為新的聚類中心,根據(jù)準(zhǔn)則函數(shù)可進(jìn)行如下判斷:若新的準(zhǔn)則函數(shù) 小于原準(zhǔn)則函數(shù) ,即 ,則用新的聚類中心點(diǎn)代替原中心點(diǎn);再以新的聚類中心點(diǎn)為基點(diǎn), 為半徑,形成新的微粒子,在新的微粒子中應(yīng)用上述搜索策略。若新的準(zhǔn)則函數(shù) 大于原準(zhǔn)則函數(shù) ,即 ,則中心點(diǎn)不變;采取先近后遠(yuǎn)的原則,以離初始化中心點(diǎn) 次近的對(duì)象作為新的聚類中心點(diǎn),計(jì)算準(zhǔn)則函數(shù)。依此類推,直至找到最佳聚類中心。在粒計(jì)算有效初始化的前提下,基于微粒子動(dòng)態(tài)搜索,縮小了尋找最佳聚類中心的范圍,提高了搜索的效率。改進(jìn)算法的實(shí)現(xiàn)過(guò)程可具體描述如下:綜上所述,實(shí)驗(yàn)從改進(jìn)算法的準(zhǔn)確率和收

13、斂時(shí)間兩個(gè)方面,與其他算法進(jìn)行了對(duì)比。由實(shí)驗(yàn)可知文中算法能夠收斂于最佳中心或最相似中心,提高了聚類的準(zhǔn)確率和縮短了其運(yùn)行的時(shí)間,尤其在相對(duì)較大的數(shù)據(jù)集上,文中算法的聚類效果明顯優(yōu)于其他算法。5 結(jié)束語(yǔ)K-medoids算法具有對(duì)初始聚類中心敏感,聚類準(zhǔn)確度不高及時(shí)間復(fù)雜度大的缺點(diǎn)。文中提出了一種新的K-medoids算法,該算法采用改進(jìn)的粒計(jì)算來(lái)克服K-medoids算法對(duì)初始化敏感問(wèn)題,使用基于微粒子動(dòng)態(tài)搜索策略改善了K-medoids算法全局搜索的能力,提高了算法精確度,同時(shí)也縮短了其收斂的時(shí)間。文中算法與其他改進(jìn)的K-medoids算法作了對(duì)比,通過(guò)對(duì)比驗(yàn)證了文中算法的可行性與有效性。R

14、eference:1馬儒寧,王秀麗,丁軍娣.多層核心集凝聚算法J.軟件學(xué)報(bào),2013,23(3):490-506.2王永貴,林琳,劉憲國(guó).基于改進(jìn)粒子群優(yōu)化的文本聚類算法研究J計(jì)算機(jī)工程,2014,40(11):172-177.3馬箐,謝英娟.基于粒計(jì)算的K-medoids 聚類算法J.計(jì)算機(jī)應(yīng)用,2012,32(7):1973-1977.4姚麗娟,羅可,孟穎.一種基于粒子群的聚類算法J.計(jì)算機(jī)工程與應(yīng)用,2012,48(13):150-153.5潘楚,羅可.基于改進(jìn)粒計(jì)算的 K-medoids 聚類算法J.計(jì)算機(jī)應(yīng)用,2014,34(7):1997-2000.6李春生,王耀南.聚類中心初始化

15、的新方法J.控制理論與應(yīng)用,2010,27(10):1436-1440.7陶新民,徐晶,楊立標(biāo)等.一種改進(jìn)的粒子群和 K均值混合聚類算法J.電子與信息學(xué)報(bào),2010,32(1):93-97.8HAE-SANG,PARK,CHI-HYUCKJ.Asimpleand fastalgorithmforK-medoidsclusteringJ.ExpertSystems with Applications,2008,36(2):3336-3341.9Han Jiawei,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)M.范明,譯.北京:機(jī)械工業(yè)出版社,2012:293-297.10張雪萍,龔康莉,趙廣才.基于 MapReduce的 K-medoids并行算法J.計(jì)算機(jī)應(yīng)用,2013,33(4):1024-1035.11王國(guó)胤,張清華,胡軍.粒計(jì)算研究綜述J.智能系統(tǒng)學(xué)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論