一種多粒度增量屬性的聚類方法_第1頁
一種多粒度增量屬性的聚類方法_第2頁
一種多粒度增量屬性的聚類方法_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

一種多粒度增量屬性的聚類方法

1基于密度峰值聚類的聚類算法聚類分析是研究對象分類的統(tǒng)計分析方法,是數據結構中最重要的概念。作為一種非監(jiān)督的挖掘算法技術手段,它被廣泛應用于許多實際應用中。它的優(yōu)點是它不需要標記數據信息,因此計算量是可以增加的?,F在數據的規(guī)模、種類、速度和復雜度都遠遠超過了人腦的認知能力,如何有效完成對大數據的認知,給傳統(tǒng)聚類算法也帶來了巨大挑戰(zhàn)近年來,對大數據有效信息的獲取需求越來越高,增量式方法在數據挖掘中尤其是在聚類分析中變得非常流行,解決動態(tài)數據集的聚類逐漸成為一個新的研究方向.如今,研究者們已經提出了一些增量聚類算法,ZhangC不過上述的增量聚類研究都是基于數據對象增加而出現的,目前針對屬性向量增長的研究相對較少.屬性就是概念的內涵,是針對對象不同角度的認識.在實際生活中第一次觀察某一對象,并不能得到其全部的信息,隨著研究的深入,對于該對象不同方向的認識會更加的清晰,對于這種對象屬性增長的情況,目前并沒有很好的方法對其進行處理.基于這樣的一個問題,隨著人工智能的興起,粒計算在數據挖掘領域應用越來越多,專家學者們也就發(fā)現了粒計算與聚類分析之間的相關關系數據的井噴導致單純的粒度計算已經不能對數據進行有效地挖掘,有些學者開始考慮將多個粒度的思想與聚類算法相結合來處理問題.ZhangHB隨著大數據時代的來臨,數據和環(huán)境無時無刻不在發(fā)生變化,傳統(tǒng)的粒度聚類算法,其往往只能適用于靜態(tài)數據集的聚類,在處理動態(tài)的增量數據時將造成前期聚類結果可靠性的喪失,而如果重新進行聚類必然會造成效率低下和計算資源的急速增長本文以粒計算等處理不確定性問題的方法,提出一種多粒度增量屬性的聚類方法對數據屬性增長的聚類問題進行求解.本方法利用密度峰值算法2相關定義2.1不確定性集u的歸一化處理設有n個待聚類數據對象,每個數據對象由l個屬性粒來表示,根據實時數據構造矩陣:在不確定性的數據集U中,屬性粒為m顯而易見,不同的??赡芫哂胁煌牧烤V,因此需要對屬性粒進行歸一化處理,相應的計算公式,如公式(1)所示:其中i∈[1,n],j∈[1,l].粒度層g如圖1所示,在粒度的增量過程中,g2.2基于不同粒度增量屬性的聚類方法本文提出的多粒度增量屬性聚類方法流程如圖2所示.如圖2中所示,本文的多粒度增量屬性聚類方法首先利用初始聚類算法(初始聚類算法(ICM)詳細描述在2.1節(jié))將初始的粒度g算法1.多粒度增量屬性聚類方法(Multi-GranularityIn-crementalAttributeClusteringMethod,MGIAC)3基于密度峰值聚類算法的多粒度增量屬性聚類算法人們在分析問題時往往從不同的角度、不同的層次觸發(fā),其主要是大腦在多次處理同一問題時,隨著時間環(huán)境等變化,會自行的分析并利用經驗和專業(yè)知識去刻畫與對象與之相應的認識,即每一次看待同一個問題,在上一次認識的基礎上都可能出現新的發(fā)現.本文所提出的多粒度增量屬性聚類算法分為兩個部分:第一部分為初始聚類(圖2中矩形虛線部分),主要采用密度峰值聚類算法3.1初始集合在本文中初始聚類文獻算法2.初始聚類算法(Initialclusteringmethod,ICM)3.2增量屬性聚類在實際生活中,人們對于不同事物的認識,往往是漸進式的,首先是對于一個對象的模糊刻畫,然后隨著時間和環(huán)境的改變,出現了不同方面的認知,使得對象的認識更加的清晰,即人類認知不是機械的掌握一個粒度上,而是通過對每個粒度的信息的掌握,以多粒度的處理方式將信息進行細化、更新,達到了對事物的結構化認識.同時長期與你生活的人,往往在很多地方有著相似性,例如從事的職業(yè)或者生活習慣等,那么在對于外界而言,可以把你們認為是同一類人,由此我們將這兩種思想,借鑒到我們的增量屬性聚類算法中.在這項工作中,隨著時間或環(huán)境的變化,在某一時刻出現了新的屬性粒集合g利用公式(2)計算G然后統(tǒng)計對象x算法3.增量屬性聚類算法(Incrementalattributecluste-ringmethod,IAC)4密度峰值聚類算法的時間本文的算法采用C++語言并在工具VisualStudio2012上實現,所有實驗都在內存為8GRAM、CPU頻率為2.70GHz計算機上運行.在本節(jié)中,在UCI上的一些真實數據集驗證了本文提出的方法.表2給出了關于數據集的信息.Iris如表3所示,以Iris為例,首先利用密度峰值聚類算法如表3中所示,Time(MGIAC)表示本文的多粒度增量屬性聚類算法從初始聚類然后經過一次或數次增量屬性聚類的有運行時間,而Time(DPC)則是利用密度峰值算法對應增加屬性次數的重復聚類所相加的時間(如Iris的Time(DPC)為利用密度峰值聚類算法重復聚類兩次的時間).從表3中數據得本文提出的多粒度增量屬性聚類算法的時間優(yōu)于密度峰值聚類時間(Time(MGIAC)<Time(DPC));同時如表3所示,單次的增量聚類的時間也同樣優(yōu)于密度峰值聚類算法在相應的數據集上計算的時間(Time對于Iris、Lvst、Heart、Contraceptive這4個數據集,由表3可得本文的多粒度增量屬性的聚類方法其聚類精度Acc(MGIAC)略優(yōu)于完整數據集在密度峰值聚類算法計算下的聚類精度Acc(DPC).其中我們認為,MiceProtein數據集偏差的原因在于該數據集每個對象間的距離比較接近,并且類簇相對較多,使得本文方法的聚類結果較差.5基于增量屬性的屬性增長聚類方法,基于ui在生活中,對于事物的發(fā)現都是漸進式的.很多時候,第一次的觀察往往不能完全的描述出事物的特性,而第二次觀察一般不會拋棄第一次觀察出現的特性,其都是建立在第一次基礎上來做出評價的.針對對象數目未改變,而描述對象的粒隨著環(huán)境與時間的出現遞增的研究,目前涉及的比較少.因此本文針對這樣屬性增長的情況,提出了一種多粒度增量屬性的聚類方法,與一般增量聚類方法不同,該方法針對屬性粒增長的情況,通過對鄰域對象類簇歸屬的統(tǒng)計,以此推測增量后對象

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論