版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于散類K-means算法的初值依好性研討摘要散類闡收是數(shù)據(jù)挖客中的一個(gè)慌張研討范疇。K-eans算法對(duì)隨機(jī)拔與K個(gè)初初面做為初初值是很敏感的,散類的量量依好于初初值。正在闡收散類結(jié)果對(duì)初值依好性的根底上,對(duì)初值拔與要收停頓了闡收戰(zhàn)研討,并提出了一種有用的革新要收,經(jīng)由過(guò)程試考證年夜黑革新算法的有用性。閉鍵詞數(shù)據(jù)挖客;散類;K-eans;初值1引止數(shù)據(jù)挖客(Dataining),又稱為數(shù)據(jù)庫(kù)中的常識(shí)創(chuàng)制(簡(jiǎn)稱KDD),是從年夜量數(shù)據(jù)中提與可疑的、新穎的、有用的并能被人們明黑的形式的處置懲獎(jiǎng)歷程。它是一門(mén)新興的交織教科,匯散了去自機(jī)器進(jìn)修、形式識(shí)別、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)教、野生智能等各范疇的研討結(jié)果。散
2、類是數(shù)據(jù)挖客中的一種慌張妙技,是把一組個(gè)別根據(jù)類似性回成多少類別即“物以類散。它的目的是使得屬于統(tǒng)一種其中個(gè)別之間的隔絕間隔 盡年夜要的小而差異類別上的個(gè)別間的隔絕間隔 盡年夜要年夜。2散類K-eans算法簡(jiǎn)介K-eans算法屬于數(shù)據(jù)挖客散類闡收要收中一種根底的且利用最廣泛的別離算法,它是一種散類類別數(shù)的散類算法。指定類別數(shù)為K,對(duì)樣本靠攏停頓散類,散類的結(jié)果由K個(gè)散類中間去表達(dá),基于給定的散類目的函數(shù)(年夜要道是散類結(jié)果分辨本那么),算法采納迭代更新的要收,每次迭代歷程皆是背目的函數(shù)值減小的標(biāo)的目的停頓,最終的散類結(jié)果使目的函數(shù)值獲得細(xì)小值,抵達(dá)較劣的散類結(jié)果。根據(jù)散類結(jié)果的表達(dá)要收又可以分
3、為硬K-eans(H)算法、模糊K-eans算法(F)戰(zhàn)幾率K-eans算法(P)。該算法的根底框架以下:(1)給定大小為N的數(shù)據(jù)散,令I(lǐng)=1,拔與k個(gè)初初散類中間Zj(I),j=1,2,3,.,k。(2)策畫(huà)每個(gè)數(shù)據(jù)工具與散類中間的隔絕間隔 D(Xi,Zj(I)。其中i=1,2,3,n,j=1,2,3,k,假設(shè)謙意(1)式:那么Xik;(3)策畫(huà)K個(gè)新的散類中間(4)斷定:假設(shè)Zj(I+1)Zj(I),j=1,2,3,K,那么I=I+1,返回(2),沒(méi)有然該算法完畢。從上里的算法思維戰(zhàn)算法框架,我們沒(méi)有易看出,K個(gè)初初散類中間面的拔與對(duì)散類結(jié)果具有較年夜的影響,因?yàn)檎谠撍惴ㄖ惺请S機(jī)天拔與盡
4、情K個(gè)面做為初初散類中間。假設(shè)有先驗(yàn)常識(shí),可以拔與具有代表性的面做為初初中間面。3散類K-eans算法的初值依好性3.1初值依好性闡收沒(méi)有管是本初K-eans算法借是利用了散類本那么函數(shù)的K-eans算法,皆具有一個(gè)配開(kāi)的特征:正在算法的初初階段皆要拔與K個(gè)面做為初初散類中間,然后正在此根底上停頓反復(fù)迭代。拔與的面差異,散類結(jié)果年夜要便有所差異,所以那個(gè)算法的散類結(jié)果對(duì)初值的依好性很強(qiáng),多么的依好性招致散類結(jié)果的沒(méi)有沒(méi)有變。固然也有年夜要碰著最非常的初值拔與狀況,那種狀況使得算法運(yùn)轉(zhuǎn)工夫減少,散類本那么函數(shù)易以支斂,散類結(jié)果越收易以揣測(cè)。3.2嘗試結(jié)論為了證實(shí)初值拔與對(duì)散類結(jié)果的影響,制做了一
5、個(gè)測(cè)試模塊。利用算法測(cè)試模塊獲得的結(jié)果別離如圖1戰(zhàn)2所示,圖中圓圈代表的是初初的散類中間即初值,zi(i=1,2,3,4,5)暗示散類完成后的散類中間,i(i=1,2,3,4,5)暗示每個(gè)簇。每個(gè)數(shù)據(jù)工具被分派給離它比去的散類中間所正在的類。我們可以很清楚天看到初初值的拔與對(duì)散類結(jié)果的影響,反過(guò)去也可以道是散類結(jié)果對(duì)初初散類中間的依好。隱然,圖2中因?yàn)槌醭跎㈩愔虚g面的挑選比力好,果而終了的散類結(jié)果較為幻念。果而,隨機(jī)挑選初初散類中間使得散類很易過(guò)到一個(gè)沒(méi)有變的散類結(jié)果。針對(duì)散類初值挑選那一題目成績(jī),有文獻(xiàn)考慮了冗余類中間初初化要收,該要收擴(kuò)年夜理解空間的搜刮范疇,淘汰了某些極值面四周無(wú)初值的機(jī)
6、緣,初初散類中間正在數(shù)據(jù)空間中分布較廣,具有多樣性。詳細(xì)要收為采納得當(dāng)本那么緩緩減小類的個(gè)數(shù),曲到指定抵達(dá)指定的k的數(shù)量,多么獲得的散類結(jié)果受隨機(jī)挑選初初散類中間的影響較校初初的散類中間選的越多,散類結(jié)果受初值的影響便越校但正在那個(gè)算法中,需要肯定一個(gè)開(kāi)并參數(shù)d,即對(duì)類間距小于d的類便停頓開(kāi)并。真踐上,對(duì)那個(gè)開(kāi)并參數(shù)d很易肯定,而那個(gè)參數(shù)的挑選又間接影響著散類結(jié)果。該革新算法使得正在刪減散類中間的同時(shí)也刪減了算法中的策畫(huà)量戰(zhàn)散類結(jié)果的沒(méi)有肯定性。圖1測(cè)試結(jié)果1圖2測(cè)試結(jié)果2果而,初初散類中間的拔與要收是許多的,可以隨機(jī)收死,憑經(jīng)歷常識(shí)獵與,采納稀度要收等等。沒(méi)有管散類算法采納哪種拔與要收,我們
7、皆渴視散類中間越?jīng)]有變?cè)胶?,需要先?yàn)常識(shí)越少越好,需要肯定的參數(shù)越少越好,并且渴視算法可以年夜要收死一個(gè)較沒(méi)有變的散類結(jié)果,而沒(méi)有是對(duì)初初散類中間非常敏感,差異的初初散類中間收死差異的散類結(jié)果。正在傳統(tǒng)的K-eans算法中,散類結(jié)果對(duì)初初散類中間有較強(qiáng)的依好性,即差異的初初散類中間會(huì)收死差異的散類結(jié)果,果而散類結(jié)果的有用性間接依好于初初散類中間的挑選。4有閉初值拔與的現(xiàn)有要收如古針對(duì)初值拔與的題目成績(jī),慌張概括有以下幾種要收:(1)盡情拔與K個(gè)樣本數(shù)據(jù)做為初初散類中間。(2)根據(jù)經(jīng)歷拔與有代表性的面做為初初散類中間。根據(jù)個(gè)別性質(zhì),沒(méi)有俗觀觀察數(shù)據(jù)構(gòu)制,挑選出比力切開(kāi)的代外表。(3)把部分混淆樣
8、本曲沒(méi)有俗觀沒(méi)有俗觀天分紅k類,策畫(huà)各種均值做為初初散類中間。(4)經(jīng)由過(guò)程“稀度法挑選代外表做為初初散類中間。所謂稀度是指具有統(tǒng)計(jì)性質(zhì)的樣本稀度。例如,以每個(gè)樣本為中間,以某個(gè)給定正數(shù)d1為半徑,正在特征空間里劃出一個(gè)球形鄰域,策畫(huà)降進(jìn)該鄰域里的樣本數(shù)量做為該面的稀度。正在策畫(huà)完每個(gè)數(shù)據(jù)工具的稀度后,起尾拔與稀度最年夜的樣本做為第一個(gè)初初散類中間,它對(duì)應(yīng)著樣天職布稀度的最頂峰值面;然后,給定一個(gè)正數(shù)d2,正在分開(kāi)第一個(gè)初初散類中間隔絕間隔 d2之中挑選次年夜稀度面做為第2個(gè)代外表,如答應(yīng)以制止代外表過(guò)分會(huì)開(kāi);依此類推,可以選出k個(gè)初初散類中間。(5)由(k-1)類散類題目成績(jī)解出k類題目成績(jī)
9、的代外表。例如:先把部分樣本算作一個(gè)類,樣本總均值面便是第1類的初初散類中間;然后,由第1類的初初散類中間戰(zhàn)離它最遠(yuǎn)的一個(gè)樣本做為兩類的初初散類中間;依此類推,由(k-1)類的代外表戰(zhàn)離它們最遠(yuǎn)的一個(gè)數(shù)據(jù)工具做為k類題目成績(jī)的初初散類中間。(6)按最年夜最小隔絕間隔 散類法中根究散類中間的要收肯定初初散類中間。(7)停頓屢次初值挑選、散類,覓出一組最劣的散類結(jié)果。(8)采納遺傳算法年夜要免疫謀劃要收停頓混淆散類。除以上的拔與要收以中,其中另有一種擴(kuò)展的散類中間拔與要收。那種拔與要收與上述要擁有一個(gè)很年夜的區(qū)分,即由本去的面延少到一條線段,那種拔與要收正在類之間有干擾面時(shí)結(jié)果較好。由圖3我們可以
10、創(chuàng)制,假設(shè)散類中間挑選如下圖的1戰(zhàn)2,那么1,2兩個(gè)類皆年夜要被拆分,并且p面從實(shí)際上講該當(dāng)別離到2類中,因?yàn)閜1p2,即p面隔絕間隔 簇2遠(yuǎn),但真踐上把p面別離到簇1更公平,因?yàn)閜到1的隔絕間隔 較遠(yuǎn)。所以此時(shí),選用A1B1,A2B2那么更切開(kāi),正在此要收中p面是1,2兩個(gè)類間的干擾面。圖3帶有干擾面P的散類綜上所述,初初散類中間的拔與要收許多,沒(méi)有管散類算法采納哪種拔與要收,皆是為算法可以年夜要收死一個(gè)較沒(méi)有變的散類結(jié)果,而沒(méi)有依好于初初散類中間。5革新初值拔與的K-eans算法從隨機(jī)挑選的初初散類中間開(kāi)端停頓散類是很易過(guò)到一個(gè)沒(méi)有變的散類結(jié)果,針對(duì)那個(gè)題目成績(jī),對(duì)散類中間的拔與停頓了革新
11、,革新散類算法中挑選初值工夫的依好性,前進(jìn)散類結(jié)果的沒(méi)有變性,并給出嘗試結(jié)果。5.1革新歷程簡(jiǎn)要闡收采納K-eans算法對(duì)本初數(shù)據(jù)散停頓散類輸出K/個(gè)散類中間,那里K/K,K是最終要肯定的簇?cái)?shù)量,然后沒(méi)有俗觀觀察各散類中間之間的隔絕間隔 ,開(kāi)并散類中間最為接遠(yuǎn)的散類數(shù),曲到散類簇的數(shù)量淘汰到指定的K值為止。詳細(xì)描摹以下:算法:基于革新拔與初初散類中間的K-eans算法;輸進(jìn):n個(gè)數(shù)據(jù)工具靠攏xi;輸出:k個(gè)散類中間Zj及k個(gè)散類數(shù)據(jù)工具靠攏j;BeginRuneans(K/);/嘗試K-eans算法,收死K/個(gè)散類中間;Repeat開(kāi)并散類中間中隔絕間隔 比去的面;Until散類數(shù)淘汰到K;/
12、開(kāi)并K/KEnd;正在該算法中,塞責(zé)比力小的數(shù)據(jù)散,搜刮初初散類中間的歷程數(shù)據(jù)量較少,迭代次數(shù)也很小,速度很快。塞責(zé)數(shù)據(jù)靠攏非常年夜的狀況,搜刮初初散類中間的歷程所泯滅的工夫正在全部算法中可以忽略沒(méi)有計(jì),所需總的工夫?yàn)?nk/d)。5.2嘗試結(jié)果如表1所示為革新前后的簇中間及均勻隔絕間隔 。表1革新前后參數(shù)比較算法簇中間坐標(biāo)(七維)各簇均勻隔絕間隔 革新前簇1:(-0.52,-0.45,-0.31,-0.29,-1.23,-1.06,-0.62)簇2:(0.49,0.41,0.56,0.32,0.73,0.59,0.24)簇3:(0.09,0.09,0.25,-0.05,-0.14,-0.15
13、,-0.32)1.1030.7820.913革新后簇1:(-0.15,-0.20,-0.14,-0.14,-0.65,-0.58,-0.58)簇2:(0.42,0.40,0.53,0.33,0.73,0.57,0.33)簇3:(0.25,0.30,0.64,-0.06,0.09,0.08,-0.4)1.070.7760.690比較嘗試慌張沒(méi)有俗觀觀察算法革新前后收死散類結(jié)果的準(zhǔn)確性。嘗試中拔與的數(shù)據(jù)散是我校門(mén)死的真正在結(jié)果。由表1我們可以看到革新后的算法隱著劣于革新前的,一樣那也證年夜黑革新后的算法是有用可用的。6結(jié)論正在K-eans算法中,起尾需要根據(jù)初初散類中間去肯定一個(gè)初初別離,然后對(duì)初
14、初別離停頓劣化,那個(gè)初初散類中間的挑選對(duì)散類結(jié)果有較年夜的影響,一旦初初值挑選的欠好,年夜要沒(méi)法獲得有用的散類結(jié)果,所以對(duì)該題目成績(jī)的研討成為散類K-eans算法的重面,初值拔與的好壞間接閉連到算法運(yùn)轉(zhuǎn)的結(jié)果。參考文獻(xiàn)1張?jiān)茲?數(shù)據(jù)挖客本理與妙技.電子財(cái)富出版社,20222減JiaEiHan,ihelineKaber.數(shù)據(jù)挖客沒(méi)有俗觀觀面與妙技范明,孟小峰,譯.北京:機(jī)器財(cái)富出版社,20013譚怯,枯春死.一個(gè)基于K-eans的散類算法的真現(xiàn)J.湖北平易遠(yuǎn)族教院教報(bào),2022.22(1):69-714范森淼,程曉青.數(shù)量聯(lián)絡(luò)閉系規(guī)矩創(chuàng)制中的散類要收研討J.策畫(huà)機(jī)教報(bào),2002.8,Vl.23,N.8:P866-8715王真數(shù)據(jù)挖客中的散類算法J策畫(huà)機(jī)科教,2002,27(4):4
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)電商春節(jié)之道
- 2024年跨境電商物流解決方案合作合同
- 2024年版企業(yè)債務(wù)償還抵扣協(xié)議版B版
- 大巴用車(chē)合同(2篇)
- 2025年度餐廚廢棄物無(wú)害化處理與綜合利用合同3篇
- 2024年高壓開(kāi)關(guān)設(shè)備安裝協(xié)議
- 專業(yè)化眼科義齒2024年加工服務(wù)協(xié)議模板版B版
- 2025年父母房產(chǎn)處置與子女就業(yè)支持協(xié)議3篇
- 2024某高校與某企業(yè)之間關(guān)于產(chǎn)學(xué)研合作之合作協(xié)議
- 出國(guó)留學(xué)咨詢服務(wù)合同
- 醫(yī)院院長(zhǎng)年終工作總結(jié)報(bào)告精編ppt
- 綠化養(yǎng)護(hù)重點(diǎn)難點(diǎn)分析及解決措施
- “三排查三清零”回頭看問(wèn)題整改臺(tái)賬
- 造價(jià)咨詢結(jié)算審核服務(wù)方案
- 中國(guó)人民財(cái)產(chǎn)保險(xiǎn)股份有限公司機(jī)動(dòng)車(chē)綜合商業(yè)保險(xiǎn)條款
- T∕CGCC 7-2017 焙烤食品用糖漿
- 八年級(jí)物理上冊(cè)計(jì)算題精選(50道)
- 貨代操作流程及規(guī)范
- 礦井反風(fēng)演習(xí)方案
- 2022年脛骨平臺(tái)三柱理論
- 工程進(jìn)度款支付申請(qǐng)表
評(píng)論
0/150
提交評(píng)論