




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
TextClusteringIIWangJiminNov25,2005Outline
引言文本間距離與文本類間的距離
聚類方法層次方法劃分方法
SOM方法聚類結(jié)果的評(píng)價(jià)聚類聚類是對(duì)數(shù)據(jù)對(duì)象進(jìn)行劃分的一種過(guò)程,與分類不同的是,它所劃分的類是未知的,故此,這是一個(gè)“無(wú)指導(dǎo)的學(xué)習(xí)”過(guò)程,它傾向于數(shù)據(jù)的自然劃分。文本聚類(Textclustering):將文本集合分組成多個(gè)類或簇,使得在同一個(gè)簇中的文本內(nèi)容具有較高的相似度,而不同簇中的文本內(nèi)容差別較大。它是聚類分析技術(shù)在文本處理領(lǐng)域的一種應(yīng)用。層次聚類方法凝聚的方法(agglomerative),也稱自底向上(bottom-up)
分裂的方法(divisive),也稱自頂向下(top-down)還有許多變形(改進(jìn))方法,如BIRCH,CURE等Outline
引言文本間距離與文本類間的距離
聚類方法層次方法劃分方法
SOM方法聚類結(jié)果的評(píng)價(jià)TheK-MeansClusteringMethod
Example012345678910012345678910012345678910012345678910K=2ArbitrarilychooseKobjectasinitialclustercenterAssigneachobjectstomostsimilarcenterUpdatetheclustermeansUpdatetheclustermeansreassignreassignk-平均算法step1.任意選擇k個(gè)對(duì)象作為初始的類的中心step2.repeatstep3.根據(jù)類中文檔的平均值,將每個(gè)文檔(重新)賦給最相近的類step4.更新類的平均值,step5.until不再發(fā)生變化,即沒(méi)有對(duì)象進(jìn)行被重新分配時(shí)過(guò)程結(jié)束。
有多種變形形式k-平均方法有多種變形形式,不同改進(jìn)在于:初始k個(gè)平均值的選擇相異度的計(jì)算計(jì)算類平均值產(chǎn)生較好聚類結(jié)果的一個(gè)有趣策略:首先用層次聚類方法決定結(jié)果簇的個(gè)數(shù),并找到初始的聚類然后用迭代重定位來(lái)改進(jìn)聚類結(jié)果。k-中心點(diǎn)(k-modoid)方法PAM(partitioningaroundmedoid)是最早提出的k-中心點(diǎn)方法之一。它選用簇中位置最靠近中心的對(duì)象作為代表對(duì)象(中心點(diǎn)),試圖對(duì)n個(gè)對(duì)象給出k個(gè)劃分。最初隨機(jī)選擇k個(gè)對(duì)象作為中心點(diǎn),該算法反復(fù)用非代表對(duì)象(非中心點(diǎn))代替中心點(diǎn),試圖找出更好的中心點(diǎn),以改進(jìn)聚類結(jié)果的質(zhì)量。k-中心點(diǎn)(k-modoid)方法在每次迭代中,所有可能的對(duì)象對(duì)被分析,每個(gè)對(duì)中的一個(gè)對(duì)象是中心點(diǎn),而另一個(gè)是非中心點(diǎn)。對(duì)所有可能的組合,估算聚類結(jié)果的質(zhì)量。一個(gè)對(duì)象Oi被可以使最大平方誤差減少的對(duì)象代替。在一次迭代中產(chǎn)生的最佳對(duì)象集合成為下次迭代的中心點(diǎn)。判定一個(gè)對(duì)象Oh是否是當(dāng)前一個(gè)代表對(duì)象Oi的好替代,對(duì)每一個(gè)非代表對(duì)象Oj需要分情況考慮替換的代價(jià)。PAM對(duì)非代表對(duì)象Oj來(lái)說(shuō),上圖給出了Oh替代Oi所化的代價(jià)。遍歷所有j即得到總交換代價(jià)TCih
。該代價(jià)函數(shù)反映了替換前后平方誤差值之間的差別。
若總代價(jià)為負(fù),Oh可以替代Oi,否則說(shuō)明當(dāng)前的中心點(diǎn)是可接受的,在本次迭代中不發(fā)生變化。k-中心點(diǎn)(k-modoid)算法step1.任意選擇k個(gè)對(duì)象作為初始的類的中心點(diǎn)step2.repeatstep3.指派每個(gè)剩余對(duì)象給離它最近的中心點(diǎn)step4.隨機(jī)選擇一個(gè)非中心點(diǎn)Ohstep5.計(jì)算用Oh代替中心點(diǎn)Oi的總代價(jià)Sstep6.ifS<0,thenOh代替中心點(diǎn)Oi
形成新的k個(gè)中心點(diǎn)集合until不再發(fā)生變化。算法性能有效消除了對(duì)孤立點(diǎn)數(shù)據(jù)的敏感性。比k-means方法更健壯,不易受極端數(shù)據(jù)的影響。PAM對(duì)小數(shù)據(jù)集非常有效(如100個(gè)對(duì)象聚成5類),但對(duì)大數(shù)據(jù)集效率較低??蓴U(kuò)展性差。PAM算法的改進(jìn):CLARA
CLARA(ClusterLARgerApplication):基于k-medoid類型的算法,能處理較大的數(shù)據(jù)集合。
首先進(jìn)行隨機(jī)抽樣,用PAM方法從樣本中選擇中心點(diǎn)。如果樣本是以非常隨機(jī)的方式選取的,它應(yīng)該足以代表原來(lái)的數(shù)據(jù)集合。從中選出的中心點(diǎn)很可能與從整體集合中選出的非常近似。
CLARACLARA可以抽取多個(gè)樣本,對(duì)每個(gè)樣本應(yīng)用PAM算法,返回最好的聚類結(jié)果。復(fù)雜度是O(ks2+k(n-k)),其中s是樣本大小。如果樣本發(fā)生傾斜,基于樣本的一個(gè)好的聚類不一定代表整個(gè)數(shù)據(jù)集合的一個(gè)好的聚類。特別地,如果任何取樣得到的中心點(diǎn)不包含最佳的中心點(diǎn),CLARA算法不能得到最佳聚類。Outline
引言文本間距離與文本類間的距離
聚類方法層次方法劃分方法
SOM方法聚類結(jié)果的評(píng)價(jià)WEBSOMWEBSOMisamethodforautomaticallyorganizingcollectionsoftextdocumentsandforpreparingvisualmapsofthemtofacilitatetheminingandretrievalofinformation.Thedocumentsareinthepoints,or"pigeon-holes",ofthemap,andtheircontentscanbebrowsedbyclickingthepointsvisibleonthelowestlevelofthemapdisplay.YoucanuseafulltextsearchtofindaninterestingstartingpointforbrowsingOvermilliondocumentsfromover80UsenetnewsgroupsWebsomWebsom自組織映射(SOM)SOM(self-organizingmap)神經(jīng)網(wǎng)絡(luò)是一種基于模型的聚類方法。
SOM是由芬蘭赫爾辛基大學(xué)神經(jīng)網(wǎng)絡(luò)專家Kohonen教授在1981年提出的競(jìng)爭(zhēng)式神經(jīng)網(wǎng)絡(luò),它模擬大腦神經(jīng)系統(tǒng)自組織特征映射的功能,在訓(xùn)練中能無(wú)監(jiān)督地進(jìn)行自組織學(xué)習(xí)。由于它的強(qiáng)大功能,多年來(lái),網(wǎng)絡(luò)在數(shù)據(jù)分類、知識(shí)獲取、過(guò)程監(jiān)控、故障識(shí)別等領(lǐng)域中得到了廣泛應(yīng)用。SOM組成SOM神經(jīng)網(wǎng)絡(luò)由輸入層和競(jìng)爭(zhēng)層組成。輸入層由N個(gè)神經(jīng)元組成,競(jìng)爭(zhēng)層由M個(gè)神經(jīng)元組成。為可視化表示結(jié)果,常將M表示為一個(gè)二維平面陣列M=s*t,當(dāng)然,一維或多維也是允許的。SOM組成典型的SOM聚類算法
1.初始化,用較小的隨機(jī)數(shù)對(duì)競(jìng)爭(zhēng)層各個(gè)神經(jīng)元的每一個(gè)權(quán)向量賦初值。2.用文本集合中選擇選擇一個(gè)訓(xùn)練向量Xi進(jìn)行輸入3.比較競(jìng)爭(zhēng)層中所有神經(jīng)元,尋找神經(jīng)元j,使它的突融權(quán)重向量Wj最接近Xi,即|Xi--Wj|=min{|Xi–Wk|,k=1,…,M}。4.修改神經(jīng)元j及其鄰居神經(jīng)元,更新它的突融權(quán)重
其中,a(t)為訓(xùn)練參數(shù),0<a(t)<1,t為訓(xùn)練次數(shù)5.如果訓(xùn)練次數(shù)t的值達(dá)到預(yù)設(shè)次數(shù)T,則停止訓(xùn)練,否則減少a(t)的值,重復(fù)2—4步。注:在訓(xùn)練過(guò)程中,隨著訓(xùn)練次數(shù)t的增加,a(t)和領(lǐng)域都不斷變小。
神經(jīng)元間的不同拓?fù)浣Y(jié)構(gòu):矩形結(jié)構(gòu)(網(wǎng)格結(jié)構(gòu))六角形結(jié)構(gòu)
隨機(jī)拓?fù)浣Y(jié)構(gòu)
神經(jīng)元之間的距離歐幾里德距離、位置向量之間距離、Manhattan距離等。一個(gè)例子:matlabp=rands(2,1000);plot(p(1,:),p(2,:),'+r');net=newsom([01;01],[56]);holdon;net.trainParam.epochs=1;net=train(net,p);plotsom(net.iw{1,1},net.layers{1}.distances)holdoff;一個(gè)例子:matlab一個(gè)具體應(yīng)用
SOM文檔信息地圖:把語(yǔ)義相近的文檔聚集在一起,并為每個(gè)類目自動(dòng)地分配一個(gè)標(biāo)簽來(lái)說(shuō)明這個(gè)類目的主題。XiaLin(1991)ASelf-organizingSemanticMapforInformationRetrieval一個(gè)具體應(yīng)用類似應(yīng)用SOMSOM類似于大腦的信息處理過(guò)程。它能把任意維的輸入信號(hào)變換到一維或二維的離散網(wǎng)格上,并保持一定的拓?fù)溆行蛐浴OM通過(guò)對(duì)輸入向量的反復(fù)學(xué)習(xí),其權(quán)向量的空間分布能反映輸入向量的統(tǒng)計(jì)特征。訓(xùn)練結(jié)束后,狀態(tài)相同或相近的輸入向量在競(jìng)爭(zhēng)層網(wǎng)絡(luò)上所處位置相鄰近,因此,該方法可以正確顯示SOM的聚類訓(xùn)練結(jié)果。SOM不足網(wǎng)絡(luò)連接權(quán)向量初值的選取對(duì)網(wǎng)絡(luò)收斂性影響很大。
訓(xùn)練時(shí)間過(guò)長(zhǎng)對(duì)大集合處理困難。Outline
引言文本間距離與文本類間的距離
聚類方法層次方法劃分方法
SOM方法聚類結(jié)果的評(píng)價(jià)聚類結(jié)果的評(píng)測(cè)因?yàn)闆](méi)有訓(xùn)練文檔集合,所以評(píng)測(cè)聚類效果是比較困難的。常用的方法是:
選擇人工已經(jīng)分好類或者做好標(biāo)記的文檔集合作為測(cè)試集合,聚類結(jié)束后,將聚類結(jié)果與已有的人工分類結(jié)果進(jìn)行比較。
文檔關(guān)聯(lián)評(píng)測(cè)及其指標(biāo)所謂文檔關(guān)聯(lián),是指屬于同一個(gè)類別的任意兩個(gè)文檔之間所形成的“文檔對(duì)”關(guān)系。基于文檔關(guān)聯(lián)的聚類評(píng)測(cè)方法,其考察的基本對(duì)象就是“文檔對(duì)”。各種不同情況下的“文檔對(duì)”數(shù)據(jù)主要有:Pt:文檔集合中所有可能的文檔對(duì)的數(shù)量。設(shè)文檔總數(shù)為n,則Pt=Cn2=n*(n-1)/2.Tm:人工分類中所有可能的文檔對(duì)的數(shù)量。Ta:聚類結(jié)果中所有可能的文檔對(duì)的數(shù)量。Ei:錯(cuò)誤關(guān)聯(lián),指在聚類結(jié)果中出現(xiàn),而在人工分類中沒(méi)有出現(xiàn)的文檔對(duì)的數(shù)量。Em:遺漏關(guān)聯(lián),指在人工分類中出現(xiàn),而在聚類結(jié)果中沒(méi)有出現(xiàn)的文檔對(duì)的數(shù)量。評(píng)測(cè)指標(biāo)聚類錯(cuò)誤率CE=(錯(cuò)誤關(guān)聯(lián)+遺漏關(guān)聯(lián))/文檔集合中所有可能的文檔對(duì)的數(shù)量=(Ea+Em)/Pt聚類全面率CR=正確關(guān)聯(lián)數(shù)/人工分類中文檔對(duì)的數(shù)量=(Ta--Ei)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度物流配送體系運(yùn)營(yíng)管理人才用人合同
- 2025年度就業(yè)扶貧項(xiàng)目合作協(xié)議
- 二零二五年度租賃房屋合同轉(zhuǎn)讓及租客入住前家具檢查清單
- 2025年度體育賽事參與者免責(zé)協(xié)議書
- 2025年度客棧品牌授權(quán)及經(jīng)營(yíng)管理合同
- 2025年湖南工藝美術(shù)職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)匯編
- 2025年算力行業(yè)分析:算力與社交平臺(tái)深度融合
- 2023-2024學(xué)年貴州省高三下學(xué)期“3+3+3”高考備考診斷性聯(lián)考卷(三)生物學(xué)試卷
- 焊接及無(wú)損檢測(cè)發(fā)言材料
- 廚房后勤工作計(jì)劃
- 地理-廣東省上進(jìn)聯(lián)考領(lǐng)航高中聯(lián)盟2025屆高三下學(xué)期開(kāi)學(xué)考試題和答案
- GB/T 20032-2024項(xiàng)目風(fēng)險(xiǎn)管理應(yīng)用指南
- 博鰲亞洲論壇:創(chuàng)新報(bào)告2024
- 2025年全國(guó)青少年禁毒知識(shí)競(jìng)賽題庫(kù)及答案(401一516) - 副本
- 2025年高三歷史高考第二輪復(fù)習(xí)知識(shí)梳理中國(guó)史部分復(fù)習(xí)提綱
- 2025年蒙鹽集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 精神科醫(yī)療質(zhì)控課件
- 護(hù)理三基三嚴(yán)習(xí)題+參考答案
- 椎間孔鏡的手術(shù)配合
- 四大名著之紅樓夢(mèng)飲食文化
- 員工互評(píng)表(含指標(biāo))
評(píng)論
0/150
提交評(píng)論