【基于數(shù)據(jù)流挖掘的熱點事件檢測方法實證探究(論文)17000字】_第1頁
【基于數(shù)據(jù)流挖掘的熱點事件檢測方法實證探究(論文)17000字】_第2頁
【基于數(shù)據(jù)流挖掘的熱點事件檢測方法實證探究(論文)17000字】_第3頁
【基于數(shù)據(jù)流挖掘的熱點事件檢測方法實證探究(論文)17000字】_第4頁
【基于數(shù)據(jù)流挖掘的熱點事件檢測方法實證探究(論文)17000字】_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于數(shù)據(jù)流挖掘的熱點事件檢測方法實證研究摘要近年來隨著推特、微博等社交媒體平臺的不斷發(fā)展和流行,大眾對于社會事件及國家動態(tài)的關(guān)注度和參與度不斷提升,基于這些社交媒體平臺的事件檢測算法的研究也因此備受關(guān)注。由于平臺限制、用戶的發(fā)帖習(xí)慣以及事件的發(fā)展特性等多方面因素的影響,導(dǎo)致數(shù)據(jù)包含的信息少、對存儲空間及運行速度的要求較高,很難直接利用現(xiàn)有的模型或算法進行事件檢測。針對以上問題,本文將概率圖模型與數(shù)據(jù)流挖掘的方法相結(jié)合,提出了一種在線的熱點事件檢測模型,主要研究內(nèi)容分為三個部分:(1)基于概率圖模型對以數(shù)據(jù)流形式到來的短文本進行聚類;(2)利用數(shù)據(jù)流挖掘的方法對聚類得到的微簇進行維護;(3)從模型維護的微簇中不斷檢測出新事件。實驗結(jié)果表明,模型在推特等平臺產(chǎn)生的短文本流數(shù)據(jù)上有較好的表現(xiàn)。關(guān)鍵詞:概率圖模型,數(shù)據(jù)流挖掘,短文本流,在線事件檢測目錄摘要 IABSTRACT II目錄 III第一章緒論 11.1研究工作的背景與意義 11.2時域積分方程方法的國內(nèi)外研究歷史與現(xiàn)狀 11.3本文的主要貢獻與創(chuàng)新 21.4本論文的結(jié)構(gòu)安排 3第二章研究相關(guān)的概念及技術(shù)概述 42.1概率圖模型(PGM) 42.1.1貝葉斯網(wǎng)絡(luò) 42.1.2狄利克雷過程 52.2數(shù)據(jù)流挖掘的基本知識 62.2.1k-means聚類 62.2.2層次聚類 72.3Glove模型 72.4本章小結(jié) 8第三章基于數(shù)據(jù)流挖掘的熱點事件檢測方法研究 93.1文本文件預(yù)處理 93.2基于概率圖模型聚類 103.3基于數(shù)據(jù)流挖掘的方法維護微簇 143.4事件檢測 193.5本章小結(jié) 20第四章實驗結(jié)果及分析 214.1實驗相關(guān)內(nèi)容 214.1.1實驗數(shù)據(jù)集及評估指標(biāo) 214.1.2實驗采用的參照模型 214.2實驗結(jié)果及分析 224.3本章小結(jié) 27第五章全文總結(jié)與展望 285.1全文工作總結(jié) 285.2后續(xù)工作展望 28參考文獻 30第一章緒論1.1研究工作的背景與意義近年來推特、微博這類社交媒體平臺不斷發(fā)展和流行,它們逐漸成為了反映民眾生活中各類事件的一面鏡子。一項針對記者的調(diào)查2017年全球社會新聞研究2017年全球社會新聞研究/us/resources/research-reports/2017-global-social-journalism-study/?sf=false.但是,由于這些平臺對發(fā)帖長度的限制以及用戶的發(fā)帖習(xí)慣等各方面因素的影響,導(dǎo)致用戶發(fā)表的帖子一般都比較簡短,語言表述也比較生活化,這導(dǎo)致其包含的內(nèi)容少,可用信息也比較匱乏。同時,因為社會中總是有各種事件不斷的產(chǎn)生,且不同的人對于同一事件的表述也存在較大差異,這會給事件的檢測和區(qū)分帶來困難。并且,熱點事件產(chǎn)生后總是在不停發(fā)酵,事件和相關(guān)帖子的數(shù)量也是不斷增加的,很難直接利用一些主題模型進行事件檢測,對數(shù)據(jù)的存儲是一種極大的挑戰(zhàn),也使得模型的可擴展性成為了需要重點攻克的問題?,F(xiàn)有的事件檢測算法仍沒有一個模型能夠在解決上述問題的同時體現(xiàn)出事件的演化。但如果能將概率圖模型與數(shù)據(jù)流挖掘結(jié)合起來,利用概率圖模型的優(yōu)勢在不需要事先確定微簇具體個數(shù)的情況下,就能夠?qū)Σ粩噍斎氲奈谋緮?shù)據(jù)進行聚類,不僅減少了閾值設(shè)定不恰當(dāng)帶來的影響,而且能夠持續(xù)的檢測新的熱點事件,無需對數(shù)據(jù)進行分片操作;之后再利用數(shù)據(jù)流挖掘的方法對概率圖模型聚類得到的潛在事件微簇進行管理和維護,就能夠?qū)崿F(xiàn)實時檢測社會事件演化和發(fā)展的目的。而實時在線的事件檢測,對于滿足大眾需求,分析社會發(fā)展?fàn)顩r都具有非常重要的現(xiàn)實意義。1.2時域積分方程方法的國內(nèi)外研究歷史與現(xiàn)狀事件檢測作為熱點事件檢測、輿情檢測等熱門研究的基礎(chǔ),一直以來都受到廣大研究者的關(guān)注。早先有D.M.Blei等人提出的動態(tài)主題模型(DTM)[1]、X.Wei等人提出的動態(tài)混合模型(DMM)[2],他們均是基于LDA主題模型[3]的基礎(chǔ)上進行了改進,提出了可用于長文檔數(shù)據(jù)集上的動態(tài)事件檢測算法。但是隨著推特、微博等社交媒體的發(fā)展和流行,基于這些社交媒體平臺的事件檢測開始吸引大家的目光。由于平臺限制了單個文本長度,這些模型不再適用于這些平臺產(chǎn)生的短文本數(shù)據(jù)。為此,童薇等人提出了一種高效的微博事件檢測算法(EDM)[4],他們在文章中提出可以通過綜合數(shù)據(jù)語義、時序和社交關(guān)系三個方面的特征,整體考慮了微博帖子及發(fā)帖人之間的多種相似度,從而實現(xiàn)事件檢測;Lei-LeiShi等人則是提出了一種以人為中心的熱點事件檢測和傳播網(wǎng)絡(luò)社會計算模型(HCSC)[5],通過篩選核心用戶及關(guān)鍵帖子,建立以人為中心的關(guān)系網(wǎng)絡(luò),不斷地模擬事件在用戶之間的傳遞情況,結(jié)合LDA模型進行事件的檢測。但這些算法都需要對數(shù)據(jù)進行分批并建立具體的社交關(guān)系網(wǎng)絡(luò),不僅僅需要處理大量的文本數(shù)據(jù),還需要綜合考慮各種用戶關(guān)系,并且無法體現(xiàn)出事件實時的演化情況。MateuszFedoryszak等人在社會數(shù)據(jù)流上的實時事件檢測[6]一文中提出可以將事件看作一組實體及其相關(guān)元數(shù)據(jù)在一段時間上構(gòu)成的集群鏈,實體指的是一個文本、圖像一類的內(nèi)容所包含的標(biāo)簽,如命名實體、hashtags等,而元數(shù)據(jù)則是指的如實體頻率等實體相關(guān)信息。也就是說每個事件在一個時間片內(nèi)都是由一組這樣的實體和相關(guān)的元數(shù)據(jù)構(gòu)成的集群進行表示的,如果該事件存續(xù)到下一時間片,則該事件在兩個時間片中的集群就會被鏈接,而這樣構(gòu)成的集群鏈長度就代表了事件的存續(xù)時間。當(dāng)出現(xiàn)無法與前一時刻存在的集群進行鏈接的集群時,就認(rèn)為是一個新的事件產(chǎn)生了,但是此方法同樣也存在一定的缺陷,即需要根據(jù)時間對數(shù)據(jù)進行分片,分片的大小對事件檢測的效果存在影響。而由QuanzhiLi等人提出的依據(jù)社交媒體的實時新事件檢測方法[7],通過將文本拆分成如專有名詞、hashtag、動詞等語義分類,再通過對各分類求相似度并加權(quán)求和得到最終的相似度值,根據(jù)閾值區(qū)分是聚類到已有微簇還是單獨形成一個新的簇,此后,簇的維護過程中還采用了大量的經(jīng)驗參數(shù),使得模型的可解釋性較差,雖然該模型實現(xiàn)了實時在線的事件檢測,但由于是根據(jù)相似度進行聚類的,所以模型需要設(shè)置較多閾值。1.3本文的主要貢獻與創(chuàng)新本文以短文本流數(shù)據(jù)作為數(shù)據(jù)集,基于概率圖挖掘自動決定微簇的個數(shù),不需要對數(shù)據(jù)進行分批。由于不是采用相似度進行聚類,所以在此聚類過程中不需要設(shè)定閾值。且本文首次將概率圖模型與數(shù)據(jù)流挖掘結(jié)合起來用于事件檢測。相較于現(xiàn)有的事件檢測算法,其能動態(tài)實時的反映出事件的演化和發(fā)展過程,是事件檢測研究領(lǐng)域的一次重大創(chuàng)新。1.4本論文的結(jié)構(gòu)安排本論文總共分為五個章節(jié),具體結(jié)構(gòu)安排如下:第一章為緒論,主要介紹研究工作的背景和意義,以及國內(nèi)外相關(guān)研究工作的歷史和現(xiàn)狀,描述了本文的主要貢獻、創(chuàng)新所在,并給出了論文的主要結(jié)構(gòu)安排;第二章為研究相關(guān)的概念和技術(shù)概要,本章簡要介紹了本文在進行事件檢測時所使用的概率圖模型及數(shù)據(jù)流挖掘方法的相關(guān)概念的基本知識;第三章為本文所提出的基于數(shù)據(jù)流挖掘的熱點事件檢測方法的具體介紹,本章解釋了本文所提出的算法模型的結(jié)構(gòu)及工作原理;第四章為實驗的結(jié)果,本章主要展示了針對本文所提出方法進行的實驗得到的結(jié)果;第五章提供了對本文整體工作的總結(jié)及開展后續(xù)研究工作的方向和思路。第二章研究相關(guān)的概念及技術(shù)概述本章將介紹本文提出的算法模型使用到的概率圖模型相關(guān)的基本概念,并就采用的數(shù)據(jù)流挖掘領(lǐng)域的基本方法以及Glove模型進行簡單介紹。2.1概率圖模型(PGM)概率圖模型并不是一種單一的模型,而是一類結(jié)合了概率論知識和圖論知識,利用圖結(jié)構(gòu)來表示概率相關(guān)關(guān)系的模型的總稱。相較于其他學(xué)習(xí)算法,概率圖模型的優(yōu)勢在于可以將一些我們已知的信息利用圖結(jié)構(gòu)帶入到模型中,但這也就往往意味著在我們使用概率圖模型之前需要知道具體的圖結(jié)構(gòu)?;镜母怕蕡D模型包括三種:貝葉斯網(wǎng)絡(luò)、馬爾可夫模型以及隱馬爾可夫模型。而本文提出的算法模型采用的概率圖模型即為貝葉斯網(wǎng)絡(luò)。2.1.1貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)是一種利用條件概率和先驗知識對現(xiàn)實情況進行描述的概率圖模型。它的本質(zhì)是通過先驗知識來確定一個隨機變量之間的關(guān)聯(lián)約束關(guān)系,從而便于得到所需的條件概率。貝葉斯網(wǎng)絡(luò)是根據(jù)貝葉斯公式導(dǎo)出的貝葉斯分?jǐn)?shù)進行記分的,通過對所有可能的情況進行記分,從而篩選得到記分分?jǐn)?shù)最高的那一個作為最優(yōu)選擇。貝葉斯分?jǐn)?shù)的計算方式如2-1所示:scoreBG:d=logPd第一部分logPdG表示的是我們所使用的數(shù)據(jù)與給定圖模型之間的擬合程度,而第二部分logP(G)則是表示圖所估計的圖模型與先驗知識構(gòu)成的先驗圖之間的擬合程度。而第一部分所表示的數(shù)據(jù)與圖模型之間的擬合程度又可以表示成如下的式2P(d|G)=P(d|G,θG)P(θ式中P(d|G,θG)是一個似然函數(shù),它所表示的是在給定圖模型G及參數(shù)θG的情況下,數(shù)據(jù)d發(fā)生的可能性,而P(θG|G)表示的是參數(shù)的先驗估計,即在給定圖模型G本文提出的模型中采用了狄利克雷過程對先驗參數(shù)進行建模。2.1.2狄利克雷過程狄利克雷過程(DirichletProcess)被廣泛的運用在非參數(shù)貝葉斯模型中作為先驗概率,最常見的使用方式是作為狄利克雷過程混合模型(DPMM)的先驗。在對其的多種理解中,中餐館過程(ChineseRestaurantProcess)以及波利亞缸(Polyaurn)模型是在實踐中最常被提及的兩種。中餐館過程(CRP)中餐館過程(ChineseRestaurantProcess)是非常典型的狄利克雷過程混合模型。其巧妙地將狄利克雷過程理解為餐館的顧客落座問題,假設(shè)存在一個中餐館,而在這個餐館中可以存在無限多張桌子,除了當(dāng)?shù)谝粋€顧客到來時,將會直接在第一張桌子坐下,其后到來的每一個顧客都有兩種選擇,既可以選擇坐在已經(jīng)有人的桌子上,也可以選擇找到一張新的桌子坐下,而選擇的標(biāo)準(zhǔn)就是坐在同一張桌子的顧客都喜歡吃桌上的同一盤菜。則此后到來的第n個顧客選擇在已經(jīng)有nk人坐下的第k張桌子坐下的概率計算如式2-3probabilityk=nkα+n?1而該顧客選擇在一張沒人坐的新桌子坐下的概率計算如式2-4:probabilitynew=αα+n?1由此可見預(yù)設(shè)參數(shù)α的值會影響顧客選擇兩種方式的概率大小,這個參數(shù)數(shù)值越大,則顧客坐到一張沒有人的新桌子上的概率也就隨之變大。在實際的聚類操作中,選擇落座的顧客就代表著那些依次到來的新數(shù)據(jù),桌子則表示各簇,那些坐到同一張桌子的顧客就意味著那些被聚類到同一個微簇的數(shù)據(jù),他們都喜歡同一道菜則說明這些數(shù)據(jù)之間具有較高的相似性。這樣就可以用一個中餐館顧客落座的問題非常形象的解釋基于狄利克雷模型對先驗參數(shù)建模得到的概率圖模型所實現(xiàn)的聚類過程。波利亞缸(Polyaurn)模型不同于中餐館過程的顧客落座假設(shè),波利亞缸模型描述的是一種球、缸假設(shè)。它是假設(shè)有一個空缸,以及一個顏色分布H,第一次只能選擇從顏色分布里選取一個顏色涂在球上扔進缸中,而在之后的每一次則都可以有兩種選擇:(1)從缸中隨機抽取一個球后放入兩個同色球,其概率計算如式2-5:probabilitycolor=ncolorα+n?1其中,ncolor代表缸中涂有顏色color的球的個數(shù),n-1代表缸中球的個數(shù),α(2)從顏色分布H中選取新的顏色涂在一個新的球上放入缸中,其概率計算如式2-6:probabilitynew=αα+n?1從上式可以很明顯的看出波利亞缸(Polyaurn)模型與中餐館過程其實存在著對應(yīng)關(guān)系。在波利亞缸模型中的顏色其實就對應(yīng)著中餐館模型中的桌子,選擇摸球并放入兩個同色球的操作其實就相當(dāng)于中餐館模型中新來的顧客選擇一個已經(jīng)有人的桌子坐下的過程,選擇選取新的顏色涂到小球加入缸中就類似于中餐館模型中顧客選擇一個新的空桌子坐下的行為。因此,波利亞缸模型同樣可以很好的描述聚類問題。2.2數(shù)據(jù)流挖掘的基本知識聚類作為數(shù)據(jù)流挖掘的一種重要方法,屬于無監(jiān)督算法的一種,它能夠在數(shù)據(jù)沒有標(biāo)簽的情況下自動的將數(shù)據(jù)劃分成我們所需要的幾類,因此一直被廣泛運用于各個領(lǐng)域內(nèi)。它可以根據(jù)聚類示劃分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)不同大致分為五類,分別是基于劃分、層次、密度、網(wǎng)格和其他對數(shù)據(jù)進行劃分。而k-means算法及層次聚類作為兩種較為常用的方法,時常出現(xiàn)在各項研究中。2.2.1k-means聚類k-means聚類在開始前需要確定最終聚類得到的簇個數(shù)k,并隨機初始化k各數(shù)據(jù)點作為簇的質(zhì)心。在此后,對集合中的每個除了質(zhì)心的點計算它與所有質(zhì)心的距離,并將它們劃分到距離最近的那個質(zhì)心歸屬的集合中去。當(dāng)所有的數(shù)據(jù)都被歸屬到某個集合后,重新計算k個集合的質(zhì)心,如果重新計算得到的質(zhì)心與之前的質(zhì)心間的距離符合我們的需求,也就是說小于實現(xiàn)設(shè)定的某個閾值,則算法就結(jié)束了,得到的k個集合就是數(shù)據(jù)的最終劃分結(jié)果。因為k-means聚類本質(zhì)上是要最小化平方誤差,也就是每個數(shù)據(jù)點到其所屬集合質(zhì)心的距離之和最小,所以當(dāng)完成一次劃分后新求得的質(zhì)心與原本質(zhì)心之間的距離較大時,則說明該種劃分方式并沒有達(dá)到較為理想的效果,就需要利用新求得的k個質(zhì)心作為基礎(chǔ),迭代的重復(fù)上述的步驟,直到最終的結(jié)果小于設(shè)定的閾值,符合我們的預(yù)期為止。k-means作為一種被廣泛運用的聚類算法,具有許多顯著的優(yōu)勢。比如,它的原理簡單,容易實現(xiàn),參數(shù)少,收斂速度也非常的迅速,并且聚類得到的簇種的數(shù)據(jù)點也較為密集。但同時,它唯一的參數(shù)k需要預(yù)先給定,無法對許多現(xiàn)實存在的持續(xù)增加的數(shù)據(jù)進行聚類,且初始化的質(zhì)心對聚類結(jié)果有著較大的影響,所以在設(shè)定時需要十分謹(jǐn)慎,最終得到的結(jié)果也僅僅只是局部最優(yōu)解。2.2.2層次聚類層次聚類則可以很好的規(guī)避k-means需要預(yù)先設(shè)置簇個數(shù)k值以及選擇初始化k個質(zhì)心的問題。如同它的名字一般,層次聚類就是要對數(shù)據(jù)一層一層的進行聚類,既可以自下而上的凝聚,也可以是自上而下的分割。由于在本文中運用到的理論主要與凝聚法相關(guān),所以分割法就不作過多闡述了。層次聚類凝聚法的思想是在一開始的時候就直接將每一個數(shù)據(jù)點當(dāng)作一個獨立的類簇結(jié)構(gòu),計算兩個類簇之間的距離,找到距離最小的兩個類簇進行合并,形成一個新的類簇,通過重復(fù)上述的步驟對所有的類簇不斷進行合并,直到達(dá)到預(yù)期的結(jié)果為止,這個預(yù)期結(jié)果可以是對簇數(shù)目的約束也可以是對合并時簇間距離的約束。層次聚類相較于其他聚類方法的最大優(yōu)勢在于它可以一次得到最終的聚類結(jié)果,不需要進行多次的迭代,也不需要預(yù)設(shè)任何的初值。但它有一個與k-means相同的缺點,那就是由于它使用了貪心算法,得到的最終結(jié)果也僅僅只是局部最優(yōu)解,并不一定是全局最優(yōu)解。2.3Glove模型在涉及自然語言處理的工作中大都會用到wordembedding來獲得單詞在空間中的向量表示,隨著對該領(lǐng)域的工作不斷深入,在獲得優(yōu)質(zhì)的詞向量方面的需求不斷增加,訓(xùn)練詞向量的方法也不再局限于最簡單的one-hot方式。而在這里將要介紹的既不是由DeerwesterS等人在1990年首次提出的利用文本的全局統(tǒng)計特征基于奇異值分解的LSA算法[8],也不是利用局部的上下文特征通過滑動窗口來計算獲得詞向量的word2vec算法,而是結(jié)合了以上兩種算法的特點,由JeffreyPennington等人在2014年提出的同時包含了語料庫的全局統(tǒng)計特征以及局部的上下文特征的無監(jiān)督詞向量訓(xùn)練方法Glove模型[9]。Glove模型中引入了表示單詞與單詞之間在文本中共同出現(xiàn)的次數(shù)關(guān)系的共現(xiàn)矩陣X,在共現(xiàn)矩陣中出現(xiàn)的元素Xij表示的是單詞j出現(xiàn)在單詞i的上下文中的次數(shù),而Xi則表示單詞i上下文中所有單詞總共出現(xiàn)的次數(shù)。因此,單詞j出現(xiàn)在單詞i的上下文中的概率就可以表示如式子2Pij=Xij因此,Glove模型就構(gòu)造出了共現(xiàn)概率矩陣(Co-occurrenceProbabilitiesMatrix),利用三個單詞i、j、k之間的Ratio來表示它們之間的相關(guān)性,而Ratio的計算方式如式2-8:Ratio=PikPij也就是說,Glove模型訓(xùn)練得到的單詞i、j、k的詞向量必須包含共現(xiàn)概率矩陣中的信息,那么這三個向量在通過某種特定的函數(shù)進行變換后所表現(xiàn)出來的規(guī)律要和Ratio是一致的。從提出Glove模型的文章中可以看出,Glove模型因為結(jié)合了LSA和word2vec的優(yōu)點,克服了LSA計算代價大、對所有單詞權(quán)重一致的問題,同時解決了word2vec沒有充分利用全部語料特征的缺陷,使得其呈現(xiàn)出來的性能遠(yuǎn)超其他兩種方法。在使用Glove模型時,既可以利用自己的語料庫進行訓(xùn)練,也可以使用官方提供的預(yù)訓(xùn)練詞向量。當(dāng)前,已經(jīng)有基于多種數(shù)據(jù)集如維基百科、推特等訓(xùn)練得到的多種維度的預(yù)訓(xùn)練詞向量可供使用。2.4本章小結(jié)本章主要介紹了在研究過程中設(shè)計的相關(guān)概念,并就使用到的技術(shù)進行了簡要概述。主要涉及了概率圖模型以及狄利克雷過程的兩種常見理解,即中餐館過程(ChineseRestaurantProcess)以及波利亞缸(Polyaurn)模型、數(shù)據(jù)流挖掘領(lǐng)域用來處理無標(biāo)簽數(shù)據(jù)劃分的兩種常用聚類算法,k-means聚類及層次聚類、用于訓(xùn)練詞向量的無監(jiān)督算法模型Glove。第三章基于數(shù)據(jù)流挖掘的熱點事件檢測方法研究基于前面所提及的相關(guān)概念及技術(shù),本文提出了一種基于數(shù)據(jù)流挖掘的熱點事件檢測方法,圖3-1描述了該方法檢測熱點事件的總體流程,其包括文本文件處理模塊、基于概率圖模型聚類模塊、微簇維護模塊以及事件檢測模塊。圖3-1基于數(shù)據(jù)流挖掘的熱點事件檢測方法檢測流程3.1文本文件預(yù)處理文本文件預(yù)處理模塊要在每條文本文件數(shù)據(jù)到來時先對其進行預(yù)處理以便于后續(xù)模型對文本信息的利用。此步驟需要在每個文件原有信息的基礎(chǔ)上獲取其統(tǒng)計信息,并將它們作為文件的特征存儲起來,并傳入模型的下一個模塊。文本文件預(yù)處理模塊具體的執(zhí)行流程如圖3-2所示。圖3-2文本文件預(yù)處理流程當(dāng)一條短文本數(shù)據(jù)傳入模型時,首先將這個文本文件所包含的完整句子拆分成單個單詞并按原順序存儲到一個列表中,并為未在模型中出現(xiàn)的單詞分配id號,為了便于存儲和之后的訪問,單詞的id號由模型進行統(tǒng)一的統(tǒng)計單詞詞頻及詞對的共現(xiàn)分?jǐn)?shù)作為文本文件的特征存儲。詞對的共現(xiàn)分?jǐn)?shù)cwij體現(xiàn)的是單詞之間的關(guān)聯(lián)關(guān)系,其計算公式如3-1cwij=freifre其中,frei和frej表示在這個文本文件中單詞i和然后將根據(jù)每個單詞的詞性及上下文信息將所有單詞劃分成10種詞性類,分別是名詞類、動詞類、代詞類、形容詞類、數(shù)詞類、副詞類、冠詞類、介詞類、連詞類和感嘆詞類,每個單詞在每個分類中僅可出現(xiàn)一次,將分類得到的結(jié)果作為該文本文件的特征之一存儲起來。也就是說經(jīng)過預(yù)處理模塊得到的文本文件除了包含原本的句子信息,如文件序號、句子內(nèi)容、用于檢驗?zāi)P托Ч姆诸悩?biāo)簽外,還增加了各個單詞對應(yīng)的詞頻信息、詞對共現(xiàn)分?jǐn)?shù)信息以及詞性類劃分結(jié)果。在完成文本文件預(yù)處理后將其傳入模型中保存。3.2基于概率圖模型聚類對完成預(yù)處理的文本文件采用根據(jù)中餐館過程(ChineseRestaurantProcess)作為先驗概率進行建模得到的概率圖模型進行聚類。此過程是基于KumarJay等人的OSDM模型[10]改進得到的。在此聚類過程中需要用到的文本信息僅僅是文件序號及經(jīng)過文本預(yù)處理得到的統(tǒng)計信息,而其具體的句子內(nèi)容在此過程中則不再需要。具體的聚類過程如圖3-3所示。圖3-3基于概率圖模型聚類流程當(dāng)預(yù)處理后的文本文件輸入到模型中后,將通過公式3-2求得文件d聚類到各個已有微簇z的概率大小,同時通過公式3-3可求得文件d單獨聚類形成一個新的微簇的概率大?。簆zd=z=pzd=new=式3-2分為三個部分相乘,式子3-3則分為兩個部分,它們與式3-2的前兩個部分具有相同的含義。第一部分利用中餐館過程(CRP)對聚類到各個集群的先驗概率進行建模,用于表示聚類集群的完整性,而包含超參數(shù)β的第二部分描述了需要聚類的文件與各個微簇間的同質(zhì)性,即其在文本統(tǒng)計信息間的相似性,并且在這一過程中會對那些具有代表性的單詞進行獎勵,僅存在于式子3-2中的第三部分則描述了文件d與微簇z中的詞對共現(xiàn)信息的權(quán)重大小,也就是說同時出現(xiàn)在文件d中及微簇z中的詞對越多,文件d越可能被聚類到微簇z中。兩式中的各個字符含義如下表3-1所示:表3-1公式3-2及3-3中各字符含義字符名稱含義w、d、z單詞、文件、微簇n微簇z已經(jīng)包含的文件個數(shù)D整個模型仍在維護的活躍微簇中文件總個數(shù)α集中參數(shù),其值越大新到文件聚類形成新微簇的概率大小相對于聚類到某個已有微簇的概率大小也會越大,更易聚類為一個新微簇。β超參數(shù),弱化0值的影響V當(dāng)前模型中維護的詞典大小,即所有活躍微簇中存在的不同單詞的個數(shù)n分別表示在文件d和微簇z中單詞w的出現(xiàn)頻次大小n分別表示在文件d和微簇z中的單詞總數(shù)量lcf表示單詞w的全局代表性大小,即單詞的特異性程度cw單詞i與單詞j在微簇中的詞對共現(xiàn)權(quán)重其中代表單詞的特異性程度的lcfw和微簇的詞對共現(xiàn)權(quán)重cwij的計算方式如式子3-4和3lcfw=log|Z|cwij=在計算時cwij時僅將那些同時出現(xiàn)在文件d和微簇z的單詞wi及wj當(dāng)分別計算得到新到文本文件聚類到各個已有微簇的概率大小以及單獨聚類形成一個新的微簇的概率大小后,通過比較選出概率最大的微簇進行聚類。如果聚類形成新微簇的概率最大,則首先從模型中獲取新微簇的id號以此初始化一個新的微簇,再將文本文件添加到該微簇中。將文本文件加入到指定微簇的實施過程如算法3-1所示:算法3-1聚類文本文件d到指定微簇z輸入:文本文件d、指定微簇z序號輸出:完成聚類信息更新后的微簇z更新微簇z的時戳I_cl為最新文件序號更新微簇z的衰退權(quán)重I_cd為1.0在文件與微簇的對應(yīng)字典中加入文件d與微簇z的對應(yīng)關(guān)系將文件d加入到微簇z的文件列表I_cnfor單詞w1in更新單詞w1if單詞w1not在微簇的詞頻表及詞對共現(xiàn)矩陣分配單詞w1將微簇z中單詞w1的詞頻加上文件d中的單詞w在微簇z的總單詞數(shù)量上加上文件d中的單詞w1for單詞w2inif單詞w1不是wif單詞w2notin微簇z的詞對共現(xiàn)矩陣單詞將文件d的w1和welse將文件d的w1和w將不存在于微簇z詞性分類對應(yīng)位置的文件d中的單詞對應(yīng)添加到微簇z中更新微簇z的文件增量inc,在其值加上1在算法3-1中,最后更新的微簇的文件增量信息inc存儲的是微簇z在上次更新微簇的特征向量及關(guān)鍵詞信息后聚類到微簇中的文件個數(shù)。由于更新微簇的特征向量及關(guān)鍵詞需要花費大量的時間,且當(dāng)微簇包含的文件數(shù)量越來越多時,少量的文件聚類進去并不會造成微簇的特征向量和關(guān)鍵詞的改變,所以,有文本聚類到微簇中時僅需要記錄下微簇距離上次更新特征向量和關(guān)鍵詞的文件增量數(shù),在后續(xù)流程中以此為依據(jù)判定是否有必要進行更新,即可在較小的影響范圍內(nèi)節(jié)約較多的時間。3.3基于數(shù)據(jù)流挖掘的方法維護微簇在通過概率圖模型完成了文本文件的初步聚類后,就會得到若干個微簇。不同的人在描述同一事件時由于表達(dá)差異,最終得到的文本也會有較大差異。所以這些微簇既可能分別代表一個獨立的事件,也可能由多個微簇構(gòu)成一個事件。且在聚類的過程中,由于一些噪聲詞的影響就可能導(dǎo)致單個文本文件聚類到錯誤的微簇中,如果不將這些錯誤聚類的內(nèi)容剔除,將會對后續(xù)的聚類過程產(chǎn)生較大的影響。所以,利用微簇的特征向量等信息,結(jié)合數(shù)據(jù)流挖掘的方法對完成初步聚類的微簇進行維護就顯得尤為必要。對微簇的具體維護內(nèi)容可分為三個部分,包括:過時微簇的刪除、聚類錯誤的剔除以及相似微簇的融合。其中,過時微簇的刪除是在每次進行文本文件聚類前進行的,其主要的執(zhí)行過程分為兩步:對所有微簇的過時檢測和輸出檢出的過時微簇。具體的執(zhí)行過程如算法3-2及3-3所示:算法3-2過時微簇的檢測輸入:模型的信息、微簇的衰退系數(shù)LAMDA輸出:更新后的模型信息初始化過時微簇的閾值threshold以及待刪除微簇詞典for微簇in模型的所有微簇:讀取微簇最后一次更新的時戳lastupdate及微簇的衰退權(quán)重cd根據(jù)當(dāng)前的時戳timestamp計算衰退量power=2計算并存儲微簇新的衰退權(quán)重cd=cd*powerifcd<threshold:將微簇id作為鍵,微簇信息作為值存入待刪除微簇詞典for微簇id及微簇信息in待刪除微簇詞典:刪除微簇算法3-3過時微簇的刪除輸入:模型信息、過時微簇z的id、過時微簇z信息輸出:更新后的模型信息if微簇idin模型已經(jīng)檢測到的事件列表中:從模型事件列表中將微簇信息刪去,并將這一情況輸出for單詞win微簇z的詞頻字典:從模型的單詞-微簇對應(yīng)關(guān)系表中刪除單詞w與微簇z的對應(yīng)關(guān)系篩選出微簇z中包含單詞w的文件,放入列表listOfDocToDeletefor文件inlistOfDocToDelete:從模型的單詞-文件對應(yīng)關(guān)系表中刪除單詞w與文件的對應(yīng)關(guān)系if模型中不再包含單詞w:從模型的各項表單中刪除單詞w的相關(guān)信息for文件in微簇z的文件列表:從模型存儲的所有文件完整信息中將文件刪去從模型各項表單(除存儲過時刪除信息的表單)中將與文件相關(guān)的信息刪去將文件加入到模型存儲過時刪除信息的表單if微簇idin模型中存儲的聚類錯誤剔除微簇-文件對應(yīng)關(guān)系表:for文件in微簇z中因聚類錯誤剔除刪除的文件列表:將文件加入到模型存儲過時刪除信息的表單從微簇z中因聚類錯誤剔除刪除的文件列表刪除微簇id對應(yīng)鍵值對從模型中刪除微簇z的信息而其余兩種對微簇的維護,即聚類錯誤的剔除以及相似微簇的融合均發(fā)生在文本文件聚類完成時,且由于單個文本文件的聚類進入到一個微簇中并不會對微簇在空間的分布產(chǎn)生較大影響,同時為了節(jié)約微簇維護所花費的時間,僅當(dāng)微簇聚類完成時包含文件條數(shù)是10的倍數(shù)才進行融合檢測及對應(yīng)的融合操作。而當(dāng)微簇包含的數(shù)量小于一定數(shù)量時并不能很好的確定該微簇真正描述的主要事件,所以,僅當(dāng)一個微簇數(shù)量大于20時,我們才會在融合相關(guān)操作執(zhí)行完成后進行聚類錯誤剔除操作。而進行聚類錯誤剔除的對象會因為是否進行了融合操作而不同,若未進行融合操作,則對象為完成聚類的當(dāng)前微簇,若進行了融合操作,則對象為融合形成的新的較大微簇。具體的判定邏輯如圖3-4所示:圖3-4執(zhí)行聚類錯誤剔除及相似微簇融合的判定邏輯在進行融合檢測時,將結(jié)合數(shù)據(jù)流挖掘的方法,利用微簇在空間中的分布情況,基于微簇的特征向量檢測微簇之間的相似度,通過與融合閾值F_THRESHOLD進行比較判定是否需要進行微簇融合。而微簇的特征向量和關(guān)鍵詞的更新僅發(fā)生在微簇融合檢測和事件檢測兩個步驟中。在計算微簇的特征向量時,首先需要分別計算出微簇的十個詞性分類中每個單詞對微簇的代表性大小,然后從每個詞性分類中選出五個最能代表微簇在這一詞性維度特征的單詞,當(dāng)微簇在這一詞性維度包含的單詞不足五個時,則將這一詞性維度的單詞全部選入。單詞對微簇代表性大小的計算方式如式子3-6所示:Rw→z=nzw其中,nzw為單詞w在微簇z中的出現(xiàn)頻詞大小,它代表的是單詞w在微簇中的重要程度,是單詞w對微簇z的局部代表性大小,而代表單詞的特異性程度的lcfw當(dāng)篩選出每個詞性維度最具有代表性的數(shù)個單詞后,在每個詞性維度的范圍內(nèi)對這些單詞的Rw→z進行歸一化,將其轉(zhuǎn)化為計算微簇z在該詞性維度的特征向量的權(quán)重,并利用在Twitter數(shù)據(jù)集預(yù)訓(xùn)練好的Glove模型得到單詞的詞向量,當(dāng)該單詞在預(yù)訓(xùn)練Glove模型的詞典中不存在時,則利用python的enchant庫取得該單詞的相似單詞作為代替,根據(jù)對應(yīng)的權(quán)重加權(quán)求和得到微簇z在此維度的特征向量,最后將這些向量按序拼接形成一個250而微簇的關(guān)鍵詞則相當(dāng)于求取微簇特征向量過程中的副產(chǎn)物,它是在篩選每個詞性維度的代表性單詞時,不區(qū)分維度的將所有單詞及其代表性大小以字典形式進行存放。需要注意的是,每個單詞只會被存放一次。當(dāng)微簇的所有受檢單詞都存入字典后,對單詞的代表性大小進行排序,最終篩選出對微簇的代表性排名前10的單詞作為微簇的關(guān)鍵詞,在這些關(guān)鍵詞中就隱含了該微簇所屬事件的主題信息。需要注意的是,因為微簇的文件增量inc記錄的是微簇在每次更新微簇的特征向量和關(guān)鍵詞后聚類的文件個數(shù),所以每次對微簇的特征向量和關(guān)鍵詞進行更新操作后,都要將微簇的文件增量inc清0,使其重新進入新的累計周期。在取得被檢微簇的最新特征向量后,融合檢測要求出模型中所有包含文件數(shù)量大于10條的微簇特征向量與當(dāng)前被測微簇的特征向量之間的余弦相似度,將那些余弦相似度值大于預(yù)設(shè)閾值F_threshold的微簇存放在一個列表中,最終選擇出列表中余弦相似度值最高的那個微簇與被測微簇進行融合。這一方式類似于數(shù)據(jù)流挖掘中的層次聚類,將基于概率圖模型聚類得到的微簇視作一個個數(shù)據(jù)點,每次總是從達(dá)到融合閾值的微簇中選擇余弦相似度值最大的兩個微簇進行融合。在對兩個微簇進行融合時,要根據(jù)其優(yōu)先級選擇將哪個微簇作為被融合微簇融合到另一個融合微簇中,一般認(rèn)為存在于模型的事件列表中的事件微簇比普通微簇具有較高優(yōu)先級,將作為融合微簇保留下來。而融合過程的操作則類似于文本文件的聚類過程與刪除舊微簇過程的結(jié)合,具體的步驟如算法3-4所示::算法3-4相似微簇的融合輸入:模型信息、需要融合的微簇z1和輸出:融合完成后的微簇clu1根據(jù)優(yōu)先級從微簇z1和z2中選擇出融合微簇clu將clu1和clu2中更大的最新時間戳cl及衰退權(quán)重cd作為融合后微簇for文件idinclu2將文件id與微簇的對應(yīng)關(guān)系表值從clu2修改為將文件id加入到clu1for單詞w1inclu更新單詞w1與微簇cluif單詞w1notin微簇clu在微簇clu1的詞頻表及詞對共現(xiàn)矩陣分配單詞w在微簇clu1的單詞w1的詞頻上加上微簇clu2在微簇clu1的總單詞數(shù)量上加上微簇clu2中的單詞for單詞w2in微簇cluif單詞w1不是wif單詞w2notin微簇clu1將微簇clu2的w1和w2else將微簇clu2的w1和w2將不存在于微簇clu1詞性分類對應(yīng)位置的微簇clu1中的單詞對應(yīng)添加到微簇將模型中微簇clu2因聚類錯誤剔除而刪去的文件信息轉(zhuǎn)存到微簇clu刪除模型中存儲的微簇clu2if微簇clu2將微簇clu2計算并更新微簇clu1在對微簇執(zhí)行聚類錯誤剔除時,剔除關(guān)鍵詞需要滿足三個條件:①不是無關(guān)詞,即不是那些所有微簇都可能出現(xiàn)的冠詞介詞等信息,可根據(jù)lcfw大小進行判斷;②該詞在其他微簇占比更重且具有相對高頻,即該詞在其他微簇出現(xiàn)的文件數(shù)量占簇總文件數(shù)比例更高,且數(shù)量大于被檢微簇的lcf對選定的潛在聚類錯誤文件進行剔除的具體操作如算法3-5所示:算法3-5潛在錯誤聚類文件剔除輸入:模型信息、需要剔除的文件doc和所在微簇z輸出:剔除完成后的微簇z及更新后的模型信息從模型中讀出需要剔除的文件具體信息從模型的文件-微簇對應(yīng)關(guān)系字典中刪去文件doc的id與微簇z的對應(yīng)關(guān)系從微簇z的文件列表中刪去文件doc的idfor單詞win文件doc的詞頻表:從模型的單詞-文件對應(yīng)關(guān)系字典中將文件doc的id刪去從微簇z的單詞w詞頻中將文件doc包含的單詞w詞頻減去從微簇z的總單詞量中將文件doc包含的單詞w詞頻減去if微簇z中單詞w的詞頻等于0:從模型的單詞-微簇對應(yīng)關(guān)系字典中將微簇z刪去刪去微簇z的詞對共現(xiàn)矩陣中單詞w的對應(yīng)空間else:for單詞w2in文件doc的詞頻表:if單詞w不是單詞w2:從微簇z單詞w與w2的共現(xiàn)權(quán)重減去文件doc中它們的共現(xiàn)權(quán)重if微簇z中單詞w與w2的共現(xiàn)權(quán)重等于0:從微簇z的詞對共現(xiàn)信息中刪去單詞w與w2的共現(xiàn)關(guān)系if模型中單詞w不再有對應(yīng)的文件存在:刪去模型中與單詞w相關(guān)的所有列表信息將模型中存儲的文件doc的詳細(xì)信息刪去將文件doc的id存儲到模型用于存儲由聚類錯誤剔除的文件信息的微簇-文件關(guān)系字典中結(jié)合數(shù)據(jù)流挖掘的方法,經(jīng)過過時微簇的刪除,相似微簇融合以及聚類錯誤剔除三個步驟,一次完整的微簇維護流程就完成了。如果維護完成的微簇還不存在于模型的事件列表中同時滿足特定的條件,則會對該微簇進行事件檢測,以判斷該微簇是否可能時一個獨立的新事件。3.4事件檢測基于對熱點事件的理解,我們認(rèn)為僅當(dāng)人們對一個討論對象的討論數(shù)量大于一定程度且不同于先前的討論對象時,才可以認(rèn)為它是一個被人們所關(guān)注的熱點事件,所以事件檢測也僅發(fā)生在完成聚類錯誤剔除的微簇對象上。判斷一個微簇是否是一個獨立事件的評判標(biāo)準(zhǔn)決定了最終的事件檢測效果。本文基于對熱點事件的理解,認(rèn)為當(dāng)一個微簇能夠被進行事件檢測時則意味著它滿足人們對其討論數(shù)量大于一定程度這一要求,而它與先前討論對象的差異則可基于數(shù)據(jù)流挖掘的方法,通過計算該微簇的特征向量與已經(jīng)檢測到的事件之間的余弦相似度進行判定。具體的事件檢測操作如算法3-6所示:算法3-6事件檢測輸入:模型信息、被檢微簇z、獨立閾值THRESHOLD輸出:更新事件集合后的模型信息if模型中的事件字典為空:if微簇z的文件增量inc不為0:更新微簇z的特征向量和關(guān)鍵詞將被檢測微簇z的id-關(guān)鍵字以鍵值對形式加入模型事件字典將檢測到的事件微簇id及關(guān)鍵詞輸出else:if微簇z的文件增量inc不為0:更新微簇z的特征向量和關(guān)鍵詞設(shè)置標(biāo)志new為Truefor微簇clusin模型的事件字典:if微簇clus的文件數(shù)小于微簇clus的文件增量inc的20倍:更新微簇z的特征向量和關(guān)鍵詞if微簇clus與微簇z特征向量間的余弦相似度大于THRESHOLD:置標(biāo)志new為Falseif標(biāo)志new為True:將被檢測微簇z的id-關(guān)鍵字以鍵值對形式加入模型事件字典將檢測到的事件微簇id及關(guān)鍵詞輸出3.5本章小結(jié)本文提出了一種結(jié)合概率圖模型和數(shù)據(jù)流挖掘的熱點事件檢測方法,首先通過概率圖模型對預(yù)處理后以數(shù)據(jù)流形式到來的短文本文件進行聚類,每個到來的文本文件只會有兩種類型的聚類結(jié)果:聚類到已有微簇或單獨形成一個微簇,最終的聚類結(jié)果由概率圖模型計算得到的概率決定。隨后,將基于數(shù)據(jù)流挖掘的方法對聚類的到的若干微簇進行維護,主要分為三個維護步驟:刪除過時微簇、相似微簇融合及聚類錯誤剔除,以控制模型種集群數(shù)量,節(jié)約存儲空間,同時刪除前一步產(chǎn)生的錯誤聚類結(jié)果對后續(xù)聚類的消極影響。最后,將基于微簇的空間分布從模型維護的微簇中檢測出當(dāng)前人們關(guān)注的熱點事件,并得到其事件關(guān)鍵字以展示其事件內(nèi)容。參考文獻第四章實驗結(jié)果及分析4.1實驗相關(guān)內(nèi)容4.1.1實驗數(shù)據(jù)集及評估指標(biāo)實驗采用了兩個真實數(shù)據(jù)集及兩個綜合數(shù)據(jù)集,其具體信息如下:News:在2014年由JianhuaYin[11]等人為短文本聚類模型而收集而來,并由KumarJay等人[10]對其進行一系列數(shù)據(jù)清洗操作,如刪去停用詞、將所有字母轉(zhuǎn)換成小寫等后得到的。其內(nèi)容為屬于152個主題的11109個新聞標(biāo)題。Tweets:此數(shù)據(jù)集存在于TRECmicroblog/data/microblog.html上,包含了與269個主題相關(guān)聯(lián)的30322/data/microblog.htmlNews-TC和Tweets-TC:由KumarJay等人在[10]一文中對News和Tweets根據(jù)主題進行排序后,分別分為16個大塊后再對每個塊內(nèi)數(shù)據(jù)打亂順序后得到。本次實驗對模型聚類效果采用的評估指標(biāo)有五種,分別為:歸一化互信息(NMI)、同質(zhì)性(Homogeneity)、同質(zhì)性與完整性的調(diào)和平均值(V-Measure)、聚類準(zhǔn)確性(Accuracy)、微簇純度(Purity)。其中歸一化互信息評估了整個模型的聚類質(zhì)量;好的聚類結(jié)果應(yīng)該是每個微簇只包含一類數(shù)據(jù),此為同質(zhì)性,同時每一類數(shù)據(jù)也僅被聚類到一個單一微簇中,此為完整性,但是同質(zhì)性和完整性往往難以兼顧,所以同質(zhì)性和完整性的調(diào)和平均(V-Measure)能夠反映出二者的綜合情況。上述五種評估指標(biāo)得分均在[0,1]區(qū)間,其值越接近于1則說明模型在這一評估方面表現(xiàn)越好。4.1.2實驗采用的參照模型本次實驗分別采用了五種模型作為參照模型,下面是對它們的簡短介紹:DTM:由D.M.Blei等人在2006年提出的[1]動態(tài)主題模型,其被用于處理一系列有序文件的聚類問題。Sumblr:由LidanShou等人在2013年提出的[12]一種在線的推文聚類模型,它僅通過單向的一輪處理就能夠有效的聚類并維護好集群的信息。DMM:由JianhuaYin等人在2014年提出的[11]用于短文本聚類的狄利克雷多項式混合模型,其不將數(shù)據(jù)對時間的依賴性考慮在內(nèi)。MStreamF-O(MF-O):由JianhuaYin等人在2018年提出的[13]用于一次處理一批包含無限潛在主題的短文本的兩種模型之一,其的特點是一次性完成聚類的過程。OSDM:由KumarJay等人[10]在2020年發(fā)表于ACL的文章中提出的一種基于概率圖模型進行短文本數(shù)據(jù)流聚類的模型,其在短文本流聚類領(lǐng)域處于較為先進的水平。本文中提及的上述五種模型在News、Tweets及News-TC三種數(shù)據(jù)集上的五種指標(biāo)結(jié)果參考KumarJay等人在[11]通過反復(fù)實驗得到的最佳結(jié)果。4.2實驗結(jié)果及分析在實驗過程中,我們將參數(shù)α設(shè)置為0.002,參數(shù)β設(shè)置為0.0004,而衰退系數(shù)LAMDA設(shè)置為0.000006。模型中涉及的兩個閾值:事件的獨立閾值設(shè)置為0.707,其為45度的余弦值保留三位小數(shù)得到,而在經(jīng)過實驗后從0.750和0.866中選擇出了具有更好事件檢測結(jié)果的0.866作為微簇的融合閾值,其為30度的余弦值保留三位小數(shù)得到。由于眾多事件檢測算法所基于的數(shù)據(jù)結(jié)構(gòu)不同,大多數(shù)的模型所使用的數(shù)據(jù)都由研究人員自行收集和構(gòu)造得到,無法直接進行比較,所以接下來將依次展示本文所提出的模型在聚類及最終熱點事件檢出方面的效果。在表4-1中展示了本文提出的模型HEDBDSM與前面提到的五種參照模型在News、Tweets、News-TC及Tweets-TC四種數(shù)據(jù)集上得到的聚類效果在NMI、Homogeneity、V-Measure、Purity和Accuracy五種聚類模型的評價指標(biāo)上的得分:表4-1本文模型HEDBDSM與參照模型在五種評價指標(biāo)上的得分 Alg.Eva.NewsTweetsNews-TCTweets-TCHEDBDSMOSDMMF-OSumblrDTMDMMNMI0.8120.8150.6850.5750.8080.5860.8530.8360.7460.6980.8000.6360.8660.8580.8030.7230.8100.5820.8740.8470.822//0.269HEDBDSMOSDMMF-OSumblrDTMDMMHomogeneity0.8270.9510.6540.5470.8330.5880.9080.9360.6950.7580.8220.6220.8980.9000.7780.7470.8370.5650.9350.9390.798//0.275HEDBDSMOSDMMF-OSumblrDTMDMMV-Measure0.8110.8050.6840.5750.8080.5860.8510.8310.7440.6960.8000.6360.8670.8570.8030.7230.8100.5820.8720.8420.821//0.269HEDBDSMOSDMMF-OSumblrDTMDMMPurity0.7150.9070.5520.4140.7670.4560.8570.8900.5290.6090.7490.4730.8450.8510.6360.5800.7650.3980.8980.9140.658//0.175HEDBDSMOSDMMF-OSumblrDTMDMMAccuracy0.7150.8800.4200.6060.6470.3340.6620.6650.2460.5390.2460.1500.7720.7690.5840.6530.2940.0730.6640.5650.753//0.131表4-1中加粗的結(jié)果為在列所對應(yīng)的數(shù)據(jù)集、行所對應(yīng)的指標(biāo)上表現(xiàn)最好的一項。從表中可以看出,在算法聚類效果的總體評價指標(biāo)NMI及同質(zhì)性和完整性的調(diào)和平均V-Measure這兩項對模型的聚類能力有較為整體的評估的指標(biāo)上,本文提出的模型在四個數(shù)據(jù)集上幾乎都有最好的聚類表現(xiàn)。而在其他三個指標(biāo)上,本文所提出的模型也與表現(xiàn)最優(yōu)的模型之間的得分差距并不大。尤其是在News-TC及Tweets-TC這兩個根據(jù)現(xiàn)實事件發(fā)展情況做出了調(diào)整的數(shù)據(jù)集上,我們的模型HEDBDSM有較為突出的表現(xiàn)。而在熱點事件檢出方面,我們認(rèn)為一個事件從誕生到發(fā)展成為一個熱點事件,必須滿足兩個要求:①討論量達(dá)到一定值;②發(fā)生關(guān)注度的集中增加。因此,我們將以上兩個條件具象化為:①該真實分類至少包含20條文本數(shù)據(jù);②曾經(jīng)在某一段時間內(nèi)該真實分類的文本密集出現(xiàn),這一點將利用滑動窗口進行篩選,滑動窗口越大,表示認(rèn)定密集的時間跨度越大,而屬于該真實分類的文本數(shù)據(jù)在此滑動窗口占比越大,則說明該增長需要達(dá)到的密集程度越大。通過以上兩個具象化的條件,我們利用數(shù)據(jù)本身的真實分類構(gòu)造出在根據(jù)事件發(fā)展情況進行了調(diào)整的數(shù)據(jù)集合News-TC和Tweets-TC上的熱點事件集合(以下簡稱真實熱點事件)與我們所檢測到的熱點事件微簇內(nèi)容進行比較。得到的結(jié)果如下表所示:表4-2在News-TC和Tweets-TC上的熱點事件檢測效果 事件檢測效果滑動窗口占比News-TCTweets-TC檢出率精準(zhǔn)檢出率檢出率精準(zhǔn)檢出率15/10055/60(0.887)51/60(0.850)57/60(0.950)55/60(0.917)20/10040/44(0.909)37/44(0.841)36/39(0.923)34/39(0.872)25/10029/31(0.935)27/31(0.871)25/26(0.962)24/26(0.923)10/3037/40(0.925)34/40(0.850)35/38(0.921)34/38(0.895)15/3011/11(1.000)11/11(1.000)7/7(1.000)7/7(1.000)5/1046/51(0.902)43/51(0.843)52/57(0.912)50/57(0.877)表4-2中的檢出率代表真實熱點事件在我們檢出的熱點事件微簇中有與之相對應(yīng)的微簇的在真實熱點事件中的占比,而精準(zhǔn)檢出率則是在真實熱點事件中滿足檢出率條件的同時,與真實熱點事件對應(yīng)的檢出熱點事件微簇中的主要成員同樣為該真實熱點事件的占比。從表中我們可以看到在兩個數(shù)據(jù)集上,除了當(dāng)滑動窗口最大占比最低的情況,也就是說對熱點事件的集中增長這一條件要求最低的情況下,我們的模型HEDBDSM均能達(dá)到90%以上的熱點事件檢出率,而精準(zhǔn)檢出率也均在84%以上。并且,我們的模型能夠反映出熱點事件討論量實時變化情況以及該事件所對應(yīng)的關(guān)鍵詞,圖4-1中分別展示了在News-TC和Tweets-TC上整個數(shù)據(jù)集所囊括的時間跨度上檢出的熱點事件討論量的變化情況,并對每種顏色所代表的檢出熱點事件對應(yīng)的微簇序號以及關(guān)鍵詞作了標(biāo)注。(a)(b)圖4-1在數(shù)據(jù)集News-TC和Tweets-TC上模型檢出的熱點事件討論量實時變化情況及關(guān)鍵詞(a)在News-TC數(shù)據(jù)集上得到的結(jié)果;(b)在Tweets-TC數(shù)據(jù)集得到的結(jié)果在圖中,如果代表事件討論量的折現(xiàn)急速上升,說明當(dāng)前熱度不斷上升,而當(dāng)折現(xiàn)趨于平緩時則說明已經(jīng)關(guān)注度變少,討論量已經(jīng)幾乎不再增加。當(dāng)折現(xiàn)出現(xiàn)輕微的下降說明模型對該微簇中的可能存在的錯誤聚類數(shù)據(jù)進行了清理,而當(dāng)一個熱點事件出現(xiàn)直線下降的情況時,則說明該事件被模型檢測到過時,也就是沒有關(guān)注度了,就要從模型所維護的數(shù)據(jù)中清理掉。由此可見,HEDBDSM模型能夠直觀的反映出一個事件討論量的變化情況,從而反映出一個事件的熱度變化。模型在提取熱點事件關(guān)鍵詞時,以關(guān)鍵詞的代表性大小按序輸出,排序越靠前的關(guān)鍵詞越重要。以News-TC中檢測到的第一個事件,也就是序號為4的事件微簇為例,其所包含的是真實標(biāo)簽分類為1號的現(xiàn)實事件,經(jīng)過人工檢視,其描述的是日本侵入中國防空識別區(qū),中國軍官予以警示這一事件。從圖4-1中現(xiàn)實的關(guān)鍵詞提取結(jié)果中截取得到圖4-2:圖4-2模型檢測到的序號為4的熱點事件微簇對應(yīng)事件關(guān)鍵詞根據(jù)圖中內(nèi)容,本文所提出的HEDBDSM模型針對這一事件提取出的十個關(guān)鍵詞分別是:“china”、“zone”、“air”、“defense”、“japan”、“bomber”、“disputed”、“airspace”、“island”、“flight”,這十個詞清晰的表述了此熱點事件的發(fā)生對象為中國與日本兩國,以及事件的大致內(nèi)容為中國和日本之間一次有爭議的空域飛行??梢?,HEDBDSM模型能夠較好的提取出能夠較好表述熱點事件內(nèi)容的關(guān)鍵詞。4.3本章小結(jié)本章通過與DTM、Sumblr、MStreamF-O、DMM和OSDM五個模型在News、Tweets、News-TC和Tweets-TC四個短文本數(shù)據(jù)集上的聚類結(jié)果在NMI、Homogeneity、V-Measure、Purity和Accuracy五個聚類算法評價指標(biāo)方面的評分進行比較,展示了本文所提出的模型HEDBDSM對短文本數(shù)據(jù)流具有較好的聚類效果,并且通過表格和圖例的方式,表現(xiàn)了HEDBDSM能夠較為準(zhǔn)確的檢測出短文本數(shù)據(jù)流中隱含的熱點事件及關(guān)鍵詞的能力,取得了預(yù)期的效果。

第五章全文總結(jié)與展望5.1全文工作總結(jié)本文就基于數(shù)據(jù)流挖掘的方法進行熱點事件檢測這一課題進行了研究,提出了一種結(jié)合概率圖模型和數(shù)據(jù)流挖掘的方法基于推特等社交平臺產(chǎn)生的短文本數(shù)據(jù)流進行熱點事件檢測的方法HEDBDSM。此方法首次將數(shù)據(jù)流挖掘的方法與熱點事件檢測這一研究課題結(jié)合起來,是熱點事件檢測領(lǐng)域的一次巨大創(chuàng)新。HEDBDSM模型在聚類效果上相較于短文本流聚類領(lǐng)域處于領(lǐng)先地位的已有算法也具有十分優(yōu)異的表現(xiàn),能夠較為準(zhǔn)確的從龐大的數(shù)據(jù)流中檢測出熱點事件,并抽取出熱點事件的關(guān)鍵詞。5.2后續(xù)工作展望本文提出的HEDBDSM模型雖然達(dá)到了預(yù)期目標(biāo),但由于沒有與之完全匹配的數(shù)據(jù)集用以模型的實驗,不能很好的驗證模型對熱點事件的檢驗?zāi)芰?,同時在獲取微簇的空間特征,計算各個微簇間的空間距離的時候產(chǎn)生了較為大量的計算開銷,對模型處理數(shù)據(jù)的速度產(chǎn)生了一定的影響,針對以上問題,后續(xù)工作將主要分為兩個部分開展:爬取推特數(shù)據(jù)上用戶發(fā)表的短文本數(shù)據(jù),按照討論的事件及事件發(fā)布的時間整理生成適用與HEDBDSM模型的熱點事件檢測數(shù)據(jù)集。改進微簇特征向量的計算策略,減少對微簇空間特征的重復(fù)計算,以提升模型的運行速度,節(jié)省計算開銷。參考文獻BleiDM,LaffertyJD.Dynamictopicmodels[C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論