基于多向量和實體模糊匹配的話題關(guān)聯(lián)識別_第1頁
基于多向量和實體模糊匹配的話題關(guān)聯(lián)識別_第2頁
基于多向量和實體模糊匹配的話題關(guān)聯(lián)識別_第3頁
基于多向量和實體模糊匹配的話題關(guān)聯(lián)識別_第4頁
基于多向量和實體模糊匹配的話題關(guān)聯(lián)識別_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于多向量和實體模糊匹配的話題關(guān)聯(lián)識別    摘要:本文在對新聞報道理論分析及實驗驗證的基礎(chǔ)上,提出一種多向量表示模型,使其在盡量不丟失信息的情況下,對特征集合盡可能細(xì)地劃分?;谠撃P?,本文設(shè)計了一種模糊匹配的方法用于計算命名實體子向量之間的關(guān)聯(lián)度,它們和多個向量相似度一起用支持向量機(jī)進(jìn)行整合,形成報道模型間的相似度。本文選用TDT4中文語料作為測試語料,將上述模型及模糊匹配技術(shù)用于話題關(guān)聯(lián)識別。實驗表明,多向量模型能夠改進(jìn)話題關(guān)聯(lián)識別的性能,模糊匹配技術(shù)也在一定程度上彌補(bǔ)了精確匹配帶來的性能損失。關(guān)鍵詞:計算機(jī)應(yīng)用;中文信息處理;話題關(guān)聯(lián)識別;多向量

2、表示模型;命名實體模糊匹配1引言新聞是一種主要的信息載體,新聞?wù)Z料一直是自然語言處理研究人員關(guān)注的對象。話題發(fā)現(xiàn)與追蹤(Topic Detection and Tracking,TDT)就是以大規(guī)模的新聞?wù)Z料庫為研究對象,該研究通過監(jiān)控新聞報道所描述的話題,來發(fā)現(xiàn)新的用戶感興趣的信息并跟蹤下去,最后將涉及某個話題的報道組織起來以某種方式呈現(xiàn)給用戶。在需要實時高效訪問大容量信息的領(lǐng)域中,TDT具有很大的應(yīng)用價值。作為話題發(fā)現(xiàn)與追蹤的核心技術(shù),話題關(guān)聯(lián)識別的任務(wù)是判斷兩篇報道是否描述了同一個話題。這里的話題指發(fā)生在特定時間、地點的一個核心事件或活動,以及所有與之直接相關(guān)的事件或活動。該任務(wù)被認(rèn)為是

3、其他TDT研究內(nèi)容的基礎(chǔ)和核心關(guān)鍵技術(shù)。目前已有很多機(jī)器學(xué)習(xí)的算法應(yīng)用到話題關(guān)聯(lián)識別中來。主要分為兩類:基于向量空間模型的方法和基于概率模型的方法。兩者各有優(yōu)缺點,其中向量空間模型一直是話題關(guān)聯(lián)識別研究中的主流,它將文本內(nèi)容轉(zhuǎn)換成易于數(shù)學(xué)處理的向量方式,使得各種相似運(yùn)算和排序成為可能,在TDT研究中一直都表現(xiàn)不錯,但是該模型的局限在于其獨立性假設(shè),即向量特征之間是相互獨立的,文本在向量模型轉(zhuǎn)換的過程中丟失了所有的關(guān)聯(lián)信息;而概率模型理論基礎(chǔ)扎實,有較好的發(fā)展?jié)摿?,但是由于TDT中的新聞報道通常較為簡短精練,使模型原本就有的稀疏問題更加嚴(yán)重。無論是哪種方法,其前提都是將文本表示成為機(jī)器能夠處理的

4、形式,表示模型及其使用方法的好壞將會很大的影響到整個系統(tǒng)的性能。本文基于向量空間表示模型,考慮到不同類型的詞如果區(qū)別對待,則能夠引入詞性關(guān)聯(lián)信息,使之在一定程度上緩解基于向量模型的獨立性假設(shè)限制。前期研究結(jié)果也表明:文本在向表示模型轉(zhuǎn)換的過程中,若有信息丟失,系統(tǒng)性能也會相應(yīng)降低;同時在不丟失信息的情況下,信息劃分的越細(xì)越好。因此,本文從文本中抽取出十類比較富含信息的詞,以十個向量來表示,并用支持向量機(jī)整合多個向量相似度。同時我們又考慮了表示模型中人名、地名、組織名向量間基于模糊匹配的關(guān)聯(lián)信息,把他們和多個向量相似度一起作為SVM的特征輸入對新聞報道間的話題關(guān)聯(lián)性進(jìn)行訓(xùn)練和測試。實驗表明多向量

5、文本表示模型和命名實體關(guān)聯(lián)信息能夠有效地改進(jìn)系統(tǒng)性能。本文內(nèi)容組織如下:第二節(jié)介紹用于對比的基準(zhǔn)系統(tǒng);第三節(jié)重點介紹多向量文本表示模型,主要包括特征選取及劃分、多個相似度整合方法等;另一個重點問題命名實體關(guān)聯(lián)信息的計算和使用將在第四節(jié)介紹;第五節(jié)給出實驗結(jié)果并進(jìn)行分析;最后做出總結(jié)。2基準(zhǔn)方法從第一節(jié)的相關(guān)工作中我們知道,基于向量表示模型構(gòu)建的話題關(guān)聯(lián)系統(tǒng)是目前性能最好的系統(tǒng)之一,很多相關(guān)研究中都以此作為他們的基準(zhǔn)方法。本文也作了同樣的選擇,基準(zhǔn)方法中用一個向量表示新聞報道,向量特征是切分后的詞加上其詞性標(biāo)記,對于同一個詞,如果標(biāo)記為不同詞性,則認(rèn)為是不同特征,向量中每一維表示該特征在報道中的

6、權(quán)重。本文中的所有實驗語料都來自于TDT評測的中文報道。在預(yù)處理中,每篇新聞報道都進(jìn)行分詞、詞性標(biāo)注、停用詞過濾,之后將獲得用于向量模型表示的特征候選集合,特征的頻率以及報道長度將在預(yù)處理之后統(tǒng)計得出。文中采用的分詞和詞性標(biāo)注器是漢語詞法分析系統(tǒng)ICTCLAS,所使用的停用詞表包括507個停用詞,在過濾停用詞時不考慮詞性信息。計算向量特征的權(quán)重值是建立向量模型的一個重要部分。本文中的特征權(quán)重都基于傳統(tǒng)的tf×idf計算方法,但計算過程又是動態(tài)的,具體的計算方式如公式(1)、(2)、(3)所示:在兩個向量都經(jīng)過標(biāo)準(zhǔn)化長度為1之后,余弦函數(shù)僅僅是兩個向量的內(nèi)積,即向量夾角的余弦值,如公式

7、(4)所示。余弦相似度在度量向量間的相似度時,向量的稀疏性會降低余弦相似度的性能。新聞報道通常比較簡短精練,因此稀疏問題在話題關(guān)聯(lián)研究中就顯得更為嚴(yán)重,這在一定程度上影響了余弦相似度性能的發(fā)揮。本文提出的以多個向量表示一篇報道,在一定程度上稍微緩解了稀疏性對系統(tǒng)性能的影響。3多向量文本表示模型為了給TDT中的新聞文本建立合適的表示模型,除了理論分析之外,我們還進(jìn)行了一系列基于向量空間表示模型的實驗,其中在模型信息含量、特征劃分粒度等方面都進(jìn)行了比較,有單向量表示模型,也有按照不同標(biāo)準(zhǔn)劃分后的多向量表示模型。實驗結(jié)果表明:在表示一篇新聞報道時,如果在模型轉(zhuǎn)換的過程中有信息丟失,那么一定會造成系統(tǒng)

8、檢測代價提高和性能下降;表示模型在信息含量不變的情況下,信息區(qū)分的越細(xì)越好,并且每類信息間的相似度計算方法以及多個信息相似度整合的方法也會對系統(tǒng)性能有很大影響,根據(jù)該結(jié)論本文提出了多向量文本表示模型,包括:一、對文本進(jìn)行特征抽取,然后按照某種劃分方式把抽取出的特征集合劃分為多個不相交的子集,每個子集由一個向量表示;二、模型之間對應(yīng)子向量的相似度計算;三、對多個相似度進(jìn)行整合,從而判斷兩個模型之間的相似性。其中向量特征的權(quán)重計算和對應(yīng)子向量間相似度的計算和基準(zhǔn)方法中的一致,這里就不再重復(fù)。3.1特征抽取及劃分對文本進(jìn)行特征抽取并劃分是建立多向量模型的第一步。首先選用一種特征表示,多向量模型中的特

9、征和基準(zhǔn)方法中的一樣,對報道經(jīng)過分詞、詞性標(biāo)注及停用詞過濾后,以詞及其詞性標(biāo)記為特征,對于同一個字串,如果標(biāo)記為不同詞性,則認(rèn)為是不同特征。然后根據(jù)詞性從該候選特征集合中抽取出十類富含信息量的特征用于建立多向量文本表示模型。經(jīng)過分析我們認(rèn)為,在中文詞性標(biāo)記中有十類詞含有的信息比較具有實際意義,包括人名、地名、組織名、數(shù)詞、時間詞、名詞(包括名詞、其他專名)、動詞(包括動詞、副動詞、名動詞)、形容詞(包括形容詞、副形詞、名形詞)、副詞、習(xí)語(包括成語、習(xí)用語)。最后用十個子向量表示選出的這十類特征子集構(gòu)成本文的多向量文本表示模型:URF,并且當(dāng)ij時FiFi=,其中F是候選特征集合,F(xiàn)i、

10、60;    Fi是抽取出的特征子集。所有子向量中的特征權(quán)重計算方法都和基準(zhǔn)方法中的一致。3.2多個相似度整合方法將報道表示成十向量表示模型之后,用余弦相似度計算出對應(yīng)子向量之間相似度,那么如何將這些相似度整合起來得到兩文本間的相似度又是一個非常關(guān)鍵的步驟。本文采用一種機(jī)器學(xué)習(xí)的整合方法,即支持向量機(jī)學(xué)習(xí)器(SVM)。SVM是新一代學(xué)習(xí)算法,已經(jīng)在很多領(lǐng)域中獲得了較好的應(yīng)用。它以統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理為基礎(chǔ),根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,以期獲得最好的推廣能力。SVM不僅要求能將兩類樣本正確分開,而且使分類間隔最大

11、。在多向量表示模型中使用SVM進(jìn)行多相似度的整合,就是以多個相似度構(gòu)成的向量作為輸入進(jìn)行訓(xùn)練,獲得由支持向量線性組合構(gòu)成的分類線方程,通過該方程對測試向量進(jìn)行代入計算,得到最后的置信值作為報道間的最終相似度,利用該值的正負(fù)屬性對話題關(guān)聯(lián)性進(jìn)行判斷。4命名實體模糊匹配從上節(jié)的多向量文本表示模型可以看到,我們已經(jīng)從信息含量、內(nèi)容描述上做到盡可能充分、準(zhǔn)確,但是在計算對應(yīng)子向量問的相似度時,子向量特征間的特征是精確匹配,這么做會損失系統(tǒng)一部分性能。例如,處理一個新聞報道對Pi=(Si1,Si2),si1Sj,si2Sk,1im,1jkn時,Si1的多向量表示模型中的地點子特征向量為中國,si2的多向

12、量表示模型中的地點子特征向量為北京,如果使用特征精確匹配,那么兩個地點子向量的相似度為零,但顯然“中國”和“北京”兩者有著密切的聯(lián)系。為解決這一問題,本節(jié)提出了一種特征模糊匹配的方法,并應(yīng)用于受精確匹配影響最大的命名實體子向量上。下面我們詳細(xì)介紹這種基于模糊匹配的關(guān)聯(lián)信息的獲取和使用方法。4.1關(guān)聯(lián)度計算在計算兩個命名實體子向量之間的關(guān)聯(lián)度時,要首先知道兩個命名實體詞之間的關(guān)聯(lián)度。這里的詞關(guān)聯(lián)度是指兩個實體詞在背景語料中的關(guān)聯(lián)程度,即在一個文檔集合中的關(guān)聯(lián)度,共同出現(xiàn)在一個文檔中被認(rèn)為是一次關(guān)聯(lián)。我們知道互信息是對兩個隨機(jī)事件相關(guān)性的度量,有著簡單、能實際地反映出數(shù)據(jù)之間關(guān)聯(lián)程度的優(yōu)點,在文本

13、處理中通常是用來計算兩個詞在一個文檔中的關(guān)聯(lián)度,它的一次關(guān)聯(lián)是在文檔中的一次共現(xiàn)。由此看來,兩者在計算目標(biāo)上具有很大的相似性,但在定義上又有區(qū)別。因此本文中詞關(guān)聯(lián)度的計算不等同于互信息,而是借鑒了互信息的思想,把整個背景語料看作是互信息計算中的一篇文檔,把背景語料中的每篇文檔作為統(tǒng)計共現(xiàn)的窗口,這樣互信息計算中兩個詞在一個文檔中共現(xiàn)和獨立出現(xiàn)的概率替換為他們在背景語料中共現(xiàn)和獨立出現(xiàn)的報道個數(shù),同時又考慮到每個詞在當(dāng)前各自報道中權(quán)重值,以期望能準(zhǔn)確地反映兩個詞之間的關(guān)聯(lián)度,具體計算如公式(6)、(7)、(8)所示。實驗表明上述基于互信息的計算方法確實使性能獲得了改進(jìn)。上述歸一化代價函數(shù)是針對一

14、個話題的。評測整個TDT系統(tǒng)的性能,即總的錯誤識別的代價,需要考慮多個話題,有話題加權(quán)和報道加權(quán)兩種解決方法,通常采用前者為主要系統(tǒng)評價指標(biāo),因為這種方法不會受某些包含大量新聞報道話題的識別代價的影響。檢測代價取決于一個好的檢測方法和閾值選擇方法。如果閾值選擇不好,即使系統(tǒng)有很低的最小檢測代價,系統(tǒng)當(dāng)前輸出的檢測代價也可能很高。因此本文主要關(guān)注系統(tǒng)當(dāng)前輸出的檢測代價。5.2實驗及結(jié)果分析為驗證上述方法在話題關(guān)聯(lián)識別中有效性,本文共實現(xiàn)了三個話題關(guān)聯(lián)識別系統(tǒng):基準(zhǔn)系統(tǒng),基于多向量表示模型的系統(tǒng),基于多向量表示模型結(jié)合命名實體模糊匹配的系統(tǒng)。他們根據(jù)單個相似度或多相似度整合值對報道對之間的話題相關(guān)

15、性做出判斷,不同新聞報道對之間的處理是獨立的。其中基準(zhǔn)系統(tǒng)采用單向量表示模型和余弦相似度計算方法,首先在訓(xùn)練樣本中獲取使系統(tǒng)性能達(dá)到最優(yōu)的閾值,用該閾值評測基準(zhǔn)系統(tǒng)在測試樣本中的性能;基于多向量表示模型的話題關(guān)聯(lián)識別采用了十向量表示模型、余弦相似度計算方法和SVM多值整合方法;在此基礎(chǔ)上再結(jié)合命名實體模糊匹配即是本文實現(xiàn)的第三個系統(tǒng)。后兩個系統(tǒng)采用LibSVM,測試時根據(jù)分類面方程值的正負(fù)符號判斷新聞報道對的話題關(guān)聯(lián)性。表1中即是這三種方法下話題關(guān)聯(lián)識別系統(tǒng)的當(dāng)前話題加權(quán)檢測代價。從上述實驗結(jié)果中可知,后兩個話題關(guān)聯(lián)系統(tǒng)在綜合評定值(標(biāo)準(zhǔn)化話題加權(quán)檢測代價)上相比基準(zhǔn)系統(tǒng)都有很大改進(jìn),其中多向

16、量表示模型的使用讓代價降低了39.8,命名實體模糊匹配技術(shù)在多向量表示模型的基礎(chǔ)上又降低了兩個百分點。從單個評價指標(biāo)來看,多向量表示模型技術(shù)雖然使系統(tǒng)誤判率降低了0.86個百分點,也使系統(tǒng)的丟失率上升了0.4個百分點,而系統(tǒng)更看重丟失的代價。我們經(jīng)過分析認(rèn)為丟失率的下降原因可能在建立多向量表示模型時特征集合劃分的標(biāo)準(zhǔn)上。本文提出十向量表示模型的根據(jù)是“信息區(qū)分應(yīng)該越細(xì)越好”,但是實體詞和其他詞在表示文檔時區(qū)分能力顯然是不一樣的。新聞報道描述一個事件的框架由實體詞構(gòu)成,實體詞詞性之間相互轉(zhuǎn)換的概率較小,把不同類型的實體詞區(qū)分開有助于增加比較的準(zhǔn)確度。但其他詞(例如名詞、形容詞、副詞)通常用來修飾

17、實體詞,詞性之間相互轉(zhuǎn)換的概率要大很多,把他們區(qū)分開來則會增大相似性比較的難度,而且在文本表示中,命名實體之外的詞占了很大比例,這是多向量模型導(dǎo)致丟失率上升的原因之一。由此可見,對多向量表示模型來說,建立合適的特征劃分標(biāo)準(zhǔn)非常重要。此外,向量特征之間過于精確的匹配也會使系統(tǒng)的丟失率上升,而本文提出的命名實體模糊匹配技術(shù)在一定程度上彌補(bǔ)了精確匹配帶來的性能損失,使丟失率有所下降,盡管仍未恢復(fù)到基準(zhǔn)系統(tǒng)的水平,但仍然給我們一個啟示:各子向量的模糊匹配技術(shù)應(yīng)該是降低系統(tǒng)丟失率的一個有效手段。這是命名實體精確匹配的性能損失來自于同類實體之間的精確匹配,但是背景語料中事件的發(fā)生使得同類型實體之間有了一定

18、的關(guān)聯(lián),其他向量精確匹配的性能損失來自于同一個詞詞性之間的轉(zhuǎn)換,因此和命名實體模糊匹配基于背景語料相比,其他詞的模糊匹配需要更多借助于詞和詞性知識,比如利用各類詞典等知識源。    從每個話題的關(guān)聯(lián)識別結(jié)果來看,進(jìn)一步分析實驗結(jié)果表明,多向量模型幾乎改進(jìn)了所有話題的關(guān)聯(lián)識別誤判率,但是卻增加了話題5、20、27的丟失率,而命名實體模糊匹配技術(shù)則在一定程度上彌補(bǔ)了丟失率的下降。此外,也有一些因素在三個話題關(guān)聯(lián)識別系統(tǒng)中都存在,并導(dǎo)致了新聞報道對話題關(guān)聯(lián)的錯誤識別。這些因素主要包括:向量方法的局限性(例如獨立性假設(shè))使得一些更有區(qū)別性的特征無法表示出來,例如序關(guān)系特征、不同詞性的詞之間的關(guān)系特征等,從而限制了向量模型在話題關(guān)聯(lián)識別研究中的有效性;新聞報道比較對本身的模糊性,例如話題32描述的國際金融會議,通常該類事件的參與者、議題等都會有較多的重復(fù),如果新聞報道對描述了兩個該類事件,無論是機(jī)器還是人都很難判斷他們是否描述了同一個話題。如何克服這些因素帶來的負(fù)面影響同樣是我們下一步需要研究的工作。6總結(jié)本文在“文本信息盡量不丟失、信息劃分粒度越細(xì)越好”的指導(dǎo)下,構(gòu)建了一個新的多向量文本表示模型。該模型把從新聞報道中抽取的分詞特征按其詞性劃分,從中挑選十個富含信息的特征子集表示為向量用來表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論