語義相似度的計算方法研究論文_第1頁
語義相似度的計算方法研究論文_第2頁
語義相似度的計算方法研究論文_第3頁
語義相似度的計算方法研究論文_第4頁
語義相似度的計算方法研究論文_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語義相似度的計算方法研究信息與計算科學余牛指導(dǎo)教師冉延平摘要語義相似度計算在信息檢索、信息抽取、文本分類、詞義排歧、基于實例的機器翻譯等很多領(lǐng)域中都有廣泛的應(yīng)用特別是近幾十年來隨著INTERNET技術(shù)的高速發(fā)展,語義相似度計算成為自然語言處理和信息檢索研究的重要組成部分本文介紹了幾種典型的語義相似度的計算方法,總結(jié)了語義相似度計算的兩類策略,其中重點介紹了一種基于樹狀結(jié)構(gòu)中語義詞典HOWNET的語義相似度計算方法,最后對兩類主要策略進行了簡單的比較關(guān)鍵詞語義相似度語義距離知網(wǎng)語料庫THERESEACHOFCOMPUTINGMETHODSABOUTSEMANTICSIMILARITYYUNIUDEPARTMENTOFMATHEMATICSANDSTATISTICS,TIANSHUINORMALUNIVERSITY,741000ABSTRACTSEMANTICSIMILARITYISBROADLYUSEDINMANYAPPLICATIONSSUCHASINFORMATIONRETRIEVAL,INFORMATIONEXTRACTION,TEXTCLASSIFICATION,WORDSENSEDISAMBIGUATION,EXAMPLEBASEDMACHINETRANSLATIONANDSOONESPECIALLYWITHTHERAPIDDEVELOPMENTOFINTERNETTECHNOLOGYINRECENTDECADES,CALCULATIONOFSEMANTICSIMILARITYHASALWAYSBEENANIMPORTANTPARTOFNATURALLANGUAGEPROCESSINGANDINFORMATIONRETRIEVALRESEARCHTHISPAPERINTRODUCESSEVERALMAINMETHODSOFCALCULATINGSEMANTICSIMILARITY,THENTWOSTRATEGIESOFSEMANTICSIMILARITYMEASUREMENTARESUMMARIZED,ANDWEFOCUSEONTHEHOWNETBASEDONTHESTUCTUREOFTREEANDUSETHEMTOCALCULATETHESEMANTICSIMILARITY,ANDFINALLYTHETWOSTRATEGIESAREEASILYCOMPAREDKEYWORDSSEMANTICSIMILARITY,SEMANTICDISTANCE,HOWNET,CORPUS1引言語義相似度計算研究的是用什么樣的方法來計算或比較兩個詞語的相似性自然語言的詞語之間有著非常復(fù)雜的關(guān)系,在實際應(yīng)用中,有時需要把這種復(fù)雜的關(guān)系用一種簡單的數(shù)量來度量,而語義相似度就是其中的一種詞語的語義相似度計算主要有兩種方法一類是通過語義詞典,把有關(guān)詞語的概念組織在一個樹形的結(jié)構(gòu)中來計算另一類主要是通過詞語上下文的信息(本文只介紹了主要的理論方法),運用統(tǒng)計的方法進行求解對于前一類基于樹狀層次結(jié)構(gòu)的計算語義相似度方法的研究已經(jīng)比較成熟,國外的DEKANGLIN,RUDILCILIBRASI等都給出了自己的比較合理的語義相似度計算公式和方12法國內(nèi)這方面起步較晚,但發(fā)展很快,董振東,劉群,李素建4等在這方面的研究做了很多3開創(chuàng)性的工作,李峰,楊哲,李熙,夏天等后來者做了很多補充性和改進性的工作5678針對以上研究現(xiàn)狀,筆者對當前的語義相似度研究成果進行了簡單的歸納和總結(jié),然后對相關(guān)方法進行了簡單比較,并提出了研究的應(yīng)用方向,以供相關(guān)研究人員參考和應(yīng)用2語義相似度什么是語義相似度語義相似度是一個主觀性相當強的概念,沒有明確的客觀標準可以衡量脫離具體的應(yīng)用去談?wù)撜Z義相似度,很難得到一個統(tǒng)一的定義由于詞語在語言結(jié)構(gòu)中的一般性,我們著重研究詞語的相似度,進而推廣到句子,以致整個文本的相似度DEKANGLIN認為任何兩個詞語的相似度取決于它們的共性COMMONALITY和個性1DIFFERENTCES,然后從信息論的角度給出了定義公式1,LOG,BANDESCRIPTOCMBASIM其中,分子表示描述共性所需要的信息量;分母表示完整地描述所需要的信息,BA,量劉群,李素建4以基于實例的機器翻譯為背景,認為語義相似度就是兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結(jié)構(gòu)的程度兩個詞語,如果在不同的上下文中可以互相替換且不改變文本的句法語義結(jié)構(gòu)的可能性越大,二者的相似度就越高,否則相似度就越低對于兩個詞語,如果我們記其相似度為,其詞語距離為21W、,21WSIM,根據(jù)劉群,李素建4的公式21WDIS(2),2121WDISSIM其中是一個可調(diào)節(jié)的參數(shù)的含義是當相似度為05時的詞語距離值筆者嘗試從樹論的角度給出一個定義,假設(shè)任意兩個詞語可以表示為一個樹形21W、結(jié)構(gòu)中如同義詞詞典WORDNET即為這種樹形結(jié)構(gòu)的兩個結(jié)點,由于語義距離與語義相似度成反比例關(guān)系。于是,可以給出一個簡單公式,21WDIS21WSIM3,2121DISKSIM其中,為樹中所代表的結(jié)點在樹中的距離,為比例系數(shù),21IS、K一般地說,相似度一般被定義為一個0到1之間的實數(shù)特別地,當兩個詞語完全一樣時,它們的相似度為1;當兩個詞語是完全不同的概念時,它們的相似度接近于03語義相似度的計算方法詞語距離有兩類常見的計算方法,一種是根據(jù)某種世界知識(ONTOLOGY)或分類體系(TAXONOMY)來計算,一種利用大規(guī)模的語料庫進行統(tǒng)計31根據(jù)世界知識或分類體系計算詞語語義距離的方法該方法又稱基于樹的語義相似度研究方法,基于樹的語義相似度計算的算法大體上分為兩種一是基于距離的語義相似性測度二是基于信息內(nèi)容的語義相似性測度一般是利用一部語義詞典(如WORDNET,HOWNET),語義詞典都是將所有的詞組織在一棵或幾棵樹狀的層次結(jié)構(gòu)中我們知道,在一棵樹狀圖中,任何兩個結(jié)點之間有且只有一條路徑于是,這條路徑的長度就可以作為這兩個詞語概念間語義距離的一種度量;而且隨著概念所處結(jié)點越深,其所包含的語義信息越豐富,越能準確地決定概念的性質(zhì),它們對語義相似度起著決定作用311知網(wǎng)HOWNET簡介知網(wǎng)是一部語義詞典,由我國著名機器翻譯專家董振東逾十年功夫創(chuàng)建的一個知3識系統(tǒng),是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫知網(wǎng)中含有豐富的詞匯語義知識和世界知識,為自然語言處理和機器翻譯等方面的研究提供了寶貴的資源312基于樹狀層次計算語義相似度的基本思想以邊作為距離根據(jù)公式3筆者給出的定義,我們的計算思想是以邊為距離來計算語義相似度如果樹狀語義網(wǎng)中所有的邊即樹的分支是等長的,那么邊的數(shù)目可以作為距離的測度假定要確定詞語之間的語義相似度,可以在該語義網(wǎng)中首先找到包含待比較詞的那21W、些子概念(或義原)在此情況下,之間的語義相似性可以用連接這兩個概念之21W、間的最短路徑來表示例如,在圖1取自WORDNET本體中的一小部分中,BOY和GIRL之間的最短路徑是BOYMALEPERSONFEMALEGIRL,最小路徑長度為4而TEACHER和BOY之間的最小路徑長度為6因此,GIRL比TEACHER在語義上更接近于BOY該測度算法在基于WORDNET的語義網(wǎng)中獲得了較好的計算結(jié)果LIFEFORM,BEINGANIMAI,BEASTPERSON,HUMANADULT,GROWUPMALE,MALEPERSONFEMALE,FEMALEPERSONJUVENILE,JUVENILEPERSONPROFESSIONAL,PROFESSIONALPERSONMALECHILD,BOY,CHILDFEMALECHILD,GIRL,CHILD,LITTLEGIRLCHILD,KID,MINOR,EDUCATOR,PEDAGOGUETEACHER,INSTRUCTORENTITY,SOMETHING圖1313基于知網(wǎng)HOWNET的語義相似度計算知網(wǎng)中有兩個主要的概念“概念”與“義原”“概念”是對詞匯語義的一種描述每一個詞可以表達為幾個概念“概念”是用一種“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”“義原”是用于描述一個“概念”的最小意義單位與一般的語義詞典WORDNET不同,知網(wǎng)并不是簡單地將所有的“概念”歸結(jié)到一個樹狀的概念層次體系中,而是試圖用一系列的“義原”來對每一個“概念”進行描述由于知網(wǎng)HOWNET中詞語不是組織在一個樹狀的層次體系中,而是一種網(wǎng)狀結(jié)構(gòu);同時借助義原和符號對概念進行描述對于兩個漢語詞語和,如果有個義1W21N項(概念),有個義項(概念),1S2NS12WMSMS2劉群,李素建4認為和的相似度是各個概念的相似度之最大值,也就是說(4),MAX,211,21JIJNISWSI為了更加精確地計算出詞語的語義相似度,在知網(wǎng)中對一個實詞的描述可以表示為一個特征結(jié)構(gòu),該特征結(jié)構(gòu)含有以下四個特征第一基本義原描述其值為一個基本義原,我們將兩個概念的這一部分的相似度記為;,21SIM其它基本義原描述對應(yīng)于語義表達式中除第一基本義原描述式以外的所有基本義原描述式,其值為一個基本義原的集合,我們將兩個概念的這一部分的相似度記為;,21SIM關(guān)系義原描述對應(yīng)于語義表達式中所有的關(guān)系義原描述式,其值是一個特征結(jié)構(gòu),對于該特征結(jié)構(gòu)的每一個特征,其屬性是一個關(guān)系義原,其值是一個基本義原,或一個具體詞我們將兩個概念的這一部分的相似度記為;,213SIM關(guān)系符號描述對應(yīng)于語義表達式中所有的關(guān)系符號描述式,其值也是一個特征結(jié)構(gòu),對于該特征結(jié)構(gòu)的每一個特征,其屬性是一個關(guān)系義原,其值是一個集合,該集合的元素是一個基本義原,或一個具體詞我們將兩個概念的這一部分的相似度記為;,214SIM通過以上分析,可知在實際的知網(wǎng)結(jié)構(gòu)中,由于各個義原所處的層次不一樣,因而它們對詞語相似度的影響程度也不一樣,也就是說部分相似性在整體相似性中所占的權(quán)重是不一樣的,權(quán)重(百分比)我們用表示,于是,在知網(wǎng)中,概念的整體相似度可以記I為5,214121SIMSIMI其中,是可調(diào)節(jié)的參數(shù),且有,I14321后者反映了到對于總體相似度所起到的作用4321,21SIM,214SI依次遞減由于第一獨立義原描述式反映了一個概念最主要的特征,所以應(yīng)該將其權(quán)值定義得比較大,一般應(yīng)在05以上在以上計算中,最后求加權(quán)平均時,各部分取相等的權(quán)值這樣,就把兩個詞語之間的相似度問題歸結(jié)到了兩個概念之間的相似度問題313實驗及結(jié)果根據(jù)以上方法,劉群,李素建4實現(xiàn)了一個基于知網(wǎng)的語義相似度計算程序模塊,這里我們選取其中的一個實驗結(jié)果片段來分析方法1僅使用知網(wǎng)語義表達式中第一基本義原來計算詞語相似度;方法2劉群,李素建的語義相似度計算方法;1實驗結(jié)果如表1表1詞語1詞語2詞語2的義原方法1方法2男人女人人,家,女10000861男人父親人,家,男10001000男人母親人,家,女10000861男人和尚人,宗教,男10000861男人經(jīng)理人,職位,官,商10000630男人高興屬性值,境況,福,良00160048男人收音機機器,傳播01860112男人鯉魚魚03470209男人蘋果水果02850171男人工作事物,擔任01860112男人責任責任00160126實驗結(jié)果分析考察方法1的結(jié)果,我們可以看到,“男人”(取義原“人,家,男”)和其它各個詞的相似度與人的直覺是比較相符合的將方法1、方法2的結(jié)果相比較,可以看到方法1的結(jié)果比較粗糙,只要是人,相似度都為1,顯然不夠合理;而方法2的結(jié)果中,這兩個相似度的差距更合理一些32利用大規(guī)模的語料庫進行統(tǒng)計基于語料庫的詞語相似度研究大都采用了上下文語境的統(tǒng)計描述方法,即認同這樣一個論斷詞語的上下文可以為詞語定義提供足夠信息詞語向量空間模型是目前基于統(tǒng)計的詞語相似度計算策略使用比較廣泛的一種,算法復(fù)雜度也能夠?qū)崿F(xiàn)的模型該模型事先選擇一組特征詞,然后計算這一組特征詞與每一個詞的相關(guān)性一般用這組詞在實際的大規(guī)模語料中以該詞在上下文中出現(xiàn)的頻率來度量,于是,對于每一個詞都可以得到一個相關(guān)性的特征詞向量,然后利用這些向量之間的相似度作為這兩個詞的相似度4其他方法基于信息論和搜索引擎的方法我們這里另外所介紹的第一種方法,主要是基于樹狀結(jié)構(gòu)中兩個結(jié)點所含的信息量的大小來計算語義相似度,其基本思想是利用信息理論來進行研究如以下DEKANGLIN給1出的公式6LOGL2,2121SPSIM其中,表示兩個義原,表示離它們最近的共同祖先,是該結(jié)點的子節(jié)點個21SP數(shù)包括自己與樹中的所有節(jié)點個數(shù)的比值這種方法對樹狀結(jié)構(gòu)概念所包含的信息量要求比較高,結(jié)果有賴于語義詞典的完善性和相對準確性;優(yōu)點是計算比較方便第二種方法由計算機自然語言處理專家RUDILCILIBRASI和PAULMBVITANYI2200712提出的語義相似度計算方法,該方法理論基礎(chǔ)涉及信息論,壓縮原理,柯爾莫哥洛夫復(fù)雜性,語義WEB,語義學等,基本思想是把INTERNET作為一個大型的語料庫,以GOOGLE對其它的搜索引擎如百度同樣適用作為搜索引擎,搜索返回的結(jié)果數(shù)作為計算的數(shù)值依據(jù),其計算公式如下(7)LOG,MINLLOG,AX,YFXFNFYNGD其中,NORMALIZEDGOOGLEDISTANCE,介于0與1之間表示標準谷歌距離以此衡量語義相似性大小,分別表示含概念的網(wǎng)頁數(shù),表示同時含有概念,YFX,YXF的網(wǎng)頁數(shù),表示GOOGLE引用的互聯(lián)網(wǎng)上的網(wǎng)頁總數(shù)我們可以以一次實驗來說明,YX假設(shè)用GOOGLE搜索詞語“”返回46,700,000記為條結(jié)果,搜索詞語“HORSEF”返回結(jié)果數(shù)為12,200,000記為,搜索同時含“”的網(wǎng)頁數(shù)是RIDEYFRIDEHOS2,630,000記為,GOOGLE共引用的網(wǎng)頁數(shù)是8,058,044,651,代入上述公式7YXFN求得0443,RIDEHOSNGD這種方法在機器翻譯、文本分類等方面有較好的應(yīng)用前景,且方法直觀易于理解缺點是計算量較大,N搜索引擎所引用的網(wǎng)頁數(shù)是一個動態(tài)值不易確定,計算有一定的誤差5兩類主要語義相似度計算方法的比較下面對基于語義詞典和基于語料庫的詞語相似度計算這兩類策略的方法、前提條件、所用工具等6個方面進行比較,見表2表2基于語義詞典的詞語相似度計算基于語料庫的詞語相似度計算客觀計算經(jīng)驗法方法前提條件兩個詞匯具有一定的語義相關(guān)性,當且僅當它們在概念間的結(jié)構(gòu)中有且僅有一條路徑詞語的上下文可以為詞語定義提供足夠信息,兩個詞語語義相似當且僅當它們處于相似的上下文環(huán)境中所用工具語義詞典大規(guī)模語料庫理論依據(jù)樹論,圖論向量空間優(yōu)點比較直觀而且簡單有效,可以計算出字面上不相似的詞匯間的相似度能夠客觀地反映詞語的形態(tài)、句法、語義等特點缺點比較受人的主觀影響比較大,有時不能反映客觀現(xiàn)實性能依賴于語料庫的優(yōu)劣,存在數(shù)據(jù)稀疏的問題,也有噪聲干擾6小結(jié)與瞻望鑒于語義相似度在現(xiàn)代科學領(lǐng)域中的廣泛應(yīng)用,在本文中,我們比較系統(tǒng)介紹了當前語義相似度計算的一些理論及方法,并簡單比較了兩種主要方法的特點及區(qū)別,重點描述了基于中文語義詞典知網(wǎng)HOWNET的相似度計算方法最后簡單介紹了國外基于搜索引擎的相似度計算法,很值得我們借鑒對于下一步的工作,筆者認為除了完善語義詞典的全面性和準確性之外,我們能不能選擇或找到一種相對比較簡捷地準確計算出語義相似度的方法,以確定出相似度,然后將此方法應(yīng)用于信息檢索等領(lǐng)域,如在百度中要搜索關(guān)鍵詞時,可以設(shè)定一個相對合適的相似度值,從而可以全面而準確地查詢到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論