中文短文本語法語義相似度算法_第1頁
中文短文本語法語義相似度算法_第2頁
中文短文本語法語義相似度算法_第3頁
中文短文本語法語義相似度算法_第4頁
中文短文本語法語義相似度算法_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、https:/中文短文本語法語義相似度算法中文短文本語法語義相似度算法摘要:通過分析中文短文本的特征,提出了一種基于語法語義的短文本相似度算法.該算法結(jié)合中文語句語義的相似性以及語句語法的相似性,即計算具有相同句法結(jié)構(gòu)的短文本的相似度以及考慮語句詞組順序?qū)ο嗨贫鹊呢暙I(xiàn),對中文短文本相似度進(jìn)行計算.實驗表明,本文提出的算法在中文短文本相似度計算結(jié)果上更加接近人們的主觀判斷并且擁有比較好的精確率與召回率.關(guān)鍵詞:語法語義相似度;語句相似性計算;HowNet;語料庫;語法分析;語義分析;相似度計算中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A文章編號:1674-2974(2016)02-0135-06短

2、文本相似度計算在文章查重、信息檢索、圖像檢索、智能機(jī)器問答、詞義消歧和搜索引擎等多個領(lǐng)域有著非常廣泛的應(yīng)用1,并在英文處理方面取得了許多實質(zhì)性的成果,如機(jī)器人語音對話系統(tǒng)等.但是在中文信息處理中存在一些困難,例如未登錄詞識別問題、語法結(jié)構(gòu)復(fù)雜和一詞多義等2.為此本文主要研究中文短文本(語句)相似度計算方法,并提高計算結(jié)果的精確度.短文本相似度表示的是多個短文本(語句)之間的相似程度,屬于一種度量參數(shù),相似度值越高,則表明文本間越相似,反之越不相似3.文本相似度包括語義和語法等方面,但是在實際中主要考慮語義層次的相似性,往往忽略了文本的語法結(jié)構(gòu)對文本相似度的重要影響.大量的研究證明短文本的語法結(jié)

3、構(gòu)對相似性的影響是非常重要的4,但是當(dāng)前基于 HowNet5的中文短文本相似度計算大都是分析文本的語義層次的相似性,這樣就會導(dǎo)致計算結(jié)果的精確度和召回率都不高,為了提高相似度計算的精確度和召回率,本文以 HowNet 為語料庫和 Stanford6為語法解析工具,在中文短文本的語義信息基礎(chǔ)上加入了文本的語法結(jié)構(gòu)信息來研究短文本相似度計算.1 語句相似度計算HowNet 主要揭示了概念間關(guān)系及概念的屬性間的關(guān)系,有關(guān) HowNet 詳細(xì)介紹可見參考文獻(xiàn)2,在此不贅述.義原距離定義為兩個義原間最短路徑上邊的數(shù)目7.義原距離反映的是兩個義原的相對關(guān)系,距離越大,則表明兩者相似性越低,反之則越高.義原

4、深度定義為兩個義原的最近公共父節(jié)點到根節(jié)點的層次數(shù).義原深度反映的是兩個義原在義原層次結(jié)構(gòu)中的絕對關(guān)系,深度越小,表明兩者越不相似,反之則越相似.2 基于語法語義的相似度計算https:/目前基于中文短文本的相似度算法中,大多數(shù)研究者著眼于語句的語義層次,然而組成一個語句的不單單是詞語本身的語義含義,還包括語法結(jié)構(gòu),例如一個句子包含不同的句法和詞語順序8等.最近大量實驗證明語句的語法結(jié)構(gòu)對相似度有著重要的影響,不能忽視4.例如,“今天我追趕了一只狗.”和“一只狗今天追趕了我.”這兩個語句根據(jù)人的主觀判斷,是兩種相反的意思,可是目前絕大多數(shù)相似度算法中這兩個語句的相似度值是極其高的,甚至是 1,

5、即完全一樣,這顯然不合適.忽視了語句的語法信息,其計算結(jié)果往往缺乏合理性.本文對中文語句的相似度算法進(jìn)行改進(jìn),在計算相似度的時候,不但考慮語義信息,還將語句的語法結(jié)構(gòu)加進(jìn)來.本文涉及的語法結(jié)構(gòu)主要從 3 方面來進(jìn)行考慮:1)具有相同語法結(jié)構(gòu)的詞語集合間的相似度;2)兩個語句中所包含的語法結(jié)構(gòu)的相似性;3)經(jīng)過分詞后的詞組在語句中出現(xiàn)的位置的相似性.為了解決目前中文領(lǐng)域大多數(shù)短文本相似度計算僅僅涉及語句語義特性的缺陷,本文結(jié)合語句的語義特性和語法特性,進(jìn)行短文本的相似度計算.2.1 語法結(jié)構(gòu)的提取要對語句的語法結(jié)構(gòu)進(jìn)行提取與分析,首先需要對語句進(jìn)行分詞.本文使用Ictclas4j 分 詞 工 具

6、 , 該 工 具 是 Sinboy 在 中 科 院 張 華 平 和 劉 群 研 制 的FreeICTCLAS 的基礎(chǔ)上完成的一個開源中文分詞項目.同時使用 Stanford6工具進(jìn)行語法解析,該工具是由 Stanford NLP Group 開發(fā)的開源工具.對于某一中文語句,經(jīng)過語法工具分析后,能夠得到某個詞語的具體詞性,斜杠后面表示的就是該詞語的具體詞性,如圖 1 所示.但是,僅僅知道詞語的具體詞性是不夠的,具體的詞性代表的是詞語的特性,并不表示一個語句的結(jié)構(gòu)組成,我們需要從中提取出語句的語法結(jié)構(gòu),例如簡單從句、名詞性從句和動詞短語等,然后把相應(yīng)的詞語或短語歸類到語法結(jié)構(gòu)集合中.本文通過分析

7、漢語語法結(jié)構(gòu)的多樣性及詞語的具體詞性,提出一種新的語句語法結(jié)構(gòu)的提取方法,提取過程如下:1)使用 Ictclas4j 與 Stanford 對語句進(jìn)行分詞處理以及語法解析,得到最基本的詞語或短語的詞性標(biāo)注.2)進(jìn)一步分析以上獲得的結(jié)果,通過逐層解析以及句法樹分析的方式把已https:/經(jīng)標(biāo)注好語法詞性的詞語或短語進(jìn)行抽取與歸納,抽取出語句的組成結(jié)構(gòu)類型,例如簡單從句類型和動詞短語類型等.3)最后把具有相同語法結(jié)構(gòu)類型的詞語或短句存放在相應(yīng)結(jié)構(gòu)類型的集合中,形成不同的語法結(jié)構(gòu)集合,例如簡單從句類型集合、名詞性從句類型集合和動詞短語類型集合等,實現(xiàn)對語句的語法組成結(jié)構(gòu)的分析.通過使用上述語句語法結(jié)

8、構(gòu)提取方法進(jìn)行語句語法處理,提取出語句的語法結(jié)構(gòu)以及相應(yīng)所包含的詞組,如圖 2 所示.與圖 1 相比較,我們發(fā)現(xiàn)一個中文語句經(jīng)過語法結(jié)構(gòu)提取后,可以得到該語句的結(jié)構(gòu)組成,例如動詞性短語和介詞性短語等,相比于圖 1 中單個詞語的詞性標(biāo)注,能夠得到語句的語法結(jié)構(gòu)組成,更加有利于對中文語句語法語義相似度的研究.因為研究語句的語法結(jié)構(gòu)時,我們更加傾向于研究其整體的結(jié)構(gòu)類型組成,而不是單單某個詞語.中文語句句法結(jié)構(gòu)類型部分見表 1.2.2 語句句法結(jié)構(gòu)類型相似度計算經(jīng)過語句語法結(jié)構(gòu)提取方法分析后,每個語句都被切分成若干個結(jié)構(gòu)類型,例如有的包含名詞性短語和動詞性短語等,有的卻包括簡單從句、名詞性短語和副詞

9、短語等.語句語法結(jié)構(gòu)類型相似度計算思想就是計算兩個語句中含有相同結(jié)構(gòu)類型的個數(shù)與所有結(jié)構(gòu)類型的個數(shù)的比值.該比值反映了兩個語句在句法結(jié)構(gòu)上的相似性.定義 1 假設(shè)語句 Sen1 包含 m 個不同的句法結(jié)構(gòu)類型,分別為 ST11,ST12,ST1m,Sen2 包含 n 個不同的句法結(jié)構(gòu)類型,分別為 ST21,ST22,ST2n,則句法結(jié)構(gòu)上的相似度 sst 計算公式如下:2.3 語句詞組位置相似度計算中文語句中詞組的位置對短文本間的相似性有著重要影響,所以需要計算詞組位置的相似度8.本文中采用的方法不是以單個漢字為基本單位,而是以經(jīng)過分詞后的詞組為單位,因為單個漢字包含的信息太少,詞組能夠反映更

10、多的信息,所以以詞組為單位計算詞組位置的相似度更加合理.本文計算語句詞組位置相似度的方法如下:2.4 基于語法結(jié)構(gòu)的語句語義相似度計算目前絕大多數(shù)的中文語句相似度計算方法都是根據(jù)第一個語句中的每個詞語分別和第二個語句中的每對詞語計算相似度,取最大值作為第一個語句中的那個詞語對第二個語句的相似度,然后第一個語句中每個詞語都這樣計算,最https:/后取所有相似度值的均值作為第一個語句對第二個語句的相似度.上述的方法完全依靠語義信息,而忽視了語法結(jié)構(gòu)信息,計算結(jié)果都不太理想,因此本文把語法結(jié)構(gòu)信息加入計算中,即計算具有相同語法結(jié)構(gòu)類型的詞組間的相似度,綜合了語法和語義兩大方面.2.5 基于語法語義

11、的語句相似度計算基于語法語義的語句相似度計算方法綜合考慮了語法和語義兩方面特性,主要包括基于語法結(jié)構(gòu)的語句語義相似度計算、語句語法結(jié)構(gòu)類型相似度計算和語句詞組位置相似度計算.通過公式(5),(6)和(7)可以得到語句間的最終計算公式,見式(8).公式(8)表示,中文語句間的相似度最終由語句的語法和語義的相似性共同構(gòu)成.在計算短文本(語句)間的相似度時,改變了以往僅僅考慮語句語義相似性的思路,本文不但考慮語義相似性,還考慮了語句語法結(jié)構(gòu)對相似性的影響.本文在計算語義相似度時,加入語法結(jié)構(gòu)信息,即計算具有相同語法結(jié)構(gòu)的詞組集合間的相似度,另外充分考慮了句法結(jié)構(gòu)類型和詞組位置相似性對整體語句相似度的

12、貢獻(xiàn)與影響.最終短文本(語句)間相似度計算更加符合中文語句的特點,計算結(jié)果更加合理,與人們的主觀判斷更為接近.3 實驗及分析當(dāng)前基于語法的相似度計算方法多用于英文短文本處理,為進(jìn)行中文短文本相似度計算,本文采用了以下 3 種方法來對相似度算法進(jìn)行分析.方法一:劉群、李素建等9提出的一種相似度方法,在計算時僅僅考慮義原距離,未考慮深度.方法二:一種既考慮義原距離和深度,又在計算過程中加入詞語詞頻作為權(quán)重的方法2,具體參數(shù)設(shè)置詳見參考文獻(xiàn)2.方法三:本文中介紹的基于語法語義的短文本相似度計算方法.利用上述 3 種方法分別測試 50 對中文語句,計算語句(短文本)間的相似度值,部分計算結(jié)果見表 2.

13、3.1 權(quán)重因子實驗與分析利用上述實驗數(shù)據(jù),對方法三的短文本相似度計算公式中的權(quán)重因子 a 和 b進(jìn)行實驗分析,獲得能夠使得計算公式的效果最佳的權(quán)重因子組合.采用控制變量法對 a=0.35,0.45,0.55,0.65,0.75,0.85,0.90,0.95https:/和 b=0.3,0.4,0.5,0.6,0.7,0.8 進(jìn)行實驗分析,且設(shè)置相似度閾值為 0.6,根據(jù)獲得的結(jié)果進(jìn)而計算得到不同的精確度和召回率.不管權(quán)重因子 a 和 b 取上述的哪個值,本文提出的相似度計算方法的召回率基本上都是差不多的,穩(wěn)定在 0.882 上下,這說明了本文方法的穩(wěn)定性. 根據(jù)實驗結(jié)果繪制本文方法在權(quán)重因子

14、 a 和 b 不同取值時的精確度的折線圖,如圖 3 所示,其中橫坐標(biāo)表示 a 的取值,縱坐標(biāo)表示精確度,b 的不同取值采用不同的線條表示.根據(jù)圖 3 分析可知,當(dāng)權(quán)重因子 a 的值大于 0.6,b 的取值在0.4,0.6時,本文方法的精確度基本上都在 0.75 以上,尤其當(dāng) a 值在(0.85,0.95區(qū)間時,本方法的精確度可達(dá)到最大值 0.833,且比較穩(wěn)定.綜上所述,可以得到本文最終計算公式中的權(quán)重因子 a 和 b 的取值范圍.當(dāng)a 值在(0.85,0.95區(qū)間,且 b 的取值在0.4,0.6時,本文方法的召回率以及精確度能夠同時達(dá)到比較高的水平,分別為 0.882 和 0.833.3.2

15、 短文本相似度實驗與分析方法三中的權(quán)重因子 a 和 b 分別取為 0.88 和 0.5,然后對實驗數(shù)據(jù)進(jìn)行統(tǒng)計分析,計算 3 種不同計算方法的計算結(jié)果的精確率和召回率,且設(shè)置相似度閾值為 0.6,結(jié)果如圖 4 所示.根據(jù)圖 4 可知,在召回率基本上比較高的情況下,本文提出的方法的精確率為 0.833,比方法一的 0.577 和方法二的 0.619 都要高,這說明本文方法非常明顯地提高了查準(zhǔn)率,有效地減少了噪音數(shù)據(jù),計算結(jié)果更加能夠被人們接受.把實驗數(shù)據(jù)分為近義的語句對集合和反義的語句對集合,分別進(jìn)一步分析.對于近義的語句對集合,將相似度區(qū)間分為 3 個,圖 5 描述了不同方法在每個區(qū)間內(nèi)近義語

16、句對占所有近義語句對的比例.方法一中接近一半的語句對的相似度值在(0.8,1間,其在(0.5,8間的語句對還不到一半,因為語句對沒有完全一樣的,所以計算結(jié)果偏高,且還有一些語句對的相似度低于 0.5,顯然其計算結(jié)果不合理.方法二中大概 82.00%的語句對的相似度值都在(0.5,8之間,比較符合實際,但是其計算結(jié)果中仍然有低于 0.5 的,結(jié)果也不太理想.而方法三中在(0.8,1之間的不到 25.00%,絕大部分都是在(0.5,8之間,沒有低于 0.5 的,這樣的計算結(jié)果顯然更加合理,更接近人們的主觀判斷.對于反義語句對集合,把相似度區(qū)間分為 4 個,圖 6 描述了不同方法分別在每個區(qū)間中的測

17、試語句對所占的比例.由圖可知,方法一和方法二在相似度大于 0.5 時大概都有 75.00%的反義語句對,而低于 0.5 的卻只有 25.00%,顯然它們的計算結(jié)果都非常不理想,計算粗糙.而方法三在(0.5,1區(qū)間中只有 29.00%左右的反義語句對,且約 71.00%的語句相似度都是低于 0.5.顯然方法三計算結(jié)果更加合理和精確.另外由表 2 可知,有些語句意思明明是完全相反的,可方法一和方法二計算結(jié)果都非常高,甚至是 1,而方法三卻能夠得到非常合理的結(jié)果.由上述實驗結(jié)果可知,本文提出的方法相比于方法一和方法二,具有比較https:/好的查全率,并且其精確率更高,能夠非常有效地減少噪音數(shù)據(jù)的產(chǎn)

18、生,更加接近人們的主觀判斷.4 結(jié)論本文以 HowNet 為詞典庫,以 Stanford 為語法解析工具,并在此基礎(chǔ)上研究了本文提出的基于語法語義的中文短文本的相似度計算.在本文描述的方法中,我們結(jié)合語句的語法結(jié)構(gòu)和語義信息計算整個語句的相似度,即計算具有相同語法結(jié)構(gòu)的詞組間的語義相似度以及考慮語法結(jié)構(gòu)類型間相似性和詞組位置相似性對整個語句相似度的影響.即使兩個語句完全一樣,但是語句結(jié)構(gòu)不同或詞組位置不同,也會導(dǎo)致意思完全不一樣,這樣的計算方式與人們的主觀判斷更加接近,也符合中文語句(短文本)的復(fù)雜性特點.本文研究的方法在一定程度上解決了目前中文領(lǐng)域基于 HowNet 進(jìn)行短文本相似度計算的方

19、法中存在的結(jié)果不合理現(xiàn)象.通過實驗對 3 種方法進(jìn)行對比分析,證明了本文描述的中文短文本相似度方法更合理,具有比較好的召回率和精確率.參考文獻(xiàn)1蔣溢,丁優(yōu),熊安萍,等.一種基于知網(wǎng)的詞匯語義相似度改進(jìn)計算方法J.重慶郵電大學(xué)學(xué)報:自然科學(xué)版, 2009,21(4): 533-537.JIANG Yi ,DING You ,XIONG An-ping ,et al. An improvedcomputation method of words semantic similarity based on HowNetJ.Journal of Chongqing University of Posts

20、 and Telecommunications: NaturalScience, 2009,21(4): 533-537.(In Chinese)2廖志芳,邱麗霞,謝岳山, 等.一種頻率增強(qiáng)的語句語義相似度計算J.湖南大學(xué)學(xué)報:自然科學(xué)版,2013,40(2):82-88.LIAO Zhi-fang ,QIU Li-xia ,XIE Yue-shan ,et al. A frequencyenhanced algorithm of sentence semantic similarityJ. Journal of HunanUniversity: Natural Sciences, 2013,

21、40(2): 82-88.(In Chinese)3李連,朱愛紅,蘇濤.一種改進(jìn)的基于向量空間文本相似度算法的研究與實現(xiàn)J.計算機(jī)應(yīng)用與軟件,2012,29(2):282-284.LI Lian, ZHU Ai-hong, SU Tao. Research and implementation of animproved VSM-based text similarity algorithmJ. Computer Applications andSoftware, 2012,29(2):282-284.(In Chinese)4OLIVA J, SERRANO J I, CASTILLO M D, et al. SyMSS: asyntax-based measure for short-text semantic similarityJ. Data & KnowledgeEngineering, 2011,70(4):390-405.https:/5 董 振 東 , 董 強(qiáng) . 關(guān) 于 知 網(wǎng) 中 文 信 息 結(jié) 構(gòu) 庫 EB/OL/http :/ Zhen-dong, DONG Qiang.Chinese information database basedon CNKIEB/OL/www.heenage,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論