基于《知網(wǎng)》的漢語詞語詞義消歧方法_第1頁
基于《知網(wǎng)》的漢語詞語詞義消歧方法_第2頁
基于《知網(wǎng)》的漢語詞語詞義消歧方法_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于知網(wǎng)的漢語詞語詞義消歧方法     摘  要  本文提出了一種簡單有效的詞義消歧方法,該模型充分利用依存文法分析,從句子的內(nèi)部結(jié)構(gòu),尋找詞語之間支配與被支配的關(guān)系,借以確定能夠?qū)υ~語語義構(gòu)成內(nèi)在限制的詞語。借助知網(wǎng)系統(tǒng)的實體關(guān)系,并結(jié)合與該岐義詞相關(guān)聯(lián)詞語的義項,計算歧義詞的義項權(quán)重,從而根據(jù)義項權(quán)重大小來判斷歧義詞的詞義。      關(guān)鍵詞  詞義消歧;知網(wǎng);自然語言處理;依存句法分析      1  引言 &

2、#160;  自然語言中存在著大量的多義詞,如何在給定的上下文中,確定其中各個詞語在多個詞義中選取正確的詞義,是詞義消歧所應(yīng)解決的問題。如果多義詞的多個詞義之間具有不同的詞性,則通過詞性標(biāo)注就可以確定該詞詞義。所以本文所說的詞義消歧,是指如何在詞性相同的情況下選擇多義詞正確詞義的問題。     漢語詞語的詞義消歧開始于上世紀(jì)90年代后期,主要是利用詞典提供的信息。出現(xiàn)了利用現(xiàn)代漢語詞典釋義文本、同義詞詞林、知網(wǎng)中的語義類,對實詞多義進行消歧的方法,但是平均正確率并不是很高12。     近年來,隨計算機存儲容量和運算速度的提

3、高,通過對大規(guī)模語料庫的利用,出現(xiàn)了許多基于語料庫統(tǒng)計的詞義消歧方法。使消歧的準(zhǔn)確率有了一定程度的提高,但是有些低頻詞,在語料中出現(xiàn)次數(shù)不多,很難搜集到它們的上下文環(huán)境,存在著知識獲取中數(shù)據(jù)稀疏以及自動學(xué)習(xí)算法的參數(shù)空間過大問題。     到目前,無論那種方法都沒有很好地解決詞義消歧問題3。其中一個重要的原因就是詞義知識獲取中的瓶頸問題,詞義消歧知識庫的質(zhì)量已成為詞義消歧成敗的關(guān)鍵。     本文提出了一種基于知網(wǎng)的漢語詞語詞義消歧方法,該方法只考慮詞匯句法之間的內(nèi)在關(guān)聯(lián)對特定環(huán)境中詞義的貢獻(xiàn),借助依存文法分析來找出這種詞義關(guān)聯(lián)。假設(shè)

4、不存在詞義關(guān)聯(lián)的上下文對于歧義詞語的特定詞義貢獻(xiàn)為0,存在語法關(guān)聯(lián)的上下文對詞義的貢獻(xiàn)相互獨立。選擇與歧義詞匯存在語法關(guān)聯(lián)的上下文作為模型中的特征值,這樣做既可以減少無關(guān)上下文對詞義消歧產(chǎn)生的噪音,又可以大幅度減少計算次數(shù),在提高詞義消歧準(zhǔn)確率的同時,能夠明顯提高詞義消歧的工作效率。 2  語義資源知網(wǎng)簡介    “知網(wǎng)”(Hownet)是董振東先生花費十年時間編輯而成的語義詞典,也是一款供自然語言處理工作者免費使用的完全共享軟件。知網(wǎng)是一個以漢語英語詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫4。

5、     知網(wǎng)作為一個知識系統(tǒng),是一個網(wǎng)而不是樹。它所著力反映的是概念的共性和個性,同時知網(wǎng)還著力反映了概念之間和概念的屬性之間的各種關(guān)系。知網(wǎng)知識庫主要包括:中英雙語知識詞典;義原分類源文件;知管理工具;知網(wǎng)說明文件(包括詞類表和標(biāo)識符號說明) 等。本文采用的知網(wǎng)知識庫文件主要有經(jīng)過處理的和。 2.1 義原分類源文件    在知網(wǎng)中,“概念”是對詞匯語義的一種描述。每一個詞可以表達(dá)為幾個概念,其中每個詞的每一個義項分別對應(yīng)于一個不同的概念。而“義原”是基本的、不易于再分割的、沒有歧義的最小單位。不同的義原組合構(gòu)成了不同的概念定義。

6、    知網(wǎng)一共采用了1500 多個義原,這些義原分為“Event|事件”等十多個大類、16種關(guān)系。在義原關(guān)系中最重要的還是上下位關(guān)系。 2.2 中英雙語知識詞典    中英雙語知識詞典中一共收錄了12萬多條記錄,而每一個詞語用一條或多條記錄來表示,每條記錄的詞典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八項,例如電腦”一詞的概念的記錄如下所示:     NO.=21902    W_C=電腦   G_C=N 

7、60;  E_C=     W_E=computer   G_E=N  E_E=  DEF= computer|電腦     其中NO.為概念編號,W_C、G_C、E_C分別是漢語的詞語、詞性和例子,W_E、G_E、E_E分別是對應(yīng)的英語詞語、詞性和例子,DEF是知網(wǎng)對于該概念的定義。 3  依存句法分析方法    依存句法是由法國語言學(xué)家L.Tesniere 在其著作結(jié)構(gòu)句法基礎(chǔ)(1959 年)中提出,對語言學(xué)的發(fā)展產(chǎn)生了深遠(yuǎn)的影響,特別是在計

8、算語言學(xué)界備受推崇。依存語法通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中動詞是支配其他成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者5。     二十世紀(jì)七十年代,Robinson 提出依存語法中關(guān)于依存關(guān)系的四條公理,在處理中文信息的研究中,中國學(xué)者提出了依存關(guān)系的第五條公理6:     1. 一個句子中只有一個成分是獨立的;     2. 其它成分直接依存于某一成分;     3. 任何一個成分都不能依存于兩個或兩個以上的成分;     4. 如果A 成分直接依存于B 成分,而C 成分在句中位于A 和B 之間,那么C 或者直接依存于B,或者直接依存處于A 和B 之間的某一成分。     5. 中心成分左右兩邊的其它成分相互不發(fā)生關(guān)系。 對于第5條公理本方法中并沒有采納,因為當(dāng)某一個歧義詞語恰好出現(xiàn)在中心動詞的一側(cè)時,會割斷與另一側(cè)詞語關(guān)聯(lián)關(guān)系,從而影響歧義消除的效果。 4  基于知網(wǎng)的語義消歧過程4.1 語義消歧的體系結(jié)構(gòu)    詞義消歧的處理需要完成兩個步驟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論