基于《知網(wǎng)》的漢語(yǔ)詞語(yǔ)詞義消歧方法_第1頁(yè)
基于《知網(wǎng)》的漢語(yǔ)詞語(yǔ)詞義消歧方法_第2頁(yè)
基于《知網(wǎng)》的漢語(yǔ)詞語(yǔ)詞義消歧方法_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于知網(wǎng)的漢語(yǔ)詞語(yǔ)詞義消歧方法     摘  要  本文提出了一種簡(jiǎn)單有效的詞義消歧方法,該模型充分利用依存文法分析,從句子的內(nèi)部結(jié)構(gòu),尋找詞語(yǔ)之間支配與被支配的關(guān)系,借以確定能夠?qū)υ~語(yǔ)語(yǔ)義構(gòu)成內(nèi)在限制的詞語(yǔ)。借助知網(wǎng)系統(tǒng)的實(shí)體關(guān)系,并結(jié)合與該岐義詞相關(guān)聯(lián)詞語(yǔ)的義項(xiàng),計(jì)算歧義詞的義項(xiàng)權(quán)重,從而根據(jù)義項(xiàng)權(quán)重大小來(lái)判斷歧義詞的詞義。      關(guān)鍵詞  詞義消歧;知網(wǎng);自然語(yǔ)言處理;依存句法分析      1  引言 &

2、#160;  自然語(yǔ)言中存在著大量的多義詞,如何在給定的上下文中,確定其中各個(gè)詞語(yǔ)在多個(gè)詞義中選取正確的詞義,是詞義消歧所應(yīng)解決的問(wèn)題。如果多義詞的多個(gè)詞義之間具有不同的詞性,則通過(guò)詞性標(biāo)注就可以確定該詞詞義。所以本文所說(shuō)的詞義消歧,是指如何在詞性相同的情況下選擇多義詞正確詞義的問(wèn)題。     漢語(yǔ)詞語(yǔ)的詞義消歧開(kāi)始于上世紀(jì)90年代后期,主要是利用詞典提供的信息。出現(xiàn)了利用現(xiàn)代漢語(yǔ)詞典釋義文本、同義詞詞林、知網(wǎng)中的語(yǔ)義類(lèi),對(duì)實(shí)詞多義進(jìn)行消歧的方法,但是平均正確率并不是很高12。     近年來(lái),隨計(jì)算機(jī)存儲(chǔ)容量和運(yùn)算速度的提

3、高,通過(guò)對(duì)大規(guī)模語(yǔ)料庫(kù)的利用,出現(xiàn)了許多基于語(yǔ)料庫(kù)統(tǒng)計(jì)的詞義消歧方法。使消歧的準(zhǔn)確率有了一定程度的提高,但是有些低頻詞,在語(yǔ)料中出現(xiàn)次數(shù)不多,很難搜集到它們的上下文環(huán)境,存在著知識(shí)獲取中數(shù)據(jù)稀疏以及自動(dòng)學(xué)習(xí)算法的參數(shù)空間過(guò)大問(wèn)題。     到目前,無(wú)論那種方法都沒(méi)有很好地解決詞義消歧問(wèn)題3。其中一個(gè)重要的原因就是詞義知識(shí)獲取中的瓶頸問(wèn)題,詞義消歧知識(shí)庫(kù)的質(zhì)量已成為詞義消歧成敗的關(guān)鍵。     本文提出了一種基于知網(wǎng)的漢語(yǔ)詞語(yǔ)詞義消歧方法,該方法只考慮詞匯句法之間的內(nèi)在關(guān)聯(lián)對(duì)特定環(huán)境中詞義的貢獻(xiàn),借助依存文法分析來(lái)找出這種詞義關(guān)聯(lián)。假設(shè)

4、不存在詞義關(guān)聯(lián)的上下文對(duì)于歧義詞語(yǔ)的特定詞義貢獻(xiàn)為0,存在語(yǔ)法關(guān)聯(lián)的上下文對(duì)詞義的貢獻(xiàn)相互獨(dú)立。選擇與歧義詞匯存在語(yǔ)法關(guān)聯(lián)的上下文作為模型中的特征值,這樣做既可以減少無(wú)關(guān)上下文對(duì)詞義消歧產(chǎn)生的噪音,又可以大幅度減少計(jì)算次數(shù),在提高詞義消歧準(zhǔn)確率的同時(shí),能夠明顯提高詞義消歧的工作效率。 2  語(yǔ)義資源知網(wǎng)簡(jiǎn)介    “知網(wǎng)”(Hownet)是董振東先生花費(fèi)十年時(shí)間編輯而成的語(yǔ)義詞典,也是一款供自然語(yǔ)言處理工作者免費(fèi)使用的完全共享軟件。知網(wǎng)是一個(gè)以漢語(yǔ)英語(yǔ)詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)4。

5、     知網(wǎng)作為一個(gè)知識(shí)系統(tǒng),是一個(gè)網(wǎng)而不是樹(shù)。它所著力反映的是概念的共性和個(gè)性,同時(shí)知網(wǎng)還著力反映了概念之間和概念的屬性之間的各種關(guān)系。知網(wǎng)知識(shí)庫(kù)主要包括:中英雙語(yǔ)知識(shí)詞典;義原分類(lèi)源文件;知管理工具;知網(wǎng)說(shuō)明文件(包括詞類(lèi)表和標(biāo)識(shí)符號(hào)說(shuō)明) 等。本文采用的知網(wǎng)知識(shí)庫(kù)文件主要有經(jīng)過(guò)處理的和。 2.1 義原分類(lèi)源文件    在知網(wǎng)中,“概念”是對(duì)詞匯語(yǔ)義的一種描述。每一個(gè)詞可以表達(dá)為幾個(gè)概念,其中每個(gè)詞的每一個(gè)義項(xiàng)分別對(duì)應(yīng)于一個(gè)不同的概念。而“義原”是基本的、不易于再分割的、沒(méi)有歧義的最小單位。不同的義原組合構(gòu)成了不同的概念定義。

6、    知網(wǎng)一共采用了1500 多個(gè)義原,這些義原分為“Event|事件”等十多個(gè)大類(lèi)、16種關(guān)系。在義原關(guān)系中最重要的還是上下位關(guān)系。 2.2 中英雙語(yǔ)知識(shí)詞典    中英雙語(yǔ)知識(shí)詞典中一共收錄了12萬(wàn)多條記錄,而每一個(gè)詞語(yǔ)用一條或多條記錄來(lái)表示,每條記錄的詞典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八項(xiàng),例如電腦”一詞的概念的記錄如下所示:     NO.=21902    W_C=電腦   G_C=N 

7、60;  E_C=     W_E=computer   G_E=N  E_E=  DEF= computer|電腦     其中NO.為概念編號(hào),W_C、G_C、E_C分別是漢語(yǔ)的詞語(yǔ)、詞性和例子,W_E、G_E、E_E分別是對(duì)應(yīng)的英語(yǔ)詞語(yǔ)、詞性和例子,DEF是知網(wǎng)對(duì)于該概念的定義。 3  依存句法分析方法    依存句法是由法國(guó)語(yǔ)言學(xué)家L.Tesniere 在其著作結(jié)構(gòu)句法基礎(chǔ)(1959 年)中提出,對(duì)語(yǔ)言學(xué)的發(fā)展產(chǎn)生了深遠(yuǎn)的影響,特別是在計(jì)

8、算語(yǔ)言學(xué)界備受推崇。依存語(yǔ)法通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中動(dòng)詞是支配其他成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者5。     二十世紀(jì)七十年代,Robinson 提出依存語(yǔ)法中關(guān)于依存關(guān)系的四條公理,在處理中文信息的研究中,中國(guó)學(xué)者提出了依存關(guān)系的第五條公理6:     1. 一個(gè)句子中只有一個(gè)成分是獨(dú)立的;     2. 其它成分直接依存于某一成分;     3. 任何一個(gè)成分都不能依存于兩個(gè)或兩個(gè)以上的成分;     4. 如果A 成分直接依存于B 成分,而C 成分在句中位于A 和B 之間,那么C 或者直接依存于B,或者直接依存處于A 和B 之間的某一成分。     5. 中心成分左右兩邊的其它成分相互不發(fā)生關(guān)系。 對(duì)于第5條公理本方法中并沒(méi)有采納,因?yàn)楫?dāng)某一個(gè)歧義詞語(yǔ)恰好出現(xiàn)在中心動(dòng)詞的一側(cè)時(shí),會(huì)割斷與另一側(cè)詞語(yǔ)關(guān)聯(lián)關(guān)系,從而影響歧義消除的效果。 4  基于知網(wǎng)的語(yǔ)義消歧過(guò)程4.1 語(yǔ)義消歧的體系結(jié)構(gòu)    詞義消歧的處理需要完成兩個(gè)步驟

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論