


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于知網(wǎng)的漢語(yǔ)詞語(yǔ)詞義消歧方法 摘 要 本文提出了一種簡(jiǎn)單有效的詞義消歧方法,該模型充分利用依存文法分析,從句子的內(nèi)部結(jié)構(gòu),尋找詞語(yǔ)之間支配與被支配的關(guān)系,借以確定能夠?qū)υ~語(yǔ)語(yǔ)義構(gòu)成內(nèi)在限制的詞語(yǔ)。借助知網(wǎng)系統(tǒng)的實(shí)體關(guān)系,并結(jié)合與該岐義詞相關(guān)聯(lián)詞語(yǔ)的義項(xiàng),計(jì)算歧義詞的義項(xiàng)權(quán)重,從而根據(jù)義項(xiàng)權(quán)重大小來(lái)判斷歧義詞的詞義。 關(guān)鍵詞 詞義消歧;知網(wǎng);自然語(yǔ)言處理;依存句法分析 1 引言 &
2、#160; 自然語(yǔ)言中存在著大量的多義詞,如何在給定的上下文中,確定其中各個(gè)詞語(yǔ)在多個(gè)詞義中選取正確的詞義,是詞義消歧所應(yīng)解決的問(wèn)題。如果多義詞的多個(gè)詞義之間具有不同的詞性,則通過(guò)詞性標(biāo)注就可以確定該詞詞義。所以本文所說(shuō)的詞義消歧,是指如何在詞性相同的情況下選擇多義詞正確詞義的問(wèn)題。 漢語(yǔ)詞語(yǔ)的詞義消歧開(kāi)始于上世紀(jì)90年代后期,主要是利用詞典提供的信息。出現(xiàn)了利用現(xiàn)代漢語(yǔ)詞典釋義文本、同義詞詞林、知網(wǎng)中的語(yǔ)義類(lèi),對(duì)實(shí)詞多義進(jìn)行消歧的方法,但是平均正確率并不是很高12。 近年來(lái),隨計(jì)算機(jī)存儲(chǔ)容量和運(yùn)算速度的提
3、高,通過(guò)對(duì)大規(guī)模語(yǔ)料庫(kù)的利用,出現(xiàn)了許多基于語(yǔ)料庫(kù)統(tǒng)計(jì)的詞義消歧方法。使消歧的準(zhǔn)確率有了一定程度的提高,但是有些低頻詞,在語(yǔ)料中出現(xiàn)次數(shù)不多,很難搜集到它們的上下文環(huán)境,存在著知識(shí)獲取中數(shù)據(jù)稀疏以及自動(dòng)學(xué)習(xí)算法的參數(shù)空間過(guò)大問(wèn)題。 到目前,無(wú)論那種方法都沒(méi)有很好地解決詞義消歧問(wèn)題3。其中一個(gè)重要的原因就是詞義知識(shí)獲取中的瓶頸問(wèn)題,詞義消歧知識(shí)庫(kù)的質(zhì)量已成為詞義消歧成敗的關(guān)鍵。 本文提出了一種基于知網(wǎng)的漢語(yǔ)詞語(yǔ)詞義消歧方法,該方法只考慮詞匯句法之間的內(nèi)在關(guān)聯(lián)對(duì)特定環(huán)境中詞義的貢獻(xiàn),借助依存文法分析來(lái)找出這種詞義關(guān)聯(lián)。假設(shè)
4、不存在詞義關(guān)聯(lián)的上下文對(duì)于歧義詞語(yǔ)的特定詞義貢獻(xiàn)為0,存在語(yǔ)法關(guān)聯(lián)的上下文對(duì)詞義的貢獻(xiàn)相互獨(dú)立。選擇與歧義詞匯存在語(yǔ)法關(guān)聯(lián)的上下文作為模型中的特征值,這樣做既可以減少無(wú)關(guān)上下文對(duì)詞義消歧產(chǎn)生的噪音,又可以大幅度減少計(jì)算次數(shù),在提高詞義消歧準(zhǔn)確率的同時(shí),能夠明顯提高詞義消歧的工作效率。 2 語(yǔ)義資源知網(wǎng)簡(jiǎn)介 “知網(wǎng)”(Hownet)是董振東先生花費(fèi)十年時(shí)間編輯而成的語(yǔ)義詞典,也是一款供自然語(yǔ)言處理工作者免費(fèi)使用的完全共享軟件。知網(wǎng)是一個(gè)以漢語(yǔ)英語(yǔ)詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)4。
5、 知網(wǎng)作為一個(gè)知識(shí)系統(tǒng),是一個(gè)網(wǎng)而不是樹(shù)。它所著力反映的是概念的共性和個(gè)性,同時(shí)知網(wǎng)還著力反映了概念之間和概念的屬性之間的各種關(guān)系。知網(wǎng)知識(shí)庫(kù)主要包括:中英雙語(yǔ)知識(shí)詞典;義原分類(lèi)源文件;知管理工具;知網(wǎng)說(shuō)明文件(包括詞類(lèi)表和標(biāo)識(shí)符號(hào)說(shuō)明) 等。本文采用的知網(wǎng)知識(shí)庫(kù)文件主要有經(jīng)過(guò)處理的和。 2.1 義原分類(lèi)源文件 在知網(wǎng)中,“概念”是對(duì)詞匯語(yǔ)義的一種描述。每一個(gè)詞可以表達(dá)為幾個(gè)概念,其中每個(gè)詞的每一個(gè)義項(xiàng)分別對(duì)應(yīng)于一個(gè)不同的概念。而“義原”是基本的、不易于再分割的、沒(méi)有歧義的最小單位。不同的義原組合構(gòu)成了不同的概念定義。
6、 知網(wǎng)一共采用了1500 多個(gè)義原,這些義原分為“Event|事件”等十多個(gè)大類(lèi)、16種關(guān)系。在義原關(guān)系中最重要的還是上下位關(guān)系。 2.2 中英雙語(yǔ)知識(shí)詞典 中英雙語(yǔ)知識(shí)詞典中一共收錄了12萬(wàn)多條記錄,而每一個(gè)詞語(yǔ)用一條或多條記錄來(lái)表示,每條記錄的詞典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八項(xiàng),例如電腦”一詞的概念的記錄如下所示: NO.=21902 W_C=電腦 G_C=N
7、60; E_C= W_E=computer G_E=N E_E= DEF= computer|電腦 其中NO.為概念編號(hào),W_C、G_C、E_C分別是漢語(yǔ)的詞語(yǔ)、詞性和例子,W_E、G_E、E_E分別是對(duì)應(yīng)的英語(yǔ)詞語(yǔ)、詞性和例子,DEF是知網(wǎng)對(duì)于該概念的定義。 3 依存句法分析方法 依存句法是由法國(guó)語(yǔ)言學(xué)家L.Tesniere 在其著作結(jié)構(gòu)句法基礎(chǔ)(1959 年)中提出,對(duì)語(yǔ)言學(xué)的發(fā)展產(chǎn)生了深遠(yuǎn)的影響,特別是在計(jì)
8、算語(yǔ)言學(xué)界備受推崇。依存語(yǔ)法通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中動(dòng)詞是支配其他成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者5。 二十世紀(jì)七十年代,Robinson 提出依存語(yǔ)法中關(guān)于依存關(guān)系的四條公理,在處理中文信息的研究中,中國(guó)學(xué)者提出了依存關(guān)系的第五條公理6: 1. 一個(gè)句子中只有一個(gè)成分是獨(dú)立的; 2. 其它成分直接依存于某一成分; 3. 任何一個(gè)成分都不能依存于兩個(gè)或兩個(gè)以上的成分; 4. 如果A 成分直接依存于B 成分,而C 成分在句中位于A 和B 之間,那么C 或者直接依存于B,或者直接依存處于A 和B 之間的某一成分。 5. 中心成分左右兩邊的其它成分相互不發(fā)生關(guān)系。 對(duì)于第5條公理本方法中并沒(méi)有采納,因?yàn)楫?dāng)某一個(gè)歧義詞語(yǔ)恰好出現(xiàn)在中心動(dòng)詞的一側(cè)時(shí),會(huì)割斷與另一側(cè)詞語(yǔ)關(guān)聯(lián)關(guān)系,從而影響歧義消除的效果。 4 基于知網(wǎng)的語(yǔ)義消歧過(guò)程4.1 語(yǔ)義消歧的體系結(jié)構(gòu) 詞義消歧的處理需要完成兩個(gè)步驟
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 陽(yáng)泉直埋式保溫管施工方案
- 場(chǎng)地平整及強(qiáng)夯施工方案
- 施工方案編制格式
- 湖北省黃岡市部分學(xué)校2024-2025學(xué)年九年級(jí)下學(xué)期入學(xué)化學(xué)試題(原卷版+解析版)
- 2025年中國(guó)雞肉行業(yè)市場(chǎng)集中度、投融資動(dòng)態(tài)及未來(lái)趨勢(shì)預(yù)測(cè)報(bào)告
- 基于思維角度的寫(xiě)作教學(xué)模式發(fā)展研究
- 中西文化比較與跨文化交際知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春南開(kāi)大學(xué)
- 四級(jí)人力資源管理師-上半人力(四級(jí))《基礎(chǔ)知識(shí)》黑鉆押題3
- 云南省中央民大附中芒市國(guó)際學(xué)校2017-2018學(xué)年高二上學(xué)期末考試語(yǔ)文試卷
- 四川省南充市西充中學(xué)2024-2025學(xué)年高一下學(xué)期2月月考政治試題
- 2024-2024年上海市高考英語(yǔ)試題及答案
- 考試五類(lèi)職業(yè)適應(yīng)性測(cè)試試題庫(kù)及答案
- 【完整版】2020-2025年中國(guó)大語(yǔ)文培訓(xùn)行業(yè)發(fā)展戰(zhàn)略制定與實(shí)施研究報(bào)告
- 專(zhuān)題11 電磁感應(yīng)-2024物理高考真題及??碱}分類(lèi)匯編
- 《中國(guó)各民族的語(yǔ)言》課件
- 2024年中考數(shù)學(xué)壓軸題預(yù)測(cè)《圓的綜合壓軸題》及答案解析
- 廣東省汕頭市龍湖區(qū)汕頭市龍湖實(shí)驗(yàn)中學(xué)2024-2025學(xué)年八年級(jí)上學(xué)期11月期中語(yǔ)文試題
- 南京信息工程大學(xué)《流體力學(xué)(Ⅰ)》2022-2023學(xué)年第一學(xué)期期末試卷
- IEC 62368-1標(biāo)準(zhǔn)解讀-中文
- 進(jìn)口冷鏈?zhǔn)称菲髽I(yè)應(yīng)急響應(yīng)制度
- 皮革制品價(jià)格與消費(fèi)者購(gòu)買(mǎi)意愿
評(píng)論
0/150
提交評(píng)論