




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于動詞的關(guān)系模式抽取方法摘要:本文提出了一種基于動詞的關(guān)系模式抽取方法,旨在從中文網(wǎng)頁語料中抽取高準確率的實體關(guān)系。使用ICTCLAS和實體表進行人名和島嶼島礁實體識別,生成準確的句子實例,在此基礎(chǔ)上構(gòu)建基于動詞的關(guān)系模式。實驗結(jié)果表明該方法獲得了良好的抽取性能。關(guān)鍵詞:關(guān)系抽?。魂P(guān)系模式;實體識別一 引言信息抽取研究技術(shù)是人們獲取信息的有力工具,是應(yīng)對信息爆炸帶來的嚴重挑戰(zhàn)的重要手段。信息抽取的目標是從無結(jié)構(gòu)自然語言文本中提取計算機可以理解的結(jié)構(gòu)化信息,其中一種主要的結(jié)構(gòu)化信息是實體關(guān)系。關(guān)系抽取是信息抽取的子任務(wù),主要目的是提取句子中的實體關(guān)系1。Web已經(jīng)成為包含人類社會各種知識的信息
2、庫,其規(guī)模正在以指數(shù)級速度膨脹,容納的信息中有各種實體關(guān)系信息,如人物社會關(guān)系、國家與島嶼之間的擁有主權(quán)關(guān)系等等。然而,現(xiàn)有的搜索引擎僅能返回與用戶關(guān)心的相關(guān)信息網(wǎng)頁,不能得到各種關(guān)系信息。本文以從中文網(wǎng)頁語料中自動抽取實體之間關(guān)系為目標,提出一種基于動詞的關(guān)系模式抽取方法。二 關(guān)系抽取語料中的實體包括八類:人名、地名、城市、島嶼島礁、海域河域、組織機構(gòu)、政府部門、軍事機構(gòu),如圖1所示。人名人名地名地名城市城市島嶼島礁島嶼島礁海域河域海域河域組織機構(gòu)組織機構(gòu)政府部門政府部門軍事機構(gòu)軍事機構(gòu)圖1 實體關(guān)系表如何抽取這八類實體之間的關(guān)系、以構(gòu)建關(guān)系模式是我們要研究的內(nèi)容,本文以抽取人名和島嶼島礁之
3、間的關(guān)系為例開展研究。我們提出的關(guān)系抽取策略包括句子實例獲取、關(guān)系模式的構(gòu)建。實體關(guān)系抽取原理如圖2所示。中文網(wǎng)頁語料(文本)預(yù)處理關(guān)系模式構(gòu)建確定動詞概念確定名詞概念生成規(guī)則訓(xùn)練部分測試部分生成關(guān)系模式新實例抽取圖2 實體關(guān)系抽取原理圖(一) 句子實例獲取將中文網(wǎng)頁正文部分進行預(yù)處理,獲取含有實體的句子作為關(guān)系抽取的句子實例。預(yù)處理包括分段分句、詞性標注、命名實體識別等2。本文主要處理人物與島嶼島礁之間的關(guān)系抽取任務(wù),所以在分好的句子中使用ICTCLAS3識別出這兩種實體類型,在句子中出現(xiàn)的人物以“1-人名XX”標注,島嶼以“23-島嶼名XX”標注。(二) 關(guān)系模式的構(gòu)建傳統(tǒng)的啟發(fā)式方法對句
4、子實例進行詞性標注,并用通配符替換實體對出現(xiàn)的位置來構(gòu)建模式4,但通用性和準確性不足,例如“北京是中國的首都”的模式構(gòu)建結(jié)果為“object是/v target的/u首都/n”,而從“北京是中國政治文化的中心”中得到的模式并未表示北京和中國之間的capital-of關(guān)系。 本文使用的關(guān)系模式抽取方法是從種子句中出現(xiàn)在實體前后的上下文來學(xué)習(xí)關(guān)系模式,在從種子句中學(xué)習(xí)抽取模式時,并不是機械地把出現(xiàn)在種子句中實體前、實體中、實體后的所有詞語均作為所學(xué)模式的特征詞5。因為通過對句子的觀察,發(fā)現(xiàn)句子中兩個實體的上下文中常會出現(xiàn)大量的修飾性詞語,如形容詞、副詞、語氣詞等,如果把所有出現(xiàn)的詞語都作為抽取模式
5、的特征詞,一方面極大地增加了模式的長度,會在以后的模式匹配工作中占據(jù)較多的機器時間,另一方面長模式的匹配準確率也會有相應(yīng)的下降。所以本文提出了基于動詞的關(guān)系抽取方法,以“動詞”為核心,將相同動詞的句子放在一起抽取關(guān)系模式。以下是一個句子標注例子:動詞:到達從譚門鎮(zhèn)出發(fā),將航向調(diào)到東南110度,3天3夜后“瓊瓊海08068”號漁船船長1-許衛(wèi)可到達23-黃巖島。不用翻譯我們抽取的是實體(概念)之間的關(guān)系,這種關(guān)系在文本體現(xiàn)方式上為上下文環(huán)境約束。即提煉各種上下文環(huán)境約束規(guī)則,將其實現(xiàn)到語言中,計劃實現(xiàn)的上下文環(huán)境計算符包括:SENT,表示在同一句話中;ORD,表示滿足先后順序;DIST_n,表示
6、兩兩距離不能超過n等等。關(guān)系模式的一個示例:CONCEPT: ACTION_ARRIVE: 到達CONCEPT: NAME: 許衛(wèi)CONCEPT: NAME_ISLAND: 黃巖島MCONCEPT_RULE:ARRIVE(person.island):(SENT,ORD( “_personNAME”, ”ACTION_ARRIVE”, ”_islandNAME_ISLAND ”)不用翻譯關(guān)系模式包含兩部分的內(nèi)容,一部分是概念,一部分是規(guī)則?!癈ONCEPT”表示概念,包括動詞概念和名詞概念,動詞概念以“ACTION_”為開頭,名詞概念指的是實體,如人物、地名(國家、島嶼、海域、城市)、組織機構(gòu)
7、等等,“CONCEPT: NAME: 許衛(wèi)”表示人名“許衛(wèi)”,“CONCEPT: NAME_ISLAND: 黃巖島”表示島嶼名“黃巖島”;抽取的目標是概念的關(guān)系,我們用“MCONCEPT_RULE”定義抽取的規(guī)則,規(guī)則名“ARRIVE”用動詞來表示,規(guī)則由兩個參數(shù)person和island組成,分別對應(yīng)名詞概念NAME和NAME_ISLAND。三 實驗結(jié)果及分析(一)實驗語料 實驗中選擇了人名與島嶼島礁名的關(guān)系作為抽取對象,使用了21,467篇中文網(wǎng)頁,對其進行分段分句,共分出435,210個相異句子,在分好的句子中使用ICTCLAS進行實體識別后再進行實體表比對,最終收集了含有人名和島嶼名的
8、共7959個句子組成了實驗集合。在對所有的句子按照“動詞”進行劃分,對句子中出現(xiàn)命名實體(人名、島嶼島礁名)進行標注后,選取其中有代表性的100個句子作為關(guān)系模式的種子集,余下句子作為測試集。(二)實驗結(jié)果構(gòu)建關(guān)系模式過程由關(guān)系抽取系統(tǒng)實現(xiàn),如圖3所示。輸入動詞“暗示”查找到相關(guān)句子,根據(jù)動詞定義規(guī)則名“IMPLY”稱并生成動詞概念“ACTION_IMPLY”,從句子中抽取名詞并生成名詞概念,以此構(gòu)建概念之間的關(guān)系最終生成關(guān)系模式(即規(guī)則)。圖3 關(guān)系抽取系統(tǒng)圖片不用管將構(gòu)建的關(guān)系模式寫入txt文件,如圖4所示。圖4 構(gòu)建的關(guān)系模式在實驗中由于是對某一具體關(guān)系類別的分析,我們引入了準確率和召回
9、率這兩個判斷標準6,公式如下:準確率P=(正確抽取的某一實體關(guān)系數(shù)目)/(測試集中抽取的某一實體關(guān)系數(shù)目)召回率R=(正確抽取的某一實體關(guān)系數(shù)目)/(測試集中應(yīng)有某一實體關(guān)系數(shù)目)實驗結(jié)果如表1所示。表1 關(guān)系模式抽取實驗結(jié)果DIST值抽取person-island關(guān)系數(shù)正確關(guān)系數(shù)應(yīng)有person-island關(guān)系對準確率召回率DIST_213210516979.5%62.1%DIST_4987511476.5%65.8%不2%70.6%從表1中可以看出基于動詞的關(guān)系模式抽取方法的召回率和抽取的person-island關(guān)系的準確率與DIST值有很大關(guān)系,DIST_2
10、表示兩兩距離不超過2,即當person和動詞之間的距離不超過2時,抽取關(guān)系的準確率為79.5%,相對較高,而召回率較低;當DIST取值為DIST_4時,抽取關(guān)系的準確率為76.4%,較DIST_2時要低些,而召回率較DIST_2時要高些;當DIST取值不限時,即person與動詞之間無距離限制時,抽取關(guān)系的準確率更低些,而召回率較前兩者高些。四 結(jié)論 普通模式匹配方法抽取實體關(guān)系是用模式與句子及其詞語進行格式或形式上的匹配,這種方法一般要求句子的行文、結(jié)構(gòu)比較規(guī)范。然而對于包含各種關(guān)系的中文網(wǎng)頁語料,由于其結(jié)構(gòu)比較靈活,普通的模式匹配方法效率并不高,為此,本文提出了基于動詞的模式匹配方法來抽取
11、句子中實體的關(guān)系,完成了對人名和島嶼島礁之間的關(guān)系抽取任務(wù)。下一步的工作中,我們將對關(guān)系實例進行進一步挖掘,以提升抽取準確率并獲得更多語義信息,另外,我們還將嘗試抽取其他類別的關(guān)系實例。參考文獻1 吳楠,王慶林,劉禹. 基于百科詞條的領(lǐng)域本體關(guān)系抽取方法J中南大學(xué)學(xué)報(自然科學(xué)版),2013,(44):347-350.2 張葦如,孫樂. 基于維基百科和模式聚類的實體關(guān)系抽取方法J中文信息學(xué)報,2012,(2):75-78.3 中科院計算所.ICTCLAS漢語分詞系統(tǒng)EB/OL ,2011/.Chinese Academy of Institute of Com
12、puting Technology. ICTCLAS Chinese Analysis System4 O.Medelyan, D.Milne,C.legg. Mining Meaning from WikipediaJ. International Journal of Human-Computer Studies, 2009, 67 (9): 716-754.5E.Agichten and L.Gravano. Snowball. Extracting relations from large plain-text collectionsJ. Proceedings of the fifth ACM conference on Digital libraries,New York,ACM Press,2000,85-946zelenko D,Aone C,Rechardella A. Kernel Methods for Relation ExtractionJ. Jou
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 會務(wù)租用合同范本
- 醫(yī)生兼職社工合同范本
- 修腳房投資合同范本
- 共同紅酒合同范本
- 加強合同范本庫
- 副食版合同范本
- 50%股權(quán)合同范本
- 業(yè)務(wù)介紹抽成合同范例
- 代購代銷電子合同范本
- 代理進口合同范例15篇
- 三、膽石癥課件
- 學(xué)生作業(yè)情況登記表模板(可打印)
- 兔子坡(閱讀課上課課件)
- 高中數(shù)學(xué)《立體幾何》教材分析及教學(xué)建議
- 八年級英語初中英語閱讀理解閱讀專項練習(xí)試卷附答案
- 固定資產(chǎn)清查盤點明細表
- 人教版八年級數(shù)學(xué)下冊課件【全冊】
- 物聯(lián)網(wǎng)管理平臺的設(shè)計與實現(xiàn)
- 1例妊娠糖尿病的個案護理
- 光伏發(fā)電職業(yè)病危害預(yù)評價方案方案
- 財務(wù)報表涉稅分析
評論
0/150
提交評論