淺析信息抽取技術(shù)及前景_第1頁
淺析信息抽取技術(shù)及前景_第2頁
淺析信息抽取技術(shù)及前景_第3頁
淺析信息抽取技術(shù)及前景_第4頁
淺析信息抽取技術(shù)及前景_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、信息抽取技術(shù)及前景淺析李榮國 072529關(guān)鍵詞:信息抽取 信息處理技術(shù) 分詞 句法及語義分析摘要: 面向?qū)嶋H應(yīng)用和潛在需求,建立自適應(yīng)的、可移植的系統(tǒng)是未來信息抽取的發(fā)展方向,立足于目前已有的研究成果,建立受測試集驅(qū)動、通過機(jī)器學(xué)習(xí)構(gòu)建有監(jiān)督機(jī)制的規(guī)則庫并在此基礎(chǔ)上實(shí)現(xiàn)知識獲取將成為一條發(fā)展的思路。一、信息抽取概述隨著計(jì)算機(jī)在各個領(lǐng)域的廣泛普及和Internet的迅猛發(fā)展,社會的信息總量呈爆炸式的指數(shù)增長。信息總量的量級,從20世紀(jì)90年代初的MB(106)過渡到GB(109)再到現(xiàn)在的TB(1012)。進(jìn)入21世紀(jì)后,全世界信息總量更是以每三年增加一倍的速度遞增。據(jù)統(tǒng)計(jì),在這些海量信息中,

2、有6070是以電子文檔的形式存在。為了應(yīng)對信息爆炸帶來的挑戰(zhàn),迫切需要一些自動化的技術(shù)幫助人們在海量信息中迅速找到自己真正需要的信息。信息抽?。↖nformation Extraction,IE)正是解決這個問題的一種方法。信息抽取技術(shù)是指從一段自然語言文本中抽取指定的事件、事實(shí)信息,并以結(jié)構(gòu)化形式描述信息,供信息查詢、文本深層挖掘、自動回答問題等應(yīng)用,為人們提供有力的信息獲取工具。也就是從文本中抽取用戶感興趣的事件、實(shí)體和關(guān)系,被抽取出來的信息以結(jié)構(gòu)化的形式描述,然后存儲在數(shù)據(jù)庫中,為情報(bào)分析和檢測、比價購物、自動文摘、文本分類等各種應(yīng)用提供服務(wù)。廣義上信息抽取技術(shù)的抽取對象并不局限于文本,

3、其他形式存在的信息也可以作為信息抽取的對象,而抽取的結(jié)果則變?yōu)橄鄳?yīng)的結(jié)構(gòu)化數(shù)據(jù)。后文如無說明只涉及中文文本信息抽取。信息抽取技術(shù)的最終目的就是開發(fā)實(shí)用的信息抽取系統(tǒng),從自由文本中抽取、分析信息,從而得到有用的、用戶感興趣的信息。信息抽取技術(shù)在軍事、經(jīng)濟(jì)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域有著極大的應(yīng)用空間。與信息抽取密切相關(guān)的一項(xiàng)研究是信息檢索(Information Retrieval,IR)技術(shù)。信息抽取并不同與信息檢索,兩種的功能、處理技術(shù)、適用領(lǐng)域均不相同,但它們倆是可以互補(bǔ)的。為了處理海量文本,信息抽取系統(tǒng)通常以信息檢索系統(tǒng)(如文本過濾)的輸出作為輸入;而信息抽取技術(shù)又可以用來提高信息檢索系統(tǒng)的性

4、能。二者的結(jié)合能夠更好地服務(wù)與用戶的信息處理需求。另外,和信息抽取相關(guān)的技術(shù)還有自動文摘、文本理解、自然語言生成、機(jī)器翻譯和數(shù)據(jù)挖掘等。二、信息抽取系統(tǒng)的構(gòu)建在信息抽取技術(shù)中,對自由文本進(jìn)行信息抽取需要運(yùn)用許多自然語言處理(NLP)知識,所以自由文本信息抽取系統(tǒng)的構(gòu)建是比較復(fù)雜和困難的。在信息抽取系統(tǒng)的構(gòu)建過程中,最重要的是如何獲得抽取模式(Extraction Pattern)。根據(jù)抽取模式獲得的方式的不同,信息抽取系統(tǒng)的構(gòu)建主要有兩種方法,即知識工程方法(Knowledge Engineering Approach)和機(jī)器學(xué)習(xí)方法(Machine Learning Approach,也叫自

5、動訓(xùn)練方法automatically trainable system)。 知識工程(KE)方法依靠人工編寫抽取模式,使系統(tǒng)能處理特定知識領(lǐng)域的信息抽取問題。這種方法要求編寫抽取模式的知識工程師對特定知識領(lǐng)域有深入的了解,具有性能好和易開發(fā)等優(yōu)點(diǎn)。這種方法一般用于構(gòu)建具有以下特點(diǎn)的系統(tǒng):1. 已有相應(yīng)的資源,如詞典、表等;2. 已經(jīng)有了可用的規(guī)則;3. 數(shù)據(jù)訓(xùn)練代價大或者不容易實(shí)現(xiàn);4. 抽取的規(guī)格變化頻繁;5. 性能要求高。機(jī)器學(xué)習(xí)(ML)方法是利用機(jī)器學(xué)習(xí)技術(shù)讓信息抽取系統(tǒng)通過訓(xùn)練文本來獲得抽取模式,實(shí)現(xiàn)特定領(lǐng)域的信息抽取功能。任何對特定知識領(lǐng)域比較熟悉的人都可以根據(jù)事先約定的規(guī)則來標(biāo)記訓(xùn)

6、練文本。利用這些訓(xùn)練文本訓(xùn)練后,系統(tǒng)能夠處理沒有標(biāo)記的新的文本。這種方法構(gòu)建的系統(tǒng)具有的特點(diǎn)剛好與用KE方法的系統(tǒng)特點(diǎn)相反。知識工程方法的設(shè)計(jì)初始階段較容易,但是要實(shí)現(xiàn)較完善的規(guī)則庫的過程往往比較耗時耗力。自動學(xué)習(xí)方法抽取規(guī)則的獲取是通過學(xué)習(xí)自動獲得的,但是該方法需要足夠數(shù)量的訓(xùn)練數(shù)據(jù),才能保證系統(tǒng)的抽取質(zhì)量。下面介紹以下兩種信息抽取結(jié)構(gòu):通用信息抽取結(jié)構(gòu)和Bare Bones結(jié)構(gòu)。通用信息抽取結(jié)構(gòu):Hobbs提出的,也叫Hobbs結(jié)構(gòu)。將信息抽取系統(tǒng)抽象為“級聯(lián)的轉(zhuǎn)換器或模塊集合,利用手工編制或自動獲得的規(guī)則在每一步過濾掉不相關(guān)的信息,增加新的結(jié)構(gòu)信息”。其組成如圖1所示。圖1 信息抽取過程

7、 文本分塊:將輸入文本分割為不同的部分塊。 預(yù)處理:將得到的文本塊轉(zhuǎn)換為句子序列,每個句子由詞匯項(xiàng)(lexical items,詞或特點(diǎn)類型短語)及相關(guān)的屬性(如詞類)組成。 過濾:過濾掉不相關(guān)的句子。 預(yù)分析:在詞匯項(xiàng)序列中識別確定的小型結(jié)構(gòu),如名詞短語、并列結(jié)構(gòu)等。 片段組合:如果上一步?jīng)]有得到完整的分析樹,則需要將分析樹片段集合或邏輯形式片段組合成整句的一顆分析樹或其他邏輯表示形式。 語義解釋:從分析樹或者分析樹片段集合生成語義結(jié)構(gòu)、意義表示或其他邏輯形式。 詞匯消歧:消解上一模塊中存在的歧義得到唯一的語義結(jié)構(gòu)表示。 共指消解:也稱篇章處理,通過確定同一實(shí)體在文本不同部分中的不同描述將當(dāng)

8、前句的語義結(jié)構(gòu)表示合并到先前的處理結(jié)果中。 模板生成:由文本的語義結(jié)構(gòu)表示生成最終的模板。當(dāng)然,不是所有的信息抽取系統(tǒng)都包含所有的模塊,并且也未必完全遵循以上的處理順序。但一個信息抽取系統(tǒng)應(yīng)該包含以上模塊中描述的功能。一個典型的信息抽取系統(tǒng)的工作過程主要包括:1. 用一組信息模式(info patterns)描述感興趣的信息。信息模式一般可表示為一個簡單的句子,如<公司名>“推出”<產(chǎn)品名>。系統(tǒng)針對某一領(lǐng)域的信息特征預(yù)定義一系列信息模式存于模式庫中。2. 對文本進(jìn)行“適度的”詞法、句法及句子分析,并作各種文本標(biāo)引。這個過程通常包含識別特定的名詞短語(人名、機(jī)構(gòu)名等)和

9、動詞短語(事件描述、事件陳述)。這需要使用合適的詞典、構(gòu)詞規(guī)則庫和分詞算法等等支持。3. 使用模式匹配方法識別指定的信息(找出信息模式的各個部分)。4. 使用上下文關(guān)聯(lián)、指代、引用等分析和推理,確定信息的最終模式。5. 輸出結(jié)構(gòu)(例如生成一個關(guān)系數(shù)據(jù)庫或給出自然語言陳述等)。典型的信息抽取系統(tǒng)還包括一個預(yù)處理過程,目的在于過濾掉與抽取目標(biāo)不相干掉文本;然后通過詞法分析和標(biāo)引,識別所有相關(guān)的詞匯(“關(guān)鍵詞”識別與標(biāo)引);句法和語義分析只應(yīng)用于所有包含了關(guān)鍵詞典句子的集合,對每個句子的分析結(jié)果近似于該句子的語義框架表示;最后對這些框架進(jìn)行合并和綜合,便可得到所需的信息的各種數(shù)據(jù)項(xiàng)(關(guān)系數(shù)據(jù)模式的各

10、個字段)。Bare Bones結(jié)構(gòu):如圖2的結(jié)構(gòu)是空骨架(Bare Bones)結(jié)構(gòu),是Hobbs結(jié)構(gòu)的一個簡化。 圖2 Bare Bones結(jié)構(gòu)圖其實(shí)一個信息抽取系統(tǒng)只有圖上4個部分是不夠的,所以以上結(jié)構(gòu)稱為“空骨架”。如圖3所示,是一個添加了詞分割、部分語音標(biāo)記、詞組理解等內(nèi)容的完整的、有“血肉”的信息抽取系統(tǒng)。 圖3 一個有“血肉”的信息抽取系統(tǒng)結(jié)構(gòu)其中,符號化的工作主要是進(jìn)行詞的分割,類似與Hobbs結(jié)構(gòu)的文本分塊。詞匯和詞法處理則是根據(jù)詞典和各種標(biāo)記來理解詞匯的意義,從而進(jìn)行實(shí)體的識別。句法分析得到文檔的某種結(jié)構(gòu)表示,如完整的分析樹或分析樹片段集合。領(lǐng)域分析可以分為共指分析和片段結(jié)果

11、(模版)的合并兩部分。三、中文信息處理技術(shù)在信息抽取中的應(yīng)用信息抽取主要的技術(shù)有:a.命名實(shí)體識別;b.句法分析;c.篇章分析與推理;d知識獲取。根據(jù)中文的特點(diǎn),中文信息抽取具有一定的特殊性,需要以下幾種中文信息處理技術(shù)的支撐:1. 詞典、詞語切分和詞性標(biāo)注;2. 句法及語義分析;3. 句群分析與篇章表示。信息抽取技術(shù)是針對結(jié)構(gòu)文檔、板結(jié)構(gòu)文檔、純文檔進(jìn)行的知識抽取,去除文檔中不需要的冗余信息,抽取出對我們有用的知識,并存入結(jié)構(gòu)數(shù)據(jù)庫中。因此,信息抽取技術(shù)的核心是從文本中提取信息,如果對于文本中的關(guān)鍵句(中心句)能夠使機(jī)器理解,則對于提高抽取的精度有很大的幫助。因此,將自然語言(中文)信息處理

12、技術(shù)應(yīng)用與信息抽取技術(shù),將使信息抽取技術(shù)更加完善。一般有三種信息抽取方法:基于隱馬爾科夫模型的信息抽取(主要利用Baum-Welch算法計(jì)算模型初始狀態(tài)概率、狀態(tài)轉(zhuǎn)移概率和釋放概率,解碼問題采用Viterbi算法,學(xué)習(xí)問題可以采用ML算法和Baum-Welch算法),基于自然語言處理的信息抽取方法和基于規(guī)則的信息抽取。下面詳細(xì)介紹基于規(guī)則的信息抽取方法及其可以用到的中文信息處理技術(shù)。基于規(guī)則的信息抽取需要詞典和規(guī)則庫的支撐,這些規(guī)則一般不是通用的,而是針對某個特定領(lǐng)域的。下面對其抽取流程和用到的中文信息處理的關(guān)鍵技術(shù)做以下分析。一、信息抽取系統(tǒng)模型基于規(guī)則的信息抽模型可設(shè)計(jì)如圖4所示。這是根據(jù)

13、Hobbs的通用結(jié)構(gòu)設(shè)計(jì)的。 圖4 基于規(guī)則的信息抽取系統(tǒng)結(jié)構(gòu)二、詞法分析進(jìn)行分詞(包括詞、詞組和短語的切分)。詞切分正確與否是信息抽取的關(guān)鍵所在。中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過程就是分詞算法?,F(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。1、基于字符串匹配的分詞方法即機(jī)械分詞方法。它是按照一定的策略將待分析的漢字串與一個“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以

14、分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下:1) 正向最大匹配法,正向最小匹配法;(由左到右的方向)對于待切分的一段字符串,首先以該字符串的首字為起點(diǎn)進(jìn)行搜索,直到找到以該字為首字的起點(diǎn),在字符串中出現(xiàn)的最長(最短,但不為單個字)的詞,并以此為標(biāo)記切出第一個詞,并將剩下的字符串作為新的待切分字符串進(jìn)行相同的處理。2) 逆向最大匹配法,逆向最小匹配法。(由右到左的方向);思想同正向最大匹配法相同。3) 鄰近匹配算法(neighborh

15、ood match)。 采用首字索引的詞表,利用在同一首字下的詞條按升序排列這一條件,在找到某個字符串后,在其后面加上一個子得一新字串,如果新子串在詞典中出現(xiàn),那么新詞一定在原字串的后面,且相隔不會太原。這一匹配算法就叫鄰近匹配算法。4) 最短路徑匹配算法。首先根據(jù)詞典,找出字符串中所有可能的詞(也稱全切詞),然后構(gòu)造詞語切分的有向無環(huán)圖。5) 最少切分(使每一句中切出的詞數(shù)最?。?,等等。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,

16、遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待切分字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串,然后再進(jìn)行機(jī)械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標(biāo)注過程中又反過來對分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)

17、確率。2、基于理解的分詞方法這種分詞方法是通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。3、基于統(tǒng)計(jì)的分詞方法從形式上看,詞是穩(wěn)定的字的組合,比如在上下文中,相鄰的字同時出

18、現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的各種統(tǒng)計(jì)信息,從而進(jìn)行分詞。比如基于統(tǒng)計(jì)的最短路徑分詞方法等。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時使用統(tǒng)計(jì)方法識別一些新的詞,即將串頻

19、統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點(diǎn)。到底哪種分詞算法的準(zhǔn)確度更高,目前并無定論。對于任何一個成熟的分詞系統(tǒng)來說,不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn),都需要綜合不同的算法。海量科技的分詞算法就采用“復(fù)方分詞法”,所謂復(fù)方,相當(dāng)于用中藥中的復(fù)方概念,即用不同的藥才綜合起來去醫(yī)治疾病,同樣,對于中文詞的識別,需要多種算法來處理不同的問題。有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語言,讓計(jì)算機(jī)理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。1、歧義識別歧

20、義是指同樣的一句話,可能有兩種或者更多的切分方法。在句子的各個層次(字、詞、詞組、句、段、篇、章等)間轉(zhuǎn)換過程中都有可能產(chǎn)生歧義或多義的現(xiàn)象,包括切詞中的歧義、詞的歧義、結(jié)構(gòu)歧義、指代和省略中、的歧義以及各種更復(fù)雜的歧義現(xiàn)象。例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個短語就可以分成“表面 的”和“表 面的”。這種稱為交叉歧義(還有組合歧義)。由于沒有人的知識去理解,計(jì)算機(jī)很難知道到底哪個方案正確。此外還有真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應(yīng)該是詞,哪個應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完 了”,如

21、果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。歧義字段的發(fā)現(xiàn)有兩種方法:窮舉法和雙向掃描法。窮舉法是不現(xiàn)實(shí)的,可采用雙向掃描法,例如采用正向最小匹配和逆向最大匹配同時掃描句子以發(fā)現(xiàn)歧義字段。分詞消歧的方法主要有以下兩種:1) 基于規(guī)則的分詞消歧預(yù)先構(gòu)建分詞預(yù)處理中的規(guī)則與分詞規(guī)則,其中分詞規(guī)則又可分為構(gòu)詞規(guī)則和排歧規(guī)則??梢栽诜衷~前增加一次獨(dú)立的掃描過程來識別特定的一些短語,這要用到分詞預(yù)處理中的規(guī)則(這樣做的主要依據(jù)是部分只能作首字或尾字的漢字完全可以作為切分標(biāo)記)。分詞時按照分詞規(guī)則先確定大概分詞,在發(fā)生歧義的情況下,將根據(jù)排歧規(guī)則選擇一種切分方式。2) 基于統(tǒng)計(jì)的分詞

22、消歧這其中又有基于詞頻的分詞消歧方法,以及基于互信息和t-測試差的歧義切分方法等。2、新詞識別即未登陸詞識別新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。最典型的是人名?,F(xiàn)今未登錄詞的獲取主要是基于統(tǒng)計(jì)的獲取方法,有:1) 基于頻率的方法;2) 基于均值和方差的方法;3) 基于假設(shè)檢驗(yàn)的方法;4) 基于互信息的方法,等。機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于信息抽取系統(tǒng)來說,分詞系統(tǒng)中的新詞識別十分重要。目前新詞識別準(zhǔn)確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標(biāo)志之一。三、命名實(shí)體識別主要通

23、過已經(jīng)手工構(gòu)建的規(guī)則庫來識別。其實(shí)者也可以通過以上分詞算法中的未登錄詞的獲取算法來識別。比如說人名和機(jī)構(gòu)名的識別可以通過特定的中文姓名和機(jī)構(gòu)名的自動識別算法和系統(tǒng)來識別。四、部分句法分析這部分可采用中文文本信息處理中的詞性自動標(biāo)注來實(shí)現(xiàn)詞性的標(biāo)注。主要可建立馬爾科夫模型和隱馬爾科夫模型,構(gòu)建馬爾科夫模型標(biāo)注器或隱馬爾科夫模型標(biāo)注器。這其中涉及以下幾種算法:1. Viterbi算法;2. Volsunga算法;3. Claws算法,等。當(dāng)然,在信息抽取系統(tǒng)中,不要求識別整個句子的結(jié)構(gòu)。為此,可構(gòu)建句子片段的句法結(jié)構(gòu)規(guī)則,為抽取做準(zhǔn)備。一般情況下,需要構(gòu)建名詞和動詞規(guī)則庫,其中名詞規(guī)則包括名詞和它

24、前面的修飾成分,而動詞規(guī)則包括動詞和它的輔助部分。這兩種規(guī)則庫由很多從現(xiàn)實(shí)預(yù)言中提煉的實(shí)例規(guī)則組成,一般都比較龐大。之后需要用關(guān)聯(lián)模版來分析各個實(shí)體之間的關(guān)系,關(guān)系模版一般包括兩個名詞(有時可能有介詞),表示兩個名詞之間的關(guān)系。如下面模版: 公司描述:公司名 職位:公司名 五、場景模版匹配以上所以工作都是為場景模版匹配做準(zhǔn)備。場景模版用于從句子中抽取事件。如句子“李靜從著名的電器制造公司長虹電子集團(tuán)有限公司董事長的位置上退休了,趙剛將接替他”的場景模版可表示為: 人 從 位置 退休 人 接替 人六、共指分析解決如代詞和名詞表示同一內(nèi)容等的問題。七、推理和事件整合在很多情況下,一個事件的部分信息

25、可以進(jìn)行擴(kuò)展,所以在模版生成前需要把這些信息進(jìn)行合并。也就是把隱含在事件中的信息通過推理過程進(jìn)行明確。四、信息抽取面臨的問題雖然有中文信息處理技術(shù)的強(qiáng)力支撐,中文信息抽取還是不少問題需要面對。1.語料庫的建立有待完善目前自然語言處理領(lǐng)域主要流行的是基于規(guī)則和基于統(tǒng)計(jì)兩種處理思路?;谝?guī)則的方法在機(jī)器學(xué)習(xí)自動構(gòu)建規(guī)則庫等方面有一定難度,現(xiàn)有系統(tǒng)主要以基于規(guī)則的淺層分析方法為主。而基于統(tǒng)計(jì)的方法,由于缺乏較大的成熟語料庫和標(biāo)注語料,目前較難開展,尚不占主導(dǎo)地位。另外一個突出表現(xiàn)就是,在自動內(nèi)容抽取(ACE)測評05年的測評中,由于阿拉伯語缺乏標(biāo)注語料,盡管有系統(tǒng)參與測試,卻沒有相匹配的參照庫,因此

26、無法進(jìn)行打分。由此可見,豐富和充實(shí)語料種類及數(shù)量是一個亟待解決的問題。2.跨文檔處理和數(shù)據(jù)庫處理系統(tǒng)的性能有待提高縱觀ACE 2007屆測評會議,其測評的水平還都局限在對獨(dú)立文本的處理上,并未實(shí)現(xiàn)其預(yù)定目標(biāo)中的跨文檔處理和數(shù)據(jù)庫處理。從近兩屆ACE測試反饋的結(jié)果來看,作為其核心抽取任務(wù)的實(shí)體識別任務(wù)盡管已經(jīng)實(shí)現(xiàn)了較高的效率,但是僅僅限于單語種、單文檔內(nèi)的識別,跨文檔的識別任務(wù)尚未能展開,而其他的測評項(xiàng)目如關(guān)系識別、時間識別、事件識別、價值識別等的效率更需要進(jìn)一步提高。3.中文信息抽取還是比較落后從ACE評測的系統(tǒng)表現(xiàn)可以看出,盡管目前參與中文信息抽取任務(wù)的隊(duì)伍在不斷增加,可是成績普遍偏低。國外

27、有不少機(jī)構(gòu)已經(jīng)開發(fā)出針對中文實(shí)現(xiàn)的測試型的信息抽取系統(tǒng),在國內(nèi)也已經(jīng)有較多的單位或機(jī)構(gòu)投入了相當(dāng)大的精力。在ACE 2005年測評中,哈爾濱工業(yè)大學(xué)、香港科技大學(xué)、北京大學(xué)和廈門大學(xué)參加了測評,在ACE 2007年測評中,中國科學(xué)院自動化所、中國科學(xué)院軟件所、復(fù)旦大學(xué)、東北大學(xué)也紛紛加入,這表明中文信息抽取的研究在國內(nèi)得到了較高的重視和發(fā)展,雖然有些隊(duì)伍的最終測評沒有完全完成,但已經(jīng)有比較好的表現(xiàn)。從它們的選擇任務(wù)上看,主要還是集中于中英文實(shí)體,關(guān)系識別僅有哈爾濱工業(yè)大學(xué)、中國科學(xué)院軟件所參與,北京大學(xué)則側(cè)重于時間和價值識別。但是主要問題仍然集中于中文實(shí)體識別方面,完整的中文信息抽取系統(tǒng)的實(shí)現(xiàn)

28、還處于探索階段。五、信息抽取的發(fā)展趨勢1.基礎(chǔ)理論與應(yīng)用研究的雙向發(fā)展信息抽取技術(shù)的發(fā)展現(xiàn)狀對其未來的發(fā)展提出了需求,可以看到信息技術(shù)未來的發(fā)展趨勢主要集中在兩個相反發(fā)展方向上:一方面,使現(xiàn)有的信息技術(shù)嵌入在現(xiàn)有的應(yīng)用領(lǐng)域中,包括文本檢索、基于任務(wù)的自動摘要、基于任務(wù)的機(jī)器翻譯、跨文檔和多媒體的融合、趨勢分析等。現(xiàn)有的技術(shù)能夠很好地支持類似領(lǐng)域的研究,關(guān)鍵問題是現(xiàn)有系統(tǒng)是否具備充分的抽取精度水平。另一方面,要使信息抽取技術(shù)實(shí)現(xiàn)革命性的技術(shù)進(jìn)步,仍需要對基礎(chǔ)研究加以關(guān)注。基礎(chǔ)研究即包括更多更新更豐富的技術(shù),也包括與之相適應(yīng)的測評機(jī)制的研究。2.信息抽取的數(shù)據(jù)來源將會更為廣泛從近兩屆ACE的測試數(shù)

29、據(jù)來看,數(shù)據(jù)來源已經(jīng)不再僅僅是專線新聞、ASR(自動語音識別)、OCR(光學(xué)字符識別)文集,還包括了Web信息,這也是目前信息抽取技術(shù)發(fā)展的一大趨勢。Web頁面中存在著大量的HTML格式的無結(jié)構(gòu)數(shù)據(jù)和少量XML格式的半結(jié)構(gòu)數(shù)據(jù),而隱蔽網(wǎng)(Hide Web)也包含了網(wǎng)上數(shù)據(jù)庫系統(tǒng)生成的大容量倉儲數(shù)據(jù),這些信息是十分重要的資源,相應(yīng)的信息抽取研究也已基于此開展。此外,對于多媒體內(nèi)容的信息抽取雖然存在難度,但一些專家已經(jīng)通過引入貝葉斯網(wǎng)絡(luò)、增量抽取等算法優(yōu)化系統(tǒng),取得了較好的效果,并且已提出了跨媒體抽取的相關(guān)模型。可見,對于多種信息內(nèi)容的抽取和整合,無疑將為信息抽取下一步的重要目標(biāo)和挑戰(zhàn)。3.開放域的信息抽取將廣泛受到重視在MUC(信息理解研討會)階段,信息抽取測評嚴(yán)格限制在特定場景、特定事件和特定語言中,系統(tǒng)移植成本較高。在ACE中,已經(jīng)取消這種限制,改由用戶指定要檢測的內(nèi)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論