![基于語(yǔ)義標(biāo)注的信息抽取_第1頁(yè)](http://file4.renrendoc.com/view/41f4576b952e27c5a2a01c98479f98d5/41f4576b952e27c5a2a01c98479f98d51.gif)
![基于語(yǔ)義標(biāo)注的信息抽取_第2頁(yè)](http://file4.renrendoc.com/view/41f4576b952e27c5a2a01c98479f98d5/41f4576b952e27c5a2a01c98479f98d52.gif)
![基于語(yǔ)義標(biāo)注的信息抽取_第3頁(yè)](http://file4.renrendoc.com/view/41f4576b952e27c5a2a01c98479f98d5/41f4576b952e27c5a2a01c98479f98d53.gif)
![基于語(yǔ)義標(biāo)注的信息抽取_第4頁(yè)](http://file4.renrendoc.com/view/41f4576b952e27c5a2a01c98479f98d5/41f4576b952e27c5a2a01c98479f98d54.gif)
![基于語(yǔ)義標(biāo)注的信息抽取_第5頁(yè)](http://file4.renrendoc.com/view/41f4576b952e27c5a2a01c98479f98d5/41f4576b952e27c5a2a01c98479f98d55.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于語(yǔ)義標(biāo)注的信息抽取
隨著計(jì)算機(jī)網(wǎng)絡(luò)的普及和信息采集、傳輸和應(yīng)用范圍的擴(kuò)大,人們需要處理的電子文檔信息也顯著增加。這些信息中,計(jì)算機(jī)能自動(dòng)處理的結(jié)構(gòu)化信息僅占很少一部分,更多的信息以目前計(jì)算機(jī)所無(wú)法理解的自然語(yǔ)言來(lái)表達(dá)。如何從文本中提取用戶所需信息,已成為信息處理的焦點(diǎn)之一。信息抽取就是針對(duì)這樣一個(gè)問(wèn)題而提出的。信息抽取是一個(gè)以未知的自然語(yǔ)言文檔作為輸入,產(chǎn)生固定格式、無(wú)歧義的輸出數(shù)據(jù)的過(guò)程。這些數(shù)據(jù)可直接向用戶顯示,也可作為原文信息檢索的索引,或存儲(chǔ)到數(shù)據(jù)庫(kù)、電子表格中,以便于以后的進(jìn)一步分析。與自然語(yǔ)言處理不同,信息抽取一般不對(duì)文本作深入全面的分析。信息抽取的主要功能是根據(jù)預(yù)先設(shè)定的任務(wù),抽取特定類(lèi)型的信息。朱德熙先生在《語(yǔ)法答問(wèn)》中曾精辟地指出漢語(yǔ)和印歐語(yǔ)的不同:一是漢語(yǔ)的詞類(lèi)缺乏形式標(biāo)記;二是漢語(yǔ)詞類(lèi)跟句法成分之間不存在簡(jiǎn)單的對(duì)應(yīng)關(guān)系;三是漢語(yǔ)句子的構(gòu)造原則跟短語(yǔ)的構(gòu)造原則基本一致。因此,中文的信息抽取不能照搬目前大多數(shù)英文信息抽取系統(tǒng)所采用的以語(yǔ)法分析為主,以語(yǔ)義分析為輔的方法。由此提出了從語(yǔ)義分析入手的信息抽取方法。1分層處理,不符合語(yǔ)用分析的原則傳統(tǒng)的自然語(yǔ)言處理模型一般將語(yǔ)言處理分為詞、語(yǔ)法、語(yǔ)義、篇章、語(yǔ)用等不同的抽象級(jí)別,實(shí)行分層處理,并認(rèn)為高層的處理是建立在低層處理基礎(chǔ)之上的。信息抽取無(wú)須作深層的語(yǔ)義分析,因而拋棄了篇章、語(yǔ)用分析的桎梏。盡管如此,信息抽取并沒(méi)有完全擺脫自然語(yǔ)言模型的影響,許多基于規(guī)則的信息抽取仍要進(jìn)行語(yǔ)法分析,而把語(yǔ)義分析置于輔助地位。1.1語(yǔ)義標(biāo)注的負(fù)面影響語(yǔ)法分析可視為高度抽象的語(yǔ)義分析,原因在于語(yǔ)法分析的基礎(chǔ)是詞性標(biāo)注,而詞性標(biāo)注是一種高度抽象的語(yǔ)義標(biāo)注。例如,在圖1所示的概念層次中,“玫瑰”和“熊貓”兩個(gè)詞,經(jīng)過(guò)逐步的語(yǔ)義概括,在頂層可抽象為“事物”,即詞性中的名詞。詞性標(biāo)注作為一種高度抽象的語(yǔ)義標(biāo)注,至少引起以下負(fù)面影響。其一,詞性標(biāo)注本身引起了語(yǔ)義的缺失。例如,圖1中“玫瑰”和“熊貓”兩個(gè)詞在向上一層的語(yǔ)義歸類(lèi)中,保留了“植物”和“動(dòng)物”之間的區(qū)別。但是,當(dāng)兩者最終歸到詞性的層次上時(shí),它們之間的“植物”和“動(dòng)物”區(qū)別消失了。其二,在語(yǔ)法分析中,當(dāng)多個(gè)具有相同詞性的詞語(yǔ)相連構(gòu)成一個(gè)大的語(yǔ)法單元時(shí),由于各詞語(yǔ)在詞性上是無(wú)區(qū)別的,當(dāng)需要在相鄰的詞語(yǔ)中抽取其一時(shí),就產(chǎn)生一定的困難。例如,圖2中多個(gè)名詞連結(jié)在一起構(gòu)成一個(gè)大的名詞詞組,當(dāng)要抽取某一特定語(yǔ)義的詞語(yǔ)時(shí),就須借助其他的方法來(lái)完成。其三,在表達(dá)方式比較單一的領(lǐng)域中,描述不同對(duì)象的語(yǔ)句往往具有相同的語(yǔ)法結(jié)構(gòu),語(yǔ)句表達(dá)上的差別在語(yǔ)法分析中消失了。例如,在圖3中,當(dāng)要抽取的信息與非抽取信息用同一語(yǔ)法模式來(lái)表達(dá)時(shí),作為信息抽取有效信息源之一的語(yǔ)法分析也就失去了本來(lái)的意義。1.2語(yǔ)義標(biāo)注的語(yǔ)義說(shuō)明語(yǔ)法分析引起語(yǔ)義缺失的根本原因在于它是基于詞性標(biāo)注的,而詞性本身處于語(yǔ)義層次的頂層,正是詞性標(biāo)注的高度抽象化,引起了語(yǔ)義信息在向上傳遞過(guò)程中的逐步消失。換句話說(shuō),當(dāng)語(yǔ)句分析是基于語(yǔ)義層次中較低的抽象級(jí)別時(shí),還是可以保留部分語(yǔ)義信息的?;谶@種考慮,提出了基于語(yǔ)義標(biāo)注的語(yǔ)句分析,以消除詞性標(biāo)注引起的負(fù)面影響。語(yǔ)義標(biāo)注的抽象級(jí)別較低,詞語(yǔ)在標(biāo)注后保留了一些區(qū)別性的語(yǔ)義信息。例如,圖1中的詞語(yǔ)“玫瑰”和“熊貓”經(jīng)語(yǔ)義標(biāo)注后,可保留“植物”和“動(dòng)物”之間的區(qū)別。當(dāng)多個(gè)詞語(yǔ)相連成為一個(gè)大的語(yǔ)義單元時(shí),這些保留的信息有助于區(qū)別不同語(yǔ)義的詞語(yǔ),同時(shí),語(yǔ)句模式也會(huì)由于描述對(duì)象語(yǔ)義類(lèi)別的不同而有所區(qū)別。這樣,就消除了詞性標(biāo)注引起的負(fù)面影響。語(yǔ)義標(biāo)注與詞性標(biāo)注類(lèi)似,也是給詞語(yǔ)加上一種類(lèi)別標(biāo)簽。區(qū)別在于,詞性標(biāo)注加上的是詞性標(biāo)簽,如名詞、動(dòng)詞、形容詞等,而語(yǔ)義標(biāo)注加上的是語(yǔ)義類(lèi)別標(biāo)簽,一般要利用概念層次來(lái)完成。例如,在圖1所示的概念層次中,“熊貓”一詞經(jīng)語(yǔ)義標(biāo)注后對(duì)應(yīng)的是“動(dòng)物”。語(yǔ)言單元的識(shí)別過(guò)程也可視為語(yǔ)義標(biāo)注概念的進(jìn)一步拓展。從語(yǔ)義標(biāo)注的角度看,文本分析可視為5種粒度的語(yǔ)義標(biāo)注,最細(xì)的粒度是詞語(yǔ)的類(lèi)別,即通常的語(yǔ)義標(biāo)注;由語(yǔ)義類(lèi)別的組合形成基本短語(yǔ),基本短語(yǔ)的識(shí)別可視為第2層的語(yǔ)義標(biāo)注;隨后的更大單元的復(fù)合短語(yǔ)識(shí)別、語(yǔ)句模式的識(shí)別分別對(duì)應(yīng)第3層和第4層的語(yǔ)義標(biāo)注;最粗的粒度是文本的篇章識(shí)別,即文本的分類(lèi)。在信息抽取中,主要使用前4個(gè)層次的語(yǔ)義標(biāo)注。當(dāng)用自底向上的方法分析文本時(shí),底層的單元在上層中表現(xiàn)出一定的組合性,便于用規(guī)則的方法來(lái)識(shí)別不同的語(yǔ)義單元。最終的語(yǔ)義單元與信息模板的槽之間會(huì)形成對(duì)應(yīng)關(guān)系,因此,可用語(yǔ)義標(biāo)注方法來(lái)實(shí)現(xiàn)信息的抽取。在基于語(yǔ)義標(biāo)注的語(yǔ)句分析中,語(yǔ)法分析的功能事實(shí)上已蘊(yùn)含其中,再次的語(yǔ)法分析已屬冗余,這為我們舍棄語(yǔ)法分析,用統(tǒng)一的語(yǔ)義分析指導(dǎo)信息抽取提供了依據(jù)。在開(kāi)放的領(lǐng)域中,語(yǔ)義類(lèi)的數(shù)目通常要遠(yuǎn)遠(yuǎn)大于詞性的數(shù)目,存在詞的歧義問(wèn)題,基于語(yǔ)義標(biāo)注的方法需大量的知識(shí)支持,可行性極差;這也是開(kāi)放領(lǐng)域中語(yǔ)法分析存在的主要根據(jù)之一。但信息抽取一般是基于某特定領(lǐng)域的,所用的詞和語(yǔ)義有其特定的領(lǐng)域背景,詞的歧義問(wèn)題基本不存在,語(yǔ)義類(lèi)別數(shù)目急劇下降,由語(yǔ)義類(lèi)構(gòu)成的語(yǔ)句模式是可控制的。因此,在信息抽取中,基于語(yǔ)義標(biāo)注的方法有一定的可行性。2基于意義標(biāo)記的信息提取2.1統(tǒng)一標(biāo)圖文本的構(gòu)建本文信息抽取的對(duì)象是作戰(zhàn)標(biāo)圖所需的文字資料,簡(jiǎn)稱標(biāo)圖文本。標(biāo)圖文本是軍事標(biāo)圖的底本,一般情況下,標(biāo)圖所需的軍標(biāo)名稱、所處位置等信息都可從標(biāo)圖文本中獲取。標(biāo)圖文本通常以自然語(yǔ)言的形式表述,而標(biāo)圖需要的是固定格式的信息。若信息抽取能在這兩者之間構(gòu)建起通路,則可為實(shí)現(xiàn)軍用文圖的自動(dòng)轉(zhuǎn)換提供一種解決方案。標(biāo)圖文本和所抽取的信息案例,如圖4所示。2.2語(yǔ)義標(biāo)注的策略借鑒FASTUS系統(tǒng)的工作過(guò)程,在基本語(yǔ)義標(biāo)注的基礎(chǔ)上,用級(jí)聯(lián)式的FSA(有限狀態(tài)自動(dòng)機(jī))將文本逐步分割成較大的語(yǔ)義單元。在最后的分割結(jié)果中,其中的一些語(yǔ)義單元將直接對(duì)應(yīng)要抽取的內(nèi)容。FASTUS系統(tǒng)在分析過(guò)程中,采用的是語(yǔ)法和語(yǔ)義的雙軌制策略,即在語(yǔ)法單元的識(shí)別階段保留部分語(yǔ)義,語(yǔ)義分析的結(jié)果可為語(yǔ)法分析所用。不同于FASTUS系統(tǒng),基于語(yǔ)義標(biāo)注的語(yǔ)句分析使用的是語(yǔ)義分析單軌制方法,在每個(gè)階段不存有語(yǔ)法信息。這種方法的優(yōu)點(diǎn)在于用統(tǒng)一的語(yǔ)義分析指導(dǎo)信息抽取,各階段只考慮語(yǔ)義方面的因素,使分析過(guò)程大為簡(jiǎn)化?;谡Z(yǔ)義標(biāo)注的信息抽取可分為5個(gè)階段,其中,后4個(gè)階段對(duì)應(yīng)不同層次的語(yǔ)義標(biāo)注,如圖5所示。隨著分析的逐階段深入,文本以更大的結(jié)構(gòu)化語(yǔ)義單元形式出現(xiàn)。最終分析出的語(yǔ)義單元可分為兩部分:目標(biāo)信息和噪聲信息。2.3提取標(biāo)準(zhǔn)信息的過(guò)程2.3.1標(biāo)圖文本的語(yǔ)言特點(diǎn)一般將詞語(yǔ)作為語(yǔ)言處理的基本單位。中文的詞與詞之間沒(méi)有空格,在語(yǔ)法或語(yǔ)義分析前要對(duì)文本進(jìn)行分詞處理。我們?cè)O(shè)計(jì)的MIE(軍用信息抽取)系統(tǒng)使用基于詞典的方法分詞,并根據(jù)子語(yǔ)言的特點(diǎn)避免了未登錄詞處理和歧義消解等問(wèn)題。標(biāo)圖文本中未登錄詞主要是地名,通常不出現(xiàn)未登錄的組織名和人名等情況。地名通常以地圖所標(biāo)注的為準(zhǔn),一般要將地名存入地理信息系統(tǒng)中。所以,只需將地理信息數(shù)據(jù)庫(kù)中的地名作為詞取出,注入詞典,即可避免未登錄地名的處理。標(biāo)圖文本作為一種軍用文書(shū),具有準(zhǔn)確、嚴(yán)格、簡(jiǎn)樸等特點(diǎn),歧義現(xiàn)象極少,使用簡(jiǎn)單的基于記憶方法可達(dá)到歧義消解目的。在MIE系統(tǒng)中,我們實(shí)現(xiàn)了基于詞典的分詞算法,它支持首字Hash,進(jìn)行增字最大匹配,并用基于記憶的方法實(shí)現(xiàn)歧義消解。2.3.2標(biāo)圖文本語(yǔ)義標(biāo)注語(yǔ)義標(biāo)注即給詞語(yǔ)加上語(yǔ)義類(lèi)別標(biāo)簽,將原文的內(nèi)容抽象到一個(gè)較高的層次。在語(yǔ)義類(lèi)別這一層次上,標(biāo)圖文本通常表現(xiàn)出局部的規(guī)律性,例如,表述作戰(zhàn)單位的詞語(yǔ)常屬于某幾個(gè)特定語(yǔ)義類(lèi)別,且這些類(lèi)別的出現(xiàn)順序有一定的規(guī)律性。這便于用規(guī)則的方式來(lái)識(shí)別較大的語(yǔ)言單元,所以,語(yǔ)義標(biāo)注是將標(biāo)圖文本簡(jiǎn)化到可控范圍內(nèi)不可或缺的手段。在同一領(lǐng)域內(nèi),一個(gè)詞語(yǔ)通常只有一個(gè)意義,對(duì)應(yīng)的語(yǔ)義標(biāo)簽也只有一個(gè)。標(biāo)圖文本對(duì)詞語(yǔ)的使用有嚴(yán)格的限制,嚴(yán)禁一詞多義的現(xiàn)象發(fā)生,以免發(fā)生誤解。所以,標(biāo)圖文本的語(yǔ)義標(biāo)注只需簡(jiǎn)單地從所設(shè)計(jì)的上下位語(yǔ)義網(wǎng)絡(luò)中發(fā)現(xiàn)上位詞。比如,“迫擊炮”的上位詞是“武器”,只要在“迫擊炮”出現(xiàn)的地方標(biāo)上〈武器〉即可。我們?cè)贛IE系統(tǒng)中設(shè)計(jì)了23個(gè)第1層的語(yǔ)義網(wǎng)絡(luò),部分語(yǔ)義標(biāo)簽及其下屬的詞,如表1所示。在標(biāo)圖文本中,數(shù)是一種語(yǔ)義的原子單位,具有不可分性。簡(jiǎn)單的數(shù)字不具備基本意義,如“西北100m”、“106高程點(diǎn)”、“212高地(14、21)”等中的數(shù)在分詞后將被分開(kāi),形成單個(gè)的數(shù)字,要通過(guò)規(guī)則或簡(jiǎn)單的FSA將數(shù)字連到一起,標(biāo)上〈數(shù)值〉標(biāo)簽。同樣,坐標(biāo)可視為標(biāo)圖文本中的基本構(gòu)成元素,將其作為整體識(shí)別出來(lái),加上標(biāo)簽〈坐標(biāo)〉,以表示一種基本的語(yǔ)義單元。2.3.3‘部隊(duì)’的簡(jiǎn)化fsa在第1層語(yǔ)義類(lèi)別的基礎(chǔ)上,通過(guò)組合規(guī)則可識(shí)別出基本的短語(yǔ),即進(jìn)行第2層的語(yǔ)義標(biāo)注。這一階段主要識(shí)別出距離、基本地名、基本作戰(zhàn)單位,這3種短語(yǔ)的表述都遵循比較規(guī)范的語(yǔ)義規(guī)則,如作戰(zhàn)單位中的〈部隊(duì)〉可概略表述為:〈部隊(duì)〉::=[〈敵我〉][〈種類(lèi)〉][〈序〉][〈數(shù)值〉]〈建制〉其中,〈敵我〉、〈種類(lèi)〉、〈序〉、〈數(shù)值〉4項(xiàng)內(nèi)容是可選的,〈序〉是“第”等詞的語(yǔ)義類(lèi)別標(biāo)簽。但這種表述將會(huì)錯(cuò)誤地輸入信息,如“紅軍第營(yíng)”,也識(shí)別為〈部隊(duì)〉,更精確的表述可用圖6所示的簡(jiǎn)化FSA。圖6中,S0表示初始狀態(tài),S1,S2,S3,S4,S5分別表示接收輸入〈敵我〉、〈種類(lèi)〉、〈序〉、〈數(shù)值〉、〈建制〉后到達(dá)的狀態(tài)。由此簡(jiǎn)化的FSA,可識(shí)別出基本的作戰(zhàn)單位,比如“第1師”、“坦克團(tuán)”、“摩步第2營(yíng)”、“1個(gè)坦克連”等。距離和基本地名等可用同樣的方法識(shí)別。2.3.4復(fù)合部分語(yǔ)義以基本短語(yǔ)作為語(yǔ)句的構(gòu)成單元,分析語(yǔ)句的語(yǔ)義規(guī)則仍有較大的難度,為此將基本短語(yǔ)的組合進(jìn)一步抽象為第3層的語(yǔ)義標(biāo)簽,即識(shí)別出更大的語(yǔ)義單元——復(fù)合短語(yǔ)。在第3層的語(yǔ)義標(biāo)簽中,設(shè)置一個(gè)標(biāo)簽為〈噪音〉,用以指代所有規(guī)則外的信息。復(fù)合短語(yǔ)的識(shí)別與基本短語(yǔ)的情況類(lèi)似,也是基于組合規(guī)則的,實(shí)現(xiàn)時(shí)用FSA來(lái)識(shí)別。例如,由領(lǐng)域知識(shí)可知:2個(gè)〈部隊(duì)〉相連,表達(dá)了一個(gè)更全面的關(guān)于〈部隊(duì)〉的信息??捎靡?guī)則表述為:〈部隊(duì)〉::=〈部隊(duì)〉〈部隊(duì)〉依據(jù)這個(gè)規(guī)則,基本短語(yǔ)“第1師”、“坦克團(tuán)”、“摩步第2營(yíng)”相連可形成作戰(zhàn)單位的更具體信息“第1師坦克團(tuán)摩步第2營(yíng)”。這一階段得到的信息已經(jīng)與模板中的信息形成一定的對(duì)應(yīng)關(guān)系。2.3.5提取函數(shù)信息(1)各種軍標(biāo)及部隊(duì)指揮機(jī)構(gòu)的模型設(shè)計(jì)標(biāo)圖信息從軍標(biāo)的層次看,可表述為一個(gè)三元組,即(軍標(biāo),位置,方向)。元組內(nèi)各項(xiàng)具有一定的多樣性,如從定位點(diǎn)的多少看,軍標(biāo)可分為點(diǎn)狀、線狀和面狀。從位置信息中所含地名多少看,位置也是可變參量。圖標(biāo)方向既有根據(jù)作戰(zhàn)雙方的相對(duì)位置來(lái)確定的,也有固定方向的。這三者的多樣性決定了標(biāo)圖信息不能簡(jiǎn)單地用一個(gè)固定的模板來(lái)描述。另一方面,軍標(biāo)本身數(shù)量眾多,若為每個(gè)軍標(biāo)設(shè)計(jì)一個(gè)信息模板,形成軍標(biāo)與模板之間的映射關(guān)系,則模板的數(shù)量眾多、管理困難,每增刪一個(gè)軍標(biāo)都要修改相應(yīng)模板。為了適應(yīng)以上兩種情況,將信息模板設(shè)計(jì)為兩類(lèi):類(lèi)模板和種模板。在模板庫(kù)中,目前設(shè)計(jì)了5個(gè)類(lèi)模板和12個(gè)種模板。一個(gè)類(lèi)模板可對(duì)應(yīng)多種軍標(biāo),如預(yù)備隊(duì)、保障隊(duì)、分隊(duì)等多種軍標(biāo)信息可用一個(gè)類(lèi)模板來(lái)抽取,這幾種軍標(biāo)信息都只含一個(gè)作戰(zhàn)單位和一個(gè)地名。種模板對(duì)應(yīng)一種軍標(biāo),如,作戰(zhàn)分界線一般要涉及2個(gè)作戰(zhàn)單位、多個(gè)地名,要為其單獨(dú)設(shè)定一個(gè)信息模板。(2)檢測(cè)模式及生成模板類(lèi)模板信息的抽取可用語(yǔ)義模式識(shí)別的方法實(shí)現(xiàn),如將預(yù)備隊(duì)、保障隊(duì)、分隊(duì)歸到語(yǔ)義〈分隊(duì)〉下,對(duì)應(yīng)分隊(duì)部署的語(yǔ)義模式為:〈分隊(duì)配置〉::=〈分隊(duì)〉[〈噪音〉]〈地名〉;設(shè)定〈分隊(duì)〉軍標(biāo)所對(duì)應(yīng)的模板為【分隊(duì)模板】,有:【分隊(duì)模板】:分隊(duì)槽+地名槽。只要在語(yǔ)句中出現(xiàn)〈分隊(duì)配置〉這樣的語(yǔ)義模式,即可將〈分隊(duì)〉和〈地名〉所對(duì)應(yīng)的內(nèi)容分別作為【分隊(duì)模板】中的分隊(duì)槽和地名槽信息抽取。種模板對(duì)應(yīng)的軍標(biāo)一般有獨(dú)特的關(guān)鍵字信息,如作戰(zhàn)分界線這種軍標(biāo)通常用“分界線”作為關(guān)鍵字,模式也較復(fù)雜。對(duì)種模板可先由關(guān)鍵字識(shí)別相應(yīng)的模板,其過(guò)程為:先對(duì)種模板設(shè)立索引關(guān)鍵字,將文本中的關(guān)鍵字作為〈關(guān)鍵〉語(yǔ)義標(biāo)出;當(dāng)文本中出現(xiàn)〈關(guān)鍵〉這一語(yǔ)義時(shí),由關(guān)鍵字找到相應(yīng)的模板,然后根據(jù)語(yǔ)義對(duì)應(yīng)關(guān)系抽取標(biāo)圖信息。2.4學(xué)習(xí)目標(biāo)標(biāo)圖如圖2,設(shè)計(jì)出大量的信息點(diǎn)+r信息抽取的評(píng)估有兩個(gè)主要指標(biāo):查準(zhǔn)率(Precision)和查全率(Recall)。為方便不同信息抽取系統(tǒng)之間的比較,一般使用這兩個(gè)指標(biāo)的綜合值:F=(β2+1)×P×R(β2×P)+R?F=(β2+1)×Ρ×R(β2×Ρ)+R?其中,P為查準(zhǔn)率,R為查全率,β為對(duì)查準(zhǔn)率的偏重量,通常取β=1。為檢查MIE從標(biāo)圖文本中抽取標(biāo)圖信息的效果,隨機(jī)取10篇練習(xí)用的摩步營(yíng)、團(tuán)攻防標(biāo)圖文本作為信息抽取的測(cè)試樣本。經(jīng)手工統(tǒng)計(jì),樣本共含有186條標(biāo)圖信息。每條信息的組成部分稱為一個(gè)信息點(diǎn),相應(yīng)于模板中的槽。在作戰(zhàn)標(biāo)圖中,一個(gè)信息點(diǎn)的錯(cuò)誤將使整個(gè)信息條成為無(wú)用信息,所以在給出信息點(diǎn)的查準(zhǔn)率、查全率、F度量時(shí),也給出信息條的這3個(gè)度量。信息條中的信息點(diǎn)情況:16條標(biāo)圖信息含有4個(gè)信息點(diǎn),8條含有3個(gè)信息點(diǎn),其余各含有2個(gè)信息點(diǎn),共計(jì)412個(gè)信息點(diǎn)。用MIE系統(tǒng)在文本上進(jìn)行抽取測(cè)試,手工檢查抽取結(jié)果的正誤情況,統(tǒng)計(jì)后可得對(duì)MIE的抽取情況的評(píng)估(β=1),如表2所示。3基于語(yǔ)義標(biāo)注的信息抽樣方法本文分析指出詞性標(biāo)注是引起語(yǔ)義缺失的根本
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 家具配送運(yùn)輸合同
- 車(chē)位買(mǎi)賣(mài)合同范本
- 按揭房子買(mǎi)賣(mài)合同
- 與勞務(wù)公司勞務(wù)派遣協(xié)議
- 美容護(hù)理服務(wù)協(xié)議及風(fēng)險(xiǎn)免責(zé)聲明
- 承包挖掘機(jī)租賃合同書(shū)
- 房屋買(mǎi)賣(mài)合同欺詐賠償
- 戶外活動(dòng)風(fēng)險(xiǎn)自負(fù)協(xié)議書(shū)
- 化妝品行業(yè)消費(fèi)者行為分析與營(yíng)銷(xiāo)策略優(yōu)化方案
- 供應(yīng)鏈管理體系優(yōu)化項(xiàng)目協(xié)議
- 汽車(chē)維修保養(yǎng)協(xié)議三篇
- 2024年銀行、金融反詐騙必知知識(shí)試題與答案
- 2024年匯算清繳培訓(xùn)
- 幼兒園監(jiān)控項(xiàng)目技術(shù)方案
- 班主任工作培訓(xùn)內(nèi)容
- 手印鑒定書(shū)模板
- 某公司碼頭試運(yùn)行經(jīng)營(yíng)方案
- 搬遷項(xiàng)目驗(yàn)收?qǐng)?bào)告模板
- 2024年度中國(guó)郵政集團(tuán)公司縣分公司工作總結(jié)
- 2024年海南省中考英語(yǔ)試題卷(含答案)+2023年中考英語(yǔ)試卷及答案
- 部編人教版四年級(jí)下冊(cè)道德與法制全冊(cè)教案
評(píng)論
0/150
提交評(píng)論