基于條件隨機(jī)場(chǎng)方法的漢語(yǔ)專利文本介詞短語(yǔ)識(shí)別.doc_第1頁(yè)
基于條件隨機(jī)場(chǎng)方法的漢語(yǔ)專利文本介詞短語(yǔ)識(shí)別.doc_第2頁(yè)
基于條件隨機(jī)場(chǎng)方法的漢語(yǔ)專利文本介詞短語(yǔ)識(shí)別.doc_第3頁(yè)
基于條件隨機(jī)場(chǎng)方法的漢語(yǔ)專利文本介詞短語(yǔ)識(shí)別.doc_第4頁(yè)
基于條件隨機(jī)場(chǎng)方法的漢語(yǔ)專利文本介詞短語(yǔ)識(shí)別.doc_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于條件隨機(jī)場(chǎng)方法的漢語(yǔ)專利文本介詞短語(yǔ)識(shí)別 李洪政晉耀紅 摘要:介詞短語(yǔ)作為一種重要的短語(yǔ)類型在漢語(yǔ)中分布廣泛,正確自動(dòng)識(shí)別介詞短語(yǔ)在自然語(yǔ)言處理的應(yīng)用領(lǐng)域具有重要意義和積極影響。本文嘗試?yán)媚壳氨容^流行的條件隨機(jī)場(chǎng)模型,主要面向漢語(yǔ)專利文本,對(duì)其中的介詞短語(yǔ)進(jìn)行識(shí)別研究。首先在分詞和詞性標(biāo)注的基礎(chǔ)上對(duì)語(yǔ)料進(jìn)行序列特征標(biāo)注,然后利用條件隨機(jī)場(chǎng)工具包訓(xùn)練了識(shí)別介詞短語(yǔ)的模型,最后設(shè)計(jì)相關(guān)實(shí)驗(yàn)來驗(yàn)證方法的效果,實(shí)驗(yàn)準(zhǔn)確率達(dá)到90%以上。 關(guān)鍵詞:介詞短語(yǔ)條件隨機(jī)場(chǎng)識(shí)別 一、引言 專利文獻(xiàn)在國(guó)家經(jīng)濟(jì)發(fā)展和科技交流中發(fā)揮著十分重要的作用。近年來,中國(guó)專利的申請(qǐng)數(shù)量漲速飛快。面向?qū)@I(lǐng)域的文本信息處理(如專利文本機(jī)器翻譯)逐漸成為自然語(yǔ)言處理的重要應(yīng)用領(lǐng)域之一,并引起了學(xué)術(shù)界和業(yè)界的廣泛關(guān)注。 為了滿足專利文本特定的表述需要,介詞短語(yǔ)作為一種重要的短語(yǔ)類型,在漢語(yǔ)專利文本中分布廣泛。據(jù)統(tǒng)計(jì),在隨機(jī)抽取的500句漢語(yǔ)專利語(yǔ)料中,包含介詞短語(yǔ)的句子有226句,占到了樣本總量的45.2%。1可見介詞短語(yǔ)的出現(xiàn)比例非常高。漢語(yǔ)介詞短語(yǔ)的自動(dòng)識(shí)別具有較大的難度,主要表現(xiàn)在以下幾點(diǎn): 1.介詞短語(yǔ)的內(nèi)部構(gòu)成相當(dāng)復(fù)雜。介詞短語(yǔ)可以由介詞與其他詞語(yǔ)和短語(yǔ)(動(dòng)賓短語(yǔ)、名詞短語(yǔ)、方位短語(yǔ)、時(shí)間短語(yǔ)等)構(gòu)成,甚至可以由整個(gè)句子構(gòu)成。復(fù)雜的內(nèi)部結(jié)構(gòu)很容易形成遠(yuǎn)距離的搭配關(guān)系。 2.兼類介詞的存在。在一定的語(yǔ)境下,介詞還可以兼做名詞、量詞、形容詞、連詞和動(dòng)詞等,必須結(jié)合上下文語(yǔ)境才能判斷具體詞性。 3.在同一個(gè)句子中經(jīng)常會(huì)出現(xiàn)多個(gè)并列的介詞短語(yǔ),或者會(huì)出現(xiàn)復(fù)雜的嵌套介詞短語(yǔ)。 下面是一個(gè)包含介詞短語(yǔ)的真實(shí)專利語(yǔ)句示例: (1)本發(fā)明【在條件允許的情況下】【通過為一個(gè)宏塊中的不同區(qū)域提供不同的預(yù)測(cè)信息】而提出了許多更加準(zhǔn)確的結(jié)果。 從例句可以明顯地看出,專利文本中的介詞短語(yǔ)通常具有更多的字?jǐn)?shù)和更為復(fù)雜的結(jié)構(gòu)。例句中用括號(hào)標(biāo)示出了兩個(gè)并列的介詞短語(yǔ)結(jié)構(gòu),其中一個(gè)的內(nèi)部還有另外一個(gè)介詞短語(yǔ),屬于嵌套結(jié)構(gòu)的介詞短語(yǔ)。正確識(shí)別這些短語(yǔ)就比較困難了。 在句子S=W1,W2,W3Wn中,假設(shè)字符串Wi,Wi+1Wj為待識(shí)別的介詞短語(yǔ),介詞短語(yǔ)識(shí)別的主要任務(wù)就是分別將Wi和Wj識(shí)別為該介詞短語(yǔ)的左右邊界。由于左邊界就是介詞本身,因此關(guān)鍵問題在于確定右邊界位置。介詞Wi通常稱為前界,右邊界Wj稱為后界,緊鄰右邊界的詞語(yǔ)Wj+1一般稱為后詞。 考慮到介詞短語(yǔ)分布的廣泛性和對(duì)專利文本處理的影響,本文嘗試?yán)脳l件隨機(jī)場(chǎng)模型(ConditionalRandomField,即CRF),主要對(duì)大規(guī)模專利語(yǔ)料中位于同一分句內(nèi)部的介詞短語(yǔ)進(jìn)行自動(dòng)識(shí)別研究,希望能做出一些有益的探索。 二、相關(guān)研究 針對(duì)漢語(yǔ)介詞短語(yǔ)識(shí)別的難點(diǎn),國(guó)內(nèi)外學(xué)者做了大量研究工作,提出了一些有效的方法,主要包括規(guī)則方法,統(tǒng)計(jì)方法和將二者相結(jié)合的混合方法。梁猛杰等(xx)通過考察介詞規(guī)則庫(kù)的處理特點(diǎn),依據(jù)規(guī)則的覆蓋程度從低到高進(jìn)行分類,重新調(diào)整了規(guī)則的前后排序方案,同時(shí)對(duì)排序的規(guī)則進(jìn)行優(yōu)選,在保證時(shí)間復(fù)雜度較低的情況下提高了介詞用法自動(dòng)識(shí)別的準(zhǔn)確率2(P152155)。朱筠(xx)、胡韌奮(xx)等在概念層次網(wǎng)絡(luò)理論(HierarchicalNetworkofConcepts,HNC)3的指導(dǎo)下,面向漢語(yǔ)專利領(lǐng)域的文本,專門構(gòu)建了較大規(guī)模的漢語(yǔ)專利語(yǔ)料知識(shí)庫(kù),在利用規(guī)則方法開展?jié)h英專利機(jī)器翻譯研究的過程中探索了介詞短語(yǔ)的識(shí)別方法和思想45。于俊濤(xx)釆用基于最大熵模型的方法,通過獲取有效的特征集合完成了介詞短語(yǔ)識(shí)別的任務(wù)。奚建清(xx)引入機(jī)器學(xué)習(xí)方法,提出了基于隱馬爾可夫模型(HMM)的漢語(yǔ)介詞短語(yǔ)邊界確定方法。首先基于HMM自動(dòng)識(shí)別介詞短語(yǔ),然后利用依存語(yǔ)法錯(cuò)誤校正方法對(duì)識(shí)別結(jié)果進(jìn)行修正,取得了不錯(cuò)的識(shí)別準(zhǔn)確率7(P172182)。胡思磊(xx)、宋貴哲(xx)、張杰(xx)利用CRF模型對(duì)介詞短語(yǔ)進(jìn)行識(shí)別,取得了較好的效果。于俊偉(xx)采用了規(guī)則和統(tǒng)計(jì)相結(jié)合的介詞短語(yǔ)識(shí)別方法,提出了利用搭配模板獲取可信搭配關(guān)系以及基于詞性的三元統(tǒng)計(jì)模型和規(guī)則相結(jié)合的方法識(shí)別介詞短語(yǔ)11(P1723)。昝紅英等(xx)在已有工作的基礎(chǔ)上,提出了一種規(guī)則與CRF模型相結(jié)合的介詞用法自動(dòng)識(shí)別算法。通過將人工書寫的規(guī)則與CRF在宏觀層面和微觀層面進(jìn)行有機(jī)的結(jié)合,根據(jù)介詞的具體特點(diǎn),選擇合適的識(shí)別方法,使最終的識(shí)別準(zhǔn)確率達(dá)到了80%左右12(P21522157)。 三、CRF模型介紹 作為一種基于統(tǒng)計(jì)的判別式學(xué)習(xí)模型,CRF模型最早由Lafferty等人在xx年提出。該模型最大熵模型。CRF通過計(jì)算和統(tǒng)計(jì)已知元素推理計(jì)算元素的條件概率。與隱馬爾可夫模型不同,CRF可以利用上下文信息,而不需要嚴(yán)格的獨(dú)立性假設(shè),因此在序列標(biāo)注問題中表現(xiàn)出很好的性能。此外,CRFs還解決了最大熵馬爾可夫模型(MEMM)中的標(biāo)注偏置問題。CRFs被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域的句法分析、命名實(shí)體識(shí)、詞性標(biāo)注等方面,并取得了很好的效果。CRFs是一種以給定的輸入序列X為條件來預(yù)測(cè)輸出序列Y概率的無向圖(undirectedgraphical)結(jié)構(gòu)模型。(X,Y)就是一個(gè)以觀察序列為條件的隨機(jī)域。概率計(jì)算可以通過如下公式得到: 四、基于CRF的介詞短語(yǔ)識(shí)別 國(guó)外學(xué)者已經(jīng)開發(fā)了完整的CRF模型工具包,利用工具包可以快速地訓(xùn)練模型并得到相應(yīng)的結(jié)果。在本文中,將使用CRF+0.53版本的工具包對(duì)中國(guó)專利信息中心提供的專利語(yǔ)料進(jìn)行訓(xùn)練。 (一)序列標(biāo)注 很多基于CRF模型的語(yǔ)塊識(shí)別任務(wù)通??梢赞D(zhuǎn)化為序列標(biāo)注問題。在識(shí)別介詞短語(yǔ)的過程中,首先對(duì)包含介詞短語(yǔ)的句子進(jìn)行分詞處理,然后對(duì)每個(gè)詞語(yǔ)進(jìn)行標(biāo)注,確定介詞短語(yǔ)的邊界。我們采用B,I,E,O標(biāo)記集進(jìn)行標(biāo)記。其中B表示介詞短語(yǔ)的前界,I表示介詞短語(yǔ)的內(nèi)部成分,E表示介詞短語(yǔ)的后界,O表示不屬于介詞短語(yǔ)的部分。 (2)本發(fā)明通過采用有效的方法提高汽車產(chǎn)量。 對(duì)于這個(gè)例句,可以做出如下標(biāo)記: 本發(fā)明O通過B采用I有效的I方法E提高O汽車O產(chǎn)量O。O 將其反映到序列標(biāo)注問題上,則可以認(rèn)為: 輸入序列X=本發(fā)明通過采用有效的方法提高汽車產(chǎn)量。 相應(yīng)地,輸出標(biāo)注序列Y=OBIIEOOOO (二)特征選擇 特征是訓(xùn)練CRF模型必需的。在CRF中,特征選擇是一個(gè)非常重要的問題,選擇合適的特征對(duì)模型訓(xùn)練和測(cè)試都將十分有益。盡管可以不加限制地定義標(biāo)記序列的特征,但不代表特征越多就越好。通過考察大規(guī)模語(yǔ)料中介詞短語(yǔ)的特點(diǎn),初步確定了以下五個(gè)特征及其屬性值: 1.詞特征。詞作為句子的基本構(gòu)成單元,是最基本的特征,模型可以通過詞之間的差異性來尋找詞本身的內(nèi)部特征。 2.詞性特征。通過分析發(fā)現(xiàn),詞性特征對(duì)邊界的識(shí)別具有很大的提示作用。因此需要標(biāo)記序列中詞語(yǔ)的詞性。本文采用北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典中的詞性標(biāo)記集進(jìn)行標(biāo)記。 3.候選前界特征。從當(dāng)前詞位置開始向前查找,查找位于同一分句中的介詞。如果該介詞存在,則該特征值為介詞本身;否則特征值為“N”。 4.候選后界特征。如果認(rèn)為當(dāng)前詞語(yǔ)可以作為介詞短語(yǔ)的后界,則特征值記為“Y”,否則記為“N”。 5.候選后詞特征。后詞對(duì)介詞短語(yǔ)的正確識(shí)別也起到了很大的提示作用,判斷當(dāng)前詞是否是候選后詞也能減小后界的選擇范圍。如果認(rèn)為當(dāng)前詞語(yǔ)可以作為介詞短語(yǔ)的后詞,則特征值記為“Y”,否則記為“N”。 下表是例句2的標(biāo)注實(shí)例: 將以上五個(gè)特征分為五列,對(duì)分詞處理后含有介詞短語(yǔ)的每一句語(yǔ)料進(jìn)行標(biāo)注,同時(shí)在最后一列加入B,I,E,O標(biāo)記集,以確定介詞短語(yǔ)的邊界,以此形成訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。 (三)特征模板 對(duì)于CRFs模型而言,根據(jù)選擇的特征設(shè)計(jì)出不同的特征模板,根據(jù)特征模板系統(tǒng)生成不同的特征函數(shù),會(huì)影響系統(tǒng)的性能。因此,特征模板選擇的好壞將直接影響CRFs模型的效果。所以,特征模板的選擇也是CRFs模型在介詞短語(yǔ)識(shí)別中的重要問題之一。 CRFs模型的特征模板一般包括原子特征模板和復(fù)合特征模板。單獨(dú)使用原子特征模板,只能表現(xiàn)出單個(gè)位置的特征信息,容易造成期望值和實(shí)際結(jié)果的偏差較大,導(dǎo)致參數(shù)的估計(jì)不準(zhǔn)確??梢詫?duì)原子特征進(jìn)行組合,構(gòu)成復(fù)合特征模板,通過定義各特征的窗口來描述標(biāo)注單元和上下文之間的關(guān)系。本文將窗口大小定義為2。即分別考慮當(dāng)前詞、當(dāng)前詞前面兩個(gè)詞及后面兩個(gè)詞的五項(xiàng)特征。 當(dāng)完成了序列特征標(biāo)注任務(wù),就可以利用CRF工具包對(duì)模型進(jìn)行訓(xùn)練并識(shí)別介詞短語(yǔ)了。 五、實(shí)驗(yàn)及分析 (一)實(shí)驗(yàn)結(jié)果 在這一部分,設(shè)計(jì)實(shí)驗(yàn)測(cè)試CRF模型識(shí)別介詞短語(yǔ)的效果。從中國(guó)專利信息中心提供的專利語(yǔ)料中隨機(jī)選擇了1000句含有介詞短語(yǔ)的句子作為測(cè)試集進(jìn)行序列標(biāo)注。實(shí)驗(yàn)采用四倍交叉驗(yàn)證方法,即將測(cè)試集按照數(shù)量均分為4等份,其中的3份語(yǔ)料作為訓(xùn)練語(yǔ)料,另一份作為測(cè)試語(yǔ)料,共進(jìn)行四次實(shí)驗(yàn),分別計(jì)算實(shí)驗(yàn)的三個(gè)評(píng)價(jià)指標(biāo):準(zhǔn)確率(P)、召回率(R)和F1值,并將實(shí)驗(yàn)的平均值作為最終的參考結(jié)果。評(píng)價(jià)指標(biāo)計(jì)算公式如下: 其中,“N”代表每次實(shí)驗(yàn)的測(cè)試集(250句)中介詞短語(yǔ)的數(shù)量,“N1”代表模型識(shí)別介詞短語(yǔ)的數(shù)量,“N2”代表正確識(shí)別的數(shù)量。 (二)實(shí)驗(yàn)分析 從上表可以看出,實(shí)驗(yàn)的整體評(píng)價(jià)指標(biāo)都達(dá)到了90%以上,表明CRF模型對(duì)于識(shí)別介詞短語(yǔ)的有效性。 通過分析識(shí)別錯(cuò)誤的結(jié)果,初步認(rèn)為分析錯(cuò)誤的原因可能有以下幾點(diǎn): 1.有的介詞在訓(xùn)練集中出現(xiàn)次數(shù)很少或者幾乎沒有出現(xiàn),因此CRF模型無法有效學(xué)習(xí)到這些介詞的特征,當(dāng)它們出現(xiàn)在測(cè)試集中,模型就難以正確識(shí)別。 2.有些介詞短語(yǔ)具有歧義,模型不容易判斷短語(yǔ)的右邊界位置。例如:通過墨水著色劑可以有效地使染布上色。這句話中,兩個(gè)名詞“墨水”和“著色劑”挨在一起,不確定二者是否可以組成復(fù)合名詞,不容易判斷到底哪個(gè)名詞才是介詞短語(yǔ)真正的右邊界。 3.CRF模型對(duì)于序列的標(biāo)注特征比較敏感。在人工標(biāo)注的過程中一些難以避免的標(biāo)注失誤或錯(cuò)誤也會(huì)導(dǎo)致識(shí)別錯(cuò)誤的現(xiàn)象。 六、結(jié)語(yǔ) 本文利用條件隨機(jī)場(chǎng)模型嘗試對(duì)漢語(yǔ)專利語(yǔ)料中的介詞短語(yǔ)進(jìn)行了識(shí)別研究。在分析大規(guī)模語(yǔ)料的基礎(chǔ)上,選擇了合適的特征,對(duì)語(yǔ)料進(jìn)行序列標(biāo)注,同時(shí)利用CRF工具包訓(xùn)練了識(shí)別短語(yǔ)的模型,最后設(shè)計(jì)了實(shí)驗(yàn)檢驗(yàn)識(shí)別效果。實(shí)驗(yàn)整體的準(zhǔn)確率達(dá)到了90%以上,表明提出的方法對(duì)于識(shí)別介詞短語(yǔ)是有效的。 未來將加強(qiáng)對(duì)歧義介詞短語(yǔ)的研究,考察更多語(yǔ)料,爭(zhēng)取發(fā)現(xiàn)更多有效的特征,同時(shí)擴(kuò)大測(cè)試規(guī)模,希望進(jìn)一步提高識(shí)別的效果與性能。 (本文得到了“國(guó)家高技術(shù)研究發(fā)展計(jì)劃”863課題,項(xiàng)目編號(hào)xxAA011104,中央高?;究蒲袠I(yè)務(wù)專項(xiàng)資金以及中國(guó)博士后科學(xué)基金資助項(xiàng)目的資助,特此表示感謝?。?注釋: :/crfpp.googlecode./ 參考文獻(xiàn): 1LiHongzheng,ZhuYun,Yangyang,JinYaohong.Reordering AdverbialChunksinChinese-EnglishPatentMachineTranslationA.ProceedingsofCCISxx. 2梁猛杰,宋玉,韓英杰等.基于規(guī)則排序的介詞用法自動(dòng)識(shí)別研 究J.河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),xx,41(3). 3黃曾陽(yáng).HNC(概念層次網(wǎng)絡(luò))理論M.北京:清華大學(xué)出版 社,1998. 4朱筠.基本句群處理及其在漢英專利機(jī)器翻譯中的應(yīng)用D.北 京:北京師范大學(xué)漢語(yǔ)文化學(xué)院博士學(xué)位論文,xx. 5胡韌奮.面向漢英專利機(jī)器翻譯的介詞短語(yǔ)自動(dòng)識(shí)別策略J. 語(yǔ)言文字應(yīng)用,xx,1. 6于浚濤.基于最大熵的漢語(yǔ)介詞短語(yǔ)自動(dòng)識(shí)別D.大連:大連理 工大學(xué)碩士學(xué)位論文,xx. 7奚建清,羅強(qiáng).基于HMM的漢語(yǔ)介詞短語(yǔ)自動(dòng)識(shí)別研究J.計(jì)算 機(jī)工程,xx,33(2). 8胡思磊.基于CRF模型的漢語(yǔ)介詞短語(yǔ)識(shí)別D.大連:大連理工大 學(xué)碩士學(xué)位論文,xx. 9宋貴哲.漢語(yǔ)介詞短語(yǔ)識(shí)別研究D.大連:大連理工大學(xué)碩士學(xué) 位論文,xx. 10張杰.基于多層CRFs的漢語(yǔ)介詞短語(yǔ)識(shí)別研究D.大連:大連 理工大學(xué)碩士學(xué)位論文,xx. 11干俊偉,黃德根.漢語(yǔ)介詞短語(yǔ)的自動(dòng)識(shí)別J.中文信息學(xué) 報(bào),xx,(4). 12昝紅英,張騰飛,張坤麗.規(guī)則與統(tǒng)計(jì)相結(jié)合的介詞用法自動(dòng) 識(shí)別研究J.計(jì)算機(jī)工程與設(shè)計(jì),xx,(6). 13La

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論