基于語料庫的漢語依存樹庫的句法分析精度研究_第1頁
基于語料庫的漢語依存樹庫的句法分析精度研究_第2頁
基于語料庫的漢語依存樹庫的句法分析精度研究_第3頁
基于語料庫的漢語依存樹庫的句法分析精度研究_第4頁
基于語料庫的漢語依存樹庫的句法分析精度研究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于語料庫的漢語依存樹庫的句法分析精度研究

1依存句法分析基于語法中標(biāo)記語料庫和機(jī)器學(xué)習(xí)的自然環(huán)境處理方法是當(dāng)前自然資源處理領(lǐng)域的研究熱點。在句子分析領(lǐng)域,通常使用語料庫(也稱為樹庫)作為工具,獲取語法知識,評估句子分析結(jié)果。一般來說,改變機(jī)器的學(xué)習(xí)策略和句法分析算法,提高句子法分析器的精度,不是語言學(xué)家,而是“基于語言特征的計算語言學(xué)學(xué)會可以做什么?”?!罢Z言特征的可視化設(shè)備可以提高這些語言特征的精度嗎?”。在這項工作中,我們試圖通過改變庫的標(biāo)記方法來探索這個問題。本文所用的句法理論為依存語法.一般認(rèn)為,現(xiàn)代依存語法的創(chuàng)立者為法國語言學(xué)家Tesnière,有關(guān)依存語法以及該理論和計算語言學(xué)的關(guān)系,可參見文獻(xiàn).依存句法分析的目標(biāo)是構(gòu)建輸入句子的依存句法結(jié)構(gòu)樹(圖).圖1為句子“這是一個例子”的依存句法結(jié)構(gòu)圖.圖1顯示,構(gòu)成依存樹(圖)的基本單位是二元依存關(guān)系,這種關(guān)系可以在兩個詞之間形成,也可以將其抽象為一種兩個詞類標(biāo)記(PartofSpeech,POS)之間的關(guān)系.依存關(guān)系是一種有向關(guān)系或非對稱關(guān)系,即在兩個詞(類)中有一個為支配詞,圖1中弧上的箭頭表示了這種有向性.與短語結(jié)構(gòu)句法分析相比,依存句法分析由于能夠直接發(fā)現(xiàn)句中的詞間關(guān)系,加之這種關(guān)系對于信息提取和語義處理都極有用處,所以受到越來越多研究者的重視.句法分析的這種發(fā)展趨向也可從依存句法分析連續(xù)兩次被CoNLL會議(ConferenceonComputationalNaturalLanguageLearning)作為共享任務(wù)中看出.我們采用瑞典韋克舍(V?xj?)大學(xué)的J.Nivre提出的“歸納依存分析”(InductiveDependencyParsing)方法和在此基礎(chǔ)上實現(xiàn)的依存句法分析器MaltParser作為研究工具.MaltParser由以下三個部分組成:剖析器、指導(dǎo)器和學(xué)習(xí)器.各部分的任務(wù)是:構(gòu)建依存圖的確定性剖析算法,預(yù)測剖析器的下一個活動的基于歷史的特征模型,將歷史映射為剖析器活動的判別機(jī)器學(xué)習(xí)方法.MaltParser采用模塊化結(jié)構(gòu),使用者可根據(jù)自己的需要調(diào)整各種機(jī)器學(xué)習(xí)和句法分析參數(shù).2依存標(biāo)記標(biāo)記的方面實驗所用樹庫為自建的“新聞聯(lián)播”樹庫,標(biāo)注采用的“現(xiàn)代漢語依存關(guān)系句法”見文獻(xiàn).所用樹庫含句子711個,詞20034個,平均句長28個詞.我們將711個句子中的前650個句子作為訓(xùn)練集,剩余的61個句子作為測試集.采用基于記憶的學(xué)習(xí)(Memory-BasedLearning,MBL)策略和M4特征模型(含5個詞類標(biāo)記(POS)特征,4個依存類型(DependencyType,DEP)特征和2個詞匯(Lexical,LEX)特征),得到以下句法分析結(jié)果:UAS0.704,LAS0.637,UnSent22,其中,UAS為無標(biāo)記依存關(guān)系,LAS為有標(biāo)記依存關(guān)系,UnSent為非聯(lián)通句子數(shù).有關(guān)特征參數(shù)和依存句法分析精度的關(guān)系可參見文獻(xiàn)、.這一結(jié)果遠(yuǎn)遠(yuǎn)低于使用MaltParser處理其它語言時得到的分值.造成這種局面的主要原因有:樹庫的規(guī)模太小,這毫無疑問會帶來數(shù)據(jù)稀疏問題;樹庫中還存在一些不一致的問題;訓(xùn)練集和測試集的平均句子長度較大,前者為28,后者為22;使用24個標(biāo)記的詞性標(biāo)記集,53個關(guān)系的依存關(guān)系集.依存關(guān)系數(shù)量明顯有些多.圖2反映的是詞類尋找其支配詞的精度情況.后文中所涉及的詞類、依存標(biāo)記等具體意義可參見文獻(xiàn).圖2所示為無標(biāo)記依存標(biāo)記的情況,雖然有標(biāo)記的情況更差,但變化趨勢不大.我們將分值分為3個區(qū)域,低于0.7的為嚴(yán)重區(qū),0.7~0.8為一般區(qū),0.8以上為可接受區(qū).在嚴(yán)重區(qū),重點要解決的是動詞的問題,雖然連詞的情況要更差,但它的數(shù)量少,對系統(tǒng)的影響要小于動詞.這一區(qū)域還有介詞、量詞、的字結(jié)構(gòu)等.我們認(rèn)為這些處于嚴(yán)重區(qū)內(nèi)中的詞類,分值之所以這么低的原因,主要是它們可擔(dān)當(dāng)?shù)木浞üδ芴?用劉海濤、馮志偉所提出的概率配價模式來解釋,就是詞類的離心力太大,或受別的詞支配的能力太強(qiáng).對它們進(jìn)行子類劃分,消解這種過強(qiáng)的能力,可能是改善精度的一種途徑,但對于小樹庫來說,增加詞的子類又會使數(shù)據(jù)稀疏問題更加突出.處于一般區(qū)域的詞類,除形容詞外,幾乎都是名詞,這一方面說明名詞可充當(dāng)?shù)木浞üδ茌^之嚴(yán)重區(qū)要單一一些外,可能也說明對于名詞進(jìn)行細(xì)分的句法意義并不是很大.在可接受區(qū)中,除代詞的分值剛剛達(dá)到0.8外,其余詞類的精確度均高于0.92,能達(dá)到如此高的分值的主要原因,是它們可擔(dān)當(dāng)?shù)木浞üδ芊浅我?其中出現(xiàn)次數(shù)較多的是副詞和數(shù)詞,滿分的“地”因為現(xiàn)次太少,不足為慮,助詞能達(dá)到滿分的原因是在測試集中出現(xiàn)的基本上都是時態(tài)助詞“了”,離支配詞近,加上功能單一,沒有不得高分的理由.圖3是按照依存關(guān)系得到的準(zhǔn)確率和召回率的統(tǒng)計數(shù)據(jù).分析帶依存關(guān)系標(biāo)記的支配詞依附的準(zhǔn)確率和召回率要更復(fù)雜一些:1)涉及的關(guān)系種類多;2)不僅要考慮支配詞,也要考慮從屬詞和支配詞之間的依存關(guān)系.圖3顯示準(zhǔn)確率和召回率的分布不是完全一致的.準(zhǔn)確率和召回率都為零的依存關(guān)系有12種,它們是:cfc,cs,cadva,subobj,soc,cva,cpobj,coor,comp,ccr,cepa,cdec.除涉及兼語式的subobj、soc、并列關(guān)系coor以及補(bǔ)語comp外,其余的8種都是為了處理并列結(jié)構(gòu)而引入的帶有前綴c的并列關(guān)系,如csubj表示“并列主語”,cobj表示“并列賓語”等.這些關(guān)系得零分的主要原因可能是:訓(xùn)練集太小,以致系統(tǒng)無法識別這些關(guān)系;我們對于并列結(jié)構(gòu)的處理雖然可能較好地體現(xiàn)了其語言學(xué)意義,但卻不適于基于機(jī)器學(xué)習(xí)的數(shù)據(jù)句法分析策略.obja(能愿動詞賓語)得分低的原因在于:訓(xùn)練集中此類關(guān)系較少,而且我們也取消了能愿動詞這個小類,當(dāng)然也會影響原本只有它才能產(chǎn)生這個關(guān)系的精度.cr、sentobj、s、va等關(guān)系基本上都涉及到跨句關(guān)系和兩個動詞之間的關(guān)系,所以其準(zhǔn)確性不高也是可以理解的.csubj、catr、cobj這三個涉及并列結(jié)構(gòu)關(guān)系的準(zhǔn)確率能達(dá)到0.5以上,說明我們對于并列結(jié)構(gòu)的這種處理方式,如果有足夠的語料作支撐,也是可以接受的.csr作為一種比較單一的依存關(guān)系,只得到不足0.6的分值是難以接受的,原因可能在于我們沒有區(qū)分從屬連詞和并列連詞.因為我們采用專門的pos標(biāo)記bjd,root的召回率達(dá)到滿分,但它的準(zhǔn)確率只有0.53,原因是我們還沒有辦法在數(shù)據(jù)驅(qū)動的句法分析器中對此進(jìn)行唯一性約束.obj、auxr、subj、pobj、atr、adva、dec、ma等關(guān)系的準(zhǔn)確率分值介于0.585~0.714之間,這些關(guān)系在全部關(guān)系中占的比例很大,其準(zhǔn)確率能否提高對系統(tǒng)的整體性能有較大影響.因此分析這些關(guān)系的構(gòu)成,以及造成這些依存關(guān)系識別準(zhǔn)確率不高的原因是我們的主要任務(wù).qc、fc和epa的分值能達(dá)到0.9以上,主要在于形成這些關(guān)系的詞類成分較穩(wěn)定,它們的高分值說明用小訓(xùn)練集也可構(gòu)造性能不差的依存句法分析器,條件是組成依存關(guān)系的詞類結(jié)構(gòu)應(yīng)該穩(wěn)定、單一的.滿分的baobj、dic和ta再次說明在較穩(wěn)定的詞類間形成的關(guān)系是容易識別的,而且支配詞和從屬詞還不能離的太遠(yuǎn),baobj的低召回率說明依存距離大的依存關(guān)系更難獲得.文獻(xiàn)提出一種采用樹庫測量依存距離(即支配詞和從屬詞線性距離)的方法,結(jié)合本文和文獻(xiàn)中的結(jié)果,我們可得到圖4.為方便觀察,圖4中的依存距離值是縮小了10倍的.圖4表明除個別依存關(guān)系外,識別依存距離小的關(guān)系準(zhǔn)確率要高一些.準(zhǔn)確率、召回率曲線和依存距離曲線的非完美吻合也說明,依存距離只是得到高準(zhǔn)確率的條件之一.baobj(把字句)的高精確率顯示了單一功能的詞類即使依存距離較長,也可獲得好的識別準(zhǔn)確率.當(dāng)然,距離和精度的關(guān)系不是如此簡單,值得深入研究.3u3000在堅持目標(biāo)函數(shù)和分析器精度方面的測試與檢驗根據(jù)以上分析,我們對訓(xùn)練依存句法分析器的樹庫作了以下修改.1)修改并列結(jié)構(gòu)的處理方式.取消cXXX的形式,引入co關(guān)系.這樣可減少原依存關(guān)系中為處理并列結(jié)構(gòu)而引入的20種cXXX類關(guān)系.2)將標(biāo)點符號頓號“、”作為一種并列連詞來處理.3)區(qū)分從屬連詞(cs)和并列連詞(cc).4)由于動詞的處理涉及的問題較多,我們先只分出能愿動詞(vu),其余小類待處理.對樹庫做以上修改后,仍用MBL訓(xùn)練,采用M4策略.此時系統(tǒng)的無標(biāo)記依存關(guān)系(UAS)準(zhǔn)確率達(dá)到了0.72,增加了0.016.有標(biāo)記依存關(guān)系的分值(LAS)0.666,增加了0.029.增加幅度不大的原因是連詞(cc和cs)在測試集中的數(shù)量不多,在1348個詞的測試集中只有44個,能愿動詞只有5個.但是,我們觀察的重點應(yīng)該是與修改相關(guān)的依存關(guān)系和支配詞精度的變化情況.表1為相關(guān)詞類的新數(shù)值.與樹庫未修改前得到的數(shù)據(jù)相比,細(xì)分后的連詞尋找其支配成分的準(zhǔn)確率稍有改善,效果不明顯的原因是并列連詞可有支配者成分仍然復(fù)雜,所以準(zhǔn)確率難以大幅度提高.對于從屬連詞而言,雖然其支配者一般為動詞,但由于漢語中一個句子中的動詞數(shù)量要多于一個,這使得準(zhǔn)確率也提高的不多.總的說來,經(jīng)過這樣不大的調(diào)整,連詞的準(zhǔn)確率提高了4%,效果還是有的.把能愿動詞從v中分出來,也使得v本身和vu的依附準(zhǔn)確率都有5%的提高.句內(nèi)標(biāo)點(bnd)的準(zhǔn)確率也提高4%,這主要是我們將頓號視為cc的原因.其余詞類的依附精度基本沒有變化,這和我們沒有修改它們的事實相符.表2是有關(guān)依存關(guān)系的數(shù)據(jù).依存關(guān)系方面的改善更為明顯,原來的20種并列關(guān)系用一種關(guān)系co代替后,不但沒有再現(xiàn)準(zhǔn)確率和召回率為零的尷尬狀況,而且co的準(zhǔn)確率一躍達(dá)到0.836,召回率也接近0.8.csr的準(zhǔn)確率也差不多提高了10%.引入能愿動詞vu后的obja更是在準(zhǔn)確率和召回率方面都取得滿分.這說明第二部分的分析是正確的,解決問題的思路也是有效的.通過在M4模型中增加兩個詞匯化(Lexical,LEX)特征,我們得到一個更好的結(jié)果:UAS0.735LAS0.684.這說明,即使是用一個非常小的樹庫作為機(jī)器學(xué)習(xí)的樣本,詞匯化的特征也是有利于提高分析精度.為了探索進(jìn)一步提高精度的可能性,我們對樹庫中被標(biāo)注為動詞的詞,根據(jù)其語法功能將它們的詞性歸為動詞、名詞和形容詞.受細(xì)分vu的啟發(fā),我們又從動詞中細(xì)分出三個小類:雙賓動詞(vtd)、小句賓動詞(vts)和兼語動詞(vtc).此時,用M4得到的結(jié)果是UAS0.759LAS0.712.為了進(jìn)一步探索語言學(xué)理論通過樹庫標(biāo)注改善句法分析的作用,我們對并列結(jié)構(gòu)的依存分析做了專門的研究.根據(jù)依存語法理論中處理并列結(jié)構(gòu)的常用方法,提出并列結(jié)構(gòu)的三種標(biāo)注方式,這三種標(biāo)注方式均包含第二層分析的思想,即類似于cXXX的標(biāo)注.用這三種方式標(biāo)注從“人民日報”語料庫中提取出的1000個含有并列結(jié)構(gòu)的句子,得到一個并列結(jié)構(gòu)依存樹庫.該樹庫含33049個詞,平均句長33,不含循環(huán)句、非投影句和非聯(lián)通句.采用1000句中的前900句作為訓(xùn)練集,剩余的100句作為測試集.用MaltParser,選擇MBL機(jī)器學(xué)習(xí)策略和M4模型,得到的結(jié)果如表3.表3說明同種結(jié)構(gòu)采用不同分析方法和標(biāo)注方式會影響句法分析器的精度.在這種情況下,語言學(xué)家進(jìn)一步研究的目標(biāo)不應(yīng)僅滿足于如何提高分析器的精度和效率,而也應(yīng)該考慮句法標(biāo)注和其它層面語言分析的關(guān)系,以提高標(biāo)注方案的綜合性能.為了探討擴(kuò)大訓(xùn)練集規(guī)模對低精度詞依存關(guān)系的影響,我們也使用并列結(jié)構(gòu)依存樹庫此前所說的61個句子作為測試集,進(jìn)行依存分析實驗.結(jié)果表明訓(xùn)練集的增加對并列結(jié)構(gòu)精度的提高起到明顯作用.其中,cpobj準(zhǔn)確率和召回率由零提高到0.2和0.5,csubj的準(zhǔn)確率提高0.25,召回率提高0.054.我們也按照前述修改樹庫標(biāo)注的方法,在并列結(jié)構(gòu)依存樹庫中用co來代替cXXX.做此修改后,co的準(zhǔn)確率為0.754,召回率為0.719,二者均高于平均分值.這再次說明此種方法對彌補(bǔ)數(shù)據(jù)稀疏是有效的.但我們也注意到,將訓(xùn)練集從650個句子擴(kuò)大為900個句子后的co分值反而低于原來的分值(準(zhǔn)確率0.836,召回率0.797),這有可能是由于訓(xùn)練集所用語料不同而引起的,也有可能說明采用細(xì)分小類、建大樹庫的辦法并不能解決所有問題.4句法分析的精度本文利用可調(diào)整參數(shù)的依存句法分析器MaltParser作為工具,用自建的一個小規(guī)模依存樹庫作為資源,進(jìn)行基于樹庫和機(jī)器學(xué)習(xí)的漢語依存句法分析實驗.實驗所用的樹庫只有20000詞左右,700個句子,但通過調(diào)整樹庫中對某些語言現(xiàn)象的處理方式和標(biāo)注的精細(xì)度,使得句法分析器的UAS精度從0.704提高到0.759,LAS精度從0.637上升到0.712,分別提高5.5%和7.5%.本文的意義不在于所得到的句法分析器的精度有多高,而在于證實可從語言學(xué)的角度改善基于樹庫和機(jī)器學(xué)習(xí)的句法分析器的精度.也就是說,人們不但可以從機(jī)器學(xué)習(xí)、句法分析算法上入手研究基于樹庫和機(jī)器學(xué)習(xí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論