淺層語義分析的基礎(chǔ)與方法_第1頁
淺層語義分析的基礎(chǔ)與方法_第2頁
淺層語義分析的基礎(chǔ)與方法_第3頁
淺層語義分析的基礎(chǔ)與方法_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

淺層語義分析的基礎(chǔ)與方法

意義分析是肯定語言理解的根本性問題,也是語言學研究的一個重要課題。意義分析是在分析句子的語言結(jié)構(gòu)和分析句子中每個單詞的意義后,根據(jù)分析句子的形狀,對句子意義進行推理和表達。意義分析主要集中在語義學的詞匯,包括意義標記、消異和意義主體數(shù)據(jù)庫的構(gòu)建。句子級分析以應(yīng)用為主,缺乏跨領(lǐng)域重復(fù)。意義分析的困難主要包括:1)意義的固定性。目前,關(guān)于意義本質(zhì)的理論有七種,研究理論有不同的類型,意義和意義的分析難以正確界定。2)意義和語法反映在從屬關(guān)系中,意義受語法的限制,獨立發(fā)展。語言學和語言分析一直尋求“全面”和“深部”的目標,但在復(fù)雜的語言現(xiàn)象下,這種想法不可避免地收效甚微。另一方面,平面分析采用了“片面”和“扁平”的概念,在應(yīng)用的前提下,為解決復(fù)雜語言現(xiàn)象提供了一種新的方式。1語義角色標注淺層分析是近10年來計算語言學在方法學上的重大突破,其基本思想是基于一套非嚴格定義的標簽體系,標注句子的部分成分并以標注結(jié)構(gòu)作為分析結(jié)果.淺層分析摒棄了深層成分和關(guān)系的復(fù)雜性,因而能在真實語料環(huán)境下實現(xiàn)快速分析算法,獲得比深層分析(fullparsing)更高的正確率.淺層分析首見于CoNLL-2000文本組塊分析(textchunking).在關(guān)聯(lián)理論(linkingtheory)的推動下,CoNLL-2004提出了面向語義的共享任務(wù)——語義角色標注(semanticrolelabeling,SRL),目標是結(jié)合語料庫技術(shù)與機器學習方法,開發(fā)識別動詞框架并標注框架內(nèi)語義角色的系統(tǒng).SRL的研究分為兩個方面:1)淺層語義體系的開發(fā).主要涉及謂詞框架的構(gòu)建,角色的界定與分類.謂詞框架的構(gòu)建分為人工構(gòu)建和自動學習兩種.角色界定與分類關(guān)注角色體系間的相關(guān)性研究與框架映射.2)分析方法的研究.主要涉及標注的過程、對象與方法.標注過程分為角色識別(identification)和角色分類(classification).前者指從句法成分中找出可能的候選成分;后者指給候選成分以正確的分類.另外,在識別之前與分類之后,一些啟發(fā)式的剪枝規(guī)則通常幫助去除交叉候選成分和冗余角色.淺層語義分析關(guān)注的對象主要有詞、短語、組塊與句法關(guān)系,研究較多是短語和組塊.當前大多數(shù)成熟的統(tǒng)計模型在SRL取得較好應(yīng)用,如ME,SVM,CRF等.文獻對SRL的相關(guān)研究進行了綜合評測.2動詞的語義分類語義角色體系是淺層語義分析的重要組成部分,角色體系的構(gòu)建與應(yīng)用主要體現(xiàn)在對動詞的分類也即動詞的子范疇化(subcategory)之上,然而對動詞的語義分類目前面臨著諸多困難.本節(jié)我們將闡述動詞框架和角色的相關(guān)理論,論述并比較英語兩大標注集(VerbNet和FrameNet)構(gòu)建角色體系的理論依據(jù),最后討論漢語的語義角色體系.2.1相關(guān)概念的表征通過對語義理論的研究,我們將語義意義(themeaningofmeaning)的表述形式和相關(guān)理論分為3類:1)語義場與成分論.基本思想是,詞通過某些共同語義特征(語義成分)類聚成語義場,詞義由語義特征和所屬語義場的位置決定.2)集合論與義元論.集合論通過一組詞來表示概念,義元論以數(shù)量很小的詞匯集作為解釋自然語言詞匯意義的基礎(chǔ).3)范疇論與框架.語義框架是由Fillmore于1977年提出,框架是經(jīng)驗、信念或?qū)嵺`的結(jié)構(gòu)背景,一個概念由與之相關(guān)的一組概念標識(即概念的范疇).對于動詞,這組概念標識即是語義角色.框架是動詞語義的表述形式,標注框架是語義分析的實現(xiàn)形式.語義角色受動詞支配,角色根據(jù)不同的角度有著不同外延.例如從動詞詞義的角度看待,角色是該動詞所表述語義場景(situation)的參與者(participator);從句法的角度看待,角色是帶句法功能的題元(argument).淺層語義分析是建立在范疇論與語義的框架表示之上的方法論,SRL是該方法論的實現(xiàn)形式,它將語義分析問題轉(zhuǎn)換為框架成分的識別與分類的任務(wù).2.2動詞語義分類框架英語目前有兩大語義角色體系:FrameNet和VerbNet,其共同的理論基礎(chǔ)是范疇論和框架語義.1)FrameNet,FrameNet的動詞分類依據(jù)是詞義的場景表述,即表述同一場景的動詞歸入一類,場景由框架實現(xiàn).語義角色是場景的參與者,也是框架的組成部分,角色類型和數(shù)量是可擴展的.FrameNet按領(lǐng)域劃分,領(lǐng)域下轄框架,早期的FrameNet分有12個領(lǐng)域,67個框架,涉及1462個謂語用詞(927個動詞、339個名詞、175個形容詞),我們以文獻中的例子為例,圖1中Communication和Cognition表示兩個領(lǐng)域,Questioning,Conversation,Statement,Judgment和Categorization表示框架;Argue,Banter,Debate,Dispute等歸屬Conversation框架,表示是同類謂詞,Blame,Admire,Disapprove,Dispute等屬于Judgment框架,也歸屬為同類.Judgment框架內(nèi)含有Judge,Evaluee,Reason,Role四個框架元素(frameelements),即表示該框架的角色.FrameNet對每個框架所適用的場景、框架元素有詳細注釋,并列出適用于某個框架的動詞集合.由于動詞按場景分類,一個動詞如果適用于不同場景,將歸屬于不同框架,另一方面,同一框架下的動詞不能視為同義詞.例如圖1中Dispute歸屬于兩個框架是因為它可以表述兩個不同場景,而不表示它為多義詞.2)VerbNet,VerbNet對動詞的分類基于動詞的句法表現(xiàn),其直接地依據(jù)來自Levinclass.VerbNet的語義角色稱之為題元(或者論元argument),它是對動詞的范疇進一步提升后形成的固定數(shù)量的語義成分.Levin對動詞分類的思想來自于格語法和題元理論,她認為“動詞的分類是基于動詞詞義中共享的組成部分”,同時又說到:“動詞的句法表現(xiàn)能通過它的語義來預(yù)測”.由此可見,Levinclass以動詞句法結(jié)構(gòu)的趨近“等價于”語義的趨近,論元數(shù)量和類型相似的動詞具有內(nèi)在的“語義”相似性.依據(jù)上述思想,Levin采用替換(alternations)作為分類工具.替換是一套鑒定動詞語義相似性的測試規(guī)則集,它能同時衡量動詞的內(nèi)在詞義和句法表現(xiàn)的相關(guān)性.Levin共構(gòu)建73種替換,將3100個動詞分為193類.VerbNet的類別有大小之分,大類表示一個框架所有可能出現(xiàn)的角色集和共享的alternation形式,小類表示具備大類角色集的子集并共享某些特有alternation的動詞集.與FrameNet類似,VerbNet中一個動詞可能歸屬不同框架,同一框架下的動詞不一定是同義詞.我們對VerbNet與FrameNet簡單總結(jié)如下:1)兩大體系構(gòu)建的理論基礎(chǔ)和表述方式一致,即動詞語義由框架表述,動詞與角色共同組成框架,動詞按框架分類但框架不是簡單的同義詞集;2)兩大體系采用了不同的分類標準,角色數(shù)量與類型不同;FrameNet按場景劃分動詞,同類動詞具有相似的參與者集,角色數(shù)量與類型具有擴充性,VerbNet按Levin的alternations劃分動詞,同類動詞具有相似的句法表現(xiàn),角色數(shù)量與類型固定.2.3現(xiàn)有漢語角色體系分析漢語語義角色體系的研究起步較晚,其理論基礎(chǔ)也來自框架理論.漢語語義角色體系當前屬于純語言學的研究范疇,其特點有:1)角色體系眾多,角色相互交疊.目前已提出的漢語語義角色體系有袁毓林(17種)、孟琮(14種)、鄧守信(9種)、魯川(22種)等.2)角色研究與動詞研究相互獨立,角色研究以考察句法功能和范疇特征為主,缺乏動詞與角色的關(guān)系的系統(tǒng)研究.3)角色研究的角度單一,缺乏量化,未形成類似Levinalternations的具體測試集合.4)面向漢語的角色標注語料庫漸具雛形.賓州大學(UniversityofPennsylvania)于2005年開發(fā)了ChinesePropBank1.0,該語料庫以賓州中文樹庫(ChineseTreeBank)為對象,涉及4865個動詞框架,標注37183個動詞實例.下面我們以袁毓林的角色體系為代表,考察分析現(xiàn)有漢語角色體系的特點(如表1所示):漢語角色界定的主要依據(jù)是句法特征和語義特征.其中,句法特征描述角色可擔任的句法成分,例如“施事”可做主語、“受事”做賓語等,還描述角色對應(yīng)的動詞或介詞的一些特征.語義特征為角色對應(yīng)的詞匯意義的內(nèi)在特征.比較該語義角色體系后,我們發(fā)現(xiàn)漢英語言現(xiàn)象具有的一些共通性和相異性,共通性如:1)賓語→主語.A.他用這把刀削蘋果來著~B.這把刀,他用著來削蘋果.這里我們可以把B句的“這把刀”分析為是A句VP→VNP結(jié)構(gòu)中NP提前到S外,在原來位置留下虛跡(trace),因而B句也可以寫成:1)C.這把刀,他用著*trace*來削蘋果.相異性表現(xiàn)在漢語某些角色可擔當?shù)木浞ǔ煞直扔⒄Z的角色更廣泛,如:2)方式→賓語.爸爸用高音唱~爸爸唱高音.3)場所→賓語.你干啥老在食堂吃~你干啥老吃食堂.對于上述兩句,英語沒有合適的理論解釋方式角色或場所角色轉(zhuǎn)換做賓語的現(xiàn)象.另外我們還觀察到,漢語語言學對角色的研究很少涉及動詞的特征,如動詞的及物性與不及物性等.與FrameNet和VerbNet不同,漢語角色的界定既與動詞的詞義無關(guān),也與動詞的句法表現(xiàn)(即alternations)無關(guān).3現(xiàn)有特征集及應(yīng)用自20世紀80年代語料庫技術(shù)興起以來,統(tǒng)計模型已成為語言處理的主要策略,CoNLL-2004因此將SRL任務(wù)建立在基于機器學習系統(tǒng)的開發(fā)上.與采用何種模型相比,選取何種特征對提高任務(wù)的性能更為重要.在SRL中,特征表現(xiàn)為角色標注成分本身的信息和上下文信息,當前已得到應(yīng)用的基本特征有:Predicate,Path,PhraseType,Position,Voice,HeadWord,Sub-categorization等.文獻討論了不同階段采用的特征集并介紹一些新特征,嘗試了現(xiàn)有特征的組合.下面,我們從句法和語義兩個角度考察現(xiàn)有特征集,如表2所示.我們把所有與詞性、短語相關(guān)的特征歸為句法特征,把所有描述詞和詞子類的特征歸為語義特征.對特征進行句法和語義的分類可為SRL的兩個子任務(wù)提供選取特征的依據(jù).在角色識別階段,分析對象是句法成分,目標是判斷成分是否為候選角色,因而選取含句法信息的特征可以取得比較好的效果.在角色分類階段,分析對象為候選角色,屬語義成分,因而選取含語義信息的特征可以取得比較好的效果.文獻在相同測試環(huán)境下橫向比較上述特征,結(jié)論表明Path是識別階段最重要的特征;HeadWord和Predicate是分類階段最重要的特征.4淺層

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論