2023自然語(yǔ)言處理導(dǎo)論 4語(yǔ)義分析_第1頁(yè)
2023自然語(yǔ)言處理導(dǎo)論 4語(yǔ)義分析_第2頁(yè)
2023自然語(yǔ)言處理導(dǎo)論 4語(yǔ)義分析_第3頁(yè)
2023自然語(yǔ)言處理導(dǎo)論 4語(yǔ)義分析_第4頁(yè)
2023自然語(yǔ)言處理導(dǎo)論 4語(yǔ)義分析_第5頁(yè)
已閱讀5頁(yè),還剩91頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1第四章語(yǔ)義分析自然語(yǔ)言處理導(dǎo)論語(yǔ)義學(xué)概述4.1語(yǔ)義表示4.2分布式表示4.3目錄Contents2詞義消歧4.4語(yǔ)義角色標(biāo)注4.54.1.1詞匯語(yǔ)義學(xué)4.1.2句子語(yǔ)義學(xué)語(yǔ)義學(xué)概述4.1語(yǔ)義表示4.2分布式表示4.3目錄Contents3詞義消歧4.4語(yǔ)義角色標(biāo)注4.54語(yǔ)義分析4掌握一種語(yǔ)言意味著懂得如何產(chǎn)生并理解數(shù)量無(wú)限的該種語(yǔ)言句子的意義。研究語(yǔ)言意義的科學(xué)被稱為語(yǔ)義學(xué)(Semantics)。語(yǔ)義問(wèn)題也被大多數(shù)語(yǔ)言學(xué)家認(rèn)為是語(yǔ)言的核心問(wèn)題,同時(shí)也受到了包括哲學(xué)、邏輯學(xué)、心理學(xué)以及計(jì)算機(jī)等眾多學(xué)科的廣泛關(guān)注。自然語(yǔ)言處理目標(biāo)就是要使計(jì)算機(jī)具有理解和運(yùn)用自然語(yǔ)言的能力。因此,語(yǔ)義也是自然語(yǔ)言處理的關(guān)鍵問(wèn)題和難點(diǎn)問(wèn)題。語(yǔ)義研究需要以語(yǔ)義的形式化結(jié)構(gòu)表示為基礎(chǔ)。這種形式化結(jié)構(gòu)表示稱之為語(yǔ)義表示(SemanticRepresentation)4.1語(yǔ)義學(xué)概述5什么是意義是一個(gè)困擾了哲學(xué)家和語(yǔ)言學(xué)家數(shù)千年的問(wèn)題。我們可以非常容易地理解中文,并且用漢字組成對(duì)其他人來(lái)說(shuō)也是有意義的句子。我們也可以知道某個(gè)詞語(yǔ)、句子是否有意義,還可以通過(guò)一個(gè)句子衍推出另外一個(gè)句子。意義從何而來(lái)?語(yǔ)言的意義的本質(zhì)又是什么?學(xué)術(shù)界對(duì)這些問(wèn)題眾說(shuō)紛紜沒(méi)有定論中國(guó)古代以“字”為核心的訓(xùn)詁語(yǔ)義研究達(dá)到了很高的水準(zhǔn),公元前2世紀(jì)就有了專門解釋詞義的專著《爾雅》。先秦時(shí)期,荀子和墨子就開始對(duì)“名”與“實(shí)”的關(guān)系進(jìn)行討論。古希臘哲學(xué)家蘇格拉底、亞里士多德等也都在其哲學(xué)著作中探討過(guò)語(yǔ)言的意義。4.1語(yǔ)義學(xué)概述6語(yǔ)義學(xué)的研究目標(biāo)就是發(fā)現(xiàn)和闡述關(guān)于意義的知識(shí)。1883年由法國(guó)語(yǔ)言學(xué)家MichelBréal發(fā)表的論文中首次提出了語(yǔ)義學(xué)的概念從語(yǔ)言表達(dá)層面劃分,語(yǔ)義學(xué)的研究大致可以分為三個(gè)層面:(1)詞匯語(yǔ)義學(xué)(LexicalSemantics)主要包括詞義問(wèn)題、詞匯間關(guān)系、詞匯場(chǎng)、成語(yǔ)的語(yǔ)義等;(2)句子語(yǔ)義學(xué)(SententialSemantics)主要以真值條件語(yǔ)義理論、配價(jià)理論、生成理論等為基礎(chǔ)研究句義關(guān)系以及語(yǔ)序等問(wèn)題;(3)話語(yǔ)語(yǔ)義學(xué)(DiscourseSemantics)主要研究句子以上層次結(jié)構(gòu)的意義,包括話語(yǔ)銜接、話語(yǔ)連貫、語(yǔ)用過(guò)程解釋等。4.1.1詞匯語(yǔ)義學(xué)7詞是語(yǔ)言中能夠獨(dú)立運(yùn)用的最小的單位,也是音、形、義的結(jié)合體。詞語(yǔ)通過(guò)搭配組合,可以構(gòu)建出短語(yǔ)、句子、篇章等復(fù)雜的語(yǔ)言結(jié)構(gòu)。語(yǔ)義學(xué)自創(chuàng)建之初,就將詞匯語(yǔ)義作為重要的研究目標(biāo)。

詞匯語(yǔ)義學(xué)主要研究單個(gè)詞語(yǔ)的意義以及詞匯之間的相互關(guān)系。4.1.1詞匯語(yǔ)義學(xué)81.

詞匯語(yǔ)義理論詞義(WordMeaning)有很多的方面,可以從不同的角度分析和定義,因而出現(xiàn)了包括語(yǔ)義場(chǎng)理論、語(yǔ)義成分分析、并置理論、框架語(yǔ)義理論等眾多詞匯語(yǔ)義理論。語(yǔ)義場(chǎng)理論(SemanticField)也稱作詞義場(chǎng)理論(LexicalField)認(rèn)為語(yǔ)言中詞匯的意義是相互聯(lián)系的,構(gòu)成一個(gè)完整的系統(tǒng)和網(wǎng)絡(luò),具有某些相同語(yǔ)義特征的一組詞聚而成場(chǎng)。根據(jù)語(yǔ)義場(chǎng)理論,不能夠孤立的研究一個(gè)詞的詞義,只有通過(guò)分析比較詞與詞之間的關(guān)系,才能確定一個(gè)詞的真正意義。

4.1.1詞匯語(yǔ)義學(xué)91.

詞匯語(yǔ)義理論語(yǔ)義成分分析(ComponentialAnalysis)理論認(rèn)為詞義可以由最小的語(yǔ)義成分組合而成。這種最小的語(yǔ)義成分又被成為語(yǔ)義特征。例如:可以定義ADULT、YOUNG、MALE、FEMALE為語(yǔ)義特征,根據(jù)這些特征可以表達(dá)詞匯的意義:

man:ADULT+MALE

woman:ADULT+FEMALE

boy:YOUNG+MALE

girl:YOUNG+FEMALE4.1.1詞匯語(yǔ)義學(xué)101.

詞匯語(yǔ)義理論義元理論(TheoryofLexcialPrimitives)的核心思想是自然語(yǔ)言中包含非常少部分的詞語(yǔ),這些詞語(yǔ)可以用于解釋絕大部分詞匯的意義。例如:man和fish是義元,而fishy和manliness則是衍生詞??梢允褂昧x元對(duì)其他詞語(yǔ)進(jìn)行解釋。根據(jù)文獻(xiàn)[164]中的定義,boy、girl、woman、man使用義元解釋如下:

boy:younghumanbeingthatonethinksofasbecomingaman.

girl:younghumanbeingthatonethinksofasbecomingawoman.

woman:humanbeingthatcouldbesomeone’smother.

man:humanbeingthatcouldcauseawomantobesomeone’smother4.1.1詞匯語(yǔ)義學(xué)111.

詞匯語(yǔ)義理論董振東教授所創(chuàng)建的知網(wǎng)(HowNet)也結(jié)合了義元理論,構(gòu)建了包含2540多個(gè)義元的精細(xì)的語(yǔ)義描述體系,并為237974個(gè)漢語(yǔ)和英語(yǔ)詞所代表的概念進(jìn)行了標(biāo)注。例如:Hownet中美味、難題的定義如下所示:美味:edible|食物:modifier=GoodTaste|好吃難題:problem|問(wèn)題:modifier=difficult|難HowNet中義元采用中英雙語(yǔ)的形式進(jìn)行描述。上例子中“edible|食物”、“GoodTaste|好吃”是義元?!半y題”是由核心義元“problem|問(wèn)題”以及對(duì)核心義元的附加描述義元“difficult|難”組成。4.1.1詞匯語(yǔ)義學(xué)121.

詞匯語(yǔ)義理論框架語(yǔ)義學(xué)(FrameSemantics)則認(rèn)為詞義只能在相應(yīng)的知識(shí)框架背景中才能得到理解。在意義的理解過(guò)程中,概念并不是雜亂無(wú)章的,很多概念往往具有一種同現(xiàn)的趨勢(shì)。例如:文獻(xiàn)[166]中定義的“RISK”的框架是由如下成分組成:RISKframe:

Chance(uncentaintyaboutthefuture)

Harm

Victim(oftheharm)

ValuedObject(potentiallyendangeredbytherisk)

Situation(whichgivesrisetotherisk)

Deed(thatbringsabouttheSituation)

Actor(oftheDeed)

Gain(bytheActorintakingtherisk)

Purpose(oftheActorintheDeed)

Beneficiaryandmotivation(fortheActor4.1.1詞匯語(yǔ)義學(xué)132.詞匯間的關(guān)系詞匯之間的關(guān)系(LexcialRelations)是詞匯語(yǔ)義學(xué)研究的另一個(gè)重點(diǎn)問(wèn)題。關(guān)系類型可以分為三大類:形體關(guān)系、意義關(guān)系和實(shí)體關(guān)系形體關(guān)系(FormRelations)主要研究詞匯的聲音形體和拼寫之間的關(guān)系意義關(guān)系(SenseRelations)主要關(guān)注詞匯意義之間的關(guān)聯(lián)性、相似性、對(duì)立性等關(guān)系。實(shí)體關(guān)系(ObjectRelations)則主要研究詞匯之間的客觀關(guān)系。4.1.1詞匯語(yǔ)義學(xué)142.詞匯間的關(guān)系WordNet是目前最常用的英語(yǔ)詞匯知識(shí)資源庫(kù)。在其中詞匯按照義項(xiàng)組合成同義集(Synset),每個(gè)義項(xiàng)表達(dá)不同的概念。名詞、動(dòng)詞、形容詞和副詞各自獨(dú)立的組合成網(wǎng)絡(luò)。4.1.1詞匯語(yǔ)義學(xué)152.詞匯間的關(guān)系在WordNet中名詞和動(dòng)詞可以根據(jù)上下位關(guān)系或者部分整體關(guān)系構(gòu)成層級(jí)結(jié)構(gòu)bank,cant,camber(aslopeintheturnofaroadortrack)

=>slope,incline,side

=>geologicalformation,formation

=>object,physicalobject

=>physicalentity

=>entity

4.1.2句子語(yǔ)義學(xué)16句子語(yǔ)義學(xué)主要是在句子層面對(duì)意義的研究。人們通常通過(guò)句子來(lái)表達(dá)完整語(yǔ)義,相較于詞匯句子也復(fù)雜得多,因此非常多的工作都是圍繞句子語(yǔ)義學(xué)從各個(gè)角度開展,包括語(yǔ)音、語(yǔ)法、邏輯、認(rèn)知、心理學(xué)等等。本節(jié)中,從語(yǔ)言學(xué)角度對(duì)句子語(yǔ)義學(xué)的主要理論進(jìn)行簡(jiǎn)要介紹。語(yǔ)言是對(duì)外部世界的編碼,句子就是人們對(duì)客觀世界的概念表征,人們對(duì)句子意義的認(rèn)知始于真假判斷。真值條件語(yǔ)義學(xué)(Truth-conditionalSemantics)核心就是將意義定義為一個(gè)句子或句子所表達(dá)的命題為真時(shí)所必須滿足的一系列條件。該理論試圖通過(guò)解釋句子何時(shí)為真來(lái)定義給定句子或命題的意義。提出了一個(gè)檢驗(yàn)句子真值的通用公---T公式:SistrueiffP,S代表某個(gè)句子,P代表句子的真值條件,iff表示“ifandonlyif”。例如:他是學(xué)生,S表示這個(gè)句子,P表示“他”所代表的人并且真的是學(xué)生的列表。真知條件語(yǔ)義學(xué)開創(chuàng)了用數(shù)理邏輯方法解釋自然語(yǔ)言的語(yǔ)義,用嚴(yán)格數(shù)學(xué)方法研究自然語(yǔ)言語(yǔ)義的方向。4.1.2句子語(yǔ)義學(xué)17在詞匯語(yǔ)義理論中語(yǔ)義成分分析理論認(rèn)為詞義可以由最小的語(yǔ)義成分組合而成,在句子層面同樣也存在語(yǔ)義成分,這種語(yǔ)義成分通常稱作語(yǔ)義格(SemanticCase)。格語(yǔ)法(CaseGrammar)以及從格語(yǔ)法發(fā)展而來(lái)的框架語(yǔ)義學(xué)(FrameSemantics)都是以語(yǔ)義格為基礎(chǔ)。語(yǔ)義格也稱語(yǔ)義角色(SemanticRoles),又稱語(yǔ)義關(guān)系、主題關(guān)系(ThematicRelations)。認(rèn)為句子中名詞短語(yǔ)總是與動(dòng)詞相關(guān),并且以唯一可以識(shí)別的方式表示了名詞短語(yǔ)的語(yǔ)義格?!爸髡Z(yǔ)”、“賓語(yǔ)”等語(yǔ)法關(guān)系實(shí)際上都是表層結(jié)構(gòu)上的概念,語(yǔ)言的底層是用“施事”、“受事”、“工具”等概念所表示的句法語(yǔ)義關(guān)系。例如:Thekeyopenedthedoor.Theboyopenedthedoorwithakey.上述例子中的“key”在深層句法語(yǔ)義上始終是“工具”,但是它可以是主語(yǔ),也可以是介詞with的賓語(yǔ)。4.1.2句子語(yǔ)義學(xué)18在格語(yǔ)法中對(duì)于詞庫(kù)中詞匯的每個(gè)詞條需要標(biāo)明其格特征,對(duì)于名詞標(biāo)明其可以作為的語(yǔ)義格(例如:“街道”需要標(biāo)明[+LOCATION]),對(duì)于動(dòng)詞需要標(biāo)明其對(duì)應(yīng)的格框架。例如:BREAK可以放入如下格框架:

[(施事格)(受事格)(工具格)(方位格)]例如:他在房間里用錘子打破了玻璃杯。

根據(jù)BREAK框架得到:

[BREAK[Case-frame:

[AGENT:他

PATIENT:玻璃杯

INSTRUMENT:錘子

LOCATION:房間

]

]]

4.1.2句子語(yǔ)義學(xué)19句子之間也存在各種語(yǔ)義關(guān)系,把句子當(dāng)做一個(gè)整體,句子和句子之間的語(yǔ)義關(guān)系可以包含同義、反義、蘊(yùn)含等。同義關(guān)系(Synonym)表示兩個(gè)不同的句子表達(dá)相同的意義。例如:a.他打碎了玻璃杯。b.玻璃杯被他打碎了。反義關(guān)系(Inconsistency)表示兩個(gè)句子的意義只能有一個(gè)與客觀事實(shí)相符。例如:a.他打碎了玻璃杯。b.玻璃杯完好的放在櫥窗里。蘊(yùn)含關(guān)系(Entailment)表示兩個(gè)句子的意義,前者為真時(shí)后者必然為真,前者為假時(shí)后者可能為真也可能為假。例如:a.他拿著一本書去了校門口。b.書在他手里。預(yù)設(shè)關(guān)系(Presupposition)表示一個(gè)句子的意義是另外一個(gè)句子的前提。例如:a.復(fù)旦大學(xué)江灣校區(qū)管委會(huì)舉辦了迎新活動(dòng)。b.復(fù)旦大學(xué)有多個(gè)校區(qū)。4.2.1謂詞邏輯表示法4.2.2框架表示法4.2.3語(yǔ)義網(wǎng)表示法語(yǔ)義學(xué)概述4.1語(yǔ)義表示4.2分布式表示4.3目錄Contents20詞義消歧4.4語(yǔ)義角色標(biāo)注4.54.2語(yǔ)義表示21語(yǔ)義表示(SemanticRepresentation)是語(yǔ)義的符號(hào)化和形式化的過(guò)程,主要研究語(yǔ)義表示的通用原則和方法。為了使得計(jì)算機(jī)能夠處理自然語(yǔ)言的語(yǔ)義,就需要用恰當(dāng)?shù)哪J綄?duì)語(yǔ)義進(jìn)行表示,因此語(yǔ)義表示方法也是自然語(yǔ)言理解的基礎(chǔ)。目前關(guān)于意義的定義和本質(zhì)還沒(méi)有定論,大量的語(yǔ)義學(xué)理論從不同角度開展討論已有的語(yǔ)義表示方法大多都是根據(jù)不同的語(yǔ)義學(xué)理論針對(duì)某項(xiàng)具體研究所提出的,有一定的針對(duì)性和局限性適用于詞匯、句子、篇章等各個(gè)層面各種應(yīng)用的通用語(yǔ)義表示方法還是一個(gè)亟待解決的問(wèn)題本節(jié)中介紹常見的一階謂詞邏輯、框架、語(yǔ)義網(wǎng)等語(yǔ)義表示方法,分布式表示表示方法在下節(jié)中單獨(dú)介紹4.2.1謂詞邏輯表示法22數(shù)理邏輯(MathematicalLogic)在知識(shí)的形式化表示和機(jī)器的自動(dòng)定理證明方面都有廣泛的應(yīng)用和很好的表現(xiàn),真值條件語(yǔ)言學(xué)中也是使用數(shù)理邏輯來(lái)研究自然語(yǔ)言的語(yǔ)義。自然語(yǔ)言的語(yǔ)義表示中也經(jīng)常采用數(shù)理邏輯的方法。其中常用的是謂詞邏輯(PredicateLogic)和命題邏輯(PropositionalLogic)。謂詞邏輯可以更細(xì)致的刻畫語(yǔ)義,可以表示事物的狀態(tài)、屬性、概念等事物性語(yǔ)義,也可以表示因果關(guān)系等規(guī)則性語(yǔ)義。4.2.1謂詞邏輯表示法23謂詞一般用P(x1,x2,···,xn)表示,P是謂詞名,x1,x2,···,xn表示某個(gè)獨(dú)立存在的事物或某個(gè)抽象的概念。如果謂詞P中的所有個(gè)體都是常量、變量或函數(shù),則稱該謂詞為一階謂詞(First

OrderPredicateLogic)如果某個(gè)個(gè)體本身又是一個(gè)一階謂詞,則稱P為二階謂詞例如:

謂詞:Teacher(x)表示x是教師,是一階謂詞。

句子:“老張是一名老師”可以表示為Teacher(老張)4.2.1謂詞邏輯表示法24除了直接使用單個(gè)謂詞和指代對(duì)象的常量、變量或者函數(shù)組成原子公式之外,還可以使用5種邏輯連接詞和量詞構(gòu)造復(fù)雜的表示,就是謂詞邏輯中的公式。原子公式是謂詞演算的基本組塊,運(yùn)用連接詞可以組合多個(gè)原子公式,以構(gòu)成更加復(fù)雜的公式。(1)連接詞

?:“否定”(Negation)或“非”

∨:“析取”(Disjunction)或“或”

∧:“合取”(Conjunction)或“與”

→:“蘊(yùn)含”(Implication)或“條件”

:“等價(jià)”(Equivalence)或“雙向蘊(yùn)含”(2)量詞

?:全稱量詞(UniversalQuantifier),表示對(duì)個(gè)體域中的所有(或任意一個(gè))個(gè)體x

?:存在量詞(ExistentialQuantifier),表示在個(gè)體域中存在個(gè)體x4.2.1謂詞邏輯表示法25

a.“有機(jī)器人都是紅色的”

謂詞定義:ROBOT(X)表示X是機(jī)器人;COLOR(X,Y)表示X的顏色為Y

謂詞公式:(?X)[ROBOT(X)∧COLOR(X,RED)]

b.“人人都愛護(hù)環(huán)境”

謂詞定義:MAN(X)表示X人;PROTECT(X,Y)表示X保護(hù)Y

謂詞公式:(?X)[MAN(X)→PROTECT(X,ENVIRONMENT)]

c.“小明不在3號(hào)房間”

謂詞定義:INROOM(X,Y)表示X在Y中

謂詞公式:?INROOM(XIAOMING,ROOM3)

4.2.1謂詞邏輯表示法26優(yōu)點(diǎn):謂詞邏輯具有扎實(shí)的數(shù)學(xué)基礎(chǔ),一階謂詞邏輯具有充分的表達(dá)能力和完備的邏輯推理算

法,其推理過(guò)程和結(jié)果的準(zhǔn)確性可以得到有效保證,因此可以精密地表達(dá)語(yǔ)義。缺點(diǎn):使用一階謂詞邏輯表示語(yǔ)義并不簡(jiǎn)單,通常需要如下步驟:(1)定義謂詞及個(gè)體:確定每個(gè)謂詞及個(gè)體的確切含義。

(2)變量賦值:根據(jù)所要表達(dá)的事物或概念,為每個(gè)謂詞中的變量賦予特定的值。

(3)謂詞公式構(gòu)造:根據(jù)所表達(dá)的語(yǔ)義,用適當(dāng)?shù)倪B接符號(hào)和量詞將各謂詞連接起來(lái)。4.2.2框架表示法27框架(Frame)表示法是以框架語(yǔ)義理論為基礎(chǔ)發(fā)展起來(lái)的一種語(yǔ)義表示方法。框架用來(lái)表示所討論對(duì)象(一個(gè)事物、概念或者事件)的語(yǔ)義。每個(gè)框架由若干槽(Slot)組成,描述框架所討論對(duì)象的某一方面的屬性??植酪u擊事件框架:利用“恐怖襲擊事件”框架,句子“在位于巴黎11區(qū)的巴塔克蘭劇院,多名武裝分子在巴黎當(dāng)?shù)貢r(shí)間13日晚劫持了正在劇院觀看演出的大約1500名觀眾并與警方展開對(duì)峙?!钡恼Z(yǔ)義可以表示為:4.2.3語(yǔ)義網(wǎng)表示法28語(yǔ)義網(wǎng)絡(luò)(SemanticNetwork)是一種用實(shí)體及其語(yǔ)義關(guān)系來(lái)表達(dá)知識(shí)和語(yǔ)義的網(wǎng)絡(luò)圖。語(yǔ)義網(wǎng)絡(luò)由節(jié)點(diǎn)和弧組成:節(jié)點(diǎn)表示各種事件、事物、概念、屬性、動(dòng)作等,也可以是一個(gè)語(yǔ)義子網(wǎng)絡(luò);弧表示節(jié)點(diǎn)之間的語(yǔ)義關(guān)系,并且是有方向和標(biāo)注的,方向表示節(jié)點(diǎn)間的主次關(guān)系且方向不能隨意調(diào)換。圖4.1“大學(xué)”的語(yǔ)言網(wǎng)表示樣例4.2.3語(yǔ)義網(wǎng)表示法29語(yǔ)義網(wǎng)除了可以描述事物間包括類屬關(guān)系、聚集關(guān)系、時(shí)間關(guān)系、位置關(guān)系、推論關(guān)系等多

種復(fù)雜語(yǔ)義關(guān)系外,還可以通過(guò)增加節(jié)點(diǎn)的方法表示合取、析取、蘊(yùn)含等語(yǔ)義表示中常用的連接

詞。例如,句子“如果明天下雨,就去看電影或者唱歌”的語(yǔ)義網(wǎng)表示如圖4.2所示圖4.2“如果明天下雨,就去看電影或者唱歌”的語(yǔ)言網(wǎng)表示樣例4.2.3語(yǔ)義網(wǎng)表示法30對(duì)于比較復(fù)雜的語(yǔ)義還能涉及“每一個(gè)”、“有一個(gè)”等量詞,使用語(yǔ)義網(wǎng)進(jìn)行表示時(shí)可以通過(guò)引入分區(qū)技術(shù)進(jìn)行實(shí)現(xiàn)。圖4.3“所有的學(xué)生都完成了課程設(shè)計(jì)”的語(yǔ)言網(wǎng)表示樣例語(yǔ)義網(wǎng)可以較好的把事物的屬性以及事物之間的各種語(yǔ)義聯(lián)系顯式的進(jìn)行表示,也可以比較容易的實(shí)現(xiàn)語(yǔ)義檢索。但是,由于語(yǔ)義網(wǎng)沒(méi)有公認(rèn)的形式表示體系,所表達(dá)的語(yǔ)義需要依賴分析算法對(duì)其進(jìn)行解釋,表示形式的不唯一又進(jìn)一步增加了其處理的復(fù)雜性。4.3.1單詞分布式表示4.3.2句子分布式表示4.3.3篇章分布式表示語(yǔ)義學(xué)概述4.1語(yǔ)義表示4.2分布式表示4.3目錄Contents31詞義消歧4.4語(yǔ)義角色標(biāo)注4.54.3分布式表示32分布式表示(DistributedRepresentation)旨在將文本表示為低維空間下稠密的向量,并在低維表示空間中利用表示向量之間的計(jì)算關(guān)系,體現(xiàn)文本間的語(yǔ)義關(guān)聯(lián)。向量空間模型(VectorSpaceModel,VSM)闡述了將單詞和篇章表示為向量的思想。對(duì)文本的處理可以直觀地映射到向量空間,體現(xiàn)為對(duì)文本向量的加法、減法、距離度量等操作;將向量化的文本作為輸入,從而直接將統(tǒng)計(jì)學(xué)習(xí)與機(jī)器學(xué)習(xí)算法應(yīng)用在自然語(yǔ)言處理應(yīng)用上。分布式表示提出之前,許多自然語(yǔ)言處理算法采用獨(dú)熱表示(One-hotRepresentation),其中每個(gè)維度表示某個(gè)單詞是否在該文中出現(xiàn)。獨(dú)熱表示的維度和詞表的大小一致,存在表示稀疏性的問(wèn)題,而且無(wú)法表示單詞之間的語(yǔ)義相似度分布式表示通過(guò)將文本表示為低維空間下稠密的向量,有效地解決了這一問(wèn)題。當(dāng)應(yīng)用在下游任務(wù)時(shí),文本分布式表示也體現(xiàn)出良好的泛化能力,而且能有效地編碼任務(wù)所需要的語(yǔ)法和語(yǔ)義信息4.3.1單詞分布式表示33單詞分布式表示(WordDistributedRepresentation)通過(guò)將單詞表示為定長(zhǎng)低維稠密向量,在向量空間建構(gòu)單詞之間的語(yǔ)義關(guān)系。單詞分布式表示的目標(biāo)是建立單詞嵌入矩陣W∈R|V|?d,其中矩陣的每一行對(duì)應(yīng)一個(gè)單詞,為單詞的向量表示,即詞向量。相比于獨(dú)熱表示,分布式表示可以編碼不同單詞之間的語(yǔ)義關(guān)聯(lián)。如上例中,如果采用獨(dú)熱表示,“計(jì)算機(jī)”與“電腦”以及“計(jì)算機(jī)”與“冰激凌”之間的相似度都相同。但是采用分布式表示可以使得“計(jì)算機(jī)”和“電腦”在大多數(shù)維度上相近,這樣“計(jì)算機(jī)”和“電腦”的向量之間的距離可以遠(yuǎn)小于“計(jì)算機(jī)”和“冰激凌”之間的距離。4.3.1單詞分布式表示34單詞分布式表示的目標(biāo),即在向量空間建構(gòu)單詞之間的語(yǔ)義關(guān)聯(lián),使含義相近的單詞具有相似的向量表示。這自然地引出了兩個(gè)問(wèn)題:(1)如何衡量單詞語(yǔ)義的相近;(2)如何衡量表示的相似。針對(duì)第一個(gè)問(wèn)題,大部分單詞分布式表示方法遵從分布式假設(shè),即出現(xiàn)在相同上下文中的單詞往往具有相似的語(yǔ)義。在分布式假設(shè)的基礎(chǔ)上,這些方法側(cè)重于還原單詞之間的共現(xiàn)關(guān)系,即為頻繁出現(xiàn)在相同上下文中的詞語(yǔ)之間賦予較高的表示相似度。針對(duì)第二個(gè)問(wèn)題,根據(jù)下游應(yīng)用場(chǎng)景的不同,可以根據(jù)表示向量的余弦相似度、L2范數(shù)距離等方式衡量表示向量的相似性。4.3.1單詞分布式表示--基于共現(xiàn)矩陣奇異值分解的詞向量模型35在分布式假設(shè)下,希望單詞之間的相似度體現(xiàn)為兩個(gè)詞出現(xiàn)在相同上下文的頻率。可以采用針對(duì)共現(xiàn)矩陣(Co-occurrenceMatrix)的矩陣分解方法。隱式語(yǔ)義分析(LatentSemanticAnalysis,LSA)模型采用奇異值分解方法(SingularValueDecomposition,SVD),將單詞文檔共現(xiàn)矩陣(Term-DocumentCo-occurrenceMatrix)或單詞上下文共現(xiàn)矩陣(WindowbasedCo-OccurrenceMatrix)轉(zhuǎn)換為單詞向量表示。共現(xiàn)矩陣A∈R|V|×|V|,Aij

表示詞表V中下標(biāo)為i和j的單詞出現(xiàn)在相同上下文中的次數(shù)。W∈R|V|*d

矩陣就是單詞的低維稠密表示4.3.1單詞分布式表示--基于上下文單詞預(yù)測(cè)詞向量模型36文獻(xiàn)[178]中提出了大幅度簡(jiǎn)化以往的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NeuralProbabilisticLanguageModel,NPLM)的Word2vec

方法,去除了非線性隱藏層,使用自監(jiān)督的方式從大量無(wú)監(jiān)督文本訓(xùn)練詞表示模型構(gòu)建了兩個(gè)非常簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu):連續(xù)詞袋模型(ContinuousBagOfWords,CBOW)和跳字模型(Skip-Gram,SG)CBOWSkip-Gram4.3.1單詞分布式表示--基于上下文單詞預(yù)測(cè)詞向量模型37Skip-Gram模型以負(fù)對(duì)數(shù)概率形式的損失函數(shù)作為優(yōu)化目標(biāo),形式化表示為:Skip-Gram包括U∈R|V|×d和V∈R|V|×d兩個(gè)詞嵌入矩陣,分別表示詞表中每個(gè)單詞作為上下文詞和中心詞時(shí)的詞向量。Skip-Gram模型通過(guò)上下文詞和中心詞向量的相似度估計(jì)上下文詞的出現(xiàn)概率,具體公式如下所示:在優(yōu)化上述目標(biāo)函數(shù)后,Skip-Gram模型通常采用訓(xùn)練好的中心詞表示作為最終的詞表示4.3.1單詞分布式表示--基于上下文單詞預(yù)測(cè)詞向量模型38CBoW模型則假設(shè)文本中的詞可以通過(guò)其在文本中的上下文詞推導(dǎo)出來(lái)。CBoW模型也是以負(fù)對(duì)數(shù)概率形式的損失函數(shù)作為優(yōu)化目標(biāo):用U∈R|V|×d

表示中心詞詞向量矩陣,V∈R|V|×d

表示上下文詞向量vo

是平均的上下文詞向量,用于計(jì)算和中心詞的相似度;uc

是wc

用作中心詞的表示,ui是詞表中每個(gè)詞用作中心詞的表示。4.3.1單詞分布式表示--基于上下文單詞預(yù)測(cè)詞向量模型39在實(shí)際應(yīng)用中,由于詞表內(nèi)通常包含數(shù)萬(wàn)甚至數(shù)十萬(wàn)單詞,Skip-Gram和CBoW模型在基于Softmax計(jì)算上下文詞和中心詞的出現(xiàn)概率進(jìn)行梯度更新時(shí),會(huì)產(chǎn)生非常大規(guī)模的計(jì)算開銷。因此,通常使用負(fù)采樣或者層次Softmax的方法降低計(jì)算開銷。負(fù)采樣(NegativeSampling)將目標(biāo)函數(shù)中全體詞表范圍的相似度計(jì)算修正為目標(biāo)詞和K個(gè)負(fù)例的相似度計(jì)算,其中K是遠(yuǎn)小于詞表大小的超參數(shù)。通過(guò)這種方式,使得訓(xùn)練的計(jì)算開銷與詞表大小無(wú)關(guān),而只與超參數(shù)K相關(guān)。4.3.1單詞分布式表示--基于上下文單詞預(yù)測(cè)詞向量模型40層次softmax將詞表組織成二叉樹結(jié)構(gòu),樹的每個(gè)葉子節(jié)點(diǎn)代表詞表中的一個(gè)詞語(yǔ)對(duì)于詞表中的詞w,用L(w)表示從樹的根節(jié)點(diǎn)到詞w對(duì)應(yīng)的葉子節(jié)點(diǎn)的路徑,其中包括從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的父節(jié)點(diǎn)的全部非終節(jié)點(diǎn),但不包括葉子節(jié)點(diǎn)本身。4.3.1單詞分布式表示--全局向量(GloVe)模型41Sikp-Gram和CBOW模型根據(jù)局部信息進(jìn)行學(xué)習(xí),而LSA模型則基于詞共現(xiàn)矩陣全局信息得到詞語(yǔ)表示,全局統(tǒng)計(jì)信息和局部信息都對(duì)詞表示學(xué)習(xí)提供有效信息。全局向量(GlobalVectorsforWordRepresentation,GloVe)模型則結(jié)合了上述模型的思想,從共現(xiàn)概率的角度分析并改進(jìn)了Skip-Gram模型,即使用文本中局部的上下文信息,又對(duì)語(yǔ)料庫(kù)的全局共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)加以利用。GloVe模型基于上下文窗口共現(xiàn)矩陣的統(tǒng)計(jì),即對(duì)語(yǔ)料庫(kù)中特定中心詞-上下文詞對(duì)的出現(xiàn)次數(shù)的統(tǒng)計(jì)。在算法4.1所述的共現(xiàn)計(jì)數(shù)方法基礎(chǔ)上,GloVe模型中的共現(xiàn)矩陣進(jìn)一步地考慮了中心詞和上下文詞之間的距離,使相距更近的中心詞-上下文詞對(duì)于共現(xiàn)次數(shù)起到更大的貢獻(xiàn)。使用d(wi,wj)表示單詞wi,wj之間的距離。GloVe模型中的共現(xiàn)矩陣將詞與詞之間的共現(xiàn)次數(shù)按共現(xiàn)距離的倒數(shù)進(jìn)行加權(quán)由共現(xiàn)矩陣可以得到單詞wj

出現(xiàn)在單詞wi

上下文的共現(xiàn)概率為4.3.1單詞分布式表示--全局向量(GloVe)模型42GloVe模型的損失函數(shù)形式與上節(jié)介紹的Skip-Gram模型相似,同樣以還原共現(xiàn)頻率pij為目標(biāo),并在其基礎(chǔ)上進(jìn)行改進(jìn)

GloVe模型用平方損失代替Skip-Gram模型中的交叉熵?fù)p失,并使用變量代替原來(lái)的概率分布。

GloVe模型使用hij=h(Cij)作為每個(gè)損失項(xiàng)的權(quán)重,建模單詞wi

與wj

的相關(guān)度。最終損失函數(shù):4.3.1單詞分布式表示--基于字節(jié)對(duì)編碼的子詞表示模型43本章前幾節(jié)所介紹的詞表示模型都依賴預(yù)先確定的詞表V,在編碼輸入詞序列時(shí),這些詞表示模型只能處理詞表中存在的詞。如果遇到不在詞表中的未登錄詞,模型無(wú)法為其生成對(duì)應(yīng)的表示,只能給予這些未登錄詞一個(gè)默認(rèn)的通用表示。通常的處理方式是,詞表示模型會(huì)預(yù)先在詞表中加入一個(gè)默認(rèn)的“[UNK]”(unknown)標(biāo)識(shí),表示未知詞一種直接的解決思路是為輸入建立字符級(jí)別表示,并通過(guò)字符向量的組合來(lái)獲得每個(gè)單詞的表示。然而,單詞中的詞根、詞綴等構(gòu)詞模式往往跨越多個(gè)字符,基于字符表示的方法很難學(xué)習(xí)跨度較大的模式。4.3.1單詞分布式表示--基于字節(jié)對(duì)編碼的子詞表示模型44子詞表示模型提出了子詞(Subword)的概念,子詞表示模型會(huì)維護(hù)一個(gè)子詞詞表,其中既存在完整的單詞,也存在形如“c”,“re”,“ing”等單詞部分信息,稱為子詞。對(duì)于輸入的詞序列,子詞表示模型將每個(gè)詞拆分為詞表內(nèi)的子詞。例如,將單詞“reborn”拆分為“re”和“born”模型隨后查詢每個(gè)子詞的表示,將輸入重新組成為子詞表示序列。字節(jié)對(duì)編碼模型(BytePairEncoding,BPE)是一種常見的子詞表示模型。該模型所采用的詞表包含最常見的單詞以及高頻出現(xiàn)的子詞。在使用中,常見詞通常本身位于BPE詞表中,而罕見詞通常能被分解為若干個(gè)包含在BPE詞表中的子詞,從而大幅度降低未登錄詞的比例。4.3.1單詞分布式表示--基于字節(jié)對(duì)編碼的子詞表示模型45圖4.7

BPE模型中子詞詞表的計(jì)算過(guò)程4.3.1單詞分布式表示--基于字節(jié)對(duì)編碼的子詞表示模型46例如,對(duì)于單詞``lowest</w>'',首先通過(guò)匹配子詞``est</w>''將其切分為``low'',``est</w>''的序列,再通過(guò)匹配子詞``low'',確定其最終切分結(jié)果為``low'',``est</w>''的序列。通過(guò)這樣的過(guò)程,BPE盡量將詞序列中的詞切分成已知的子詞。對(duì)于使用了子詞表示模型的自然語(yǔ)言處理系統(tǒng),比如機(jī)器翻譯系統(tǒng),其輸出序列也是子詞序列。對(duì)于原始輸出,根據(jù)終結(jié)符</w>的位置確定每個(gè)單詞的范圍,合并范圍內(nèi)的子詞,將輸出重新組合為詞序列,作為最終的結(jié)果。4.3.1單詞分布式表示--單詞分布式表示的評(píng)價(jià)與應(yīng)用47單詞分布式表示模型的定量評(píng)估方法主要分為內(nèi)部評(píng)價(jià)(IntrinsicEvaluation)和外部評(píng)價(jià)(ExtrinsicEvaluation)兩種方法。內(nèi)部評(píng)價(jià)方法通常基于一個(gè)特殊設(shè)計(jì)的輔助任務(wù),這個(gè)輔助任務(wù)探測(cè)詞向量應(yīng)該具有的某種性質(zhì),如詞義相關(guān)性、類比性等,并最終返回一個(gè)分?jǐn)?shù),來(lái)表示詞向量的好壞,從而幫助我們理解詞向量模型的特點(diǎn)。外部評(píng)方法通?;谝粋€(gè)實(shí)際應(yīng)用任務(wù),通過(guò)將詞向量作為該任務(wù)的輸入表示,比較不同詞向量模型在該任務(wù)上的性能,來(lái)選擇適合于該任務(wù)的詞向量模型。4.3.1單詞分布式表示--單詞分布式表示的評(píng)價(jià)與應(yīng)用48詞義相關(guān)性任務(wù)通過(guò)探索詞向量對(duì)詞義相關(guān)性的表達(dá)能力,來(lái)評(píng)價(jià)詞向量的質(zhì)量。對(duì)于單詞wi,wj及其詞向量vi,vj,簡(jiǎn)單地使用余弦相似度作為詞義相似性的度量:通過(guò)直接將詞義相似度作為目標(biāo),可以定量衡量詞向量模型的性能。4.3.1單詞分布式表示--單詞分布式表示的評(píng)價(jià)與應(yīng)用49類比性任務(wù)回答:wa

之于wb,相當(dāng)于wc

之于?

在由(man,woman)詞對(duì)確定的類比關(guān)系下,可以為單詞son檢索類比詞daughter,它們滿足man之于woman,相當(dāng)于son之于daughter的類比關(guān)系。4.3.2句子分布式表示50句子分布式表示主要用于句子級(jí)別的任務(wù),如情感分析、文本推理、語(yǔ)義匹配等。對(duì)于句子級(jí)別表示的構(gòu)建,不但要考慮句子中所包含單詞的語(yǔ)義,也要考慮句子內(nèi)部詞之間的關(guān)系,即詞的共現(xiàn)信息和句子語(yǔ)義之間的聯(lián)系。還要考慮句子和句子之間隱含的語(yǔ)義相似性,以及其他的語(yǔ)義關(guān)系。這些性質(zhì)對(duì)于句子級(jí)別的下游應(yīng)用任務(wù)都很重要。4.3.2句子分布式表示--Skip-Thought句子表示模型51圖4.8Skip-Thought模型結(jié)構(gòu)圖Skip-Thought模型的目的主要是建模句子與句子之間的上下文語(yǔ)義關(guān)系,從而構(gòu)建句子表示模型。Skip-Thought模型借鑒了Skip-Gram模型的思想,認(rèn)為可以基于一個(gè)句子預(yù)測(cè)出其上下文的句子,并以此作為監(jiān)督信號(hào),學(xué)習(xí)句子之間的語(yǔ)義關(guān)系,得到句子表示模型。4.3.2句子分布式表示--Skip-Thought句子表示模型52在編碼器方面,Skip-Thought模型使用一個(gè)GRU網(wǎng)絡(luò)編碼輸入解碼器的結(jié)構(gòu)對(duì)GRU進(jìn)行了部分修改,取編碼器在最后一個(gè)時(shí)刻的輸出hiN

作為輸入句子的表示ht,加入到網(wǎng)絡(luò)輸入中其中,修改的GRU單元接受三項(xiàng)輸入:上一時(shí)刻的輸出狀態(tài)ht-1;上一時(shí)刻輸出的單詞對(duì)應(yīng)的詞表示yt-1;輸入句子si的表示向量hi4.3.2句子分布式表示--Sent2Vec句子表示模型53Sent2Vec模型將句子中所有單詞和所有n元語(yǔ)法單元的表示向量均值作為句子的表示Sent2Vec的訓(xùn)練目標(biāo)和CBoW類似,通過(guò)優(yōu)化中心詞和上下文的相似性量度對(duì)文本向量進(jìn)行自監(jiān)督訓(xùn)練。具體而言,模型最大化中心詞表示和除去該詞后其余上下文表示的相似度。同時(shí),Sent2Vec也采用了負(fù)采樣的技術(shù),以降低計(jì)算成本。采用下采樣(Subsampling)的方式使模型對(duì)單詞詞頻脫敏。對(duì)于每個(gè)形如(w,s)的訓(xùn)練樣本,以1?qp(w)的概率丟棄這個(gè)樣本4.3.3篇章分布式表示54在自然語(yǔ)言處理和信息檢索領(lǐng)域,部分任務(wù)會(huì)要求模型學(xué)習(xí)并表示文檔級(jí)別的特征,如文檔檢索、文檔去重、文檔級(jí)情感分析、主題識(shí)別等任務(wù)。相對(duì)一般的自然語(yǔ)言處理任務(wù),這類任務(wù)不需要模型精確地捕獲細(xì)粒度的詞句信息,但需要模型建模文檔的主題、包含的關(guān)鍵詞等信息。4.3.3篇章分布式表示--詞頻-逆文檔頻率篇章表示方法55詞頻-逆文檔頻率(TF-IDF)用來(lái)評(píng)估在特定文檔中詞的重要程度,其基本假設(shè)是文檔中詞重要程度隨其在文檔中出現(xiàn)的頻率增加,同時(shí)也會(huì)隨其在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率而下降。如果一個(gè)詞在特定文檔的出現(xiàn)頻率高,則說(shuō)明這個(gè)詞與該文檔的主題具有比較強(qiáng)的相關(guān)關(guān)系,因此該詞相對(duì)于該文檔的重要性應(yīng)該較高但是,如果一個(gè)詞語(yǔ)在整個(gè)文檔集合很多文檔上都出現(xiàn)了,那么說(shuō)明該詞是常見詞語(yǔ),其區(qū)分性不好,因此其重要程度應(yīng)該較低4.3.3篇章分布式表示--fastText篇章表示模型56fastText模型旨在高效訓(xùn)練文本表示模型,采用字符n-gram特征直接使用子詞向量的和作為對(duì)應(yīng)單詞的詞向量:4.3.3篇章分布式表示--fastText篇章表示模型57在將fastText句向量應(yīng)用于文本分類任務(wù)時(shí),通常以對(duì)數(shù)概率作為優(yōu)化目標(biāo):fastText通常使用Skip-Gram模型的訓(xùn)練方式得到預(yù)訓(xùn)練的詞級(jí)別表示4.4.1基于目標(biāo)詞上下文的詞義消歧方法4.4.2基于詞義釋義匹配的詞義消歧方法4.4.3基于詞義知識(shí)增強(qiáng)預(yù)訓(xùn)練的消歧方法4.4.4詞義消歧評(píng)價(jià)方法4.4.5詞義消歧語(yǔ)料庫(kù)語(yǔ)義學(xué)概述4.1語(yǔ)義表示4.2分布式表示4.3目錄Contents58詞義消歧4.4語(yǔ)義角色標(biāo)注4.54.4詞義消歧59詞義消歧(WordSenseDisambiguation,WSD)是指確定一個(gè)多義詞在給定的上下文中的具體含義。根據(jù)本章第4.1.1節(jié)詞匯語(yǔ)義學(xué)相關(guān)介紹,我們可以知道語(yǔ)言中一詞多義現(xiàn)象十分普遍。例如:水分既可以表示物體內(nèi)所含的水,也可以表示某些情況中夾雜的不真實(shí)的成分,可以使用水分1和水分2分別表示兩個(gè)含義(1)葡萄糖液可用來(lái)供給水分。單詞義項(xiàng):水分1(2)這個(gè)報(bào)導(dǎo)有些水分,需要核實(shí)。單詞義項(xiàng):水分2詞義消歧任務(wù)核心就是根據(jù)詞語(yǔ)所處的句子或者篇章,確定該詞在當(dāng)前環(huán)境下的確切含義。4.4.1基于目標(biāo)詞上下文的詞義消歧方法60對(duì)于待消歧的目標(biāo)詞,詞義消歧方法通常采用有監(jiān)督分類方法,將詞語(yǔ)的每個(gè)詞義項(xiàng)作為候選詞義,通過(guò)估計(jì)待消歧詞義的概率分布從而完成目標(biāo)詞的詞義消歧?;谀繕?biāo)詞上下文的詞義消歧方法利用待消歧目標(biāo)詞的上下文進(jìn)行訓(xùn)練,預(yù)測(cè)上下文中目標(biāo)詞屬于每個(gè)候選詞義的條件概率。自然語(yǔ)言處理中常用的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)算法,均可用于構(gòu)建基于目標(biāo)詞上下文的詞義消歧方法。4.4.1基于目標(biāo)詞上下文的詞義消歧方法--基于樸素貝葉斯分類器的消歧方法61使用w表示待消歧的目標(biāo)詞,c表示目標(biāo)詞所處的句子,{si}Ni=1

為目標(biāo)詞的候選詞義集合通過(guò)估計(jì)條件概率P(si|c)來(lái)預(yù)測(cè)目標(biāo)詞w的詞義4.4.1基于目標(biāo)詞上下文的詞義消歧方法--基于樸素貝葉斯分類器的消歧方法62P(si)和P(wk|si)可以通過(guò)訓(xùn)練語(yǔ)料利用最大似然估計(jì)得到:COUNT(wk,si)是訓(xùn)練語(yǔ)料中目標(biāo)詞w以語(yǔ)義si在上下文中出現(xiàn)的次數(shù)COUNT(si)是訓(xùn)練語(yǔ)料中語(yǔ)義si出現(xiàn)的總次數(shù)COUNT(w)是訓(xùn)練語(yǔ)料中目標(biāo)詞w出現(xiàn)的總次數(shù)4.4.1基于目標(biāo)詞上下文的詞義消歧方法--基于上下文向量表示的消歧方法63深度神經(jīng)網(wǎng)絡(luò)算法可以很好地對(duì)句子和短語(yǔ)的語(yǔ)義進(jìn)行表示。因此,也可以利用目標(biāo)詞上下文的分布式表示,建模目標(biāo)詞上下文語(yǔ)義,并基于上下文向量表示構(gòu)建詞義消歧算法?;谏舷挛南蛄勘硎镜淖罱彿椒▽⒃~義消歧任務(wù)形式化為詞義表示和上下文表示的相似度學(xué)習(xí)問(wèn)題。圖4.10基于上下文向量表示的最近鄰模型結(jié)構(gòu)圖4.4.1基于目標(biāo)詞上下文的詞義消歧方法--基于上下文向量表示的消歧方法64在詞義編碼部分,首先考慮在詞義消歧語(yǔ)料庫(kù)中存在標(biāo)注的語(yǔ)義。對(duì)于每一個(gè)標(biāo)注詞義,在訓(xùn)練集中抽取全體包含該詞義標(biāo)注的樣本。隨后,通過(guò)預(yù)訓(xùn)練上下文表示模型,計(jì)算詞義對(duì)應(yīng)的目標(biāo)詞在樣本上下文中的表示。最后,以目標(biāo)詞表示的平均值作為詞義的表示。C(s)為全體標(biāo)記詞義為s的樣本集合,Encoder代表使用預(yù)訓(xùn)練語(yǔ)言模型初始化的編碼器,如ELMo、BERT等。4.4.1基于目標(biāo)詞上下文的詞義消歧方法--基于上下文向量表示的消歧方法65針對(duì)未在詞義消歧語(yǔ)料庫(kù)中出現(xiàn)的詞義,可以采用方法,利用WordNet中標(biāo)注的同義詞、上位詞和詞性標(biāo)注(Lexname)等語(yǔ)義關(guān)系信息,尋找與目標(biāo)詞義相似或相關(guān)的詞義,再以這些詞義表示的平均值作為該詞義的表示。以同義詞關(guān)系為例,對(duì)于待確定表示的詞義s,記S(s)為s的同義語(yǔ)義集合。若S(s)不是空集,s的語(yǔ)義表示為S(s)中同義語(yǔ)義的平均表示:4.4.1基于目標(biāo)詞上下文的詞義消歧方法--基于上下文向量表示的消歧方法66當(dāng)同義語(yǔ)義缺失時(shí),可依次使用相同上位的語(yǔ)義或相同詞性的語(yǔ)義作為近義語(yǔ)義集合,利用相似的方式計(jì)算目標(biāo)語(yǔ)義的表示,具體計(jì)算公式如下所示:在構(gòu)建了所有詞義的向量表示后,對(duì)于每一條輸入的待進(jìn)行詞義消歧的樣本,首先基于語(yǔ)言模型計(jì)算目標(biāo)詞的上下文表示,在此基礎(chǔ)上,計(jì)算上下文表示與全體候選詞義表示的點(diǎn)積相似度,選擇相似度最大的語(yǔ)義做為分類結(jié)果,具體計(jì)算公式如下所示:4.4.3基于詞義釋義匹配的詞義消歧方法67以知網(wǎng)(HowNet)、WordNet等為代表的詞匯知識(shí)資源中不僅包含了詞義之間的關(guān)系,還包含了詞義的解釋信息。例如:WordNet3.1中對(duì)“table”給出了如下詞義解釋:

table1:asetofdataarrangedinrowsandcolumns

table2:apieceoffurniturehavingasmoothflattopthatisusuallysupportedbyoneormore

verticallegs

table3:apieceoffurniturewithtablewareforameallaidoutonit

table4:flattablelandwithsteepedges

table5:acompanyofpeopleassembledatatableforamealorgame

table6:foodormealsingeneral這些釋義與目標(biāo)詞上下文之間存在著非常強(qiáng)的聯(lián)系。比如table1所對(duì)應(yīng)的“表格”含義,其上下文更多的對(duì)應(yīng)的設(shè)計(jì)、制作、數(shù)據(jù)等詞匯。而table2所對(duì)應(yīng)的“桌子”含義,其上下文更多的對(duì)應(yīng)的椅子、沙發(fā)等詞匯。因此,也可以將詞義消歧問(wèn)題轉(zhuǎn)化為目標(biāo)詞上下文和詞義釋義之間的語(yǔ)義匹配問(wèn)題。4.4.2基于詞義釋義匹配的詞義消歧方法--基于特征式匹配的消歧方法68BEM模型通過(guò)分布式向量表示匹配方式學(xué)習(xí)目標(biāo)詞上下文和詞義釋義的相關(guān)性。圖4.11BEM模型結(jié)構(gòu)圖主要包含上下文編碼器和詞義編碼器兩個(gè)組成部分。上下文編碼器Tc對(duì)輸入的目標(biāo)詞及其上下文進(jìn)行編碼,計(jì)算目標(biāo)詞上下文的分布式表示。詞義編碼器Tg對(duì)輸入的詞義釋義文本進(jìn)行編碼,將輸入詞義和上下文表示在同一表示空間內(nèi)。通過(guò)建立上下文語(yǔ)義表示和候選詞義表示的相似度計(jì)算模型,來(lái)完成詞義消歧任務(wù)。4.4.2基于詞義釋義匹配的詞義消歧方法--基于特征式匹配的消歧方法69BEM模型結(jié)構(gòu)的上下文編碼器Tc

和詞義編碼器Tg

都采用基于BERT的架構(gòu)。針對(duì)目標(biāo)詞上下文表示的計(jì)算vw

是目標(biāo)詞w在句子中的上下文表示候選詞義s的詞義釋義為gs=g0,g1,...,gm,在詞義釋義序列的首尾分別添加[CLS]及[SEP]標(biāo)識(shí),輸入詞義編碼器Tg,取[CLS]位置的輸出作為詞義的表示。對(duì)于上下文c中待消歧的目標(biāo)詞w,以及候選詞義s,它們的相似度由如下公式計(jì)算得到:在模型訓(xùn)練過(guò)程中,對(duì)于待消歧的目標(biāo)詞w,取該目標(biāo)詞在句子中的表示與全體候選詞義的表示進(jìn)行相似度計(jì)算,以相似度作為預(yù)測(cè)詞義的對(duì)數(shù)概率分布,優(yōu)化交叉熵?fù)p失函數(shù),具體計(jì)算公式如下:4.4.2基于詞義釋義匹配的詞義消歧方法--基于交互式匹配的消歧方法70GlossBERT使用交互式匹配方法,通過(guò)對(duì)預(yù)訓(xùn)練模型BERT進(jìn)行微調(diào),實(shí)現(xiàn)上下文和詞義釋義的相似度計(jì)算。交互式匹配的優(yōu)點(diǎn)是只使用一個(gè)編碼器進(jìn)行匹配任務(wù),大大減小了訓(xùn)練參數(shù)的規(guī)模。此外,交互式匹配可以充分利用詞粒度的信息,參考輸入的一對(duì)文本中的每個(gè)單詞,進(jìn)行充分的比較,從而實(shí)現(xiàn)更好的學(xué)習(xí)效果。GlossBERT以BERT雙句分類的方式,將目標(biāo)詞所處的上下文句子和詞義釋義組合為輸入,以是否匹配作為二分類標(biāo)簽,構(gòu)造分類模型的微調(diào)樣本,通過(guò)這些樣本進(jìn)行模型的微調(diào)。模型通過(guò)微調(diào)后,對(duì)于待消歧的目標(biāo)詞和候選詞義,將目標(biāo)詞上下文和每一個(gè)候選詞義組合成輸入,通過(guò)模型計(jì)算語(yǔ)義匹配的置信度,根據(jù)置信度選取預(yù)測(cè)詞義。4.4.2基于詞義釋義匹配的詞義消歧方法--基于交互式匹配的消歧方法71GlossBERT根據(jù)訓(xùn)練集中每個(gè)樣本的每個(gè)目標(biāo)詞所構(gòu)造的分類樣本,使用BERT編碼層在[CLS]位置的輸出作為分類判據(jù)4.4.3基于詞義知識(shí)增強(qiáng)預(yù)訓(xùn)練的消歧方法72基于預(yù)訓(xùn)練語(yǔ)言模型的方法在詞義消歧任務(wù)中取得了不錯(cuò)的結(jié)果,為了使得預(yù)訓(xùn)練語(yǔ)言模型更好地適應(yīng)詞義消歧任務(wù),可以通過(guò)設(shè)計(jì)詞義級(jí)別的預(yù)訓(xùn)練任務(wù),使得預(yù)訓(xùn)練模型融合知識(shí)庫(kù)中所包含詞義信息。然而,預(yù)訓(xùn)練模型需要大規(guī)模的有監(jiān)督數(shù)據(jù)才能對(duì)模型參數(shù)進(jìn)行有效訓(xùn)練。但是,目前缺乏標(biāo)注了詞義的大規(guī)模數(shù)據(jù)用于支持模型預(yù)訓(xùn)練。SenseBERT模型,針對(duì)缺失語(yǔ)義監(jiān)督數(shù)據(jù)問(wèn)題,在BERT的預(yù)訓(xùn)練中添加了一個(gè)掩碼詞義預(yù)測(cè)任務(wù)作為輔助任務(wù)。SenseBERT利用WordNet所包含的超義(Supersense)信息作為弱監(jiān)督信號(hào)。WordNet將所有義項(xiàng)歸納為多個(gè)類別,這些類型稱之為超義。例如,針對(duì)名詞有26個(gè)超義,包括:BODY、LOCATION、PLANT等。4.4.3基于詞義知識(shí)增強(qiáng)預(yù)訓(xùn)練的消歧方法73圖4.13SenseBERT模型結(jié)構(gòu)圖在預(yù)訓(xùn)練任務(wù)方面,SenseBERT包括掩碼單詞預(yù)測(cè)和掩碼語(yǔ)義預(yù)測(cè)兩個(gè)任務(wù)。通過(guò)與詞嵌入、語(yǔ)義嵌入矩陣的比較,模型計(jì)算每一個(gè)掩碼位置的單詞預(yù)測(cè)分布和語(yǔ)義預(yù)測(cè)分布,并將其與實(shí)際標(biāo)簽比對(duì)。4.4.4詞義消歧評(píng)價(jià)方法744.4.5詞義消歧語(yǔ)料庫(kù)75詞義消歧義項(xiàng)分類標(biāo)注語(yǔ)料庫(kù)SemCor是基于WordNet詞義進(jìn)行標(biāo)注的語(yǔ)料庫(kù)。SemCor3.0版本包含352個(gè)文檔和22萬(wàn)余條手動(dòng)語(yǔ)義注釋,其原始語(yǔ)料從布朗(Brown)語(yǔ)料庫(kù)獲取,經(jīng)過(guò)篩選后,參考WordNet1.4的詞義清單進(jìn)行詞義標(biāo)記OMSTI(OneMillionSense-TaggedInstances)是自動(dòng)標(biāo)注的語(yǔ)料庫(kù),也常用于詞義消歧系統(tǒng)的訓(xùn)練。OMSTI使用WordNet3.0的詞義進(jìn)行注釋,它是通過(guò)在大型英漢平行語(yǔ)料庫(kù)(MultiUN語(yǔ)料庫(kù))上使用基于對(duì)齊的詞義消歧方法自動(dòng)構(gòu)建的。WSDEvaL是統(tǒng)一詞義消歧基準(zhǔn)評(píng)測(cè)框架,將不同時(shí)期構(gòu)建的采用不同詞義注釋構(gòu)建的評(píng)測(cè)基準(zhǔn)語(yǔ)料統(tǒng)一使用WordNet3.0詞義進(jìn)行注釋。4.4.5詞義消歧語(yǔ)料庫(kù)76詞義消歧義項(xiàng)相同判斷標(biāo)注語(yǔ)料庫(kù)WiC(WordinContext)數(shù)據(jù)集是一個(gè)由專家標(biāo)注的詞義消歧數(shù)據(jù)集,每個(gè)樣本對(duì)同一個(gè)目標(biāo)詞給出兩個(gè)包含該詞語(yǔ)的句子,并依據(jù)在兩個(gè)句子中目標(biāo)詞的詞義是否相同,給出T或F的分類標(biāo)簽。WiC-TSV(WordinContext-TargetSenseVerification)對(duì)WiC的語(yǔ)料篩選和任務(wù)形式進(jìn)行了改進(jìn),形成了新的跨越多個(gè)領(lǐng)域的詞義消歧評(píng)測(cè)基準(zhǔn)。WiC-TSV中的每個(gè)樣本僅包含一個(gè)句子,其中標(biāo)出待消歧的目標(biāo)詞。4.5.1基于成分句法樹的語(yǔ)義角色標(biāo)注方法4.5.2基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)義角色標(biāo)注4.5.3語(yǔ)義角色標(biāo)注評(píng)價(jià)方法4.5.4語(yǔ)義角色標(biāo)注語(yǔ)料庫(kù)語(yǔ)義學(xué)概述4.1語(yǔ)義表示4.2分布式表示4.3目錄Contents77詞義消歧4.4語(yǔ)義角色標(biāo)注4.54.5語(yǔ)義角色標(biāo)注78語(yǔ)義角色標(biāo)注(SemanticRoleLabeling,SRL)是一種淺層語(yǔ)義分析技術(shù),目標(biāo)是分析句子的謂詞-論元結(jié)構(gòu),揭示句子中概念范疇之間的語(yǔ)義關(guān)系。語(yǔ)義角色標(biāo)注的主要語(yǔ)言學(xué)理論來(lái)源于題元理論(ThematicTheory)、格語(yǔ)法(CaseGrammar)以及配價(jià)理論(ValencyTheory)等句子語(yǔ)義理論等。題元理論認(rèn)為句子以謂語(yǔ)為中心,謂語(yǔ)決定了句子的基本結(jié)構(gòu)。論元(Argument)是謂語(yǔ)所涉及的對(duì)象,擔(dān)任了施事、客體、受事、地點(diǎn)或命題等不同的題元角色。語(yǔ)義角色標(biāo)注任務(wù)核心是識(shí)別句子中謂語(yǔ)的論元,并確定論元的題元角色。例如:[中國(guó)成飛公司]A0[正在]AM?TMP[制造]V[民用飛機(jī)]A1?!爸圃臁睘橹^詞(V),代表了一個(gè)事件的核心行為;“中國(guó)成飛公司”和“民用飛機(jī)”為動(dòng)作的施事者(A0)和受事者(A1)4.5語(yǔ)義角色標(biāo)注79語(yǔ)義角色標(biāo)注算法雖然有很多類型,但是其基本基本流程都主要由論元識(shí)別和論元分類組成?;诰浞ǚ治龅恼Z(yǔ)義角色標(biāo)注算法還需要先對(duì)句子進(jìn)行句法分析。論元識(shí)別的目標(biāo)是從句子識(shí)別所有由連續(xù)幾個(gè)單詞組成的論元。由于如果將句子中所有的連續(xù)單詞片段都作為論元候選,其數(shù)量會(huì)過(guò)于龐大,因此早期的方法在進(jìn)行論元識(shí)別前,通常還會(huì)引入基于規(guī)則的候選論元過(guò)濾方法,利用句法分析結(jié)果構(gòu)造啟發(fā)式規(guī)則對(duì)候選項(xiàng)進(jìn)行大幅度刪減論元分類則是對(duì)論元和謂詞之間的關(guān)系類型進(jìn)行分類。論元識(shí)別和論元分類通常采用有監(jiān)督機(jī)器學(xué)習(xí)算法,將上述任務(wù)轉(zhuǎn)換為分類問(wèn)題。兩個(gè)任務(wù)之間可以采用流水線結(jié)構(gòu),也可以采用聯(lián)合學(xué)習(xí)的方法。4.5.1基于句法樹的語(yǔ)義角色標(biāo)注方法--基于成分句法樹的語(yǔ)義角色標(biāo)注方法80句法結(jié)構(gòu)主要有成分結(jié)構(gòu)和依存結(jié)構(gòu)兩大類。因此,依賴句法結(jié)構(gòu)的語(yǔ)義角色標(biāo)注算法可以進(jìn)一步細(xì)分為:基于成分結(jié)構(gòu)的語(yǔ)義角色標(biāo)注(Span-BasedSRL)和基于依存形式的語(yǔ)義角色標(biāo)注(Dependency-BasedSRL)在基于成分結(jié)構(gòu)的語(yǔ)義角色標(biāo)注中,模型基于句子的成分句法分析結(jié)果,對(duì)句中論元短語(yǔ)對(duì)應(yīng)的跨度進(jìn)行語(yǔ)義成分標(biāo)注。4.5.1基于句法樹的語(yǔ)義角色標(biāo)注方法--基于成分句法樹的語(yǔ)義角色標(biāo)注方法81從成分句法樹的謂詞節(jié)點(diǎn)開始,考察該節(jié)點(diǎn)的每個(gè)兄弟節(jié)點(diǎn);如果兄弟節(jié)點(diǎn)和該節(jié)點(diǎn)在句法結(jié)構(gòu)上不是并列關(guān)系,則將兄弟節(jié)點(diǎn)加入候選論元集合;如果兄弟節(jié)點(diǎn)是介詞短語(yǔ)(PP),則將兄弟節(jié)點(diǎn)的全體子節(jié)點(diǎn)加入候選論元集合。依次對(duì)謂詞節(jié)點(diǎn)的父節(jié)點(diǎn)等每個(gè)祖先節(jié)點(diǎn)執(zhí)行上述過(guò)程,直至到達(dá)根節(jié)點(diǎn)為止。4.5.1基于句法樹的語(yǔ)義角色標(biāo)注方法--基于成分句法樹的語(yǔ)義角色標(biāo)注方法82在上述篩選過(guò)程后,訓(xùn)練分類模型從候選論元集合中識(shí)別真正的論元,并標(biāo)注論元類型。在此過(guò)程中,通常需要為分類器構(gòu)造有效的特征,常用特征可以分為以下類別:謂詞及相關(guān)特征:謂詞,謂詞的語(yǔ)態(tài),或論元和謂詞出現(xiàn)的前后關(guān)系等。論元的詞特征:論元的中心詞及其詞性,以及頭尾單詞等?;诔煞志浞?biāo)注的特征:論元的成分類型,樹中論元到謂詞的路徑,成分的父親、兄弟節(jié)點(diǎn)類型等。在上述特征的基礎(chǔ)上,可以利用最大熵分類器、SVM、感知機(jī)等有監(jiān)督機(jī)器學(xué)習(xí)方法構(gòu)建語(yǔ)義角色標(biāo)注算法。4.5.1基于句法樹的語(yǔ)義角色標(biāo)注方法--基于依存關(guān)系樹的語(yǔ)義角色標(biāo)注方法83基于依存的語(yǔ)義角色標(biāo)注算法根據(jù)句子依存樹進(jìn)行語(yǔ)義角色標(biāo)注。4.5.1基于句法樹的語(yǔ)義角色標(biāo)注方法--基于依存關(guān)系樹的語(yǔ)義角色標(biāo)注方法84基于依存句法樹的語(yǔ)義角色標(biāo)注方法將上節(jié)所述的候選論元篩選過(guò)程遷移到依存句法樹上。首先,從謂詞節(jié)點(diǎn)開始,將當(dāng)前節(jié)點(diǎn)的全體子節(jié)點(diǎn)加入候選論元集合;然后將當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),重復(fù)上述過(guò)程,逐次考察謂詞節(jié)點(diǎn)的祖先節(jié)點(diǎn);至當(dāng)前節(jié)點(diǎn)作為句子的根節(jié)點(diǎn)為止。4.5.1基于句法樹的語(yǔ)義角色標(biāo)注方法--基于依存關(guān)系樹的語(yǔ)義角色標(biāo)注方法85針對(duì)后續(xù)的論元識(shí)別、論元分類階段,基于依存句法樹的語(yǔ)義角色標(biāo)注方法將其建模為判斷謂詞和論元中心詞之間語(yǔ)義關(guān)系的任務(wù),并建立分類模型來(lái)解決。在此過(guò)程中常用的分類特征包括以下幾類:謂詞及相關(guān)特征:謂詞,謂詞的詞根、詞義、詞性、語(yǔ)態(tài),或論元和謂詞出現(xiàn)的前后關(guān)系等論元的詞特征:論元的中心詞及其詞性,以及頭尾單詞等基于成分句法標(biāo)注的特征:樹中論元中心詞到謂詞的路徑,謂詞與其父節(jié)點(diǎn)的依存關(guān)系,以及其父節(jié)點(diǎn)的相關(guān)信息;謂詞與其子節(jié)點(diǎn)的依存關(guān)系;候選論元中心詞的子節(jié)點(diǎn)、兄弟節(jié)點(diǎn)相關(guān)信息等4.5.2基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)義角色標(biāo)注86基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)義角色標(biāo)注,可以用BIO標(biāo)注方案表示論元標(biāo)簽,從而可以直接利用通用的序列標(biāo)注模型來(lái)解決也可以以跨度標(biāo)注句子中的論元短語(yǔ)位置,采用基于跨度預(yù)測(cè)的方法。由于跨度預(yù)測(cè)模型顯式地建模了

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論