版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1第三章句法分析自然語(yǔ)言處理導(dǎo)論句法概述3.1成分句法分析3.2依存句法分析3.3目錄Contents2句法分析語(yǔ)料庫(kù)3.43.1.1成分語(yǔ)法理論概述3.1.2依存語(yǔ)法理論概述句法概述3.1成分句法分析3.2依存句法分析3.3目錄Contents3句法分析語(yǔ)料庫(kù)3.43.1什么是句法?4句法(Syntax)就是研究自然語(yǔ)言中不同成分組成句子的方式以及支配句子結(jié)構(gòu)并決定句子是否成立的規(guī)則。任何人類語(yǔ)言都具備構(gòu)造無(wú)限數(shù)量句子的能力可以通過(guò)增加形容詞、副詞、關(guān)系小句、介詞短語(yǔ)等方法把任意的句子進(jìn)一步地創(chuàng)造。無(wú)法將一種語(yǔ)言按照詞典的方式把所有句子存儲(chǔ)起來(lái)通過(guò)語(yǔ)言學(xué)研究發(fā)現(xiàn),句子并非詞語(yǔ)的隨意組合,而是由按照一定規(guī)則結(jié)合起來(lái)的離散單位組成3.1句法概述5句法是現(xiàn)代語(yǔ)言學(xué)研究中的重要課題,有大量的句法理論(SyntacticTheory)相關(guān)研究。語(yǔ)法(Grammar)就是指自然語(yǔ)言中句子、短語(yǔ)以及詞等語(yǔ)法單位的語(yǔ)法結(jié)構(gòu)與語(yǔ)法意義的規(guī)律。根據(jù)語(yǔ)法就可以判斷不同成分組成句子的方式以及決定句子是否成立。狹義的語(yǔ)法學(xué)研究基本等同于句法學(xué)。語(yǔ)言學(xué)家自19世紀(jì)50年代以來(lái),構(gòu)建了大量表達(dá)明確并且形式化的語(yǔ)法理論,對(duì)自然語(yǔ)言句法分析提供了理論支撐。語(yǔ)法理論在構(gòu)建時(shí),一個(gè)重要的問(wèn)題是該理論是基于成分關(guān)系還是基于依存關(guān)系。
3.1.1成分語(yǔ)法理論概述6NoamChomsky于1957年發(fā)表的《SyntacticStructures》奠定了成分語(yǔ)法的基礎(chǔ)成分(Constituent)又稱短語(yǔ)結(jié)構(gòu),是指一個(gè)句子內(nèi)部的結(jié)構(gòu)成分。成分可以獨(dú)立存在,或者可以用代詞替代,又或者可以在句子中的不同位置移動(dòng)。例如:他正在寫一本小說(shuō)。
“一本小說(shuō)”是一個(gè)成分3.1.1成分語(yǔ)法理論概述7根據(jù)不同成分之間是否可以進(jìn)行相互替代而不會(huì)影響句子語(yǔ)法正確性,可以進(jìn)一步地將成分進(jìn)行分類,某一類短語(yǔ)就屬于一個(gè)句法范疇(SyntacticCategory)。比如“一本小說(shuō)”、“一所大學(xué)”等都屬于一個(gè)句法范疇:名詞短語(yǔ)(NonePhrase,NP)。句法范疇不僅僅包含名詞短語(yǔ)(NP)、動(dòng)詞短語(yǔ)(VP)、介詞短語(yǔ)(PP)等短語(yǔ)范疇,也包含名詞(N)、動(dòng)詞(V)、形容詞(Adj)等詞匯范疇。除此之外還包含功能范疇(包括冠詞、助動(dòng)詞等)。3.1.1成分語(yǔ)法理論概述8句法范疇之間不是完全對(duì)等的,而是具有層級(jí)關(guān)系。例如:一個(gè)句子可以由一個(gè)名詞短語(yǔ)和一個(gè)動(dòng)詞短語(yǔ)組成,一個(gè)名詞短語(yǔ)可以由一個(gè)限定詞和一個(gè)名詞組成,一個(gè)動(dòng)詞短語(yǔ)又可以由一個(gè)動(dòng)詞和一個(gè)名詞短語(yǔ)組成。短語(yǔ)結(jié)構(gòu)規(guī)則(PhraseStructureRules)又稱改寫規(guī)則或重寫規(guī)則,對(duì)句法范疇間的關(guān)系進(jìn)行形式化描述。通??梢杂肵
YZW…
表示,其中X表示短語(yǔ)名稱,
表示改寫為,YZW…定義了短語(yǔ)X的結(jié)構(gòu),如果YZW是短語(yǔ),則還需要構(gòu)造出它們的規(guī)則。3.1.1成分語(yǔ)法理論概述9例如: (1)S?>NPVP
(2)NP?>DetN
(3)VP?>VNP成分語(yǔ)法就是由句法范疇以及短語(yǔ)結(jié)構(gòu)規(guī)則定義的語(yǔ)法。由于短語(yǔ)結(jié)構(gòu)規(guī)則具有遞歸性,可以使短語(yǔ)和句子無(wú)限循環(huán)組合。這也說(shuō)明了語(yǔ)言的創(chuàng)造性和無(wú)限性。3.1.1成分語(yǔ)法理論概述10由于成分語(yǔ)法局限于表層結(jié)構(gòu)分析,不能徹底解決句法和語(yǔ)義問(wèn)題,因此存在非連續(xù)成分、結(jié)構(gòu)歧義等問(wèn)題。3.1.2依存語(yǔ)法理論概述11LucienTesnière
1959年發(fā)表的《Elémentsdesyntaxestructurale》奠定了句法依存關(guān)系研究的基礎(chǔ)在基于依存關(guān)系的語(yǔ)法中,句子中的每個(gè)成分對(duì)應(yīng)句法結(jié)構(gòu)中的唯一一個(gè)節(jié)點(diǎn)。兩個(gè)成分之間的依存關(guān)系是二元的非對(duì)稱關(guān)系,具有方向性,一個(gè)成分是中心語(yǔ),另一個(gè)成分依附于中心語(yǔ)存在,關(guān)系從中心語(yǔ)成分指向依存成分。中心成分稱為中心詞或支配者(Governor,Regent,Head)依存成分也稱為修飾詞或從屬者(Modifier,Subordinate,Dependency)3.1.2依存語(yǔ)法理論概述12兩個(gè)單詞之間是否存在依存關(guān)系?單詞之間誰(shuí)處于支配地位?誰(shuí)處于從屬地位?建立這些詞與詞之間關(guān)系的依據(jù)是什么?配價(jià)(Valency)理論是其中最為經(jīng)典的論著之一,價(jià)是詞語(yǔ)的一個(gè)屬性,表示某個(gè)詞語(yǔ)與其他詞語(yǔ)結(jié)合的能力。配價(jià)模式(Valency
pattern)則是描述了某一個(gè)具有特定意義的詞的出現(xiàn)語(yǔ)境,以及當(dāng)一個(gè)詞出現(xiàn)在一個(gè)特定的模式下時(shí),還有哪些詞語(yǔ)會(huì)出現(xiàn)在這個(gè)模式下及其語(yǔ)義角色。3.1.2依存語(yǔ)法理論概述13詞語(yǔ)間的依存關(guān)系還可以根據(jù)語(yǔ)法關(guān)系定義為不同的類型,Carroll等人將依存關(guān)系細(xì)分為了20種,并給出了關(guān)系之間的層級(jí)結(jié)構(gòu)。Marneffe等人在上述工作的基礎(chǔ)上對(duì)依存關(guān)系進(jìn)行了進(jìn)一步的細(xì)化,定義了48種依存關(guān)系,主要分為論元依存關(guān)系和修飾語(yǔ)依存關(guān)系兩大類。3.1.2依存語(yǔ)法理論概述14依存語(yǔ)法中根據(jù)依存成分與中心語(yǔ)或姐妹成分在語(yǔ)序上的關(guān)系,可以分為符合投射性原則和違反投射性原則兩類。3.2.1基于上下文無(wú)關(guān)文法的成分句法分析3.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析3.2.3成分句法分析評(píng)價(jià)方法句法概述3.1成分句法分析3.2依存句法分析3.3目錄Contents15句法分析語(yǔ)料庫(kù)3.43.2成分句法分析16成分句法分析(ConstituencyParsing)是對(duì)給定句子根據(jù)成分語(yǔ)法中制定的規(guī)則構(gòu)建其所對(duì)應(yīng)的結(jié)構(gòu)樹的過(guò)程。通常可以用X
YZW…
表示,
與數(shù)學(xué)系統(tǒng)中的上下文無(wú)關(guān)文法(Context-
FreeGrammar,CFG)組成非常類似3.2成分句法分析17對(duì)一個(gè)句子進(jìn)行句法分析的過(guò)程可以看做對(duì)一個(gè)句子搜索所有可能的路徑空間,從中發(fā)現(xiàn)正確的句法樹的過(guò)程。搜索過(guò)程受到兩個(gè)約束限制,一個(gè)是句子本身,另外一個(gè)是語(yǔ)法。根據(jù)成分句法的定義,葉子節(jié)點(diǎn)一定是句子中的單詞,中間節(jié)點(diǎn)與其子節(jié)點(diǎn)需要符合語(yǔ)法定義。這兩種約束也產(chǎn)生了大多數(shù)分析算法所采用的搜索策略:自底向上(Bottom-up)和自頂向下(Top-down)。3.2成分句法分析18由于句法結(jié)構(gòu)具有歧義,因此句法分析中最重要的工作之一也是如何消除歧義。成分語(yǔ)法中的結(jié)構(gòu)歧義主要有兩種:附著歧義(Attachmentambiguity)以及并列連接歧義(Coordinationambiguity)附著歧義:Theboysawthemanwiththetelescope并列連接歧義:重要政策和措施3.2.1基于上下文無(wú)關(guān)文法的成分句法分析19在給定上下文無(wú)關(guān)文法G的情況下,對(duì)于給定的句子W={w1,w2,···,wn},輸出其對(duì)應(yīng)的句法結(jié)構(gòu),通常有兩大類搜索方法:自頂向下和自底向上。自頂向下搜索試圖從根節(jié)點(diǎn)S出發(fā),搜索語(yǔ)法中的所有規(guī)則直到葉子節(jié)點(diǎn),并行構(gòu)造所有可能的樹自底向上的方法是從輸入的單詞開始,每次都是用語(yǔ)法規(guī)則,直到成功構(gòu)造了以初始符S為根的樹3.2.1基于上下文無(wú)關(guān)文法的成分句法分析20CYK算法(CYK是Cocke–Younger–Kasami的縮寫,有時(shí)也稱為CKY)是由JohnCocke、DanielYounger以及TadaoKasami分別獨(dú)立提出的基于動(dòng)態(tài)規(guī)劃思想的自底向上語(yǔ)法分析算法CYK算法要求所使用的語(yǔ)法必須符合喬姆斯基范式(ChomskyNormalFrom,CNF),其語(yǔ)法規(guī)則被限制為只具有A→BC或A→w這種形式。根據(jù)CNF語(yǔ)法形式,句法樹的葉子節(jié)點(diǎn)為單詞,單詞的父節(jié)點(diǎn)為詞性符號(hào),在詞性符號(hào)層之上每一個(gè)非終結(jié)符都有兩個(gè)子節(jié)點(diǎn)。因此CYK算法采用了二維矩陣對(duì)整個(gè)樹結(jié)構(gòu)進(jìn)行編碼。3.2.1基于上下文無(wú)關(guān)文法的成分句法分析21對(duì)于一個(gè)長(zhǎng)度為n的句子,構(gòu)造一個(gè)(n+1)×(n+1)的二維矩陣T矩陣主對(duì)角線以下全部為0,主對(duì)角線上的元素由輸入句子的終結(jié)符號(hào)(單詞)構(gòu)成主對(duì)角線以上的元素Tij包含由文法G的非終結(jié)符構(gòu)成的集合,這個(gè)集合表示輸入句子中橫跨在位置i到j(luò)之間的單詞的組成成分。輸入句子中索引從0開始,索引位于輸入句子的單詞之間,也可以看成單詞之間的間隔指針例如:0她1喜歡2跳3芭蕾43.2.1基于上下文無(wú)關(guān)文法的成分句法分析22具體過(guò)程如算法3.1所示3.2.1基于上下文無(wú)關(guān)文法的成分句法分析233.2.1基于上下文無(wú)關(guān)文法的成分句法分析24移進(jìn)-歸約成分句法分析算法的基本思想是從左到右掃描輸入的包含單詞詞性對(duì)的句子,使用堆棧和一系列的移進(jìn)(Shift)和歸約(Reduce)操作序列構(gòu)建句法樹。算法初始時(shí)堆棧S為空,隊(duì)列Q中包含整個(gè)句子所有單詞。在算法結(jié)束時(shí)堆棧S中包含一個(gè)完整的句法樹,隊(duì)列Q為空。所采用的操作包含以下四個(gè):移進(jìn)(Shift):將非空隊(duì)列Q最左端的單詞移入堆棧S中歸約(Reduce):根據(jù)推導(dǎo)規(guī)則,根據(jù)推導(dǎo)規(guī)則右側(cè)所包含非終結(jié)符數(shù)量,將堆棧S中的最頂端相應(yīng)數(shù)量元素移出,然后將利用推導(dǎo)規(guī)則產(chǎn)生的新結(jié)構(gòu)壓入堆棧中接受(Accept):隊(duì)列中所有單詞都已被移到堆棧中,并且堆棧中只剩下一個(gè)由非終結(jié)符S為根的樹,表示分析成功拒絕(Reject):隊(duì)列中所有單詞都已被移到堆棧中,但是堆棧中并非只有一個(gè)以非終結(jié)符S為根的樹,并且無(wú)法繼續(xù)歸約,表示分析失敗3.2.1基于上下文無(wú)關(guān)文法的成分句法分析25如何根據(jù)當(dāng)前堆棧S和隊(duì)列Q中的狀態(tài),選擇下一步的操作是移進(jìn)-歸約分析算法中最重要的部分。由于移進(jìn)和歸約操作并不是完全互斥的,在很多狀態(tài)下兩種操作都可以選擇,這就造成了移進(jìn)歸約沖突(ShiftReduceConflict)。3.2.1基于上下文無(wú)關(guān)文法的成分句法分析263.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析27基于概率上下文無(wú)關(guān)文法(ProbabilisticContext-FreeGrammar,PCFG)的句法分析則可以結(jié)合規(guī)則方法和統(tǒng)計(jì)方法PCFG是CFG的擴(kuò)展,因此PCFG的文法也是由終結(jié)符集合∑、非終結(jié)符集合N、初始符S以及規(guī)則集合R組成。只是在CFG的基礎(chǔ)上對(duì)每條規(guī)則增加了概率,其規(guī)則用如下形式表示:A→α,p其中A為非終結(jié)符,α∈(∑∪N)?為終結(jié)符和非終結(jié)符組成的有序序列集合,p為A推導(dǎo)出α的概率,即p=P(A→α)
3.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析28由于PCFG中每個(gè)規(guī)則中包含了概率信息P(A→α),因此可以根據(jù)一個(gè)句子及其句法分析樹計(jì)算特定句法分析樹的概率、句子的概率以及句子片段的概率。利用特定分析樹的概率可以用于消除分析樹的歧義。3.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析29PCFG句法分析樹概率計(jì)算句法樹概率計(jì)算還要應(yīng)用以下三個(gè)獨(dú)立假設(shè):
(1)位置不變性(Placein-variance):子樹的概率不依賴于該子樹所在的位置;(2)上下文無(wú)關(guān)性(Context-free):子樹的概率不依賴于子樹以外的單詞;(3)祖先無(wú)關(guān)性(Ancestor-free):子樹的概率不依賴于子樹的祖先節(jié)點(diǎn)。一個(gè)特定句法樹T的概率定義為該句法樹T中用來(lái)得到句子W所使用的m個(gè)規(guī)則的概率乘積:3.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析303.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析313.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析32PCFG的句子概率計(jì)算句子概率計(jì)算是指在給定PCFG文法G的情況下,計(jì)算給定句子W的概率P(W|G)可以采用內(nèi)向算法(InsideAlgorithm)或外向算法(OutsideAlgorithm)采用內(nèi)向算法,首先定義內(nèi)向變量aij(A)為非終結(jié)符A推導(dǎo)出W中子串wiwi+1···wj
的概率,即:句子W的概率則相應(yīng)的標(biāo)記為a1n(S)通過(guò)如下遞推公式計(jì)算得到:3.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析333.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析34PCFG的最佳樹結(jié)構(gòu)求解最佳樹結(jié)構(gòu)求解是指對(duì)于給定句子W={w1,w2,…..
,wn}和PCFG文法G,求解該句子的最佳樹結(jié)構(gòu),即如何選擇句法結(jié)構(gòu)樹使得其概率最大:可以通過(guò)利用基于概率的CYK算法進(jìn)行3.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析353.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析36使用CYK算法求解PCFG的最佳樹結(jié)構(gòu)分析實(shí)例3.2.2基于概率上下文無(wú)關(guān)文法的成分句法分析37PCFG的模型參數(shù)學(xué)習(xí)基于最大似然估計(jì),統(tǒng)計(jì)非終結(jié)符的出現(xiàn)次數(shù)進(jìn)行概率參數(shù)估Count(A→α)是指規(guī)則A→α在整個(gè)樹庫(kù)中出現(xiàn)的次數(shù),Count(A)是指在樹庫(kù)中非終結(jié)符A出現(xiàn)的次數(shù)在僅有大規(guī)模無(wú)標(biāo)記句子的情況下,也可以通過(guò)期望最大化算法(ExpectationMaximization,EM)估計(jì)規(guī)則的概率參數(shù)。利用當(dāng)前的文法Gi估算每條規(guī)則出現(xiàn)的期望值是期望步(ExpectationStep,E-步驟),重新估算概率得到Gi+1
的步驟是最大化步(MaximizationStep,M-步驟)3.2.3成分句法分析評(píng)價(jià)方法38PARSEVAL方法3.3.1基于圖的依存句法分析的成分句法分析3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析句法分析3.3.3基于轉(zhuǎn)移的依存句法分析3.3.4基于神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)移依存句法分析3.3.5依存句法分析評(píng)價(jià)方法句法概述3.1成分句法分析3.2依存句法分析3.3目錄Contents39句法分析語(yǔ)料庫(kù)3.43.3依存句法分析40依存句法分析(DependencyParsing)任務(wù)目標(biāo)是依據(jù)依存語(yǔ)法理論分析輸入句子得到其依存句法結(jié)構(gòu)樹。依存句法理論的基本假設(shè)是句法結(jié)構(gòu)由單詞和單詞之間的依存關(guān)系組成。依存關(guān)系具有方向性,從中心語(yǔ)成分指向依存成分。依存關(guān)系根據(jù)中心成分和依存成分之間的關(guān)系又可以被定義為不同的依存關(guān)系類型。依存句法結(jié)構(gòu)使用依存圖(DependencyGraph)進(jìn)行表示。
3.3依存句法分析41在本節(jié)中,使用S=w0w1···wn
表示輸入的句子,其中w0=root表示虛擬根節(jié)點(diǎn),w1...wn為輸入句子中的n個(gè)單詞。R={r0,r1,...,rm}表示依存關(guān)系類型集合,r∈R表示在句子中單詞之間的依存關(guān)系,也叫做邊標(biāo)簽(ArcLabel)。如果依存圖G=(V,A)對(duì)于輸入句子S和關(guān)系集合R,是一個(gè)從w0
出發(fā)的有向樹,并且包含句子中的所有單詞,那么這個(gè)依存圖G就成為形式良好的依存圖(Well-formedDependency
Graph),也稱為依存樹(DependencyTree)。3.3.1基于圖的依存句法分析42基于圖的依存句法分析核心是構(gòu)造評(píng)分函數(shù),對(duì)句子S所有依存句法樹G=(V,A)∈GW
進(jìn)行評(píng)分。這個(gè)評(píng)分代表了一個(gè)句法樹作為句子分析正確結(jié)果的可能性。不同的基于圖的分析方法采用不同的假設(shè)來(lái)計(jì)算得分?;趫D的依存句法分析算法通常將對(duì)依存句法樹的G=(V,A)的評(píng)分轉(zhuǎn)化為對(duì)其樹上的邊的評(píng)分:可以將基于圖的依存句法分析形式化表示為:3.3.1基于圖的依存句法分析43可以證明在依存句法樹不考慮投射性(Projectivity)的情況下,對(duì)于輸入句子S的依存句法分析問(wèn)題等價(jià)于基于邊評(píng)分λ(wi,r,wj)的圖GS的最大生成樹(MaximumSpanningTree)尋找問(wèn)題利用最大生成樹算法得到的依存句法樹不具備投射性。針對(duì)具有投射性要求的依存句法樹,可以利用其與上下文無(wú)關(guān)語(yǔ)法之間的強(qiáng)相關(guān)性,利用基于CYK算法等上下文無(wú)關(guān)語(yǔ)法分析算法進(jìn)行依存句法樹分析。3.3.1基于圖的依存句法分析44非投射性依存句法分析方法朱-劉/埃德蒙茲算法(Chu-Liu/Edmonds)方法是一種常見(jiàn)的帶權(quán)有向圖最小/大生成樹尋找算法,因此也常被應(yīng)用于非投射性依存句法分析。輸入是待分析句子S=w0w1...wn
以及邊之間的權(quán)重λ(wi,wj)∈λw0
是句子的虛擬根節(jié)點(diǎn),依存句法樹中不存在指向w0的邊。3.3.1基于圖的依存句法分析45根據(jù)句子中的單詞和權(quán)重組成有向圖GS=(VS,AS)針對(duì)圖G中每個(gè)頂點(diǎn)選擇入邊權(quán)重最大的邊構(gòu)建子圖G′=(VS,A′)。如果該子圖中沒(méi)有環(huán),那么該子圖就是圖G的最大生成樹。否則,說(shuō)明圖G′中至少包含一個(gè)環(huán)。那么選擇其中任意一個(gè)環(huán)C,其邊集合為AC,將環(huán)C用一個(gè)節(jié)點(diǎn)wc
來(lái)代表,圖GC
中包含所有在圖G中但是不在環(huán)C中的節(jié)點(diǎn)以及wc,GC
的邊通過(guò)以下規(guī)則構(gòu)建:將圖GC作為輸入,遞歸調(diào)用上述算法得到其最大生成樹G=(V,A)。之后根據(jù)所返回的最大生成樹信息對(duì)原始圖信息進(jìn)行修正,移除環(huán)C3.3.1基于圖的依存句法分析46圖3.18朱-劉/埃德蒙茲算法生成依存句法樹樣例3.3.1基于圖的依存句法分析47投射性依存句法分析方法設(shè)置虛擬根節(jié)點(diǎn)在句子首位的情況下,投射性依存句法分析樹等價(jià)于嵌套依存句法分析樹(NestedDependencyTrees)。因此投射性依存句法分析與上下文無(wú)關(guān)語(yǔ)法具有非常強(qiáng)的關(guān)系,很多用于上下文無(wú)關(guān)語(yǔ)法分析的算法也可以應(yīng)用于投射性依存句法分析。首先定義動(dòng)態(tài)規(guī)劃表C[s][t][i](s?i?t),表示投射性句法樹以單詞wi為根節(jié)點(diǎn)覆蓋從單詞ws
到單詞wt
的句子片段的最高得分。由此可以得到C[0][n][0]表示輸入句子S=w0,w1,...,wn的依存句法樹的最高得分。3.3.1基于圖的依存句法分析48投射性依存句法分析方法3.3.1基于圖的依存句法分析49投射性依存句法分析方法A[s][t][i]按照如下公式記錄樹結(jié)構(gòu):3.3.1基于圖的依存句法分析50邊評(píng)分模型學(xué)習(xí)方法邊評(píng)分模型可以使用基于高維特征向量的線性函數(shù)進(jìn)行建模f(·)包含了邊和輸入句子S中各類型相關(guān)特征?wi=喜歡
?wi=跳
?wi
的詞性=V
?wj
的詞性=V
?r的依存關(guān)系類型=xcomp
?wi-1
的詞性=ADV?wj+1
的詞性=N
?wi
和wj之間距離=1
這些特征還可以組合為更復(fù)雜的類型?wi
的詞性=V&wj
的詞性=V&wi=喜歡
?wi=喜歡&wj=跳&wi
和wj
之間距離=1
3.3.1基于圖的依存句法分析51邊評(píng)分模型學(xué)習(xí)方法基于特征向量的線性函數(shù)建模的假設(shè)下,對(duì)于輸入句子的依存句法分析轉(zhuǎn)換為了如下問(wèn)題:表示訓(xùn)練語(yǔ)料集合Sd
表示輸入句子,所對(duì)應(yīng)的正確的依存句法樹用Gd
表示3.3.1基于圖的依存句法分析52邊評(píng)分模型學(xué)習(xí)方法3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析53基于圖的依存句法分析主要包含邊評(píng)分模型和句法樹生成算法兩個(gè)部分組成。其中邊評(píng)分模型對(duì)于分析效果具有決定性的影響。神經(jīng)網(wǎng)絡(luò)方法也可以用于構(gòu)造邊評(píng)分。3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析54基于前饋神經(jīng)網(wǎng)絡(luò)的方法模型輸入包含兩大部分:原子特征(AtomicFeatures)和短語(yǔ)結(jié)構(gòu)(Phrases)。原子特征部分使用單個(gè)詞和單個(gè)詞性。通過(guò)查找嵌入矩陣M=Rd×|D|
轉(zhuǎn)換為相應(yīng)的嵌入(Embedding)表示。|D|是特征字典大小,d是特征嵌入表示的維度。為了更好地建模依存關(guān)系的上下文信息,根據(jù)所要預(yù)測(cè)中心詞和修飾詞在句子中的位置,將句子切分為前綴(Prefix)、中綴(Infix)和后綴(Suffix)。3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析55基于雙仿射變換的方法DeepBiaffineParser也是采用最大生成樹方法構(gòu)造依存句法樹,引入了雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),更好地建模句子上下文信息單詞的詞嵌入和對(duì)應(yīng)的詞性嵌入合并作為雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的輸入3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析56基于雙仿射變換的方法使用多層感知器(MLP)對(duì)ri
用于中心詞和修飾詞的不同情況,分別進(jìn)行兩種不同的降維所有時(shí)刻的hi(arc?head)和hi(arc?dep)
分別合并組成矩陣H(arc?head)
和H(arc?dep)
利用不類別雙仿射分類器(Variable-classBiaffineClassifier),得到邊評(píng)分矩陣:wi為修飾詞wyi為中心詞的依存類別的分類:3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析57基于圖神經(jīng)網(wǎng)絡(luò)的方法基于圖神經(jīng)網(wǎng)絡(luò)的依存句法分析算法(Graph-basedDependencyParsingwithGraphNeuralNetworks,GNNDP),試圖將更多的結(jié)構(gòu)化信息引入到節(jié)點(diǎn)表示。圖3.22基于圖神經(jīng)網(wǎng)絡(luò)的依存句法分析網(wǎng)絡(luò)結(jié)構(gòu)圖3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析58基于圖神經(jīng)網(wǎng)絡(luò)的方法單詞序列表示使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)編碼單詞序列由于依存邊有方向性,因此采用兩個(gè)多層感知器來(lái)生成不同的向量從而區(qū)分這兩種角色輸出的得分實(shí)際上也是依存邊(wi
支配wj)的概率3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析59基于圖神經(jīng)網(wǎng)絡(luò)的方法GNNDP將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用到依存句法分析任務(wù),句法分析任務(wù)需要在圖G上同時(shí)處理支配詞表征hi和從屬詞表示di,而不是為每個(gè)節(jié)點(diǎn)編碼一個(gè)向量。此外,為了近似精確的高階分析,分析器需要每個(gè)GNNs網(wǎng)絡(luò)層有關(guān)于句子的具體含義。因此,GNNDP采用完全圖(即所有節(jié)點(diǎn)都是連接的),并用依存邊條件概率設(shè)置邊權(quán)。GNNDP關(guān)注三類高階信息,即祖父母、孫子和兄弟關(guān)系3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析60基于圖神經(jīng)網(wǎng)絡(luò)的方法σt(j,i)不僅考慮一跳父子關(guān)系(j,i),還考慮兩跳i的祖父母節(jié)點(diǎn)(用k表示)。同樣,為了在σt(j,i)中對(duì)兩跳的j的孫子節(jié)點(diǎn)進(jìn)行編碼(也用k表示),需要聚合鄰居節(jié)點(diǎn)的從屬詞表示。3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析61基于圖神經(jīng)網(wǎng)絡(luò)的方法3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析62基于圖神經(jīng)網(wǎng)絡(luò)的方法3.3.2基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析63基于圖神經(jīng)網(wǎng)絡(luò)的方法3.3.3基于轉(zhuǎn)移的依存句法分析64轉(zhuǎn)移系統(tǒng)(TransitionSystem)包含狀態(tài)集合(State或Configuration)以及狀態(tài)之間的轉(zhuǎn)移動(dòng)作集合(Transition)標(biāo)準(zhǔn)弧(Arc-Standard)轉(zhuǎn)移系統(tǒng)是其中最常用的投射性依存句法分析轉(zhuǎn)移系統(tǒng)之一3.3.3基于轉(zhuǎn)移的依存句法分析653.3.3基于轉(zhuǎn)移的依存句法分析66假設(shè)存在函數(shù)o,可以根據(jù)當(dāng)前的狀態(tài)c正確地確定下一步的轉(zhuǎn)移動(dòng)作t,即o(c)=t。那么整個(gè)句法分析的過(guò)程就可以使用非常簡(jiǎn)單的貪心算法完成。針對(duì)輸入句子S,首先,構(gòu)造初始狀態(tài)c0(S),調(diào)用函數(shù)o得到下一步轉(zhuǎn)移動(dòng)作t=o(c)。之后,利用根據(jù)轉(zhuǎn)移動(dòng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二手房專業(yè)獨(dú)家代理權(quán)合同模板版
- 2025年智能汽車分期付款抵押合同
- 2025年度個(gè)人與企業(yè)間設(shè)備分期借款合同2篇
- 二零二五年度棉花種植保險(xiǎn)合同4篇
- 2025年度土地租賃合同租賃期滿后續(xù)約協(xié)議
- 二零二五年度體育休閑用地及體育場(chǎng)館房屋轉(zhuǎn)讓合同
- 二零二五年度口紅租賃與品牌授權(quán)合作合同3篇
- 二零二五年度醫(yī)療設(shè)備融資租賃合同模板9篇
- 2025年教育培訓(xùn)機(jī)構(gòu)兼職招生銷售合同3篇
- 2025年度辦公樓保潔服務(wù)合同規(guī)范集3篇
- 華為HCIA-Storage H13-629考試練習(xí)題
- Q∕GDW 516-2010 500kV~1000kV 輸電線路劣化懸式絕緣子檢測(cè)規(guī)程
- 遼寧省撫順五十中學(xué)2024屆中考化學(xué)全真模擬試卷含解析
- 2024年湖南汽車工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案解析
- 家長(zhǎng)心理健康教育知識(shí)講座
- GB/T 292-2023滾動(dòng)軸承角接觸球軸承外形尺寸
- 軍人結(jié)婚函調(diào)報(bào)告表
- 民用無(wú)人駕駛航空器實(shí)名制登記管理規(guī)定
- 北京地鐵6號(hào)線
- 航空油料計(jì)量統(tǒng)計(jì)員(初級(jí))理論考試復(fù)習(xí)題庫(kù)大全-上(單選題匯總)
評(píng)論
0/150
提交評(píng)論