版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
語(yǔ)言模型與向量表示自然語(yǔ)言處理:理論與實(shí)踐向量表示語(yǔ)言模型目錄語(yǔ)言模型概述統(tǒng)計(jì)語(yǔ)言模型n-gram模型n-gram模型神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型-1Bengio團(tuán)隊(duì)提出前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(FeedforwardNeuralNetworkLanguageModel,F(xiàn)NNLM)有效緩解數(shù)據(jù)稀疏問(wèn)題神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型-2基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)的語(yǔ)言模型x為輸入層,h為帶有循環(huán)的隱含層,y為輸出層解決了n-gram語(yǔ)言模型有限歷史的問(wèn)題但序列長(zhǎng)度增加容易梯度消失和梯度爆炸,增加模型訓(xùn)練的難度
神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型-3長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LongShortTermMemroy,LSTM)
語(yǔ)言模型及其變種門(mén)控結(jié)構(gòu)(gate)(下圖直線(xiàn)箭頭部分):向單元狀態(tài)添加或刪除信息的能力,由一層以Sigmoid為激活函數(shù)的網(wǎng)絡(luò)層和一個(gè)逐元素相乘操作構(gòu)成(右圖)遺忘門(mén)、輸入門(mén)、輸出門(mén)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型-4基于注意力(Attention)的語(yǔ)言模型計(jì)算字符串中詞語(yǔ)之間的注意力權(quán)重,有效避免循環(huán)神經(jīng)網(wǎng)絡(luò)中隨著距離變長(zhǎng)導(dǎo)致信息傳遞步驟增多的缺陷,并解決梯度消失和梯度爆炸等問(wèn)題向量表示語(yǔ)言模型目錄向量表示把詞語(yǔ)等語(yǔ)言單位表示成向量,轉(zhuǎn)換為機(jī)器可以理解的方式符號(hào)化的離散表示One-HotRepresentation是最常用的離散表示用一個(gè)很長(zhǎng)的向量來(lái)表示一個(gè)詞,向量的長(zhǎng)度為詞典的大小,向量中只有一個(gè)1,其他位置全為0。1的位置對(duì)應(yīng)該詞在詞典中的位置。示例:給我一個(gè)話(huà)筒,替換身上的麥克。V={給,我,一個(gè),話(huà)筒,替換,身上,的,麥克}(V=8)給:[1
0
0
0
0
0
0
0]我:[01
0
0
0
0
0
0]一個(gè):[00
1
0
0
0
0
0]……離散表示的局限語(yǔ)義鴻溝忽略了詞語(yǔ)間的語(yǔ)義信息,無(wú)法解決“多詞一義”問(wèn)題維數(shù)災(zāi)難當(dāng)詞匯表的規(guī)模特別大,每個(gè)詞就表示成十幾萬(wàn)維的高維且稀疏的詞匯向量嵌入式的連續(xù)表示分布式表示(distributedrepresentation)最常用將語(yǔ)言的潛在語(yǔ)法或語(yǔ)義特征分散式地存儲(chǔ)在一組神經(jīng)元中,可以用稠密、低維、連續(xù)的向量來(lái)表示詞向量WordEmbedding:將詞語(yǔ)映射到一個(gè)新的空間中,并以多維的連續(xù)實(shí)數(shù)向量進(jìn)行表示詞向量構(gòu)造方法基于全局統(tǒng)計(jì)信息的方法利用統(tǒng)計(jì)方法處理語(yǔ)料,將語(yǔ)料數(shù)據(jù)建模為蘊(yùn)含語(yǔ)義特征的詞-上下文的共現(xiàn)信息,借助數(shù)學(xué)方法學(xué)習(xí)詞向量,自動(dòng)學(xué)習(xí)詞的特征表示如詞袋模型、LSA、GloVe
等
基于預(yù)測(cè)任務(wù)的構(gòu)造方法將語(yǔ)料建模為窗口形式,依據(jù)實(shí)際預(yù)測(cè)任務(wù)設(shè)定學(xué)習(xí)目標(biāo),在優(yōu)化過(guò)程中學(xué)習(xí)詞向量利用外部信息的構(gòu)造方法使用人類(lèi)已經(jīng)抽象好的語(yǔ)義關(guān)系約束語(yǔ)料建模和特征學(xué)習(xí)過(guò)程
word2vecGoogle于2013年發(fā)布本質(zhì)上是只具有一個(gè)隱含層的神經(jīng)元網(wǎng)絡(luò)。輸入是采用One-hot編碼的詞匯表向量,輸出也是One-Hot編碼的詞匯表向量。word2vecWord2vec具有兩種訓(xùn)練模型CBOW模型主要通過(guò)目標(biāo)詞語(yǔ)的上下文詞語(yǔ)預(yù)測(cè)目標(biāo)詞語(yǔ)。Skip-gram模型則利用當(dāng)前目標(biāo)詞語(yǔ)預(yù)測(cè)上下文詞語(yǔ)。向量表示評(píng)價(jià)內(nèi)部評(píng)價(jià)IntrinsicEvaluation
評(píng)價(jià)向量自身的分布是否合理等詞語(yǔ)相似性(wordsimilarity)測(cè)試詞語(yǔ)類(lèi)比(wordanalogy)測(cè)試外部評(píng)價(jià)ExtrinsicEvaluation
衡量詞向量在各類(lèi)下游任務(wù)中作為特征向量對(duì)任務(wù)性能的影響常見(jiàn)的下游任務(wù)包括命名實(shí)體識(shí)別,語(yǔ)義角色標(biāo)注,詞性標(biāo)注,情感分析等。參考文獻(xiàn)(部分)YBengio,RDucharme,PVincent,etal.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch,2003,3:1137-1155.MikolovT,KombrinkS,BurgetL,etal.Extensionsofrecurrentneuralnetworklanguagemodel[C]//ProceedingsofInternationalConferenceonAcoustics,Speech,andSignalProcessing,2011:5528-5531.
MikolovT,ZweigG.Contextdependentrecurrentneuralnetworklanguagemodel[C]//ProceedingsofSpokenLanguageTechnologyWorkshop,2012:234-239.M.Sundermeyer,R.Schluter,H.Ney.LSTMneuralnetworksforlanguagemodeling.InINTERSPEECH,pages194–197,2012.GSalton,RRoss,JKelleher.AttentiveLanguageModels.ProceedingsoftheEighthInternationalJointConferenceonNaturalLanguageProcessing.2017,441-450.JDevlin,MChang,KLee,andKToutanova.BERT:pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding[C]//ProceedingsofNAACL-HLT,2019,4171–4186思考題什么是語(yǔ)言模型?語(yǔ)言模型的作用是什么?如何理解N-gram語(yǔ)言模型?常見(jiàn)的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型有哪些?利用已有工具和資源,訓(xùn)練一種預(yù)訓(xùn)練語(yǔ)言模型。向量表示的方法有哪些?向量表示的優(yōu)勢(shì)有哪些?利用程序?qū)崿F(xiàn)word2vec中的CBOW算法。利用神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)命名實(shí)體識(shí)別任務(wù),并將其作為外部評(píng)價(jià)任務(wù)來(lái)評(píng)價(jià)向量表示的質(zhì)量。第四章語(yǔ)言分析技術(shù)人工智能導(dǎo)論中文分詞依存句法分析語(yǔ)義角色標(biāo)注引言參考文獻(xiàn)目錄自然語(yǔ)言具有歧義性和非規(guī)范性的顯著特點(diǎn),同時(shí)也隨著時(shí)代和社會(huì)的進(jìn)步,現(xiàn)有的自然語(yǔ)言處理文本也表現(xiàn)出了非常強(qiáng)的動(dòng)態(tài)演化特性。比如:大量新詞涌現(xiàn)、命名實(shí)體類(lèi)的專(zhuān)有名詞更新頻繁,用戶(hù)個(gè)性化需求多樣化直接導(dǎo)致了NLP的應(yīng)用場(chǎng)景復(fù)雜,表現(xiàn)為自然語(yǔ)言處理系統(tǒng)不得不面對(duì)越來(lái)越復(fù)雜的語(yǔ)言現(xiàn)象。幾乎所有的NLP技術(shù)目前面臨著更新的挑戰(zhàn),對(duì)其性能的評(píng)價(jià)也都被提出了更高的要求,值得大家重新審視和關(guān)注。引言引言自然語(yǔ)言處理離不開(kāi)對(duì)語(yǔ)言知識(shí)的分析,自然語(yǔ)言的理解和推理能力往往也取決甚至依賴(lài)于不同程度(詞法分析、句法分析、淺層語(yǔ)義分析、深層語(yǔ)義分析)的語(yǔ)言分析水平。為了更好地理解語(yǔ)言分析流程,本章將依據(jù)傳統(tǒng)的自然語(yǔ)言處理范式,將分別在詞匯、句子(短語(yǔ))和語(yǔ)義層面進(jìn)行常見(jiàn)的主要分析技術(shù)與方法的介紹,包括基于深度學(xué)習(xí)技術(shù)的語(yǔ)言分析方法。圖
4-1語(yǔ)言分析處理流程中文分詞依存句法分析語(yǔ)義角色標(biāo)注引言參考文獻(xiàn)目錄基本問(wèn)題經(jīng)典分詞算法中文分詞實(shí)踐概述目錄—中文分詞概述中文分詞是將自然語(yǔ)言文本轉(zhuǎn)換為單詞序列的過(guò)程,是中文信息處理的基礎(chǔ)性技術(shù)之一。自然語(yǔ)言處理的底層任務(wù)可以按照處理層次的不同,分為詞法分析、句法分析和語(yǔ)義分析,其中中文分詞往往是詞法分析的第一步,自動(dòng)分詞的準(zhǔn)確率會(huì)直接影響到下游任務(wù)的實(shí)現(xiàn)效果。在具體研究方面,中文分詞的思路主要有三種:基于詞典與規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度神經(jīng)網(wǎng)絡(luò)模型的方法。中文分詞的思路基于詞典的方法需要維護(hù)一個(gè)盡可能全面的電子詞典,也就是說(shuō)盡可能構(gòu)建一個(gè)收錄詞匯多的詞典,然后在該詞典的基礎(chǔ)上結(jié)合給定的規(guī)則對(duì)中文字符串進(jìn)行切分。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法是將中文分詞當(dāng)作序列標(biāo)注來(lái)處理,序列標(biāo)注問(wèn)題是給定一個(gè)輸入序列,為序列中每個(gè)基本元素輸出一個(gè)正確的標(biāo)簽。基于深度學(xué)習(xí)的中文分詞方法是近年來(lái)中文分詞研究領(lǐng)域的主流方法,此類(lèi)方法實(shí)現(xiàn)了端到端的分詞,不需要任何特征設(shè)計(jì)。但是相比于傳統(tǒng)的分詞方法,該類(lèi)方法在分詞精度方面存在不足,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測(cè)效率都比較低,實(shí)用系統(tǒng)魯棒性較差?;締?wèn)題經(jīng)典分詞算法中文分詞實(shí)踐概述目錄—中文分詞詞規(guī)范問(wèn)題是指對(duì)文本中每個(gè)中文詞語(yǔ)的邊界有一個(gè)清晰的界定,看似很容易解決,但在中文分詞的發(fā)展初期,這個(gè)基礎(chǔ)性問(wèn)題卻成了第一個(gè)攔路虎。雖然我國(guó)出臺(tái)了相關(guān)的分詞規(guī)范國(guó)家標(biāo)準(zhǔn),但在具體操作上這個(gè)規(guī)范的主觀性比較強(qiáng),究竟哪些組合算作一個(gè)詞,不同的研究者在不同的應(yīng)用場(chǎng)景切分可能不盡相同?;締?wèn)題——分詞規(guī)范基本問(wèn)題——歧義切分歧義切分問(wèn)題主要包括真歧義、組合型歧義和交集型歧義三種,真歧義是指句子本身確實(shí)帶有歧義。人工也無(wú)法直接判斷如何分詞,需要結(jié)合上下文語(yǔ)境具體分析。組合型歧義是指某些字的組合在一些語(yǔ)境下需要被切分成單獨(dú)的字,但是在另外一些語(yǔ)境下又不能被切分,只有看作一個(gè)完整的詞才有意義。交集型歧義是指某個(gè)字和其前后相鄰的字存在多種不同的組詞情況,從詞典角度來(lái)看,每種切分都是正確的,此時(shí)必須結(jié)合具體語(yǔ)境進(jìn)行分析才能給出正確的結(jié)論?;締?wèn)題——歧義切分所謂未登錄詞一般是在詞典中不存在的詞。隨著社會(huì)進(jìn)步與發(fā)展,有一些新詞新出現(xiàn)或舊詞新用,有時(shí)也當(dāng)作未登錄詞來(lái)處理。在實(shí)際使用中,二者并沒(méi)有明顯的區(qū)別。未登錄詞可以大概分為以下幾類(lèi):新出現(xiàn)的普通詞匯;專(zhuān)有名詞實(shí)體;專(zhuān)業(yè)名詞和研究領(lǐng)域名稱(chēng);其他專(zhuān)名實(shí)體等。基本問(wèn)題——未登錄詞識(shí)別基本問(wèn)題經(jīng)典分詞算法中文分詞實(shí)踐概述目錄—中文分詞基于詞典和規(guī)則的分詞算法正向最大匹配法:所謂正向是指從左到右掃描需要切分的字符串。逆向最大匹配法:與正向最大匹配相反,逆向最大匹配法是指從右到左掃描待切分的字符串雙向匹配法:將正向最大匹配算法和逆向最大匹配算法進(jìn)行比較,從而確定正確的分詞方法。基于詞典的分詞方法奠定了中文分詞研究的基礎(chǔ),方法簡(jiǎn)單易實(shí)現(xiàn),但其分詞效果嚴(yán)重依賴(lài)詞典的完善性,面對(duì)詞典中未出現(xiàn)的詞語(yǔ),準(zhǔn)確性會(huì)大大降低,同時(shí)歧義字符串的消解能力也比較弱。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的分詞方法將中文分詞任務(wù)視為序列標(biāo)注問(wèn)題,在給定輸入序列的情況下,為序列中每個(gè)基本元素輸出一個(gè)正確的標(biāo)簽。2003年Xue[1]等人提出基于最大熵的中文分詞系統(tǒng),將中文分詞看作是與詞性標(biāo)注相同的問(wèn)題,其本質(zhì)屬于基于字的序列標(biāo)注問(wèn)題,因此后續(xù)的改進(jìn)基本都集中在使用更有效的序列標(biāo)注算法。代表模型有隱馬爾科夫模型、最大熵馬爾科夫模型、條件隨機(jī)場(chǎng)等?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的分詞算法分詞算法——基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的分詞
隱馬爾可夫模型
分詞算法——基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的分詞
最大熵隱馬爾科夫模型最大熵隱馬爾科夫模型不關(guān)注隱藏序列如何產(chǎn)生觀測(cè)序列,而是在已知一條輸入序列的情況下去尋找一條充分符合特征的標(biāo)簽序列。與隱馬爾科夫模型相比,最大熵馬爾科夫模型引入了特征函數(shù),增加了更大范圍內(nèi)的上下文特征,拓大了特征選擇的范圍,但由于最大熵馬爾科夫模型使用局部歸一化的方法,非常容易陷入局部最優(yōu)解,最終會(huì)出現(xiàn)標(biāo)簽偏置問(wèn)題。因此引入了全局特征的條件隨機(jī)場(chǎng)會(huì)更合適[2]。分詞算法——基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的分詞
條件隨機(jī)場(chǎng)條件隨機(jī)場(chǎng)與最大熵馬爾科夫模型都屬于判別模型,并且都做了一階馬爾科夫假設(shè),不同的是條件隨機(jī)場(chǎng)把觀測(cè)序列當(dāng)作是一個(gè)整體,使特征函數(shù)變成了全局化的特征函數(shù)。基于條件隨機(jī)場(chǎng)的分詞模型,通過(guò)最大化序列標(biāo)簽的極大似然函數(shù)優(yōu)化條件隨機(jī)場(chǎng)的權(quán)重,并且針對(duì)不同參數(shù)動(dòng)態(tài)調(diào)整學(xué)習(xí)率,最終模型在多個(gè)領(lǐng)域內(nèi)的中文分詞數(shù)據(jù)集上都取得了很好的效果。2013年,基于神經(jīng)網(wǎng)絡(luò)的中文分詞方法被首次提出[3],驗(yàn)證了深度學(xué)習(xí)在中文分詞任務(wù)上的可行性,是神經(jīng)網(wǎng)絡(luò)在中文分詞領(lǐng)域的開(kāi)山之作,模型結(jié)構(gòu)如圖所示基于深度學(xué)習(xí)的分詞算法2015年,Chen等人[4]提出一種帶有門(mén)結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)(gatedrecurrentneuralnetwork,GRNN),對(duì)中文分詞中的n-gram特征進(jìn)行建模。同年,基于長(zhǎng)短期記憶單元(longshort-termmemory,LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于中文分詞任務(wù)中。分詞算法——基于深度學(xué)習(xí)的分詞2018年Bert[5]的出現(xiàn)刷新了自然語(yǔ)言處理的多項(xiàng)榜單,Huang等人[6]在2019年提出在中文分詞任務(wù)中引入Bert做多標(biāo)準(zhǔn)分詞下的特征抽取,多標(biāo)準(zhǔn)指相同的語(yǔ)句在不同任務(wù)場(chǎng)景下可能會(huì)有不同的分詞結(jié)果,因此在Transformer上為每個(gè)分詞數(shù)據(jù)集都構(gòu)建了一個(gè)參數(shù)集,再增加一個(gè)共享參數(shù)集獲取共性信息,最后通過(guò)條件隨機(jī)場(chǎng)得到全局最優(yōu)規(guī)劃,該模型在10個(gè)中文分詞數(shù)據(jù)集上都取得了最好的分?jǐn)?shù)。分詞算法——基于深度學(xué)習(xí)的分詞基本問(wèn)題經(jīng)典分詞算法中文分詞實(shí)踐概述目錄—中文分詞Jieba分詞因分詞領(lǐng)域廣且速度快兩大特點(diǎn)被廣泛應(yīng)用,其基本原理是先構(gòu)造一個(gè)前綴詞典,這個(gè)詞典包含三列,分別是詞、詞頻和詞性;然后使用前綴詞典對(duì)輸入文本進(jìn)行切分,根據(jù)得到的切分結(jié)果構(gòu)造一個(gè)有向無(wú)環(huán)圖;再使用動(dòng)態(tài)規(guī)劃算法計(jì)算最大概率路徑,得到最終的切分結(jié)果。實(shí)驗(yàn)一的語(yǔ)料來(lái)自2019年5月習(xí)總書(shū)記在第三屆世界智能大會(huì)的賀信。實(shí)驗(yàn)一:基于jieba分詞的中文分詞實(shí)踐生成的詞云如圖所示,可以發(fā)現(xiàn),賀信中人工智能、世界、發(fā)展、科技等詞占了較大的比重,出現(xiàn)次數(shù)更多一些。實(shí)驗(yàn)一:基于jieba分詞的中文分詞實(shí)踐實(shí)驗(yàn)代碼參看教程材P72實(shí)驗(yàn)二使用基于文獻(xiàn)[5]的pkuseg工具包,具有多領(lǐng)域分詞、分詞準(zhǔn)確率更高、支持用戶(hù)自訓(xùn)練模型等特點(diǎn)。實(shí)驗(yàn)二語(yǔ)料來(lái)自戴瓊海院士出席2020年全球人工智能大會(huì)的主旨報(bào)告。實(shí)驗(yàn)二:基于pkuseg的中文分詞實(shí)踐生成的詞云如圖所示,其中人工智能、研究、計(jì)算、算力、認(rèn)知等詞出現(xiàn)次數(shù)比較多,詞頻更高。實(shí)驗(yàn)二:基于pkuseg的中文分詞實(shí)踐實(shí)驗(yàn)代碼參看教材P75參考文獻(xiàn)XueN,ShenL.ChinesewordsegmentationasLMRtagging[C]in:ProceedingsofthesecondSIGHANworkshoponChineselanguageprocessing-Volume17.Sapporo,Japan:AssociationforComputationalLinguistics,2003:176-179.TianY,SongY,XiaF,etal.ImprovingChineseWordSegmentationwithWordhoodMemoryNetworks[C]//Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.2020:8274-8285.ZHENGX,CHENH,XUT.DeepLearningforChineseWordSegmentationandPOSTagging[C]//Proceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Seattle,Washington,USA:AssociationforComputationalLinguistics,2013:647–657.CHENX,QIUX,ZHUC,etal.GatedRecursiveNeuralNetworkforChineseWordSegmentation[C]//Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing.Beijing,China:AssociationforComputationalLinguistics,2015:1744–1753.DevlinJ,ChangMW,LeeK,etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding[J].2018.HuangW,ChengX,ChenK,etal.TowardFastandAccurateNeuralChineseWordSegmentationwithMulti-CriteriaLearning[J].2019.中文分詞依存句法分析語(yǔ)義角色標(biāo)注引言參考文獻(xiàn)目錄常用的依存句法分析方法依存句法分析性能評(píng)價(jià)指標(biāo)依存句法分析實(shí)踐概述目錄—依存句法分析常用依存句法分析工具依存句法分析VS成分句法分析依存句法分析(DependencyParsing)與成分句法分析(ConstituentSyntacticParsing)都是目前主流的句法分析方法。相比成分句法分析,依存句法分析以詞為分析單元,使用詞和詞之間的依存關(guān)系來(lái)描述語(yǔ)言結(jié)構(gòu),避免了成分句法分析中的中間語(yǔ)法成分,因此其表現(xiàn)形式更簡(jiǎn)潔。依存句法的四條公理(1)一個(gè)句子中只有一個(gè)獨(dú)立成分,即核心成分,它不依賴(lài)于其他任何成分;(2)句子的其他成分都必須依存于某一成分;(3)任何一個(gè)成分都不能依存于兩個(gè)或兩個(gè)以上的其他成分;(4)如果成分A依存于成分B,成分C位于成分A和成分B之間,那么成分C依存于成分A或成分B,或者依存于成分A和B之間的某一成分。這四條公理對(duì)依存樹(shù)的形式做了約束,保證了句子進(jìn)行依存句法分析的結(jié)果是一棵“樹(shù)”,這為依存語(yǔ)法的形式化描述以及后來(lái)的應(yīng)用奠定了基礎(chǔ)。依存句法的三種結(jié)構(gòu)(1)有向圖:采用帶有方向的弧來(lái)表示兩個(gè)句子成分之間的依存關(guān)系;(2)依存樹(shù):采用樹(shù)結(jié)構(gòu)來(lái)表示依存結(jié)構(gòu)。樹(shù)中子節(jié)點(diǎn)依存于其父節(jié)點(diǎn)所代表的句子成分;(3)依存投影樹(shù):采用帶有投影線(xiàn)的樹(shù)結(jié)構(gòu),樹(shù)中實(shí)線(xiàn)代表依存聯(lián)結(jié)關(guān)系,位置低的成分依存于位置高的成分,虛線(xiàn)為投影線(xiàn)常用的依存句法分析方法依存句法分析性能評(píng)價(jià)指標(biāo)依存句法分析實(shí)踐概述目錄—依存句法分析常用依存句法分析工具常用的依存句法分析方法基于規(guī)則的依存句法分析:基本思想是由人工制定語(yǔ)法規(guī)則,建立語(yǔ)法知識(shí)庫(kù),通過(guò)條件約束和檢查機(jī)制來(lái)實(shí)現(xiàn)句法結(jié)構(gòu)歧義的消除。包含基于上下文無(wú)關(guān)的依存句法分析和基于約束的依存句法分析。基于統(tǒng)計(jì)的依存句法分析:包含生成式依存句法分析方法、判別式依存句法分析方法和確定性依存分析方法基于深度學(xué)習(xí)的依存句法分析:較為經(jīng)典的包括基于前饋神經(jīng)網(wǎng)絡(luò)的依存句法分析,基于雙向LSTM網(wǎng)絡(luò)的依存句法分析分析方法基于上下文無(wú)關(guān)文法的依存句法分析類(lèi)似短語(yǔ)結(jié)構(gòu)句法分析方法,該方法源自Hays以及Gaifman的工作,Gaifman所建立的依存語(yǔ)法體系中包含三種規(guī)則[1,2]::形如的規(guī)則表示范疇按照給定的順序依存于范疇X,X位于位置*;
:可列出屬于某一范疇的所有詞的規(guī)則,每一個(gè)范疇至少包含一個(gè)詞,每個(gè)詞至少屬于一個(gè)范疇,一個(gè)詞可以屬于多個(gè)范疇;
:可列出所有可以支配一個(gè)句子的范疇的規(guī)則?;谏舷挛臒o(wú)關(guān)文法的依存句法分析基于約束的依存分析方法以約束依存語(yǔ)法(ConstraintDependencyGrammar,CDG)[3]為基礎(chǔ),將依存句法分析任務(wù)看作是約束滿(mǎn)足問(wèn)題。主要分為三步:(1)根據(jù)約束依存語(yǔ)法,建立約束規(guī)則集合;(2)根據(jù)約束規(guī)則集合對(duì)所有不滿(mǎn)足約束的分析進(jìn)行裁剪(3)判斷是否存在不確定性問(wèn)題,更新約束集合,并重復(fù)(2)過(guò)程,直到剩下完全符合約束規(guī)則的依存結(jié)構(gòu)。基于約束的依存句法分析
生成式依存句法分析生成式依存句法分析主要有以下三種模型[4,5]:(1)二元詞匯親和模型:模型加入詞匯信息,并將詞性和詞形結(jié)合,標(biāo)記序列通過(guò)Markov過(guò)程產(chǎn)生,最終得到生成詞性、詞形和鏈接關(guān)系的聯(lián)合概率模型。(2)選擇偏好模型:模型加入詞的選擇偏好信息,并限制模型根據(jù)選擇偏好為每一個(gè)詞只選擇一個(gè)父節(jié)點(diǎn)。(3)遞歸生成模型:模型中每個(gè)詞的左右子節(jié)點(diǎn)分別由兩個(gè)Markov模型生成,是自頂向下的遞歸生成式模型。生成式依存句法分析
判別式依存句法分析確定性句法分析的基本思想是以特定方向逐步處理每一個(gè)待分析的詞,為每次輸入的詞產(chǎn)生一個(gè)單一的分析結(jié)果,每讀入一個(gè)詞,都要根據(jù)當(dāng)前的狀態(tài)做出決策,完成了一系列動(dòng)作決策之后即完成了整個(gè)分析過(guò)程。確定性依存句法分析方法的典型代表是移進(jìn)-規(guī)約(Shift-Reduce)狀態(tài)轉(zhuǎn)移模型,該模型在分析過(guò)程中會(huì)維護(hù)一個(gè)棧和一個(gè)隊(duì)列,其中棧用于存儲(chǔ)目前為止的所有依存子樹(shù),隊(duì)列用于存儲(chǔ)尚未被分析到的詞。確定性依存句法分析方法傳統(tǒng)的依存句法分析特征向量稀疏、向量特征泛化能力差,帶來(lái)了特征計(jì)算成本高等一系列問(wèn)題?;谏疃葘W(xué)習(xí)的方法相對(duì)于傳統(tǒng)的NLP技術(shù),在特征提取、特征表示、非線(xiàn)性建模等方面都有很強(qiáng)的優(yōu)勢(shì)。整體來(lái)說(shuō),現(xiàn)在使用深度學(xué)習(xí)的依存句法研究已經(jīng)從對(duì)傳統(tǒng)方法的改進(jìn)轉(zhuǎn)變?yōu)闃?gòu)建端到端模型,此外,在諸多NLP任務(wù)中大放異彩的各種注意力方法也被引入到依存句法分析中?;谏疃葘W(xué)習(xí)的依存句法分析常用的依存句法分析方法依存句法分析性能評(píng)價(jià)指標(biāo)依存句法分析實(shí)踐概述目錄—依存句法分析常用依存句法分析工具依存句法分析性能評(píng)價(jià)指標(biāo)無(wú)標(biāo)記依存正確率(UnlabeledAttachmentScore,UAS):測(cè)試集中找到正確支配詞的詞所占總詞數(shù)的百分比。帶標(biāo)記依存正確率(LabeledAttachmentScore,LAS):測(cè)試集中找到其正確支配詞的詞,且依存關(guān)系類(lèi)型也標(biāo)注正確的詞占總詞數(shù)的百分比。依存正確率(DependencyAccuracy,DA):測(cè)試集中找到正確支配詞非根節(jié)點(diǎn)詞占所有非根節(jié)點(diǎn)詞總數(shù)的百分比。根正確率(RootAccuracy,RA):有兩種定義方式,一種是測(cè)試集中正確根節(jié)點(diǎn)的句子個(gè)數(shù)占句子總數(shù)的百分比。完全匹配率(CompleteMatch,CM):測(cè)試集中無(wú)標(biāo)記依存結(jié)構(gòu)完全正確的句子占句子總數(shù)的百分比。常用的依存句法分析方法依存句法分析性能評(píng)價(jià)指標(biāo)依存句法分析實(shí)踐概述目錄—依存句法分析常用依存句法分析工具本小節(jié)以文獻(xiàn)[6]的工作為例,帶領(lǐng)大家具體實(shí)踐來(lái)了解一種深度學(xué)習(xí)模型在依存句法分析中的應(yīng)用。本節(jié)實(shí)驗(yàn)操作采用的是EnglishPennTreebank(PTB)數(shù)據(jù)集,數(shù)據(jù)為CoNLL格式,如圖所示:實(shí)驗(yàn)一-基于前饋神經(jīng)網(wǎng)絡(luò)的依存句法分析經(jīng)多輪訓(xùn)練之后,最終的結(jié)果如圖所示,可以看到最終在測(cè)試集上模型能得到90%左右的UAS值。實(shí)驗(yàn)一-基于前饋神經(jīng)網(wǎng)絡(luò)的依存句法分析實(shí)驗(yàn)代碼參看教材P85常用的依存句法分析方法依存句法分析性能評(píng)價(jià)指標(biāo)依存句法分析實(shí)踐概述目錄—依存句法分析常用依存句法分析工具StanfordCoreNLP是斯坦福大學(xué)基于Java開(kāi)發(fā)的一個(gè)自然語(yǔ)言處理工具,可以用于很多常用的自然語(yǔ)言任務(wù),如:詞性標(biāo)注、句法分析、命名實(shí)體識(shí)別等等,StanfordCoreNLP提供了已經(jīng)訓(xùn)練好的模型,可以直接通過(guò)Python接口進(jìn)行調(diào)用,因此使用非常方便。StanfordCoreNLP目前支持阿拉伯語(yǔ)、英語(yǔ)、中文德語(yǔ)等多種語(yǔ)言,業(yè)內(nèi)通過(guò)它做平行語(yǔ)料對(duì)比研究的工作也比較多。StanfordCoreNLPHanLP(HanLanguageProcessing)是由一系列模型和算法組成的自然語(yǔ)言處理工具包。HanLP具備功能完善、性能高效、架構(gòu)清晰、語(yǔ)料新、可自定義的特點(diǎn)。與StanfordCoreNLP一樣,HanLP也支持多種語(yǔ)言,可完成自動(dòng)分詞、詞性標(biāo)注、句法分析等多種自然語(yǔ)言處理任務(wù)。HanLP提供了Python的接口pyhanlp,在依存句法分析方面,內(nèi)部實(shí)現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器和基于ArcEager轉(zhuǎn)移系統(tǒng)的柱搜索依存分析器兩種依存句法分析器。HanLP參考文獻(xiàn)GaifmanH.Dependencysystemsandphrase-structuresystems*[J].Information&Computation,1965,8(3):304-337.馮志偉.判斷從屬樹(shù)合格性的五個(gè)條件[A].教育部語(yǔ)言文字應(yīng)用研究所.世紀(jì)之交的中國(guó)應(yīng)用語(yǔ)言學(xué)研究——第二屆全國(guó)語(yǔ)言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C].教育部語(yǔ)言文字應(yīng)用研究所:教育部語(yǔ)言文字應(yīng)用研究所,1998:12.MaruyamaH.Structuraldisambiguationwithconstraintpropagation[C]//28thAnnualMeetingoftheAssociationforComputationalLinguistics.1990:31-38.EisnerJ.ThreenewProbabilisticModelsforDependencyParsing:Anexploration.In:ProceedingsofCOLING,1996,340-345.EisnerJ.Anempiricalcomparisonofprobabilitymodelsfordependencygrammar[J].arXivpreprintcmp-lg/9706004,1997.ChenD,ManningCD.Afastandaccuratedependencyparserusingneuralnetworks[C]//Proceedingsofthe2014conferenceonempiricalmethodsinnaturallanguageprocessing(EMNLP).2014:740-750.中文分詞依存句法分析語(yǔ)義角色標(biāo)注引言參考文獻(xiàn)目錄語(yǔ)義角色標(biāo)注方法語(yǔ)義角色標(biāo)注實(shí)踐概述目錄—語(yǔ)義角色標(biāo)注語(yǔ)義角色標(biāo)注(SemanticRoleLabeling,SRL)是一種淺層語(yǔ)義分析(shallowsemanticparsing)技術(shù),其目標(biāo)是識(shí)別出自然語(yǔ)言句子中的每一個(gè)謂詞及其相應(yīng)的論元。典型的語(yǔ)義論元包括:施事者、受事者、工具、地點(diǎn)、時(shí)間、方式、原因等等,即通過(guò)SRL可以理解句子中各成分之間的語(yǔ)義關(guān)系。語(yǔ)義角色標(biāo)注傳統(tǒng)的語(yǔ)義角色標(biāo)注方法通常首先對(duì)句子進(jìn)行句法分析和謂詞識(shí)別;然后進(jìn)行剪枝以過(guò)濾掉句法分析樹(shù)中不可能成為語(yǔ)義角色的句法成分;最后進(jìn)行角色識(shí)別,即使用機(jī)器學(xué)習(xí)算法對(duì)剩余的句法成分進(jìn)行角色分類(lèi),判斷其角色類(lèi)型。隨著深度學(xué)習(xí)技術(shù)的興起,基于神經(jīng)網(wǎng)絡(luò)的端到端SRL方法也取得了很大的進(jìn)展。該方法通常使用卷積神經(jīng)網(wǎng)絡(luò)、雙向長(zhǎng)短時(shí)記憶(DeepBi-directionalLongShortTermMemory,DB-LSTM)網(wǎng)絡(luò)等模型[1][2][3]。語(yǔ)義角色標(biāo)注方法語(yǔ)義角色標(biāo)注實(shí)踐概述目錄—語(yǔ)義角色標(biāo)注基于統(tǒng)計(jì)的語(yǔ)義角色標(biāo)注方法—
有監(jiān)督的方法SRL系統(tǒng)所使用的特征存在顯著的局部偏置(localbias)問(wèn)題。為了解決局部偏置問(wèn)題,Akbik等人[4]構(gòu)建了上下文特征組合,給出了不同組合之間的距離,用類(lèi)似KNN(k-nearestneighbors)的算法對(duì)論元進(jìn)行分類(lèi),取得了不錯(cuò)的效果。基于統(tǒng)計(jì)的語(yǔ)義角色標(biāo)注方法—
半監(jiān)督或無(wú)監(jiān)督的方法傳統(tǒng)的基于有監(jiān)督學(xué)習(xí)的標(biāo)注方法嚴(yán)重依賴(lài)于訓(xùn)練語(yǔ)料的標(biāo)注正確率、覆蓋率和標(biāo)注方式,當(dāng)測(cè)試數(shù)據(jù)和訓(xùn)練語(yǔ)料的領(lǐng)域、類(lèi)型不一致時(shí),標(biāo)注性能下降非常明顯。開(kāi)發(fā)更多的語(yǔ)義語(yǔ)料又需要耗費(fèi)極大的人力物力。因此,基于半監(jiān)督或無(wú)監(jiān)督的方法,利用大規(guī)模未標(biāo)注的數(shù)據(jù)成為有前途的解決方案。基于深度學(xué)習(xí)的語(yǔ)義角色標(biāo)注方法Collobert等人[5]最早將卷積神經(jīng)網(wǎng)絡(luò)框架,用于詞性標(biāo)注、組塊分析、命名實(shí)體識(shí)別和語(yǔ)義角色標(biāo)注等任務(wù),除SRL之外的其它三種任務(wù)都達(dá)到了基于統(tǒng)計(jì)的方法的最好性能?;谏疃葘W(xué)習(xí)的語(yǔ)義角色標(biāo)注方法2017年,He等人[6]為語(yǔ)義角色標(biāo)注(SRL)引入了一種新的深度學(xué)習(xí)模型,該模型使用具有約束解碼的深層高效的Bi-LSTM體系結(jié)構(gòu),將SRL視為BIO標(biāo)簽問(wèn)題。語(yǔ)義角色標(biāo)注方法語(yǔ)義角色標(biāo)注實(shí)踐概述目錄—語(yǔ)義角色標(biāo)注這一節(jié)中“DeepSemanticRoleLabeling:WhatWorksandWhat’sNext”[6]的工作為例,帶領(lǐng)大家深入學(xué)習(xí)了解深度學(xué)習(xí)在語(yǔ)義角色標(biāo)注中的應(yīng)用。數(shù)據(jù)格式采用BIO標(biāo)注格式,每一行表示一個(gè)訓(xùn)練樣本,包含分好詞的句子和其角色標(biāo)注信息。句子和角色標(biāo)注用|||符號(hào)隔開(kāi)。例如:Mycatslovehats.|||B-A0I-A0B-VB-A1O基于深度學(xué)習(xí)的語(yǔ)義角色標(biāo)注實(shí)踐輸出結(jié)果示例:基于深度學(xué)習(xí)的語(yǔ)義角色標(biāo)注實(shí)踐實(shí)驗(yàn)代碼參看教材P101LTP(LanguageTechnologyPlatform)提供了一系列中文自然語(yǔ)言處理工具,用戶(hù)可以使用這些工具對(duì)于中文文本進(jìn)行分詞、詞性標(biāo)注、句法分析等工作。pyltp是語(yǔ)言技術(shù)平臺(tái)LTP的Python封裝?;赑yLTP的語(yǔ)義角色標(biāo)注實(shí)踐輸出結(jié)果示例:其含義為:對(duì)于謂詞“是”,它的A0論元是“小明”,A1論元是“理工大學(xué)的學(xué)生”?;赑yLTP的語(yǔ)義角色標(biāo)注實(shí)踐實(shí)驗(yàn)代碼參看教材P107參考文獻(xiàn)CollobertR,WestonJ,BottouLEO,etal.NaturalLanguageProcessing(Almost)fromScratch[J].JournalofMachineLearningResearch,2011,12:2493-2537.ZhouJ,XuW.End-to-endlearningofsemanticrolelabelingusingrecurrentneuralnetworks[C]//ProceedingsoftheAnnualMeetingoftheAssociationforComputationalLinguistics,2015.WangZAJT.ChineseSemanticRoleLabelingwithBidirectionalRecurrentNeuralNetworks[C]//Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,2015,1626–1631.AkbikA,LiY.K-SRL:Instance-basedLearningforSemanticRoleLabeling[C],ProceedingsofCOLING2016,599–608.CollobertR,WestonJ,BottouLEO,etal.NaturalLanguageProcessing(Almost)fromScratch[J].JournalofMachineLearningResearch,2011,12:2493-2537.HeL,LeeK,LewisM,etal.Deepsemanticrolelabeling:Whatworksandwhat’snext[C]//Proceedingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).2017:473-483.機(jī)器翻譯自然語(yǔ)言處理:理論與實(shí)踐機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開(kāi)源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯概況——概念機(jī)器翻譯(MachineTranslation,MT)是利用計(jì)算機(jī)將一種自然語(yǔ)言(源語(yǔ)言,SourceLanguage)自動(dòng)翻譯到另一種自然語(yǔ)言(目標(biāo)語(yǔ)言,TargetLanguage)的技術(shù),是自然語(yǔ)言處理與人工智能領(lǐng)域的重要研究方向之一。機(jī)器翻譯通常包括語(yǔ)音翻譯以及文本翻譯。機(jī)器翻譯概況——發(fā)展歷史開(kāi)創(chuàng)期機(jī)器翻譯思想始于上世紀(jì)三四十年代。20世紀(jì)30年代,利用計(jì)算模型進(jìn)行自動(dòng)翻譯的思想開(kāi)始出現(xiàn)萌芽。1946年,世界上第一臺(tái)通用電子數(shù)字計(jì)算機(jī)ENIAC研制成功。美國(guó)科學(xué)家瓦倫·韋弗(WarrenWeaver)于1949年發(fā)表了題為《翻譯》的備忘錄,正式提出了機(jī)器翻譯的思想,韋弗也被稱(chēng)為“機(jī)器翻譯之父”。1954年,美國(guó)Georgetown大學(xué)在IBM協(xié)助下,實(shí)現(xiàn)了世界上第一個(gè)俄-英MT系統(tǒng),拉開(kāi)了全球機(jī)器翻譯的大幕。機(jī)器翻譯概況——發(fā)展歷史受挫期1966年,美國(guó)語(yǔ)言自動(dòng)處理咨詢(xún)委員會(huì)(ALPAC)發(fā)布了題為《語(yǔ)言與機(jī)器》的ALPAC報(bào)告。報(bào)告對(duì)機(jī)器翻譯采取全面否定的態(tài)度。此后,機(jī)器翻譯研究受到了嚴(yán)重的打擊。機(jī)器翻譯概況——發(fā)展歷史復(fù)蘇期20世紀(jì)70年代中后期開(kāi)始,數(shù)據(jù)驅(qū)動(dòng)和統(tǒng)計(jì)方法的發(fā)展為機(jī)器翻譯研究提供了新的思路,機(jī)器翻譯開(kāi)始從受挫中復(fù)蘇。20世紀(jì)80年代后,基于統(tǒng)計(jì)方法的機(jī)器翻譯發(fā)展迅速。以Google翻譯等為代表的一系列商用產(chǎn)品開(kāi)始出現(xiàn)。繁榮期2013年以來(lái),神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯開(kāi)始出現(xiàn)并成為主流,翻譯技術(shù)飛速發(fā)展,翻譯產(chǎn)品和服務(wù)不斷增加,并與不同應(yīng)用領(lǐng)域和場(chǎng)景深度結(jié)合。機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開(kāi)源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯主要方法基于規(guī)則(rule-based)的方法主要依靠語(yǔ)言學(xué)家等根據(jù)語(yǔ)言現(xiàn)象和語(yǔ)言特點(diǎn),人工總結(jié)和編寫(xiě)機(jī)器可讀的形式化規(guī)則和雙語(yǔ)詞典,在規(guī)則的干預(yù)下,實(shí)現(xiàn)機(jī)器翻譯。主要包括分析、轉(zhuǎn)換和生成三個(gè)主要階段。
基于規(guī)則的專(zhuān)利機(jī)器翻譯示例分析:(0)[一種]+(f){(1)[的]}+(2)[NP]LC_TREE(NP,
0,2)轉(zhuǎn)換:
(0)[一種]+(f){(1)[的]}+(2)[方法]|[裝置](0)[a]
+
(1)[method]|[equipment]+for+…(0)[當(dāng)]+…+(1)[時(shí)]&END%(0)[when]+DELETE(1)[時(shí)]+…生成雙語(yǔ)翻譯詞典:本發(fā)明-->
this
invention;提供-->
provide;
……本發(fā)明提供了[一種用于專(zhuān)利交易的[推薦方法和裝置]],當(dāng)所述專(zhuān)利權(quán)人信息滿(mǎn)足第一預(yù)定條件時(shí),將所述第一專(zhuān)利發(fā)送給第一企業(yè)。Thisinventionprovides[arecommendationmethodandequipment
forpatenttransactions],andwhenthepatenteeinformationmeetsafirstpredeterminedcondition,thefirstpatentissenttoafirstenterprise.規(guī)則翻譯方法的特點(diǎn)優(yōu)勢(shì)特定領(lǐng)域針對(duì)性強(qiáng)人工制定規(guī)則,保證較好的翻譯結(jié)構(gòu)較準(zhǔn)確的翻譯結(jié)果不足領(lǐng)域遷移性差人工工作量大,主觀性強(qiáng),系統(tǒng)開(kāi)發(fā)周期長(zhǎng)規(guī)則沖突問(wèn)題,形成惡性循環(huán)機(jī)器翻譯主要方法語(yǔ)言模型翻譯模型SMT翻譯框架解碼器我周日在圖書(shū)館看書(shū)翻譯模型P(S|T)語(yǔ)言模型P(T)我去圖書(shū)館。I
went
to
the
library.會(huì)議將在周日舉行.
The
meeting
will
be
held
on
Sunday.他在書(shū)店看書(shū)。He
reads
books
in
the
book
store.……我I
0.5我me
0.2看書(shū)read
book
0.9在周日on
Sunday
0.8……I
work
in
BIT.I
went
to
the
library.The
meeting
will
be
held
on
Sunday.He
reads
books
in
the
book
store.……read
a
->book
0.5read
a
->
TV
0.02……單語(yǔ)目標(biāo)語(yǔ)語(yǔ)料I
read
books
in
the
library
on
Sunday.argmax
P(T)P(S|T)SMT發(fā)展SMT特點(diǎn)優(yōu)勢(shì)翻譯速度快,人工干預(yù)少,更省時(shí)省力適用于不同語(yǔ)言對(duì)翻譯質(zhì)量有很大改善不足高度依賴(lài)雙語(yǔ)平行語(yǔ)料的質(zhì)量和規(guī)模對(duì)語(yǔ)言的分析不夠深入一些特殊問(wèn)題難以解決機(jī)器翻譯主要方法基于神經(jīng)網(wǎng)絡(luò)(Neural-based
)的方法2013年開(kāi)始出現(xiàn),迅速成為了當(dāng)前的主流方法。NMT的主要思想是,首先使用神經(jīng)網(wǎng)絡(luò)模型通過(guò)分布式表示(DistributedRepresentation)的方式將源語(yǔ)言語(yǔ)句轉(zhuǎn)換成低維的實(shí)數(shù)向量,映射到向量空間中,然后再利用神經(jīng)網(wǎng)絡(luò)模型將實(shí)數(shù)向量轉(zhuǎn)換為目標(biāo)語(yǔ)言語(yǔ)句。北京是中國(guó)的首都實(shí)數(shù)向量0.020.140.330.56……BeijingistheCapitalofChina神經(jīng)網(wǎng)絡(luò)編碼器(encoder)神經(jīng)網(wǎng)絡(luò)解碼器(decoder)NMT方法框架的發(fā)展端到端(end-to-end)框架采用編碼器-解碼器實(shí)現(xiàn)。容易出現(xiàn)“梯度消失”和“梯度爆炸”
注意力(Attention)機(jī)制實(shí)時(shí)計(jì)算動(dòng)態(tài)變化的上下文向量發(fā)展出多種注意力變體模型
循環(huán)神經(jīng)網(wǎng)絡(luò)框架LSTM任意長(zhǎng)度的句子都被編碼為固定維度向量翻譯性能有限Transformer框架多頭注意力機(jī)制顯性位置編碼信息
目前的主流方法和最先進(jìn)技術(shù)NMT特點(diǎn)優(yōu)勢(shì)目前的主流方法領(lǐng)域遷移性強(qiáng)在特定領(lǐng)域的譯文句法可讀性和翻譯質(zhì)量更好不足嚴(yán)重依賴(lài)數(shù)據(jù)資源和算力資源可解釋性差模型巨大訓(xùn)練耗時(shí)低資源語(yǔ)言翻譯仍不理想機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開(kāi)源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯自動(dòng)評(píng)價(jià)BLEU(BilingualEvaluationUnderstudy
)使用最廣泛、最具代表性的自動(dòng)評(píng)價(jià)方式之一比較系統(tǒng)譯文和參考譯文中的任意n--gram字符串的相似程度,判斷譯文的質(zhì)量。相似程度越高,譯文質(zhì)量就越好。指標(biāo)范圍為0-1,常采用百分比形式表示,越接近1,說(shuō)明譯文質(zhì)量越好。
機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開(kāi)源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯質(zhì)量估計(jì)質(zhì)量估計(jì)(Quality
Estimation,QE)不同于BLEU,QE無(wú)需參考譯文可從詞語(yǔ)、句子和文檔等不同級(jí)別對(duì)譯文的翻譯質(zhì)量進(jìn)行估計(jì)多用于譯后編輯等重要場(chǎng)景,作為BLEU評(píng)價(jià)的補(bǔ)充機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開(kāi)源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯開(kāi)源工具統(tǒng)計(jì)機(jī)器翻譯MosesJoshuaNiuTrans-SMT神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯Tensor2Tensor
Fairseq
NematusOpe
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)參考:近代上海國(guó)立音樂(lè)院-國(guó)立音專(zhuān)學(xué)刊的歷史敘事及其文化意義闡釋研究
- 2025年《學(xué)習(xí)師德學(xué)習(xí)教育法規(guī)》心得體會(huì)例文(5篇)
- 2025年度個(gè)人二手房交易安全保障協(xié)議3篇
- 二零二五版羅馬柱歷史文化遺址保護(hù)合同4篇
- 二零二五版藥店?duì)I業(yè)員藥品配送及聘用合同4篇
- 2025版投資經(jīng)理借貸雙方合作協(xié)議書(shū)3篇
- 二零二五年度國(guó)際藝術(shù)品拍賣(mài)交易合同3篇
- 二零二五年度出差工作成果評(píng)估與獎(jiǎng)勵(lì)合同3篇
- 2025年度戶(hù)外景觀設(shè)計(jì)施工與后期養(yǎng)護(hù)合同4篇
- 2025版投標(biāo)文件制作及審核服務(wù)合同模板3篇
- 中央2025年國(guó)務(wù)院發(fā)展研究中心有關(guān)直屬事業(yè)單位招聘19人筆試歷年參考題庫(kù)附帶答案詳解
- 2024年09月北京中信銀行北京分行社會(huì)招考(917)筆試歷年參考題庫(kù)附帶答案詳解
- 外呼合作協(xié)議
- 小學(xué)二年級(jí)100以?xún)?nèi)進(jìn)退位加減法800道題
- 保險(xiǎn)公司2025年工作總結(jié)與2025年工作計(jì)劃
- 2024年公司領(lǐng)導(dǎo)在新年動(dòng)員會(huì)上的講話(huà)樣本(3篇)
- 眼科護(hù)理進(jìn)修專(zhuān)題匯報(bào)
- GB/T 33629-2024風(fēng)能發(fā)電系統(tǒng)雷電防護(hù)
- 深靜脈血栓(DVT)課件
- 2023年四川省廣元市中考數(shù)學(xué)試卷
- GB/T 19885-2005聲學(xué)隔聲間的隔聲性能測(cè)定實(shí)驗(yàn)室和現(xiàn)場(chǎng)測(cè)量
評(píng)論
0/150
提交評(píng)論