自然語言-處理課件_第1頁
自然語言-處理課件_第2頁
自然語言-處理課件_第3頁
自然語言-處理課件_第4頁
自然語言-處理課件_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

前言目錄7.1自然語言處理應用場景7.2自然語言處理基本功能模塊7.3文本處理7.4機器翻譯7.5應用案例前言目錄7.1自然語言處理應用場景7.2自然語言處7.1自然語言處理應用場景7.1自然語言處理應用場景

先通過一個案例說明自然語言處理中常用的術語及其代表的知識平面。

由下圖可以看出,自然語言處理系統(tǒng)首先把指令“刪除文件B”在音位學平面轉(zhuǎn)化成序列“shanchu#wenjian#bi”;然后在形態(tài)學平面把這個音位序列轉(zhuǎn)化為語素序列“刪除”,“文件”,“B”;接著在詞匯平面把這個語素序列轉(zhuǎn)化為字詞序列并標注出相應的詞性:(刪除,VERB),(“文件”,NOUN)(“B”,ID);在句法學平面進行句法分析,得到這個單詞序列的句法結(jié)構(gòu),用樹形圖表示;在語義學平面得到這個句法結(jié)構(gòu)的語義解釋:刪除文件(“B”);在語用學平面得到這個指令的語用解釋“rm-iB”,此處用的是UNIX系統(tǒng)的指令符號和書寫規(guī)范,最后計算機執(zhí)行這個命令。先通過一個案例說明自然語言處理中常用的術語及其自然語言處理過程自然語言處理過程7.2自然語言處理基本功能模塊7.2自然語言處理基本功能模塊長期趨勢的分析方法——移動平均法移動的項數(shù)越多,對原數(shù)列波動的曲線修勻得越光滑,也就越能顯示出現(xiàn)象的長期發(fā)展趨勢。移動的項數(shù)越多,首尾丟失的項數(shù)也就越多,進行趨勢外推測時的誤差也就越大移動項數(shù)的多少要依據(jù)現(xiàn)象發(fā)展的特點和統(tǒng)計分析的要求確定實際應用中,移動平均法主要用來有效的消除不規(guī)則變動和季節(jié)變動對原數(shù)列的影響移動平均采用奇數(shù)項移動能一次對準被移動數(shù)據(jù)的中間位置,若采用偶數(shù)項移動平均,一次移動平均后的數(shù)值將置于居中的兩項數(shù)值之間長期趨勢的分析方法——移動平均法移動的項數(shù)越多,對原數(shù)列波動6長期趨勢的分析方法——指數(shù)平滑指數(shù)平滑法是對過去的觀測值加權平均進行預測,使第期的預測值等于期的實際觀測值與第期指數(shù)平滑值的加權平均值一次指數(shù)平滑法預測模型長期趨勢的分析方法——指數(shù)平滑指數(shù)平滑法是對過去的觀測值加權7長期趨勢的分析方法——指數(shù)平滑平滑系數(shù)的取值對平滑效果影響很大,越小平滑效果越顯著取值的大小決定了在平滑值中起作用的的觀察值的項數(shù)的多少一般來說取值的大小應當視所預測對象的特點及預測期的長短而定長期趨勢的分析方法——指數(shù)平滑平滑系數(shù)的取值對平滑效果影響很8長期趨勢的分析方法——數(shù)學模型法數(shù)學模型法就是根據(jù)時間數(shù)列發(fā)展形態(tài)的特點,選擇一種合適的數(shù)學方程式,進而以自變量x代表時間,y代表實際觀測值,然后依據(jù)此方程式來分析長期趨勢的方法數(shù)學模型有直線型和曲線型兩種類型,而每一種類型又有很多種具體形式。因此,在建立模型之前首先要判斷趨勢的形態(tài)散點圖法指標法長期趨勢的分析方法——數(shù)學模型法數(shù)學模型法就是根據(jù)時間數(shù)列發(fā)9季節(jié)周期性數(shù)據(jù)的分析方法季節(jié)模型指一時間序列在各年中所呈現(xiàn)出的典型狀態(tài),這種狀態(tài)年復一年以基本相同的形態(tài)出現(xiàn)季節(jié)模型是由一套指數(shù)組成的,各指數(shù)刻畫了現(xiàn)象在一個年度內(nèi)各月或各季的典型特征12個月(或4個季度)指數(shù)的平均數(shù)應等于100%,而各月(或季)的指數(shù)之和應等于1200%(或400%)季節(jié)周期性數(shù)據(jù)的分析方法季節(jié)模型指一時間序列在各年中所呈現(xiàn)出10季節(jié)周期性數(shù)據(jù)的分析方法季節(jié)模型正是以各個指數(shù)的平均數(shù)等于100%為條件而構(gòu)成的,它反映了某一月份或季度的數(shù)值占全年平均數(shù)的大小如果現(xiàn)象的發(fā)展沒有季節(jié)變動,則各期的季節(jié)指數(shù)應等于100%如果某一月份或季度有明顯的季節(jié)變化,則各期的季節(jié)指數(shù)應大于或小于100%季節(jié)周期性數(shù)據(jù)的分析方法季節(jié)模型正是以各個指數(shù)的平均數(shù)等于111季節(jié)周期性數(shù)據(jù)的分析方法采用季節(jié)指數(shù)法消除季節(jié)變動以外的三個因素同期平均法:現(xiàn)象不存在長期趨勢或長期趨勢不明顯的情況下,一般是直接用平均的方法通過消除循環(huán)變動和不規(guī)則變動來測定季節(jié)變動移動平均趨勢剔除法:現(xiàn)象具有明顯的長期趨勢時,一般是先消除長期趨勢,然后再用平均的方法再消除循環(huán)變動和不規(guī)則變動季節(jié)周期性數(shù)據(jù)的分析方法采用季節(jié)指數(shù)法消除季節(jié)變動以外的三個12季節(jié)周期性數(shù)據(jù)的分析——同期平均法“同期平均”就是在同季(月)內(nèi)“平均”,而在不同季(月)之間“移動”的一種“移動平均”法“平均”是為了消除非季節(jié)因素的影響,而“移動”則是為了測定季節(jié)因素的影響程度步驟如下:第一,計算各年同季(月)的平均數(shù)第二,計算各年同季(或同月)平均數(shù)的平均數(shù)第三,計算季節(jié)比率季節(jié)周期性數(shù)據(jù)的分析——同期平均法“同期平均”就是在同季(13季節(jié)周期性數(shù)據(jù)的分析——同期平均法同期平均法計算簡單,易于理解但實際上,許多時間序列所包含的長期趨勢和循環(huán)波動,很少能夠通過平均予以消除只有當序列的長期趨勢和循環(huán)波動不明顯或影響不重要,可忽略不計時,應用該方法比較合適季節(jié)周期性數(shù)據(jù)的分析——同期平均法同期平均法計算簡單,易于理147.2.1詞匯自動處理詞匯是語言的建筑材料,是語言描述的中心。漢語詞匯的自動處理主要分為文本的自動分詞和自動標注。先看兩個文檔:文檔1:學校有關于人工智能的書籍,學校開設人工智能課程。文檔2:學校推動教學改革,推動人工智能課程改革。然后對文檔1、文檔2進行如下分詞:文檔1:學校|有|關于|人工智能|的|書籍,|學校|開設|人工智能|課程。文檔2:學校|推動|教學|改革|,推動|人工智能|課程|改革。上述分詞其實是我們根據(jù)自己民族語言習慣人工進行的分詞,人工智能要解決的是機器怎樣進行中文分詞。7.2.1詞匯自動處理詞匯是語言的建筑材料,是語言描述的工程上,已經(jīng)解決了機器怎樣進行中文分詞。怎樣解決的呢?以文檔2為例,增加文檔2的另一種分詞結(jié)果,和上述文檔2的分詞羅列如下:文檔2:學校|推動|教學|改革|,推動|人工智能|課程|改革。

A1

A2A3A4A5A6A7A8

學校|推動|教學改革|,推動|人工|智能|課程改革。 B1

B2B3B4B5B6B7下面會構(gòu)建語料庫,機器能根據(jù)語料庫自動計算上面兩種不同分詞方式各自出現(xiàn)的概率,哪個概率大就使用哪個分詞方式。工程上,已經(jīng)解決了機器怎樣進行中文分詞。怎樣解決的呢?以文檔

人工智能應用中,通常將現(xiàn)代漢語分為15類:名詞、時間詞、方位詞、數(shù)詞、量詞、代詞、區(qū)別詞、動詞、趨向動詞、能愿動詞、形容詞、副詞、介詞、連詞、助詞。

自動詞類標注的關鍵是排除兼類詞歧義,所謂兼類詞也就是詞類的歧義,這是漢語自動處理的難點之一。

試比較:我在北京上學(“在”為介詞,“上”為動詞)

我在床上(“在”為動詞,“上”為方位詞)

上面的例子中,“在”為“動-介”兼類,“上”為“方位-動”兼類。漢語中往往越是常用的詞,不同的用法就越多,兼類現(xiàn)象也就越多。人工智能應用中,通常將現(xiàn)代漢語分為15類:名詞7.2.2句法自動處理

就漢語文本來說,經(jīng)過詞匯自動處理,每個詞都從連續(xù)的漢字流中被切分出來,詞與詞之間出現(xiàn)了空白,并且都被標注了供機器處理的各種信息。然而,經(jīng)過詞匯自動處理之后,句子中詞與詞之間的詞法關系,句子中詞組與詞組之間的結(jié)構(gòu)關系,仍然是不清楚的,需要進一步處理,這就是句法自動處理。7.2.2句法自動處理就漢語文本來說,經(jīng)過

下面通過一個簡單的喬姆斯基形式語法類型G演示計算機自動識別句子的各個句法單位以及他們之間的相互關系的過程,這個過程英文為parsing,可譯為自動句法分析,設語法類型G為:下面通過一個簡單的喬姆斯基形式語法類型G演示計

先予以說明:S是初識符號,它屬于集合VN,集合VN中的符號是用來描述語法的,可將NP、VP、V依次解釋為名詞短語、動詞短語、動詞。VT是該語言中的詞匯,是終極符號。

P叫做重寫規(guī)則,共有(i)—(v)五條,箭頭

左邊的符號簡稱為規(guī)則左邊,右邊的符號簡稱為規(guī)則右邊,VN,VT,S,P四元組定義了語法G=(VN,VT,S,P)。我們用該語法G分析句子“熊貓吃竹葉”。先予以說明:S是初識符號,它屬于集合VN,集合首先,從初始狀態(tài)S開始,寫出句子“熊貓吃竹葉”的推導過程:推導過程

所用規(guī)則S

開始NPVP

(i)NPVNP(ii)熊貓VNP(iv)熊貓吃NP(v)熊貓吃竹葉(iv)首先,從初始狀態(tài)S開始,寫出句子“熊貓吃竹葉”的推導過程:推上述推導過程,也就是句子的生成過程,可用下圖的句法樹形圖表示:句法樹形圖上述推導過程,也就是句子的生成過程,可用下圖的句法樹形圖表示

其次,我們采用自低向上剖析(buttom-upparsing)方法剖析句子“熊貓吃竹葉”,將句子切分為如下形式:

熊貓|吃|竹葉

根據(jù)重寫規(guī)則(iv),可得如下剖析圖

熊貓|吃|竹葉

NP_

然后,剖析符號串“NP|吃|竹葉”,先檢查語法G中有沒有右部為NP的重寫規(guī)則,檢查結(jié)果是沒有。再檢查符號串“NP|吃|竹葉”中的第二個詞“吃”,根據(jù)規(guī)則(V)可得如下剖析圖

熊貓|吃|竹葉

NP_V_其次,我們采用自低向上剖析(buttom-up

剖析過程中,要在語法G容許的范圍內(nèi),盡量把符號串的語法符號NP,V等組合起來。先檢查語法G中有沒有右部為NP的重寫規(guī)則,檢查結(jié)果是沒有,再檢查語法G中有沒有把NP和V組合起來的重寫規(guī)則,檢查結(jié)果也是沒有。隨后檢查符號串“NP|V|竹葉”中的第二項V,根據(jù)規(guī)則(iii),可得如下剖析圖

熊貓|吃|竹葉NP_V_ VP_剖析過程中,要在語法G容許的范圍內(nèi),盡量把符號

繼續(xù)剖析,此時語法G中重寫規(guī)則(i)的右邊為符號串NPVP,重寫規(guī)則(iv)的右邊為“竹葉”,此處該應用重寫規(guī)則(i)呢還是(iv)呢?經(jīng)過試驗,該應用重寫規(guī)則(iv),可得如下剖析圖:

熊貓|吃|竹葉NP_V_NP_ VP_繼續(xù)剖析,此時語法G中重寫規(guī)則(i)的右邊為符

繼續(xù)剖析,可以發(fā)現(xiàn)支配V的這個VP語法符號不能引導我們找到成功的途徑,需要去掉VP,這叫做采用“回溯”(backtracking)的方法,可得如下剖析圖:

熊貓|吃|竹葉NP_V_NP_

應用重寫規(guī)則(ii),可得如下剖析圖:

熊貓|吃|竹葉NP_V_NP_

_VP_

再應用重寫規(guī)則(i),可得如下剖析圖:

熊貓|吃|竹葉NP_V_NP_

_VP_S

S的跨度從句首開始,到句末結(jié)束,覆蓋了整個句子,因此句子剖析成功。繼續(xù)剖析,可以發(fā)現(xiàn)支配V的這個VP語法符號不能7.2.3語義自動處理

語義分析是自然語言處理的最基礎的功能模塊,本小節(jié)只簡要介紹義素分析法、語義網(wǎng)絡的形式模型

1.義素分析法

義素是意義的基本要素,也是詞的意義的區(qū)別特征,或者說,詞的意義是一些語義特征(即義素)的總和,例如,“哥哥”的意思是[+人][+親屬][+同胞][+年長][+男性]等義素的總和,“妹妹”的意思是[+人][+親屬][+同胞][-年長][-男性]等義素的總和?!?”表示肯定,“-”表示否定,這樣[-男性]就是[+女性]。一組詞的義素可以用義素矩陣來表示,漢語中表同胞的親屬詞的義素矩陣如表

所示7.2.3語義自動處理語義分析是自然語言處

可見,義素矩陣反映了相應親屬詞的基本語義特征,義素分析法是語義形式化描述的一種好辦法??梢?,義素矩陣反映了相應親屬詞的基本語義特征,2.語義網(wǎng)絡

語義網(wǎng)絡可以較好的描述人類的聯(lián)想記憶,可用有向圖表示,該有向圖由三元組(結(jié)點1,弧,結(jié)點2)連接而成的,如圖所示,可將該三元組視為構(gòu)圖的積木。語義網(wǎng)絡三元組的表示法2.語義網(wǎng)絡語義網(wǎng)絡三元組的表示法

結(jié)點表示概念,弧是有方向、有標記的,弧的方向體現(xiàn)了結(jié)點1為主,結(jié)點2為輔,弧上的標記表示結(jié)點1的屬性或結(jié)點1與結(jié)點2之間的關系。從邏輯表示的方法來看,語義網(wǎng)絡中的一個三元組相當于一個二元謂詞,語義網(wǎng)絡內(nèi)各個概念之間的關系,主要由ISA,PART-OF,IS等謂詞來表示。這樣命題“墻上有黑板”,可以表示為下圖PART-OF關系結(jié)點表示概念,弧是有方向、有標記的,弧的方向體

當用語言網(wǎng)絡來表述事件時,語義網(wǎng)絡中結(jié)點之間的關系,還可以是施事(AGENT)、受事(PATIENT)、位置(LOCATION)等。例如,“張忠老師幫助王林同學”這一事件可以表示為圖事件的語義網(wǎng)絡當用語言網(wǎng)絡來表述事件時,語義網(wǎng)絡中結(jié)點之間的7.3文本處理7.3文本處理7.3.1文本特征1.詞袋模型

詞袋模型是一種常用的提取文本特征的數(shù)學模型,它將一篇文檔看作是一個裝有若干詞語的袋子,這樣就僅考慮了詞語在文檔中出現(xiàn)的次數(shù),而忽略了詞語的順序以及句子的結(jié)構(gòu),這種簡化是建模所必要的,事實證明也很有效。例如:

文檔1:學校有關于人工智能的書籍,學校開設人工智能課程。

依照漢語理解習慣,我們將文檔1拆分成詞語并標記詞語出現(xiàn)的次數(shù),這樣形成的集合:

{(學校:2),(有:1),(關于:1),(人工智能:2),(的:1),(書籍:1),(開設:1),(課程:1)}

就是文檔1對應的“詞袋”(bag-of-word)

詞袋模型對文檔1進行了很大的簡化,但仍保留了文檔1的關鍵信息,我們通過“人工智能”、“書籍”、“課程”等詞語仍然可以知道文檔1與學習人工智能有關,這正是詞袋模型的用處。7.3.1文本特征1.詞袋模型例7.1

寫出文檔2對應的詞袋。文檔2:學校推動教學改革,推動人工智能課程改革。

解:{(學校:1),(推動:2),(教學:1),(改革:2),(人工智能:1),(課程:1)}例7.1寫出文檔2對應的詞袋。

文本處理包含像期刊、微信、網(wǎng)頁等許多不同種類,實際應用中,通常將要處理的文本收集一起做成語料庫,然后提取語料庫中所有出現(xiàn)的詞語,并形成一個詞典。例如增加文檔3。

文檔3:國家推動人工智能產(chǎn)業(yè)發(fā)展。

構(gòu)建一個包含三篇文檔的語料庫:

文檔1:學校有關于人工智能的書籍,學校開設人工智能課程。

文檔2:學校推動教學改革,推動人工智能課程改革。

文檔3:國家推動人工智能產(chǎn)業(yè)發(fā)展。文本處理包含像期刊、微信、網(wǎng)頁等許多不同種類,

根據(jù)語料庫提取所有出現(xiàn)過的詞語形成詞典:

123

4

56

7891011121314

學校有關于人工智能的書籍開設課程推動教學改革國家產(chǎn)業(yè)發(fā)展

“的”、“了”、“也”等這類不攜帶任何主題信息的高頻詞稱為停止詞,構(gòu)建詞典時我們通常不會去除停止詞。根據(jù)語料庫提取所有出現(xiàn)過的詞語形成詞典:統(tǒng)計每篇文檔中每個詞語出現(xiàn)的次數(shù),如表上述統(tǒng)計結(jié)果即是三篇文檔的詞計數(shù)向量文檔1:(2,1,1,2,1,1,1,1,0,0,0,0,0,0)文檔2:(1,0,0,1,0,0,0,1,2,2,1,0,0,0)文檔3:(0,0,0,1,0,0,0,0,1,0,0,1,1,1)語料庫詞典統(tǒng)一了各文檔詞計數(shù)向量的維數(shù)。統(tǒng)計每篇文檔中每個詞語出現(xiàn)的次數(shù),如表上述統(tǒng)計結(jié)果即是三篇文3.詞頻率與逆文檔頻率(tf-idf)

前面已經(jīng)計算出了一篇文檔的詞頻率tf(termfrequency)。詞頻率越大,這個詞語在這篇文檔中出現(xiàn)的次數(shù)就越多,這個詞語對這篇文檔的重要性就越大,信息檢索中,就是要在大量文檔形成的語料庫中,查找出那些對關鍵詞語重要的文檔,詞頻率tf只包含詞語的信息,未包含語料庫的信息,這個包含語料庫信息的指標叫逆文檔頻率idf(inversedocumentfrequency)。

假定語料庫中總共有D篇文檔,語料庫形成的詞典中第i個詞語在某篇文檔中出現(xiàn)過,計數(shù)一次,假設共有Di篇文檔出現(xiàn)了第i個詞語,那么第i個詞語的文檔頻率即為dfi=Di/D,這個詞語的逆文檔頻率為文檔頻率的負對數(shù),即idfi=-logDi/D,由于Di≤D,負號保證了idf大于等于0。3.詞頻率與逆文檔頻率(tf-idf)假定語料

4.文檔特征

將一個詞語在某篇文檔中的詞頻率tf與該詞語的逆文檔頻率(idf)相乘,就是該詞語在這篇文檔中的詞頻率-逆文檔頻率(tf-idf),詞頻率-逆文檔頻率是對詞頻率的一種修正。

一篇文檔,將該文檔的詞頻向量中的頻率值修正為詞頻率-逆文檔頻率,得到這篇文檔的詞頻率-逆文檔頻率向量,它就是文檔的特征。4.文檔特征

兩個向量夾角的余弦值按公式(7.1)計算,對兩個tf-idf文檔向量而言,由tf-idf≥0,所以余弦值介于0到1之間。從三角形的基本原理可知,如果兩個向量夾角的余弦值越大,那這兩個向量代表的文檔就越相似。0度角的余弦值是1,代表文檔是相同的或者非常相似。文檔如果表現(xiàn)為正交向量,其值則接近于0。

兩個向量夾角的余弦值按公式(7.1)計算,對兩

7.4機器翻譯7.4機器翻譯

語言是有限手段的無限運用,人們使用和理解的句子范圍都是無限的。機器翻譯的實質(zhì),就是把源語言中無限數(shù)量的句子,通過有限的規(guī)則,自動轉(zhuǎn)換為目標語言中無限數(shù)目的句子。喬姆斯基說:一個人的語言知識是以某種方式體現(xiàn)在人腦這個有限的機體之中的,因此,語言知識就是一個由某種規(guī)則和原則構(gòu)成的有限系統(tǒng)。但是一個會說話的人卻能講出并理解他從未聽到過的句子,而且這種能力是無限的,人們使用和理解的句子范圍都是無限的。語言是有限手段的無限運用,人們使用和理解的句子7.4.1基于規(guī)則的機器翻譯

基于規(guī)則的機器翻譯,采用規(guī)則型語言模型,它以生成語言學為基礎,人工編制語言規(guī)則,這些語言規(guī)則主要來自語言學家掌握的語言學知識,難免有主觀性和片面性。

一個完整的機器翻譯過程可以分為如下六個步驟:

源語言詞法分析;

源語言句法分析;

源語言目標語言詞匯轉(zhuǎn)換;

源語言目標語言結(jié)構(gòu)轉(zhuǎn)換;

目標語言句法生成;

目標語言詞法生成。7.4.1基于規(guī)則的機器翻譯基于規(guī)則的機器機器翻譯金字塔機器翻譯金字塔

可以看出,這個機器翻譯金字塔的左側(cè)是源語言的分析,右側(cè)是目標語言的生成,中間是源語言到目標語言的轉(zhuǎn)換。源語言的分析獨立于目標語言的生成,只是在轉(zhuǎn)換部分才同時涉及源語言和目標語言,這種“獨立分析-獨立生成-相關轉(zhuǎn)換”的思想,成為了基于規(guī)則的機器翻譯的原則??梢钥闯?,這個機器翻譯金字塔的左側(cè)是源語言的分7.4.2基于統(tǒng)計的機器翻譯

基于統(tǒng)計的機器翻譯,采用統(tǒng)計語言模型,以分析大規(guī)模語料庫為基礎,計算機利用模型中的概率參數(shù),可以估計出自然語言中語言成分出現(xiàn)的可能性,相對客觀和全面。

基于統(tǒng)計的機器翻譯,把機器翻譯問題看成是一個噪聲信道問題:7.4.2基于統(tǒng)計的機器翻譯基于統(tǒng)計的機器

可以這樣來看機器翻譯:一種語言T由于經(jīng)過了一個噪聲信道而發(fā)生了扭曲變形,在信道的另一端呈現(xiàn)出另一種語言S。語言T是信道意義上的輸入,在翻譯意義上就是目標語言,語言S是信道意義上的輸出,在翻譯意義上就是源語言。從這種觀點來看,一種語言中的任何一個句子都有可能是另外一種語言中的某幾個句子的譯文,只是這些句子的可能性各不相同,機器翻譯就是要找出其中可能性最大的句子,也就是對所有可能目標語言T計算出概率最大的一個作為源語言S的譯文??梢赃@樣來看機器翻譯:一種語言T由于經(jīng)過了一個7.4.3神經(jīng)網(wǎng)絡機器翻譯

神經(jīng)語言模型NLM(neurallanguagemodel)使用詞的分布式表示對自然語言序列建模,將每個詞予以編碼,識別兩個相似的詞,共享一個詞(及其上下文)和其他類似詞(和上下文之間)的統(tǒng)計強度。統(tǒng)計語言模型為每個詞學習的分布式表示,允許模型處理具有類似共同特征的詞來實現(xiàn)這種共享。例如,假設詞“狗”和“貓”映射到具有許多屬性的表示,則包含詞“貓”的句子可以告知模型對包含詞“狗”的句子做出預測,反之亦然。這些詞表示有時稱為詞嵌入,這樣在嵌入空間中,具有相似含義的詞彼此鄰近。7.4.3神經(jīng)網(wǎng)絡機器翻譯神經(jīng)語言模型NL機器翻譯的編碼器-解碼器框架的總體思想

神經(jīng)機器翻譯系統(tǒng)使用神經(jīng)語言模型。首先使用RNN模型(也可以是CNN)讀取輸入序列并產(chǎn)生概括輸入序列的數(shù)據(jù)結(jié)構(gòu),簡稱這個概括為“上下文”C,上下文C可以是向量或者張量,如圖7-10中的“中間的語義表示”。然后利用另外一個RNN模型讀取上下文C并且生成目標語言的句子。機器翻譯的編碼器-解碼器框架的總體思想神經(jīng)機器7.5科大訊飛翻譯機2.07.5科大訊飛翻譯機2.0

訊飛翻譯機2.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論