人工智能翻譯的發(fā)展.ppt_第1頁(yè)
人工智能翻譯的發(fā)展.ppt_第2頁(yè)
人工智能翻譯的發(fā)展.ppt_第3頁(yè)
人工智能翻譯的發(fā)展.ppt_第4頁(yè)
人工智能翻譯的發(fā)展.ppt_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能翻譯 付文青 14S101053 HIT 目錄 機(jī)器翻譯概述 1 機(jī)器翻譯的原理及方法 2 理解語(yǔ)言 機(jī)器翻譯的根本瓶頸 3 機(jī)器翻譯 機(jī)器翻譯的定義 機(jī)器翻譯 MachineTranslation 是使用電子計(jì)算機(jī)把一種自然語(yǔ)言 源語(yǔ)言 SourceLanguage 翻譯成另外一種自然語(yǔ)言 目標(biāo)語(yǔ)言 TargetLanguage 的一種學(xué)科 這門(mén)新學(xué)科同時(shí)也是一門(mén)新技術(shù) 它涉及到語(yǔ)言學(xué) 計(jì)算機(jī)科學(xué) 數(shù)學(xué)等許多部門(mén) 是非常典型的多邊緣交叉學(xué)科 在語(yǔ)言學(xué)中 機(jī)器翻譯是計(jì)算語(yǔ)言學(xué)的研究領(lǐng)域 在計(jì)算機(jī)科學(xué)中 機(jī)器翻譯是人工智能的研究領(lǐng)域 在數(shù)學(xué)中 機(jī)器翻譯是數(shù)理邏輯和形式化方法的研究領(lǐng)域 機(jī)器翻譯的方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 統(tǒng)計(jì)的方法 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法 基于統(tǒng)計(jì)的翻譯方法是IBM的學(xué)者提出 可以歸納為三個(gè)重要部分 分別為語(yǔ)言模型的建模 翻譯模型的建模以及解碼三個(gè)子部分 語(yǔ)言模型的建模問(wèn)題是統(tǒng)計(jì)估計(jì)中的一個(gè)經(jīng)典問(wèn)題 即根據(jù)當(dāng)前詞預(yù)測(cè)下一個(gè)詞 它是語(yǔ)音識(shí)別或光學(xué)字符識(shí)別的基礎(chǔ) 同時(shí)也被用來(lái)進(jìn)行拼寫(xiě)糾錯(cuò) 手寫(xiě)體識(shí)別以及統(tǒng)計(jì)機(jī)器翻譯 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法 基于短語(yǔ)的統(tǒng)計(jì)翻譯方法的問(wèn)題 泛化能力差 中國(guó)大使館 美國(guó)大使館 月球大使館 產(chǎn)生的句子不符合語(yǔ)法 短語(yǔ)的簡(jiǎn)單組合 沒(méi)有句法結(jié)構(gòu) 無(wú)法表示不連續(xù)的短語(yǔ)搭配的翻譯 召開(kāi)了一次關(guān)于 的會(huì)議holdameetingon 無(wú)法進(jìn)行長(zhǎng)距離的語(yǔ)序調(diào)整 解決辦法 引入句法結(jié)構(gòu) 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法 形式上基于句法的模型 不使用任何語(yǔ)言學(xué)知識(shí) 所有句法結(jié)構(gòu)直接從未標(biāo)注的語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)得到語(yǔ)言學(xué)上基于句法的模型 使用語(yǔ)言學(xué)知識(shí) 語(yǔ)言通常要從句法樹(shù)庫(kù)訓(xùn)練得到 樹(shù)到串模型 只在源語(yǔ)言端使用語(yǔ)言知識(shí) 串到樹(shù)模型 只在目標(biāo)語(yǔ)言端使用語(yǔ)言知識(shí) 樹(shù)到樹(shù)模型 在源語(yǔ)言端和目標(biāo)語(yǔ)言端都使用語(yǔ)言知識(shí) 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法 基于樹(shù)到串對(duì)齊模板的翻譯模型 基于樹(shù)到串對(duì)齊模板 簡(jiǎn)稱TAT 的統(tǒng)計(jì)翻譯模型是一種在源語(yǔ)言進(jìn)行句法分析的基于語(yǔ)言學(xué)句法結(jié)構(gòu)的統(tǒng)計(jì)翻譯模型 樹(shù)到串對(duì)齊模板既可以生成終結(jié)符也可以生成非終結(jié)符既可以執(zhí)行局部重排序也可以執(zhí)行全局重排序 從經(jīng)過(guò)詞語(yǔ)對(duì)齊和源語(yǔ)言句法分析的雙語(yǔ)語(yǔ)料庫(kù)上自底向上自動(dòng)抽取TAT 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法 解碼解碼問(wèn)題最重要的是如何設(shè)計(jì)合適的搜索策略來(lái)獲得最佳翻譯效果 以及如何解決空間爆炸問(wèn)題 為盡可能在有限的時(shí)間內(nèi)找到最優(yōu)解 必須采用啟發(fā)式算法 最常用的有柱搜索算法 A 算法以及堆棧搜索算法 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法 解碼 自底向上 柱搜索 BeamSearch 對(duì)于每一棵子樹(shù) 找到所有與其根節(jié)點(diǎn)匹配的TAT 計(jì)算其候選譯文 Candidate 候選譯文 Candidate 的數(shù)據(jù)結(jié)構(gòu) TAT序列 部分翻譯結(jié)果 累積的特征值 累積的概率值 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法 柱搜索算法采用寬度優(yōu)先的方式構(gòu)建搜索樹(shù) 在搜索樹(shù)的每層采用啟發(fā)式函數(shù)對(duì)擴(kuò)展的狀態(tài)進(jìn)行評(píng)分 通過(guò)剪枝選取N個(gè)最優(yōu)的狀態(tài)進(jìn)行擴(kuò)展 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法 剪枝策略 假設(shè)合并 漢語(yǔ)詞位置相同 最后兩個(gè)英語(yǔ)詞相同 上一次翻譯的漢語(yǔ)短語(yǔ)的最后一個(gè)詞的位置相同 柱狀圖剪枝若假設(shè)棧中假設(shè)的數(shù)目超過(guò)設(shè)定的最大值 將假設(shè)棧中評(píng)分低的剪去 閾值剪枝設(shè)置棧中假設(shè)的最低概率值 當(dāng)新假設(shè)小于閾值的時(shí)候進(jìn)行剪枝 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法 機(jī)器翻譯的瓶頸 之前進(jìn)行的機(jī)器翻譯的有益的探索中 凡是取得了結(jié)果的研究 大都努力避開(kāi)理解語(yǔ)言這一過(guò)程 因?yàn)檫@一過(guò)程本身涉及到了AI的終極目標(biāo) 機(jī)器的智能化 然而 這又是一個(gè)無(wú)法回避的問(wèn)題 不能理解語(yǔ)言就不可能進(jìn)行真正意義上的翻譯 機(jī)器翻譯的瓶頸 burning PassionissweetLovemakesweakYousaidyoucherishedfreedomsoYourefusetoletitgo 原文譯文 強(qiáng)烈的感情是甜蜜的而愛(ài)使我們脆弱你說(shuō)你珍惜你的自由所以你拒絕丟失它 機(jī)器譯文 激情是甜的愛(ài)使弱你說(shuō)你珍惜的自由 以便你不讓它去 機(jī)器翻譯的瓶頸 上文已經(jīng)進(jìn)行過(guò)論述過(guò) 要實(shí)現(xiàn)真正的機(jī)器翻譯 必須依賴于機(jī)器智能的實(shí)現(xiàn) 而這在短期內(nèi)是不可能實(shí)現(xiàn)的 那么如何能在可以預(yù)見(jiàn)的未來(lái)實(shí)現(xiàn)初步的機(jī)器翻譯呢 機(jī)器翻譯分為四個(gè)層次 詞匯 語(yǔ)法 語(yǔ)義 語(yǔ)用 前三個(gè)階段現(xiàn)在都已經(jīng)各有發(fā)展 但是語(yǔ)用的機(jī)器實(shí)現(xiàn)卻一直停滯不前 因?yàn)檎Z(yǔ)用知識(shí)包羅萬(wàn)象 在不同的語(yǔ)言 不同的背景中 不同的文章中語(yǔ)用知識(shí)千差萬(wàn)別 在不同的對(duì)話中上下文背景可能截然不同 面對(duì)這樣的現(xiàn)狀 我們唯有面向翻譯對(duì)象本身 才可能獲得有效的信息 我認(rèn)為有一種可能的途徑解決語(yǔ)用問(wèn)題 機(jī)器翻譯的瓶頸 對(duì)語(yǔ)句結(jié)構(gòu)進(jìn)行明確的分類 形成一系列 句型公式 直到每一類中都可以只通過(guò)變換相同類型的單詞就可以實(shí)現(xiàn)句意的轉(zhuǎn)化 通過(guò)分類 將每個(gè)句子的翻譯都遞歸變化到單詞的翻譯 并同時(shí)對(duì)詞語(yǔ)進(jìn)行分類 先按照詞義進(jìn)行種類分類 得到每個(gè)詞語(yǔ)的具體分類庫(kù) 這個(gè)過(guò)程類似于自然界對(duì)生物的分類 界 門(mén) 綱 目 科 屬 種 再根據(jù)詞匯可充當(dāng)?shù)木渥映煞?依賴于句型公式

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論