語料庫(kù)預(yù)處理及翻譯后處理模塊的設(shè)計(jì)與實(shí)現(xiàn)_第1頁
語料庫(kù)預(yù)處理及翻譯后處理模塊的設(shè)計(jì)與實(shí)現(xiàn)_第2頁
語料庫(kù)預(yù)處理及翻譯后處理模塊的設(shè)計(jì)與實(shí)現(xiàn)_第3頁
語料庫(kù)預(yù)處理及翻譯后處理模塊的設(shè)計(jì)與實(shí)現(xiàn)_第4頁
語料庫(kù)預(yù)處理及翻譯后處理模塊的設(shè)計(jì)與實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語料庫(kù)預(yù)處理及翻譯后處理模塊的設(shè)計(jì)與實(shí)現(xiàn)張大鯤孫樂中國(guó)科學(xué)院軟件研究所中文信息處理中心2006-10-171概要介紹絲路1.0系統(tǒng)語料庫(kù)預(yù)處理功能定義實(shí)現(xiàn)使用說明翻譯后處理我們的相關(guān)工作23預(yù)處理和后處理語言相關(guān)的分詞:中文,日文詞形分析:阿拉伯語,德語繁瑣且重要數(shù)據(jù)稀疏問題“中國(guó)”→“中國(guó)” Itis→itis以規(guī)則方法處理為主aapple→anapple4預(yù)處理和后處理預(yù)處理包括統(tǒng)一字符編碼(Big5,GBK,UTF-8…)繁簡(jiǎn)轉(zhuǎn)換(處罰-處罰)分詞全角空格“”數(shù)詞,時(shí)間詞,命名體……后處理包括句首字母大寫a→an去掉重復(fù)詞(…ofof…)動(dòng)詞形式的調(diào)整未登錄詞處理(查詞典,轉(zhuǎn)成拼音)……5絲路1.0系統(tǒng)預(yù)處理中文分詞中文A3區(qū)全角字符轉(zhuǎn)換為半角字符英文切分英文句首字母大寫還原后處理句首字母大寫訓(xùn)練語料庫(kù)訓(xùn)練語料庫(kù)預(yù)處理分詞的訓(xùn)練語料庫(kù)詞語對(duì)齊詞語對(duì)齊的語料庫(kù)短語抽取短語翻譯概率表漢語切分工具英語切分工具語料庫(kù)格式轉(zhuǎn)換規(guī)范的訓(xùn)練語料庫(kù)……6絲路1.0系統(tǒng)的預(yù)處理功能定義輸入雙語句對(duì)齊語料輸出可用于GIZA++詞對(duì)齊訓(xùn)練的語料7實(shí)現(xiàn)中文分詞調(diào)用開源工具ICTCLAShttp://中文A3區(qū)全角字符轉(zhuǎn)換全角符號(hào)A-Z,a-z,0-9半角符號(hào)A-Z,a-z,0-9例: 中文分詞模塊調(diào)用開源工具ICTCLAS處理后:中文分詞模塊調(diào)用開源工具ICTCLAS例: 年份經(jīng)常寫成2006處理后:年份經(jīng)常寫成20068實(shí)現(xiàn)英文切分對(duì)英文切分工具tokenizeE.perl.tmpl進(jìn)行C++代碼轉(zhuǎn)寫/ws99/projects/mt/toolkit/英文句首字母大寫還原取句首詞出現(xiàn)次數(shù)多的形式例:I,China,we,the,it,…例: Mr.andMrs.shouldn'tbeseparated.處理后:Mr.andMrs.shouldn'tbeseparated.9使用說明獨(dú)立模塊,利用批處理文件組合支持多文檔處理EnglishToken.exeFile1File2...英文句首詞轉(zhuǎn)換列表保留以便查看10輸出后處理對(duì)解碼器“翻譯”的英文句子進(jìn)行處理包括首字母大寫不需要考慮句中詞的大小寫問題11概要介紹絲路1.0系統(tǒng)語料庫(kù)預(yù)處理功能定義實(shí)現(xiàn)使用說明翻譯后處理我們的相關(guān)工作12基于非連續(xù)短語的模型帶有間隔的短語只允許存在一個(gè)非終結(jié)符turn…on在短語的層次上進(jìn)行處理 和…完全不同

it’scompletelydifferentfrom…與層次型短語方法相似(Chiang2005)短語數(shù)量少,效率占優(yōu)13實(shí)驗(yàn)結(jié)果NISTBLEUGTMmWERmPER對(duì)話Pharaoh6.33050.20820.66070.70830.5549層次型6.61310.21530.66990.66530.5321非連續(xù)短語6.65800.21690.67210.66540.5304篇章Pharaoh5.63560.11860.66560.84270.5886層次型6.04560.13710.64190.76830.5748非連續(xù)短語6.04860.13810.64010.76890.576114實(shí)驗(yàn)結(jié)果基本短語擴(kuò)展短語層次型18,461,69026,566,684非連續(xù)短語16,306,32615基于非連續(xù)短語的模型短語數(shù)量少(61%)短語類型簡(jiǎn)單處理效率占優(yōu)BLEU提高(對(duì)話1個(gè)百分點(diǎn),篇章2個(gè)百分點(diǎn))仍然不能從根本上解決復(fù)雜句子的翻譯參加2006年NIST機(jī)器翻譯評(píng)測(cè)16結(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論