




已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中文信息學(xué)報 第 1 7卷 第 6 期 J O U R N A L O F C I t l N E I N F O R MA T I O N P R O C E S S I N G V o i 1 7 N o 6 文章縮號 1 0 0 3 0 0 7 7 2 0 0 3 0 6 0 0 0 1 0 8 機 器 翻 譯評 測 的新 進展 張劍 吳際2 周 明0 1 北京 郵電大 學(xué) 信息 工程 系 北 京1 0 0 8 7 6 2 北京航空航天大學(xué) 計算機系 北京1 0 0 0 8 3 3 徼軟亞洲研究院 北京m0 0 8 0 摘要 機器翻譯評測對機器翻譯的研究和開發(fā)具有至關(guān)重要的作用 對其的研究一直是 國內(nèi)外機 器翻譯 界 的重點課題 本文首先全面地介紹 了最近 出現(xiàn)的而且受到極大關(guān)注的機器翻譯評測技術(shù) 即 I B M 公 司的 B L E U機 器翻譯評測標(biāo)準(zhǔn)和 N I S T采用的機器翻譯評測技術(shù) 實驗表明 自動翻譯評測技術(shù) 能夠接近人工評 價 評測結(jié)果也是可接 受的 因此 采用 自動翻譯評測技術(shù)能夠給 自然語言處理的研究人 員和開發(fā)人 員帶來 很 大的便 利性 本 文 還展 示 了一 個開放 式 的 可擴展 的 自動翻 譯評 測 的平 臺 完全 實現(xiàn) 了 B I I 和 NI S T評 測 標(biāo)準(zhǔn) 并做 出了一定的改進使得該 系統(tǒng)具有 良好的使用性和可擴展性 關(guān)鍵詞 人工智能 機器翻譯 自動評測 中圈分類號 1 P 3 9 1 2 文獻標(biāo)識碼 A Th e I m pr o v e me nt of Aut o ma t i c M a c hi ne Tr a ns l a t i o n Ev a l u a t i on Z H A N GJ i a n wuj i 2 Z H O UMi I 1 g 3 1 ne p t o f I n f o n e e 血g i I l gUn i v e r w o f P o s t s a n dTd e e ma mu n i c a t io m B e i i h 1 0 0 8 7 6 C h i n a 2 De p t dQI I 叫 S d B 兩 噶 U n iv e r s i t y dA A s t r o 8 e ij 噬 1 0 0 0 8 3 C l a ir e 3 M n R 目耐 I A B t 蛐 1 0 0 0 8 0 Q婦 Al mr a e t Ev alu a t i on p l a y s a c r i t i c a l r o l e i n t h e ma c h i n e t r a n s l a t i o n Th e r e s e a r c h o f a u t o ma t i c ma c h i n et r a n s l a ti on e v a l u a t i o n i s a n u r g e n t n e e d f o r t h e n a t al l a n gu a g e p r o c e s s i n g r e s e a r c h e r s a n d d e v e l o p e r s p a p e r b fidl y d e s c r i b e s t h e b a d md o f e v a l u a t i o n o f ma c h i n e t r a n s l a t i o n a n d t wo i mp o r t a n t t e c h n o l o g y o f a u t o ma t i c e v a l u a t i o n BI EI a n d NI S T me t r i c s Th e n we p r e s e n t s s o r i l ei mp r o v e me n t s f o rt h e s eme t r i c s byt h e i d e a sh吼t e x t r e t r i e v a l wh i c hi s c a l l e dTF I D F we i g h t e dme t r i c Th i s me t h o d a v o i d st h e s h o r t c o mi n go f B I EI me t r i c a n da c h i e v e s al 蜘 F r a ti o v a l u e As a r e s u l t i t c a I 1 g i v e a m n a r k a b l e e f f e c t o n t h e a u t o ma ti c e v a l u a ti o n o fma c h i n e mms l a t i o n W ea1 s 0d e s c rib ea nevalua t i on p l a t f o r m wh i c h c nt a k eI n o r e c o n v e n i e n c et ot h e r e s e a r c h e s a n d d d懶 r w d s a r t ific i a l i n t dl i g e n c e ma c h i n e t n ms l a ti on a u t o ma tic e v a l ua ti on 一 引言 近年來 在 自然語言研究 領(lǐng)域 中 評測 問題越來越受 到廣泛的重視 可以說 評測是 整個 自 然語言領(lǐng)域最核心和關(guān)鍵的部分 國際上為了推動自然語言研究的評測 在過去的幾年中 進 行了若干次有影響的評測活動 如 MU C評測專名識別問題 T R E C評測信息檢索的發(fā)展 還 有許多機器 翻譯 和語 音技術(shù) 的評測活動 所有這些評價活動都有力地促進 了相關(guān) 學(xué)科 的發(fā)展 收 稿 日期 2 0 0 3 0 5 2 8 作者簡介 張劍 1 9 7 7 一 男 博士生 研究方 向為 自然語言處理 數(shù)據(jù)挖掘 本文是微軟亞洲研究院機 器翻譯課題 系作者在微軟亞洲研究院訪問期間完成 1 il1 f 維普資訊 髦 維普資訊 中 使得人們能夠跨越語言的障礙 不論信息載體是語音還是文字 都可以快速地發(fā)現(xiàn)和解釋 信息 這個項 目中有幾個核心的技術(shù) 首先是信息偵測 就是要能夠感知到信息的存在 其 次 是能夠從特定的信息載體中 抽取出關(guān)鍵 的事實 實體和各類事件一實體之間的關(guān)系 然 后 通過摘要 把最重要的信息抽取出來 從而減少閱讀的時間和代價 但不論是哪種技術(shù) 都 是在跨語言的環(huán)境中進行的 處理的對象都是多語言的形式 因此翻譯是這個項 目的基礎(chǔ) T I D E S項目中機器翻譯評測活動是 由美國國家標(biāo)準(zhǔn)和技術(shù)所 NI S r 負責(zé)協(xié)調(diào)管理工 作 評測活動從 2 0 0 2年開始 計劃每年舉行一次 目前評測的主要語言是中文和阿拉伯語 翻譯 目標(biāo)語言是英語 在以后 的評測中 會逐漸擴展翻譯語言對象 把 日語 韓語和西班牙語 等語 言納入評測 的范圍 評 測過程 中 同時采用人 工 和 自動兩種 方式 進行 評 測人 員從譯 文 的忠實度 和流利度 兩方面對系統(tǒng)打分 而 自動評測采用 的是 NI S T在 I B M 的 B L E U 標(biāo)準(zhǔn)上 的 改進方案 在 下面 的內(nèi)容 中 我們會對這兩種方 案進行 簡要 介紹 NI S T規(guī)定 參加評測的機器翻譯系統(tǒng) 可以利用三種數(shù)據(jù)對其進行訓(xùn)練 第一種是對所 有參評者都公開的各種資源 第二種是規(guī)模較大的語料 稱為大語料 包括香港法律雙語并行 文本庫 香港新聞雙語并行數(shù)據(jù)庫 新華社雙語并行新聞?wù)Z料庫等 詞典是 NI S T提供 的一部 中 英翻譯詞典 第三種是小規(guī)模數(shù)據(jù) 它所能使用的中文資源只能是 U P e n n樹庫中的雙語 并行數(shù)據(jù)和由 C MU提供的一部 1 萬單詞左右的詞典 NI S T對訓(xùn)練數(shù)據(jù)的限制都是雙語數(shù) 據(jù) 而對于任何單語的訓(xùn)練資源則沒有任何限制 機器翻譯評測 中使用 的評測數(shù)據(jù)主要來 自 一 于新華社 新聞早報和美國之音等各類型的新聞?wù)Z料 參評單位只要通過電子信件或者電話 就可以注冊參加活動 隨后就可以收到 NI S T發(fā)布的評測原始數(shù)據(jù) 參評者執(zhí)行翻譯過程 并 提交系統(tǒng)翻譯結(jié)果 N I S T進行評測之后 會把評測結(jié)果和評測數(shù)據(jù)的參考譯文發(fā)送給各個 參評者 最后會召開一次評測會議 參評單位都可參加并進行相關(guān)的討論和總結(jié) h 三 基于 N G r a m 的機器翻譯 自動評測技術(shù) 雖然對于機器翻譯來說 人的評價和打分是考察一個翻譯系統(tǒng)性能的可靠手段 但是要組 織一次人工評測通常耗時耗力 因此設(shè)計并實現(xiàn)一種可靠的 自動翻譯評測的方法對于機器翻 譯的研究人員來說是一種非常迫切的需要 使用 自動評測工具能夠大太降低評測 的成本 更 可及時地分析系統(tǒng)性能 有針對性地改進系統(tǒng) 從而縮短產(chǎn)品的開發(fā)周期 目前 自動翻譯評測技術(shù)主要有兩種 一個是由 I B M 提出的B U U評測標(biāo)準(zhǔn) 另外一種是 NI S T在 BI 標(biāo) 準(zhǔn)基礎(chǔ)上提 出的一個 改進 方案 稱 為 NI S T評測標(biāo)準(zhǔn) DA R P A在 T觀S項 目中的機器翻譯評測當(dāng)中就使用了基于 NI S T評價標(biāo)準(zhǔn)實現(xiàn)的自動翻譯評測工具 下面我們 就對這兩種技術(shù)進行簡要的介紹 3 1 B U 評測 方法 B L E U評測方法認為如果翻譯系統(tǒng)的譯文越接近人工翻譯的結(jié)果 那么它的翻譯質(zhì)量就 越高 所以 評測關(guān)鍵就在于如何定義系統(tǒng)譯文與參考譯文之 間的相似度 B L E U采用的方 式是比較并統(tǒng)計共現(xiàn)的 N 元詞的個數(shù) 即統(tǒng)計 同時出現(xiàn)在系統(tǒng)譯文和參考譯文中的 N 元詞 的個數(shù) 最后把 匹配到的 N 元 詞 的數(shù) 目除 以系統(tǒng) 譯文 的單 詞數(shù) 目 得到評 測結(jié) 果 B L E U 方 法簡單易行 但是沒有考慮到翻譯的召回率 比如下面這個例子 原文 墊子上有只貓 l 參考譯文 1 t h e c a t i s o nt h e ma t 譯文 t h e t h e t h et h et h e t h e t h e l 2 t h e r eis a cat o nt h e ma t 如果仍然按照簡單的統(tǒng)計共現(xiàn)頻率的話 那么一元詞的統(tǒng)計結(jié)果就是 7 7 顯然這樣統(tǒng)計 3 維普資訊 方法對 于這種異常情況 的結(jié)果 是不合 理 的 因此 B L E U 使 用 了修正 的 匹配統(tǒng) 計 首先 計算 出 一 個 N 元詞在 一個 句子 中最 大可能的出現(xiàn)次數(shù) C o u n t d i mi n C o u n t Ma x Re f C o u n t 其中 C o u n t 是某個 N元詞在系統(tǒng)譯文中的出現(xiàn)次數(shù) 而 M 一 C o u n t 是該 N 元詞在 個參考譯文中最大的出現(xiàn)次數(shù) 最終統(tǒng)計結(jié)果是兩者中的較小值 然后在把這個匹配結(jié)果除 以系統(tǒng)譯文 的 N 元詞的個數(shù) 對于上面 的例子來說 修正后 的一元詞統(tǒng)計結(jié)果就是 2 7 綜上所述 各階 N元詞的精度都可以按照下面這個公式計算 P z C o u n t n g r a m 翻譯篇章中往往含有多個句子 每個句子都可按照這一方法評測 把所有句子的評測結(jié)果 進行累計 就可以得到整個文本的翻譯評測結(jié)果 B L E U這種基于 N 元語法共現(xiàn)的統(tǒng)計方法 中 一元詞的共現(xiàn)代表 了翻譯的忠實度 它表 征了原文里面有多少單詞被翻譯了過來 而二元以上的共現(xiàn)詞匯代表了目標(biāo)語言的流利程度 階數(shù)高的 N 元詞的匹配度越高 系統(tǒng)譯文的可讀性就越好 上面的例子 中 雖然一元詞的精 度達到 了 2 7 但是二元 詞級別 以上 的匹配度都是零 說 明這個譯文非 常不通順 可讀性很 差 盡管 N 元語 法 的統(tǒng)計 方法 已經(jīng)能夠 很好地對 翻譯結(jié) 果進行評估 但 是 N 元 詞 的匹配 度 可能因為句子長度的短小而變高 所 以 如果一個系統(tǒng)為了追求準(zhǔn)確度 只翻譯最可靠的詞 匯 它的得分 自然就會偏高 為了改變這種評分的偏向性 B L E U在最后的評分結(jié)果 中引入了 長度懲罰因子 B r e v it y P e n a l t y 當(dāng)翻譯句子長度大于參考譯文的長度時 懲罰系數(shù)為 1 意味 著不懲罰 而 當(dāng)句 子長度小 于參考譯文 的長度 時 懲罰 系數(shù)是 BP e卜 其中 c 是系統(tǒng)翻譯譯文的長度 r 是參考譯文的長度 如果參考譯文有多個 那么選擇一 個 長度最接近于 系統(tǒng) 翻譯譯 文的參考譯文 的長度作為 r的值 由于各階 N元詞統(tǒng)計量的精度隨著階數(shù)的升高而呈指數(shù)形式遞減 所以為了平衡各階統(tǒng)計 量的作用 對其采用幾何平均形式求平均值然后加權(quán) 再乘以長度懲罰因子 得到最后的評價公式 N S c a r e B P e x p lo g n l B L E U的原型系統(tǒng)為了簡便 采用了均勻加權(quán) 即 N 的上限取值為 4 即最高只 統(tǒng)計 4元詞的共現(xiàn)精度 對于機器翻譯評測方法來說 首先應(yīng)當(dāng)是有效的 能區(qū)分出翻譯質(zhì)量的高低 而且這種區(qū) 分能力對于同一個任務(wù)的不同測試樣本沒有大的變化 其次應(yīng)該是可靠的 它的判斷結(jié)果應(yīng)該 和人工的評判結(jié)論一致 把 B L E U方法評測結(jié)果分別與單語專家和雙語專家的評測結(jié)果相 比較 結(jié)果顯示 出這種方 法和人 工評測方法有很顯著 的統(tǒng)計相關(guān) 度 評測結(jié)果也趨 于一致 3 2 NI S T評測方法 NI S T在 I B M 的 B L E U方案基礎(chǔ)上 提出了另外一種基于 N 元語法共現(xiàn)的統(tǒng)計方案 它 認為如果一個 N元詞在參考譯文中出現(xiàn)的次數(shù)越少 表明它所包含的信息量就越大 那么對 于該 N 元詞就賦予更高的權(quán)重 NI S T定義一個 N 元詞的信息量為 I n f o w 等 4 維普資訊 分母是 N元詞在參考譯文中出現(xiàn)的次數(shù) 分子是對應(yīng)的 N一1 元詞在參考譯文中的出現(xiàn) 次數(shù) 對于一元詞匯 分子的取值就是整個參考譯文的長度 計算信息量之后 就可以對每一個共現(xiàn) N 元詞乘以它的信息量權(quán)重 再進行加權(quán)求平均 得 出最后 的評分結(jié)果 N r r r r 1 1 corce I n f o w 1 W 1 e x l m in l s 1 l l a ll 1 1 L L L J J t h a t 一 o c c u r I n 5 o u t pu t NI S T采用的是算術(shù)平均方式 而它的長度懲罰因子也與 B L E U標(biāo)準(zhǔn)略有不 同 L 是系 統(tǒng)譯文的長度 而 E r s 參考譯文的平均長度 是一個經(jīng)驗 閾值 它使整個懲罰值在系統(tǒng)譯 文的長度是參考譯文長度的 2 3的時候為 0 5 NI S T通過 F r a t i o 指標(biāo)來衡量評測方法的有效性 某一評測標(biāo)準(zhǔn)的 F r a t io值是不同 系統(tǒng)之間得分的偏差與一個系統(tǒng)在不同測試集合上得分的偏差之 比 因此這個 比值越大 相 應(yīng)的評測方法越好 實驗表明 NI S T方法的 F r a t io 值高于 B L E U標(biāo)準(zhǔn) 說明 NI S T方法的 性 能要略好一些 同樣 的 NI S T方法 與人工評測 也有很好 的統(tǒng)計相關(guān)性 3 3兩種 方法的 比較 B L E U和 NI S T標(biāo)準(zhǔn)都能夠有效地對翻譯系統(tǒng)進行評測 B L E U使用幾何平均策略 因 此一旦有任何階的 N 元詞的統(tǒng)計量為零 整個句子的最終得分也就為零 也就是說 B L E U評 測標(biāo)準(zhǔn)更側(cè)重于譯文的流利度 與此相對 NI S T采用的是算術(shù)平均 由于一元詞的匹配數(shù)更 高 它的信息量在最終得分中占有很高的比率 所以 N I S T的評測標(biāo)注更側(cè)重于翻譯的忠實度 3 4 D A RP A機器翻譯評測活動 2 0 0 2 年 6 月 NI S T舉辦了首次正式的機器翻譯評測活動 包捂 I B M公司 C a r n e g i eMe l I o n 大學(xué) 南加州信 息科學(xué)研究所 US C I S I 德國亞琛 R wT H A a c h e n 大學(xué) 微 軟研究院 R e d mo n d 和 中國科學(xué) 院計算 研究所在 內(nèi)的 6家研究機構(gòu) 的機器翻譯 系統(tǒng)參加 了評測 同時 NI S T還評測了 S Y S T R A N公司的商用機器翻譯系統(tǒng)作為一個橫向比較 測試語言包括中英 翻譯和阿拉伯語到英語 的翻譯 除了 I B M C MU和 I S I 參加 了兩種語言對的翻譯測試外 其 他單位僅參加了中英翻譯的測評 評測結(jié)果顯示德 國亞琛大學(xué) C MU大學(xué)和 I S I 的機器翻譯系統(tǒng)性能優(yōu)越 接近甚至超過 了 S Y S T R A N公司的商用翻譯系統(tǒng) 亞琛大學(xué)采用的是統(tǒng)計機器翻譯模型 將 傳統(tǒng)的噪聲信 道翻譯模型改進為最大熵模型 并且把基于詞的對齊模型增強為基于短語的對齊模型 大大改 善了翻譯質(zhì)量 評測結(jié)果也 表明該 系統(tǒng)在所有參評 系統(tǒng) 中性 能最 為優(yōu)秀 C MU 大學(xué) 的 Me g a R A D D翻譯系統(tǒng)通過翻譯引擎把基于短語翻譯的統(tǒng)計機器翻譯系統(tǒng)和基于實例的翻譯 系統(tǒng)集成為一體 通過比較和選擇輸 出最優(yōu)的翻譯結(jié)果 I S I 研究所開發(fā)的 R e t e翻譯系 統(tǒng)采用 I B M一4 統(tǒng)計模型為原型 加入了語法分析模塊和聯(lián)合短語翻譯模塊 也有效地提升了 系統(tǒng)的翻譯質(zhì)量 評測結(jié)果也顯示 無論是科研系統(tǒng)還是商用產(chǎn)品 機器翻譯系統(tǒng)和人工翻譯 還有很大的差距 這也說明對于機器翻譯研究還有許多的問題需要解決 NI S T每年將舉辦一次機器翻譯評測 評測的主要語言是 中文和阿拉伯語 翻譯 目標(biāo)語言 是英語 在今后的評測活動中 日語 韓語和西班牙語等語言也會逐步納人評測的范圍 同 時 自動機器翻譯評測技術(shù)也會更廣泛地應(yīng)用在評測過程當(dāng)中 為廣大的機器翻譯研究人員提 供高效和可靠的輔助功能 四 MS RA的工作平 臺 我們在 B L E U和 NI S T評測標(biāo)準(zhǔn)的基礎(chǔ)上設(shè)計并實現(xiàn)了一個 自動機器翻譯評澳 I 平臺 界 5 一 t j Iii iI l 1 l j f l 維普資訊 維普資訊 另外 B L E U在計算 N g r a m 的共現(xiàn)度的時候 只是按照其共現(xiàn)頻率來統(tǒng)計 而忽略了實詞和虛詞之 間的不同意義 虛詞的形式基本單一 所以匹配的頻 圖 5 詞根分析功能進行 N g r a n相似度計算 圖6 系統(tǒng)內(nèi)嵌的基于 T F I D F權(quán)重的評測標(biāo)準(zhǔn) 率也要遠遠高于那些富有多種形式的名詞和動詞 這樣在統(tǒng)計譯測 中也會帶來一定 的誤差 例如 參考譯 文 1 Th e Ye l l o w R i v e r G o l d e n T g l e h a s b e 原文 黃河 金三角 成為新的投資熱點 c o t i l e n e w i n v e s t men t h o t s p o t 譯文 t h e y e l l o wfi v e r b e c o n l e st h e n e wi n v e s t 2 Re f e r e n c e 3 Th e G o l d en Tr g l e o f t h e Ye l l o w Riv e r men t f o c u s b y g o l d t r i g o n o me t r y b e c o n l e s a n e w h o t s p o t f o r i n v e s t men t 本例中 P l t h e 和 P l b e c o me s 都是 1 1 4 沒有能夠體現(xiàn)出信息量不同的單詞在翻譯結(jié)果 中的不同重要性 在其它一些例子 中 甚至一些虛詞的統(tǒng)計概率會遠遠高于一些核心詞 為 了糾
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025工程咨詢服務(wù)合同
- 2025物業(yè)用工合同范文
- 芷蘭秋冬傳染病防控知識
- 酒店食品安全知識培訓(xùn)
- 2025年云南省文山市西疇縣初中學(xué)業(yè)水平模擬考試英語試題
- 常見惡性腫瘤概述
- 普通心理學(xué)(第2版)課件 第一章 心理學(xué)概述
- 平面構(gòu)成特異8
- 2025年人際溝通與禮儀試題
- 互聯(lián)網(wǎng)+廣告投影燈行業(yè)運營模式及市場前景研究報告
- MOOC 創(chuàng)業(yè)管理-江蘇大學(xué) 中國大學(xué)慕課答案
- (高級)政工師理論考試題庫及答案(含各題型)
- 個人車位租賃合同電子版
- 醫(yī)院感染相關(guān)基礎(chǔ)知識
- 《湖心亭看雪》選擇題解析(內(nèi)容理解)
- 外墻真石漆施工質(zhì)量通病與預(yù)防措施
- 中央空調(diào)應(yīng)急管理制度匯編
- 國外高速公路管理模式及發(fā)展趨勢
- 深圳工改工最新政策研究
- 煤礦自動化(培訓(xùn))
- 肖申克的救贖 英語三分鐘演講-文檔資料
評論
0/150
提交評論