機(jī)器翻譯的自動(dòng)評(píng)測(cè)技術(shù)機(jī)器翻譯技術(shù)_第1頁
機(jī)器翻譯的自動(dòng)評(píng)測(cè)技術(shù)機(jī)器翻譯技術(shù)_第2頁
機(jī)器翻譯的自動(dòng)評(píng)測(cè)技術(shù)機(jī)器翻譯技術(shù)_第3頁
機(jī)器翻譯的自動(dòng)評(píng)測(cè)技術(shù)機(jī)器翻譯技術(shù)_第4頁
機(jī)器翻譯的自動(dòng)評(píng)測(cè)技術(shù)機(jī)器翻譯技術(shù)_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、機(jī)器翻譯的自動(dòng)評(píng)測(cè)技術(shù)機(jī)器翻譯技術(shù)本文介紹了機(jī)器翻譯評(píng)測(cè)的基本原理以及常用評(píng)測(cè)標(biāo)準(zhǔn),包括人工評(píng)測(cè)方法、基于n元匹配的BLEUff口NIST自動(dòng)評(píng)測(cè)方法。機(jī)器翻譯領(lǐng)域最困難的任務(wù)之一就是對(duì)給定的翻譯系統(tǒng)或者翻譯算法進(jìn)行評(píng)價(jià),我們稱其為機(jī)器翻譯評(píng)測(cè)。由于機(jī)器翻譯所處理的對(duì)象語言本身存在某種程度的歧義,無法像數(shù)學(xué)公式或者物理模型那樣簡(jiǎn)單客觀地描述出來,這使得為機(jī)器翻譯結(jié)果進(jìn)行客觀的打分變得非常困難。最早的方法是人工評(píng)測(cè),這種方法得到的結(jié)果一般是十分準(zhǔn)確的,但評(píng)測(cè)的成本太高,周期過長(zhǎng)(評(píng)測(cè)過程可能長(zhǎng)達(dá)幾周甚至數(shù)月),評(píng)價(jià)結(jié)果也會(huì)隨著評(píng)價(jià)人的變化和時(shí)間的推移而不同,這使得評(píng)價(jià)結(jié)果不可重復(fù),缺乏客觀性,因

2、此,機(jī)器翻譯的自動(dòng)評(píng)測(cè)應(yīng)運(yùn)而生。實(shí)踐證明,機(jī)器翻譯的評(píng)測(cè)尤其是自動(dòng)評(píng)測(cè)對(duì)機(jī)器翻譯研究的影響十分巨大,對(duì)研究發(fā)展和技術(shù)進(jìn)步起著非常重要的引導(dǎo)作用。基于n元匹配的自動(dòng)評(píng)測(cè)方法如果一個(gè)機(jī)器翻譯評(píng)測(cè)系統(tǒng)只根據(jù)源語言文本就能自動(dòng)地為若干譯文打分并選擇出其中最好的結(jié)果,那么這個(gè)評(píng)測(cè)系統(tǒng)本身就是一個(gè)質(zhì)量更好的機(jī)器翻譯系統(tǒng)了。因此,自動(dòng)評(píng)測(cè)最初的出發(fā)點(diǎn)就是給出一些標(biāo)準(zhǔn)的翻譯結(jié)果,然后比較機(jī)器生成的譯文與這些翻譯之間的相似程度。我們稱這些標(biāo)準(zhǔn)的翻譯為參考譯文(或者參考答案)。同一個(gè)句子可以有多個(gè)不同的參考譯文,這些參考譯文都表達(dá)同一個(gè)含義,但可能使用了不同的詞匯,或者雖然使用了相同的詞匯但在句中的詞序不同。這樣

3、一來,機(jī)器翻譯自動(dòng)評(píng)測(cè)的問題轉(zhuǎn)換為比較機(jī)器翻譯系統(tǒng)輸出的一個(gè)翻譯結(jié)果和多個(gè)通過人工產(chǎn)生的正確的參考譯文之間的相似度的問題,使用不同的相似度計(jì)算方法即可得到不同的自動(dòng)評(píng)測(cè)方法。例如,考慮如下兩個(gè)機(jī)器翻譯系統(tǒng)生成的翻譯結(jié)果:源語言文本:今年前兩月廣東高新技術(shù)產(chǎn)品出口37.6億美元系統(tǒng)譯文1:Thenewhigh-techproductsinGuangdongexported3.76billiondollarsinthefirsttwomonthsthisyear系統(tǒng)譯文2:Thisyear,theformertwoofGuangdong,theexportofhi-techproducts37.6

4、yiUSdollars從直觀上看,上面兩個(gè)翻譯結(jié)果的質(zhì)量有較大的差別,第一個(gè)翻譯結(jié)果明顯通順、流暢、易于理解,如何將這種人的直觀印象與具體的客觀分?jǐn)?shù)統(tǒng)一起來?這里引入三個(gè)人工翻譯的參考譯文來進(jìn)行比較:參考譯文1:GuangdongsexportofnewhightechnologyproductsamountstoUS$3.76billioninfirsttwomonthsofthisyear參考譯文2:GuangdongsExportsUS$3.76BillionWorthofHighTechnologyProductsintheFirstTwoMonthsofThisyear參考譯文3:I

5、nthefirst2monthsthisyear,theexportvolumeofnewhigh-techproductsinGuangdongProvincereached3.76billionUSdollars可以看出,質(zhì)量較好的系統(tǒng)譯文1與三個(gè)參考譯文共現(xiàn)了很多個(gè)翻譯片段:與參考譯文1共現(xiàn)“3.76billion”,與參考譯文3共現(xiàn)“dollars”,與參考譯文2共現(xiàn)“inthefirsttwomonths”和“thisyear”。相比而言,系統(tǒng)譯文2與上述三個(gè)參考譯文的共現(xiàn)片段比較少。通過上述比較,可以很容易地寫出一個(gè)評(píng)價(jià)算法來評(píng)價(jià)上述翻譯結(jié)果的質(zhì)量。通過引入一個(gè)稱為n元匹配的概念,

6、可對(duì)翻譯結(jié)果1給出比翻譯結(jié)果2更高的分?jǐn)?shù)。n元匹配的含義是:翻譯結(jié)果與參考譯文句子中的任意連續(xù)n個(gè)單詞完全相同,這里的n值可以取任意正整數(shù)。基于n元匹配的策略非常與常用的準(zhǔn)確度的計(jì)算思想類似,首先統(tǒng)計(jì)系統(tǒng)譯文與參考譯文中共現(xiàn)的n元匹配的個(gè)數(shù),再除以相應(yīng)的系統(tǒng)譯文中n元詞的總數(shù),用這個(gè)比值來表示相應(yīng)的n元準(zhǔn)確率。機(jī)器翻譯評(píng)測(cè)領(lǐng)域目前使用最為廣泛的自動(dòng)評(píng)測(cè)方法是BLEU(BilingualEvaluationUnderstudy),就基于n元匹配的這一類方法中的典型代表,由IBM于xx年提出。類似的方法還包括NIST方法,該方法由美國(guó)標(biāo)準(zhǔn)和技術(shù)研究所提出并命名,它在BLEU!f法的基礎(chǔ)上,綜合考慮

7、了每個(gè)n元詞的權(quán)重,對(duì)于那些在參考譯文中出現(xiàn)次數(shù)更少的詞賦給更高的權(quán)重以體現(xiàn)其所包含的信息量。BLEU和NIST是最常用的兩種機(jī)器翻譯自動(dòng)評(píng)測(cè)方法,但這一類評(píng)測(cè)方法并不是在真正地評(píng)價(jià)系統(tǒng)譯文與原文的一致程度,而是根據(jù)若干個(gè)參考譯文為系統(tǒng)譯文打分而已。系統(tǒng)得分似乎與待翻譯的原文沒有關(guān)系,參考譯文的數(shù)量多寡與質(zhì)量好壞才是影響評(píng)測(cè)結(jié)果的關(guān)鍵因素?;跍?zhǔn)確率和召回率的自動(dòng)評(píng)測(cè)方法基于n元匹配的自動(dòng)評(píng)測(cè)方法是一種基于準(zhǔn)確率的方法,與參考譯文越相似的系統(tǒng)譯文可獲得越高的分?jǐn)?shù)。研究人員提出了一些同時(shí)考慮召回率的自動(dòng)評(píng)測(cè)方法,其中比較典型的是紐約大學(xué)提出的GTMF測(cè)方法。該方法應(yīng)用了圖的最大匹配算法來計(jì)算詞的

8、共現(xiàn)次數(shù)。圖1描述了這個(gè)計(jì)算過程。圖1中的黑點(diǎn)表示參考譯文和系統(tǒng)譯文共現(xiàn)的詞的位置。圖中的B和C都存在兩次以上的共現(xiàn),這些點(diǎn)被認(rèn)為是互相沖突的,在實(shí)際計(jì)算時(shí)應(yīng)避免重復(fù),只保留一個(gè)即可。使用圖搜索算法找到最大匹配的區(qū)塊,如圖中灰色部分所示,并在此基礎(chǔ)上計(jì)算最大匹配塊長(zhǎng)度MMS準(zhǔn)確率和召回率都通過MM磁行計(jì)算,在上例中分別為4.6/8和4.6/10。系統(tǒng)最終的得分使用準(zhǔn)確率和召回率的調(diào)和平均值F值來表示。基于GTM勺評(píng)測(cè)標(biāo)準(zhǔn)最大的優(yōu)點(diǎn)在于,沒有人為地設(shè)置匹配時(shí)的最高階數(shù)值(即n元匹配中的n的最大值,BLEU!f法一般只考慮到4元或者5元匹配),圖的最大匹配算法會(huì)自動(dòng)地尋找針對(duì)某個(gè)參考譯文的最大匹配

9、詞數(shù)。據(jù)稱這種基于F值的自動(dòng)方法與人工評(píng)測(cè)的一致性可以比BLEUMg者NIST更高。其缺點(diǎn)在于,計(jì)算MM葬身是一個(gè)“NP難”的問題,比較費(fèi)時(shí)。引入語言知識(shí)的自動(dòng)評(píng)測(cè)方法BLEU、NIST以及GT昉法都是基于字面的完全匹配,并沒有理解系統(tǒng)譯文和參考譯文的含義,引入多個(gè)參考譯文只能在一定程度上減輕這方面的缺陷。研究人員嘗試使用基于更多語言學(xué)知識(shí)的評(píng)測(cè)方法來評(píng)價(jià)翻譯質(zhì)量的好壞。早在十幾年前,北京大學(xué)計(jì)算語言學(xué)研究所的俞士汶教授就提出了一種基于測(cè)試點(diǎn)的機(jī)器翻譯自動(dòng)評(píng)價(jià)方法。這種方法并不直接評(píng)價(jià)譯文句子,而是考慮系統(tǒng)譯文在給定的測(cè)試點(diǎn)上的質(zhì)量。其基本原理類似于在考試出題時(shí)設(shè)置考點(diǎn),考生答題時(shí)答到相應(yīng)的考點(diǎn)即可得分。基于測(cè)試點(diǎn)的評(píng)測(cè)方法是一種非常巧妙的方法。使用這種評(píng)測(cè)方法,通過對(duì)評(píng)測(cè)結(jié)果進(jìn)行細(xì)致深入的分析,很容易知道系統(tǒng)在哪些語言問題上處理得不夠好,有針對(duì)性地對(duì)系統(tǒng)進(jìn)行改進(jìn)即可進(jìn)一步提高系統(tǒng)翻譯的質(zhì)量。近幾年來研究人員又提出了一些融合了語義知識(shí)的機(jī)器翻譯評(píng)測(cè)方法,由美國(guó)南加州大學(xué)信息科學(xué)研究所的ZhouLiang等人提出的ParaE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論