




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
團(tuán)體標(biāo)準(zhǔn)
《機(jī)器翻譯服務(wù)質(zhì)量評(píng)價(jià)規(guī)范—中英雙向》編制說(shuō)明
一、工作簡(jiǎn)況
1.任務(wù)來(lái)源
本文件由中國(guó)質(zhì)量協(xié)會(huì)和華為技術(shù)有限公司聯(lián)合提出,2022年11月10日
正式列入中國(guó)質(zhì)量協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)年度制修訂項(xiàng)目計(jì)劃。
2.編制目的
隨著機(jī)器翻譯(machinetranslation,MT)技術(shù)的發(fā)展,機(jī)器翻譯已政府、
教育、企業(yè)等實(shí)體的公文、教育和外貿(mào)領(lǐng)域廣泛的應(yīng)用,成為翻譯領(lǐng)域的重要組
成部分。
國(guó)際上IBM、微軟、谷歌等均在機(jī)器翻譯上起步較早,特別是IBM首先提出
了機(jī)器翻譯質(zhì)量測(cè)試規(guī)則BLUE。國(guó)內(nèi)主要有華為、騰訊、360、阿里、百度等龍
頭信息技術(shù)公司從事機(jī)器翻譯的服務(wù)提供和研究。相應(yīng)的,部分高校將機(jī)器翻譯
做為人工智能的一部分進(jìn)行科研分類,如復(fù)旦大學(xué)、東北大學(xué)、哈工大等。但是
機(jī)器翻譯質(zhì)量參差不齊,服務(wù)和交付的標(biāo)準(zhǔn)不一,如何以統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行科學(xué)、
有效、高效的機(jī)器翻譯質(zhì)量評(píng)價(jià),成為一個(gè)關(guān)鍵任務(wù)。目前機(jī)器翻譯主要需求者
是大篇幅翻譯采購(gòu)者,包括政府、公司等單位,相應(yīng)的質(zhì)量驗(yàn)收標(biāo)準(zhǔn)在合同中約
定較為模糊,并由服務(wù)提供者自行編制,缺乏公信力。
因此,中國(guó)質(zhì)量協(xié)會(huì)和華為技術(shù)公司期望通過(guò)整合行業(yè)的力量(包含領(lǐng)先的
公司和專家學(xué)者)制定一個(gè)統(tǒng)一的機(jī)器翻譯質(zhì)量評(píng)估標(biāo)準(zhǔn),用于機(jī)器翻譯質(zhì)量評(píng)
價(jià)的方法和指標(biāo),從而提升評(píng)價(jià)的準(zhǔn)確度、覆蓋度和效率,在有效指導(dǎo)機(jī)器翻譯
質(zhì)量改進(jìn)的同時(shí),提高行業(yè)的交付質(zhì)量和標(biāo)準(zhǔn)。
翻譯語(yǔ)向眾多,不同語(yǔ)系之間存在較大差異,本文件聚焦使用最為廣泛的中
英雙向機(jī)器翻譯的質(zhì)量評(píng)價(jià),為其他語(yǔ)向機(jī)器翻譯的質(zhì)量評(píng)價(jià)提供有益借鑒。
3.機(jī)器翻譯服務(wù)質(zhì)量評(píng)價(jià)相關(guān)背景
《計(jì)算機(jī)科學(xué)技術(shù)名詞》(第三版)將“機(jī)器翻譯評(píng)價(jià)”定義為:人工或自動(dòng)
評(píng)價(jià)機(jī)器翻譯系統(tǒng)譯文質(zhì)量的過(guò)程、技術(shù)和方法。質(zhì)量評(píng)價(jià)是機(jī)器翻譯研究必不
可少的環(huán)節(jié),無(wú)論是模型優(yōu)化、上線、公司競(jìng)標(biāo)等,都涉及機(jī)器翻譯質(zhì)量評(píng)價(jià)的
工作。
當(dāng)前業(yè)界主流的評(píng)價(jià)方法分為自動(dòng)評(píng)價(jià)和人工評(píng)價(jià)。自動(dòng)評(píng)價(jià)方法,則運(yùn)
用特定算法和程序自動(dòng)生成度量指標(biāo),對(duì)比機(jī)器翻譯譯文和參考譯文,自動(dòng)完
成整個(gè)評(píng)價(jià)過(guò)程。自動(dòng)評(píng)價(jià)的優(yōu)點(diǎn)在于快速、高效、可復(fù)現(xiàn)。人工評(píng)價(jià)方法基
于評(píng)價(jià)人員的專業(yè)能力,對(duì)機(jī)器翻譯譯文進(jìn)行打分,準(zhǔn)確反映出翻譯的質(zhì)量。
因人是機(jī)器翻譯的最終用戶,所以人工評(píng)價(jià)更有說(shuō)服力,可解釋性更強(qiáng)。這兩
種評(píng)價(jià)方法,在CCMT(中國(guó)最負(fù)盛名的機(jī)器翻譯學(xué)術(shù)研討組織,每年召開(kāi)一
次,/mt/conference)及WMT(全球最負(fù)盛名的機(jī)器
翻譯學(xué)術(shù)研討組織,每年召開(kāi)一次,/wmt)競(jìng)
賽活動(dòng)、及企業(yè)對(duì)機(jī)器翻譯質(zhì)量自評(píng)估活動(dòng)中廣泛使用。
自動(dòng)評(píng)價(jià)方法中,起草組選取了BLEU1和COMET2兩個(gè)具體指標(biāo)。BLEU指標(biāo)
被WMT和CCMT采納,COMET被WMT采納,用于評(píng)價(jià)每年參賽機(jī)器翻譯模型的質(zhì)
量?jī)?yōu)劣。BLEU是一種簡(jiǎn)單高效的統(tǒng)計(jì)評(píng)價(jià)方法,2002年提出后已成為當(dāng)前學(xué)術(shù)
界、業(yè)界首選的自動(dòng)評(píng)價(jià)方法。其論文至今被引用了23000+次。COMET是近年
來(lái)基于神經(jīng)網(wǎng)絡(luò)技術(shù)的新評(píng)價(jià)指標(biāo),于2020年提出。其論文至今已被引用
400+次。COMET算法更能衡量機(jī)器翻譯譯文與參考譯文的語(yǔ)義相似度,與人工
評(píng)價(jià)的相關(guān)性更高3。因自動(dòng)評(píng)價(jià)方法對(duì)標(biāo)人工翻譯的參考譯文,參考譯文的優(yōu)
劣會(huì)影響指標(biāo)的準(zhǔn)確性。除此之外,測(cè)試集構(gòu)成的合理性也會(huì)影響評(píng)價(jià)結(jié)果,
起草組在標(biāo)準(zhǔn)內(nèi)已說(shuō)明測(cè)試集構(gòu)建標(biāo)準(zhǔn)。
人工評(píng)價(jià)方法中我們選用了直接打分法,該方法簡(jiǎn)單高效,是WMT從2016
年開(kāi)始沿用至今的評(píng)測(cè)方法。評(píng)價(jià)人員的雙語(yǔ)水平會(huì)影響打分的客觀性。因
此,起草組在本團(tuán)體標(biāo)準(zhǔn)中,對(duì)評(píng)價(jià)人員的能力做了明確要求。除此之外,同
自動(dòng)評(píng)價(jià),測(cè)試集構(gòu)成的合理性也會(huì)影響評(píng)價(jià)結(jié)果的客觀性。
綜上,我們采用的評(píng)價(jià)指標(biāo)與WMT設(shè)置一致,符合業(yè)界主流的機(jī)器翻譯質(zhì)
量評(píng)價(jià)要求。
4.主要編制過(guò)程
1)建立標(biāo)準(zhǔn)起草組
1Papineni,Kishore,etal."Bleu:amethodforautomaticevaluationofmachinetranslation."Proceedingsofthe
40thannualmeetingoftheAssociationforComputationalLinguistics.2002.
2Rei,Ricardo,etal."COMET:AneuralframeworkforMTevaluation."arXivpreprintarXiv:2009.09025(2020).
3KonstantinSavenkovandMichelLopez.2022.TheStateoftheMachineTranslation2022.InProceedingsofthe
15thBiennialConferenceoftheAssociationforMachineTranslationintheAmericas(Volume2:Usersand
ProvidersTrackandGovernmentTrack),pages32–49,Orlando,USA.AssociationforMachineTranslationinthe
Americas.
2022年11月10日標(biāo)準(zhǔn)立項(xiàng)后,華為技術(shù)有限公司翻譯中心和中國(guó)質(zhì)量協(xié)
會(huì)組織國(guó)內(nèi)外機(jī)器翻譯專家、人工翻譯專家、大模型研究性院校和知名企業(yè)從業(yè)
人員代表組成標(biāo)準(zhǔn)起草工作組。起草組組長(zhǎng)劉群,華為諾亞方舟實(shí)驗(yàn)室主任,華
為語(yǔ)音語(yǔ)義首席科學(xué)家,國(guó)內(nèi)機(jī)器翻譯開(kāi)創(chuàng)人之一;起草組副組長(zhǎng)江燕飛,華為
翻譯中心主任。
起草組制定了項(xiàng)目里程碑計(jì)劃,分四個(gè)階段完成。
2)形成標(biāo)準(zhǔn)草案
2022年12月至2023年7月,標(biāo)準(zhǔn)起草組按照分工在華為內(nèi)部機(jī)器翻譯服
務(wù)質(zhì)量評(píng)價(jià)有關(guān)文件的基礎(chǔ)上進(jìn)行標(biāo)準(zhǔn)起草工作,在標(biāo)準(zhǔn)立項(xiàng)申報(bào)草案(華為內(nèi)
部機(jī)器翻譯服務(wù)質(zhì)量評(píng)價(jià)SOP)的基礎(chǔ)上形成各階段標(biāo)準(zhǔn)DIS稿。起草組組織召
開(kāi)多次現(xiàn)場(chǎng)和在線討論會(huì),對(duì)相應(yīng)技術(shù)內(nèi)容描述、開(kāi)放源歸屬、驗(yàn)證方法等進(jìn)行
討論。
2023年6月16日,在第三屆華為機(jī)器翻譯論壇期間,標(biāo)準(zhǔn)起草組進(jìn)行了線
下討論和各機(jī)器翻譯主要提供商的協(xié)商工作。
3)形成征求意見(jiàn)稿
2023年7月,針對(duì)后續(xù)標(biāo)準(zhǔn)應(yīng)用、測(cè)試集歸屬、防作弊等進(jìn)行了線下討論,
形成公開(kāi)征求意見(jiàn)稿。
5.主要起草人及所做工作
本系列標(biāo)準(zhǔn)起草單位:中國(guó)質(zhì)量協(xié)會(huì)數(shù)字化分會(huì),負(fù)責(zé)標(biāo)準(zhǔn)化技術(shù)要求、前
言、引言部分;華為技術(shù)有限公司,負(fù)責(zé)范圍、規(guī)范性引用文件、評(píng)價(jià)過(guò)程、質(zhì)
量評(píng)價(jià)和全文統(tǒng)稿和技術(shù)把關(guān);南京大學(xué)和東北大學(xué)(小牛翻譯)負(fù)責(zé)術(shù)語(yǔ)和定
義;騰訊技術(shù)有限公司和北京字節(jié)跳動(dòng)科技有限公司,負(fù)責(zé)評(píng)價(jià)方式;小米技術(shù)
有限公司,負(fù)責(zé)評(píng)價(jià)過(guò)程。
在標(biāo)準(zhǔn)編制過(guò)程中,還有華為技術(shù)有限公司其他技術(shù)團(tuán)隊(duì)和中國(guó)中文信息學(xué)
會(huì)定期舉辦的全國(guó)年度學(xué)術(shù)會(huì)議(CCMT)等專家參與意見(jiàn)。
二、編制原則和確定標(biāo)準(zhǔn)主要內(nèi)容的依據(jù)
1.編制原則
按照GB/T1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草
規(guī)則》的要求和規(guī)定編寫本文件內(nèi)容。
遵循標(biāo)準(zhǔn)的先進(jìn)性,系統(tǒng)性、可行性原則。
2.確定標(biāo)準(zhǔn)主要內(nèi)容依據(jù)
本文件參考GB/T19363.1—2022《翻譯服務(wù)第1部分:服務(wù)要求》、GB/T
19682—2005《翻譯服務(wù)譯文質(zhì)量要求》、GB/T19000—2016《質(zhì)量管理體系基
礎(chǔ)和術(shù)語(yǔ)》(idtISO9000:2015)標(biāo)準(zhǔn)。
參考各起草單位多年在大語(yǔ)言模型,文本生成的約束和推理,機(jī)器翻譯服
務(wù)應(yīng)用方面獲得的能力驗(yàn)證做法、行業(yè)機(jī)器翻譯評(píng)價(jià)的研究成果,及在業(yè)界實(shí)
際應(yīng)用情況,本團(tuán)體標(biāo)準(zhǔn)提出人工評(píng)價(jià)和自動(dòng)評(píng)價(jià)相結(jié)合,既采用最為可靠的
人工評(píng)價(jià),又通過(guò)工具快速計(jì)算出機(jī)器翻譯與參考譯文的相似度,同時(shí)度量語(yǔ)
義相似性,實(shí)現(xiàn)科學(xué)、而準(zhǔn)確的機(jī)器翻譯的質(zhì)量評(píng)價(jià)。
三、主要試驗(yàn)、驗(yàn)證分析
本文件基于評(píng)價(jià)華為內(nèi)部機(jī)器翻譯服務(wù)質(zhì)量評(píng)價(jià)作業(yè)指導(dǎo)書和其他起草單
位服務(wù)提供需求收集及能力驗(yàn)證,結(jié)合全國(guó)機(jī)器翻譯大會(huì)(CCMT)以及相應(yīng)國(guó)際
和國(guó)內(nèi)機(jī)器翻譯比賽有關(guān)裁判要求,以及我國(guó)中英文機(jī)器翻譯商務(wù)服務(wù)過(guò)程中實(shí)
際可行做法和經(jīng)驗(yàn),確保本文件規(guī)范性、科學(xué)性、適用性及先進(jìn)性。
本團(tuán)標(biāo)已設(shè)置自動(dòng)評(píng)價(jià)定量指標(biāo)(詳見(jiàn)團(tuán)標(biāo)7.1.1),以及人工評(píng)價(jià)定量指
標(biāo)(詳見(jiàn)7.1.2)。自動(dòng)評(píng)價(jià)準(zhǔn)入基線值取行業(yè)商用引擎的80分位,人工評(píng)價(jià)基
線取行業(yè)慣例80分。
我們采用的自動(dòng)評(píng)價(jià)開(kāi)發(fā)集來(lái)自WMT2022年的公開(kāi)測(cè)試集,網(wǎng)絡(luò)可獲取,
內(nèi)容新,質(zhì)量高,認(rèn)可度高,2023年發(fā)表的眾多論文4567都采用了該測(cè)試集衡量機(jī)
器翻譯質(zhì)量。而自動(dòng)評(píng)價(jià)方法BLEU和COMET,均已在Github上開(kāi)源,可直接下
載工具進(jìn)行評(píng)價(jià),因此自動(dòng)評(píng)價(jià)方法可復(fù)制性和可行性很高。BLEU和COMET評(píng)
價(jià)方法的合理性在各起草單位自身工作質(zhì)量評(píng)價(jià)(內(nèi)測(cè))和專業(yè)比賽中進(jìn)行了驗(yàn)
證,也可參見(jiàn)論文8和論文9。人工評(píng)價(jià)方法采用簡(jiǎn)單的直接打分制,我們?cè)跇?biāo)準(zhǔn)
中也給出了每個(gè)分?jǐn)?shù)段的錯(cuò)誤描述和評(píng)價(jià)人員的能力要求,符合要求的評(píng)價(jià)人員
根據(jù)標(biāo)準(zhǔn)快速上手。經(jīng)過(guò)WMT2016-2022年的實(shí)踐,基于成本、效果等多方面考
4Raunak,Vikas,etal."LeveragingGPT-4forAutomaticTranslationPost-Editing."arXivpreprint
arXiv:2305.14878(2023).
5Raunak,Vikas,etal."DoGPTsProduceLessLiteralTranslations?."arXivpreprintarXiv:2305.16806(2023).
6Lo,Chi-Kiu,andRebeccaKnowles."DataSamplingand(In)stabilityinMachineTranslationEvaluation."
FindingsoftheAssociationforComputationalLinguistics:ACL2023.2023.
7Hendy,Amr,etal."Howgoodaregptmodelsatmachinetranslation?acomprehensiveevaluation."arXiv
preprintarXiv:2302.09210(2023).
8Papineni,Kishore,etal."Bleu:amethodforautomaticevaluationofmachinetranslation."Proceedingsofthe
40thannualmeetingoftheAssociationforComputationalLinguistics.2002.
9Rei,Ricardo,etal."COMET:AneuralframeworkforMTevaluation."arXivpreprintarXiv:2009.09025(2020).
慮,直接打分法是現(xiàn)在行業(yè)上最佳的人工評(píng)測(cè)方法。
評(píng)價(jià)成本、投入方面,主要涉及測(cè)試集的構(gòu)建、人工評(píng)價(jià)所需人力。其中測(cè)
試集的構(gòu)建成本主要包含數(shù)據(jù)抽取及人工翻譯出參考譯文,測(cè)試集構(gòu)建完成后,
不公開(kāi),可在同一領(lǐng)域內(nèi)多次復(fù)用,進(jìn)行某領(lǐng)域機(jī)器翻譯服務(wù)質(zhì)量評(píng)價(jià);人工評(píng)
價(jià)需要專業(yè)人員對(duì)所涉及機(jī)器翻譯系統(tǒng)進(jìn)行打分,每次人工評(píng)價(jià)活動(dòng)均產(chǎn)生新的
人員投入成本。具體成本可參考行業(yè)人工翻譯、審校成本。
綜上,團(tuán)體標(biāo)準(zhǔn)有關(guān)技術(shù)內(nèi)容和指標(biāo)設(shè)定符合機(jī)器翻譯目前國(guó)內(nèi)(中英文互
譯)的通用技術(shù)水平,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 專項(xiàng)10 文學(xué)常識(shí)(試卷版)
- 2025屆江蘇省鹽城市射陽(yáng)中學(xué)高三上學(xué)期一模物理試題(解析版)
- 2025屆四川省資陽(yáng)市安岳中學(xué)高三二模語(yǔ)文試題(原卷版+解析版)
- 人教版九年級(jí)下冊(cè)化學(xué)教學(xué)工作計(jì)劃(含進(jìn)度表)
- 《跨境電子商務(wù)法律法規(guī) 》全套教學(xué)課件
- 廣東省廣州市華南師范附屬中學(xué)2024-2025學(xué)年高二下學(xué)期3月月考物理試卷(原卷版+解析版)
- 教育咨詢居間協(xié)議樣本
- 汽車車身電子控制技術(shù)指南
- 中醫(yī)護(hù)理學(xué)(第5版)課件 第三節(jié) 中藥煎服法與護(hù)理
- 雨水收集再利用系統(tǒng)
- 2023年 新版評(píng)審準(zhǔn)則質(zhì)量記錄手冊(cè)表格匯編
- 2024年全國(guó)版圖知識(shí)競(jìng)賽(小學(xué)組)考試題庫(kù)大全(含答案)
- 博物館保安服務(wù)投標(biāo)方案(技術(shù)方案)
- (高清版)TDT 1047-2016 土地整治重大項(xiàng)目實(shí)施方案編制規(guī)程
- 2024年新疆維吾爾自治區(qū)中考一模綜合道德與法治試題
- 醫(yī)藥代表專業(yè)化拜訪技巧培訓(xùn)
- 今年夏天二部合唱譜
- 現(xiàn)代制造技術(shù)課件
- 小米公司招聘測(cè)試題目
- 2024年北京控股集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 人教版二年級(jí)數(shù)學(xué)下冊(cè) 3 圖形的運(yùn)動(dòng)(一)1.軸對(duì)稱圖形(教學(xué)課件)
評(píng)論
0/150
提交評(píng)論