YDT 4394.3-2023自然語言處理技術(shù)及產(chǎn)品評估方法 第3部分:智能翻譯機_第1頁
YDT 4394.3-2023自然語言處理技術(shù)及產(chǎn)品評估方法 第3部分:智能翻譯機_第2頁
YDT 4394.3-2023自然語言處理技術(shù)及產(chǎn)品評估方法 第3部分:智能翻譯機_第3頁
YDT 4394.3-2023自然語言處理技術(shù)及產(chǎn)品評估方法 第3部分:智能翻譯機_第4頁
YDT 4394.3-2023自然語言處理技術(shù)及產(chǎn)品評估方法 第3部分:智能翻譯機_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS35.240

CCSL67

YD

中華人民共和國通信行業(yè)標準

YD/T××××—××××

自然語言處理技術(shù)及產(chǎn)品評估方法

第3部分:智能翻譯機

Naturallanguageprocessingtechnologyandproductevaluationmethod

—Part3:intelligenttranslator

(報批稿)

××××-××-××發(fā)布××××-××-××實施

中華人民共和國工業(yè)和信息化部發(fā)布

YD/TXXXX—XXXX

前言

本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》

給出的規(guī)定起草。

本文件是《自然語言處理技術(shù)及產(chǎn)品評估方法》系列標準之一,該系列標準的結(jié)構(gòu)和名

稱如下:

——第1部分:基礎(chǔ)服務(wù)平臺;

——第2部分:對話系統(tǒng);

——第3部分:智能翻譯機;

——第4部分:機器同傳系統(tǒng);

——第5部分:智能客服系統(tǒng);

——第6部分:客服質(zhì)檢系統(tǒng)。

請注意本文件的某些內(nèi)容可能涉及專利,本文件的發(fā)布機構(gòu)不承擔識別這些專利的責任。

本文件由中國通信標準化協(xié)會提出并歸口。

本文件起草單位:中國信息通信研究院、南京新一代人工智能研究院有限公司、科大訊

飛股份有限公司、北京百度網(wǎng)訊科技有限公司、北京聲智科技有限公司、北京理工大學。

本文件主要起草人:董曉飛、張學強、張丹、曹峰、王浩、陸鐵文、劉俊華、何永春、

張睿卿、何中軍、吳華、李笑如、陳孝良、李良斌、屈少杰。

II

YD/TXXXX—XXXX

引言

0.1編制目的及標準結(jié)構(gòu)

智能翻譯機是一種可自動實現(xiàn)由源語言向另目標語言轉(zhuǎn)換的電子器件,因能消除不同文

字和語言的隔閡,近年來在旅游和教育等場景中獲得了較好的應用。智能翻譯機集成了語種

識別、機器翻譯等自然語言處理技術(shù),集成了語音識別、語音合成等語音處理技術(shù),還集成

了OCR、人臉識別等圖像處理技術(shù),覆蓋了人工智能算法層三大核心技術(shù),屬于多模態(tài)融合

應用的典型產(chǎn)品。為規(guī)范智能翻譯機的技術(shù)效果和服務(wù)形式,引導智能翻譯機產(chǎn)業(yè)健康發(fā)展,

開展相關(guān)標準的制定工作。

自然語言處理技術(shù)及產(chǎn)品評估方法系列標準由以下六個部分組成。

——第1部分:基礎(chǔ)服務(wù)平臺。目的在于提供詞法分析、句法分析、語義分析等NLP基礎(chǔ)

技術(shù),可提供情感分析、機器翻譯、對話系統(tǒng)等NLP應用技術(shù)的服務(wù)平臺,從基礎(chǔ)

技術(shù)、應用技術(shù)、服務(wù)能力等三個維度對NLP服務(wù)平臺進行評估。

——第2部分:對話系統(tǒng)。目的在于集成了對話系統(tǒng)功能的產(chǎn)品或服務(wù),從對話類型、

對話功能、對話性能、對話體驗四個維度進行評估。

——第3部分:智能翻譯機。目的在于可實現(xiàn)語音輸入、自動翻譯和語音輸出的智能翻

譯機,從基礎(chǔ)功能、AI核心技術(shù)支持能力、安全性與可靠性和附加業(yè)務(wù)功能等四個

維度對智能翻譯機進行評估。

——第4部分:機器同傳系統(tǒng)。目的在于提供語音輸入、自動分句、機器翻譯、語音輸

出或譯文投屏的機器同傳系統(tǒng),從基礎(chǔ)功能、AI核心技術(shù)支持能力、工程實現(xiàn)能

力、附加業(yè)務(wù)能力等四個維度對機器同傳系統(tǒng)進行評估。

——第5部分:智能客服系統(tǒng)。目的在于提供語音客服機器人、文本客服機器人等多種

產(chǎn)品形態(tài)的智能客服系統(tǒng),從基礎(chǔ)功能、AI核心技術(shù)支持能力、企業(yè)服務(wù)能力和系

統(tǒng)成熟度等四個維度對智能客服進行評估。

——第6部分:客服質(zhì)檢系統(tǒng)。目的在提供人工客服和智能客服的質(zhì)檢系統(tǒng),從智能語

音、自然語言理解、基礎(chǔ)能力、質(zhì)檢能力四個維度進行評估。

本文件是“自然語言處理技術(shù)及產(chǎn)品評估方法”系列文件第3部分:智能翻譯機,是為

智能翻譯機的研發(fā)者和選型者提供評估參考規(guī)范。

0.2相關(guān)專利情況說明

本文件的發(fā)布機構(gòu)提請注意,聲明符合本文件時,可能涉及到5、7.3.1、7.3.3和7.3.5

中如下4項和智能翻譯機技術(shù)相關(guān)的專利使用。專利名稱如下:

CN201911010911.1,語音合成的評估方法、裝置、電子設(shè)備及可讀存儲介質(zhì);

CN201110307878.6,獲取語料的方法及裝置、生成翻譯模型的方法及系統(tǒng)、機器翻譯的方法

及系統(tǒng);CN201810712539.8,用于語音翻譯的方法、裝置、設(shè)備和計算機可讀存儲介質(zhì);

CN201310746678.X,翻譯譯文的提供方法、裝置和系統(tǒng)。

本文件的發(fā)布機構(gòu)對于該專利的真實性、有效性和范圍無任何立場。

該專利持有人已向本文件的發(fā)布機構(gòu)承諾,他愿意同任何申請人在合理且無歧視的條款

和條件下,就專利授權(quán)許可進行談判。該專利持有人的聲明已在本文件的發(fā)布機構(gòu)備案,相

III

YD/TXXXX—XXXX

關(guān)信息可以通過以下聯(lián)系方式獲得:

專利持有人姓名:北京百度網(wǎng)訊科技有限公司

地址:北京市海淀區(qū)上地十街10號百度大廈2層

請注意除上述專利外,本文件的某些內(nèi)容仍可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識

別這些專利的責任。

IV

YD/TXXXX—XXXX

自然語言處理技術(shù)及產(chǎn)品評估方法

第3部分:智能翻譯機

1范圍

本文件規(guī)定了可實現(xiàn)語音輸入、自動翻譯和語音輸出的智能翻譯機的指標要求和評估方

法,主要包括智能翻譯機基本框架、評估方法概述、指標項及評估方法,所述智能翻譯機不

包括支持翻譯的藍牙耳機、電子詞典和錄音筆。

本文件適用于指導第三方測評機構(gòu)對智能翻譯機的評估、驗收等工作。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本

適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T19682-2005翻譯服務(wù)譯文質(zhì)量要求

GB/T21023-2007中文語音識別系統(tǒng)通用技術(shù)規(guī)范

GB/T21024-2007中文語音合成系統(tǒng)通用技術(shù)規(guī)范

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

語音識別speechrecognition

將人類的聲音信號轉(zhuǎn)化為文字或者指令的技術(shù)。

[來源:GB/T21023-2007,3.1]

3.2

語音合成texttospeech

通過機械的、電子的方法合成人類語言的過程。

[來源:GB/T21024-2007,3.1]

3.3

機器翻譯machinetranslation

將一種語言(源語言)自動轉(zhuǎn)換為另一種語言(目標語言)的技術(shù)。

3.4

用戶users

1

YD/TXXXX—XXXX

使用智能翻譯機解決其業(yè)務(wù)問題的組織或個人。

4縮略語

下列縮略語適用于本文件:

AI人工智能ArtificialIntelligence

BLEU雙語評估替補BilingualEvaluationUnderstudy

5智能翻譯機基本框架

智能翻譯機的工作原理為:

a)使用者通過自然語言對翻譯機麥克風說出需要進行翻譯的內(nèi)容;

b)機體通過麥克風陣列采集用戶聲音;

c)智能翻譯機通過使用語音識別、機器翻譯等技術(shù),結(jié)合服務(wù)端資源對用戶請求進行

分析;

d)對翻譯文本進行語音合成播報或通過翻譯機終端顯示屏進行展示。

其工作原理見圖1。

圖1智能翻譯機工作原理

6評估方法概述

針對智能翻譯機的評估方法包括檢查和測試兩類測評方法,具體為:

a)檢查:檢查是通過對測評對象進行觀察、查驗、分析以幫助測評人員理解、澄清或

取得證據(jù)的過程。檢查主要有評審、核查、審查、觀察、研究和分析等,檢查對象

是文檔等;

2

YD/TXXXX—XXXX

b)測試:測試是指使用預定的方法/工具使測評對象產(chǎn)生特定的結(jié)果,將運行結(jié)果與

預期的結(jié)果進行比對的過程,主要包括人工評測、工具測試等測試操作。

7指標項及評估方法

7.1智能翻譯機指標體系

智能翻譯機指標項的權(quán)重見表1。

表1智能翻譯機指標體系

維度指標評價方法

語種和方向語言對數(shù)量

自動語種識別語種數(shù)量

基礎(chǔ)功能支持篇章翻譯支持與否

錯誤修復機制支持與否

私有資源定制支持與否

自然語言處理機器翻譯主觀評分

AI核心技術(shù)支持能語音識別字準確率

語音處理

力語音合成MOS評分

計算機視覺OCR準確率

個人信息保護支持與否

安全性與穩(wěn)定性服務(wù)可靠性技術(shù)測試

服務(wù)計量準確性技術(shù)測試

方言識別與翻譯方言數(shù)量

行業(yè)識別與翻譯行業(yè)數(shù)量

附加業(yè)務(wù)功能

拍照識別與翻譯支持與否

離線識別與翻譯支持與否

7.2基礎(chǔ)功能評估

7.2.1語種和方向

評估目的:評估智能翻譯機支持翻譯的語種和方向的豐富度。

評估內(nèi)容:

a)語種:漢語、英語、日語、韓語、德語、西班牙語、意大利語等常見語種的識別和

翻譯;

3

YD/TXXXX—XXXX

b)方向:中英、英中、中日、日中、中韓、韓中、中德、德中等常見語種的雙向翻譯。

評估方法:

a)構(gòu)建多個語種、多個方向的音頻模態(tài)的測試數(shù)據(jù)集;

b)基于技術(shù)驗證的方式,依次輸入測試數(shù)據(jù)集,將其識別為文本及對應翻譯結(jié)果,判

定其是否支持待測語種和方向。

7.2.2自動語種識別

評估目的:評估智能翻譯機自動識別語種的能力。

評估方法:

a)構(gòu)建多個語種的音頻模態(tài)的測試數(shù)據(jù)集;

b)基于技術(shù)驗證的方式,依次輸入測試數(shù)據(jù)集并將其識別為相應的語種,以判定翻

譯機是否支持語種自動識別能力。

7.2.3支持篇章翻譯

評估目的:評估智能翻譯機支持帶有上下文語義關(guān)聯(lián)的篇章翻譯的能力。

評估方法:

a)構(gòu)建中文和英文兩個語種的音頻模態(tài)的篇章測試數(shù)據(jù)集;

b)基于技術(shù)驗證的方式,依次輸入篇章測試數(shù)據(jù)集,將其識別為文本及對應翻譯結(jié)

果,判定其是否支持上下文語義關(guān)聯(lián)。

7.2.4錯誤修復機制

評估目的:評估智能翻譯機是否具備錯誤修復機制。

評估方法:

a)構(gòu)建中文和英文兩個語種的音頻模態(tài)的測試數(shù)據(jù)集;

b)基于技術(shù)驗證的方式,依次輸入測試數(shù)據(jù)集,將測試數(shù)據(jù)集識別為文本及對應翻

譯結(jié)果。通過觀察原始輸出和實際輸出,判定其是否具備錯誤修復機制。

7.2.5私有資源定制

評估目的:評估智能翻譯機在特殊對象和環(huán)境中識別語音的能力。

評估方法:結(jié)合材料審查和技術(shù)驗證的方式。

a)材料審查:通過審查智能翻譯機的產(chǎn)品說明書、技術(shù)文檔等材料,評估其是否具備

私有資源定制能力。

b)技術(shù)驗證:

1)構(gòu)建通訊錄、術(shù)語庫、關(guān)鍵詞、專有術(shù)語表、雙語對照表等作為虛擬用戶私

有資源;

2)將測試數(shù)據(jù)集識別為文本,并進行機器翻譯,得到翻譯結(jié)果;

3)導入虛擬用戶私有資源,將測試數(shù)據(jù)集識別為文本及對應翻譯結(jié)果;

4)對比導入虛擬用戶私有資源前后的譯文,判定其是否支持該項功能。

7.3AI核心技術(shù)支持能力評估

7.3.1機器翻譯

評估目的:智能翻譯機的機器翻譯能力評估。

4

YD/TXXXX—XXXX

評估內(nèi)容:該指標可選擇兩種評估方式。

a)單獨評估智能翻譯機翻譯效果,即使用人工矯正后識別結(jié)果請求翻譯,對翻譯結(jié)

果進行BLEU值或可接受度評價。

b)不進行人工矯正,直接使用原始識別結(jié)果請求翻譯能力,對翻譯結(jié)果進行BLEU值

或可接受度評估計算。

評估方法:

由3名評測人員對翻譯結(jié)果逐句進行可接受度評分,評分準則見表2,評分準則應遵循

GB/T19682-2005;

a)由3名評測人員對單句翻譯結(jié)果評分的均分即為該句的譯文接受度評分;

b)對于單句而言,譯文接受度大于等于3分判定該句譯文可接受,譯文接受度小于3分

則判定該句譯文不可接受。參評譯文總句數(shù)應為譯文可接受句子總數(shù)與譯文不可接

受句子總數(shù)之和;

c)以譯文可接受率作為度量翻譯機的翻譯效果,計算方法參見公式(1):

C

P=1×100%……(1)

PREC

式中:

PPRE——譯文可接受率;

C1——譯文可接受句子總數(shù);

C——譯文句子總數(shù)。

表2機器翻譯可接受度評分準則

譯文評分評分準則

1分譯文晦澀難懂,無法通過譯文判斷原文表達的內(nèi)容。

譯文不能反映原文語義,存在以下問題:

——譯文包含原文主要成分,但因順序問題、邏輯錯誤、嚴重語法錯誤等原因未能

2分構(gòu)成流暢譯文;

——譯文基本流暢,但否定、雙重否定等翻譯錯誤、嚴重漏譯、關(guān)鍵詞錯譯、多翻

了原文本沒有的內(nèi)容。

譯文能夠反映原文語義,基本流暢[主謂賓等語法成分順序正確],但存在表達語義

3分

的關(guān)鍵詞匯翻譯不當、非關(guān)鍵詞漏譯或錯譯等。

譯文基本反映原文語義,基本流暢[主謂賓等語法成分順序正確],只是存在少量詞

4分

用詞不當或搭配不地道等。

5分譯文忠實反映語義,譯文流暢。

7.3.2語音識別

評估目的:評估智能翻譯機中語音識別能力。

評估方法:

a)構(gòu)建語音測試數(shù)據(jù)集,通過接口批量獲取語音識別的文本;

b)字錯率:以字符為單位比對識別序列和標準序列,依據(jù)識別錯誤的字數(shù)和標準序列

中的總字數(shù)計算字錯率,字錯率計算方法參見公式(2):

5

YD/TXXXX—XXXX

?

Y=WER×100%…………………(2)

WERR

式中:

YWER——字錯率;

RWER——錯誤識別的字數(shù);

R——總字數(shù);

c)句錯率:比對識別序列和標準序列,兩者相同則該句視為識別正確,否則視為識別

錯誤,依據(jù)識別錯誤的句子數(shù)和測試集總句數(shù)計算句錯率,計算方法參見公式(3):

Q

Y=SER×100%…………………(3)

SERQ

式中:

YSER——句錯率;

QSER——錯誤識別的句子數(shù);

Q——總句數(shù)。

7.3.3特定識別能力

評估目的:評估智能翻譯機在特殊人群和距離中的識別能力。

評估內(nèi)容:測試包括以下兩個部分。

a)口音:不同地域的口音,比如廣東口音、東北口音、四川口音、福建口音等。

b)距離:在遠場距離環(huán)境下,分別分為1m、2m、3m條件來進行測試。

評估方法:

a)構(gòu)建口音、距離等特定場景測試數(shù)據(jù)集;

b)依次將測試數(shù)據(jù)集識別為文本及對應翻譯結(jié)果,分別統(tǒng)計字準確率。

7.3.4場景識別能力

評估目的:評估智能翻譯機在不同應用場景和領(lǐng)域中的表現(xiàn)力。

評估內(nèi)容:測試短文內(nèi)容包含特定應用場景音頻特質(zhì),音頻10~20段,每段篇幅100~

200個字符,涉及場景包括:

a)家居環(huán)境,如臨街環(huán)境和室內(nèi)家電噪聲環(huán)境;

b)建筑環(huán)境,如會議室、大廳等;

c)電話錄音,如對話式錄音。

評估方法:

a)構(gòu)建家居、建筑等特定場景測試數(shù)據(jù)集;

b)依次將測試數(shù)據(jù)集識別為文本及對應翻譯結(jié)果,分別統(tǒng)計字準確率。

7.3.5語音合成

7.3.5.1通則

本指標是為了評估智能翻譯機的綜合語音合成效果。本指標主要為音頻合成質(zhì)量評估,

可以細分為發(fā)音準確率、音節(jié)清晰度、語音自然度三部分。

7.3.5.2發(fā)音正確率

6

YD/TXXXX—XXXX

基于人工評測的方式。參評企業(yè)的語音合成服務(wù)系統(tǒng)依據(jù)評測方提供的測試數(shù)據(jù)集,每

個句子包含一個無歧義的測試點,依據(jù)參評系統(tǒng)產(chǎn)生的合成音頻,檢查是否正確合成,統(tǒng)計

得分,計算發(fā)音正確率。發(fā)音正確率的評測點見表3,發(fā)音正確率的計算方法參見公式(4):

W

P=1×100%……(4)

WW

式中:

PW——發(fā)音正確率;

W1——正確合成聲音的用例數(shù);

W——總的用例數(shù)。

表3語音合成發(fā)音正確率評測準則

評測點描述權(quán)重

a)常見多音字:能依據(jù)上下文在輸出的文本文件中對多音字給出正確的讀

音;

多音字30

b)特殊姓氏:可根據(jù)上下文區(qū)別讀音的特殊姓氏,例如“仇”作為姓時應

該讀為[qiu2]。

a)進制單位:對測試材料中的數(shù)字字符,應按照中文以億、萬、千、百、

十為單位獨出,例如“896,500”應展開為“八十九萬六千五百”;

數(shù)字20

b)數(shù)據(jù)字符:能區(qū)分年代、電話號碼、百分比、分數(shù)和小數(shù)的不同讀法,

如“2017/10/27”“23:11”“5pm”等。

a)特殊符號和單位:對測試材料中的符號和單位,有中文法定計量單位的

應給出相應的拼音形式,并按照漢語普通話讀音,讀音應遵照《關(guān)于在

我國統(tǒng)一實行法定計量單位的命令》(1984年)的規(guī)定,如“:”“-”

符號20

“#”“*”等需要能根據(jù)上下文選擇正確的發(fā)音;

b)數(shù)字符號有全角半角:前端系統(tǒng)應該能正確識別全角半角并發(fā)音;

c)中英文混讀:常用外語縮略語,如“B超”“ATM機”“QQ”等。

聲調(diào)發(fā)音一/不變調(diào)、上聲變調(diào)、重疊式變調(diào)、輕音和兒化音變調(diào)等。30

7.3.5.3音節(jié)清晰度

評估目的:評估翻譯機字和詞的發(fā)音清晰效果。

評估方法:基于人工評測的方式。采用語義不可測句(SemanticUnpredictable

Sentence,SUS)測試單詞清晰度,將測試集語句中字詞打亂,語義的不可測可以避免聽音

人的經(jīng)驗猜測,其中測試點都是單個字、詞,參評企業(yè)的語音合成服務(wù)系統(tǒng)依據(jù)評測方提供

的測試數(shù)據(jù)集成為音頻。語音順序交叉打亂,聽音評測者依據(jù)參評系統(tǒng)生成的音頻文件和輸

入的文本進行比照,判斷字詞的發(fā)音是否清晰,統(tǒng)計發(fā)音清晰得分,計算方法參見公式(5):

X

P=1×100%……(5)

XX

式中:

PX——發(fā)音清晰度;

X1——清晰發(fā)音的測試點;

X——總的測試點。

7.3.5.4語音自然度

評估目的:評估翻譯機語音合成音頻的自然度。

7

YD/TXXXX—XXXX

評估方法:基于人工評測的方式。采用MOS(MeanOpinionScore)平均主觀意見評分方

式,參評企業(yè)的語音合成服務(wù)系統(tǒng)依據(jù)評測方提供的測試數(shù)據(jù)集,將測試數(shù)據(jù)集合成為音頻。

語音順序交叉打亂,聽音評測者依據(jù)參評系統(tǒng)生成的音頻文件,從以下三個方面判斷合成語

音的整體自然度,各維度滿分100分,統(tǒng)計所有評測人員的打分,計算各維度的平均分。

a)情緒飽滿度:按照文本語義和情緒,評估合成語音情緒表達是否到位。

b)流暢連貫度:評估合成語音韻律節(jié)奏、分詞停頓和語速表達是否正常,是否流暢連

貫。

c)擬人舒適度:評估合成語音在人聽覺上的感受是否舒適,是否更接近人類發(fā)音。

計算語音自然度得分,計算方法參見公式(6):

Y+Y+Y

P=123……(6)

Y3

式中:

PY——語音自然度得分;

Y1——情緒飽滿度得分;

Y2——流暢連貫度得分;

Y3——擬人舒適度得分。

7.3.6OCR

特定使用場景下,要求智能翻譯機具備光學字符識別(OCR)等智能視覺能力,以輔助

翻譯機接收、處理多模態(tài)信息。

評估目的:本指標為了評測智能翻譯機是否具備圖像文字識別的能力。

評估方法:

a)通過材料審查判斷智能翻譯機是否具備圖像文字識別的能力;

b)通過技術(shù)測試的方法,構(gòu)建圖片測試數(shù)據(jù)集;

c)測試智能翻譯機的OCR能力,準確率計算方法參見公式(7):

Z

P=1×100%……(7)

ZZ

式中:

PZ——OCR準確率;

Z1——正確識別的圖片數(shù)量;

Z——總的圖片數(shù)量。

7.4安全性與穩(wěn)定性評估

7.4.1個人信息保護

評估目的:智能翻譯機的個人信息保護能力評估。

評估方法:基于材料檢查的方式。

a)審查智能翻譯機廠商的個人信息組織管理制度,包括:

1)審查企業(yè)是否建立個人信息管理責任、規(guī)范個人信息處理等規(guī)則制度;

2)審查企業(yè)是否建立完善的內(nèi)部合規(guī)管理部門,并設(shè)立專門的人工信息保護管

理人員;

3)審查企業(yè)是否建立個人信息保護系統(tǒng)的安全審計能力(可選);

8

YD/TXXXX—XXXX

4)審查企業(yè)是否建立數(shù)據(jù)安全能力,落實必要的管理和技術(shù)措施,防止個人信

息的泄漏、損毀、丟失。

b)審查智能翻譯機的個人信息隱私保護措施,主要是驗證智能翻譯機的數(shù)據(jù)收集、

保存、使用、處理等行為中涉及到的個人信息隱私保護。

7.4.2服務(wù)穩(wěn)定性

智能翻譯機的服務(wù)穩(wěn)定性應≥99.9%,并具備一定的服務(wù)可靠性的保障策略。

評估目的:智能翻譯機的穩(wěn)定性。

評估方法:基于材料檢查的方式。

a)參評單位應提供自承諾的服務(wù)等級材料,并提供服務(wù)可靠性保障策略相關(guān)材料,

如平均故障間隔時間、用戶無感的系統(tǒng)升級、服務(wù)狀態(tài)監(jiān)測和自動重啟、冗余備災

策略等,測試方檢查是否符合穩(wěn)定性要求;

b)判斷智能翻譯機SLA指標能否達到全鏈路2s以內(nèi)請求占比≥99.9%、全鏈路1s以內(nèi)

請求占比≥95.0%的指標。

7.4.3服務(wù)計量準確性

評估目的:評估智能翻譯機整體服務(wù)的計量準確度。

評估方法:基于材料檢查和技術(shù)測試的方式。

a)材料檢查:檢查參評單位提供的與承諾相符的服務(wù)計量的材料,包括:

1)檢查計費單位、計費算法、計費周期;

2)檢查計量日志。

b)技術(shù)測試:測試智能翻譯機的計費準確度,抽取計量日志中若干計費條目,按參評

單位提供的計費方式審查是否與實際使用情況一致。

7.5附加業(yè)務(wù)功能

7.5.1方言識別與翻譯

評估目的:智能翻譯機對東北話、四川話、廣東話等方言的識別與翻譯。

評估方法:基于材料檢查和技術(shù)測試的方式。

a)材料檢查:檢查參評單位提供的與承諾相符的方言的識別與翻譯的相關(guān)材料。

b)技術(shù)驗證,包括:

1)評估語音識別能力,如將東北話、四川話、廣東話等方言識別為文本的能力;

2)評估機器翻譯能力,如將東北話、四川話、廣東話等方言翻譯為目標語言文

本的能力。

7.5.2行業(yè)識別與翻譯

評估目的:智能翻譯機對教育、旅游、交通、餐飲等翻譯機重點應用行業(yè)進行識別與翻

譯。

評估方法:主要基于材料檢查和技術(shù)測試的方式。

a)材料檢查:檢查參評單位提供的與承諾相符的行業(yè)的識別與翻譯的相關(guān)材料。

b)技術(shù)驗證,包括:

1)評估教育、旅游、交通、餐飲等行業(yè)的識別能力,判斷能否正確地將行業(yè)中

的專業(yè)術(shù)語、特定表達的語音識別為文本;

9

YD/TXXXX—XXXX

2)評估教育、旅游、交通、餐飲等行業(yè)的翻譯能力,判斷能否正確地將行業(yè)中

的專業(yè)術(shù)語、特定表達的源語言翻譯為目標語言。

7.5.3拍照識別與翻譯

評估目的:智能翻譯機具備拍照識別的能力,重點識別圖片中的文字,并進行翻譯。

評估方法:主要基于材料檢查和技術(shù)測試的方式。

a)材料檢查:檢查參評單位提供的與承諾相符的拍照識別與翻譯的相關(guān)材料。

b)技術(shù)驗證,包括:

1)評估能否通過拍照快速識別的現(xiàn)實生活中的物體或文字;

2)評估能否對識別出的物體名稱或文字翻譯為目標語言。

7.5.4離線識別與翻譯

評估目的:智能翻譯機具備離線語音識別與機器翻譯的能力。

評估方法:主要基于材料檢查和技術(shù)測試的方式。

a)材料檢查:檢查參評單位提供的與承諾相符的離線識別與翻譯的相關(guān)材料。

b)技術(shù)驗證:在智能翻譯機離線的情況下進行語音輸入,驗證翻譯機能否準確識別

出文字并進行翻譯。

10

YD/TXXXX—XXXX

目次

前言.....................................................................II

引言....................................................................III

1范圍......................................................................1

2規(guī)范性引用文件.............................................................1

3術(shù)語和定義.................................................................1

4縮略語.....................................................................2

5智能翻譯機基本框架.........................................................2

6評估方法概述...............................................................2

7指標項及評估方法...........................................................3

7.1智能翻譯機指標體系...................................................3

7.2基礎(chǔ)功能評估.........................................................3

7.3AI核心技術(shù)支持能力評估..............................................4

7.4安全性與穩(wěn)定性評估...................................................8

7.5附加業(yè)務(wù)功能.........................................................9

I

YD/TXXXX—XXXX

自然語言處理技術(shù)及產(chǎn)品評估方法

第3部分:智能翻譯機

1范圍

本文件規(guī)定了可實現(xiàn)語音輸入、自動翻譯和語音輸出的智能翻譯機的指標要求和評估方

法,主要包括智能翻譯機基本框架、評估方法概述、指標項及評估方法,所述智能翻譯機不

包括支持翻譯的藍牙耳機、電子詞典和錄音筆。

本文件適用于指導第三方測評機構(gòu)對智能翻譯機的評估、驗收等工作。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本

適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T19682-2005翻譯服務(wù)譯文質(zhì)量要求

GB/T21023-2007中文語音識別系統(tǒng)通用技術(shù)規(guī)范

GB/T21024-2007中文語音合成系統(tǒng)通用技術(shù)規(guī)范

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

語音識別speechrecognition

將人類的聲音信號轉(zhuǎn)化為文字或者指令的技術(shù)。

[來源:GB/T21023-2007,3.1]

3.2

語音合成texttospeech

通過機械的、電子的方法合成人類語言的過程。

[來源:GB/T21024-2007,3.1]

3.3

機器翻譯machinetranslation

將一種語言(源語言)自動轉(zhuǎn)換為另一種語言(目標語言)的技術(shù)。

3.4

用戶users

1

YD/TXXXX—XXXX

使用智能翻譯機解決其業(yè)務(wù)問題的組織或個人。

4縮略語

下列縮略語適用于本文件:

AI人工智能ArtificialIntelligence

BLEU雙語評估替補BilingualEvaluationUnderstudy

5智能翻譯機基本框架

智能翻譯機的工作原理為:

a)使用者通過自然語言對翻譯機麥克風說出需要進行翻譯的內(nèi)容;

b)機體通過麥克風陣列采集用戶聲音;

c)智能翻譯機通過使用語音識別、機器翻譯等技術(shù),結(jié)合服務(wù)端資源對用戶請求進行

分析;

d)對翻譯文本進行語音合成播報或通過翻譯機終端顯示屏進行展示。

其工作原理見圖1。

圖1智能翻譯機工作原理

6評估方法概述

針對智能翻譯機的評估方法包括檢查和測試兩類測評方法,具體為:

a)檢查:檢查是通過對測評對象進行觀察、查驗、分析以幫助測評人員理解、澄清或

取得證據(jù)的過程。檢查主要有評審、核查、審查、觀察、研究和分析等,檢查對象

是文檔等;

2

YD/TXXXX—XXXX

b)測試:測試是指使用預定的方法/工具使測評對象產(chǎn)生特定的結(jié)果,將運行結(jié)果與

預期的結(jié)果進行比對的過程,主要包括人工評測、工具測試等測試操作。

7指標項及評估方法

7.1智能翻譯機指標體系

智能翻譯機指標項的權(quán)重見表1。

表1智能翻譯機指標體系

維度指標評價方法

語種和方向語言對數(shù)量

自動語種識別語種數(shù)量

基礎(chǔ)功能支持篇章翻譯支持與否

錯誤修復機制支持與否

私有資源定制支持與否

自然語言處理機器翻譯主觀評分

AI核心技術(shù)支持能語音識別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論