《語音識(shí)別技術(shù)評(píng)測(cè)要求》_第1頁
《語音識(shí)別技術(shù)評(píng)測(cè)要求》_第2頁
《語音識(shí)別技術(shù)評(píng)測(cè)要求》_第3頁
《語音識(shí)別技術(shù)評(píng)測(cè)要求》_第4頁
《語音識(shí)別技術(shù)評(píng)測(cè)要求》_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS35.240.99

L67

團(tuán)體標(biāo)準(zhǔn)

T/ISCxxxx—202x

語音識(shí)別技術(shù)評(píng)測(cè)要求

Speechrecognitiontechnologyassessmentrequirements

征求意見稿

2022.11

中國互聯(lián)網(wǎng)協(xié)會(huì)發(fā)布

202x-xx-xx發(fā)布202x-xx-xx實(shí)施

T/ISCxxxx—202x

語音識(shí)別技術(shù)評(píng)測(cè)要求

1范圍

本文件規(guī)定了連續(xù)語音識(shí)別評(píng)測(cè)測(cè)試集、評(píng)測(cè)方法、評(píng)測(cè)指標(biāo)和評(píng)測(cè)報(bào)告的相關(guān)要求。

本文件適用于語音識(shí)別系統(tǒng)開發(fā)者、運(yùn)營者及第三方機(jī)構(gòu)對(duì)語音識(shí)別系統(tǒng)的連續(xù)語音識(shí)別能力進(jìn)

行測(cè)試和評(píng)估。

2規(guī)范性引用文件

下列文件對(duì)于本文件的引用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T21023-2007中文語音識(shí)別系統(tǒng)通用技術(shù)規(guī)范

3術(shù)語、定義和縮略語

3.1術(shù)語和定義

下列術(shù)語、定義和縮略語適用于本文件。

3.1.1語音識(shí)別speechrecognition

將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程。

3.1.2語音識(shí)別系統(tǒng)speechrecognitionsystem

具有語音識(shí)別功能的開發(fā)工具、軟件、裝置或應(yīng)用。

3.1.3連續(xù)語音識(shí)別largevocabularycontinuousspeechrecognition

指面向連續(xù)語音信號(hào)的自動(dòng)語音識(shí)別,以區(qū)別于命令詞語音識(shí)別。按照識(shí)別實(shí)時(shí)性要求,連續(xù)語音

識(shí)別又分為流式和非流式兩種類型。

3.1.4刪除錯(cuò)誤deletionerror

用戶所發(fā)語音在語音識(shí)別結(jié)果中沒有出現(xiàn)的錯(cuò)誤。

3.1.5插入錯(cuò)誤insertionerror

用戶沒有發(fā)的語音在識(shí)別結(jié)果中出現(xiàn)的錯(cuò)誤。

3.1.6替換錯(cuò)誤substitutionerror

用戶所發(fā)語音被識(shí)別成其他語音的錯(cuò)誤。

3.1.7被測(cè)系統(tǒng)systemfortesting

參加評(píng)測(cè)的語音識(shí)別系統(tǒng)。

1

T/ISCxxxx—202x

3.1.8測(cè)試系統(tǒng)testingsystem

對(duì)被測(cè)系統(tǒng)進(jìn)行評(píng)測(cè)的系統(tǒng)和體系。

3.1.9測(cè)試語料testingsystem

用于評(píng)測(cè)被測(cè)系統(tǒng)語音識(shí)別功能的音頻集合。

3.2縮略語

下列縮略語適用于本文件。

CERCharacterErrorRate字錯(cuò)誤率

CCRCharacterCorrectRate字正確率

CSRContinuousSpeechRecognition連續(xù)語音識(shí)別

WERWordErrorRate詞錯(cuò)誤率

WCRWordCorrectRate詞正確率

MERMixedErrorRate混合錯(cuò)誤率

4概述

本文件描述的評(píng)測(cè)要求主要圍繞CSR開展,CSR之外的評(píng)測(cè)要求和指標(biāo)不在本標(biāo)準(zhǔn)中進(jìn)行描述。為保

證語音識(shí)別系統(tǒng)評(píng)測(cè)的再現(xiàn)性,測(cè)試應(yīng)盡量采用基于語音識(shí)別標(biāo)準(zhǔn)庫的測(cè)試方法,無法采用基于語音識(shí)

別標(biāo)準(zhǔn)庫測(cè)試的,可采用基于現(xiàn)場(chǎng)口呼的測(cè)試方法。測(cè)試語料的設(shè)計(jì)與測(cè)試語音的錄制應(yīng)保證與實(shí)際使

用場(chǎng)景的一致性,評(píng)測(cè)的結(jié)果以滿足規(guī)范的評(píng)測(cè)報(bào)告形式給出。

5測(cè)試集

5.1概述

對(duì)用于語音識(shí)別評(píng)測(cè)的測(cè)試集,應(yīng)建立語音識(shí)別標(biāo)準(zhǔn)庫。標(biāo)準(zhǔn)庫的建立應(yīng)按照GB/T21023的要求進(jìn)

行,通過專業(yè)錄音麥克風(fēng)在消音室環(huán)境下組織錄制人員錄制。本部分給出了測(cè)試語料設(shè)計(jì)要求和測(cè)試語

音錄制要求。

5.2測(cè)試語料設(shè)計(jì)

測(cè)試語料應(yīng)從詞匯量覆蓋、領(lǐng)域覆蓋等方面加以設(shè)計(jì)。測(cè)試集文本上分成若干組,每組可以由若干

人發(fā)音組成。設(shè)計(jì)要求如下:

a)對(duì)于小詞匯量每組測(cè)試集應(yīng)包含所有詞匯。

b)對(duì)于中小詞匯量每組測(cè)試集的合集應(yīng)覆蓋系統(tǒng)的所有詞匯量。

c)對(duì)于大中詞匯量以上的測(cè)試集,每組測(cè)試集詞匯的合集應(yīng)考慮盡量多地覆蓋系統(tǒng)詞匯量。

d)對(duì)在詞匯、語法、語義等受到限制的連續(xù)語音,應(yīng)充分考慮句型、詞匯、語義等的覆蓋性。

e)對(duì)沒有特別語言限制的連續(xù)語音,應(yīng)從不同領(lǐng)域、不同應(yīng)用場(chǎng)景考慮語料的選擇,例如被測(cè)系

統(tǒng)屬于智能家電、娛樂直播、電話客服、公檢法速記、智能教育、智能車載等不同應(yīng)用領(lǐng)域,

應(yīng)在語料中考慮不同領(lǐng)域和應(yīng)用下專有詞匯、高頻詞匯的覆蓋性。

5.3測(cè)試語音錄制

測(cè)試語音錄制要求如下:

2

T/ISCxxxx—202x

a)說話人的選擇應(yīng)在符合系統(tǒng)對(duì)說話人限制的條件下,盡可能選擇具有代表性和統(tǒng)計(jì)分布規(guī)律

的發(fā)音人,特別是考慮不同口音、不同年齡、不同語速、不同教育背景、不同說話韻律等因素。

b)測(cè)試語音的發(fā)音人至少為30個(gè)人以上,每人發(fā)音測(cè)試語料中的一組或多組語料,不同發(fā)音人

盡量采用不同語料組。

c)不同領(lǐng)域、不同應(yīng)用場(chǎng)景的測(cè)試語音可根據(jù)各自特點(diǎn)設(shè)定環(huán)境背景(被測(cè)系統(tǒng)能正常工作的信

噪比范圍可能因應(yīng)用場(chǎng)景的差異而不同)。

d)測(cè)試語音的錄制應(yīng)與系統(tǒng)說明中的平臺(tái)、采樣率、輸入通道等保持相對(duì)一致或接近,錄音過程

至少包括錄音、標(biāo)注和確認(rèn)三個(gè)步驟,保證測(cè)試數(shù)據(jù)庫的正確性。

6評(píng)測(cè)方法

6.1概述

連續(xù)語音識(shí)別的評(píng)測(cè)可采用基于語音識(shí)別標(biāo)準(zhǔn)庫或基于現(xiàn)場(chǎng)口呼的方式進(jìn)行?;谡Z音識(shí)別標(biāo)準(zhǔn)

庫的分為直接和間接兩種測(cè)試方式,基于語音識(shí)別標(biāo)準(zhǔn)庫的直接測(cè)試為錄制語音數(shù)據(jù)的原聲環(huán)境,間接

測(cè)試和基于現(xiàn)場(chǎng)口呼的測(cè)試環(huán)境為混響環(huán)境。

6.2基于語音識(shí)別標(biāo)準(zhǔn)庫

基于語音識(shí)別標(biāo)準(zhǔn)庫測(cè)試指采用錄制的語音數(shù)據(jù)對(duì)被測(cè)系統(tǒng)進(jìn)行直接或間接的測(cè)試,被測(cè)系統(tǒng)應(yīng)

至少滿足其中一種測(cè)試方式。

a)直接測(cè)試指利用被測(cè)系統(tǒng)帶有的應(yīng)用程序輸入/輸出接口,直接利用語音識(shí)別標(biāo)準(zhǔn)庫中的語音

文件進(jìn)行測(cè)試;

b)間接測(cè)試指評(píng)測(cè)系統(tǒng)利用高保真回放設(shè)備把語音識(shí)別標(biāo)準(zhǔn)庫中的語音通過雙方認(rèn)可的方式輸

出到被測(cè)系統(tǒng)中。

6.3基于現(xiàn)場(chǎng)口呼

現(xiàn)場(chǎng)口呼測(cè)試除了滿足5.2和5.3的要求外,還需對(duì)現(xiàn)場(chǎng)操作進(jìn)行記錄和評(píng)估。

a)需要有兩個(gè)以上識(shí)別結(jié)果記錄者,記錄被測(cè)系統(tǒng)對(duì)當(dāng)前發(fā)音的輸出結(jié)果,記錄表應(yīng)包括發(fā)音人、

記錄人、操作人、監(jiān)督人、發(fā)音內(nèi)容、語音識(shí)別結(jié)果等內(nèi)容;

b)全部發(fā)音者測(cè)試結(jié)束后,統(tǒng)一按照性能標(biāo)準(zhǔn)進(jìn)行指標(biāo)評(píng)估,評(píng)估至少有兩個(gè)人以上參與。

c)對(duì)于識(shí)別結(jié)果能以文件形式給出的,被測(cè)系統(tǒng)按照發(fā)音人還應(yīng)給出文件形式的輸出結(jié)果,以便

自動(dòng)評(píng)測(cè)。

7評(píng)測(cè)指標(biāo)

7.1準(zhǔn)確率指標(biāo)

連續(xù)語音識(shí)別結(jié)果通??梢员硎境勺帧⒃~的序列。連續(xù)語音識(shí)別結(jié)果中的錯(cuò)誤分為插入錯(cuò)誤、刪除

錯(cuò)誤與替換錯(cuò)誤。英文的連續(xù)語音識(shí)別系統(tǒng)識(shí)別結(jié)果一般以詞為單位。相應(yīng)的錯(cuò)誤率為詞錯(cuò)誤率(Word

ErrorRate:WER),類似的語種還有俄語、維語等。中文存在分詞歧義的問題,因此一般統(tǒng)計(jì)字錯(cuò)誤

率(CharacterErrorRate:CER),類似的語種還有日語等。

a)中文連續(xù)語音識(shí)別評(píng)測(cè)中,假設(shè)正確文本字?jǐn)?shù)為M,刪除錯(cuò)誤字?jǐn)?shù)DC、插入錯(cuò)誤字?jǐn)?shù)IC和替換錯(cuò)

誤字?jǐn)?shù)SC,定義以下性能指標(biāo):

替代錯(cuò)誤率:SER=(SC/M)×100%

插入錯(cuò)誤率:IER=(IC/M)×100%

3

T/ISCxxxx—202x

刪除錯(cuò)誤率:DER=(DC/M)×100%

字錯(cuò)誤率:CER=((SC+IC+DC)/M)×100%

字準(zhǔn)確率:CCR=100%-CER

b)英文連續(xù)語音識(shí)別評(píng)測(cè)中,假設(shè)正確文本單詞數(shù)為N,刪除錯(cuò)誤單詞數(shù)DW、插入錯(cuò)誤單詞數(shù)IW和

替換錯(cuò)誤單詞數(shù)SW,定義以下性能指標(biāo):

替代錯(cuò)誤率:SER=(SW/N)×100%

插入錯(cuò)誤率:IER=(IW/N)×100%

刪除錯(cuò)誤率:DER=(DW/N)×100%

詞錯(cuò)誤率:WER=((SW+IW+DW)/N)×100%

詞準(zhǔn)確率:WCR=100%-WER

c)針對(duì)多語種混雜建模單元不同的情況(如中英文夾雜)。假設(shè)多語種混合的正確文本字?jǐn)?shù)為M,

單詞數(shù)為N,刪除錯(cuò)誤字?jǐn)?shù)DC、插入錯(cuò)誤字?jǐn)?shù)IC和替換錯(cuò)誤字?jǐn)?shù)SC,刪除錯(cuò)誤單詞數(shù)DW、插入錯(cuò)

誤單詞數(shù)IW和替換錯(cuò)誤單詞數(shù)SW,定義以下性能指標(biāo):

混合錯(cuò)誤率:MER=((SC+IC+DC+SW+IW+DW)/(M+N))×100%

7.2實(shí)時(shí)率指標(biāo)

在系統(tǒng)的標(biāo)準(zhǔn)配置條件下,假設(shè)發(fā)音從Ts開始,發(fā)音結(jié)束時(shí)間為Te,識(shí)別結(jié)束時(shí)間為Tr,則實(shí)時(shí)率=

(Tr-Te)/(Te-Ts),實(shí)時(shí)率越小,語音識(shí)別的識(shí)別效率越高。離線識(shí)別的情況,可按照識(shí)別時(shí)間與

音頻時(shí)長(zhǎng)之比計(jì)算。

7.3配置指標(biāo)

被測(cè)系統(tǒng)正常運(yùn)行語音識(shí)別所需的基本計(jì)算機(jī)配置,如CPU、內(nèi)存、網(wǎng)絡(luò)、麥克風(fēng)、A/D精度等要求,

由被測(cè)系統(tǒng)提供方給出。

8評(píng)測(cè)報(bào)告

語音識(shí)別評(píng)測(cè)后應(yīng)提交標(biāo)準(zhǔn)評(píng)測(cè)報(bào)告。報(bào)告應(yīng)由以下幾部分構(gòu)成

a)對(duì)被測(cè)系統(tǒng)的完整描述;

1)被測(cè)系統(tǒng)所能處理的詞匯量等級(jí),參考GB/T21023詞匯量分類。

2)被測(cè)系統(tǒng)所能識(shí)別的說話人人群的具體限制及適用范圍。

3)被測(cè)系統(tǒng)所屬領(lǐng)域及應(yīng)用場(chǎng)景相關(guān)說明,包括特定領(lǐng)域和應(yīng)用場(chǎng)景的語料設(shè)計(jì)說明。

4)被測(cè)系統(tǒng)麥克風(fēng)與說話人的距離限制,麥克風(fēng)性能要求,支持的A/D轉(zhuǎn)換精度和采樣率

等。

5)被測(cè)系統(tǒng)能正常工作的信噪比范圍。

b)按照GB/T21023-2007語音識(shí)別標(biāo)準(zhǔn)庫及規(guī)范,描述測(cè)試數(shù)據(jù)的語音屬性、測(cè)試詞匯以及測(cè)試

說話人的選擇及確定情況。

c)按照第7章定義的指標(biāo),給出各測(cè)試語音識(shí)別結(jié)果的相關(guān)指標(biāo)及平均識(shí)別指標(biāo)。

d)評(píng)測(cè)過程的情況記錄,采用的測(cè)試方法及運(yùn)行過程的流暢性。

e)被測(cè)系統(tǒng)的配置情況。

4

T/ISCxxxx—202x

附錄A

(資料性附錄)

真實(shí)業(yè)務(wù)語音的采集與標(biāo)注

當(dāng)語音錄制無法滿足各領(lǐng)域評(píng)測(cè)需求時(shí),可通過對(duì)真實(shí)業(yè)務(wù)語音數(shù)據(jù)進(jìn)行采集和標(biāo)注來建立測(cè)試

集。設(shè)計(jì)要求如下:

內(nèi)容方面,測(cè)試集內(nèi)容需要保證一定的詞匯量覆蓋和領(lǐng)域覆蓋,常見領(lǐng)域要求示例如下:

a)智能家電:包含智能音箱、智能電視、掃地機(jī)器人、陪伴機(jī)器人、可視門鈴、智能門鎖、智

能燈、智能空調(diào)、智能風(fēng)扇、智能電飯煲,智能油煙機(jī)等智能喚醒和操控等場(chǎng)景,高頻詞匯包

含“啟動(dòng)”,“打開”,“關(guān)閉”,“返回”,“確認(rèn)”,“調(diào)大”,“調(diào)小”等;

b)娛樂直播:包含游戲直播,帶貨直播,線上KTV,語聊房,短/長(zhǎng)視頻等泛娛樂內(nèi)容審核和語

義理解等場(chǎng)景,涉及的高頻詞匯如“王者榮耀”,“和平精英”,“中路”,“打野”,“青

銅”,“吃雞”,“下單”,“關(guān)注”,“點(diǎn)贊”,“收藏”,“K歌”,“老鐵”,“YYDS”,

“櫥窗”,“爆單”,“轉(zhuǎn)發(fā)”等;

c)電話客服:包含電信運(yùn)營商,保險(xiǎn)跟金融公司,電商跟貿(mào)易,交通跟物流等主流音轉(zhuǎn)字語音交

互場(chǎng)景,涉及的高頻詞匯如“電信”,“移動(dòng)”,“聯(lián)調(diào)”,“人工客服”,“投訴”,“地

址”,“卡號(hào)”,“密碼”,“金額”,“成本”,“快遞”,“送達(dá)”,“查詢”,“評(píng)價(jià)”,

“滿意”,“保價(jià)”,“合同”等;

d)公檢法速記:包含公安局審問筆記,法院庭審記錄等離線異步保密音轉(zhuǎn)字場(chǎng)景。涉及高頻詞匯

包含“犯罪”,“侵犯”,“未成年”,“公安局”,“檢察院”,“起訴”,“訴訟”,“維

持原判”,“二審判決”,“休庭”,“控訴”,“原告”,“被告”,“控辯雙方”,“證

人證詞”,“法律”,“道德”,“刑法”,“緩期”,“剝奪”,“政治權(quán)利”等;

e)智能教育:包含一對(duì)一&一對(duì)多在線或線下課堂,涉及ASR的場(chǎng)景主要集中在口語測(cè)評(píng)和跟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論