版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS35.240.99
L67
團(tuán)體標(biāo)準(zhǔn)
T/ISCxxxx—202x
語音識(shí)別技術(shù)評(píng)測(cè)要求
Speechrecognitiontechnologyassessmentrequirements
征求意見稿
2022.11
中國互聯(lián)網(wǎng)協(xié)會(huì)發(fā)布
202x-xx-xx發(fā)布202x-xx-xx實(shí)施
T/ISCxxxx—202x
語音識(shí)別技術(shù)評(píng)測(cè)要求
1范圍
本文件規(guī)定了連續(xù)語音識(shí)別評(píng)測(cè)測(cè)試集、評(píng)測(cè)方法、評(píng)測(cè)指標(biāo)和評(píng)測(cè)報(bào)告的相關(guān)要求。
本文件適用于語音識(shí)別系統(tǒng)開發(fā)者、運(yùn)營者及第三方機(jī)構(gòu)對(duì)語音識(shí)別系統(tǒng)的連續(xù)語音識(shí)別能力進(jìn)
行測(cè)試和評(píng)估。
2規(guī)范性引用文件
下列文件對(duì)于本文件的引用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T21023-2007中文語音識(shí)別系統(tǒng)通用技術(shù)規(guī)范
3術(shù)語、定義和縮略語
3.1術(shù)語和定義
下列術(shù)語、定義和縮略語適用于本文件。
3.1.1語音識(shí)別speechrecognition
將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程。
3.1.2語音識(shí)別系統(tǒng)speechrecognitionsystem
具有語音識(shí)別功能的開發(fā)工具、軟件、裝置或應(yīng)用。
3.1.3連續(xù)語音識(shí)別largevocabularycontinuousspeechrecognition
指面向連續(xù)語音信號(hào)的自動(dòng)語音識(shí)別,以區(qū)別于命令詞語音識(shí)別。按照識(shí)別實(shí)時(shí)性要求,連續(xù)語音
識(shí)別又分為流式和非流式兩種類型。
3.1.4刪除錯(cuò)誤deletionerror
用戶所發(fā)語音在語音識(shí)別結(jié)果中沒有出現(xiàn)的錯(cuò)誤。
3.1.5插入錯(cuò)誤insertionerror
用戶沒有發(fā)的語音在識(shí)別結(jié)果中出現(xiàn)的錯(cuò)誤。
3.1.6替換錯(cuò)誤substitutionerror
用戶所發(fā)語音被識(shí)別成其他語音的錯(cuò)誤。
3.1.7被測(cè)系統(tǒng)systemfortesting
參加評(píng)測(cè)的語音識(shí)別系統(tǒng)。
1
T/ISCxxxx—202x
3.1.8測(cè)試系統(tǒng)testingsystem
對(duì)被測(cè)系統(tǒng)進(jìn)行評(píng)測(cè)的系統(tǒng)和體系。
3.1.9測(cè)試語料testingsystem
用于評(píng)測(cè)被測(cè)系統(tǒng)語音識(shí)別功能的音頻集合。
3.2縮略語
下列縮略語適用于本文件。
CERCharacterErrorRate字錯(cuò)誤率
CCRCharacterCorrectRate字正確率
CSRContinuousSpeechRecognition連續(xù)語音識(shí)別
WERWordErrorRate詞錯(cuò)誤率
WCRWordCorrectRate詞正確率
MERMixedErrorRate混合錯(cuò)誤率
4概述
本文件描述的評(píng)測(cè)要求主要圍繞CSR開展,CSR之外的評(píng)測(cè)要求和指標(biāo)不在本標(biāo)準(zhǔn)中進(jìn)行描述。為保
證語音識(shí)別系統(tǒng)評(píng)測(cè)的再現(xiàn)性,測(cè)試應(yīng)盡量采用基于語音識(shí)別標(biāo)準(zhǔn)庫的測(cè)試方法,無法采用基于語音識(shí)
別標(biāo)準(zhǔn)庫測(cè)試的,可采用基于現(xiàn)場(chǎng)口呼的測(cè)試方法。測(cè)試語料的設(shè)計(jì)與測(cè)試語音的錄制應(yīng)保證與實(shí)際使
用場(chǎng)景的一致性,評(píng)測(cè)的結(jié)果以滿足規(guī)范的評(píng)測(cè)報(bào)告形式給出。
5測(cè)試集
5.1概述
對(duì)用于語音識(shí)別評(píng)測(cè)的測(cè)試集,應(yīng)建立語音識(shí)別標(biāo)準(zhǔn)庫。標(biāo)準(zhǔn)庫的建立應(yīng)按照GB/T21023的要求進(jìn)
行,通過專業(yè)錄音麥克風(fēng)在消音室環(huán)境下組織錄制人員錄制。本部分給出了測(cè)試語料設(shè)計(jì)要求和測(cè)試語
音錄制要求。
5.2測(cè)試語料設(shè)計(jì)
測(cè)試語料應(yīng)從詞匯量覆蓋、領(lǐng)域覆蓋等方面加以設(shè)計(jì)。測(cè)試集文本上分成若干組,每組可以由若干
人發(fā)音組成。設(shè)計(jì)要求如下:
a)對(duì)于小詞匯量每組測(cè)試集應(yīng)包含所有詞匯。
b)對(duì)于中小詞匯量每組測(cè)試集的合集應(yīng)覆蓋系統(tǒng)的所有詞匯量。
c)對(duì)于大中詞匯量以上的測(cè)試集,每組測(cè)試集詞匯的合集應(yīng)考慮盡量多地覆蓋系統(tǒng)詞匯量。
d)對(duì)在詞匯、語法、語義等受到限制的連續(xù)語音,應(yīng)充分考慮句型、詞匯、語義等的覆蓋性。
e)對(duì)沒有特別語言限制的連續(xù)語音,應(yīng)從不同領(lǐng)域、不同應(yīng)用場(chǎng)景考慮語料的選擇,例如被測(cè)系
統(tǒng)屬于智能家電、娛樂直播、電話客服、公檢法速記、智能教育、智能車載等不同應(yīng)用領(lǐng)域,
應(yīng)在語料中考慮不同領(lǐng)域和應(yīng)用下專有詞匯、高頻詞匯的覆蓋性。
5.3測(cè)試語音錄制
測(cè)試語音錄制要求如下:
2
T/ISCxxxx—202x
a)說話人的選擇應(yīng)在符合系統(tǒng)對(duì)說話人限制的條件下,盡可能選擇具有代表性和統(tǒng)計(jì)分布規(guī)律
的發(fā)音人,特別是考慮不同口音、不同年齡、不同語速、不同教育背景、不同說話韻律等因素。
b)測(cè)試語音的發(fā)音人至少為30個(gè)人以上,每人發(fā)音測(cè)試語料中的一組或多組語料,不同發(fā)音人
盡量采用不同語料組。
c)不同領(lǐng)域、不同應(yīng)用場(chǎng)景的測(cè)試語音可根據(jù)各自特點(diǎn)設(shè)定環(huán)境背景(被測(cè)系統(tǒng)能正常工作的信
噪比范圍可能因應(yīng)用場(chǎng)景的差異而不同)。
d)測(cè)試語音的錄制應(yīng)與系統(tǒng)說明中的平臺(tái)、采樣率、輸入通道等保持相對(duì)一致或接近,錄音過程
至少包括錄音、標(biāo)注和確認(rèn)三個(gè)步驟,保證測(cè)試數(shù)據(jù)庫的正確性。
6評(píng)測(cè)方法
6.1概述
連續(xù)語音識(shí)別的評(píng)測(cè)可采用基于語音識(shí)別標(biāo)準(zhǔn)庫或基于現(xiàn)場(chǎng)口呼的方式進(jìn)行?;谡Z音識(shí)別標(biāo)準(zhǔn)
庫的分為直接和間接兩種測(cè)試方式,基于語音識(shí)別標(biāo)準(zhǔn)庫的直接測(cè)試為錄制語音數(shù)據(jù)的原聲環(huán)境,間接
測(cè)試和基于現(xiàn)場(chǎng)口呼的測(cè)試環(huán)境為混響環(huán)境。
6.2基于語音識(shí)別標(biāo)準(zhǔn)庫
基于語音識(shí)別標(biāo)準(zhǔn)庫測(cè)試指采用錄制的語音數(shù)據(jù)對(duì)被測(cè)系統(tǒng)進(jìn)行直接或間接的測(cè)試,被測(cè)系統(tǒng)應(yīng)
至少滿足其中一種測(cè)試方式。
a)直接測(cè)試指利用被測(cè)系統(tǒng)帶有的應(yīng)用程序輸入/輸出接口,直接利用語音識(shí)別標(biāo)準(zhǔn)庫中的語音
文件進(jìn)行測(cè)試;
b)間接測(cè)試指評(píng)測(cè)系統(tǒng)利用高保真回放設(shè)備把語音識(shí)別標(biāo)準(zhǔn)庫中的語音通過雙方認(rèn)可的方式輸
出到被測(cè)系統(tǒng)中。
6.3基于現(xiàn)場(chǎng)口呼
現(xiàn)場(chǎng)口呼測(cè)試除了滿足5.2和5.3的要求外,還需對(duì)現(xiàn)場(chǎng)操作進(jìn)行記錄和評(píng)估。
a)需要有兩個(gè)以上識(shí)別結(jié)果記錄者,記錄被測(cè)系統(tǒng)對(duì)當(dāng)前發(fā)音的輸出結(jié)果,記錄表應(yīng)包括發(fā)音人、
記錄人、操作人、監(jiān)督人、發(fā)音內(nèi)容、語音識(shí)別結(jié)果等內(nèi)容;
b)全部發(fā)音者測(cè)試結(jié)束后,統(tǒng)一按照性能標(biāo)準(zhǔn)進(jìn)行指標(biāo)評(píng)估,評(píng)估至少有兩個(gè)人以上參與。
c)對(duì)于識(shí)別結(jié)果能以文件形式給出的,被測(cè)系統(tǒng)按照發(fā)音人還應(yīng)給出文件形式的輸出結(jié)果,以便
自動(dòng)評(píng)測(cè)。
7評(píng)測(cè)指標(biāo)
7.1準(zhǔn)確率指標(biāo)
連續(xù)語音識(shí)別結(jié)果通??梢员硎境勺帧⒃~的序列。連續(xù)語音識(shí)別結(jié)果中的錯(cuò)誤分為插入錯(cuò)誤、刪除
錯(cuò)誤與替換錯(cuò)誤。英文的連續(xù)語音識(shí)別系統(tǒng)識(shí)別結(jié)果一般以詞為單位。相應(yīng)的錯(cuò)誤率為詞錯(cuò)誤率(Word
ErrorRate:WER),類似的語種還有俄語、維語等。中文存在分詞歧義的問題,因此一般統(tǒng)計(jì)字錯(cuò)誤
率(CharacterErrorRate:CER),類似的語種還有日語等。
a)中文連續(xù)語音識(shí)別評(píng)測(cè)中,假設(shè)正確文本字?jǐn)?shù)為M,刪除錯(cuò)誤字?jǐn)?shù)DC、插入錯(cuò)誤字?jǐn)?shù)IC和替換錯(cuò)
誤字?jǐn)?shù)SC,定義以下性能指標(biāo):
替代錯(cuò)誤率:SER=(SC/M)×100%
插入錯(cuò)誤率:IER=(IC/M)×100%
3
T/ISCxxxx—202x
刪除錯(cuò)誤率:DER=(DC/M)×100%
字錯(cuò)誤率:CER=((SC+IC+DC)/M)×100%
字準(zhǔn)確率:CCR=100%-CER
b)英文連續(xù)語音識(shí)別評(píng)測(cè)中,假設(shè)正確文本單詞數(shù)為N,刪除錯(cuò)誤單詞數(shù)DW、插入錯(cuò)誤單詞數(shù)IW和
替換錯(cuò)誤單詞數(shù)SW,定義以下性能指標(biāo):
替代錯(cuò)誤率:SER=(SW/N)×100%
插入錯(cuò)誤率:IER=(IW/N)×100%
刪除錯(cuò)誤率:DER=(DW/N)×100%
詞錯(cuò)誤率:WER=((SW+IW+DW)/N)×100%
詞準(zhǔn)確率:WCR=100%-WER
c)針對(duì)多語種混雜建模單元不同的情況(如中英文夾雜)。假設(shè)多語種混合的正確文本字?jǐn)?shù)為M,
單詞數(shù)為N,刪除錯(cuò)誤字?jǐn)?shù)DC、插入錯(cuò)誤字?jǐn)?shù)IC和替換錯(cuò)誤字?jǐn)?shù)SC,刪除錯(cuò)誤單詞數(shù)DW、插入錯(cuò)
誤單詞數(shù)IW和替換錯(cuò)誤單詞數(shù)SW,定義以下性能指標(biāo):
混合錯(cuò)誤率:MER=((SC+IC+DC+SW+IW+DW)/(M+N))×100%
7.2實(shí)時(shí)率指標(biāo)
在系統(tǒng)的標(biāo)準(zhǔn)配置條件下,假設(shè)發(fā)音從Ts開始,發(fā)音結(jié)束時(shí)間為Te,識(shí)別結(jié)束時(shí)間為Tr,則實(shí)時(shí)率=
(Tr-Te)/(Te-Ts),實(shí)時(shí)率越小,語音識(shí)別的識(shí)別效率越高。離線識(shí)別的情況,可按照識(shí)別時(shí)間與
音頻時(shí)長(zhǎng)之比計(jì)算。
7.3配置指標(biāo)
被測(cè)系統(tǒng)正常運(yùn)行語音識(shí)別所需的基本計(jì)算機(jī)配置,如CPU、內(nèi)存、網(wǎng)絡(luò)、麥克風(fēng)、A/D精度等要求,
由被測(cè)系統(tǒng)提供方給出。
8評(píng)測(cè)報(bào)告
語音識(shí)別評(píng)測(cè)后應(yīng)提交標(biāo)準(zhǔn)評(píng)測(cè)報(bào)告。報(bào)告應(yīng)由以下幾部分構(gòu)成
a)對(duì)被測(cè)系統(tǒng)的完整描述;
1)被測(cè)系統(tǒng)所能處理的詞匯量等級(jí),參考GB/T21023詞匯量分類。
2)被測(cè)系統(tǒng)所能識(shí)別的說話人人群的具體限制及適用范圍。
3)被測(cè)系統(tǒng)所屬領(lǐng)域及應(yīng)用場(chǎng)景相關(guān)說明,包括特定領(lǐng)域和應(yīng)用場(chǎng)景的語料設(shè)計(jì)說明。
4)被測(cè)系統(tǒng)麥克風(fēng)與說話人的距離限制,麥克風(fēng)性能要求,支持的A/D轉(zhuǎn)換精度和采樣率
等。
5)被測(cè)系統(tǒng)能正常工作的信噪比范圍。
b)按照GB/T21023-2007語音識(shí)別標(biāo)準(zhǔn)庫及規(guī)范,描述測(cè)試數(shù)據(jù)的語音屬性、測(cè)試詞匯以及測(cè)試
說話人的選擇及確定情況。
c)按照第7章定義的指標(biāo),給出各測(cè)試語音識(shí)別結(jié)果的相關(guān)指標(biāo)及平均識(shí)別指標(biāo)。
d)評(píng)測(cè)過程的情況記錄,采用的測(cè)試方法及運(yùn)行過程的流暢性。
e)被測(cè)系統(tǒng)的配置情況。
4
T/ISCxxxx—202x
附錄A
(資料性附錄)
真實(shí)業(yè)務(wù)語音的采集與標(biāo)注
當(dāng)語音錄制無法滿足各領(lǐng)域評(píng)測(cè)需求時(shí),可通過對(duì)真實(shí)業(yè)務(wù)語音數(shù)據(jù)進(jìn)行采集和標(biāo)注來建立測(cè)試
集。設(shè)計(jì)要求如下:
內(nèi)容方面,測(cè)試集內(nèi)容需要保證一定的詞匯量覆蓋和領(lǐng)域覆蓋,常見領(lǐng)域要求示例如下:
a)智能家電:包含智能音箱、智能電視、掃地機(jī)器人、陪伴機(jī)器人、可視門鈴、智能門鎖、智
能燈、智能空調(diào)、智能風(fēng)扇、智能電飯煲,智能油煙機(jī)等智能喚醒和操控等場(chǎng)景,高頻詞匯包
含“啟動(dòng)”,“打開”,“關(guān)閉”,“返回”,“確認(rèn)”,“調(diào)大”,“調(diào)小”等;
b)娛樂直播:包含游戲直播,帶貨直播,線上KTV,語聊房,短/長(zhǎng)視頻等泛娛樂內(nèi)容審核和語
義理解等場(chǎng)景,涉及的高頻詞匯如“王者榮耀”,“和平精英”,“中路”,“打野”,“青
銅”,“吃雞”,“下單”,“關(guān)注”,“點(diǎn)贊”,“收藏”,“K歌”,“老鐵”,“YYDS”,
“櫥窗”,“爆單”,“轉(zhuǎn)發(fā)”等;
c)電話客服:包含電信運(yùn)營商,保險(xiǎn)跟金融公司,電商跟貿(mào)易,交通跟物流等主流音轉(zhuǎn)字語音交
互場(chǎng)景,涉及的高頻詞匯如“電信”,“移動(dòng)”,“聯(lián)調(diào)”,“人工客服”,“投訴”,“地
址”,“卡號(hào)”,“密碼”,“金額”,“成本”,“快遞”,“送達(dá)”,“查詢”,“評(píng)價(jià)”,
“滿意”,“保價(jià)”,“合同”等;
d)公檢法速記:包含公安局審問筆記,法院庭審記錄等離線異步保密音轉(zhuǎn)字場(chǎng)景。涉及高頻詞匯
包含“犯罪”,“侵犯”,“未成年”,“公安局”,“檢察院”,“起訴”,“訴訟”,“維
持原判”,“二審判決”,“休庭”,“控訴”,“原告”,“被告”,“控辯雙方”,“證
人證詞”,“法律”,“道德”,“刑法”,“緩期”,“剝奪”,“政治權(quán)利”等;
e)智能教育:包含一對(duì)一&一對(duì)多在線或線下課堂,涉及ASR的場(chǎng)景主要集中在口語測(cè)評(píng)和跟
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度美容美發(fā)服務(wù)個(gè)人代理合同4篇
- 二零二五年度企業(yè)債權(quán)轉(zhuǎn)讓與債務(wù)轉(zhuǎn)移合同
- 2025年度大型建筑鋼材項(xiàng)目集中采購合同
- 2024年銷售人員業(yè)績(jī)合同2篇
- 2025年度個(gè)人二手房買賣協(xié)議書范本:二手房交易法律咨詢合同
- 2025年度內(nèi)部員工股權(quán)激勵(lì)計(jì)劃變更與股權(quán)轉(zhuǎn)讓合同
- 二零二五年度奶粉行業(yè)市場(chǎng)分析報(bào)告定制合同
- 二零二五年度培訓(xùn)中心教師教學(xué)資源共享聘用合同
- 2025年度私人旅行規(guī)劃服務(wù)合同2篇
- 2025版抹灰班組安全生產(chǎn)責(zé)任制考核合同4篇
- 基因突變和基因重組(第1課時(shí))高一下學(xué)期生物人教版(2019)必修2
- 內(nèi)科學(xué)(醫(yī)學(xué)高級(jí)):風(fēng)濕性疾病試題及答案(強(qiáng)化練習(xí))
- 音樂劇好看智慧樹知到期末考試答案2024年
- 辦公設(shè)備(電腦、一體機(jī)、投影機(jī)等)采購 投標(biāo)方案(技術(shù)方案)
- 查干淖爾一號(hào)井環(huán)評(píng)
- 案卷評(píng)查培訓(xùn)課件模板
- 2024年江蘇省樣卷五年級(jí)數(shù)學(xué)上冊(cè)期末試卷及答案
- 人教版初中英語七八九全部單詞(打印版)
- 波浪理論要點(diǎn)圖解完美版
- 金融交易數(shù)據(jù)分析與風(fēng)險(xiǎn)評(píng)估項(xiàng)目環(huán)境敏感性分析
- 牛頓環(huán)與劈尖實(shí)驗(yàn)論文
評(píng)論
0/150
提交評(píng)論