版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、中國科技論文在線Sphinx用于漢語連續(xù)數(shù)字語音識別的研究王韻,張雪英太原理工大學(xué)信息工程學(xué)院,太原(030024)E-mail:摘 要:本文介紹了一個基于Sphinx的漢語連續(xù)數(shù)字語音識別系統(tǒng),其聲學(xué)模型采用SphinxTrain訓(xùn)練生成,語言模型由cmuclmtk統(tǒng)計語言模型生成,識別引擎采用PocketSphinx工具。實驗證明該系統(tǒng)對于非特定人不定長數(shù)字串的句子識別率為89.583%,詞識別率為97.20%,說明該系統(tǒng)有良好的性能。關(guān)鍵詞:Sphinx;語音識別;聲學(xué)模型;語言模型中圖分類號:TN912.341引 言作為漢語語音識別的一個重要分支,非特定人連續(xù)數(shù)字識別有著廣闊的應(yīng)用前景
2、。它在語音電話撥號、數(shù)字家電遙控、移動通信、電話證券交易等眾多實用化領(lǐng)域1都給人們帶來極大的便利。連續(xù)數(shù)字識別是一個小詞匯量的語音識別系統(tǒng),識別對象僅包括09十個數(shù)字,但由于漢語的單音節(jié)及易混淆性使得識別率同實際應(yīng)用還存在一定差距。本文利用卡內(nèi)基梅隴大學(xué)(CMU)開發(fā)的嵌入式識語音識別引擎PocketSphinx,聲學(xué)模型訓(xùn)練工具SphinxTrain,語言模型生成工具cmuclmtk2構(gòu)建了一個漢語數(shù)字識別系統(tǒng)。PocketSphinx是CMU開發(fā)的一款用于快速語音識別的嵌入式語音識別引擎,它對于小詞匯量的英語連續(xù)語音有很高的識別率。這里我們借助此識別引擎,通過訓(xùn)練漢語數(shù)字的聲學(xué)模型和語言模
3、型來構(gòu)建一個高性能的漢語連續(xù)數(shù)字語音識別系統(tǒng)。這些工具的源代碼都是公開的,通過改進(jìn)算法,在漢語連續(xù)數(shù)字識別方面取得了一定的成效。2系統(tǒng)結(jié)構(gòu)連續(xù)語音識別系統(tǒng)主要由特征提取,聲學(xué)模型,語言模型,識別引擎四部分組成如圖1。以下會根據(jù)本文構(gòu)建的數(shù)字連續(xù)語音系統(tǒng)對這四部分分別介紹。圖1 連續(xù)語音識別系統(tǒng)的基本結(jié)構(gòu)2.1 特征提取SphinxBase是卡內(nèi)基梅隆大學(xué)著名的Sphinx語音識別工程的公用庫,主要用MFCC實現(xiàn)了語音識別系統(tǒng)的前端特征提取,其流程如圖2示:- 1 -中國科技論文在線圖2 MFCC流程圖輸入信號為16bit的音頻數(shù)據(jù)流。采樣率為16KHz,語音分幀的幀長為25.6ms,幀疊為10
4、ms。對于每幀語音信號求出12維美爾倒譜系數(shù)和功率譜系數(shù)并對其歸一化?,F(xiàn)用x(t)表示時刻t的倒譜向量,x(t)表示功率譜系數(shù)。經(jīng)過一階二階差分后得到51維向量作為語音識別輸入的四個特征流3:MFCC系數(shù)x(t):歸一化倒譜向量 (12維) 一階差分系數(shù)x(t):x1(t)=x(t+2)x(t2),x2(t)=x(t+4)x(t4) (24維) 二階差分系數(shù)x(t):(t+1)(t1) (12維) 功率譜向量x0(t):x0(t),x0(t),x0(t) (3維)2.2 改進(jìn)的聲學(xué)模型訓(xùn)練主流語音識別系統(tǒng)多采用HMM進(jìn)行建模,本系統(tǒng)采用半連續(xù)HMM模型進(jìn)行聲學(xué)模型訓(xùn)練,聲學(xué)模型的輸入是由特征提
5、取模塊提取的特征。由于數(shù)字識別系統(tǒng)詞匯量非常小,這里我們選擇把每個詞的發(fā)音(即拼音)作為聲學(xué)模型的訓(xùn)練單元。由于連續(xù)語音中存在協(xié)同發(fā)音的情況,所以本文采用的聲學(xué)單元是上下文相關(guān)的三元音子4(triphone)。所謂上下文相關(guān)三元音子,是指考慮一個音素與其左右相鄰音素的相關(guān)情況后選取的音素。對于數(shù)字串“yi1 er4 san1 wu3”,使用triphone表示為如下序列:sil sil-yi1+er4 yi1-er4+san1 er4-san1+wu3 san1-wu3+sil sil句首的sil表示句子開始的靜音段,句尾的sil表示句子結(jié)束時的靜音段。每個音素模型都采用具有相同的5狀態(tài)貝葉斯
6、拓?fù)浣Y(jié)構(gòu)的HMM。每個特征碼書的半連續(xù)聲學(xué)模型都含有256個密度分量。聚類后的狀態(tài)稱為senone,每個senone都有其獨(dú)立完整的高斯混合模型,這也是解碼過程的最基本的單元。本文采用CMU開發(fā)的sphinxtrain工具進(jìn)行聲學(xué)模型的訓(xùn)練。訓(xùn)練步驟如下:(1) 確定建模單元(11個:ling2 yao1 yi1 er4 san1 si4 wu3 liu4 qi1 ba1 jiu3 )和模型的拓?fù)浣Y(jié)構(gòu)(5狀態(tài)貝葉斯拓?fù)浣Y(jié)構(gòu));建立字典文件,音素文件,音頻文件及存儲路徑,確保各個文件一一對應(yīng)。(2) 從語音文件中統(tǒng)計全局的均值和方差,并用這些全局的均值和方差初始化所有上下文無關(guān)(Context-
7、independent,CI)模型的均值和方差,并使用Baum-Welch算法訓(xùn)練CI模型。(3) 結(jié)合訓(xùn)練的發(fā)音詞典,構(gòu)建詞間三元音子的句子HMM 串?;贐aum-Welch算法,訓(xùn)練未聚類的上下文相關(guān)(Context-dependent,CD)模型。(4) 構(gòu)建CI模型的各個狀態(tài)所對應(yīng)的決策樹;對得到的決策樹根據(jù)事先設(shè)定的Senone - 2 -中國科技論文在線數(shù)目進(jìn)行裁剪,并利用裁剪后的決策樹進(jìn)行聲學(xué)模型的狀態(tài)聚類。 (5) 訓(xùn)練聚類后的CD模型,得到輸出概率分布是單高斯的CD模型。(6) 從單高斯的CD模型開始,不斷地分裂高斯密度函數(shù)分布,增加高斯混合的數(shù)目,并且利用Baum-Wel
8、ch算法訓(xùn)練分裂后的CD模型直至其收斂。不斷地重復(fù)該高斯分裂步驟直到高斯混合數(shù)目滿足要求為止5。(7) 刪除插值是聲學(xué)模型訓(xùn)練的最后步驟,目的是減少過度擬合的影響。它是一個在CI和CD之間反復(fù)插值的過程。數(shù)據(jù)被分為兩個集合,其中一個集合的數(shù)據(jù)用來估計另一集合已訓(xùn)練得到的CI和CD之間的最優(yōu)插值因子。隨后兩個集合交換,并把得到的插值因子作為當(dāng)前操作的初始值,交換直至插值因子收斂為止。最終我們得到解碼端需要的聲學(xué)模型文件:特征參數(shù)文件feat.params,模型定義文件mdef,均值文件means,方差文件variances,轉(zhuǎn)移矩陣transition_matrices,狀態(tài)分布sendump,
9、噪聲詞典noisedict,混合權(quán)重mixture_weight。2.3 語言模型訓(xùn)練本文采用cmuclmtk工具訓(xùn)練語言模型,通過統(tǒng)計大量文本數(shù)據(jù)得到以單個數(shù)字建立的N-Gram模型。在訓(xùn)練中主要采用2-Gram和3-Gram模型,即某個詞出現(xiàn)的概率僅依賴于前一個或者前兩個詞。語言模型生成的基本流程6如圖3,其輸入是文本數(shù)據(jù)text,輸出包括兩個語言模型文件:語言模型arpa和語言模型轉(zhuǎn)儲文件arpa.DMP。圖3 語言模型訓(xùn)練流程圖2.4 識別引擎PocketSphinx可以對wave格式存儲的語音文件進(jìn)行識別。待識別的語音可以麥克風(fēng)輸入,也可讀取wave格式語音文件得到,最后輸出的識別結(jié)
10、果以文字形式顯示。識別引擎算法集中分為四個部分:聲學(xué)特征計算,高斯函數(shù)計算,高斯混合模型計算和Viterbi搜索。解碼端的搜索算法主要采用ViterbiBeam7搜索算法。在搜索過程中不斷地尋找可能的最優(yōu)狀態(tài)子序列,記錄相應(yīng)的信息,根據(jù)不同層次的裁剪門限進(jìn)行裁剪,直到處理完所有的特征矢量,最后進(jìn)行回溯得到最優(yōu)的詞序列。- 3 -中國3實驗結(jié)果及分析 本文采用linux作為編程環(huán)境,實驗中使用的版本分別有:SphinxBase-0.3.和PocketSphinx-0.4.1。使用的語音庫是中國科學(xué)院自動化研究所開發(fā)的CASIA漢語數(shù)字串語音庫。語音庫是連續(xù)語音數(shù)字串,包括55個男生數(shù)據(jù),每人80
11、個句子數(shù)字串,共4400個句子,串長1-7不等。語音數(shù)據(jù)采用16KHz采樣,16bit量化,幀長25.6ms,幀移10ms。采用漢明窗,預(yù)加重系數(shù)0.97,計算得到51維MFCC特征向量。聲學(xué)模型訓(xùn)練選取0-9十個數(shù)字的發(fā)音(1包括yao1和yi1兩種發(fā)音)共十一個單元進(jìn)行聲學(xué)模型的訓(xùn)練。實驗中選取其中46個男生的語音數(shù)據(jù)(3680句)作為聲學(xué)模型的訓(xùn)練集,剩余9個男生的語音數(shù)據(jù)(720)作為測試集。使用訓(xùn)練集語音數(shù)據(jù)所對應(yīng)的文本文件生成語言模型。在本實驗中,選取訓(xùn)練集中的9個男生數(shù)據(jù)作為測試集-1,測試集數(shù)據(jù)作為測試集-2。分別對兩個測試集的2字長(99句)、3字長(90句)和不定長(720
12、句)語音數(shù)據(jù)進(jìn)行了測試,并計算了各自的句識別率和詞識別率。表1 測試集-1識別結(jié)果2字長 3字長 不定字長90.694%句識別率 詞識別率句識別率詞識別率 表2 測試集-2識別結(jié)果 2字長 3字長 不定字長 表中:句識別率=1-錯誤句子數(shù) / 識別句子總數(shù)詞識別率=(識別詞總數(shù)-插入-刪除-替換)/ 識別詞總數(shù)從表1和表2可以看出,測試集1的識別率高于測試集2的識別率,這說明不同說話人對同一語音的發(fā)音有很大差異;隨著字長的增加,由于連續(xù)漢語識別的高連續(xù)性和高混淆度使得識別率有不同程度的下降。傳統(tǒng)的連續(xù)數(shù)碼串識別系統(tǒng)中,數(shù)碼串的詞識別率為91.729%8,而本系統(tǒng)的詞識別率高達(dá)97.20%以上,
13、說明該系統(tǒng)識別性能有很大改善。從表中可以看出非特定人不定長連續(xù)數(shù)字的句子識別率平均達(dá)到90左右,說明該系統(tǒng)性能良好。4結(jié)論本文給出了一個應(yīng)用于嵌入式手持設(shè)備的快速漢語連續(xù)數(shù)字語音識別系統(tǒng)。從實驗結(jié)果看,使用Sphinx系統(tǒng)搭建小詞匯量的漢語連續(xù)數(shù)字語音識別系統(tǒng)具備良好的性能。今后準(zhǔn)備結(jié)合漢語聲韻特征,改進(jìn)Sphinx系統(tǒng)使其應(yīng)用于大詞表漢語連續(xù)語音識別。中國科技論文在線參考文獻(xiàn) 1 顧良,劉潤生漢語數(shù)碼語音識別:發(fā)展現(xiàn)狀、難點(diǎn)分析與方法比較J電路與系統(tǒng)學(xué)報,1997,2(4) :32-382 David Huggins-DainesSphinxTrainWalkthrough - CMU Sp
14、hinx Documentation WikiEB/OL ,2009-06-083 Mosur K. RavishankarEfficient Algorithms for Speech RecognitionDPittsburgh:Carnegie Mellon University,19964 趙慶衛(wèi),王作英等漢語連續(xù)語音識別中上下文相關(guān)的識別單元(三音子)的研究J 電子學(xué)報,1999,27(6):79-825 高勤漢語語音文檔檢索技術(shù)研究及系統(tǒng)實現(xiàn)D,北京:北京大學(xué), 2007 LanguageModelingToolkitEB/OL , 2009-06-217 袁俊HMM 連續(xù)語音識別
15、中Viterbi 算法的優(yōu)化及應(yīng)用J電子技術(shù),2001,2:48-518 張培玲,王福忠, 劉群坡連續(xù)數(shù)碼串語音識別系統(tǒng)的MATLAB 實現(xiàn)J河南理工大學(xué)學(xué)報(自然科學(xué)版2009,28(2):211-216The Chinese Continuous Digit Speech Recognition SystemBased on SphinxWang Yun, Zhang XueyingCollege of Information Engineering, Taiyuan University of Technology, Taiyuan (030024)AbstractThis paper
16、introduces a speech recognition system of Chinese continuous digit based on Sphinx. The acoustic model of this system is produced by SphinxTrain, and the language model is produced by the cmuclmtk statistical language model. In addition, this system makes use of PocketSphinx recognition engine. According to the experiment, the recognition rate of this system to a sentence of random length made by Speaker
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄭州商貿(mào)旅游職業(yè)學(xué)院《單片機(jī)應(yīng)用課程設(shè)計》2023-2024學(xué)年第一學(xué)期期末試卷
- 小學(xué)2024年藝術(shù)教育發(fā)展年度報告
- 浙江電力職業(yè)技術(shù)學(xué)院《纖維化學(xué)與物理學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 長春大學(xué)《衛(wèi)生財務(wù)管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 生產(chǎn)調(diào)度中的敏捷性管理策略
- 餐飲新員工安全訓(xùn)練模板
- AI企業(yè)技術(shù)路演模板
- 水的化學(xué)屬性模板
- 生物制藥業(yè)策略講解模板
- 親子活動相冊制作模板
- 海南省天一大聯(lián)考2024屆高一物理第一學(xué)期期末監(jiān)測試題含解析
- 重癥醫(yī)學(xué)科運(yùn)用PDCA循環(huán)降低失禁性皮炎發(fā)生率品管圈成果匯報
- 物理化學(xué)課件 第一章 熱力學(xué)第一定律
- 07S906給水排水構(gòu)筑物設(shè)計選用圖化糞池
- IPC-6013中文版撓性印制板質(zhì)量要求與性能規(guī)范匯編
- 青島版小學(xué)二年級數(shù)學(xué)下冊全冊教案
- 干部人事檔案專項審核認(rèn)定表
- GB/T 9113-2010整體鋼制管法蘭
- 校長在評估反饋會上的表態(tài)發(fā)言稿(5篇)
- 班會之心理教育系列調(diào)適心態(tài)珍愛生命
- DLT50722023年火力發(fā)電廠保溫油漆設(shè)計規(guī)程
評論
0/150
提交評論