利用MATLAB平臺(tái)實(shí)現(xiàn)少量字的語音識(shí)別(含源文件)

上傳人：1*** IP屬地：湖北上傳時(shí)間：2022-05-29 格式：DOC 頁數(shù)：31 大?。?.90MB 積分：30 舉報(bào) 版權(quán)申訴

利用MATLAB平臺(tái)實(shí)現(xiàn)少量字的語音識(shí)別(含源文件)_第2頁

利用MATLAB平臺(tái)實(shí)現(xiàn)少量字的語音識(shí)別(含源文件)_第3頁

利用MATLAB平臺(tái)實(shí)現(xiàn)少量字的語音識(shí)別(含源文件)_第4頁

利用MATLAB平臺(tái)實(shí)現(xiàn)少量字的語音識(shí)別(含源文件)_第5頁

已閱讀5頁，還剩26頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1本科畢業(yè)論文本科畢業(yè)論文(設(shè)計(jì)設(shè)計(jì))論文題目利用 MATLAB 平臺(tái)實(shí)現(xiàn)少量字的語音識(shí)別2摘摘要要摘要：摘要：初步研究兩種不同的語音識(shí)別算法-動(dòng)態(tài)時(shí)間伸縮算法(DTW)和隱馬爾科夫模型(HMM), 初步探究并實(shí)現(xiàn)在 MATLAB 環(huán)境中應(yīng)用 DTW 識(shí)別法的孤立字語音識(shí)別實(shí)驗(yàn)平臺(tái)。關(guān)鍵字：關(guān)鍵字：MATLAB，語音識(shí)別，LPC，LPCC，MFCC，動(dòng)態(tài)時(shí)間伸縮算法(DTW)，隱馬爾科夫模型（HMM）Abstract【Abstract】: Use two kinds of arithmetic to study speech recognition: Dynamic Time Warping

2、 (DTW) and the Hidden Markov Model (HMM). Build a basic test platform of speech recognition using DTW.【Key words】: MATLAB, speech recognition, LPC, LPCC, MFCC, Dynamic Time Warping, Hidden Markov Model3目目錄錄引言引言.41.語音識(shí)別簡介語音識(shí)別簡介.51.1 語音識(shí)別系統(tǒng)的分類語音識(shí)別系統(tǒng)的分類.51.2 語音識(shí)別系統(tǒng)的基本構(gòu)成語音識(shí)別系統(tǒng)的基本構(gòu)成.52.語音識(shí)別參數(shù)語音識(shí)別參數(shù).62.1

3、線性預(yù)測系數(shù)線性預(yù)測系數(shù)(LPC).62.2 線性預(yù)測倒譜系數(shù)線性預(yù)測倒譜系數(shù)(LPCC).82.3 MFCC 系數(shù)系數(shù).82.4 參數(shù)計(jì)算流程參數(shù)計(jì)算流程.93.DTW 算法算法.113.1 DTW 算法原理算法原理.113.2 DTW 的高效算法的高效算法.144.HMM 算法算法.164.1 HMM 的原理的原理.164.2 HMM 的前向概率和后向概率的前向概率和后向概率.174.3 識(shí)別算法識(shí)別算法VITERBI解碼解碼.194.4 BAUM-WELCH算法算法.205.實(shí)驗(yàn)及總結(jié)實(shí)驗(yàn)及總結(jié).235.1 實(shí)驗(yàn)準(zhǔn)備以及步驟實(shí)驗(yàn)準(zhǔn)備以及步驟.235.2 實(shí)驗(yàn)結(jié)果及討論實(shí)驗(yàn)結(jié)果及討論.2

4、55.3 實(shí)驗(yàn)結(jié)論實(shí)驗(yàn)結(jié)論.29參考文獻(xiàn)參考文獻(xiàn).304引引言言自上世紀(jì) 80 年代開始，語音識(shí)別技術(shù)的研究進(jìn)入了一個(gè)蓬勃發(fā)展的時(shí)期，一些商用系統(tǒng)也從實(shí)驗(yàn)室進(jìn)入市場。然而，在實(shí)際的應(yīng)用中，由于各種干擾因素導(dǎo)致的測試條件與訓(xùn)練環(huán)境的不匹配，系統(tǒng)的性能往往會(huì)收到極大的影響。因此提高語音識(shí)別系統(tǒng)的性能就成為了語音識(shí)別技術(shù)真正走向?qū)嵱没年P(guān)鍵課題。語音識(shí)別是以聲音作為研究對(duì)象它是語音信號(hào)處理的一個(gè)重要研究方向，是模式識(shí)別的一個(gè)分支涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域，甚至還涉及到人的體態(tài)語言（如人在說話時(shí)的表情、手勢等行為動(dòng)作可幫助對(duì)方理解），其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器

5、進(jìn)行自然語言通信。本文研究了漢語語音識(shí)別技術(shù)及其實(shí)現(xiàn)方法。論文首先分析了語音信號(hào)預(yù)處理問題。對(duì) MFCC 倒譜系數(shù)在語音識(shí)別中的運(yùn)用做了詳細(xì)介紹。其次研究了基于DTW 的語音識(shí)別系統(tǒng)，針對(duì) DTW 算法中系統(tǒng)識(shí)別性能過分依賴于端點(diǎn)檢測、動(dòng)態(tài)規(guī)劃的計(jì)算量太大等缺陷，分別提出了快速 DTW 算法和端點(diǎn)松動(dòng)的 DTW算法，仿真結(jié)果比較理想。繼而研究了基于 HMM 的語音識(shí)別系統(tǒng)。針對(duì)HMM 在實(shí)際應(yīng)用中的優(yōu)化計(jì)算問題，包括初始模型選取，定標(biāo)等進(jìn)行了深入的分析與探討。針對(duì)傳統(tǒng)定標(biāo)仍能溢出的問題，給出了無溢出的參數(shù)重估公式。5第一章第一章語音識(shí)別簡介語音識(shí)別簡介1.1 語音識(shí)別系統(tǒng)的分類語音識(shí)別系統(tǒng)的

6、分類語音識(shí)別是近年來十分活躍的一個(gè)研究領(lǐng)域。在不遠(yuǎn)的將來，語音識(shí)別技術(shù)有可能作為一種重要的人機(jī)交互手段，輔助甚至取代傳統(tǒng)的鍵盤、鼠標(biāo)等輸入設(shè)備，在個(gè)人計(jì)算機(jī)上進(jìn)行文字錄入和操作控制。本文介紹了語音識(shí)別的基本流程、所用到的語音參數(shù)算法、語音識(shí)別的訓(xùn)練算法和識(shí)別算法做初步的探究，主要運(yùn)用了特定人孤立詞識(shí)別的 DTW 算法和非特定人識(shí)別的連續(xù) HMM算法的 MATLAB 識(shí)別系統(tǒng)。語音識(shí)別按說話人的講話方式可分為孤立詞(Isolated Word)識(shí)別、連接詞(Connected Word)識(shí)別和連續(xù)語音(Continuous Speech)識(shí)別。孤立詞識(shí)別是指說話人每次只說一個(gè)詞或短語，每個(gè)詞或短

7、語在詞匯表中都算作一個(gè)詞條，一般用在語音電話撥號(hào)系統(tǒng)中。連接詞語音識(shí)別支持一個(gè)小的語法網(wǎng)絡(luò)，其內(nèi)部形成一個(gè)狀態(tài)機(jī)，可以實(shí)現(xiàn)簡單的家用電器的控制，而復(fù)雜的連接詞語音識(shí)別系統(tǒng)可以用于電話語音查詢、航空定票等系統(tǒng)。連續(xù)語音識(shí)別是指對(duì)說話人以日常自然的方式發(fā)音，通常特指用于語音錄入的聽寫機(jī)。顯然，連續(xù)非特定人語音識(shí)別的難度要大得多，因?yàn)椴粌H有說話人口音的問題，還有協(xié)同發(fā)音、斷字?jǐn)嗑洹⑺阉鞯葐栴}，除了考慮語音的聲學(xué)模型外還要涉及到語言模型，如構(gòu)詞法、文法等。從識(shí)別對(duì)象的類型來看，語音識(shí)別可以分為特定人(Speaker Dependent)語音識(shí)別和非特定人(Speaker Independent)語音識(shí)

8、別。特定人是指只針對(duì)一個(gè)用戶的語音識(shí)別，非特定人則可用于不同的用戶。實(shí)際上，非特定人語音識(shí)別的初始識(shí)別率往往都比較低，一般都要求用戶花一定的時(shí)間對(duì)系統(tǒng)進(jìn)行訓(xùn)練，將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整，才能使識(shí)別率達(dá)到滿意的程度。非特定人大詞表連續(xù)語音識(shí)別是近幾年研究的重點(diǎn)，也是研究的難點(diǎn)。目前的連續(xù)語音識(shí)別大多是基于 HMM(隱馬爾可夫模型)框架，并將聲學(xué)、語言學(xué)的知識(shí)統(tǒng)一引入來改善這個(gè)框架，其硬件平臺(tái)通常是功能強(qiáng)大的工作站或 PC機(jī)。61.2 語音識(shí)別系統(tǒng)的基本構(gòu)成語音識(shí)別系統(tǒng)的基本構(gòu)成語音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案為：輸入的模擬語音信號(hào)首先要進(jìn)行預(yù)處理，包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測、預(yù)加重

9、等。語音信號(hào)經(jīng)預(yù)處理后，接下來很重要的一環(huán)就是特征參數(shù)提取。對(duì)特征參數(shù)的要求是：（1）提取的特征參數(shù)能有效地代表語音特征，具有很好的區(qū)分性。（2）各階參數(shù)之間有良好的獨(dú)立性。（3）特征參數(shù)要計(jì)算方便，最好有高效的計(jì)算方法，以保證語音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。在訓(xùn)練階段，將特征參數(shù)進(jìn)行一定的處理之后，為每個(gè)詞條得到一個(gè)模型，保存為模版庫。在識(shí)別階段，語音喜好經(jīng)過相同的通道得到語音參數(shù)，生成測試模版，與參考模版進(jìn)行匹配，將匹配分?jǐn)?shù)最高的參考模版作為識(shí)別結(jié)果。同時(shí)還可以在很多先驗(yàn)知識(shí)的幫助下，提高識(shí)別的準(zhǔn)確率。第二章第二章語音識(shí)別的參數(shù)語音識(shí)別的參數(shù)2.1 線性預(yù)測系數(shù)線性預(yù)測系數(shù)語音信號(hào)是一種典型的

10、時(shí)變信號(hào)，然而如果把觀察時(shí)間縮短到十毫秒至幾十毫秒，則可以得到一系列近似穩(wěn)定的信號(hào)。人的發(fā)音器官可以用若干段前后連接的聲管進(jìn)行模擬，這就是所謂的聲管模型。下圖為語音產(chǎn)生的生理結(jié)構(gòu)示意圖：7圖 2-1 語音產(chǎn)生的生理結(jié)構(gòu)示意圖1由于發(fā)音器官不可能毫無規(guī)律地快速變化，因此語音信號(hào)是準(zhǔn)穩(wěn)定的(quasi steady)。全極點(diǎn)線性預(yù)測模型(LPC)可以對(duì)聲管模型進(jìn)行很好的描述，這里信號(hào)的激勵(lì)源是由肺部氣流的沖擊引起的，聲帶可以有周期振動(dòng)也可以不振動(dòng)，分別對(duì)應(yīng)濁音(Vowel)和清音(Consonant)，而每段聲管則對(duì)應(yīng)一個(gè) LPC 模型的極點(diǎn)。一般情況下，極點(diǎn)的個(gè)數(shù)在 1216 之間，就可以足夠清

11、晰地描述語音信號(hào)的特征了。LPC 是語音分析的重要手段，它能很好地進(jìn)行譜估計(jì)，即可作為語音特征的參數(shù)。因此僅用 12 個(gè) LPC 系數(shù)就能很好地表示復(fù)雜語音信號(hào)的特征，這就大大降低了信號(hào)的冗余度并有效地減少了計(jì)算量和存儲(chǔ)量，使之成為語音識(shí)別和語音壓縮的基礎(chǔ)。下圖為以聲管模型為基礎(chǔ)的 LPC 模型： 8圖 2-2 以聲管模型為基礎(chǔ)的 LPC 模型由： 1( ,0)( , )pnknkiai k1,2,kp該式表示 p 個(gè)方程構(gòu)成的方程組，未知數(shù)為 p 個(gè)。求解該方程組，就可以得到系統(tǒng)的線性預(yù)測系數(shù)。由基于自相關(guān)的遞推求解公式求解，也就是所謂的Durbin 算法得：2.1(0)(0)nnER.2.

12、21(1)1(1)( )()iinjnjiinR iaR ijkE.2.3( ) iiiak.2.4( )(1)(1),1iiijjiijaak aji2.5( )2(1)(1)lininEkE公式中，上標(biāo)表示第次迭代，每次迭代只計(jì)算和更新直到( ) ii12,ia aa時(shí)，結(jié)束迭代。ip在 MATLAB 中利用 lpc 函數(shù)2計(jì)算 LPC 系數(shù)，其語法為：a = lpc(x,n);這里 x 為一幀語音信號(hào)，n 為計(jì)算 LPC 參數(shù)的階數(shù)。通常 x 為 240 點(diǎn)或256 點(diǎn)的數(shù)據(jù)，n 取 1012，對(duì)語音識(shí)別來說就已經(jīng)足夠。2.2 線性預(yù)測倒譜系數(shù)線性預(yù)測倒譜系數(shù)在語音識(shí)別系統(tǒng)中，很少直

13、接使用 LPC 系數(shù)，而是由 LPC 系數(shù)推導(dǎo)出另一種參數(shù)：線性預(yù)測倒譜系數(shù)（LPCC）。倒譜實(shí)際上是一種同態(tài)信號(hào)處理方法，標(biāo)準(zhǔn)的倒譜系數(shù)計(jì)算流程需要進(jìn)行 FFT 變換3，對(duì)數(shù)操作和相位校正等步驟，9運(yùn)算比較復(fù)雜。在實(shí)際運(yùn)作中大多數(shù)語音識(shí)別系統(tǒng)都會(huì)采用倒譜參數(shù)來作為有關(guān)距離的度量。LPC 倒譜系數(shù)是描述說話人聲道特性的，廣泛應(yīng)用于聲紋識(shí)別。在實(shí)際計(jì)算中，當(dāng)序列 x(n)為最小相位的情況下，可以利用序列 x(n)及其倒譜系數(shù) c(n)的遞推關(guān)系來簡化計(jì)算。序列 x(n)及其復(fù)倒譜系數(shù) c(n)的遞推公式如下：.2.6100,0( )( )()( ),0(0)(0)nknx nx nkx nkx

14、 knxnxLPCC 參數(shù)是一種非常重要的參數(shù)，它不是由原始信號(hào) x(n)得到，而是由LPC 系數(shù)得到的。由 2.6 式可得 LPC 到 LPCC 的直接遞推關(guān)系。ma.2.720logcG 2.811,1mmmkm kkkcac ampm .2.911,mmkm kkkcc ampm2.3 MFCC 系數(shù)系數(shù)LPC 模型是基于發(fā)音模型建立的，LPCC 系數(shù)也是一種基于合成的參數(shù)。這種參數(shù)沒有充分利用人耳的聽覺特性。實(shí)際上，人的聽覺系統(tǒng)是一個(gè)特殊的非線性系統(tǒng)，它響應(yīng)不同頻率信號(hào)的靈敏度是不同的，基本上是一個(gè)對(duì)數(shù)的關(guān)系。近年來，一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到了廣泛的應(yīng)用，這

15、就是 Mel 尺度倒譜參數(shù)(Mel-scaled Cepstrum Coefficient)，或稱Mel 頻率倒譜系數(shù)，簡稱為 MFCC。大量的研究表明，MFCC 參數(shù)能夠比LPCC 參數(shù)更好地提高系統(tǒng)的識(shí)別性能。從目前使用的情況來看，在大詞匯量語音識(shí)別應(yīng)用中已逐漸取代原本常用的線性預(yù)測編碼導(dǎo)出的倒頻譜參數(shù)，原因是它考慮了人類發(fā)聲與接收聲音的特性，具有更好的魯棒性。由于語音信號(hào)在時(shí)域上的變化快速而不穩(wěn)定，所以通常都將它轉(zhuǎn)換到頻域上來觀察，此時(shí)它的頻譜會(huì)隨著時(shí)間作緩慢的變化。所以通常將加窗后的幀經(jīng)過快速傅立葉變換（FFT），求出每幀的頻譜參數(shù)。再將每幀的頻譜參數(shù)通過一組 N 個(gè)（ N 一般為

16、20 30 個(gè)）三角形帶通濾波器所組成的 Mel 頻率濾波器，將每個(gè)頻帶的輸出取對(duì)數(shù)，求出每一個(gè)輸出的對(duì)數(shù)能量（log energy）Ek，k =1，2，. N。再將此 N 個(gè)參數(shù)進(jìn)行余弦變換（cosine transform）求出 L 階的 Mel -scale 10cepstrum 參數(shù)。4MFCC 參數(shù)的計(jì)算是以“bark”為其頻率基準(zhǔn)的，它和線性頻率的轉(zhuǎn)換關(guān)系是： .2.10102595log (1)700melffMFCC 參數(shù)也是按幀計(jì)算的。首先要通過 FFT 得到該幀信號(hào)的功率譜，( )S n轉(zhuǎn)換為 Mel 頻率下的功率譜。這需要在計(jì)算之前先在語音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波

17、器：2.11( ),0,1,1,0,1,12mNHnmMnMFCC 參數(shù)的計(jì)算通常采用如下的流程：（1）首先確定每一幀語音采樣序列的點(diǎn)數(shù)。對(duì)每幀序列進(jìn)行預(yù)加重處( )s n理后再經(jīng)過離散 FFT 變換，取模的平方得到離散功率譜。( )S n（2）計(jì)算通過 M 個(gè)后所得的功率值，即計(jì)算和在( )S n( )mHn( )S n( )mHn各離散頻率點(diǎn)上乘積之和，得到 M 個(gè)參數(shù)，。mP0,1,1mM（3）計(jì)算的自然對(duì)數(shù)，得到，。mPmL0,1,1mM（4）對(duì)計(jì)算其離散余弦變換，得到，。011,mL LLmD0,1,1mM（5）舍去代表直流成分的，取作為 MFCC 參數(shù)。0D12,KD DDMATL

18、AB 中計(jì)算 mfcc 參數(shù)的函數(shù)為 melcepst.m，其中調(diào)用了函數(shù)melbankm.m，用來計(jì)算 M 個(gè)濾波器的系數(shù)。2.4 完整的參數(shù)計(jì)算流程完整的參數(shù)計(jì)算流程特征提取方法：特征的選取取決于具體的系統(tǒng)，下面的特征是有代表性的：幅度（或功率）過零率臨界帶特征矢量線形預(yù)測系數(shù)特征矢量(LPC)LPC 倒譜特征矢量(LPCC) Mel 倒譜系數(shù)(MFCC)前三個(gè)共振峰 F1,F2,F3具體步驟分 4 步：111端點(diǎn)檢測所謂端點(diǎn)檢測，就是在實(shí)時(shí)輸入的聲音信號(hào)中，區(qū)分背景噪聲和環(huán)境噪聲，準(zhǔn)確地判斷出聲音信號(hào)的開始點(diǎn)和結(jié)束點(diǎn)。這一過程應(yīng)由特定的算法自動(dòng)完成，通常利用短時(shí)能量來檢測濁音，用過零率來

19、檢測清音，兩者配合實(shí)現(xiàn)可靠的端點(diǎn)檢測。端點(diǎn)檢測算法常用的是由語音能量和過零率組合的有雙門限法，以及短時(shí)能量和過零率的乘積構(gòu)成的能頻值法。2預(yù)加重濾波器在語音參數(shù)計(jì)算之前，一般要將其通過一個(gè)預(yù)加重濾波器。3倒譜提升窗口在為每幀數(shù)據(jù)計(jì)算出階 MFCC 參數(shù)后，通常還要為這個(gè)系數(shù)分別乘以KK不同的權(quán)系數(shù)，實(shí)際上是一個(gè)短的窗口：.2.12mmmcw c2.131sin(),12mKmwmKK 4差分倒譜系數(shù)標(biāo)準(zhǔn)的 MFCC 參數(shù)只反映了語音參數(shù)的靜態(tài)特性，而人耳對(duì)語音的動(dòng)態(tài)特征更為敏感，通常用差分倒譜參數(shù)來描述這種動(dòng)態(tài)特性。差分參數(shù)的計(jì)算采用下面的公式：.2.1421( )()kkikikd ni c

20、 nii這里 c 和 d 都表示一幀語音參數(shù)，k 為常數(shù)，通常取 2，這時(shí)差分參數(shù)就稱為當(dāng)前幀的前兩幀和后兩幀參數(shù)的線性組合。第三章第三章 DTW 算法算法3.1 DTW 算法原理算法原理12在孤立詞語音識(shí)別中，最為簡單有效的方法是采用 DTW（Dynamic Time Warping，動(dòng)態(tài)時(shí)間彎折）算法，該算法基于動(dòng)態(tài)規(guī)劃（DP）的思想，解決了發(fā)音長短不一的模板匹配問題，是語音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法。用于孤立詞識(shí)別，DTW 算法與 HMM 算法在相同的環(huán)境條件下，識(shí)別效果相差不大，但 HMM 算法要復(fù)雜得多，主要體現(xiàn)在 HMM 算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù)，通過反復(fù)計(jì)算才

21、能得到模型參數(shù)，而 DTW 算法的訓(xùn)練中幾乎不需要額外的計(jì)算。所以在孤立詞語音識(shí)別中，DTW 算法仍得到廣泛的應(yīng)用。在訓(xùn)練和建立模板階段以及在識(shí)別階段，都采用端點(diǎn)檢測算法確定語音的起點(diǎn)和終點(diǎn)。已存入模板庫的各個(gè)詞條稱為參考模板，一個(gè)參考模板可表示為，m 為訓(xùn)練語音幀的時(shí)序標(biāo)號(hào)，m=1 為起點(diǎn)語音(1), (2), ( ), ()RRR mR M幀，m=M 為終點(diǎn)語音幀，因此為該模板所包含的語音幀總數(shù)，為第M( )R m幀的語音特征矢量。所要識(shí)別的一個(gè)輸入詞條語音稱為測試模板，可表示為m,為測試語音幀的時(shí)序標(biāo)號(hào)，n=1 為起點(diǎn)語音幀，(1), (2), ( ), ()TTT nT Nnn=N 為

22、終點(diǎn)語音幀，因此 N 為該模板所包含的語音幀總數(shù)，T(n)為第 n 幀的語音特征矢量。參考模板與測試模板一般采用相同類型的特征矢量（如 MFCC 系數(shù)）、相同的幀長、相同的窗函數(shù)和相同的幀移。測試和參考模板分別用 T 和R 表示，為了比較它們之間的相似度，可以計(jì)算它們之間的距離 DT,R，距離越小則相似度越高。為了計(jì)算這一失真距離，應(yīng)從 T 和 R 中各個(gè)對(duì)應(yīng)幀之間的距離算起。設(shè) n 和 m 分別是 T 和 R 中任意選擇的幀號(hào)，dT(n),R(m)表示這兩幀之間的距離。距離函數(shù)取決于實(shí)際采用的距離度量，在 DTW 算法中通常采用歐氏距離。若 N=M 則可以直接計(jì)算，否則要考慮將 T(n)和

23、 R(m)對(duì)齊。對(duì)齊可以采用線性擴(kuò)張的方法，如果 NM 可以將 T 線性映射為一個(gè) M 幀的序列，再計(jì)算它與之間的距離。但是這樣的計(jì)算沒有考慮到語音中各個(gè)段 (1), (2), ()RRR M在不同的情況下的持續(xù)時(shí)間會(huì)產(chǎn)生或長或短的變化，因此識(shí)別效果不可能最佳。因而更多地是采用動(dòng)態(tài)規(guī)劃(DP)的方法。如果把測試模板的各個(gè)幀號(hào) n=1N 在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出，把參考模板的各幀號(hào) m=1M 在縱軸上標(biāo)出，通過這些表示幀號(hào)的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格，網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測試模式中某一幀與訓(xùn)練模式中某一幀的交匯點(diǎn)。DP 算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格

24、點(diǎn)的路徑，路徑通過的格點(diǎn)即為測試和參考模板中進(jìn)行距離計(jì)算的幀號(hào)。路徑不是隨意選擇的，首先任何一種語音的發(fā)音快慢都有可能變化，但是13其各部分的先后次序不可能改變，因此所選的路徑必定是從左下角出發(fā)，在右上角結(jié)束圖 3-1 DTW 算法路徑原理示意圖為了描述這條路徑，假設(shè)路徑通過的所有格點(diǎn)依次為其中=(1,1)，=(N,M)。路徑可以用11( ,),( ,),(,),iiMNn mn mnm11( ,)n m(,)MNnm函數(shù)描述，其中，。那么下一個(gè)( )iimn ,1,2,ini iN(1)1()NM通過的格點(diǎn)只可能是下列三中情況之一：( ,)iin m.3.1111111( ,)(1,2)(

25、,)(1,1)( ,)(1,)iiiiiiiiiiiin mnmn mnmn mnm用表示上述三個(gè)約束條件。求最佳路徑的問題可以歸結(jié)為滿足約束條件時(shí)，求最佳路徑函數(shù)，使得沿路徑的積累距離達(dá)到最小值，即：( )iimn .3.2()()( )11,min,iimnmniiiiNNiiiinnD n mD n m 搜索該路徑的方法如下：搜索從點(diǎn)出發(fā)，可以展開若干條滿足的11( ,)n m路徑，假設(shè)可計(jì)算每條路徑達(dá)到點(diǎn)時(shí)的總的積累距離，具有最小累積(,)MNnm距離者即為最佳路徑。易于證明，限定范圍內(nèi)的任一格點(diǎn)只可能有一條( ,)iin m搜索路徑通過。對(duì)于，其可達(dá)到該格點(diǎn)的前一個(gè)格點(diǎn)只可能是、(

26、,)iin m1(,)iinm和，那么一定選擇這 3 個(gè)距離中的最小者所對(duì)應(yīng)1(,1)iinm1(,2)iinm( ,)iin m的格點(diǎn)作為其前續(xù)格點(diǎn)，若用代表此格點(diǎn)，并將通過該格點(diǎn)之路徑延11(,)iinm14伸而通過，這時(shí)此路徑的積累距離為：( ,)iin m.3.311( ,) ( ), ()(,)iiiiiiD n md T nR mD nm.3.411111(,)min (,),(,1),(,2)iiiiiiiiD nmD nmD nmD nm這樣可以從=(1,1)出發(fā)搜索，再搜索，對(duì)每一個(gè)11( ,)n m22(,)n m33(,)n m都存儲(chǔ)相應(yīng)的前一格點(diǎn)及相應(yīng)的幀匹配距離。搜索

27、到( ,)iin m11(,)iinm ,iid n m時(shí)，只保留一條最佳路徑。這便是 DTW 算法。5(,)NNnm3.2 DTW 的高效算法的高效算法由于匹配過程中限定了彎折的斜率，因此許多格點(diǎn)實(shí)際上是到達(dá)不了的，如下圖所示。因此菱形之外的格點(diǎn)對(duì)應(yīng)的幀匹配距離是不需要計(jì)算的。另外也沒有必要保存所有的幀匹配距離矩陣和累積距離矩陣，因?yàn)槊恳涣懈鞲顸c(diǎn)上的匹配計(jì)算只用到了前一列的三個(gè)網(wǎng)格。充分利用這兩個(gè)特點(diǎn)可以減少計(jì)算量和存儲(chǔ)空間的需求。如圖所示，把實(shí)際的動(dòng)態(tài)彎折分為三段，(1,),(1,)(1,)aabbXXXXN和其中：3.51(2)32(2)3abXMNXNM圖 3-2 DTW 高效路徑示意

28、圖和都取最相近的整數(shù)。由此也得出對(duì) M 和 N 長度的限制條件：aXbX15.3.62322MNNM當(dāng)不滿足以上條件時(shí)，認(rèn)為兩者差別實(shí)在太大，無法進(jìn)行動(dòng)態(tài)彎折匹配。在 X 軸上的每一幀不再需要與 Y 軸上的每一幀進(jìn)行比較，而只是與 Y 軸上間的幀進(jìn)行比較，和的計(jì)算如下式：minmax,yyminymaxy.3.7min1,022(2),bbxxXyxMNXxN.3.8max2 ,011(),22aaxxXyxMNXxN也可能會(huì)出現(xiàn)的情況，此時(shí)彎折匹配的三段為abXX。(1,),(1,)(1,)bbaaXXXXN和對(duì)于 X 軸上每前進(jìn)一幀，雖然所要比較的 Y 軸上的幀數(shù)不同，但彎折特性是一樣的，

29、累積距離的更新都是用下式實(shí)現(xiàn)的：.3.9( , )( , )min(1, ),(1,1),(1,2)D x yd x yD xy D xyD xy由于 X 軸上每前進(jìn)一幀，只需要用到前一列的累積距離，所以只需要兩個(gè)列矢量 D 和 d 分別保存前一列的累積距離和計(jì)算當(dāng)前列的累積距離，而不用保存整個(gè)距離矩陣。每前進(jìn)一幀都進(jìn)行更新，即按上式利用前一列的累積距離 D和當(dāng)前列的所有幀匹配距離 d(x,y)，求出當(dāng)前幀的累積距離，保存于矢量 d 中，再把新的距離 d 賦值給 D，作為新的累積距離，供下一列使用。這樣一直前進(jìn)到 X 軸上最后一列，矢量 D 的第 M 個(gè)元素即為兩個(gè)模板動(dòng)態(tài)彎折的匹配距離。16

30、圖 3-3 DTW 改進(jìn)算法模型6第四章第四章非特定人語音識(shí)別算法非特定人語音識(shí)別算法HMM4.1 HMM 的原理的原理1. HMM 基本概念HMM，即隱馬爾科夫模型(Hidden Markov Model)，是在 Markov 鏈的基礎(chǔ)之上發(fā)展起來的。由于實(shí)際問題比 Markov 鏈模型所描述的更為復(fù)雜，觀察到的事件并不是與狀態(tài)一一對(duì)應(yīng)，而是通過一組概率分布相聯(lián)系，這樣的模型就稱為 HMM。它是一個(gè)雙重隨機(jī)過程，其中之一是 Markov 鏈，這是基本隨機(jī)過程，它描述狀態(tài)的轉(zhuǎn)移。另一個(gè)隨機(jī)過程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系，即站在觀察者的角度，只能看到觀察值，不能直接看到狀態(tài)，而是通過一

31、個(gè)隨機(jī)過程去感知狀態(tài)的存在及其特性。一個(gè) HMM 模型由若干個(gè)狀態(tài)組成，隨著時(shí)間的變化，各個(gè)狀態(tài)之間可以發(fā)生轉(zhuǎn)移，也可以在一個(gè)狀態(tài)內(nèi)駐留。每個(gè)觀察向量對(duì)不同的狀態(tài)都有相應(yīng)的輸出頻率。7以一個(gè)包含四個(gè)狀態(tài)為例，狀態(tài)之間或狀態(tài)自身的轉(zhuǎn)移概14SS率用表示，輸入觀察序列為。每個(gè)觀察序列是一幀 MFCC 參數(shù)。0a12,To oo在這個(gè)模型中，序列是可觀測的輸入序列，稱為觀察序列，而每一12,To oo時(shí)刻所處的狀態(tài)卻是隱含的。下表為 HMM 模型的各參數(shù)及其說明8：模型參數(shù)說明N模型的狀態(tài)數(shù)ijAa狀態(tài)轉(zhuǎn)移矩陣，1|,1,ijiiaP qj qii jN i各狀態(tài)的起始概率分布，1,1tP qii

32、N ( )jBb o輸出概率密度函數(shù)，1( )( ),),1Mjjljljlib oc N oUjN其中輸出概率密度函數(shù)中參數(shù)描述如下表所示。17參數(shù)說明O觀察向量M每個(gè)狀態(tài)包含的高斯元的個(gè)數(shù)jlc第 j 狀態(tài)第 1 個(gè)混合高斯函數(shù)的權(quán)N代表正態(tài)高斯概率密度函數(shù) ij第 j 狀態(tài)第 1 個(gè)混合高斯元的均值矢量jlU第 j 狀態(tài)第 1 個(gè)混合高斯元的協(xié)方差矩陣權(quán)系數(shù)滿足下面的條件jlc4.11,1MjllcjN這種連續(xù)混合高斯 HMM 通常簡稱為 CHMM。對(duì)于每一個(gè)狀態(tài)，都用若干個(gè)正態(tài)高斯概率密度函數(shù)（簡稱為 pdf）的線性組合來表示，每個(gè) pdf 有各自的均值矢量和協(xié)方差矩陣，這些都是通

33、過對(duì)大量的 MFCC 參數(shù)進(jìn)行統(tǒng)計(jì)得到的。對(duì)于 HMM 模型，有三個(gè)基本問題需要解決：（1）給定觀察序列和 HMM 模型計(jì)算觀察斜12( ,)TOo oo( , , )A B率對(duì) HMM 模型的輸出概率。(| )P O（2）給定觀察序列和 HMM 模型確定一個(gè)最12( ,)TOo oo( , , )A B優(yōu)的狀態(tài)轉(zhuǎn)移序列。12(,)Tqq qq（3）調(diào)整使最大。( , , )A B(| )P O4.2 前向概率和后向概率前向概率和后向概率HMM 的輸出概率計(jì)算的輸出概率計(jì)算1HMM 輸出概率的計(jì)算輸出概率的計(jì)算給定觀察序列和 HMM 模型，如果已知狀態(tài)12( ,)TOo oo( , , )A

34、B轉(zhuǎn)移序列，則有：12(,)Tqq qq.4.212121(| )(|, )( )()()TTttqqqTtP O qP O qbo boboHMM 模型輸出序列 q 的概率為：.4.311 22 31( | )TTqq qq qqqP qaaa對(duì)所有可能的狀態(tài)轉(zhuǎn)移序列 q，模型輸出觀察序列 O 的概率9。(| )P O由全概率公式可得：18(|)(| , ) ( |)allqP OP O qP q .4.4111 2211 212( )()()TTTrqqq qqqqqTq qqbo aboabo該式大約需要次計(jì)算，這在實(shí)際中是無法承受的。為了降低計(jì)算復(fù)雜2TTN度，可以采用前向和后向算法。

35、2HMM 的前向概率和后向概率的前向概率和后向概率首先定義 HMM 的前向概率為：.4.512( )(,|)tttiP ooo qi表示給定 HMM 模型參數(shù)，部分觀察序列在 t 時(shí)刻處于狀態(tài)12tooo的概率。那么有：ia)初始化：4.611( )( ),1iiib oiN b)遞歸：.4.7111( )( )(),11,1Nttijjtiaja i a b OtTjN c)終結(jié)：4.81(|)( )NTiP Oi與前向概率相對(duì)應(yīng)，還有后向概率。定義后向概率為：.4.912( )(,|)tttttiP o oo qi表示 HMM 模型參數(shù)，觀察序列在 t 時(shí)刻處于狀態(tài) i，系統(tǒng)輸出部分觀察序

36、列的概率。12ttTo oo后向概率也有類似的遞推公式計(jì)算：( )tia) 初始化：4.10( )1,1TiiN b) 遞歸：.4.11111( )()( ),11,1Ntijjttiia b OjtTjN c) 終結(jié)：前向概率和后向概率的遞推關(guān)系由下圖說明19圖 4-1 前向概率和后向概率示意圖3利用前向概率和后向概率計(jì)算輸出概率利用前向概率和后向概率計(jì)算輸出概率前向概率公式和后向概率公式巧妙地將整個(gè)觀察序列對(duì) HMM 模型的輸出概率分成兩個(gè)部分觀察序列的輸出概率的乘積，而且它們各自都有相應(yīng)的遞推公式，可以大大簡化計(jì)算10。經(jīng)過分析，可以得到下面的輸出概率計(jì)算公式：4.1211(|)( )(

37、 )( ),11NNttTiiP OiiitT 實(shí)際上，這就是 HMM 三個(gè)基本問題中第一個(gè)問題的解答。它的另一種常用的形式是：.4.131111(|)( )()( ),11NNtijjttijP Oi a b ojtT 實(shí)際計(jì)算中首先計(jì)算出對(duì)于每個(gè) t 和每個(gè)狀態(tài) i 的前向概率和后向概率，然后套用上面的公式，計(jì)算出該觀察序列對(duì)模型的輸出概率。這兩個(gè)公式也稱為全概率公式。4.3 識(shí)別算法識(shí)別算法Viterbi 解碼解碼Viterbi 算法，不僅可以找到一條足夠好的狀態(tài)轉(zhuǎn)移路徑，還可以得到該路徑所對(duì)應(yīng)的輸出概率。同時(shí)，用 Viterbi 算法計(jì)算輸出概率所需要的計(jì)算量要比全概率公式的計(jì)算量小很

38、多。定義為時(shí)刻 t 時(shí)沿一條路徑，且，產(chǎn)生出( )ti12,tq qqtiq的最大概率，即有12,tO OO20.4.141211212,( )max(,|)tttitq qqiP q qqO OOViterbi 算法的遞推形式如下（1）初始化.4.1511( )( ),1iiib oiN .4.161( )0i（2）遞歸.4.1711( )max( )(),2,1ttijjti Nji a b otTjN .4.1811( )argmax( ),2,1ttiji Nji atTjN （3）終結(jié)4.19*1max( )Ti NPi .4.20*1argmax( )TTt Nqi （4）

39、狀態(tài)序列求?。?4.21*11(),11tttqqtT 這里，為 t 時(shí)刻第 i 狀態(tài)的累積輸出概率，為 t 時(shí)刻第 i 狀態(tài)的前( )ti( )ti續(xù)狀態(tài)號(hào)，為最優(yōu)狀態(tài)序列中 t 時(shí)刻所處的狀態(tài)，為最終的輸出概率。*tq*P對(duì)語音處理應(yīng)用而言，動(dòng)態(tài)范圍很大，或者說不同的 Q 使( ,|)P Q O的值差別很大，而事實(shí)上是中舉足輕重( ,|)P Q Omax( ,| )QP Q O( ,|)QP Q O的唯一成分，因此，常常等價(jià)地使用和，那么，max( ,|)QP Q O( ,|)QP Q OViterbi 算法也能用來計(jì)算。(| )P O4.4 Baum-Welch 算法算法這個(gè)算法實(shí)際上是

40、解決 HMM 訓(xùn)練，即 HMM 參數(shù)估計(jì)問題，或者說，給定一個(gè)觀察值序列，該算法能確定一個(gè)，使12,TOO OO( , , )A B最大。(| )P O由前向變量和后向變量的定義，有：.4.221111(|)( )()( ),11NNtijjttijP Oi a b ojtT 這里，求取，使最大是一個(gè)泛函極值問題。但是由于給定的訓(xùn)練(| )P O序列有限，因而不存在一個(gè)最佳的方法來估計(jì)。在這種情況下，Baum-Welch21算法利用遞歸的思想，使局部極大，最后得到模型參數(shù)。(| )P O( , , )A B定義為給頂訓(xùn)練序列 O 和模型時(shí)，時(shí)刻 t 時(shí) Markov 鏈處于狀態(tài)( , )ii

41、ji和時(shí)刻 t+1 為狀態(tài)的概率，即j4.231( , )( ,|)iiiiji jP O qq可以推導(dǎo)出：4.2411( , )( )()( )/(|)itijjtti ji a b OjP O那么，時(shí)刻 t 時(shí) Markov 鏈處于狀態(tài)的概率為：i1( )( ,/ )( , )NttitjiP O qi j .4.25( )( )/(|)ttiiP O因此，表示從狀態(tài)轉(zhuǎn)移到狀態(tài)的次數(shù)的期望值。由此，導(dǎo)出了11( )TttiijBaum-Welch 算法的重估公式11(reestimation)：.4.261( )ii 4.271111( , )/( )TTijttttai ji.4.281

42、1( )/( )tkTTjkttttOVbjj且試推導(dǎo)該重估公式：引理：設(shè)為正實(shí)數(shù)，為非負(fù)實(shí)數(shù)，即，,1, ,iu iS ,1, ,iv iS 0iiv 那么由對(duì)數(shù)函數(shù)的凹特性有如下結(jié)論：.4.29lnln()iiiiiikiikvuvuuu.4.30lniiikikuvuu .4.311(lnln)iiiiikkuvuuu此處所有求和均是從 1 到 S。22定義輔助函數(shù).4.321( , )( ,|)ln( ,|)(|)SQP O SP O SP O 所有其中，為原來的模型，為新求取的模型，O 為訓(xùn)練( , , )A B( , , )A B用觀察值序列，S 為某個(gè)狀態(tài)序列，那么，由12,TO

43、O OO12,TSq qq引理易推出下面的定理12：如果，那么。( , )( , )QQ (|)(|)P OP O.4.33該定理構(gòu)成了重估公式的理論基礎(chǔ)：對(duì)輔助函數(shù)，重要能找到，( , )Q 使達(dá)到最大值，那么就能保證，從而使( , )Q ( , )( , )QQ ，這樣，新得到的模型在表示訓(xùn)練序列 O 方面就比原來的(| )(|)P OP O模型要好。一直重復(fù)這個(gè)過程，直到某個(gè)收斂點(diǎn)，就可以得到根據(jù)訓(xùn)練序列O 估計(jì)出的結(jié)果模型，而使最大而求取參數(shù)的公式就稱之為重估公式。( , )Q 不同的，其參數(shù)，A 和 B 就不同，重估公式的具體形式也不同13。23第五章第五章實(shí)驗(yàn)及總結(jié)實(shí)驗(yàn)及總結(jié)5.

44、1 實(shí)驗(yàn)準(zhǔn)備及步驟實(shí)驗(yàn)準(zhǔn)備及步驟實(shí)驗(yàn)平臺(tái)為 Windows 平臺(tái)上，采用 Matlab 數(shù)學(xué)工具通過完成程序而實(shí)現(xiàn)的。本實(shí)驗(yàn)主要采用 DTW 算法實(shí)現(xiàn)語音識(shí)別。首先，我們使用 windows 自帶的錄音器，分別由我和合作者錄入了 4 組數(shù)據(jù)（1 人兩組），每組 8 個(gè)音頻文件，本別為從“一”到“八”的漢語發(fā)音。其中一組為參考模板，另外一組為測試模板。首先用 wavread 函數(shù)讀入 wav 文件，用 mfcc 函數(shù)獲得其 MFCC 參數(shù)，用vad 函數(shù)對(duì)其進(jìn)行端點(diǎn)檢測，并保存語音部分的 MFCC 參數(shù)到參考模板的機(jī)構(gòu)數(shù)組 ref(i).mfcc 中。我們比較一下兩個(gè)人的語音端點(diǎn)檢測的短時(shí)信號(hào)

45、圖：圖 5-1 說話者 A 發(fā)音的 vad 輸出（1）橫軸：時(shí)間（單位：秒）縱軸：能量（單位：eV）（上圖）語音原始信號(hào)；Energy 短時(shí)能量（單位：eV）；ZCR 過零率（單位：%）24圖 5-2 說話者 A 發(fā)音的 vad 輸出（2）橫軸：時(shí)間（單位：秒）縱軸：能量（單位：eV）（上圖）語音原始信號(hào)；Energy 短時(shí)能量（單位：eV）；ZCR 過零率（單位：%）25圖 5-3 說話者 B 發(fā)音的 vad 輸出（2）橫軸：時(shí)間（單位：秒）縱軸：能量（單位：eV）（上圖）語音原始信號(hào)；Energy 短時(shí)能量（單位：eV）；ZCR 過零率（單位：%）Vad 函數(shù)的功能就是通過端點(diǎn)

46、檢測功能甄別出語音信號(hào)的起始點(diǎn)與結(jié)束點(diǎn)，圖中的紅線就是程序標(biāo)記的語音信號(hào)始末點(diǎn)，可以看出，雜音基本被排除，效果是非常明顯的。同時(shí)，從以上三個(gè)圖的對(duì)比可以看出，不同發(fā)音者的發(fā)音波形及特性有較明顯區(qū)別。原始波形中，發(fā)音者 A 的波形在橫軸兩端不對(duì)稱，而發(fā)音者 B 的波形在橫軸兩端比較對(duì)稱；能量波形中，兩者的區(qū)別更加明顯：發(fā)音者 A 的能量高峰在語音后部，發(fā)音者 B 的能量高峰在語音前部；過零率波形中也可以明顯看出兩個(gè)人的區(qū)別。端點(diǎn)檢測下的短時(shí)能量分析只是語音識(shí)別的第一步，但是通過該步驟已經(jīng)可以粗略的區(qū)別出不同發(fā)音者，并且可以進(jìn)一步分析發(fā)音者語音信號(hào)的特點(diǎn)。由此證明了端點(diǎn)檢測在語音識(shí)別中是非常重要的

47、。5.2 實(shí)驗(yàn)結(jié)果及討論實(shí)驗(yàn)結(jié)果及討論本實(shí)驗(yàn)的 MATLAB 運(yùn)行環(huán)境中輸出結(jié)果如下列圖所示：26圖 5-4 說話者 A 的兩組語音匹配結(jié)果及距離匹配矩陣圖 6 說話者 B 的兩組語音匹配結(jié)果及距離矩陣從輸出記過看，識(shí)別具有了一定程度的正確度。為了進(jìn)一步驗(yàn)證結(jié)果，看一下匹配距離矩陣 dist 的數(shù)據(jù)如下圖所示：距離矩陣的對(duì)角線上是正確匹配模板的對(duì)應(yīng)分?jǐn)?shù)，可見對(duì)角線上的 8 個(gè)數(shù)值中有 50%都是在本行中最小的，由此驗(yàn)證了識(shí)別結(jié)果的正確性。圖 5-5 說話者 B 的兩組語音匹配結(jié)果及距離匹配矩陣27圖 5-6 說話者 A 和 B 的語音匹配結(jié)果及距離匹配矩陣圖 5-7 說話者 A 和 B 的匹配

48、矩陣的三維曲面圖28圖 5-8 說話者 A 和 B 的匹配矩陣的的三維柱狀圖圖 5-9 說話者 A 和 B 的匹配矩陣的灰度視圖結(jié)果顯示：說話者 A 的自匹配識(shí)別率為 89%，說話者 B 的自匹配識(shí)別率也為 89% ，而 A 和 B 之間的識(shí)別率為 62% 。圖 5-4，圖 5-5，圖 5-6 中的匹配矩陣元為每個(gè)語音信號(hào)和參考模板中所有共 8 個(gè)語音信號(hào)的匹配距離，可以看出，在正確識(shí)別情況下，矩陣對(duì)角線上的矩陣元是本行中最小的（同一個(gè)語音信號(hào)和自己匹配距離最?。?，在匹配失敗的情況下，對(duì)角線上的矩陣元也是次最小的。這一結(jié)果說明了 DTW 的可靠性和穩(wěn)定性。圖 5-7，圖 5-8，圖 5-9

49、以不同方式直觀的顯示了矩陣元的大小關(guān)系。X 軸表示說話者 A 的語音信號(hào)編號(hào)，Y 軸表示說話者 B 的語音信號(hào)編號(hào)，Z 軸表示矩陣元的大小。三維曲面圖中的藍(lán)色部分，灰度圖中的全黑色部分為數(shù)值較小區(qū)域，可以看書，這個(gè)區(qū)域基本是在對(duì)角線上的?；叶葓D中的紅色連線便顯示了黑色方塊分布在對(duì)角線上及附近。29自匹配的識(shí)別準(zhǔn)確率達(dá)到 90%，而不同發(fā)音者之間的識(shí)別率有明顯下降，為 60%。這也是顯示出 DTW 算法在非特定人語音識(shí)別中不如特定人語音識(shí)別準(zhǔn)確。文獻(xiàn)1指出，使用 DTW 算法的特定人孤立字語音識(shí)別率能高達(dá)近 100% ，而我們始終無法達(dá)到這一效果。有幾方面的原因：1錄音設(shè)備和程序偏簡單。一個(gè)非常

50、良好和精確的模板庫是高效率語音識(shí)別系統(tǒng)的基礎(chǔ)。我們使用簡易麥克風(fēng)和 windows 自帶錄音程序可能無法建立一個(gè)完備的模板庫。2DTW 算法自身的缺陷。DTW 自身算法只適用于孤立字語音識(shí)別，而且是簡單字。因此識(shí)別機(jī)理上更加先進(jìn)的 HMM 和 ANN 方法能夠滿足更高的要求。對(duì) DTW 算法進(jìn)行改進(jìn)（比如端點(diǎn)檢測）已經(jīng)提高了該算法的識(shí)別率。3DTW 算法僅限于孤立字的語音識(shí)別，而連續(xù)語音的識(shí)別目前來說還比較難以達(dá)到高的識(shí)別率，這也是今后語音識(shí)別課題研究發(fā)展的方向。5.3 實(shí)驗(yàn)結(jié)論實(shí)驗(yàn)結(jié)論課題最終在 MATLAB 平臺(tái)的基礎(chǔ)上基本實(shí)現(xiàn)了個(gè)別個(gè)體的特定語音識(shí)別，基本上達(dá)到了預(yù)定的目的?；?DTW 模型的語音識(shí)別簡單的說就是通過MATLAB

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

利用MATLAB平臺(tái)實(shí)現(xiàn)少量字的語音識(shí)別(含源文件)

文檔簡介

溫馨提示

最新文檔

評(píng)論

利用MATLAB平臺(tái)實(shí)現(xiàn)少量字的語音識(shí)別(含源文件)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔