




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1本科畢業(yè)論文本科畢業(yè)論文(設(shè)計(jì)設(shè)計(jì))論文題目利用 MATLAB 平臺(tái)實(shí)現(xiàn)少量字的語音識(shí)別2摘摘 要要摘要:摘要:初步研究兩種不同的語音識(shí)別算法-動(dòng)態(tài)時(shí)間伸縮算法(DTW)和隱馬爾科夫模型(HMM), 初步探究并實(shí)現(xiàn)在 MATLAB 環(huán)境中應(yīng)用 DTW 識(shí)別法的孤立字語音識(shí)別實(shí)驗(yàn)平臺(tái)。關(guān)鍵字:關(guān)鍵字:MATLAB,語音識(shí)別,LPC,LPCC,MFCC,動(dòng)態(tài)時(shí)間伸縮算法(DTW),隱馬爾科夫模型(HMM)Abstract【Abstract】: Use two kinds of arithmetic to study speech recognition: Dynamic Time Warping
2、 (DTW) and the Hidden Markov Model (HMM). Build a basic test platform of speech recognition using DTW.【Key words】: MATLAB, speech recognition, LPC, LPCC, MFCC, Dynamic Time Warping, Hidden Markov Model3目目 錄錄引言引言.41.語音識(shí)別簡介語音識(shí)別簡介.51.1 語音識(shí)別系統(tǒng)的分類語音識(shí)別系統(tǒng)的分類.51.2 語音識(shí)別系統(tǒng)的基本構(gòu)成語音識(shí)別系統(tǒng)的基本構(gòu)成.52.語音識(shí)別參數(shù)語音識(shí)別參數(shù).62.1
3、 線性預(yù)測系數(shù)線性預(yù)測系數(shù)(LPC).62.2 線性預(yù)測倒譜系數(shù)線性預(yù)測倒譜系數(shù)(LPCC).82.3 MFCC 系數(shù)系數(shù).82.4 參數(shù)計(jì)算流程參數(shù)計(jì)算流程.93.DTW 算法算法.113.1 DTW 算法原理算法原理.113.2 DTW 的高效算法的高效算法.144.HMM 算法算法.164.1 HMM 的原理的原理.164.2 HMM 的前向概率和后向概率的前向概率和后向概率.174.3 識(shí)別算法識(shí)別算法VITERBI解碼解碼.194.4 BAUM-WELCH算法算法.205.實(shí)驗(yàn)及總結(jié)實(shí)驗(yàn)及總結(jié).235.1 實(shí)驗(yàn)準(zhǔn)備以及步驟實(shí)驗(yàn)準(zhǔn)備以及步驟.235.2 實(shí)驗(yàn)結(jié)果及討論實(shí)驗(yàn)結(jié)果及討論.2
4、55.3 實(shí)驗(yàn)結(jié)論實(shí)驗(yàn)結(jié)論.29參考文獻(xiàn)參考文獻(xiàn).304引引 言言 自上世紀(jì) 80 年代開始,語音識(shí)別技術(shù)的研究進(jìn)入了一個(gè)蓬勃發(fā)展的時(shí)期,一些商用系統(tǒng)也從實(shí)驗(yàn)室進(jìn)入市場。然而,在實(shí)際的應(yīng)用中,由于各種干擾因素導(dǎo)致的測試條件與訓(xùn)練環(huán)境的不匹配,系統(tǒng)的性能往往會(huì)收到極大的影響。因此提高語音識(shí)別系統(tǒng)的性能就成為了語音識(shí)別技術(shù)真正走向?qū)嵱没年P(guān)鍵課題。 語音識(shí)別是以聲音作為研究對(duì)象它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語言(如人在說話時(shí)的表情、手勢等行為動(dòng)作可幫助對(duì)方理解) ,其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器
5、進(jìn)行自然語言通信。本文研究了漢語語音識(shí)別技術(shù)及其實(shí)現(xiàn)方法。論文首先分析了語音信號(hào)預(yù)處理問題。對(duì) MFCC 倒譜系數(shù)在語音識(shí)別中的運(yùn)用做了詳細(xì)介紹。其次研究了基于DTW 的語音識(shí)別系統(tǒng),針對(duì) DTW 算法中系統(tǒng)識(shí)別性能過分依賴于端點(diǎn)檢測、動(dòng)態(tài)規(guī)劃的計(jì)算量太大等缺陷,分別提出了快速 DTW 算法和端點(diǎn)松動(dòng)的 DTW算法,仿真結(jié)果比較理想。繼而研究了基于 HMM 的語音識(shí)別系統(tǒng)。針對(duì)HMM 在實(shí)際應(yīng)用中的優(yōu)化計(jì)算問題,包括初始模型選取,定標(biāo)等進(jìn)行了深入的分析與探討。針對(duì)傳統(tǒng)定標(biāo)仍能溢出的問題,給出了無溢出的參數(shù)重估公式。5第一章第一章 語音識(shí)別簡介語音識(shí)別簡介1.1 語音識(shí)別系統(tǒng)的分類語音識(shí)別系統(tǒng)的
6、分類語音識(shí)別是近年來十分活躍的一個(gè)研究領(lǐng)域。在不遠(yuǎn)的將來,語音識(shí)別技術(shù)有可能作為一種重要的人機(jī)交互手段,輔助甚至取代傳統(tǒng)的鍵盤、鼠標(biāo)等輸入設(shè)備,在個(gè)人計(jì)算機(jī)上進(jìn)行文字錄入和操作控制。本文介紹了語音識(shí)別的基本流程、所用到的語音參數(shù)算法、語音識(shí)別的訓(xùn)練算法和識(shí)別算法做初步的探究,主要運(yùn)用了特定人孤立詞識(shí)別的 DTW 算法和非特定人識(shí)別的連續(xù) HMM算法的 MATLAB 識(shí)別系統(tǒng)。語音識(shí)別按說話人的講話方式可分為孤立詞(Isolated Word)識(shí)別、連接詞(Connected Word)識(shí)別和連續(xù)語音(Continuous Speech)識(shí)別。孤立詞識(shí)別是指說話人每次只說一個(gè)詞或短語,每個(gè)詞或短
7、語在詞匯表中都算作一個(gè)詞條,一般用在語音電話撥號(hào)系統(tǒng)中。連接詞語音識(shí)別支持一個(gè)小的語法網(wǎng)絡(luò),其內(nèi)部形成一個(gè)狀態(tài)機(jī),可以實(shí)現(xiàn)簡單的家用電器的控制,而復(fù)雜的連接詞語音識(shí)別系統(tǒng)可以用于電話語音查詢、航空定票等系統(tǒng)。連續(xù)語音識(shí)別是指對(duì)說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機(jī)。顯然,連續(xù)非特定人語音識(shí)別的難度要大得多,因?yàn)椴粌H有說話人口音的問題,還有協(xié)同發(fā)音、斷字?jǐn)嗑洹⑺阉鞯葐栴},除了考慮語音的聲學(xué)模型外還要涉及到語言模型,如構(gòu)詞法、文法等。從識(shí)別對(duì)象的類型來看,語音識(shí)別可以分為特定人(Speaker Dependent)語音識(shí)別和非特定人(Speaker Independent)語音識(shí)
8、別。特定人是指只針對(duì)一個(gè)用戶的語音識(shí)別,非特定人則可用于不同的用戶。實(shí)際上,非特定人語音識(shí)別的初始識(shí)別率往往都比較低,一般都要求用戶花一定的時(shí)間對(duì)系統(tǒng)進(jìn)行訓(xùn)練,將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整,才能使識(shí)別率達(dá)到滿意的程度。非特定人大詞表連續(xù)語音識(shí)別是近幾年研究的重點(diǎn),也是研究的難點(diǎn)。目前的連續(xù)語音識(shí)別大多是基于 HMM(隱馬爾可夫模型)框架,并將聲學(xué)、語言學(xué)的知識(shí)統(tǒng)一引入來改善這個(gè)框架,其硬件平臺(tái)通常是功能強(qiáng)大的工作站或 PC機(jī)。61.2 語音識(shí)別系統(tǒng)的基本構(gòu)成語音識(shí)別系統(tǒng)的基本構(gòu)成語音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案為:輸入的模擬語音信號(hào)首先要進(jìn)行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測、預(yù)加重
9、等。語音信號(hào)經(jīng)預(yù)處理后,接下來很重要的一環(huán)就是特征參數(shù)提取。對(duì)特征參數(shù)的要求是:(1) 提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性。(2) 各階參數(shù)之間有良好的獨(dú)立性。(3) 特征參數(shù)要計(jì)算方便,最好有高效的計(jì)算方法,以保證語音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模型,保存為模版庫。在識(shí)別階段,語音喜好經(jīng)過相同的通道得到語音參數(shù),生成測試模版,與參考模版進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模版作為識(shí)別結(jié)果。同時(shí)還可以在很多先驗(yàn)知識(shí)的幫助下,提高識(shí)別的準(zhǔn)確率。第二章第二章 語音識(shí)別的參數(shù)語音識(shí)別的參數(shù)2.1 線性預(yù)測系數(shù)線性預(yù)測系數(shù)語音信號(hào)是一種典型的
10、時(shí)變信號(hào),然而如果把觀察時(shí)間縮短到十毫秒至幾十毫秒,則可以得到一系列近似穩(wěn)定的信號(hào)。人的發(fā)音器官可以用若干段前后連接的聲管進(jìn)行模擬,這就是所謂的聲管模型。下圖為語音產(chǎn)生的生理結(jié)構(gòu)示意圖:7圖 2-1 語音產(chǎn)生的生理結(jié)構(gòu)示意圖1由于發(fā)音器官不可能毫無規(guī)律地快速變化,因此語音信號(hào)是準(zhǔn)穩(wěn)定的(quasi steady)。全極點(diǎn)線性預(yù)測模型(LPC)可以對(duì)聲管模型進(jìn)行很好的描述,這里信號(hào)的激勵(lì)源是由肺部氣流的沖擊引起的,聲帶可以有周期振動(dòng)也可以不振動(dòng),分別對(duì)應(yīng)濁音(Vowel)和清音(Consonant),而每段聲管則對(duì)應(yīng)一個(gè) LPC 模型的極點(diǎn)。一般情況下,極點(diǎn)的個(gè)數(shù)在 1216 之間,就可以足夠清
11、晰地描述語音信號(hào)的特征了。LPC 是語音分析的重要手段,它能很好地進(jìn)行譜估計(jì),即可作為語音特征的參數(shù)。因此僅用 12 個(gè) LPC 系數(shù)就能很好地表示復(fù)雜語音信號(hào)的特征,這就大大降低了信號(hào)的冗余度并有效地減少了計(jì)算量和存儲(chǔ)量,使之成為語音識(shí)別和語音壓縮的基礎(chǔ)。下圖為以聲管模型為基礎(chǔ)的 LPC 模型: 8圖 2-2 以聲管模型為基礎(chǔ)的 LPC 模型由: 1( ,0)( , )pnknkiai k1,2,kp該式表示 p 個(gè)方程構(gòu)成的方程組,未知數(shù)為 p 個(gè)。求解該方程組,就可以得到系統(tǒng)的線性預(yù)測系數(shù)。由基于自相關(guān)的遞推求解公式求解,也就是所謂的Durbin 算法得:2.1(0)(0)nnER.2.
12、21(1)1(1)( )()iinjnjiinR iaR ijkE.2.3( ) iiiak.2.4( )(1)(1),1iiijjiijaak aji2.5( )2(1)(1)lininEkE公式中,上標(biāo)表示第 次迭代,每次迭代只計(jì)算和更新 直到( ) ii12,ia aa時(shí),結(jié)束迭代。ip在 MATLAB 中利用 lpc 函數(shù)2計(jì)算 LPC 系數(shù),其語法為:a = lpc(x,n);這里 x 為一幀語音信號(hào),n 為計(jì)算 LPC 參數(shù)的階數(shù)。通常 x 為 240 點(diǎn)或256 點(diǎn)的數(shù)據(jù),n 取 1012,對(duì)語音識(shí)別來說就已經(jīng)足夠。2.2 線性預(yù)測倒譜系數(shù)線性預(yù)測倒譜系數(shù)在語音識(shí)別系統(tǒng)中,很少直
13、接使用 LPC 系數(shù),而是由 LPC 系數(shù)推導(dǎo)出另一種參數(shù):線性預(yù)測倒譜系數(shù)(LPCC) 。倒譜實(shí)際上是一種同態(tài)信號(hào)處理方法,標(biāo)準(zhǔn)的倒譜系數(shù)計(jì)算流程需要進(jìn)行 FFT 變換3,對(duì)數(shù)操作和相位校正等步驟,9運(yùn)算比較復(fù)雜。在實(shí)際運(yùn)作中大多數(shù)語音識(shí)別系統(tǒng)都會(huì)采用倒譜參數(shù)來作為有關(guān)距離的度量。LPC 倒譜系數(shù)是描述說話人聲道特性的,廣泛應(yīng)用于聲紋識(shí)別。在實(shí)際計(jì)算中,當(dāng)序列 x(n)為最小相位的情況下,可以利用序列 x(n)及其倒譜系數(shù) c(n)的遞推關(guān)系來簡化計(jì)算。序列 x(n)及其復(fù)倒譜系數(shù) c(n)的遞推公式如下:.2.6100,0( )( )()( ),0(0)(0)nknx nx nkx nkx
14、 knxnxLPCC 參數(shù)是一種非常重要的參數(shù),它不是由原始信號(hào) x(n)得到,而是由LPC 系數(shù)得到的。由 2.6 式可得 LPC 到 LPCC 的直接遞推關(guān)系。ma.2.720logcG 2.811,1mmmkm kkkcac ampm .2.911,mmkm kkkcc ampm2.3 MFCC 系數(shù)系數(shù)LPC 模型是基于發(fā)音模型建立的,LPCC 系數(shù)也是一種基于合成的參數(shù)。這種參數(shù)沒有充分利用人耳的聽覺特性。實(shí)際上,人的聽覺系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號(hào)的靈敏度是不同的,基本上是一個(gè)對(duì)數(shù)的關(guān)系。近年來,一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到了廣泛的應(yīng)用,這
15、就是 Mel 尺度倒譜參數(shù)(Mel-scaled Cepstrum Coefficient),或稱Mel 頻率倒譜系數(shù),簡稱為 MFCC。大量的研究表明,MFCC 參數(shù)能夠比LPCC 參數(shù)更好地提高系統(tǒng)的識(shí)別性能。從目前使用的情況來看,在大詞匯量語音識(shí)別應(yīng)用中已逐漸取代原本常用的線性預(yù)測編碼導(dǎo)出的倒頻譜參數(shù),原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性。由于語音信號(hào)在時(shí)域上的變化快速而不穩(wěn)定,所以通常都將它轉(zhuǎn)換到頻域上來觀察,此時(shí)它的頻譜會(huì)隨著時(shí)間作緩慢的變化。所以通常將加窗后的幀經(jīng)過快速傅立葉變換(FFT) ,求出每幀的頻譜參數(shù)。再將每幀的頻譜參數(shù)通過一組 N 個(gè)( N 一般為
16、20 30 個(gè))三角形帶通濾波器所組成的 Mel 頻率濾波器,將每個(gè)頻帶的輸出取對(duì)數(shù),求出每一個(gè)輸出的對(duì)數(shù)能量(log energy)Ek,k =1,2,. N。再將此 N 個(gè)參數(shù)進(jìn)行余弦變換(cosine transform) 求出 L 階的 Mel -scale 10cepstrum 參數(shù)。4MFCC 參數(shù)的計(jì)算是以“bark”為其頻率基準(zhǔn)的,它和線性頻率的轉(zhuǎn)換關(guān)系是: .2.10102595log (1)700melffMFCC 參數(shù)也是按幀計(jì)算的。首先要通過 FFT 得到該幀信號(hào)的功率譜,( )S n轉(zhuǎn)換為 Mel 頻率下的功率譜。這需要在計(jì)算之前先在語音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波
17、器:2.11( ),0,1,1,0,1,12mNHnmMnMFCC 參數(shù)的計(jì)算通常采用如下的流程:(1)首先確定每一幀語音采樣序列的點(diǎn)數(shù)。對(duì)每幀序列進(jìn)行預(yù)加重處( )s n理后再經(jīng)過離散 FFT 變換,取模的平方得到離散功率譜。( )S n(2)計(jì)算通過 M 個(gè)后所得的功率值,即計(jì)算和在( )S n( )mHn( )S n( )mHn各離散頻率點(diǎn)上乘積之和,得到 M 個(gè)參數(shù),。mP0,1,1mM(3)計(jì)算的自然對(duì)數(shù),得到,。mPmL0,1,1mM(4)對(duì)計(jì)算其離散余弦變換,得到,。011,mL LLmD0,1,1mM(5)舍去代表直流成分的,取作為 MFCC 參數(shù)。0D12,KD DDMATL
18、AB 中計(jì)算 mfcc 參數(shù)的函數(shù)為 melcepst.m,其中調(diào)用了函數(shù)melbankm.m,用來計(jì)算 M 個(gè)濾波器的系數(shù)。2.4 完整的參數(shù)計(jì)算流程完整的參數(shù)計(jì)算流程特征提取方法:特征的選取取決于具體的系統(tǒng),下面的特征是有代表性的:幅度(或功率)過零率臨界帶特征矢量線形預(yù)測系數(shù)特征矢量(LPC)LPC 倒譜特征矢量(LPCC) Mel 倒譜系數(shù)(MFCC)前三個(gè)共振峰 F1,F2,F3具體步驟分 4 步:111端點(diǎn)檢測所謂端點(diǎn)檢測,就是在實(shí)時(shí)輸入的聲音信號(hào)中,區(qū)分背景噪聲和環(huán)境噪聲,準(zhǔn)確地判斷出聲音信號(hào)的開始點(diǎn)和結(jié)束點(diǎn)。這一過程應(yīng)由特定的算法自動(dòng)完成,通常利用短時(shí)能量來檢測濁音,用過零率來
19、檢測清音,兩者配合實(shí)現(xiàn)可靠的端點(diǎn)檢測。端點(diǎn)檢測算法常用的是由語音能量和過零率組合的有雙門限法,以及短時(shí)能量和過零率的乘積構(gòu)成的能頻值法。2預(yù)加重濾波器在語音參數(shù)計(jì)算之前,一般要將其通過一個(gè)預(yù)加重濾波器。3倒譜提升窗口在為每幀數(shù)據(jù)計(jì)算出階 MFCC 參數(shù)后,通常還要為這個(gè)系數(shù)分別乘以KK不同的權(quán)系數(shù),實(shí)際上是一個(gè)短的窗口:.2.12mmmcw c2.131sin(),12mKmwmKK 4差分倒譜系數(shù)標(biāo)準(zhǔn)的 MFCC 參數(shù)只反映了語音參數(shù)的靜態(tài)特性,而人耳對(duì)語音的動(dòng)態(tài)特征更為敏感,通常用差分倒譜參數(shù)來描述這種動(dòng)態(tài)特性。差分參數(shù)的計(jì)算采用下面的公式:.2.1421( )()kkikikd ni c
20、 nii這里 c 和 d 都表示一幀語音參數(shù),k 為常數(shù),通常取 2,這時(shí)差分參數(shù)就稱為當(dāng)前幀的前兩幀和后兩幀參數(shù)的線性組合。第三章第三章 DTW 算法算法3.1 DTW 算法原理算法原理12在孤立詞語音識(shí)別中,最為簡單有效的方法是采用 DTW(Dynamic Time Warping,動(dòng)態(tài)時(shí)間彎折)算法,該算法基于動(dòng)態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法。用于孤立詞識(shí)別,DTW 算法與 HMM 算法在相同的環(huán)境條件下,識(shí)別效果相差不大,但 HMM 算法要復(fù)雜得多,主要體現(xiàn)在 HMM 算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計(jì)算才
21、能得到模型參數(shù),而 DTW 算法的訓(xùn)練中幾乎不需要額外的計(jì)算。所以在孤立詞語音識(shí)別中,DTW 算法仍得到廣泛的應(yīng)用。在訓(xùn)練和建立模板階段以及在識(shí)別階段,都采用端點(diǎn)檢測算法確定語音的起點(diǎn)和終點(diǎn)。已存入模板庫的各個(gè)詞條稱為參考模板,一個(gè)參考模板可表示為,m 為訓(xùn)練語音幀的時(shí)序標(biāo)號(hào),m=1 為起點(diǎn)語音(1), (2), ( ), ()RRR mR M幀,m=M 為終點(diǎn)語音幀,因此為該模板所包含的語音幀總數(shù),為第M( )R m幀的語音特征矢量。所要識(shí)別的一個(gè)輸入詞條語音稱為測試模板,可表示為m,為測試語音幀的時(shí)序標(biāo)號(hào),n=1 為起點(diǎn)語音幀,(1), (2), ( ), ()TTT nT Nnn=N 為
22、終點(diǎn)語音幀,因此 N 為該模板所包含的語音幀總數(shù),T(n)為第 n 幀的語音特征矢量。參考模板與測試模板一般采用相同類型的特征矢量(如 MFCC 系數(shù)) 、相同的幀長、相同的窗函數(shù)和相同的幀移。測試和參考模板分別用 T 和R 表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離 DT,R,距離越小則相似度越高。為了計(jì)算這一失真距離,應(yīng)從 T 和 R 中各個(gè)對(duì)應(yīng)幀之間的距離算起。設(shè) n 和 m 分別是 T 和 R 中任意選擇的幀號(hào),dT(n),R(m)表示這兩幀之間的距離。距離函數(shù)取決于實(shí)際采用的距離度量,在 DTW 算法中通常采用歐氏距離。若 N=M 則可以直接計(jì)算,否則要考慮將 T(n)和
23、 R(m)對(duì)齊。對(duì)齊可以采用線性擴(kuò)張的方法,如果 NM 可以將 T 線性映射為一個(gè) M 幀的序列,再計(jì)算它與之間的距離。但是這樣的計(jì)算沒有考慮到語音中各個(gè)段 (1), (2), ()RRR M在不同的情況下的持續(xù)時(shí)間會(huì)產(chǎn)生或長或短的變化,因此識(shí)別效果不可能最佳。因而更多地是采用動(dòng)態(tài)規(guī)劃(DP)的方法。如果把測試模板的各個(gè)幀號(hào) n=1N 在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各幀號(hào) m=1M 在縱軸上標(biāo)出,通過這些表示幀號(hào)的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測試模式中某一幀與訓(xùn)練模式中某一幀的交匯點(diǎn)。DP 算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格
24、點(diǎn)的路徑,路徑通過的格點(diǎn)即為測試和參考模板中進(jìn)行距離計(jì)算的幀號(hào)。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是13其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束圖 3-1 DTW 算法路徑原理示意圖為了描述這條路徑,假設(shè)路徑通過的所有格點(diǎn)依次為其中=(1,1),=(N,M)。路徑可以用11( ,),( ,),(,),iiMNn mn mnm11( ,)n m(,)MNnm函數(shù)描述,其中,。那么下一個(gè)( )iimn ,1,2,ini iN(1)1()NM通過的格點(diǎn)只可能是下列三中情況之一:( ,)iin m.3.1111111( ,)(1,2)(
25、,)(1,1)( ,)(1,)iiiiiiiiiiiin mnmn mnmn mnm用表示上述三個(gè)約束條件。求最佳路徑的問題可以歸結(jié)為滿足約束條件時(shí),求最佳路徑函數(shù),使得沿路徑的積累距離達(dá)到最小值,即:( )iimn .3.2()()( )11,min,iimnmniiiiNNiiiinnD n mD n m 搜索該路徑的方法如下:搜索從點(diǎn)出發(fā),可以展開若干條滿足的11( ,)n m路徑,假設(shè)可計(jì)算每條路徑達(dá)到點(diǎn)時(shí)的總的積累距離,具有最小累積(,)MNnm距離者即為最佳路徑。易于證明,限定范圍內(nèi)的任一格點(diǎn)只可能有一條( ,)iin m搜索路徑通過。對(duì)于,其可達(dá)到該格點(diǎn)的前一個(gè)格點(diǎn)只可能是、(
26、,)iin m1(,)iinm和,那么一定選擇這 3 個(gè)距離中的最小者所對(duì)應(yīng)1(,1)iinm1(,2)iinm( ,)iin m的格點(diǎn)作為其前續(xù)格點(diǎn),若用代表此格點(diǎn),并將通過該格點(diǎn)之路徑延11(,)iinm14伸而通過,這時(shí)此路徑的積累距離為:( ,)iin m.3.311( ,) ( ), ()(,)iiiiiiD n md T nR mD nm.3.411111(,)min (,),(,1),(,2)iiiiiiiiD nmD nmD nmD nm這樣可以從=(1,1)出發(fā)搜索,再搜索,對(duì)每一個(gè)11( ,)n m22(,)n m33(,)n m都存儲(chǔ)相應(yīng)的前一格點(diǎn)及相應(yīng)的幀匹配距離。搜索
27、到( ,)iin m11(,)iinm ,iid n m時(shí),只保留一條最佳路徑。這便是 DTW 算法。5(,)NNnm3.2 DTW 的高效算法的高效算法由于匹配過程中限定了彎折的斜率,因此許多格點(diǎn)實(shí)際上是到達(dá)不了的,如下圖所示。因此菱形之外的格點(diǎn)對(duì)應(yīng)的幀匹配距離是不需要計(jì)算的。另外也沒有必要保存所有的幀匹配距離矩陣和累積距離矩陣,因?yàn)槊恳涣懈鞲顸c(diǎn)上的匹配計(jì)算只用到了前一列的三個(gè)網(wǎng)格。充分利用這兩個(gè)特點(diǎn)可以減少計(jì)算量和存儲(chǔ)空間的需求。如圖所示,把實(shí)際的動(dòng)態(tài)彎折分為三段,(1,),(1,)(1,)aabbXXXXN和其中:3.51(2)32(2)3abXMNXNM圖 3-2 DTW 高效路徑示意
28、圖和都取最相近的整數(shù)。由此也得出對(duì) M 和 N 長度的限制條件:aXbX15.3.62322MNNM當(dāng)不滿足以上條件時(shí),認(rèn)為兩者差別實(shí)在太大,無法進(jìn)行動(dòng)態(tài)彎折匹配。在 X 軸上的每一幀不再需要與 Y 軸上的每一幀進(jìn)行比較,而只是與 Y 軸上間的幀進(jìn)行比較,和的計(jì)算如下式:minmax,yyminymaxy.3.7min1,022(2),bbxxXyxMNXxN.3.8max2 ,011(),22aaxxXyxMNXxN也可能會(huì)出現(xiàn)的情況,此時(shí)彎折匹配的三段為abXX。(1,),(1,)(1,)bbaaXXXXN和對(duì)于 X 軸上每前進(jìn)一幀,雖然所要比較的 Y 軸上的幀數(shù)不同,但彎折特性是一樣的,
29、累積距離的更新都是用下式實(shí)現(xiàn)的:.3.9( , )( , )min(1, ),(1,1),(1,2)D x yd x yD xy D xyD xy由于 X 軸上每前進(jìn)一幀,只需要用到前一列的累積距離,所以只需要兩個(gè)列矢量 D 和 d 分別保存前一列的累積距離和計(jì)算當(dāng)前列的累積距離,而不用保存整個(gè)距離矩陣。每前進(jìn)一幀都進(jìn)行更新,即按上式利用前一列的累積距離 D和當(dāng)前列的所有幀匹配距離 d(x,y),求出當(dāng)前幀的累積距離,保存于矢量 d 中,再把新的距離 d 賦值給 D,作為新的累積距離,供下一列使用。這樣一直前進(jìn)到 X 軸上最后一列,矢量 D 的第 M 個(gè)元素即為兩個(gè)模板動(dòng)態(tài)彎折的匹配距離。16
30、圖 3-3 DTW 改進(jìn)算法模型6第四章第四章 非特定人語音識(shí)別算法非特定人語音識(shí)別算法HMM4.1 HMM 的原理的原理1. HMM 基本概念HMM,即隱馬爾科夫模型(Hidden Markov Model),是在 Markov 鏈的基礎(chǔ)之上發(fā)展起來的。由于實(shí)際問題比 Markov 鏈模型所描述的更為復(fù)雜,觀察到的事件并不是與狀態(tài)一一對(duì)應(yīng),而是通過一組概率分布相聯(lián)系,這樣的模型就稱為 HMM。它是一個(gè)雙重隨機(jī)過程,其中之一是 Markov 鏈,這是基本隨機(jī)過程,它描述狀態(tài)的轉(zhuǎn)移。另一個(gè)隨機(jī)過程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系,即站在觀察者的角度,只能看到觀察值,不能直接看到狀態(tài),而是通過一
31、個(gè)隨機(jī)過程去感知狀態(tài)的存在及其特性。一個(gè) HMM 模型由若干個(gè)狀態(tài)組成,隨著時(shí)間的變化,各個(gè)狀態(tài)之間可以發(fā)生轉(zhuǎn)移,也可以在一個(gè)狀態(tài)內(nèi)駐留。每個(gè)觀察向量對(duì)不同的狀態(tài)都有相應(yīng)的輸出頻率。7以一個(gè)包含四個(gè)狀態(tài)為例,狀態(tài)之間或狀態(tài)自身的轉(zhuǎn)移概14SS率用表示,輸入觀察序列為。每個(gè)觀察序列是一幀 MFCC 參數(shù)。0a12,To oo在這個(gè)模型中,序列是可觀測的輸入序列,稱為觀察序列,而每一12,To oo時(shí)刻所處的狀態(tài)卻是隱含的。下表為 HMM 模型的各參數(shù)及其說明8:模型參數(shù)說 明N模型的狀態(tài)數(shù)ijAa狀態(tài)轉(zhuǎn)移矩陣,1|,1,ijiiaP qj qii jN i各狀態(tài)的起始概率分布,1,1tP qii
32、N ( )jBb o輸出概率密度函數(shù),1( )( ),),1Mjjljljlib oc N oUjN其中輸出概率密度函數(shù)中參數(shù)描述如下表所示。17參 數(shù)說 明O觀察向量M每個(gè)狀態(tài)包含的高斯元的個(gè)數(shù)jlc第 j 狀態(tài)第 1 個(gè)混合高斯函數(shù)的權(quán)N代表正態(tài)高斯概率密度函數(shù) ij第 j 狀態(tài)第 1 個(gè)混合高斯元的均值矢量jlU第 j 狀態(tài)第 1 個(gè)混合高斯元的協(xié)方差矩陣權(quán)系數(shù)滿足下面的條件jlc4.11,1MjllcjN這種連續(xù)混合高斯 HMM 通常簡稱為 CHMM。對(duì)于每一個(gè)狀態(tài),都用若干個(gè)正態(tài)高斯概率密度函數(shù)(簡稱為 pdf)的線性組合來表示,每個(gè) pdf 有各自的均值矢量和協(xié)方差矩陣,這些都是通
33、過對(duì)大量的 MFCC 參數(shù)進(jìn)行統(tǒng)計(jì)得到的。對(duì)于 HMM 模型,有三個(gè)基本問題需要解決:(1)給定觀察序列和 HMM 模型計(jì)算觀察斜12( ,)TOo oo( , , )A B率對(duì) HMM 模型的輸出概率。(| )P O(2)給定觀察序列和 HMM 模型確定一個(gè)最12( ,)TOo oo( , , )A B優(yōu)的狀態(tài)轉(zhuǎn)移序列。12(,)Tqq qq(3)調(diào)整使最大。( , , )A B(| )P O4.2 前向概率和后向概率前向概率和后向概率HMM 的輸出概率計(jì)算的輸出概率計(jì)算1HMM 輸出概率的計(jì)算輸出概率的計(jì)算給定觀察序列和 HMM 模型,如果已知狀態(tài)12( ,)TOo oo( , , )A
34、B轉(zhuǎn)移序列,則有:12(,)Tqq qq.4.212121(| )(|, )( )()()TTttqqqTtP O qP O qbo boboHMM 模型輸出序列 q 的概率為:.4.311 22 31( | )TTqq qq qqqP qaaa對(duì)所有可能的狀態(tài)轉(zhuǎn)移序列 q,模型輸出觀察序列 O 的概率9。(| )P O由全概率公式可得:18(|)(| , ) ( |)allqP OP O qP q .4.4111 2211 212( )()()TTTrqqq qqqqqTq qqbo aboabo該式大約需要次計(jì)算,這在實(shí)際中是無法承受的。為了降低計(jì)算復(fù)雜2TTN度,可以采用前向和后向算法。
35、2HMM 的前向概率和后向概率的前向概率和后向概率首先定義 HMM 的前向概率為:.4.512( )(,|)tttiP ooo qi表示給定 HMM 模型參數(shù),部分觀察序列在 t 時(shí)刻處于狀態(tài)12tooo的概率。那么有:ia)初始化:4.611( )( ),1iiib oiN b)遞歸:.4.7111( )( )(),11,1Nttijjtiaja i a b OtTjN c)終結(jié):4.81(|)( )NTiP Oi與前向概率相對(duì)應(yīng),還有后向概率。定義后向概率為:.4.912( )(,|)tttttiP o oo qi表示 HMM 模型參數(shù),觀察序列在 t 時(shí)刻處于狀態(tài) i,系統(tǒng)輸出部分觀察序
36、列的概率。12ttTo oo后向概率也有類似的遞推公式計(jì)算:( )tia) 初始化:4.10( )1,1TiiN b) 遞歸:.4.11111( )()( ),11,1Ntijjttiia b OjtTjN c) 終結(jié):前向概率和后向概率的遞推關(guān)系由下圖說明19圖 4-1 前向概率和后向概率示意圖3利用前向概率和后向概率計(jì)算輸出概率利用前向概率和后向概率計(jì)算輸出概率前向概率公式和后向概率公式巧妙地將整個(gè)觀察序列對(duì) HMM 模型的輸出概率分成兩個(gè)部分觀察序列的輸出概率的乘積,而且它們各自都有相應(yīng)的遞推公式,可以大大簡化計(jì)算10。經(jīng)過分析,可以得到下面的輸出概率計(jì)算公式:4.1211(|)( )(
37、 )( ),11NNttTiiP OiiitT 實(shí)際上,這就是 HMM 三個(gè)基本問題中第一個(gè)問題的解答。它的另一種常用的形式是:.4.131111(|)( )()( ),11NNtijjttijP Oi a b ojtT 實(shí)際計(jì)算中首先計(jì)算出對(duì)于每個(gè) t 和每個(gè)狀態(tài) i 的前向概率和后向概率,然后套用上面的公式,計(jì)算出該觀察序列對(duì)模型的輸出概率。這兩個(gè)公式也稱為全概率公式。4.3 識(shí)別算法識(shí)別算法Viterbi 解碼解碼Viterbi 算法,不僅可以找到一條足夠好的狀態(tài)轉(zhuǎn)移路徑,還可以得到該路徑所對(duì)應(yīng)的輸出概率。同時(shí),用 Viterbi 算法計(jì)算輸出概率所需要的計(jì)算量要比全概率公式的計(jì)算量小很
38、多。定義為時(shí)刻 t 時(shí)沿一條路徑,且,產(chǎn)生出( )ti12,tq qqtiq的最大概率,即有12,tO OO20.4.141211212,( )max(,|)tttitq qqiP q qqO OOViterbi 算法的遞推形式如下(1) 初始化.4.1511( )( ),1iiib oiN .4.161( )0i(2) 遞歸.4.1711( )max( )(),2,1ttijjti Nji a b otTjN .4.1811( )argmax( ),2,1ttiji Nji atTjN (3) 終結(jié)4.19*1max( )Ti NPi .4.20*1argmax( )TTt Nqi (4)
39、狀態(tài)序列求?。?4.21*11(),11tttqqtT 這里,為 t 時(shí)刻第 i 狀態(tài)的累積輸出概率,為 t 時(shí)刻第 i 狀態(tài)的前( )ti( )ti續(xù)狀態(tài)號(hào),為最優(yōu)狀態(tài)序列中 t 時(shí)刻所處的狀態(tài),為最終的輸出概率。*tq*P對(duì)語音處理應(yīng)用而言,動(dòng)態(tài)范圍很大,或者說不同的 Q 使( ,|)P Q O的值差別很大,而事實(shí)上是中舉足輕重( ,|)P Q Omax( ,| )QP Q O( ,|)QP Q O的唯一成分,因此,常常等價(jià)地使用和,那么,max( ,|)QP Q O( ,|)QP Q OViterbi 算法也能用來計(jì)算。(| )P O4.4 Baum-Welch 算法算法這個(gè)算法實(shí)際上是
40、解決 HMM 訓(xùn)練,即 HMM 參數(shù)估計(jì)問題,或者說,給定一個(gè)觀察值序列,該算法能確定一個(gè),使12,TOO OO( , , )A B最大。(| )P O由前向變量和后向變量的定義,有:.4.221111(|)( )()( ),11NNtijjttijP Oi a b ojtT 這里,求取,使最大是一個(gè)泛函極值問題。但是由于給定的訓(xùn)練(| )P O序列有限,因而不存在一個(gè)最佳的方法來估計(jì)。在這種情況下,Baum-Welch21算法利用遞歸的思想,使局部極大,最后得到模型參數(shù)。(| )P O( , , )A B定義為給頂訓(xùn)練序列 O 和模型時(shí),時(shí)刻 t 時(shí) Markov 鏈處于狀態(tài)( , )ii
41、ji和時(shí)刻 t+1 為狀態(tài)的概率,即j4.231( , )( ,|)iiiiji jP O qq可以推導(dǎo)出:4.2411( , )( )()( )/(|)itijjtti ji a b OjP O那么,時(shí)刻 t 時(shí) Markov 鏈處于狀態(tài)的概率為:i1( )( ,/ )( , )NttitjiP O qi j .4.25( )( )/(|)ttiiP O因此,表示從狀態(tài)轉(zhuǎn)移到狀態(tài)的次數(shù)的期望值。由此,導(dǎo)出了11( )TttiijBaum-Welch 算法的重估公式11(reestimation):.4.261( )ii 4.271111( , )/( )TTijttttai ji.4.281
42、1( )/( )tkTTjkttttOVbjj且試推導(dǎo)該重估公式:引理:設(shè)為正實(shí)數(shù),為非負(fù)實(shí)數(shù),即,,1, ,iu iS ,1, ,iv iS 0iiv 那么由對(duì)數(shù)函數(shù)的凹特性有如下結(jié)論:.4.29lnln()iiiiiikiikvuvuuu.4.30lniiikikuvuu .4.311(lnln)iiiiikkuvuuu此處所有求和均是從 1 到 S。22定義輔助函數(shù).4.321( , )( ,|)ln( ,|)(|)SQP O SP O SP O 所有其中,為原來的模型,為新求取的模型,O 為訓(xùn)練( , , )A B( , , )A B用觀察值序列,S 為某個(gè)狀態(tài)序列,那么,由12,TO
43、O OO12,TSq qq引理易推出下面的定理12:如果,那么。( , )( , )QQ (|)(|)P OP O.4.33該定理構(gòu)成了重估公式的理論基礎(chǔ):對(duì)輔助函數(shù),重要能找到,( , )Q 使達(dá)到最大值,那么就能保證,從而使( , )Q ( , )( , )QQ ,這樣,新得到的模型在表示訓(xùn)練序列 O 方面就比原來的(| )(|)P OP O模型要好。一直重復(fù)這個(gè)過程,直到某個(gè)收斂點(diǎn),就可以得到根據(jù)訓(xùn)練序列O 估計(jì)出的結(jié)果模型,而使最大而求取參數(shù)的公式就稱之為重估公式。( , )Q 不同的,其參數(shù),A 和 B 就不同,重估公式的具體形式也不同13。23第五章第五章 實(shí)驗(yàn)及總結(jié)實(shí)驗(yàn)及總結(jié)5.
44、1 實(shí)驗(yàn)準(zhǔn)備及步驟實(shí)驗(yàn)準(zhǔn)備及步驟實(shí)驗(yàn)平臺(tái)為 Windows 平臺(tái)上,采用 Matlab 數(shù)學(xué)工具通過完成程序而實(shí)現(xiàn)的。本實(shí)驗(yàn)主要采用 DTW 算法實(shí)現(xiàn)語音識(shí)別。首先,我們使用 windows 自帶的錄音器,分別由我和合作者錄入了 4 組數(shù)據(jù)(1 人兩組) ,每組 8 個(gè)音頻文件,本別為從“一”到“八”的漢語發(fā)音。其中一組為參考模板,另外一組為測試模板。首先用 wavread 函數(shù)讀入 wav 文件,用 mfcc 函數(shù)獲得其 MFCC 參數(shù),用vad 函數(shù)對(duì)其進(jìn)行端點(diǎn)檢測,并保存語音部分的 MFCC 參數(shù)到參考模板的機(jī)構(gòu)數(shù)組 ref(i).mfcc 中。我們比較一下兩個(gè)人的語音端點(diǎn)檢測的短時(shí)信號(hào)
45、圖:圖 5-1 說話者 A 發(fā)音的 vad 輸出(1)橫軸:時(shí)間(單位:秒)縱軸:能量(單位:eV) (上圖)語音原始信號(hào);Energy 短時(shí)能量(單位:eV) ;ZCR 過零率(單位:%)24圖 5-2 說話者 A 發(fā)音的 vad 輸出(2)橫軸:時(shí)間(單位:秒)縱軸:能量(單位:eV) (上圖)語音原始信號(hào);Energy 短時(shí)能量(單位:eV) ;ZCR 過零率(單位:%)25圖 5-3 說話者 B 發(fā)音的 vad 輸出(2)橫軸:時(shí)間(單位:秒)縱軸:能量(單位:eV) (上圖)語音原始信號(hào);Energy 短時(shí)能量(單位:eV) ;ZCR 過零率(單位:%)Vad 函數(shù)的功能就是通過端點(diǎn)
46、檢測功能甄別出語音信號(hào)的起始點(diǎn)與結(jié)束點(diǎn),圖中的紅線就是程序標(biāo)記的語音信號(hào)始末點(diǎn),可以看出,雜音基本被排除,效果是非常明顯的。同時(shí),從以上三個(gè)圖的對(duì)比可以看出,不同發(fā)音者的發(fā)音波形及特性有較明顯區(qū)別。原始波形中,發(fā)音者 A 的波形在橫軸兩端不對(duì)稱,而發(fā)音者 B 的波形在橫軸兩端比較對(duì)稱;能量波形中,兩者的區(qū)別更加明顯:發(fā)音者 A 的能量高峰在語音后部,發(fā)音者 B 的能量高峰在語音前部;過零率波形中也可以明顯看出兩個(gè)人的區(qū)別。端點(diǎn)檢測下的短時(shí)能量分析只是語音識(shí)別的第一步,但是通過該步驟已經(jīng)可以粗略的區(qū)別出不同發(fā)音者,并且可以進(jìn)一步分析發(fā)音者語音信號(hào)的特點(diǎn)。由此證明了端點(diǎn)檢測在語音識(shí)別中是非常重要的
47、。5.2 實(shí)驗(yàn)結(jié)果及討論實(shí)驗(yàn)結(jié)果及討論本實(shí)驗(yàn)的 MATLAB 運(yùn)行環(huán)境中輸出結(jié)果如下列圖所示:26圖 5-4 說話者 A 的兩組語音匹配結(jié)果及距離匹配矩陣圖 6 說話者 B 的兩組語音匹配結(jié)果及距離矩陣從輸出記過看,識(shí)別具有了一定程度的正確度。為了進(jìn)一步驗(yàn)證結(jié)果,看一下匹配距離矩陣 dist 的數(shù)據(jù)如下圖所示:距離矩陣的對(duì)角線上是正確匹配模板的對(duì)應(yīng)分?jǐn)?shù),可見對(duì)角線上的 8 個(gè)數(shù)值中有 50%都是在本行中最小的,由此驗(yàn)證了識(shí)別結(jié)果的正確性。圖 5-5 說話者 B 的兩組語音匹配結(jié)果及距離匹配矩陣27圖 5-6 說話者 A 和 B 的語音匹配結(jié)果及距離匹配矩陣圖 5-7 說話者 A 和 B 的匹配
48、矩陣的三維曲面圖28圖 5-8 說話者 A 和 B 的匹配矩陣的的三維柱狀圖圖 5-9 說話者 A 和 B 的匹配矩陣的灰度視圖結(jié)果顯示:說話者 A 的自匹配識(shí)別率為 89%,說話者 B 的自匹配識(shí)別率也為 89% ,而 A 和 B 之間的識(shí)別率為 62% 。圖 5-4,圖 5-5,圖 5-6 中的匹配矩陣元為每個(gè)語音信號(hào)和參考模板中所有共 8 個(gè)語音信號(hào)的匹配距離,可以看出,在正確識(shí)別情況下,矩陣對(duì)角線上的矩陣元是本行中最小的(同一個(gè)語音信號(hào)和自己匹配距離最?。?,在匹配失敗的情況下,對(duì)角線上的矩陣元也是次最小的。這一結(jié)果說明了 DTW 的可靠性和穩(wěn)定性。圖 5-7,圖 5-8,圖 5-9
49、以不同方式直觀的顯示了矩陣元的大小關(guān)系。X 軸表示說話者 A 的語音信號(hào)編號(hào),Y 軸表示說話者 B 的語音信號(hào)編號(hào),Z 軸表示矩陣元的大小。三維曲面圖中的藍(lán)色部分,灰度圖中的全黑色部分為數(shù)值較小區(qū)域,可以看書,這個(gè)區(qū)域基本是在對(duì)角線上的?;叶葓D中的紅色連線便顯示了黑色方塊分布在對(duì)角線上及附近。29自匹配的識(shí)別準(zhǔn)確率達(dá)到 90%,而不同發(fā)音者之間的識(shí)別率有明顯下降,為 60%。這也是顯示出 DTW 算法在非特定人語音識(shí)別中不如特定人語音識(shí)別準(zhǔn)確。文獻(xiàn)1指出,使用 DTW 算法的特定人孤立字語音識(shí)別率能高達(dá)近 100% ,而我們始終無法達(dá)到這一效果。有幾方面的原因:1錄音設(shè)備和程序偏簡單。一個(gè)非常
50、良好和精確的模板庫是高效率語音識(shí)別系統(tǒng)的基礎(chǔ)。我們使用簡易麥克風(fēng)和 windows 自帶錄音程序可能無法建立一個(gè)完備的模板庫。2DTW 算法自身的缺陷。DTW 自身算法只適用于孤立字語音識(shí)別,而且是簡單字。因此識(shí)別機(jī)理上更加先進(jìn)的 HMM 和 ANN 方法能夠滿足更高的要求。 對(duì) DTW 算法進(jìn)行改進(jìn)(比如端點(diǎn)檢測)已經(jīng)提高了該算法的識(shí)別率。3DTW 算法僅限于孤立字的語音識(shí)別,而連續(xù)語音的識(shí)別目前來說還比較難以達(dá)到高的識(shí)別率,這也是今后語音識(shí)別課題研究發(fā)展的方向。5.3 實(shí)驗(yàn)結(jié)論實(shí)驗(yàn)結(jié)論課題最終在 MATLAB 平臺(tái)的基礎(chǔ)上基本實(shí)現(xiàn)了個(gè)別個(gè)體的特定語音識(shí)別,基本上達(dá)到了預(yù)定的目的?;?DTW 模型的語音識(shí)別簡單的說就是通過MATLAB
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 眾籌股東合同范例6
- 南匯食品運(yùn)輸合同范例
- 三年級(jí)數(shù)數(shù)學(xué)解決問題教案
- 叉車裝卸合同范本
- 加工木門合同范本
- 單位用品批發(fā)合同范本
- 付款分期合同范本
- 制造師證書掛靠合同范本
- 《童年的秘密》讀書心得體會(huì)
- 司機(jī) 勞動(dòng)合同范本
- 聲門下分泌物引流的應(yīng)用專家講座
- 硝酸脂類藥物的作用注意事項(xiàng)不良反應(yīng)
- 科普版小學(xué)英語六年級(jí)下冊全冊教案
- 腦梗合并心衰護(hù)理查房
- 婦聯(lián)普法知識(shí)競賽參考試題庫300題(含答案)
- 最全全國各省市縣名稱
- 溶液鍍膜法完整版本
- 消化道出血應(yīng)急預(yù)案
- 【溫州眼鏡出口遭遇技術(shù)貿(mào)易壁壘的現(xiàn)狀及對(duì)策(定量論文)15000字】
- 2024年《滕王閣序》原文及翻譯
- 文華財(cái)經(jīng)“麥語言”函數(shù)手冊
評(píng)論
0/150
提交評(píng)論