




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第四章 漢語數(shù)碼串語音分析第四章 漢語數(shù)碼串語音識別分析§4.1 聲學模型4.1.1 語音特征參數(shù)采用MFCC參數(shù)為語音特征參數(shù),MFCC參數(shù)的提取步驟已在第二章中詳細給出,這里不再敘述。4.1.2 基于整詞模型的上下文無關連續(xù)HMM本文的語音模型一共有13個,其中包括11個數(shù)字(“1”有 yi 和 yao 兩種念法),一個靜音模型和一個詞間暫停模型。隱含馬爾科夫模型(Hidden Markov Model,HMM)是語音識別中描述語音的最常用的模型,大部分的語音識別系統(tǒng)都是基于HMM的。 因此本文也采用HMM描述語音。根據(jù)描述的語音單位的大小,HMM可分為:² 基于整詞模
2、型的HMM(Word based HMM)。其優(yōu)點為可以很好地描述詞內音素協(xié)同發(fā)音的特點,建模過程也較為簡單。因此很多小詞匯量語音識別系統(tǒng)均采用整詞模型HMM。但在大詞匯量語音識別中由于所需建立的模型太多而無法使用。² 基于子詞模型的HMM(Sub Word based HMM)。該類HMM描述的語音單位比詞小,如英語語音識別中的基本音素,漢語語音識別中的半音節(jié)等。其優(yōu)點為模型總數(shù)少,所以在大詞匯量語音識別中得到了廣泛的應用。其缺點在于其描述詞內協(xié)同發(fā)音的能力劣于整詞模型,但由于子詞模型已經得到了非常充分的研究,所以近年來在很多小詞表應用識別系統(tǒng)中也用了子詞模型。本文采用較為簡單的整
3、詞模型HMM。根據(jù)是否考慮上下文的影響,HMM可以分為:² 上下文無關(Context Independent,CI)HMM。CI-HMM不考慮上下文的影響,其優(yōu)點在于所需建立的模型少,易于獲得較多的訓練語音,缺點在于沒有考慮上下文協(xié)同發(fā)音的影響,會對識別性能有所影響。² 上下文相關(Context Dependent,CD)HMM。CD-HMM需要考慮上下文的影響,需要建立的模型遠多于CI-HMM,因此無法對每一個模型獲得足夠多的訓練語音,需要利用聚類技術(如決策樹算法等)合并相近的模型。故CD-HMM的建模37第四章 漢語數(shù)碼串語音分析需要很大的工作量,但一套訓練很好的
4、CD-HMM的識別性能會明顯優(yōu)于CI-HMM。本文采用了CI-HMM。根據(jù)輸出概率分布的不同,HMM可分為:² 離散HMM(Discrete HMM, DHMM)。其輸出概率是基于一套碼本的離散概率分布,其優(yōu)點在于由于實現(xiàn)了存儲量和計算量都較小,所需的訓練語音也較少,但其矢量量化的過程會造成性能的損失。目前IBM公司的Via Voice系統(tǒng)采用的是DHMM。² 連續(xù)HMM(Continuous Density HMM, CDHMM)。其輸出概率是連續(xù)概率密度函數(shù)(一般是高斯混合密度函數(shù))。其所需的訓練語音較多,模型參數(shù)存儲量和計算量都較大,在訓練語音足夠時,其性能優(yōu)于DHM
5、M。目前英國劍橋大學和美國Bell實驗室的識別系統(tǒng)均基于CDHMM。² 半連續(xù)HMM(Semi Continuous HMM, SCHMM)。SCHMM是DHMM和CDHMM的折衷,與DHMM相似,其輸出為一套碼本,但每個碼字均為一個連續(xù)概率密度分布函數(shù),這一點與CDHMM相近。其性能和所需的訓練語音等均介于DHMM和CDHMM之間。美國Carnegie Mellon大學的著名的SPHINX系統(tǒng)即基于SCHMM。本文采用CDHMM為語音模型。綜上所述,本文采用的語音模型為基于整詞模型的上下文無關連續(xù)HMM,狀態(tài)輸出概率分布為混合高斯密度函數(shù)。其各分量計算如式(4.1)所示:1v
6、33;1vvmTm-1vvmùexp bsm(x)=nê-2(x-us)Ss(x-us)ú (4.1)m1/2ëû(2p)2|S|s總的概率輸出即為各分量的加權和:Mvv bs(x)=åcsmbsm(x) (4.2) ()m=1vs表示當前狀態(tài),M為混合分量數(shù),m、S、c分別為各混合分量的均值矢量、協(xié)方差矩陣和混合分量系數(shù)。4.1.3 HMM的訓練HMM的訓練過程包括對模型的初始化和迭代估值的過程:² 初始化。我們直接將訓練語音串按狀態(tài)等分后,獲得每個狀態(tài)所屬的語音幀,各高斯分量的參數(shù)從該狀態(tài)所屬的語音幀中隨機抽出一部分統(tǒng)計
7、獲得,38第四章 漢語數(shù)碼串語音分析各高斯分量的權重系數(shù)均設置為相同的數(shù)。數(shù)碼語音的HMM狀態(tài)數(shù)設為7,靜音模型和暫停模型的狀態(tài)數(shù)設為1.² 迭代估值。訓練HMM常用的方法包括分段k-均值(Segmental k-Means)算法和Baum-Welch算法。兩者的區(qū)別在于前者僅考慮最優(yōu)狀態(tài)路徑,而后者考慮所有可能的路徑。兩個算法的最終識別性能基本沒有區(qū)別,因此本文采用了Baum-Welch算法實現(xiàn)HMM的訓練。4.1.4 段長信息模型由于HMM是一個人為的模型,因此其對語音的描述是有一定缺陷的。其中一個主要的缺陷是HMM對語音段(包括狀態(tài)和詞)持續(xù)時間的不合理描述。設某一狀態(tài)跳回自身
8、的概率為Aii,則其持續(xù)時間d的概率分布為:t-1P(d=t)=Aii(1-Aii) (4.3)呈幾何分布,隨持續(xù)時間的上升而單調下降。這與實際是不符合的。圖4.1給出了數(shù)字”4”的第一個狀態(tài)的持續(xù)時間分布。由圖可0.20.15見,該分布與幾何分布完全不符合,所以HMM對段長的描述是很不合理的。概率0.10.050157911131517持續(xù)時間(幀)HMM對段長的描述的不合理之處在于傳統(tǒng)HMM中狀態(tài)跳轉概率與當前狀態(tài)已持續(xù)時間無關。 因此我們可以采用與狀態(tài)持續(xù)時間相關的狀態(tài)跳轉概率,即估計Aii(d=t),其主要過程為:圖4.1 數(shù)字”4”的第一狀態(tài)的持續(xù)時間分布1. 估計段長的概率分布。目
9、前主要文獻中描述段長概率分布可以用g分布,高斯分布或直接的直方圖描述??紤]到前兩者的概率分布形式均為人為的假設,而存儲直方圖所需的存儲量與輸出概率分布參數(shù)的存儲量相比是很小的。因此本文采用直方圖描述。其估計過程只需用Viterbi算法將訓練語音完成對各狀態(tài)的對準,獲得各狀態(tài)和各詞的起點和終點以計算語音段的長度,然后統(tǒng)計各狀態(tài)持續(xù)時間的分布即可。39第四章 漢語數(shù)碼串語音分析2. 在獲得段長概率分布后,按式(4.4)計算出持續(xù)時間為d的狀態(tài)跳轉概率: ìPi(d=t),若>eïït-1Aii(d=t)=í1-åPi(d=j) (4.4)j=
10、1ïï若<eîe,其中e為一個很小的數(shù),可設為10-20。實驗證明考慮段長分布后,識別性能會有明顯的提高。§4.2 搜索算法4.2.1 搜索算法的選擇由于在識別數(shù)字串時,我們不知道每個數(shù)字的分界點在什么地方,所以我們需要用搜索算法來獲得識別的最佳詞串。目前的搜索算法主要可以分為兩類,即基于動態(tài)規(guī)劃和基于堆棧譯碼的搜索算法。后者雖然在理論上可以實現(xiàn)最優(yōu)搜索,但其實現(xiàn)過程很復雜,而且難以實現(xiàn)幀同步的搜索,對系統(tǒng)的實時性帶來了很大的限制,所以在小詞表語音識別中,搜索算法基本上都是基于動態(tài)規(guī)劃的。目前常見的在基于動態(tài)規(guī)劃的搜索算法包括:² 分層構
11、筑(Level-Building)算法。該算法是由Bell實驗室的Rabiner等人在研究英語數(shù)字識別中提出的。該算法的優(yōu)點是容易納入串長信息,缺點是不能實現(xiàn)幀同步,而且計算量也較大。² Viterbi譯碼算法。該算法利用Viterbi譯碼的過程進行幀同步的搜索,易于實時實現(xiàn),也容易納入語法信息。目前的大詞匯量語音識別系統(tǒng)基本上都基于該搜索算法,小詞表連續(xù)語音識別也大都利用了該算法。本文采用Viterbi譯碼作為系統(tǒng)的搜索算法。4.2.2 搜索網絡結構的設置圖4.2給出了不定長數(shù)字串的搜索網絡。其中灰色的節(jié)點代表語法節(jié)點,即詞條的端點,黑色的節(jié)點代表聲學節(jié)點,即詞條的各個狀態(tài)。語法節(jié)
12、點的作用為傳遞前一個聲學節(jié)點的路徑信息,并在路徑信息中加入前一個聲學節(jié)點所40第四章 漢語數(shù)碼串語音分析屬的詞條信息,而聲學節(jié)點的作用是計算輸入語音特征矢量與當前狀態(tài)的匹配分數(shù),并傳遞路徑信息。節(jié)點間的箭頭表示路徑信息的傳遞途徑,值得注意的是從語法節(jié)點到語法節(jié)點的路徑信息是需要立即傳送的,其他的路徑信息是延遲一幀傳送的。以下給出聲學節(jié)點和語法節(jié)點的結構定義:struct ACSNODE / 聲學節(jié)點結構;struct GRMNODE / 語法節(jié)點結構;41 int WordModel; / 本聲學節(jié)點屬于哪一個詞條 int StateIndex; / 本聲學節(jié)點屬于哪一個狀態(tài) int Pred
13、ecNum; / 前續(xù)節(jié)點數(shù) int Predeccesor40; / 前續(xù)節(jié)點標號 BOOL PrdPrpty40; / 前續(xù)節(jié)點性質(是聲學節(jié)點還是語法節(jié)點) int PrecedNum; / 前續(xù)節(jié)點數(shù) int Predeccesor40; / 前續(xù)節(jié)點標號 BOOL PrdPrpty40; / 前續(xù)節(jié)點性質(是聲學節(jié)點還是語法節(jié)點) 圖4.2 不定長數(shù)字串搜索網絡第四章 漢語數(shù)碼串語音分析圖4.3則給出了定長數(shù)字串(串長為N)的搜索網絡結構.4.2.3 多候選幀同步搜索算法考慮到在很多實用情況下(如語音撥號電話機可以輸出多個候選讓用戶選擇,進行識別結果的拒識時也需要多候選),識別系統(tǒng)需
14、要除最優(yōu)詞串外的多候選詞串,因此本文采用多候選幀同步搜索算法獲得多個識別詞串候選。 首先我們定義基本路徑信息結構:struct PathInfo /基本路徑信息;由于聲學節(jié)點和語法節(jié)點所需傳遞的信息的不同,所以我們還需定義聲學節(jié)點上的路徑信息和語法節(jié)點上的路徑信息:42 圖4.3 定長數(shù)碼串的搜索網絡 int WordNum; /本路徑已有的詞數(shù) int WordSeqMAXSTRINGLEN; /本路徑已識別出的詞序列 int WordSegMAXSTRINGLEN; /本路徑已識別出的詞的邊界 double AccumScore; /本路徑積累的識別分數(shù)第四章 漢語數(shù)碼串語音分析struc
15、t GRMPathInfo /語法節(jié)點上的路徑信息struct ACSPathInfo / 聲學節(jié)點上的路徑信息;搜索步驟如下:1.1.1根據(jù)當前識別任務按圖4.2或圖4.3設置好節(jié)點數(shù)據(jù)。1.2設置初始路徑信息:WordNum=0 double LocalScore; / 本狀態(tài)匹配分數(shù) int WordDuraNBESTNUM; / 整詞持續(xù)時間 int StateDuraNBESTNUM; / 當前狀態(tài)持續(xù)時間 PathInfo CurrPathNBESTNUM; / 多候選路徑信息(按積累分數(shù)遞減排列) PathInfo CurrPathNBESTNUM; / 多候選路徑信息(按積累分
16、數(shù)遞減排列) ;ì-1050,其他節(jié)點 AccumScore =íî0,第一個語法節(jié)點WordDurai=0,i=0,1,K,NBESTNUM-1i=0,i=0,1,K,NBESTNUM-1 StateDura2. v設輸入語音特征矢量序列為xtt=1,2,K,T,其中T為總的幀數(shù)。對于每一幀輸入語音,我們分別對聲學節(jié)點和語法節(jié)點作Viterbi搜索:2.1聲學節(jié)點2.1.1 設置節(jié)拍i = 0。2.1.2 對于節(jié)點i,設置節(jié)拍m0。2.1.3對于節(jié)點i的前續(xù)節(jié)點k = Predeccesorm,設置節(jié)拍j = 043第四章 漢語數(shù)碼串語音分析2.1.4對節(jié)點k中
17、的第j選路徑的累積分數(shù)加上其與狀態(tài)持續(xù)時間相關的跳轉概率:' AccumScore=AccumScore+log(A(StateDuraj)2.1.5將路徑j與節(jié)點i的 CurrPath中已插入的路徑相比較:(a) 若與某條路徑p相同(即路徑的詞條序列相同),則比較兩條路徑積累分數(shù)的大小,若路徑j分數(shù)大于路徑p,則將路徑p刪除,將路徑j按分數(shù)大小插入CurrPath,否則放棄插入。(b) 若與所有路徑都不同,則按分數(shù)大小插入CurrPath。(c) 插入路徑時,修改狀態(tài)持續(xù)時間和詞持續(xù)時間。若前續(xù)節(jié)點不是本節(jié)點,則狀態(tài)持續(xù)時間重設為1,否則狀態(tài)持續(xù)時間加1;詞持續(xù)時間加1。2.1.6
18、若j<NBESTNUM-1, j+, 跳回2.1.4。2.1.7 若m< PredecNum-1,m+,跳回2.1.3。2.1.8 計算本節(jié)點與當前語音匹配分數(shù)LocalScore,并將其加到各路徑積累分數(shù)上。2.1.9 若i<總聲學節(jié)點數(shù)-1, i+, 返回2.1.2,否則本幀循環(huán)結束。2.2 語法節(jié)點2.2.1 初始化語法節(jié)點對于各語法節(jié)點WordNum=0=-1050 AccumScorej=false, j = 0, 1, 2, , 語法節(jié)點數(shù)-1 并設置標志位 GNodeFlag2.2.2利用樹的遍歷算法更新各語法節(jié)點,設置節(jié)拍j = 0。2.2.3 若GnodeFlagj = true,跳至2.2.9,否則執(zhí)行2.2.4。2.2.4 對于節(jié)點j,設置節(jié)拍k = 0。2.2.5 若節(jié)點j的前續(xù)節(jié)點p = Predeccesork為聲學節(jié)點,則先對于聲學節(jié)點p的各路徑將詞間跳轉概率加入路徑累積分數(shù):AccumScoreq=AccumScoreq+log(A(WordDuraq), q = 0,1, ., NBE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 歷史建筑群保護社區(qū)就業(yè)規(guī)劃基礎知識點歸納
- 2025年間歇充氣加壓裝置試題
- 依法治校賦能學校高質量發(fā)展的策略及實施路徑
- 建筑垃圾全過程監(jiān)控與信息化管理
- 第十二單元化學與生活復習(教學設計)
- 2025至2030年中國環(huán)保型排水管行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國海魴魚行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國油壓彎板機行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國水性上光油行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國染色搖粒絨布行業(yè)投資前景及策略咨詢報告
- 2024北京西城區(qū)初一(下)期末地理試題及答案
- 【正版授權】 ISO/IEC 15421:2010 EN Information technology - Automatic identification and data capture techniques - Bar code master test specifications
- 云南省昆明市官渡區(qū)2023-2024學年五年級下學期期末考試數(shù)學試題
- 地上附著物清場合同范本
- GB/T 44092-2024體育公園配置要求
- 化工設計智慧樹知到期末考試答案章節(jié)答案2024年浙江大學
- 一例脊髓損傷患者個案護理匯報
- 2024年陜西新華出版?zhèn)髅郊瘓F有限責任公司招聘筆試沖刺題(帶答案解析)
- 農村排灌用電安全管理
- 植入式靜脈給藥裝置(輸液港)護理專家共識
評論
0/150
提交評論