語音信號的總結_第1頁
語音信號的總結_第2頁
語音信號的總結_第3頁
語音信號的總結_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡的方法[1]。(1)基于語音學和聲學的方法該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復雜,現(xiàn)階段沒有達到實用的階段。通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區(qū)分。這樣該方法分為兩步實現(xiàn):第一步,分段和標號把語音信號按時間分成離散的段,每段對應一個或幾個語音基元的聲學特性。然后根據(jù)相應聲學特性對每個分段給出相近的語音標號第二步,得到詞序列根據(jù)第一步所得語音標號序列得到一個語音基元網(wǎng)格,從詞典得到有效的詞序列,也可結合句子的文法和語義同時進行。(2)模板匹配的方法模板匹配的方法發(fā)展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經(jīng)過四個步驟:特征提取、模板訓練、模板分類、判決。語音信號的識別主要的還是在特征值提取是重點。常用的技術有三種:動態(tài)時間規(guī)整(DTW)、隱馬爾可夫(hmm)理論、矢量量化(VQ)技術。1、動態(tài)時間規(guī)整(DTW)語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特征訓練和識別的基礎。所謂端點檢測就是在語音信號中的各種段落(如音素、音節(jié)、詞素)

的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代日本學者Itakura提出了動態(tài)時間規(guī)整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。動態(tài)時間規(guī)整是將時間規(guī)整和距離測度結合起來的一種非線性規(guī)整技術。設測試語音參數(shù)共有N幀矢量,而參考模板共有M幀矢量,且N

≠M。

要找時間規(guī)整函數(shù)j=w(i)

,使測試矢量的時間軸

i

非線性地映射到模板的時間軸

j

上,并滿足:

式中d[T(i),R(ω(i))]是第

i

幀測試矢量T(i)

和第

j

幀模板矢量R(j)

之間的距離測度。

D

則是在最優(yōu)情況下的兩矢量之間的匹配路徑。一般情況下,DTW采用逆向思路,從過程的最后階段開始,逆推到起始點,尋找其中的最優(yōu)路徑。2、隱馬爾可夫法(HMM)隱馬爾可夫法(HMM)

是70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質性的突破。HMM

方法現(xiàn)已成為語音識別的主流技術,目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的。HMM是對語音信號的時間序列結構建立統(tǒng)計模型,將之看作一個數(shù)學上的雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的Markov

鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與Markov

鏈的每一個狀態(tài)相關聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))

發(fā)出的音素的參數(shù)流??梢奌MM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。HMM語音模型λ(π,A,B)

由起始狀態(tài)概率(π)

、狀態(tài)轉移概率(A)

和觀測序列概率(B)

三個參數(shù)決定。π揭示了HMM

的拓撲結構,A

描述了語音信號隨時間的變化情況,B

給出了觀測序列的統(tǒng)計特性。經(jīng)典HMM語音識別的一般過程是:用前向后向算法(Forward-Backward)

通過遞推方法計算已知模型輸出O

及模型λ=f(π,A,B)

時的產(chǎn)生輸出序列的概率P(O|λ),然后用Baum-Welch

算法,基于最大似然準則(ML)

對模型參數(shù)λ(π,A,B)

進行修正,最優(yōu)參數(shù)λ*的求解可表示為λ*=argmax{P(O|λ)}

。最后用Viterbi算法解出產(chǎn)生輸出序列的最佳狀態(tài)轉移序列

X。所謂最佳是以

X

的最大條件后驗概率為準則,即X=argmax{P(X|O,λ)}。3、矢量量化(VQ)

矢量量化(VectorQuantization)

是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的

k

個樣點的每一幀,或有k

個參數(shù)的每一參數(shù)幀,構成

k

維空間中的一個矢量,然后對矢量進行量化。量化時,將

k

維無限空間劃分為M

個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發(fā)尋找到好的失真測度定義公式,設計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運算量,實現(xiàn)最大可能的平均信噪比。失真測度主要有均方誤差(即歐氏距離)

、加權的均方誤差、Itakura2Saito距離、似然比失真測度等。初始碼書的生成可以是隨機選取、分裂生成法、乘積碼書法[4]。在選定了失真測度和初始碼書后,就用LBG算法,對初始碼書進行迭代優(yōu)化,一直到系統(tǒng)性能滿足要求或不再有明顯的改進為止。

核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優(yōu)化設計的,那么由這一信息源產(chǎn)生的信號與該碼書的平均量化失真就應小于其它信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。在實際的應用過程中,人們還研究了多種降低復雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。[3](3)神經(jīng)網(wǎng)絡相關的算法利用人工神經(jīng)網(wǎng)絡的方法是80年代末期提出的一種新的語音識別方法。人工神經(jīng)網(wǎng)絡(ANN)本質上是一個自適應非線性動力學系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應性、并行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由于存在訓練、識別時間太長的缺點,目前仍處于實驗探索階段。由于ANN不能很好的描述語音信號的時間動態(tài)特性,所以常把ANN與傳統(tǒng)識別方法結合,分別利用各自優(yōu)點來進行語音識別。ANN與DTW:ANN納入DTW框架中的最簡單方法就是利用多層感知器模型(MLP)計算DTW搜索中的局部路徑得分。ANN與HMM:1)

多層感知器網(wǎng)絡來估計隱馬爾可夫模型的狀態(tài)概率輸出的方法2)

BP算法實現(xiàn)HMM模型參數(shù)的重估3)

利用自組織神經(jīng)網(wǎng)絡Kohonen的學習矢量量化算法訓練產(chǎn)生矢量量化碼本語音識別系統(tǒng)中的技術土要包括預處理技術,特征提取技術,模型的訓練與模型匹配三個方面。語音識別中的預處理一般包括預加重,加窗,端點檢測。聲學特征提取主要是線性預測系數(shù)(LPC),倒譜系數(shù)(CEP),Mel倒譜系數(shù)(MFCC

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論