




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、聲音實際上是一種波術。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹募夹g。語音識別本質上是一種模式識別的過程,未知語音的模式與已知語音的參考模 式逐一進行比較,最佳匹配的參考模式被作為識別結果。目前大多數語音識別技術是基于統(tǒng)計模式的,從語音產生機理來看,語音識別可以分為語音 層和語言層兩部分。當今語音識別技術的主流算法,主要有基于動態(tài)時間規(guī)整(DTW)算法、基于非參數模型的矢量量化(VQ)方法、基于參數模型的隱馬爾可夫模型(HMM)的方法、基于人工神經網絡(ANN)和支持向量機等語音識別方法。和支持向量機等語音識別方法。語音識別系統(tǒng)的模型通常由聲學模型和語言模型兩部
2、分組成,分別對應于語音到音節(jié)概率的 計算和音節(jié)到字概率的計算。一個連續(xù)語音識別系統(tǒng)大致可分為四個部分:特征提取,聲學模型訓練, 語言模型訓練和解碼器。(1)預處理模塊:對輸入的原始語音信號進行處理,濾除掉其中的不重要的信息 以及背景噪聲,并進行語音信號的端點檢測(找出語音信號的始末)、 語音分幀(近似認為在10-30ms內是語音信號是短時平穩(wěn)的,將語音信 號分割為一段一段進行分析)以及預加重(提升高頻部分)等處理。(2)特征提取:去除語音信號中對于語音識別無用的冗余信息,保留能夠反 映語音本質特征的信息,并用一定的形式表示出來。也就是提取出反映 語音信號特征的關鍵特征參數形成特征矢量序列,以便
3、用于后續(xù)處理。目前的較常用的提取特征的方法還是比較多的,不過這些提 取方法都是由頻譜衍生出來的。Mel頻率倒譜系數(MFCC)參數因其良 好的抗噪性和魯棒性而應用廣泛。在sphinx中也是用MFCC特征的。 MFCC的計算首先用FFT將時域信號轉化成頻域,之后對其對數能量譜 用依照Mel刻度分布的三角濾波器組進行卷積,最后對各個濾波器的輸 出構成的向量進行離散余弦變換DCT,取前N個系數。在sphinx中,用幀frames去分割語音波形,每幀大概10ms, 然后每幀提取可以代表該幀語音的39個數字,這39個數字也就是該幀 語音的MFCC特征,用特征向量來表示。語音識別基礎語音信號的采樣和量化語
4、音信號是一個時間和幅度都連續(xù)變化的一維模擬信號而語音識別的過程是一個對語音信號進行數字處理的過程,在對語音信號處理之前,必須要對 其進行數字化,這個過程就是模/數(A/D)轉化模/數轉化過程要經過采樣和量 化兩個過程,從而得到時間和幅度上的離散數字信號根據奈奎斯特采樣定律, 采樣頻率應為原始信號頻率的兩倍以上,才能使采樣過程中不會丟失信息,而 且能從采樣信號中準確的重構原始信號的波形正常人的發(fā)音范圍是從40Hz到 340OHz左右,因此在實驗中,本文對語音信號的采樣頻率均為skHz2語音信號的預加重語音信號從嘴唇輻射后,高頻端大約在800Hz以上有6dB/倍頻的衰減因此,在對語音信號進 行分析
5、之前,一般要對語音信號加以提升(預加重)預加重的目的是濾除低頻干擾,尤其是50Hz或者60Hz的工頻干擾,提升對語音識別有用的高頻部分,使信號的頻譜變得平坦,以便于進行頻譜分析或聲道參數分析.3語音信號的加窗處理為了能對語音信號進行處理,我們可以假定在IOms 一 30ms之間語音信號是平穩(wěn)的,語音頻譜特性和語音特征參數恒定因此需將語音信號劃分為一個一個的短時段,每一個短時段稱為一幀,為了從語音信號中切去出樣本信號,就要用時間窗函數乘以原始語音信號,這種操作就稱為加窗。目前應用最為廣泛的是漢明窗4語音信號的端點檢測其目的是從語音信號中檢測出語音信號段和噪音段,準確的端點檢測不僅可以減少計算量,
6、而且可以提高系統(tǒng)的識別率常用的端點檢測是基于雙門限比較法。,的端點檢測,就是根據語音信號的特征參數(能量和過零率)進行清音!噪音判別,從而完成端點檢測的經過對語音信號的預處理之后就要進行特征參數的提取對特征參數的要求是:1!能有效代表語音特征,具有良好的區(qū)分性;2!特征參數之間有良好的獨立性;3!特征參數易于計算,最好能保證語音識別的實時實現特征提取(包括分幀)、音素建模、字典、隱式馬爾科夫模型語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。特征提取就是從語音信號中提取出語音的特征序列提取的語音特征應該能完全、準確地表 達語音信號,特征提取的目的是提取語音信號中能代表語音
7、特征的信息,減少語音識別時所 要處理的數據量語音識別技術中最流行的特征參數是基于聲道模型和聽覺機理的 LPCC(LinearPredietiveCepstralCoefieientS)和MFCC(MelFrequeneyCepstralcocfioionts)參數,線性預測倒譜系數(LPCC)和美爾頻率倒譜 系數(MFCC)語音識別過程就是根據模式匹配原則,按照一定的相似性度量法則,使未知模式與參考 模式庫中的某一個參考模型獲得最佳匹配的過程。目前語音識別比較常用的識別方法主要有 模板匹配法,以動態(tài)時間規(guī)整(DynamiCTimeWarping,DTw)為代表;隨機模型法,以隱馬爾可夫 模型(
8、HiddenMarkovModel,HMM)為代表;基于人工神經網絡(ArtifiCialNeuralNetworkS,ANN) 的識別方法高斯混合模型一隱馬爾科夫模型(Gaussian mixture model hidden Markov model,GMMHMMDNN-HMM RNN-CTC具體來說就是輸入一段語音信號,要找到一個文字序列(由字或者詞組成),使得它與 語音信號的匹配程度最高。這個匹配程度,一般都是用概率來表示的,用X表示語音信號, 用W表示文字序列,則要解的是下面這個問題:W* = argmaxP(W|X)但是一般語音是由文字產生的,已知文字才能發(fā)出語音,所以對于上面的條
9、件概率公式 我們想要已知結果求該條件下發(fā)生概率,這時候自然而然就想到貝葉斯公式:冷=arg mas=曜 mas P(X,由于我們要優(yōu)化W, P(X)可以看作常數,可以省略分母。由上邊的步驟來看,求文字串、計算語言模型概率、求音素串、求音素分界點、計算聲 學模型概率幾個步驟似乎是依次進行的。其實不然,在實際編碼過程中,因為文字串、音素 分界點都有非常多種可能,枚舉是不現實的。實際中,這幾個步驟同時進行并互相制約,隨 時砍掉不夠優(yōu)的可能,最終在可接受的時間內求出最優(yōu)解:W* = argmaxP(W|X)。聲學模型用lstm+ctc訓練,得到語音特征到音素的映射,語言模型用SRILM工具做LM 的訓
10、練得到3-gram and 4-gram,是詞與詞、詞與句子的映射, 字典是字詞對應的音素 index集合,是字詞和音素之間的映射語音識別系統(tǒng)的模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到音節(jié)概 率的計算和音節(jié)到字概率的計算。HMM聲學建模:馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機,隱馬爾可夫模型 HMM是指這一馬爾可夫模型的內部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。對吾 音識別系統(tǒng),輸出值通常就是從各個幀計算而得的聲學特征。用HMM刻畫語音信號需作出兩 個假設,一是內部狀態(tài)的轉移只與上一狀態(tài)有關,另一是輸出值只與當前狀態(tài)(或當前的狀 態(tài)轉移)有關,這兩個假設大大降低
11、了模型的復雜度HMM的打分、解碼和訓練相應的算法 是前向算法、Viterbi算法和前向后向算法。語音識別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓撲結構來對識別基元建模, 一個音素就是一個三至五狀態(tài)的HMM, 一個詞就是構成詞的多個音素的HMM串行起來構成的 HMM,而連續(xù)語音識別的整個模型就是詞和靜音組合起來的HMM。上下文相關建模:協(xié)同發(fā)音,指的是一個音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機理上 看就是人的發(fā)聲器官在一個音轉向另一個音時其特性只能漸變,從而使得后一個音的頻譜與 其他條件下的頻譜產生差異。上下文相關建模方法在建模時考慮了這一影響,從而使模型能 更準確地描述語音,只考慮前一音的影響的稱為Bi-Phone,考慮前一音和后一音的影響的 稱為 Tri-Phone。英語通常采用上下文相關的音素建模,漢語的協(xié)同發(fā)音不如英語嚴重,可以采用音節(jié)建 模。聽寫機:大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機。其架構就是建立在 前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向后向算法獲得模 型參數,識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉移概率 形成循環(huán)結構,用Viterbi算法進行解碼。針對漢語易于分割的特點,先進行分割再對每一 段進行解碼,是用以提高效率的一個簡化方法。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版《道德與法治》八年級上冊6.2《做負責任的人》教學設計
- 熱塑性彈性體行業(yè)發(fā)展趨勢與市場前景展望
- 2024年系統(tǒng)分析師考試的復習題及答案
- Unit 5 Lesson 30 Science Affects Us2024-2025學年九年級英語上冊同步教學設計(冀教版)河北專版
- 七年級道德與法治上冊 第四單元 在社會生活中學會選擇 第8課 做出正確的選擇者 第2框 明是非 會選擇教學設計 魯人版五四制
- 五年級英語上冊 Unit 1 Teachers'Day Lesson 2 He was young then教學設計設計(pdf) 魯科版(五四制)
- 園藝師數據分析能力試題及答案
- 鄉(xiāng)村民宿體驗周企業(yè)制定與實施新質生產力戰(zhàn)略研究報告
- 常見寶石識別試題及答案
- 跨境物流多式聯運行業(yè)深度調研及發(fā)展戰(zhàn)略咨詢報告
- 急性心肌梗死PPTPPT
- 《藝術學概論考研》課件藝術本體論-形式論
- 遵義會議ppt課件
- 國家開放大學《人文英語3》章節(jié)測試參考答案
- 北京大學數字圖像處理(岡薩雷斯)通用課件
- 2022年班主任育人故事一等獎兩篇范文
- 用字母表示數——說課稿
- 德龍自卸車合格證掃描件(原圖)
- 公文收發(fā)文登記表
- 熱固板施工方案
- 彎矩調幅計算例題(共4頁)
評論
0/150
提交評論