第12章-深度學習在語音中的應用_第1頁
第12章-深度學習在語音中的應用_第2頁
第12章-深度學習在語音中的應用_第3頁
第12章-深度學習在語音中的應用_第4頁
第12章-深度學習在語音中的應用_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

DEEPLEARNING深度學習第十二章深度學習在語音中的應用12.1語音識別基礎12.2基于深度學習的連續(xù)語音識別12.3應用舉例:語音輸入法of282習題12.1語音識別基礎第十二章深度學習在語音中的應用of2831摩爾定律持續(xù)有效。有了多核處理器、通用計算圖形處理器(GeneralPurposeGraphicalProcessingUnit,

GPGPU)、CPU/GPU集群等技術,這使得訓練更加強大而復雜的模型變得可能。2借助越來越先進的互聯(lián)網(wǎng)和云計算,我們得到了比先前多得多的數(shù)據(jù)資源。使用從真實場景收集的大數(shù)據(jù)進行模型訓練,提高了系統(tǒng)的可應用性。3移動設備、可穿戴設備、智能家居設備、車載信息娛樂系統(tǒng)正變得越來越游行。在這些設備和系統(tǒng)上,語音作為人類之間最自然交流方式,在這些設備和系統(tǒng)上成為更受歡迎的交互方式。語音識別最基本的定義是“電腦能聽懂人類說話的語句或命令,而做出相應的工作“。50多年來,該技術漸漸開始改變我們的生活和工作方式,這種趨勢的出現(xiàn)和下面幾個關鍵領域的進步是分不開的。1.從實驗室環(huán)境到實際應用場景語音識別系統(tǒng)可以用來消除人類之間的障礙。人們如果想要與不同語言的使用者進行交流,需要另一個人作為翻譯才行。S2S翻譯系統(tǒng)可以用來消除這種交流壁壘。同時還可以整合到像Skype這樣的一些交流工具中。下圖列舉了一個典型的S2S翻譯系統(tǒng)的心組成模塊,可以看到,語音識別是整個流水線中的第一環(huán)。第十二章深度學習在語音中的應用of28412.1語音識別基礎-人類之間的交流語音與語音(Speech-to-Speech,S2S)翻譯系統(tǒng)

除此之外,語音識別技術還有其他形式用來幫助人類交流。1、消息發(fā)送者的語音信息可以通過語音轉文字系統(tǒng)轉換為文本信息。2、利用語音識別技術進行輸入可以更便捷。提高用戶使用友好性。第十二章深度學習在語音中的應用of28512.1語音識別基礎—人機交流人機

交流智能家居智能游戲語音搜索個人數(shù)碼助理(PDA)智能家居系統(tǒng)允許用戶使用語音與之交互,用戶通過它們來播放音樂、詢問信息或者控制系統(tǒng)。在融合語音識別技術后,游戲的體驗將得到很大的提升。例如,在一些微軟Xbox的游戲中,玩家可以和卡通角色對話以詢問信息或者發(fā)出指令。用戶可以直接通過語音來搜索餐館、行駛路線和商品評價的信息。目前,語音搜索類應用在iPhone、Android手機上已經(jīng)非常流行。PDA知曉移動設備上的信息,了解一些常識,并記錄了用戶與系統(tǒng)的交互歷史。有了這些信息,PDA可以更好地服務用戶。比如,可以完成撥打電話、安排會議、回答問題和音樂搜索等工作。第十二章深度學習在語音中的應用of28612.1語音識別基礎—基本結構以上是語音識別系統(tǒng)的典型結構,語音識別系統(tǒng)主要由圖中的四部分組成:信息處理和特征提取、聲學模型(AM)、語言模型(LM)和解碼搜索部分。第十二章深度學習在語音中的應用of28712.1語音識別基礎—特征提取

特征提取梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCC)感知線性預測系數(shù)(PerceptualLinearPrediction,PLP)保留Mel濾波器輸出各維度之間相關性的濾波器組特征(FilterBankFeature)

原始模擬信號首先經(jīng)錄入器件轉化為數(shù)字信號,聲學特征提取部分負責從數(shù)字化后的語音中提取聲學特征信息。為保證識別準確率,該特征應該對聲學模型的建模單元具有較好的區(qū)分性。同時,為了能夠高效的計算聲學模型參數(shù)和進行解碼識別,聲學特征需要在盡量保留語音中文本信息的前提下,抑制諸如說話人、信道、環(huán)境噪聲等干擾信息,并且維持一個適中的維度。提取良好的具有區(qū)分性的聲學特征對提升語音識別系統(tǒng)的性能至關重要。第十二章深度學習在語音中的應用of28812.1語音識別基礎—聲學模型

聲學模型高斯混合模型-隱馬爾可夫模型(GMM-HMM)最大似然準則(MaximumLikelihood,ML)最小分類錯誤(MCE)和最小音素錯誤(MPE)上下文相關的深度神經(jīng)網(wǎng)絡—隱馬爾可夫模型(CD-DNN-HMM)

關于聲學模型,有兩個主要問題,分別是特征向量序列的可變長和音頻信號的豐富變化性??勺兓卣飨蛄啃蛄械膯栴}在學術上通常由動態(tài)時間規(guī)整方法和隱馬爾可夫模型(HMM)方法來解決。音頻信息的易變性是由說話人的各種復雜的特征(如性別、健康狀況或緊張程度)交織,或是說話風格與速度、環(huán)境噪聲、周圍人聲、信道扭曲(如麥克風音的差異)、方言差異、非母語口音引起的。一個成功的語音識別系統(tǒng)必須能夠應付所有這類聲音的變化因素。第十二章深度學習在語音中的應用of28912.1語音識別基礎—語言模型

語言模型語音識別系統(tǒng)的目的是把語音轉換成文字。具體來說,是輸入一段語音信號,要找一個文字序列(由詞或文字組成),使得它與語音信號的匹配程度最高。這個匹配程度一般是用概率來表示。用學表示語音信號,

表示文字序列,則要求解的是表示給定文字后語音信號的概率表示一個文字序列本身的概率12.1語音識別基礎—解碼器第十二章深度學習在語音中的應用of2810

解碼器解碼器(Decoder)是語音識別中的又一重要環(huán)節(jié),為了能夠識別出語音信息中所包含的文本信息,我們需要結合通過聲學模型計算得到的語音特征聲學概率和由語言模型計算出的語言模型概率,利用解碼器通過相關搜索算法分析出最有可能性的詞序列

?;趧討B(tài)規(guī)劃思想的維特比算法(ViterbiAlgorithm)

Beam裁剪算法高斯選擇算法語言模型前看算法12.1語音識別基礎—GMM-HMM模型第十二章深度學習在語音中的應用of2811

傳統(tǒng)的GMM-HMM中,一般使用連續(xù)高斯混合模型刻畫產生觀察狀態(tài)的概率密度函數(shù)。GMM的許多優(yōu)點使它很適合于在HMM的狀態(tài)層面對輸入數(shù)據(jù)建模。例如,在有足夠多的混合成分時,GMM能夠擬合任何一種概率分布:GMM模型參數(shù)的計算可以被并行化,從而高效實現(xiàn)訓練。上圖給出了利用GMM-HMM建模語音信號的示例,我們可以觀測到語音信號中的特征矢量,具體該某一觀測特征矢量是由哪一個HMM狀態(tài)產生的我們就無從知道,需要通過訓練數(shù)據(jù)建模從而估計出觀測值生成概率。12.1語音識別基礎—GMM-HMM模型第十二章深度學習在語音中的應用of2812下面簡明講述GMM-HMM在語音識別上的原理,建模和測試過程。一個詞的識別全過程作為例子。1、將聲波分割成等長的語音幀,對每個語音幀提取特征(例如,梅爾頻率倒譜系數(shù))2、對每個語音幀的特征進行GMM訓練,得到每個語音幀frame(o_i)屬于每個狀態(tài)的概率3、根據(jù)每個單詞的HMM狀態(tài)轉移概率計算每個狀態(tài)序列生成該語音幀的概率。

哪個詞的HMM序列計算出來的概率最大,就判斷這段語音屬于該詞)12.1語音識別基礎—GMM-HMM模型第十二章深度學習在語音中的應用of2813GMM-HMM在語音識別中應用的系統(tǒng)框圖12.1語音識別基礎12.2基于深度學習的連續(xù)語音識別第十二章深度學習在語音中的應用12.3應用舉例:語音輸入法of2814習題12.2DNN-HMM混合系統(tǒng)第十二章深度學習在語音中的應用of2815

在這個框架中,HMM用來描述語音信號的動態(tài)變化,而觀察特征的概率則通過DNN來估計。在給定聲學觀察特征的條件下,我們用DNN的每個輸出節(jié)點來估計連續(xù)密度HMM的某個狀態(tài)的后驗概率。除了DNN內在的鑒別性屬性,DNN-HMM還有兩個額外的好處:訓練過程可以使用維特比算法,解碼通常也非常高效。12.2CD-DNN-HMM系統(tǒng)第十二章深度學習在語音中的應用of2816

CD-DNN-HMM包含三個組成部分,一個深度神經(jīng)網(wǎng)絡

,一個隱馬爾可夫模型

,以及一個狀態(tài)先驗概率分布

。由于CD-DNN-HMM系統(tǒng)和GMM-HMM系統(tǒng)共享音素綁定結構,訓練CD-DNN-HMM的第一步就是使用訓練數(shù)據(jù)訓練一個GMM-HMM系統(tǒng)。因為DNN訓練標注是由GMM-HMM系統(tǒng)采用維特比算法產生得到的,而且標注的質量會影響DNN系統(tǒng)的性能。因此,訓練一個好的GMM-HMM系統(tǒng)作為初始模型就非常重要。訓練CD-DNN-HMM的主要步驟12.3應用舉例:語音輸入法12.2基于深度學習的連續(xù)語音識別12.1語音識別基礎第十二章深度學習在語音中的應用of2817習題12.3語音輸入法—案例背景

語音識別是指機器通過學習實現(xiàn)從語音信號到文字符號的理解過程,近幾十年取得了很大的進展,并產生了一些實用的語音輸入系統(tǒng),如IBM的ViaVoice和微軟的語音輸入法。在國內科大訊飛、搜狗知音、百度語音識別是中國三大語音技術的佼佼者。of2818第十二章深度學習在語音中的應用如果將現(xiàn)有的語音識別技術和已經(jīng)發(fā)展的十分成熟的拼音輸入法相結合起來,使用語音識別技術代替手工敲擊鍵盤,使用成熟的拼音輸入法進行組詞和選詞,將會很大地提高輸入效率。如果語音識別出現(xiàn)錯誤,還可以使用鍵盤進行修改,同時針對性地對識別錯誤的詞語進行再訓練,提高識別率。12.3語音輸入法—語音輸入法設計of2819第十二章深度學習在語音中的應用

語音輸入法是基于C/S結構設計的。它有一個語音服務器,即語音中心SpeechCenter,負責從聲卡采集數(shù)據(jù)進行語音識別,為各個輸入法客戶端提供識別結果(拼音)。輸入法的客戶端是由拼音輸入法FreeVoice的實體構成的,在Windows里,每一個輸入法實際上是一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論