版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
南京郵電大學
通信與信息工程學院
第3章語音信號處理的常用算法矢量量化隱馬爾可夫模型深度學習3.1矢量量化標量量化:整個動態(tài)范圍被分成若干個小區(qū)間,每個小區(qū)間有一個代表值。對于一個輸入的標量信號,量化時落入小區(qū)間的值就用這個代表值來代替,或者被量化為這個代表值。矢量量化:是對矢量進行量化,和標量量化一樣,它把矢量空間分成若干個小區(qū)域,每個小區(qū)域尋找一個代表矢量,量化時落入小區(qū)域的矢量就用這個代表矢量代替,或者稱為“被量化為這個代表矢量”。矢量量化的目的:將若干個標量數(shù)據(jù)組成一個矢量(或者從一幀語音數(shù)據(jù)中提取的特征矢量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。3.1矢量量化—基本原理設有N個K維特征矢量其中第i個矢量(可看作語音信號中某幀參數(shù)組成的矢量)可記為把K維歐幾里得空間無遺漏地劃分成J個互不相交的子空間滿足:在每個子空間Rj找一個代表矢量Yj,則j個代表矢量可以組成矢量集為這樣組成了一個矢量量化器。Y稱為碼書或碼本;Yj稱為碼矢或碼字;J稱為碼本尺寸。不同的劃分或不同的代表矢量選取方法可以構成不同的矢量量化器。3.1矢量量化—基本原理矢量量化過程:當輸入任意矢量進行矢量量化時,矢量量化器首先判斷它屬于哪個子空間Rj,然后輸出該子空間Rj的代表矢量Yj
。即,用Yj代表Xi的過程,即,量化過程就是完成一個從K維歐幾里得空間中的矢量X到K維空間有限子集Y的映射通常Q(.)選擇是根據(jù)最小失真原理,分別計算用各碼矢Yj代替Xi所帶來的失真,其中產生最小失真值時所對應的那個碼矢,就是最終量化的輸出碼矢。缺點:存在量化噪聲!3.1矢量量化—基本原理矢量量化在語音通信中的應用:編碼:解碼:矢量量化在語音識別中的應用:3.1矢量量化—基本原理矢量量化需要解決的兩大關鍵問題:(1)設計一個好的碼本(“訓練”或“學習”):需要搜集海量且具有代表性的數(shù)據(jù);要選擇一個好的失真度量準則以及碼本優(yōu)化方法(常用LBG算法來實現(xiàn))。(2)未知矢量的量化:需要按照選定的失真測度準則,把未知矢量量化為失真測度最小的區(qū)域邊界的中心(碼字)矢量值,并獲得該碼字的序列號(碼字在碼本中的地址或標號)。存在兩矢量在進行比較時的測度問題;未知矢量量化時的搜索策略。3.1矢量量化—失真測度失真測度的定義:是將輸入矢量Xi用碼本重構矢量Yj表征時所產生的誤差或失真的度量方法,用以描述兩個或多個模型矢量間的相似程度。失真測度的選擇好壞直接影響到聚類效果和量化精度。設對兩個k維語音特征矢量X和Y進行比較,要使其距離測度d(X,Y)在語音信號處理中有效,必須具備以下條件:3.1矢量量化—失真測度常用的失真測度:(1)均方誤差歐氏距離(2)r平方誤差(3)r平均誤差(4)絕對值平均誤差(5)最大平均誤差(6)加權歐氏距離測度3.1矢量量化—失真測度線性預測失真測度:當語音信號特征矢量是用線性預測方法求出的LPC系數(shù)時(即,用LPC參數(shù)描述語音信號時),不能直接用歐氏距離。當預測器的階數(shù)p趨近于無窮大,信號與模型完全匹配時,信號功率譜為相應地,如碼本中某重構矢量的功率譜為可定義I-S距離來衡量二者失真:其中另外,還有對數(shù)似然比失真測度、模型失真測度、識別失真測度等。3.1矢量量化—最佳碼本設計碼本設計:用d(X,Y)表示訓練用的特征矢量X和訓練出的碼本的碼字Y之間的畸變,那么最佳碼本設計的任務就是在一定的條件下,使得此畸變的統(tǒng)計平均值D=E[d(X,Y)]達到最小。應遵循的兩條原則:(1)最近鄰原則,表示為(2)設所有選擇碼字Yl(即歸屬于Yl所表示的區(qū)域)的輸入矢量X的集合為Sl,那么Yl應使該集合中的所有矢量與Yl之間的畸變值最小。如果采用歐氏距離來度量X與Y之間的畸變值,那么容易證明Yl應等于Sl中所有矢量的質心:根據(jù)上述兩條原則,設計碼本設計的遞推算法——LBG算法。整個算法就是上述兩個條件的反復迭代過程,即從初始碼本尋找最佳碼本的迭代過程。3.1矢量量化—最佳碼本設計LBG算法的步驟:矢量量化隱馬爾可夫模型深度學習3.2隱馬爾可夫模型—概述隱馬爾可夫模型(HiddenMarkovModels,HMM)作為語音信號的一種統(tǒng)計模型,在語音信號處理各個領域中獲得廣泛的應用。HMM是一個輸出符號序列的統(tǒng)計模型,具有N個狀態(tài)S1,S2,…,SN,它按一定的周期從一個狀態(tài)轉移到另一個狀態(tài),每次轉移時,輸出一個符號。轉移到哪一個狀態(tài),轉移時輸出什么符號,分別由狀態(tài)轉移概率和轉移時的輸出概率來決定。特點:只能觀測到輸出符號序列,而不能觀測到狀態(tài)轉移序列!3.2隱馬爾可夫模型—概述球和缸的實驗(隱馬爾可夫模型中“隱”的含義)設有N個缸,每個缸里裝有很多彩色的球,在同一個缸中不同顏色球的多少由一組概率分布來描述。根據(jù)某個初始概率分布,隨機選擇一個缸,再根據(jù)這個缸中彩色球顏色的概率分布,隨機選擇一個球,記下球的顏色,再把球放回缸中。又跟據(jù)描述缸的轉移的概率分布,選擇下一個缸,再從缸中隨機選一個球,……,一直進行下去,就可以得到一個描述球的顏色的序列。由于球的顏色和缸之間不是一一對應的,所以缸之間的轉移以及每次選取的缸被隱藏起來了,并不能直接觀察到。3.2隱馬爾可夫模型—概述隱馬爾可夫模型和語音信號建模之間的關系HMM用于語音信號建模時,是對語音信號的時間序列結構建立統(tǒng)計模型,它是數(shù)學上的雙重隨機過程:一個是具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱隨機過程,另一個是與Markov鏈的每一狀態(tài)相關聯(lián)的觀測序列的隨機過程。人的言語過程也可以看成一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流。因此HMM合理地模仿了這一過程,很好地描述了語音信號整體非平穩(wěn)性和局部平穩(wěn)性。3.2隱馬爾可夫模型—定義離散Markov過程設在時刻t的隨機變量St的觀察值為st,則在S1=s1,S2=s2,…,St=st的前提下,St+1=st+1的概率為:即,系統(tǒng)在任一時刻所處的狀態(tài)只與此時刻的前一時刻所處的狀態(tài)有關(1階Markov過程)。此外,為了處理方便,只考慮右邊的概率與時間無關的情況,假設有N個不同的狀態(tài)(S1=s1,S2=s2,…,St=st),系統(tǒng)在經歷了一段時間后,按照上式所定義的概率關系經歷了一系列狀態(tài)的變化,此時輸出的是狀態(tài)序列。3.2隱馬爾可夫模型—定義隱Markov模型HMM是由兩個隨機過程組成的:一個是狀態(tài)轉移序列,它對應于1階Markov過程,另一個是每次轉移時輸出的符號組成的符號序列。設狀態(tài)轉移序列為S=s1,
s2,…,sT,輸出的符號序列為O=o1,
o2,…,oT,則對于HMM,把所有可能得狀態(tài)轉移序列都考慮進去,則有3.2隱馬爾可夫模型—定義HMM的基本元素對于描述語音信號特征序列的HMM,可用如下6個模型參數(shù)來定義,即,S:模型中狀態(tài)的有限集合,即,模型由幾個狀態(tài)組成。設有N個狀態(tài),S={Si|i=1,2,…,N}。記t時刻所處的狀態(tài)為st,
球與缸實驗中的缸。O:輸出的觀測值符號的集合,即每個狀態(tài)對應的可能的觀測值數(shù)目。記M個觀察值為O=o1,
o2,…,oT,記t時刻的觀察值為ot,球與缸實驗中所選彩球的顏色就是觀察值。A:狀態(tài)轉移概率的集合。aij是從狀態(tài)Si到Sj的轉移概率,
每次在當前選取的缸的條件下選取下一個缸的概率。3.2隱馬爾可夫模型—定義HMM的基本元素對于描述語音信號特征序列的HMM,可用如下6個模型參數(shù)來定義,即,B:輸出觀測值概率集合。B={bij(k)},其中bij(k)是從狀態(tài)Si到Sj轉移時觀測值符號k的輸出概率。即缸中球的顏色k出現(xiàn)的概率。:系統(tǒng)初始狀態(tài)概率的集合,表示初始狀態(tài)是si的概率,即
開始時選取某個缸的概率F:系統(tǒng)終了狀態(tài)的集合3.2隱馬爾可夫模型—定義HMM用于語音識別對于每個孤立字(詞)需要準備一個HMM,可以通過模型學習或訓練來完成。對于任一要識別的未知孤立字(詞)語音,首先通過分幀、參數(shù)分析和特征參數(shù)提取,得到一組隨機向量序列X1,X2,…XT(T為觀察時間長度,即,幀數(shù));再通過矢量量化把上述序列轉化為符號序列O=o1,o2,…,oT;而后計算這組符號序列再每個HMM上的輸出概率,輸出概率最大的HMM對應的孤立字(詞),就是識別結果。3.2隱馬爾可夫模型—基本算法HMM用于語音信號處理需要解決的三個問題(1)識別問題:給定觀察符號序列O=o1,o2,…,oT和模型,如何快速有效地計算觀察符號序列的輸出概率P(O|M)?解決方法:前向—后向算法(2)已知模型,尋找與給定觀察序列對應的最佳狀態(tài)序列。解決方法:維特比算法(3)模型訓練問題:對于初始模型和給定用于訓練的觀察符號序列O=o1,o2,…,oT,如何調整模型的參數(shù),使得輸出概率P(O|M)最大?解決方法:Baum-Welch算法3.2隱馬爾可夫模型—基本算法前向—后向算法前向算法:按照輸出觀察值序列的時間,從前向后遞推計算輸出概率。3.2隱馬爾可夫模型—基本算法前向—后向算法P(O|M)的計算過程如下:3.2隱馬爾可夫模型—基本算法前向—后向算法后向算法:按照輸出觀察值序列的時間,從后向前遞推計算輸出概率。3.2隱馬爾可夫模型—基本算法維特比算法:給定觀察值序列O和模型M時,在最佳意義上確定一個狀態(tài)序列S=s1,s2,…,sT的問題,即使P(S,O|M)最大時確定的狀態(tài)序列。算法描述:在這個遞推公式中,每一次使得最大的狀態(tài)i組成的狀態(tài)序列就是所求的最佳狀態(tài)序列3.2隱馬爾可夫模型—基本算法維特比算法:實現(xiàn)步驟:3.2隱馬爾可夫模型—基本算法Baum-Welch算法:基本思想:給定一個觀察值O,確定M,使得P(O|M)最大。其利用遞歸思想,通過迭代得到P(O|M)的局部極值。具體地,在每次迭代中都使得由估計出的參數(shù)組成的新模型滿足。重復該過程,直至收斂,此時即為所求的模型。對于符號序列O,在時刻t從狀態(tài)Si轉移到狀態(tài)Sj的轉移概率為對于符號序列O,在時刻t時Markov鏈處于3.2隱馬爾可夫模型—基本算法Baum-Welch算法:對于符號序列O,從狀態(tài)Si轉移到Sj的轉移次數(shù)的期望值為從狀態(tài)Si轉移出去的次數(shù)的期望值為則重估公式為3.2隱馬爾可夫模型—基本算法Baum-Welch算法的實現(xiàn)步驟關于模型收斂(或者停止訓練的判定)問題。矢量量化隱馬爾可夫模型深度學習3.3深度學習—概述深度學習起源:2006年,GeoffreyHinton等學者提出深度信念網絡以及相應的半監(jiān)督算法,開啟了深度學習的研究熱潮?;舅枷耄翰捎弥饘映跏蓟驼w反饋的方法,以受限玻爾茲曼機為基本單元來搭建神經網絡,利用無監(jiān)督預訓練初始化權值以及有監(jiān)督參數(shù)微調,來訓練該神經網絡的參數(shù)。在語音信號處理領域的應用:傳統(tǒng)語音信號處理方法中,語音信號的分析與特征提取、目標任務的完成通常是被當作兩個相互分離的問題分別處理。帶來的問題是所提取的特征對于目標任務而言常常不是最優(yōu)的。深度學習技術具有自動提取特征的能力,可以將上述兩個問題進行聯(lián)合處理。3.3深度學習—概述深度學習模型的優(yōu)點:(1)學習能力強,在很多任務中性能優(yōu)于傳統(tǒng)機器學習模型。(2)適應性好:深度學習模型的網絡層數(shù)多,理論上可以映射到任意函數(shù)。(3)數(shù)據(jù)驅動:深度學習高度依賴數(shù)據(jù),數(shù)據(jù)量越大,它的表現(xiàn)就越好。深度學習模型的缺點:(1)計算量大:深度學習需要大量的數(shù)據(jù)與算力支持。(2)硬件要求高:普通CPU無法滿足深度學習模型和算法的運算需求。(3)模型設計復雜:需要投入大量人力和時間來開發(fā)新的模型3.3深度學習—深度神經網絡深度神經網絡(DNN)的基本結構:具有多個隱藏層和多個輸出的網絡,可以擬合復雜的非線性函數(shù),模型靈活性高。在DNN中,各神經元分別屬于不同的層,每一層的神經元可以接收前一層的神經元信號,并產生信號輸出到下一層。L+1層DNN,輸入層為第0層,輸出層為第L層。第第l-1層與第l層的關系:
3.3深度學習—深度神經網絡DNN的激活函數(shù):3.3深度學習—深度神經網絡訓練算法:在數(shù)據(jù)輸入DNN經過前向傳播得到輸出后,由預先定義的目標函數(shù)可以計算損失,根據(jù)損失從后向前依次調整各層的權重與偏置,實現(xiàn)DNN參數(shù)的反向傳播。給定訓練集,將每個樣本x輸入DNN,得到輸出為y,其損失函數(shù)定義為在一些語音信號處理任務中,常使用交叉熵作為損失函數(shù):計算權重目標函數(shù)關于參數(shù)W和b的梯度,更新如下:3.3深度學習—深度神經網絡訓練算法:由于梯度下降法在計算損失函數(shù)對參數(shù)的偏導數(shù)時,會帶來很大的計算開銷,因而在DNN訓練過程中,通常通過反向傳播算法提升計算效率。仍以第l層為例,對第l層的參數(shù)W和b計算偏導數(shù)。其中,3.3深度學習—深度神經網絡訓練算法:在計算出上述三個偏微分后,可以表示為上式可進一步寫成:同理,可以得到損失函數(shù)關于第l層偏置的梯度:在計算出每一層的誤差后,就可以根據(jù)上式得到每一層參數(shù)的梯度。因此DNN訓練算法包括如下三個步驟:3.3深度學習—循環(huán)神經網絡DNN的缺點:(1)模型當前的輸出只取決于當前輸入,而實際中可能與過去時刻輸出也相關。(2)輸入數(shù)據(jù)和輸出數(shù)據(jù)的維度是固定的,不能任意改變。(3)無法處理實際場景中的時序數(shù)據(jù)。循環(huán)神經網絡(RNN):(1)通過在DNN上加入循環(huán)連接使得模型具有記憶能力。(2)由具有環(huán)路的神經網絡結構組成,其神經元不僅可以接收其他神經元的信息,也可以接收自身的信息,能夠更好地處理時序數(shù)據(jù)之間的內在關聯(lián)。(3)在訓練算法上,采用時間反向傳播算法進行參數(shù)更新,也存在著梯度消失的問題。3.3深度學習—循環(huán)神經網絡RNN的結構:隱藏層的輸入由兩部分組成:來自輸入層的輸入,來自上一時刻隱藏層的輸出;與DNN最大的不同:存在隱藏層的循環(huán)連接。信息在RNN中的傳播方式:
st可以表征之前所有時刻的輸入信息{x1,x2,…,xT}
ot包含當前時刻的輸入以及以往所有時刻的輸入。3.3深度學習—循環(huán)神經網絡長短期記憶網絡(LSTM)(1)RNN的長程依賴:RNN雖然可以建模時序數(shù)據(jù),但由于序列長度增大可能帶來梯度消失或爆炸問題。其只能學到短期的“記憶”(時刻t的輸出yt只與一定時間間隔k內的輸入有關),當時間間隔過長時,RNN就難以準確描述關聯(lián)性。(2)LSTM是RNN的變體,引入門控單元,通過選擇性遺忘過去時刻的累積信息來更新網絡參數(shù),達到緩解RNN長程依賴的問題。(3)LSTM由記憶單元ct,輸入門it,輸出門ot,遺忘門ft組成,3.3深度學習—循環(huán)神經網絡長短期記憶網絡(LSTM)RNN中的每個h存儲了歷史信息,可以看作一種記憶。在RNN中,隱狀態(tài)的每個時刻都會被重寫,因此其為短期記憶。而長期記憶可以看作網絡參數(shù),表征了從訓練數(shù)據(jù)中學到的經驗,其更新周期遠遠慢于短期記憶。在LSTM中,記憶單元c可以在某個時刻捕捉到某個關鍵信息,并有能力將此關鍵信息保存一定的時間間隔。記憶單元c中保存信息的生命周期要長于短期記憶h,但又遠遠短于長期記憶,因此被稱為長短期記憶。3.3深度學習—卷積神經網絡卷積神經網絡(CNN)與DNN的區(qū)別在于,CNN中的神經元并非全連接,而是局部連接。即,CNN中卷積層的某個神經元的輸出并不取決于輸入特征圖中的所有神經元的輸入,而是僅由卷積核對應位置的神經元的輸入決定。由于局部連接的特點,使得CNN能夠很好地捕捉輸入特征圖中的局部特征;同時,在進行卷積計算時,卷積核在輸入特征圖的不同位置,其權值參數(shù)是不變的,并且通常將卷積層和池化層結合使用,這樣使得CNN的計算復雜度顯著降低,大大拓展了其應用領域。3.3深度學習—卷積神經網絡卷積神經網絡(CNN)在CNN計算過程中,首先通過輸入層向模型中輸入數(shù)據(jù),然后經過卷積層對數(shù)據(jù)做進一步處理,逐層提取更為抽象的特征,緊接著對輸出特征圖使用池化層達到特征降維的作用,按照該方式對卷積層和池化層進行多次堆疊,最后經過全連接的輸出層完成回歸、分類等任務。此外,每層網絡的輸出還需要經
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國汽車服務行業(yè)商業(yè)模式創(chuàng)新戰(zhàn)略制定與實施研究報告
- 2025-2030年中國車載視頻監(jiān)控行業(yè)全國市場開拓戰(zhàn)略制定與實施研究報告
- 2025-2030年中國團餐行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 新形勢下新型煙草行業(yè)高速增長戰(zhàn)略制定與實施研究報告
- 世衛(wèi)組織(WHO)結核病綜合指南解讀課件
- 速凍食品包裝調研問卷
- 紅外線爐項目可行性研究報告建議書
- 三年級數(shù)學計算題專項練習及答案
- 倉庫作業(yè)知識培訓課件
- 春節(jié)農業(yè)變革創(chuàng)新
- 2025年國務院發(fā)展研究中心信息中心招聘應屆畢業(yè)生1人高頻重點提升(共500題)附帶答案詳解
- 2024年公安機關理論考試題庫500道及參考答案
- 特殊情況施工的技術措施
- 大學物理(二)知到智慧樹章節(jié)測試課后答案2024年秋湖南大學
- 銀行運營集中規(guī)劃
- 《數(shù)據(jù)分析你懂的》課件
- TSGD7002-2023-壓力管道元件型式試驗規(guī)則
- 派克與永華互換表
- 宣傳廣告彩頁制作合同
- 【語法】小學英語語法大全
- 除濕機說明書
評論
0/150
提交評論