第四章 矢量量化技術(shù)_第1頁
第四章 矢量量化技術(shù)_第2頁
第四章 矢量量化技術(shù)_第3頁
第四章 矢量量化技術(shù)_第4頁
第四章 矢量量化技術(shù)_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第四章 矢量量化技術(shù)4.1概述4.2矢量量化的基本原理4.3矢量量化的失真測度4.4矢量量化器的最佳碼本設(shè)計4.5矢量量化技術(shù)的優(yōu)化設(shè)計4.1概述 矢量量化(Vector Quantization,VQ)技術(shù)是20世紀(jì)70年代后期發(fā)展起來的一種數(shù)據(jù)壓縮和編碼技術(shù),廣泛應(yīng)用于語音編碼、語音合成、語音識別和說話人識別等領(lǐng)域。矢量量化在語音信號處理中占有十分重要的地位,在許多重要的研究課題中,矢量量化都起著非常重要的作用。4.2矢量量化的基本原理 一、矢量量化的基本原理 二、矢量量化在語音識別中的應(yīng)用 三、矢量量化的關(guān)鍵之處一、矢量量化的基本原理1、矢量的定義 若干個標(biāo)量數(shù)據(jù)組成一個矢量,標(biāo)量的個數(shù)

2、就為矢量的維數(shù)。如語音信號某一幀中提取的聲道參數(shù),共K個,Xi=ai1,ai2,aiK。則Xi是一個K維矢量。設(shè)共有N個K維矢量X=X1,X2,XN,其中第i個矢量為Xi,i=1,2,N。類比過來,N個語音幀,每幀中共有K個聲道參數(shù),共組成N個K維矢量。一、矢量量化的基本原理2、矢量空間的劃分 把K維歐幾里德空間 無遺漏的劃分為J個互不相交的子空間R1,R2RJ , 這些子空間Rj稱為胞腔。 在每一個子空間Rj找一個代表矢量Yj ,則J個代表矢量可以組成矢量集為 Y=Y1,Y2,YJ 這樣就組成了一個矢量量化器,在矢量量化里Y叫做碼書或碼本; Yj稱為碼矢或碼字;Y內(nèi)矢量的個數(shù)J則叫做碼本長度

3、或者碼本尺寸。kR一、矢量量化的基本原理3、矢量量化的過程 當(dāng)給矢量量化器輸入一個任意矢量 進(jìn)行矢量量化時,矢量量化器首先判斷它屬于哪個子空間Rj ,然后輸出該子空間Rj的代表矢量Yj。矢量量化過程就是用Yj代替Xi的過程,或者說把Xi量化成了Yj ,即 YjQ(Xi),1jJ,1iN 式中, Q(Xi)為量化器函數(shù)。從而矢量量化的全過程完成一個從K維歐幾里德空間 中的矢量Xi到K維空間有限子集Y的映射 Q: kiXRkR12 , ,., kJRXYY YY 一、矢量量化的基本原理4、判斷規(guī)則 當(dāng)給矢量量化器輸入一個任意矢量Xi進(jìn)行矢量量化時,首先要選擇一個合適的失真測度,而后根據(jù)最小失真原理

4、,分別計算用各碼矢Yj代替Xi所帶來的失真。其中產(chǎn)生最小失真的那個碼矢Yj,就是Xi的重構(gòu)矢量(或稱恢復(fù)矢量),或者稱為矢量Xi被量化成了那個碼矢。二、矢量量化在語音識別中的應(yīng)用 矢量量化技術(shù)在語音識別中應(yīng)用時,一般是先用矢量量化的碼本作為語音識別的參考模板,即系統(tǒng)詞庫中的每一個字(詞)做一個碼本作為該字(詞)的參考模板。識別時對于任意輸入的語音特征矢量序列X1,X2,XN ,計算該序列對每一個碼本的總平均的失真量化誤差,即語音每一幀特征矢量與碼本的失真之和除以該語音的長度(幀數(shù))。總平均失真誤差最小的碼本所對應(yīng)的字(詞)即為識別結(jié)果,這一過程如下圖所示。二、矢量量化在語音識別中的應(yīng)用三、矢量

5、量化的關(guān)鍵之處1、設(shè)計一個好的碼本關(guān)鍵在于如何劃分J個區(qū)域邊界。這需要大量的輸入信號矢量,經(jīng)過統(tǒng)計實驗才能確定,這個過程稱為“訓(xùn)練”或“學(xué)習(xí)”。應(yīng)用聚類算法,按照一定的失真度準(zhǔn)則,對訓(xùn)練的數(shù)據(jù)進(jìn)行分類,從而把訓(xùn)練數(shù)據(jù)在多維空間中劃分成一個個以碼字為中心的胞腔,常用的是LBG算法來實現(xiàn)。三、矢量量化的關(guān)鍵之處2、未知矢量的量化對未知矢量,按照選定的失真測度準(zhǔn)則,把未知矢量量化為失真測度最小的區(qū)域邊界的中心矢量值(碼字矢量),并獲得該碼字的序列號。其次是未知矢量量化時的搜索策略,好的搜索策略可以減少量化時間。4.3矢量量化的失真測度 一、失真測度的定義 二、歐氏距離測度 三、線性預(yù)測失真測度 四、

6、識別失真測度一、失真測度的定義失真測度(距離測度)就是將輸入矢量Xi用碼本重構(gòu)矢量Yj來表征時所產(chǎn)生的誤差或失真的度量方法,它可以描述兩個或多個模型矢量之間的相似程度。K維語音特征矢量X和碼本Y的失真測度d(X,Y)需滿足下列條件: 1)對稱性 d(X,Y)d(Y,X) 2)正值性 d(X,Y)0 ;d(X,X)=0 3)d(X,Y)在頻域有物理意義 4)對d(X,Y)有高效率的計算方法最常用的失真測度是歐氏距離測度、加權(quán)歐氏距離測度、識別失真測度等。 ()XY二、歐氏距離測度 設(shè)未知模式的K維特征為X,與碼本中某個K維碼矢Y進(jìn)行比較, , 分別表示X和Y的同一維分量( ),則幾種常用的歐氏距

7、離測度如下: 1)均方誤差歐氏距離 這里, 的下標(biāo)2表示平方誤差。 2)r方平均誤差 ixiy01i K 2211(,)()KiiidXYxyK2(, )dX Y11(,)()KrriiidXYxyK二、歐氏距離測度 3)r平均誤差 4)絕對值平均誤差 5)最大平均誤差111(,)KrrriiidX YxyK111(,)KiiidX YxyK11(, )lim(, )maxrMriiri KdX Yd X Yxy 二、歐氏距離測度 6)加權(quán)歐氏距離測度 式中, 稱為加權(quán)系數(shù)。 常用的加權(quán)系數(shù)有211(, )( )()Kiiid X Yw i xyK( )wi2( )( ),01( )1 (1)

8、sin(4) 2sw iiw iisw iki k 三、線性預(yù)測失真測度當(dāng)語音信號特征矢量是用線性預(yù)測方法求出的LPC系數(shù)時,為了比較用這種參數(shù)表征的矢量,不宜直接使用歐氏距離。因為,僅由預(yù)測器系數(shù)的差值不能完全表征這兩個語音信息的差別。此時應(yīng)直接使用由這些系數(shù)所描述的信號模型的功率譜來進(jìn)行比較。I-S距離適用于LPC參數(shù)描述語音信號的情況。 當(dāng)預(yù)測器的階數(shù) ,信號與模型完全匹配,信號功率譜 式中, 表示信號的功率譜, 為預(yù)測誤差功率, 為預(yù)測逆濾波器的頻率響應(yīng)。 p222()()()jwPjwf wX eA e2()jwX e2P()jwA e三、線性預(yù)測失真測度 相應(yīng)地,設(shè)碼本中某重構(gòu)矢量

9、的功率譜為 則可定義I-S距離如下: 式中 ;R是 階的自相關(guān)矩陣,而222( )()()jwPjwfwX eA e2( ,)ln1TI Sa Radf f12(1,.,)Tpaa aa(1) (1)pp 1(0) (0)2( ) ( )PTaaia Rarrr i r i三、線性預(yù)測失真測度 這里 , 其中,N為信號 的長度, 為信號的自相關(guān)函數(shù), 為預(yù)測系數(shù)的自相關(guān)函數(shù)。 是碼書重構(gòu)矢量的預(yù)測誤差功率 11( )( ) ()Nikr ix k x ki 0( )p iakkikr ia a(0,., )ip( )x n( )r i( )ar i221()( )2jwpA ef w dw1(

10、0) (0)2( )( )PTaaia Rarrr i ri三、線性預(yù)測失真測度又推導(dǎo)出以下兩種線性預(yù)測的失真測度,它們比上述 具有更好的性能。 1)對數(shù)似然比失真測度 2)模型失真測度ISd( ,)lnTLLRTa Radf fa Ra( ,)1TmTa Radf fa Ra四、識別失真測度將矢量量化技術(shù)用于語音識別時,對失真測度還應(yīng)有其他的一些考慮。例如,對兩矢量的功率譜的比較在使用LPC參數(shù)的似然比失真測度時,還應(yīng)考慮到能量。因為研究表明,頻譜與能量都攜帶有語音信號的信息。為此,可采用如下的失真度定義 式中, 及 分別為輸入信號矢量和碼書重構(gòu)矢量的歸一化能量。 可取為 ( , )( ,

11、)()d f Ed f fg E EEE0()( )()()dFdFFxxg xxxxxxxx( )g x4.4矢量量化器的最佳碼本設(shè)計 一、最佳碼本設(shè)計的原則 二、LBG算法 三、初始碼本的生成一、最佳碼本的設(shè)計原則所謂最佳設(shè)計,就是從大量信號樣本中訓(xùn)練出好的碼本;從實際效果出發(fā)尋找到好的失真測度定義公式;用最少的搜索和計算失真的運算量,來實現(xiàn)最大可能的平均信噪比。最佳碼本設(shè)計的兩條原則 1)遵從最鄰近準(zhǔn)則,即 2)所有選擇碼字Yl的輸入矢量X的集合為Sl,那么Yl是Sl中所有矢量的質(zhì)心,即 (,)min (,)ljjd X Yd X Y1,llNX SYXl二、LBG算法 LBG算法是一種

12、遞推算法,從一個事先選定的初始碼本開始迭代。若以歐氏距離計算兩個矢量的畸變,那么LBG的算法思想是:把訓(xùn)練序列按照碼本中的碼矢根據(jù)最鄰近準(zhǔn)則分組,對每一分組找質(zhì)心,得到新的碼本,又作為初始碼本,再進(jìn)行分組,重復(fù)上述過程,直到系統(tǒng)性能滿足要求和不再有明顯的改進(jìn)為止。三、初始碼本的生成1、隨機選取法從訓(xùn)練序列中隨機的選取J個矢量作為初始碼字,從而構(gòu)成初始碼本。優(yōu)點是簡單,不需要初始化計算。問題是可能選到一些非典型的矢量作為碼字,使最終設(shè)計的碼本達(dá)不到最優(yōu)。三、初始碼本的生成2、分裂法 步驟如下 1)首先求出S中全體訓(xùn)練矢量X的質(zhì)心作為初始化碼本的碼字 。 2)將 分裂為新的初始碼本 、 ,利用LB

13、G算法進(jìn)行迭代計算,求得新碼本 、 。 3)重復(fù)上面的循環(huán),經(jīng)過r次后,最終碼書容量 。(0)1Y(0)1Y(1)1Y(1)2Y(1)1Y(1)2Y2rJ 三、初始碼本的生成3、鏈映射法 步驟如下: 1)特征空間各矢量按規(guī)律排序:在待聚類的點中先任選一點,稱為X1,排作首位;求其最鄰近點稱為X2,列為第二位,以此類推,則得一矢量序列X1,X2,XN 。 2)設(shè)Xi, Xi-1間的距離為di ,則得距離序列d1,d2 dN-1 。做出的關(guān)系圖,這個圖稱為這批特征點的“鏈映射圖”。 3)鏈映射圖尖峰狀的位置代表特征性質(zhì)有突變的位置,故可以把在每兩相鄰峰值之間的各點歸為一類。4.5矢量量化技術(shù)的優(yōu)化

14、設(shè)計 上面介紹的矢量量化技術(shù)用于語音信號處理時有其局限:實時性的問題碼本優(yōu)化問題 降低復(fù)雜度的優(yōu)化設(shè)計方法:引入模糊理論模糊c均值聚類算法模糊c均值聚類算法目標(biāo)函數(shù)為如下式所示: (4-29) 其中, 為某一訓(xùn)練觀察矢量序列; 為各類聚中心組成的碼本; 為一個模糊c均值隸屬度函數(shù)集,是第k個類聚中心即第k個碼字的隸屬度函數(shù); 代表模糊度。,11(,)() ()NJmFCMkiiKikJX U YuXd X Y12 ,.,NXX XX12 ,.,NYY YY12 ,.,NUu uu1,m模糊c均值聚類算法根據(jù)目標(biāo)函數(shù)的模糊c均值類聚算式如下: (4-30)1121211(),1()()(),1,

15、1()NmkiiikNmkiiJmikijmiuXXYkJuXd Xu XkJiNd X kj,Y,Y模糊c均值聚類算法模糊矢量量化碼本估計的步驟如下: 1)設(shè)定初始碼本和每個碼字的初始隸屬度函數(shù) ,為了方便可以令每個碼字的初始隸屬度函數(shù)為相等的值; 2)對于訓(xùn)練觀察矢量序列 ,利用式(4-30)計算新的聚類中心 及新的隸屬度函數(shù) ; 3)利用式(4-29)的目標(biāo)函數(shù),判斷迭代計算是否收斂。如果前后差值小于某個閾值,則迭代計算結(jié)束,由新的聚類中心和隸屬度函數(shù)集組成重估后的新碼本;否則繼續(xù)進(jìn)行下一輪迭代計算。ku12,.,NXXXXkYku模糊c均值聚類算法模糊矢量量化的步驟如下: 1)對于待矢量量化的輸入矢量 ,模糊矢量量化不是通過矢量量化把輸入矢量 量化成為某個碼字 ,而是把輸入矢量 量化成由隸屬度函數(shù)組成的矢量 ,它表示 分別屬于碼字 的程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論