MFCC梅爾倒譜參數(shù)及matlab代碼(共4頁)_第1頁
MFCC梅爾倒譜參數(shù)及matlab代碼(共4頁)_第2頁
MFCC梅爾倒譜參數(shù)及matlab代碼(共4頁)_第3頁
MFCC梅爾倒譜參數(shù)及matlab代碼(共4頁)_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、轉發(fā):有關MFCC梅爾倒譜參數(shù)的資料。內(nèi)容:1. Mfcc梅爾倒譜參數(shù)參數(shù)知識2. mfcc的matlab代碼 1.在語音辨識(Speech Recognition)和語者辨識(Speaker Recognition)方面,最常用到的語音特征就是梅爾倒頻譜系數(shù)(Mel-scale Frequency Cepstral Coefficients,簡稱MFCC),此參數(shù)考慮到人耳對不同頻率的感受程度,因此特別適合用在語音辨識。下面簡單的介紹一下求解MFCC的過程。1.預強調(diào)(Pre-emphasis):將語音訊號 s(n) 通過一個高通濾波器。 H(z)=1-a*(z-1) 系數(shù)其中 a 介于 0

2、.9 和 1.0 之間。若以時域的表達式來表示,預強調(diào)后的訊號 s2(n) 為 s2(n) = s(n) - a*s(n-1) 這個目的就是為了消除發(fā)聲過程中聲帶和嘴唇的效應,來補償語音信號受到發(fā)音系統(tǒng)所壓抑的高頻部分。(另一種說法則是要突顯在高頻的共振峰。)2.音框化(Frame blocking):先將 N 個取樣點集合成一個觀測單位,稱為音框(Frame),通常 N 的值是 256 或 512,涵蓋的時間約為 2030 ms 左右。為了避免相鄰兩音框的變化過大,所以我們會讓兩相鄰因框之間有一段重迭區(qū)域,此重迭區(qū)域包含了 M 個取樣點,通常 M 的值約是 N 的一半或 1/3。通常語音辨識

3、所用的音訊的取樣頻率為 8 KHz或 16 KHz,以 8 KHz 來說,若音框長度為 256 個取樣點,則對應的時間長度是 256/8000*1000 = 32 ms。3.漢明窗(Hamming window):將每一個音框(frame)乘上漢明窗,以增加音框左端和右端的連續(xù)性(請見下一個步驟的說明)。假設音框化的訊號為 S(n), n = 0,N-1。N為frame的大小,那么乘上漢明窗后為 S(n) = S(n)*W(n),此 W(n) 形式如下: W(n, a) = (1 - a) - a *cos(2pn/(N-1),0nN-1 ?不同的 a 值會產(chǎn)生不同的漢明窗。一般我們都取 a

4、= 0.46。4.快速傅利葉轉換(Fast Fourier Transform, or FFT):由于訊號在時域(Time domain)上的變化通常很難看出訊號的特性,所以通常將它轉換成頻域(Frequency domain)上的能量分布來觀察,不同的能量分布,就能代表不同語音的特性。所以在乘上漢明窗后,每個音框還必需再經(jīng)過 FFT 以得到在頻譜上的能量分布。 乘上漢明窗的主要目的,是要加強音框左端和右端的連續(xù)性,這是因為在進行 FFT 時,都是假設一個音框內(nèi)的訊號是代表一個周期性訊號,如果這個周期性不存在,F(xiàn)FT 會為了要符合左右端不連續(xù)的變化,而產(chǎn)生一些不存在原訊號的能量分布,造成分析上

5、的誤差。當然,如果我們在取音框時,能夠使音框中的訊號就已經(jīng)包含基本周期的整數(shù)倍,這時候的音框左右端就會是連續(xù)的,那就可以不需要乘上漢明窗了。但是在實作上,由于基本周期的計算會需要額外的時間,而且也容易算錯,因此我們都用漢明窗來達到類似的效果。5.三角帶通濾波器(Triangular Bandpass Filters):將能量頻譜能量乘以一組 20 個三角帶通濾波器,求得每一個濾波器輸出的對數(shù)能量(Log Energy),共20個。必須注意的是:這 20 個三角帶通濾波器在梅爾頻率(Mel Frequency)上是平均分布的,而梅爾頻率和一般頻率 f 的關系式如下: mel(f)=2595*lo

6、g10(1+f/700) 或是 mel(f)=1125*ln(1+f/700) 梅爾頻率代表一般人耳對于頻率的感受度,由此也可以看出人耳對于頻率 f 的感受是呈對數(shù)變化的: 在低頻部分,人耳感受是比較敏銳 。在高頻部分,人耳的感受就會越來越粗糙 。三角帶通濾波器有兩個主要目的: 對頻譜進行平滑化,并消除諧波的作用,突顯原先語音的共振峰。(因此一段語音的音調(diào)或音高,是不會呈現(xiàn)在 MFCC 參數(shù)內(nèi),換句話說,以 MFCC 為特征的語音辨識系統(tǒng),并不會受到輸入語音的音調(diào)不同而有所影響。) 降低資料量。 6.離散余弦轉換(Discrete cosine transform, or DCT):將上述的

7、20 個對數(shù)能量 Ek帶入離散余弦轉換,求出 L 階的 Mel- scale Cepstrum 參數(shù),這里 L 通常取 12。離散余弦轉換公式如下: Cm=Sk=1Ncosm*(k-0.5)*p/N*Ek, m=1,2, ., L 其中 Ek 是由前一個步驟所算出來的三角濾波器和頻譜能量的內(nèi)積值,這里N 是三角濾波器的個數(shù)。由于之前作了 FFT,所以采用 DCT 轉換是期望能轉回類似 Time Domain 的情況來看,又稱 Quefrency Domain,其實也就是 Cepstrum(倒譜)。又因為之前采用 Mel- Frequency 來轉換至梅爾頻率,所以才稱之Mel-scale Ce

8、pstrum。 7.對數(shù)能量(Log energy):一個音框的音量(即能量),也是語音的重要特征,而且非常容易計算。因此我們通常再加上一個音框的對數(shù)能量(定義為一個音框內(nèi)訊號的平方和,再取以 10 為底的對數(shù)值,再乘以 10),使得每一個音框基本的語音特征就有 13 維,包含了 1 個對數(shù)能量和 12 個倒頻譜參數(shù)。(若要加入其它語音特征以測試辨識率,也可以在此階段加入,這些常用的其它語音特征,包含音高、過零率、共振峰等。) 8.差量倒頻譜參數(shù)(Delta cepstrum):雖然已經(jīng)求出 13 個特征參數(shù),然而在實際應用于語音辨識時,我們通常會再加上差量倒頻譜參數(shù),以顯示倒頻譜參數(shù)對時間的

9、變化。它的意義為倒頻譜參數(shù)相對于時間的斜率,也就是代表倒頻譜參數(shù)在時間上的動態(tài)變化,公式如下: Cm(t) = St=-MMCm(t+t)t / St=-MMt2 這里 M 的值一般是取 2 或 3。因此,如果加上差量運算,就會產(chǎn)生 26 維的特征向量;如果再加上差量運算,就會產(chǎn)生 39 維的特征向量。一般我們在 PC 上進行的語音辨識,就是使用 39 維的特征向量。 2. %mfccfunction mfc=mfcc(x)%對輸入的語音序列x進行mfcc參數(shù)提取,返回mfcc參數(shù)和一階差分mfcc參數(shù),mel濾波器的階數(shù)為24%fft變換長度為256,采樣頻率為8000HZ,對x 256點分

10、為一幀%bank=melbankm(24,256,8000,0,0.5,m);%歸一化mel濾波器組參數(shù)bank=full(bank);bank=bank/max(bank(:);%DCT系數(shù),12*24for k=1:12 n=0:23; dctcoef(:,k)=cos(2*n+1)*k*pi/(2*24);end%歸一化倒譜提升窗口w=1+6*sin(pi*1:12./12);w=w/max(w);%預加重濾波器xx=double(x);xx=filter(1 -0.9375,1,xx);%語音信號分幀xx=enframe(xx,256,80);%計算每幀的mfcc參數(shù)for i=1:size(xx,1) % y=xx(i,:); s=y.*hamming(256); t=abs(fft(s); t=t.2;%計算能量 c1=dctcoef*log(bank*t(1:129);%dctcoef為dct系數(shù),bank歸一化mel濾波器組系數(shù) c2=c1.*w;%w為歸一化倒譜提升窗口 m(i,:)=c2;end%差分系數(shù)dtm=zeros

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論