數(shù)字語音信號處理實驗_(共19頁)_第1頁
數(shù)字語音信號處理實驗_(共19頁)_第2頁
數(shù)字語音信號處理實驗_(共19頁)_第3頁
數(shù)字語音信號處理實驗_(共19頁)_第4頁
數(shù)字語音信號處理實驗_(共19頁)_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)字(shz)語音信號處理實驗(shyn)指導書前言(qin yn) 語音信號處理是研究用數(shù)字信號處理技術和語音學知識對語音信號進行處理的新興的學科,是目前發(fā)展最為迅速的信息科學研究領域的核心技術之一。通過語音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形式。同時,語言(yyn)也是人與機器之間進行通信的重要工具,它是一種理想的人機通信方式,因而可為信息處理系統(tǒng)建立良好的人機交互環(huán)境,進一步推動計算機和其他智能機器的應用,提高社會的信息化程度。 語音信號處理是一門新興的學科(xuk),同時又是綜合性的多學科領域和涉及面很廣的交叉學科。雖然從事這一領域研究的人員主要來自信號與信息處理及

2、計算機應用等學科,但是它與語音學、語言學、聲學、認知科學、生理學、心理學等許多學科也有非常密切的聯(lián)系。 20世紀60年代中期形成的一系列數(shù)字信號處理的理論和算法,如數(shù)字濾波器、快速傅立葉變換(FFT)等是語音信號數(shù)字處理的理論和技術基礎。隨著信息科學技術的飛速發(fā)展,語音信號處理取得了重大的進展:進入70年代之后,提出了用于語音信號的信息壓縮和特征提取的線性預測技術(LPC),并已成為語音信號處理最強有力的工具,廣泛應用于語音信號的分析、合成及各個應用領域,以及用于輸入語音與參考樣本之間時間匹配的動態(tài)規(guī)劃方法;80年代初一種新的基于聚類分析的高效數(shù)據(jù)壓縮技術矢量量化(VQ)應用于語音信號處理中;

3、而用隱馬爾可夫模型(HMM)描述語音信號過程的產(chǎn)生是80年代語音信號處理技術的重大發(fā)展,目前HMM已構成了現(xiàn)代語音識別研究的重要基石。近年來人工神經(jīng)網(wǎng)絡(ANN)的研究取得了迅速發(fā)展,語音信號處理的各項課題是促進其發(fā)展的重要動力之一,同時,它的許多成果也體現(xiàn)在有關語音信號處理的各項技術之中。為了深入理解語音信號數(shù)字處理的基礎理論、算法原理、研究方法和難點,根據(jù)數(shù)字語音信號處理教學大綱,結合課程建設的需求,我們編寫了本實驗參考書。實驗(shyn)一連續(xù)(linx)語音特征提取及說話人性別判決一、實驗(shyn)目的語音信號是一種非平穩(wěn)的時變信號,它攜帶著各種信息。在語音編碼、語音合成、語音識別和

4、語音增強等語音處理中無一例外需要提取語音中包含的各種信息。語音信號分析的目的就在與方便有效的提取并表示語音信號所攜帶的信息。語音信號分析可以分為時域和變換域等處理方法,其中時域分析是最簡單的方法,直接對語音信號的時域波形進行分析,提取的特征參數(shù)主要有語音的短時能量,短時平均過零率,短時自相關函數(shù)等。本實驗要求掌握時域特征分析原理,并利用已學知識,編寫程序求解語音信號的短時過零率、短時能量、短時自相關特征,分析實驗結果,并能掌握借助時域分析方法所求得的參數(shù)分析語音信號的基音周期及共振峰。信號的傅立葉表示在信號的分析與處理中起著重要的作用。因為對于線性系統(tǒng)來說,可以很方便地確定其對正弦或復指數(shù)和的

5、響應,所以傅立葉分析方法能完善地解決許多信號分析和處理問題。另外,傅立葉表示使信號的某些特性變得更明顯,因此,它能更深入地說明信號的各項紅物理現(xiàn)象。 由于語音信號是隨著時間變化的,通常認為,語音是一個受準周期脈沖或隨機噪聲源激勵的線性系統(tǒng)的輸出。輸出頻譜是聲道系統(tǒng)頻率響應與激勵源頻譜的乘積。聲道系統(tǒng)的頻率響應及激勵源都是隨時間變化的,因此一般標準的傅立葉表示雖然適用于周期及平穩(wěn)隨機信號的表示,但不能直接用于語音信號。由于語音信號可以認為在短時間內(nèi),近似不變,因而可以采用短時分析法。本實驗要求掌握傅里葉分析原理,會利用已學的知識,編寫程序估計短時譜、倒譜,畫出語譜圖,并分析實驗結果,在此基礎上,

6、借助頻域分析方法所求得的參數(shù)分析語音信號的基音周期或共振峰。二、實驗(shyn)原理及實驗(shyn)結果1.窗口(chungku)的選擇通過對發(fā)聲機理的認識,語音信號可以認為是短時平穩(wěn)的。在1030ms的范圍內(nèi),語音頻譜特性和一些物理特性參數(shù)基本保持不變。我們將每個短時的語音稱為一個分析幀。一般幀長取1030ms。我們采用一個長度有限的窗函數(shù)來截取語音信號形成分析幀。通常會采用矩形窗和漢明窗。圖1.1給出了這兩種窗函數(shù)在幀長N=50時的時域波形。圖1.1 矩形窗和Hamming窗的時域波形矩形窗的定義:一個N點的矩形窗函數(shù)定義為如下 hamming窗的定義:一個N點的hamming窗函數(shù)定義

7、為如下 這兩種窗函數(shù)都有低通特性,通過分析這兩種窗的頻率響應幅度特性可以發(fā)現(xiàn)(如圖1.2):矩形窗的主瓣寬度小(4*pi/N),具有較高的頻率分辨率,旁瓣峰值大(-13.3dB),會導致泄漏現(xiàn)象;漢明窗的主瓣寬8*pi/N,旁瓣峰值低(-42.7dB),可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性。因此在語音頻譜分析時常使用漢明窗,在計算短時能量和平均幅度時通常用矩形窗。表1.1對比了這兩種窗函數(shù)的主瓣寬度和旁瓣峰值。 圖1.2 矩形(jxng)窗和Hamming窗的頻率響應表1.1 矩形(jxng)窗和hamming窗的主瓣寬度(kund)和旁瓣峰值窗函數(shù)主瓣寬度旁瓣峰值矩形窗4*pi/N1

8、3.3dBhamming8*pi/N42.7dB2.短時能量 由于語音信號的能量隨時間變化,清音和濁音之間的能量差別相當顯著。因此對語音的短時能量進行分析,可以描述語音的這種特征變化情況。定義短時能量為:,其中N為窗長 特殊地,當采用矩形窗時,可簡化為: 圖1.3和圖1.4給出了不同矩形窗和hamming窗長的短時能量函數(shù),我們發(fā)現(xiàn):在用短時能量反映語音信號的幅度變化時,不同的窗函數(shù)以及相應窗的長短均有影響。hamming窗的效果比矩形窗略好。但是,窗的長短影響起決定性作用。窗過大(N 很大),等效于很窄的低通濾波器,不能反映幅度En的變化;窗過?。?N 很?。?,短時能量隨時間急劇變化,不能得

9、到平滑的能量函數(shù)。在11.025kHz左右的采樣頻率下,N 選為100200比較合適。短時能量函數(shù)(hnsh)的應用:1)可用于區(qū)分清音(qngyn)段與濁音段。En值大對應于濁音(zhuyn)段,En值小對應于清音段。2)可用于區(qū)分濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r間(根據(jù)En值的變化趨勢)。3)對高信噪比的語音信號,也可以用來區(qū)分有無語音(語音信號的開始點或終止點)。無信號(或僅有噪聲能量)時,En值很小,有語音信號時,能量顯著增大。 圖1.3 不同矩形窗長的短時能量函數(shù) 圖1.4 不同hamming窗長的短時能量函數(shù) 3短時平均過零率過零率可以反映信號的頻譜特性。當離散時間信號相鄰兩個樣點的

10、正負號相異時,我們稱之為“過零”,即此時信號的時間波形穿過了零電平的橫軸。統(tǒng)計單位時間內(nèi)樣點值改變符號的次數(shù)具可以得到平均過零率。定義短時平均過零率: 其中(qzhng)為符號(fho)函數(shù),在矩形窗條件下,可以(ky)簡化為 短時過零率可以粗略估計語音的頻譜特性。由語音的產(chǎn)生模型可知,發(fā)濁音時,聲帶振動,盡管聲道有多個共振峰,但由于聲門波引起了頻譜的高頻衰落,因此濁音能量集中于3KZ以下。而清音由于聲帶不振動,聲道的某些部位阻塞氣流產(chǎn)生類白噪聲,多數(shù)能量集中在較高頻率上。高頻率對應著高過零率,低頻率對應著低過零率,那么過零率與語音的清濁音就存在著對應關系。.圖1.5為某一語音在矩形窗條件下求

11、得的短時能量和短時平均過零率。分析可知:清音的短時能量較低,過零率高,濁音的短時能量較高,過零率低。清音的過零率為0.5左右,濁音的過零率為0.1左右,兩但者分布之間有相互交疊的區(qū)域,所以單純依賴于平均過零率來準確判斷清濁音是不可能的,在實際應用中往往是采用語音的多個特征參數(shù)進行綜合判決。短時平均過零率的應用:1)區(qū)別清音和濁音。例如,清音的過零率高,濁音的過零率低。此外,清音和濁音的兩種過零分布都與高斯分布曲線比較吻合。2)從背景噪聲中找出語音信號。語音處理領域中的一個基本問題是,如何將一串連續(xù)的語音信號進行適當?shù)姆指睿源_定每個單詞語音的信號,亦即找出每個單詞的開始和終止位置。3)在孤立詞

12、的語音識別中,可利用能量和過零作為有話無話的鑒別。 圖1.5 矩形窗條件(tiojin)下的短時平均過零率4、短時自相關(xinggun)函數(shù)自相關函數(shù)用于衡量信號自身時間波形的相似性。清音和濁音(zhuyn)的發(fā)聲機理不同,因而在波形上也存在著較大的差異。濁音的時間波形呈現(xiàn)出一定的周期性,波形之間相似性較好;清音的時間波形呈現(xiàn)出隨機噪聲的特性,樣點間的相似性較差。因此,我們用短時自相關函數(shù)來測定語音的相似特性。短時自相關函數(shù)定義為: 令,并且,可以得到: 圖6給出了清音的短時自相關函數(shù)波形,圖7給出了不同矩形窗長條件下(窗長分別為N=70,N=140,N=210,N=280)濁音的短時自相關

13、函數(shù)波形。由圖1.6、圖1.7短時自相關函數(shù)波形分析可知:清音接近于隨機噪聲,清音的短時自相關函數(shù)不具有周期性,也沒有明顯突起的峰值,且隨著延時k的增大迅速減??;濁音是周期信號,濁音的短時自相關函數(shù)呈現(xiàn)明顯的周期性,自相關函數(shù)的周期就是濁音信號的周期,根據(jù)這個性質可以判斷一個語音信號是清音還是濁音,還可以判斷濁音的基音周期。濁音語音的周期可用自相關函數(shù)中第一個峰值的位置來估算。所以在語音信號處理中,自相關函數(shù)常用來作以下兩種語音信號特征的估計:1)區(qū)分語音是清音(qngyn)還是濁音;2)估計濁音語音信號的基音(jyn)周期。 圖1.6 清音(qngyn)的短時自相關函數(shù)圖1.7 不同矩形窗長

14、條件下的濁音的短時自相關函數(shù) 5、時域分析方法的應用1)基音頻率的估計首先可利用時域分析(短時能量、短時過零率、短時自相關)方法的某一個特征或某幾個特征的結合,判定某一語音有效的清音和濁音段;其次,針對濁音段,可直接利用短時自相關函數(shù)估計基音頻率,其方法是:估算濁音段第一最大峰的位置,再利用抽樣率計算基音頻率,舉例來說,若某一語音濁音段的第一最大峰值約為35個抽樣點,設抽樣頻率為11.025KHZ,則基音頻率為11025/35=315 HZ。但是(dnsh),實際上第一最大峰值位置有時并不一定與基音周期(zhuq)吻合。一方面與窗長有關(yugun),另一方面還與聲道特性有關。鑒于此,可采用三

15、電平削波法先進行預處理。2)語音端點的檢測與估計可利用時域分析(短時能量、短時過零率、短時自相關)方法的某一個特征或某幾個特征的結合,判定某一語音信號的端點,尤其在有噪聲干擾時,如何準確檢測語音信號的端點,這在語音處理中是富有挑戰(zhàn)性的一個課題。6、短時傅立葉變換由于語音信號是短時平穩(wěn)的隨機信號,某一語音信號幀的短時傅立葉變換的定義為: (2.1)其中w(n-m)是實窗口函數(shù)序列,n表示某一語音信號幀。令n-m=k,則得到 (2.2)于是可以得到 (2.3)假定 (4)則可以得到 (5)同樣,不同的窗口函數(shù),將得到不同的傅立葉變換式的結果。由上式可見,短時傅立葉變換有兩個變量:n和,所以它既是時

16、序n的離散函數(shù),又是角頻率的連續(xù)函數(shù)。與離散傅立葉變換逼近傅立葉變換一樣,如令=2k/N,則得離散的短時傅立葉吧如下: (6)7、語譜圖水平(shupng)方向是時間軸,垂直方向是頻率軸,圖上的灰度條紋代表各個時刻的語音短時譜。語譜圖反映了語音信號的動態(tài)(dngti)頻率特性,在語音分析中具有重要的實用價值。被成為可視語言。語譜圖的時間分辨率和頻率分辨率是由窗函數(shù)的特性決定的。時間分辨率高,可以看出時間波形的每個周期及共振峰隨時間的變化,但頻率分辨率低,不足以分辨由于激勵所形成的細微結構(jigu),稱為寬帶語譜圖;而窄帶語譜圖正好與之相反。寬帶語譜圖可以獲得較高的時間分辨率,反映頻譜的快速時

17、變過程;窄帶語譜圖可以獲得較高的頻率分辨率,反映頻譜的精細結構。兩者相結合,可以提供帶兩與語音特性相關的信息。語譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”。聲紋因人而異,因此可以在司法、安全等場合得到應用。8、復倒譜和倒譜復倒譜是x(n)的Z變換取對數(shù)后的逆Z變換,其表達式如下: (7)倒譜c(n)定義為x(n)取Z變換后的幅度對數(shù)的逆Z變換,即 (8)在時域上,語音產(chǎn)生模型實際上是一個激勵信號與聲道沖激響應的卷積。對于濁音,激勵信號可以由周期脈沖序列表示;對于清音,激勵信號可以由隨機噪聲序列表示。聲道系統(tǒng)相當于參數(shù)緩慢變化的零極點線性濾波器。這樣經(jīng)過同態(tài)處理后,語音信號的復倒譜,激

18、勵信號的復倒譜,聲道系統(tǒng)的復倒譜之間滿足下面的關系: (9)由于倒譜對應于復倒譜的偶部,因此倒譜與復倒譜具有同樣的特點,很容易知道語音信號的倒譜,激勵信號的倒譜以及聲道系統(tǒng)的倒譜之間滿足下面關系: (10)濁音信號的倒譜中存在著峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用這個特點我們可以進行(jnxng)清濁音的判斷,并且可以估計濁音的基音周期。9、基因(jyn)周期估計濁音信號的倒譜中存在峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用倒譜的這個特點,我們可以進行語音的清濁音判決,并且可以估計濁音的基音周期。首先計算語音的倒譜,然后在可

19、能出現(xiàn)的基因周期附近尋找峰值。如果倒譜峰值超過了預先設置的門限,則輸入語音判斷為濁音,其峰值位置就是基因周期的估計值;反之(fnzh),如果沒有超出門限的峰值的話,則輸入語音為清音。10、共振峰估計對倒譜進行濾波,取出低時間部分進行進行逆特征系統(tǒng)處理,可以得到一個平滑的對數(shù)譜函數(shù),這個對數(shù)譜函數(shù)顯示了輸入語音段的共振峰結構,同時譜的峰值對應于共振峰頻率。通過此對數(shù)譜進行峰值檢測,就可以估計出前幾個共振峰的頻率和強度。對于濁音的聲道特性,可以采用前三個共振峰來描述;清音不具備共振峰特點。三、附錄(參考程序)1) 短時能量 (1)加矩形窗 a=wavread(beifeng.wav);subplo

20、t(6,1,1),plot(a);N=32;for i=2:6h=linspace(1,1,2.(i-2)*N);%形成一個矩形窗,長度為2.(i-2)*N En=conv(h,a.*a);% 求短時能量函數(shù)En subplot(6,1,i),plot(En);if(i=2) legend(N=32);elseif(i=3) legend(N=64);elseif(i=4) legend(N=128);elseif(i=5) legend(N=256);elseif(i=6) legend(N=512);endend(2)加漢明窗 a=wavread(beifeng.wav);subplot(

21、6,1,1),plot(a);N=32;for i=2:6h=hanning(2.(i-2)*N);%形成(xngchng)一個漢明窗,長度為2.(i-2)*N En=conv(h,a.*a);% 求短時能量(nngling)函數(shù)En subplot(6,1,i),plot(En);if(i=2) legend(N=32);elseif(i=3) legend(N=64);elseif(i=4) legend(N=128);elseif(i=5) legend(N=256);elseif(i=6) legend(N=512);endend2) 短時平均(pngjn)過零率a=wavread(b

22、eifeng.wav);n=length(a);N=320;subplot(3,1,1),plot(a);h=linspace(1,1,N);En=conv(h,a.*a); %求卷積得其短時能量函數(shù)Ensubplot(3,1,2),plot(En); for i=1:n-1 if a(i)=0 b(i)= 1; else b(i) = -1; end if a(i+1)=0 b(i+1)=1; else b(i+1)= -1; end w(i)=abs(b(i+1)-b(i); %求出每相鄰兩點符號的差值的絕對值 end k=1; j=0;while (k+N-1)n Zm(k)=0; fo

23、r i=0:N-1; Zm(k)=Zm(k)+w(k+i); end j=j+1; k=k+N/2; %每次移動(ydng)半個窗 end for w=1:j Q(w)=Zm(160*(w-1)+1)/(2*N); %短時平均(pngjn)過零率 end subplot(3,1,3),plot(Q),grid;3) 自相關(xinggun)函數(shù) N=240Y=WAVREAD(beifeng.wav);x=Y(13271:13510);x=x.*rectwin(240);R=zeros(1,240);for k=1:240for n=1:240-kR(k)=R(k)+x(n)*x(n+k);en

24、dend j=1:240;plot(j,R);grid;一、實驗(shyn)目的二、實驗(shyn)原理三、實驗(shyn)結果1 短時譜 圖2.1 短時譜2 語譜圖 圖2.2 語譜圖3 倒譜和復倒譜圖3、4是加矩形(jxng)窗和漢明窗的倒譜圖和復倒譜圖,圖中橫軸的單位是Hz,縱軸的單位是dB。圖2.4 加矩形(jxng)窗時的倒譜和復倒譜圖 圖2.3 加漢明窗時倒譜和復倒譜圖 4 基因(jyn)周期和共振峰估計 圖2.5 倒譜圖分析(fnx)第15幀其中第一峰值出現(xiàn)在第2個樣點,窗長為512(64ms),抽樣頻率為11KHz,說明基因頻率就在這個點上,其基因頻率為5.5KHz,基音周期為0.182ms。1)短時譜 cleara=wavread(beifeng.wav);subplot(2,1,1),plot(a);title(original signal);gridN=256;h=hamming(N);for m=1:N b(m)=a(m)*h(m)end y=20*log(abs(f

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論