語音信號處理第4講剖析_第1頁
語音信號處理第4講剖析_第2頁
語音信號處理第4講剖析_第3頁
語音信號處理第4講剖析_第4頁
語音信號處理第4講剖析_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

4.1概述4.2語音分幀4.3語音信號的時域分析4.4語音信號的頻域分析第四章語音信號分析語音信號分析語音信號處理的前提和基礎(chǔ),只有分析出可表示語音信號特征的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語音通信、語音合成和語音識別等處理。貫穿于語音分析全過程的是“短時分析技術(shù)”語音信號從整體來看其特征及表征其本質(zhì)特征的參數(shù)均是隨時間而變化的,所以它是一個非平衡態(tài)過程,不能用處理平衡信號的數(shù)字信號處理技術(shù)對其進(jìn)行分析處理。

但是在一個短時間范圍內(nèi)(一般認(rèn)為在10-30ms的短時間內(nèi)),其特性基本保持不變即相對穩(wěn)定,因而可以將其看作是一個準(zhǔn)穩(wěn)態(tài)過程,即語音信號具有短時平穩(wěn)性。

4.1概述根據(jù)所分析出的參數(shù)的性質(zhì)的不同可以分為:

時域分析、頻域分析、倒頻域分析,線性預(yù)測分析等;分析方法的不同:

模型分析方法和非模型分析方法不論是分析怎么樣的參數(shù)以及彩什么分析方法,在按幀進(jìn)行語音分析,提取語音參數(shù)之前,有一些經(jīng)常使用的、共同的短時分析技術(shù)必須預(yù)先進(jìn)行,如語音信號的數(shù)字化、語音信號的端點檢測、預(yù)加重、加窗和分幀等,這些也是不可忽視的語音信號分析的關(guān)鍵技術(shù)。

4.1概述

4.2語音分幀進(jìn)行過預(yù)加重數(shù)字濾波處理后,接下來就要進(jìn)行加窗分幀處理。一般每秒的幀數(shù)約為33-100幀,視實際情況而定。分幀雖然可以采用連續(xù)分段的方法,但一般要采用如圖3-1所示的交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移。幀移與幀長的比值一般取為0-1/2。分幀是用可移動的有限長度窗口進(jìn)行加權(quán)的方法來實現(xiàn)的,這就是用窗函數(shù)ω(n)來乘s(n),從而形成加窗語音信號sω(n)=s(n)ω(n)。語音分幀幀長與幀移:

取的點數(shù)為幀長,乘以采樣周期得幀長時間

兩幀間隔為幀移兩幀一定要有重疊,否則有參數(shù)突變在語音信號數(shù)字處理中常用的窗函數(shù)是矩形窗和漢明窗等,它們的表達(dá)式如下(其中N為幀長):矩形窗:漢明窗:語音分幀1.窗口的形狀雖然,不同的短時分析方法(時域、頻域、倒頻域分析)以及求取不同的語音特征參數(shù)可能對窗函數(shù)的要求不盡一樣,一般來講,一個好的窗函數(shù)的標(biāo)準(zhǔn)是:在時域因為是語音波形乘以窗函數(shù),所以要減小時間窗兩端的坡度,使窗口邊緣兩端不引起急劇變化而平滑過渡到零,這樣可以使截取出的語音波形緩慢降為零,減小語音幀的截斷效應(yīng);在頻域要有較寬的3dB帶寬以及較小的邊帶最大值。語音分幀2.窗口的長度采樣周期Ts=1/fs,窗口長度N和頻率分辨率Δf之間存在下列關(guān)系:Δf=1/NTs可見,采樣周期一定時,Δf隨窗口寬度N的增加而減小,即頻率分辨率相應(yīng)得到提高,但同時時間分辨率降低;如果窗口取短,頻率分辨率下降,而時間分辨率提高,因而二者是矛盾的。應(yīng)該根據(jù)不同的需要選擇合適的窗口長度。

語音分幀有時窗口長度的選擇,更重要的是要考慮語音信號的基音周期。通常認(rèn)為在一個語音幀內(nèi)應(yīng)包含1~7個基音周期。然而不同人的基音周期變化很大,從女性和兒童的2ms到老年男子的14ms(即基音頻率的變化范圍為500~70Hz),所以N的選擇比較困難。通常在10kHz取樣頻率下,N折中選擇為100~200點為宜(即10~20ms持續(xù)時間)。這樣,經(jīng)過上面介紹的處理過程,語音信號就已經(jīng)被分割成一幀一幀的加過窗函數(shù)的短時信號,然后再把每一個短時語音幀看成平穩(wěn)的隨機信號,利用數(shù)字信號處理技術(shù)來提取語音特征參數(shù)。在進(jìn)行處理時,按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取下一幀,等等,最后得到由每一幀參數(shù)組成的語音特征參數(shù)的時間序列。語音信號的時域分析就是分析和提取語音信號的時域參數(shù)。進(jìn)行語音分析時,最先接觸到并且也是最直觀的是它的時域波形。語音信號本身就是時域信號,時域分析是最早使用,也是應(yīng)用最廣泛的一種分析方法,這種方法直接利用語音信號的時域波形。時域分析通常用于最基本的參數(shù)分析及應(yīng)用,如語音的分割、預(yù)處理、大分類等。特點是:①表示語音信號比較直觀、物理意義明確。②實現(xiàn)起來比較簡單、運算量少。③可以得到語音的一些重要的參數(shù)。④只使用示波器等通用設(shè)備,使用較為簡單等。4.3語音信號的時域分析

短時平均能量及含義短時平均能量:每區(qū)一個n,得到一個

短時能量及短時平均幅度分析En是一個度量語音信號幅度值變化的函數(shù),但它有一個缺陷,即它對高電平非常敏感(因為它計算時用的是信號的平方)。短時平均幅度函數(shù)Mn,它定義為:Mn也是一幀語音信號能量大小的表征,它與En的區(qū)別在于計算時小取樣值和大取樣值不會因取平方而造成較大差異。(1)區(qū)分清/濁音:

大,對應(yīng)濁音,小,對應(yīng)清音。(2)在SNR高的情況下,能進(jìn)行有聲/無聲判決

無聲時,背景噪聲的小

有聲時,顯著增大。判決時可設(shè)置一個門限(3)大致能定出濁音變?yōu)榍逡舻臅r刻,或反之。存在的問題:短時能量函數(shù)對信號電平值過于敏感,在實際應(yīng)用中(如定點設(shè)備)很容易溢出。此時可以用平均幅度函數(shù)代替,單對清/濁音,有/無聲

的幅度差不如短時能量明顯。

短時平均幅度函數(shù)和能量函數(shù)的作用

短時過零率(ZCR)分析短時過零率:一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù)。對于連續(xù)語音信號,過零即意味著時域波形通過時間軸;對于離散信號,如果相鄰的取樣值改變符號則稱為過零。過零率就是樣本改變符號的次數(shù)。

短時過零率分析定義語音信號xn(m)的短時過零率Zn為:式中,sgn[]是符號函數(shù),即

短時過零率分析(1)區(qū)分清/濁音:

清音平均過零率高,集中在高頻端

濁音平均過零率低,集中在低頻端(2)從背景噪聲中找出是否有語音。以及語音的起點。清音——隨機噪聲,高頻濁音——周期信號,低頻

短時過零率分析在實際應(yīng)用中,短時平均過零率容易受到A/D轉(zhuǎn)換的直流偏移、50Hz交流電源的干擾以及噪聲的影響。減少這些干擾可以有兩種方法:(1)采用帶通濾波器消除信號中的直流和50Hz低頻分量(2)用過門限率來修改過零率,減少隨機噪聲的影響過門限率反應(yīng)了穿過正負(fù)門限的次數(shù),如果存在隨機噪聲,只要信號沒有超過[-T,T]的范圍,就沒有過零率的產(chǎn)生

短時相關(guān)分析相關(guān)分析是一種常用的時域波形分析方法,并有自相關(guān)和互相關(guān)之分。這里主要討論自相關(guān)函數(shù)。自相關(guān)函數(shù)具有一些性質(zhì),如它是偶函數(shù);假設(shè)序列具有周期性,則其自相關(guān)函數(shù)也是同周期的周期函數(shù)等。可以應(yīng)用于語音信號的時域分析中。在語音信號分析中,采用的是短時自相關(guān)函數(shù)。

1.短時自相關(guān)函數(shù)定義語音信號xn(m)的短時自相關(guān)函數(shù)Rn(k)的計算式如下:這里K是最大的延遲點數(shù)。短時自相關(guān)函數(shù)具有以下性質(zhì):(1)如果xn(m)是周期的(設(shè)周期為N),則自相關(guān)函數(shù)是同周期的周期函數(shù),即Rn(k)=Rn(k+Np)。(2)Rn(k)是偶函數(shù),即Rn(k)=Rn(-k)。(3)當(dāng)k=0時,自相關(guān)函數(shù)具有最大值,即Rn(0)≥|Rn(k)|,并且Rn(0)等于確定性信號序列的能量或隨機性序列的平均功率。

1.短時自相關(guān)函數(shù)短時自相關(guān)函數(shù)存在的問題:隨著k的變化,參加運算的項減少。極限k=N-1時無運算!改進(jìn)方法:兩個不同長度的窗2.修正的短時自相關(guān)函數(shù)矩形窗1:矩形窗2:

3.相關(guān)函數(shù)的作用(1)區(qū)分清/濁音

濁音語音的自相關(guān)函數(shù)具有一定的周期性

清音語音的自相關(guān)函數(shù)不具有周期性,類似噪聲。(2)估計濁音語音信號的周期,即估計基音周期

短時平均幅度差函數(shù)短時自相關(guān)函數(shù)是語音信號時域分析的重要參量。但是,計算自相關(guān)函數(shù)的運算量很大,其原因是乘法運算所需要的時間較長。為了避免乘法,一個簡單的方法就是利用差值。為此常常采用另一種與自相關(guān)函數(shù)有類似作用的參量,即短時平均幅度差函數(shù)(AMDF)。平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進(jìn)行語音分析的原理:如果信號是完全的周期信號(設(shè)周期為Np),則相距為周期的整數(shù)倍的樣點上的幅值是相等的,差值為零。

短時平均幅度差函數(shù)短時平均幅度差函數(shù)的定義:對于周期性的語音信號,也呈周期性,與相反的是:在谷點時,對應(yīng)的是峰值平均幅度差函數(shù)和自相關(guān)函數(shù)有密切的關(guān)系可由下式表達(dá):短時平均幅度差函數(shù)語音信號的頻域分析就是分析語音信號的頻域特征。從廣義上講,語音信號的頻域分析包括語音信號的頻譜、功率譜、倒頻譜、頻譜包絡(luò)分析等,而常用的頻域分析方法有帶通濾波器組法、傅里葉變換法、線性預(yù)測法等幾種。本章介紹的是語音信號的傅里葉分析法。因為語音波是一個非平穩(wěn)過程,因此適用于周期、瞬變或平穩(wěn)隨機信號的標(biāo)準(zhǔn)傅里葉變換不能用來直接表示語音信號,而應(yīng)該用短時傅里葉變換對語音信號的頻譜進(jìn)行分析,相應(yīng)的頻譜稱為“短時譜”。4.4語音信號的頻域分析

利用語音的短時傅里葉變換求語音的短時譜對第n幀語音信號,短時傅里葉變換,其定義如下:可知函數(shù)是時間n的離散函數(shù),又是角頻率的連續(xù)函數(shù),因此,可以從兩個角度解釋短時傅里葉變換的含義:(1)標(biāo)準(zhǔn)傅里葉變換(2)濾波器角度是窗口函數(shù)序列,不同的窗口函數(shù)序列,將得到不同的傅里葉變換結(jié)果討論(1)當(dāng)n取固定值時,記

,標(biāo)準(zhǔn)傅里葉變換為:(2)ω固定不變,記ω=L,相當(dāng)于一個濾波器當(dāng)n取不同值時,窗沿著序列滑動標(biāo)準(zhǔn)的FT離散的短時傅里葉變換令則在語音信號數(shù)字處理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論