




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第九章語音檢測分析9.1基音檢測自相關法 并行處理法 倒譜法簡化逆濾波法 9.2共振峰估值 帶通濾波器組法 離散傅里葉變換(DFT) 倒譜法 LPC法語音檢測分析主要涉及語音特征參數的提取和分析。19.1基音檢測基音是語音信號的一個重要參數,在語音產生的數字模型中它也是激勵源的一個重要參數?;羰侵赴l(fā)濁音時聲帶振動所引起的周期性,而基音周期是指聲帶振動頻率的倒數。準確地檢測語音信號的基音周期對于高質量的語音分析與合成、語音壓縮編碼、語音識別和說話人確認等具有重要的意義。29.1基音檢測基音檢測的主要困難反映在:①聲門激勵信號并不是一個完全周期的序列,在語音的頭、尾部并不具有聲帶振動那樣的周期性,有些清音和濁音的過渡幀是很難準確地判斷是周期性還是非周期性的。②在許多情況下,清音語音和低電平濁音語音段之間的過渡段是非常細微的,確認它是極其困難的。③從語音信號中去除聲道影響,直接取出僅和聲帶振動有關的激勵信號的信息并不容易,例如聲道的共振峰有時會嚴重影響激勵信號的諧波結構。這種影響在發(fā)音器官快速動作而共振峰也快速改變時,對基音檢測是最具危害性的。39.1基音檢測④語音信號包含有十分豐富的諧波分量,基音頻率最低可達80Hz左右,最高可達500Hz左右,但基音頻率處在100~200Hz的情況占多數。因此,濁音信號可能包含有三四十次諧波分量,而其基波分量往往不是最強的分量。因為語音的第一共振峰通常在300~1000Hz范圍內,這就是說,2~8次諧波成分常常比基波分量還強。豐富的諧波成分使語音信號的波形變得非常復雜,經常發(fā)生基頻估計結果為實際值的二、三次倍頻或二次分頻的情況。⑤在濁音段很難精確地確定每個基音周期的開始和結束位置,這不僅因為語音信號本身是準周期性的(即音調是有變化的),還由于波形的峰或過零受共振峰的結構、噪聲等的影響。⑥在實際應用中,背景噪聲強烈影響基音檢測的性能,這對于移動通信環(huán)境尤為重要,因為經常會出現高電平噪聲。⑦基音頻率變化范圍大,從老年男性的80Hz到兒童女性的500Hz,接近三個倍頻程,給基音檢測帶來了一定的困難。49.1基音檢測基音檢測方法的研究:①穩(wěn)定并提取準周期性信號的周期性方法;②因周期混亂,采取基音提取誤差補償的方法;③消除聲道(共振峰)影響的方法。在基音提取時,容易錯誤地提取真正基頻兩倍的頻率(倍基音)和基頻一半的頻率(半基音),至于產生哪種錯誤隨抽取方法而變化。59.1基音檢測基音檢測的方法大致可分為三類:①波形估計法。直接由語音波形來估計,分析出波形上的周期峰值。其特點除了比較簡單、硬件實現容易外,還可定出峰值點的位置,這在一些處理中是很有用的。②相關處理法。在時域中,周期信號的最明顯特征就是波形的類似性,因而可以通過比較原始信號和它位移后的信號之間的相似性來確定基音周期。如果移位距離等于基音周期,那么,兩個信號具有最大類似性(相關性最強)。大多數現存的基音檢測法都基于這一概念,最具代表性的是自相關函數法。這種方法在語音信號處理中被廣泛使用,這是因為相關處理法抗波形的相位失真強,另外它在硬件處理上結構簡單。③變換法。將語音信號變換到頻域或倒譜域來估計。比如倒譜法(CEP)。雖然倒譜分析算法比較復雜,但基音估計效果較好。69.1基音檢測直方圖(Histogram)也叫柱狀圖,是一種統計報告圖,由一系列高度不等的縱向條紋表示數據分布的情況。79.1基音檢測——自相關法濁音信號的自相關函數在基音周期的整數倍位置上出現峰值,而清音的自相關函數沒有明顯的峰值出現;因此檢測是否有峰值就可判斷是清音或濁音,檢測峰值的位置就可提取基音周期值。短時自相關函數中保留的語音信號的幅度太多,它有許多峰值,而其中許多都起因于聲道響應的阻尼振蕩。當基音的周期性和共峰峰的周期性混疊在一起時,被檢測出來的峰值就會偏離原來峰值的真實位置。89.1基音檢測——自相關法主要問題是第一共振峰可能對基音造成干擾:在某些濁音中,第一共振峰頻率可能會等于或低于基頻;如果其幅度很高,就可能在自相關函數中產生一個峰值,而該峰值又可以同基頻的峰值相比擬。例:其中有3個明顯的峰值。通過自相關波形,可以確定位于第40個樣本時延處的峰值相應于基頻為200Hz;而位于第20個樣本處的峰值與相應于基頻時的峰值差不多一樣大,因而可能將其誤認為基音。圖9-1一個女子發(fā)[]音的自相關函數,語音信號以8kHz取樣99.1基音檢測——自相關法處理思路:對語音信號進行預處理以去除聲道響應的影響及其他帶來擾亂的特征分析:語音信號的低幅度部分包含大量的共振峰信息,而高幅度部分包含大量的基音信息。方法之一:非線性處理。非線性處理的優(yōu)勢是在采用硬件時可在時域低成本地實現。處理效果:任何削減或者抑制語音低幅度部分的非線性處理都會使自相關函數的性能得到改善。109.1基音檢測——自相關法圖9-2中心削波中心削波后的語音通過一個自相關器,這樣在基音周期位置呈現大而尖的峰值,而其余的次要峰值幅度都很小。119.1基音檢測——自相關法計算自相關函數的運算量是很大的,其原因是計算機進行乘法運算非常費時。為此可對中心削波函數進行修正,采用三電平中心削波的方法y(n)=C’[x(n)]=1,x(n)>CLy(n)=C’[x(n)]=0,|x(n)|≤CLy(n)=C’[x(n)]=-1,x(n)<-CL三電平中心削波的自相關函數的計算很簡單,設y(n)表示削波器的輸出,則由自相關函數直接計算的公式Rn(k)=[y(n+m)w’(m)][y(n+m+k)w’(m+k)]如果窗口為直角窗,則上式變?yōu)镽n(k)=y(n+m)y(n+m+k)上式中y(n+m)y(n+m+k)的取值只有-1、0、1三種情況,因而不需作乘法運算而只需要簡單的組合邏輯即可以。129.1基音檢測——自相關法(a)不削波(b)中心削波(c)三電平削波[Rn(k)均歸一化]圖9-4信號波形及其自相關函數的舉例139.1基音檢測——并行處理法(時域估計方法)用到的波形屬性是正負峰值的幅度和位置,后峰至前峰的測度以及峰值至谷值的測度?;糁芷谟嬎闶菍⑦@6個估值與每一個基音周期估計器的最新的兩個估值相結合,比較這些估值,出現次數最多的值就是該時刻的基音周期。這種方法對濁音周期可以作出很好的估計;如果是清音,各個估值不一致,因而可判斷為清音。通常,可按10ms一幀來估計基音周期,同時得到“濁音/清音”判決。優(yōu)點是運算簡單、硬件實現容易。此外,不僅能估計出基音周期,而且還可以確定峰點位置。語音最初經截止頻率為900Hz的低通濾波,如果需要的話還附加高通濾波去除50Hz的交流聲。語音信號在經過預處理后,形成一系列脈沖,這一串脈沖保留了信號的周期性特性,而略去了與基音檢測無關的信息,找出峰點和谷點,再根據其位置和幅度產生6個脈沖序列對這些基音檢測器的輸出作邏輯組合,得出估計值估計這6個脈沖序列,得出6個基音周期的估值149.1基音檢測——倒譜法濁音語音的復倒譜中存在峰值,其出現時間等于基音周期;而清音語音段的復倒譜則不出現這種峰值。利用這一性質可以進行清/濁音判斷并估計濁音的基音周期。這種方法的步驟:計算復倒譜解卷提取出聲門激勵信息,在預期的基音周期附近尋找峰值如果峰值超過了預先設定的門限,則語音段定為濁音,而峰的位置就是基音周期的估值。如果不存在超出門限的峰值,則語音段定為清音。如果計算的是依賴于時間的復倒譜,則可估計出激勵源模型及基音周期隨時間的變化。159.1基音檢測——倒譜法倒譜和復倒譜表現出相同的性質估計基音周期,因而沒有必要對語音波形完全解卷,所以用倒譜c(n)就完全可以,這樣可以從復雜的相位計算中解脫出來。由于人耳對語音信號的相位不很敏感,因而可以假定輸入語音信號是最小相位序列,這樣可由最小相位信號法計算c(n)。169.1基音檢測——倒譜法(a)信號的對數幅度譜;(b)理想化的對數功率譜的傅里葉反變換圖9-6倒譜示意圖包括兩個分量:相應于頻譜包絡的慢變分量、相應于基音諧波峰值的快變分量。通過濾波或再取一次傅里葉反變換,即可將慢變分量與快變分量分離開??拷c的低倒頻部分是頻譜包絡的變換,而位于t0處的窄峰為諧波峰值的變換,表示基音周期。如果基音峰值的變換與頻譜包絡變換之間的間隔足夠大,則可很容易地提取基音信息。179.1基音檢測——倒譜法①取樣率為10kHz,幀長51.2ms,然后求出c(n)。采用矩形窗,因為由其得到的譜估計質量較差。采用海明窗的長度及窗相對于語音信號的位置對倒譜峰的高度有相當大的影響。為使倒譜具有明顯的周期性,窗口選擇的語音段應至少包含有兩個明顯的周期??紤]到窗的逐漸弱化效應,窗寬至少應包含兩個周期。窗應盡可能短,使得分析間隔中的語音參數變化減至最小。這是短時處理的要求。而窗越長,由始到終的變化就越大,因而與模型之間的偏差就越大。189.1基音檢測——倒譜法②求出倒譜峰值IPK和其位置IPOS,如果峰值未超過某門限值,則進行過零計算;若過零數超過某門限值,則為無聲語音幀。反之,則為有聲,且基音周期仍等于該峰值的位置。③無聲檢測器是時域信號的峰值檢測器;若低于某門限值,則認為是無聲,勿須進行上述由倒譜檢測基音的計算。199.1基音檢測——倒譜法圖9-9含噪語音的對數功率譜示意圖 對數功率譜的低電平部分被噪聲填滿,并處于主導地位,從而掩蓋了基音諧波的周期性。這意味著倒譜的輸入不再是純凈的周期性成分,而倒譜中的基音峰值將會展寬并受到噪聲的污染。隨著噪聲電平的增加,對數功率譜的有用部分將會變得越來越小,從而使倒譜的靈敏度也隨之下降。
209.1基音檢測——簡化逆濾波法逆濾波的作用:將頻譜包絡逐漸平坦下去。得到的線性預測誤差信號只包含有激勵的信息,而去除了聲道影響,所以它提供了一個簡化的(廉價的)頻譜平滑器。激勵信號正比于預測誤差信號,如果線性預測模型與產生實際語音信號的系統越接近,則e(n)就越接近激勵信號。對于濁音,可以預料在每一基音周期的起始處預測誤差較大。檢測e(n)信號相鄰兩最大脈沖之間的距離即可對基音周期作出估計。見書P125圖9-1021①語音信號經過10kHz取樣后,通過0~900Hz的數字低通濾波器(LPF),其目的是濾除聲道譜中聲道響應部分的影響,使峰值檢測更加容易,低通濾波在除去高階共振峰影響的同時,還可以補充自相關函數的時間分辨率的不足。然后降低取樣率5倍,經5次分頻降低到2kHz(因為聲門激勵序列的寬度小于1kHz,所以用2kHz取樣就足夠了);當然,為此后面要進行內插。②提取LPC參數。這里LPC濾波器的階數P=4,因為,四階濾波器完全可作為0~1kHz頻率范圍內信號譜的模型,因為此范圍內通常只有1~2個共振峰。然后進行逆濾波,得到接近平坦的譜。圖9-12基音檢測的簡化逆濾波法9.1基音檢測——簡化逆濾波法22③進行短時自相關運算,檢測出峰值及其位置,得到基音周期值。④為提高基音周期值的分辨率,可以對最大峰值所處范圍的自相關函數進行內插。⑤最后進行有/無聲判決。此處與倒譜法類似,有一個無聲檢測器,以減少運算量。圖9-12基音檢測的簡化逆濾波法9.1基音檢測——簡化逆濾波法239.1基音檢測——簡化逆濾波法249.1基音檢測——簡化逆濾波法259.1基音檢測——簡化逆濾波法基音檢測有很多方法,大多是基于低通濾波和自相關法的。其主要缺點是:①準確性不夠高;②一般只能求出分析幀的平均基音周期值,難以對每個基音周期進行準確的定位和標記,而這在許多場合卻是很重要的。采用子波分析技術進行基音檢測能得到比較好的效果。269.2共振峰估值共振峰信息包含在語音信號的頻譜包絡之中,譜包絡的峰值基本上對應于共振峰頻率。因此一切共振峰估計都是直接或間接地對頻譜包絡進行考察,關鍵是估計語音頻譜包絡,并認為譜包絡中的最大值就是共振峰。共振峰估計存在的問題:1虛假峰值。在正常情況下,頻譜包絡中的最大值完全是由共振峰引起的。但在線性預測分析方法出現之前的頻譜包絡估值器中,出現虛假峰值是相當普遍的現象。甚至在采用線性預測方法時,也并非沒有虛假峰值:為了增加靈活性,給預測器增加二至三個額外的極點(如6.6.1所述),而這些極點會引起虛假譜峰產生。2共振峰合并。相鄰共振峰的頻率可能會靠得太近難以分辨。此時,不是認為共振峰額外地多了而是認為共振峰明顯地少了,而探討一種理想的能對共振峰合并進行識別的共振峰提取算法中有不少實際困難。3高基音語音。傳統的頻譜包絡估值方法是利用由諧波峰值提供的樣點。而高基音語音(如女聲和童聲)的諧波間隔比較寬,因而為頻譜包絡估值所提供的樣點比較少,所以譜包絡本身的估計就不夠精確。即使采用線性預測方法,所得到的譜包絡的峰值仍然比較接近諧波峰值而常常偏離真正的共振峰位置。279.2共振峰估值——帶通濾波器組法通過濾波器組的設計可以使估計的共振峰頻率同人耳的靈敏相匹配,其匹配程度比線性預測法要好。濾波器的中心頻率有兩種分布方法:一種是等間距地分布在分析頻段上,則所有帶通濾波器的帶寬可設計成相同,從而保證了各通道的群延時相同。另一種是非均勻地分布,例如為了獲得類似于人耳的頻率分辨特性,在低頻端間距小,高頻端間距大,帶寬也隨之增加。這時濾波器的階數必須設計成與帶寬成正比,使得它們輸出的群延時相同,不會產生波形失真。為了使頻率分辨率提高,濾波器的階數應取足夠大的值,使得帶通濾波器具有良好的截止特性,但同時也意味著每個濾波器均有較長的沖激響應。由于語音信號具有時變特性,顯然較長的沖激響應會模糊這種特性,所以頻率分辨率與時間分辨率總是相互矛盾的。289.2共振峰估值——帶通濾波器組法這種方法的缺點是:由于濾波器組中濾波器數目的限制,估計的共振峰頻率不可避免地存在誤差;而且對共振峰帶寬不易確定;由于無法去除聲門激勵的影響,可能會造成虛假峰值。圖9-15給出了一種利用濾波器組進行共振峰估值的系統結構示意圖。濾波器的中心頻率從150Hz到7kHz,分析帶寬從100Hz到1kHz,頻率按對數規(guī)律遞增。濾波器輸出經全波整流而用于提供頻譜包絡估值。辨識邏輯用于對適當頻率范圍內的峰值進行辨識而獲得前三個共振峰。頻譜峰值被依次指定,每一峰值都被約束在其已知的頻率范圍之內并且高于前邊共振峰的頻率。299.2共振峰估值——離散傅里葉變換1濁音時聲門激勵為周期脈沖序列,因而語音信號具有明顯的周期性,所以信號譜中出現多個諧波頻率,其值為nfp(這里fp為基頻,n為正整數)。由于進行DFT得到的頻譜受基頻諧波的影響,最大值只能出現在諧波頻率上,因此共振峰測定誤差較大。為減少誤差,可由諧波頻率nfp及上、下兩個次極值頻率(n-1)fp、(n+1)fp的插值求得共振峰頻率。309.2共振峰估值——離散傅里葉變換2清音時信號具有隨機噪聲的特點,其頻譜不具有離散諧波特性,但其包絡基本上反映了聲道的特性。對其頻譜進行線性平滑而得到譜包絡,并用一個峰值搜索算法來確定峰值,并標記為共振峰參數。319.2共振峰估值——倒譜法第一項為聲門激勵序列的倒譜,它是以基音周期為周期的沖激序列;而第二項為聲道沖激響應序列的倒譜,它集中在n=0附近的低倒譜域。因而可在倒譜域用一個濾波器濾除聲門激勵的影響。這個濾波器稱為倒濾波器,其形式為l(n)=1,|n|<n0l(n)=0,|n|≥n0其中n0值應選得比基音周期NP小,這樣可將聲道沖激響應的倒譜提取出來。再對倒譜進行DFT就得到聲道模型的對數譜ln|H(k)|,而所求得的頻譜包絡的平滑程度根據使用倒濾波器的不同成分而發(fā)生變化。利用IDFT求c(n)時,與時域取樣類似,為避免發(fā)生混疊,需要將N取得足夠大329.2共振峰估值——倒譜法對于濁音和清音,倒譜法的檢測效果不同:①濁音時,若頻譜包絡的變換
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年臺州貨運從業(yè)資格證試題庫及答案
- 2025年清遠貨運模擬考試
- 2025年甘肅貨運從業(yè)資格證考試試題及答案詳解
- 2025年安慶貨運上崗資格證模擬考試
- 2025年承德a2貨運資格證模擬考試
- 2025年防洪設施管理服務項目發(fā)展計劃
- 集團公司人才發(fā)展戰(zhàn)略規(guī)劃及梯隊建設實施方案解析
- 青年教師專業(yè)成長經驗分享
- 數字經濟時代跨國企業(yè)投資模式的轉變與機遇
- 初中年級語文重點知識
- 醫(yī)院康復信息系統建設需求
- SL721-2015水利水電工程施工安全管理導則
- 2024年廣東省萬閱大灣區(qū)百校聯盟中考一模數學試題
- 數字貿易學 課件 馬述忠 第13-22章 數字貿易綜合服務概述- 數字貿易規(guī)則構建與WTO新一輪電子商務談判
- 2024年電路保護元器件行業(yè)營銷策略方案
- 下肢動靜脈潰瘍的護理
- 照明維護方案
- 設備管理制度的風險評估與防范方案
- 辦公樓裝飾工程設計及施工招標文件室內裝飾
- 半導體行業(yè)對國家國防戰(zhàn)略的支撐與應用
- 2024年十堰市中小學教師職稱晉升水平能力測試題附答案
評論
0/150
提交評論