




已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
短時(shí)幅度譜估計(jì)在語(yǔ)音增強(qiáng)中的研究和應(yīng)用摘要語(yǔ)音處理過(guò)程中受到各種各樣噪聲的干擾,不但降低了語(yǔ)音質(zhì)量,而且還將使整個(gè)系統(tǒng)無(wú)法正常工作。因此,為了消除噪聲干擾,在現(xiàn)代語(yǔ)音處理技術(shù)中,工業(yè)上一般采用語(yǔ)音增強(qiáng)技術(shù)來(lái)改善語(yǔ)音質(zhì)量從而提高系統(tǒng)性能。本論文基于短時(shí)幅度譜估計(jì)來(lái)研究語(yǔ)音增強(qiáng),主要介紹了功率譜相減、維納濾波法,并介紹了這幾種語(yǔ)音增強(qiáng)方法的基本原理和實(shí)現(xiàn)方法。通過(guò)研究,我們得到在白噪聲的條件下,這些語(yǔ)音增強(qiáng)方法具有很好的增強(qiáng)效果,可作為開(kāi)發(fā)實(shí)用語(yǔ)音增強(qiáng)方法的基礎(chǔ)。關(guān)健詞:語(yǔ)音增強(qiáng),短時(shí)幅度譜估計(jì),功率譜相減,維納濾波,白噪聲AbstractVoice processing is always influcenced by a variety of noise, which not only reduces the voice quality, but also make the whole system break. Therefore, in order to eliminate the noise interference, in the modern voice processing technology, we generally use the voice enhancement technology to improve voice quality and system performance. In this paper, we will study the speech enhancement which is based short-term rate spectral estimation, we mainly introduce spectral phase, Wiener filtering method, and also introduced several methods of the realization and basic principles of speech enhancement. Through researching, we get the result that in the conditions of white noise, these speech enhancement method has a best effect, can be used as the basement of speech enhancement realiaztion. Key words: speech enhancement, short-term rate spectral estimation, power spectral subtraction, Wiener filtering, white noise第一章 語(yǔ)音增強(qiáng)的研究背景及意義1.1語(yǔ)音增強(qiáng)的應(yīng)用背景人們?cè)谡Z(yǔ)音通信過(guò)程中不可避免的會(huì)受到來(lái)自周?chē)h(huán)境和傳輸媒介引入的噪聲、通信設(shè)備內(nèi)部電噪聲乃至其他講話者的千擾。這些干擾最終將使接收者接收到的語(yǔ)音己非純凈的原始語(yǔ)音信號(hào),而是受噪聲污染的帶噪語(yǔ)音信號(hào)。例如安裝在汽車(chē)、飛機(jī)或艦船上的電話,街道、機(jī)場(chǎng)的公用電話,常受到很強(qiáng)背景噪聲的干擾,嚴(yán)重影響通話質(zhì)量。又如有歷史價(jià)值的舊唱片、舊錄音帶的噪聲和失真等,都是帶噪語(yǔ)音信號(hào)的例子。而且環(huán)境噪聲的污染,使得許多語(yǔ)音處理系統(tǒng)的性能急劇惡化。例如,語(yǔ)音識(shí)別己取得重大進(jìn)展,正步入實(shí)用階段。但目前的語(yǔ)音識(shí)別系統(tǒng)大都是在安靜環(huán)境中工作的。在噪聲環(huán)境中,尤其是強(qiáng)噪聲環(huán)境,語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率將受到嚴(yán)重影響。低速率語(yǔ)音編碼,特別是參數(shù)編碼,也遇到類似問(wèn)題。由于語(yǔ)音生成模型是低速率編碼的基礎(chǔ),當(dāng)模型參數(shù)的提取受到混雜在語(yǔ)音中背景噪聲嚴(yán)重干擾時(shí),重建語(yǔ)音的質(zhì)量將急劇惡化,甚至變得完全不可懂。在上述情況下,語(yǔ)音增強(qiáng)或者作為一種預(yù)處理,不失為解決噪聲污染的一種有效手段。因此,或者為抑制背景噪聲,提高語(yǔ)音質(zhì)目前,語(yǔ)音增強(qiáng)已在語(yǔ)音處理系統(tǒng)、通信、研究語(yǔ)音增強(qiáng)技術(shù)在實(shí)際中有重要價(jià)多媒體技術(shù)、數(shù)字化家電等領(lǐng)域得到了量值越來(lái)越廣泛的應(yīng)用。語(yǔ)音增強(qiáng)的一個(gè)主要目標(biāo),就是從帶噪語(yǔ)音信號(hào)中提取盡可能純凈的原始語(yǔ)音。然而,由于干擾通常是隨機(jī)的,從帶噪語(yǔ)音中提取完全純凈的語(yǔ)音幾乎是不可能。在這種情況下,語(yǔ)音增強(qiáng)的目的主要有兩個(gè):一是改進(jìn)語(yǔ)音質(zhì)量,消除背景噪聲,使聽(tīng)者樂(lè)于接受,沒(méi)有疲勞感,這是一種主觀測(cè)量:二是提高語(yǔ)音的可懂度,這是一個(gè)客觀測(cè)量。但這兩個(gè)目的往往不能兼得,所以實(shí)際應(yīng)用中總是視具體情況而有所側(cè)重的。在語(yǔ)音信號(hào)的理論和應(yīng)用中,所用的語(yǔ)音數(shù)據(jù)大部分都是在接近理想的條件下采集的。大多數(shù)語(yǔ)音識(shí)別和語(yǔ)音編碼在開(kāi)始研究時(shí)都要在高保真設(shè)備上錄制語(yǔ)音,尤其要在無(wú)噪環(huán)境下錄音。然而,在語(yǔ)音通信過(guò)程中會(huì)不可避免的受到各種噪聲的干擾,這種干擾將最終導(dǎo)致接收者接收到的語(yǔ)音信號(hào)已非純凈的原始語(yǔ)音,而是受到噪聲污染后的帶噪語(yǔ)音。正是由于這些污染,使得許多語(yǔ)音處理系統(tǒng)的性能急劇惡化。語(yǔ)音識(shí)別正在步入實(shí)用階段,但識(shí)別系統(tǒng)大都是在安靜環(huán)境中工作的,在噪聲環(huán)境中尤其是強(qiáng)噪聲環(huán)境,語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率將受到嚴(yán)重影響。例如,在單個(gè)孤立詞識(shí)別的系統(tǒng)中,用純凈語(yǔ)音訓(xùn)練后,其識(shí)別率可達(dá)到100%,但在以行駛的汽車(chē)噪聲為背景的環(huán)境中,其識(shí)別率將會(huì)降至30%;低速率編碼,特別是參數(shù)編碼例如基于語(yǔ)音生成模型中涉及的LPCC系數(shù)求解,由于該系數(shù)對(duì)語(yǔ)音的編解碼質(zhì)量有重要的影響,而噪聲的干擾使得求得的LPCC系數(shù)的準(zhǔn)確度下降,從而使重建后的語(yǔ)音質(zhì)量大幅下降,甚至變的完全不可懂。而特別遺憾的是,線性預(yù)測(cè)技術(shù)作為語(yǔ)音處理中最有效的手段,恰恰是最容易受到噪聲影響的。因此,如何從帶噪語(yǔ)音中盡可能的恢復(fù)原始純凈語(yǔ)音、去除噪聲信號(hào)就成了語(yǔ)音信號(hào)預(yù)處理過(guò)程中的重要環(huán)節(jié)。在實(shí)際需求的推動(dòng)下,早在60年代,語(yǔ)音增強(qiáng)這個(gè)課題就已經(jīng)引起了人們的注意,此后的30年間人們一直契而不舍地進(jìn)行這方面的研究。隨著數(shù)字信號(hào)處理理論的成熟,70年代曾形成一個(gè)研究高潮,并取得一些基礎(chǔ)性成果,并使語(yǔ)音增強(qiáng)成為語(yǔ)音信號(hào)處理理論的一個(gè)重要分支。這之后,隨著超大規(guī)模集成電路和計(jì)算機(jī)技術(shù)的發(fā)展,為語(yǔ)音增強(qiáng)算法得以實(shí)驗(yàn)仿真和實(shí)時(shí)實(shí)現(xiàn)提供了可能,語(yǔ)音增強(qiáng)的研究進(jìn)入了一個(gè)新階段。然而,由于干擾通常都是隨機(jī)的,從帶噪語(yǔ)音過(guò)程中提取出完全純凈的語(yǔ)音幾乎不可能。在這種情況下,語(yǔ)音增強(qiáng)的目的主要有兩個(gè):一是改進(jìn)語(yǔ)音質(zhì)量,消除背景噪聲,使聽(tīng)者樂(lè)于接受,不感覺(jué)疲勞,這是一種主觀度量;二是提高語(yǔ)音可懂度,這是一種客觀度量。這兩個(gè)目的往往不能兼得。語(yǔ)音增強(qiáng)不僅與信號(hào)處理技術(shù)有關(guān),而且涉及到人的聽(tīng)覺(jué)感知和語(yǔ)音學(xué)。另外,噪聲來(lái)源眾多,隨應(yīng)用場(chǎng)合不同,其特性也各不相同。即使在實(shí)驗(yàn)室仿真條件下,也很難找出一種通用的語(yǔ)音增強(qiáng)算法適用于各種噪聲環(huán)境。必須針對(duì)不同噪聲,采取不同的語(yǔ)音增強(qiáng)對(duì)策。目前國(guó)外已產(chǎn)生的幾種算法也都是針對(duì)不同的噪聲源處理,減少和消除它們對(duì)原始語(yǔ)音的干擾。1.2 對(duì)語(yǔ)音增強(qiáng)的研究的發(fā)展歷史語(yǔ)音增強(qiáng)這個(gè)研究課題早在60年代即引起人們的注意,隨著數(shù)字信號(hào)處理理論的成熟,70年代取得了一些基礎(chǔ)性成果,并使語(yǔ)音增強(qiáng)發(fā)展成為語(yǔ)音信信號(hào)處理領(lǐng)域的一個(gè)重要分支;80年代及90年代初這十幾年間,各種語(yǔ)音增強(qiáng)方法不斷提出,進(jìn)而奠定了語(yǔ)音增強(qiáng)理論的基礎(chǔ)并使之逐漸走向成熟。隨著數(shù)字信號(hào)處理的發(fā)展,以及DSP,FPGA的發(fā)展,越來(lái)越滿足復(fù)雜的語(yǔ)音信號(hào)處理了?,F(xiàn)將這些語(yǔ)音增強(qiáng)方法給予簡(jiǎn)單的介紹:自適應(yīng)梳狀濾波由于語(yǔ)音中的濁音具有明顯的周期性,這種周期性反映到頻域中為一系列分別對(duì)應(yīng)基頻(基音)及其諧波的一個(gè)個(gè)峰值分量,這些頻率分量占具了語(yǔ)音的大部分能量。這時(shí)可采用自適應(yīng)梳狀濾波器來(lái)提取基音及其諧波分量,抑制其他周期性噪聲和非周期的寬帶噪聲。由于語(yǔ)音是時(shí)變的,語(yǔ)音的基音周期也是不斷變化的,能否準(zhǔn)確地估計(jì)出基音周期以及能否及時(shí)跟蹤基音變化,是這種基于諧波增強(qiáng)法的關(guān)鍵。對(duì)人耳的聽(tīng)覺(jué)特性起主要作用的是語(yǔ)音頻譜的幅度,而人耳對(duì)語(yǔ)音的相位是不敏感的。這樣在進(jìn)行語(yǔ)音增強(qiáng)處理的時(shí)候,就可將重點(diǎn)放在對(duì)語(yǔ)音幅度譜的精確估計(jì)上,對(duì)于語(yǔ)音的相位譜則允許有一定的誤差(實(shí)際中,經(jīng)常直接將帶噪語(yǔ)音的相位譜作為語(yǔ)音信號(hào)的相位譜),以此為出發(fā)點(diǎn),可以得到以下一些基于語(yǔ)音短時(shí)幅度譜的語(yǔ)音增強(qiáng)方法。幅度譜相減對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行傅立葉變換,在頻域中從帶噪語(yǔ)音的幅度譜上減去噪聲的幅度譜來(lái)作為語(yǔ)音信號(hào)的幅度譜,而語(yǔ)音相位譜則近似用帶噪語(yǔ)音的相位譜代替,這正利用了人耳對(duì)語(yǔ)音相位的不敏感性,這樣即達(dá)到了消除噪聲的目的,這就是幅度譜相減方法的基本原理這種方法針對(duì)的是加性不相關(guān)噪聲。功率譜相減法這種方法是從帶噪語(yǔ)音功率譜中減去噪聲的功率譜,從而得到語(yǔ)音信號(hào)的功率譜,進(jìn)而決定語(yǔ)音信號(hào)各頻譜分量增益,最終得到語(yǔ)音信號(hào)的估計(jì)。維納濾波法維納濾波法是為得到語(yǔ)音信號(hào)的時(shí)域波形,在最小均方誤差準(zhǔn)則下得到的最優(yōu)估計(jì)器。實(shí)際應(yīng)用中,多采用非因果維納濾波器的頻域?qū)崿F(xiàn)形式。最小均方誤差短時(shí)譜幅度估計(jì)器這種方法力圖獲得語(yǔ)音信號(hào)頻譜幅度的最優(yōu)估計(jì),是從觀測(cè)序列中依最小均方誤差準(zhǔn)則估計(jì)語(yǔ)音信號(hào)正交展開(kāi)系數(shù)的模值。與兩態(tài)軟判決最大似然包絡(luò)估計(jì)器一樣,若考慮語(yǔ)音存在的不確定性,則可得到性能更優(yōu)的最小均方誤差短時(shí)譜幅度估計(jì)器。隱馬爾科夫模型語(yǔ)音增強(qiáng)方法語(yǔ)音信號(hào)可細(xì)分為不同的類型,如鼻音、摩擦音、爆破音等。對(duì)不同類型的語(yǔ)音,如果采用不同的最優(yōu)濾波器進(jìn)行濾波則能得到更好的效果。要表示這些語(yǔ)音類型,人們提出了語(yǔ)音的混合源模型,人們將語(yǔ)音看成由一定數(shù)量的子源組成的,每個(gè)子源代表一種語(yǔ)音類型。不同的語(yǔ)音類型也可理解為不同的語(yǔ)音狀態(tài),則一段語(yǔ)音可看成一個(gè)在不同狀態(tài)間轉(zhuǎn)移的馬爾科夫過(guò)程,這就是語(yǔ)音的隱馬爾科夫模型思想。同樣對(duì)噪聲也有其隱馬爾科夫模型。這樣在語(yǔ)音增強(qiáng)過(guò)程中就可針對(duì)不同語(yǔ)音狀態(tài)選擇不同的濾波器,這樣就得到了隱馬爾科夫模型語(yǔ)音增強(qiáng)方法。如果能正確建立語(yǔ)音和噪聲的隱馬爾科夫模型,用隱馬爾科夫模型方法進(jìn)行語(yǔ)音增強(qiáng)處理,只要噪聲不是十分強(qiáng),就能得到很好的結(jié)果。1.3噪聲特性隨著人們對(duì)語(yǔ)音增強(qiáng)研究的發(fā)展,人們?cè)絹?lái)越認(rèn)識(shí)到語(yǔ)音增強(qiáng)不僅僅是一個(gè)單純的語(yǔ)音信號(hào)數(shù)字處理問(wèn)題,而且還涉及到人的聽(tīng)覺(jué)感知、語(yǔ)音學(xué)和語(yǔ)言學(xué)。另外,噪聲來(lái)源很多,隨運(yùn)用場(chǎng)合而異,其特性也各不相同.因此,要想對(duì)語(yǔ)音增強(qiáng)有比較充分的了解,必須首先對(duì)語(yǔ)音和噪聲的重要特性進(jìn)行一番了解和分析。我們還必須認(rèn)識(shí)到,要想得到一種可以適用于各種情形的語(yǔ)音增強(qiáng)算法是不可能的,必須針對(duì)不同的實(shí)際情況,采取不同的語(yǔ)音增強(qiáng)算法。下面我們先分別簡(jiǎn)略的敘述一下語(yǔ)音和噪聲的主要特性。本章我們首先從語(yǔ)音和噪聲的特性入手,對(duì)最常用也是最基本的譜相減法進(jìn)行研究。以上我們介紹了聽(tīng)覺(jué)系統(tǒng)的生理機(jī)制以及聽(tīng)覺(jué)的基本特征,下面我們接著介紹一下常見(jiàn)的噪聲。噪聲來(lái)源取決于實(shí)際的應(yīng)用環(huán)境, 因而噪聲特性可以說(shuō)是變化無(wú)窮。噪聲可以是加性的,也可以是非加性的,但是對(duì)于非加性的噪聲,我們可以通過(guò)一些相應(yīng)的變換(如同態(tài)變換和偽隨機(jī)擾動(dòng))將其轉(zhuǎn)化為加性噪聲,所以我們這里討論的主要是加性噪聲。加性噪聲大致上分為:周期性噪聲、脈沖噪聲、寬帶噪聲和同聲道其他語(yǔ)音的干擾。1.周期性噪聲其特點(diǎn)是具有許多離散的線譜,主要來(lái)源于發(fā)動(dòng)機(jī)等周期性運(yùn)轉(zhuǎn)的機(jī)械。電氣干擾,特別是電源交流聲,也會(huì)引起周期性噪聲.這種噪聲可以通過(guò)梳狀濾波器予以抑制。實(shí)際環(huán)境中的周期性噪聲并非簡(jiǎn)單地只含線譜分量,而是由許多窄譜帶組成,而且往往是時(shí)變的。2.脈沖噪聲脈沖噪聲表現(xiàn)為時(shí)域波形中突然出現(xiàn)的窄脈沖。它來(lái)源于爆炸、撞擊和放電等。對(duì)它們的消除可以通過(guò)時(shí)域上設(shè)置閉值來(lái)加以抑制,也可以通過(guò)內(nèi)插法進(jìn)行平滑處理。3.背景噪聲對(duì)發(fā)音的影響噪聲使語(yǔ)音質(zhì)量下降,可懂度降低。強(qiáng)噪聲會(huì)使人產(chǎn)生聽(tīng)覺(jué)疲勞。不僅如此,強(qiáng)噪聲環(huán)境還對(duì)講話人產(chǎn)生影響,使講話人改變?cè)诎察o環(huán)境或低噪聲環(huán)境中的發(fā)音方式,從而改變了語(yǔ)音的特征參數(shù),這稱為L(zhǎng)ombard效應(yīng),它對(duì)語(yǔ)音識(shí)別系統(tǒng)有很大的影響。隨著人們對(duì)語(yǔ)音增強(qiáng)知識(shí)的認(rèn)識(shí)和發(fā)展,各種各樣的語(yǔ)音增強(qiáng)算法都相應(yīng)的發(fā)展起來(lái)。如前所述,由于噪聲特性各異,總的來(lái)說(shuō),現(xiàn)在比較流行的算法主要有以下幾種:1) 小波分解法;2) 聽(tīng)覺(jué)屏蔽法;3) 噪聲對(duì)消法;4) 諧波增強(qiáng)法;5) 基于語(yǔ)音生成模型的增強(qiáng)算法;6) 基于短時(shí)譜估計(jì)的增強(qiáng)算法;以上的各種語(yǔ)音增強(qiáng)算法雖然在具體實(shí)現(xiàn)上是有差別的,但從另一個(gè)方面來(lái)說(shuō),它們都不得不在語(yǔ)音的可懂度和主觀度量這兩個(gè)方向上做一番權(quán)衡。至于到底側(cè)重與哪一方面,就要看算法內(nèi)部的參數(shù)選取了。其中,噪聲對(duì)消法的基本原理是從帶噪語(yǔ)音中減去噪聲。這一原理是顯而易見(jiàn)的,但問(wèn)題是如何得到噪聲的復(fù)制品。如果可以用兩個(gè)麥克風(fēng)(或多個(gè)麥克風(fēng))的信號(hào)采集系統(tǒng),一個(gè)采集帶噪語(yǔ)音,另一個(gè)(或多個(gè))采集噪聲,則這一任務(wù)比較容易得到解決。并且在強(qiáng)噪聲環(huán)境下,這種方法可以得到很好的消除噪聲結(jié)果。如果采集到的噪聲足夠“逼真”,甚至可以與帶噪語(yǔ)音在時(shí)域上直接進(jìn)行相減。噪聲對(duì)消法可以用于平穩(wěn)噪聲相消,也可以用于準(zhǔn)平穩(wěn)噪聲。采用噪聲對(duì)消法時(shí),兩個(gè)話筒之間必須要有相當(dāng)?shù)母綦x度,但采集到的兩路信號(hào)之間不可避免地會(huì)有時(shí)間差,因此實(shí)時(shí)采集到的兩路信號(hào)中所包含的噪聲段是不同的,回聲及其它可變衰減特性也將影響所采集噪聲的“純凈”性。因而,采集到的噪聲必須經(jīng)過(guò)數(shù)字濾波器,以得到盡可能接近帶噪語(yǔ)音中的噪聲。通常,這就需要采用自適應(yīng)濾波器曰,使相減噪聲與帶噪語(yǔ)音中的噪聲一致,其原理類似于回波抵消器。自適應(yīng)濾波器通常采用FIR濾波器,其系數(shù)可以采用最小均方(LMS)法進(jìn)行估計(jì),使如下信號(hào)的能量最小。 (1-1)這里,是帶噪信號(hào)濾波后的結(jié)果,是第二個(gè)話筒采集到的噪聲信號(hào),為濾波器系數(shù),N為FIR濾波器的抽頭數(shù)。只要噪聲與話音相互獨(dú)立,使的平均值最小,就能得到最接近與帶噪語(yǔ)音中的噪聲復(fù)制品。但若采集到的噪聲與語(yǔ)音是相關(guān)的,則濾波器系數(shù)只應(yīng)在語(yǔ)音間歇期進(jìn)行刷新。但噪聲對(duì)消法的一個(gè)缺點(diǎn)是增強(qiáng)后的語(yǔ)音中含有明顯的“音樂(lè)噪聲”,這是由頻譜相減而產(chǎn)生的一種殘留噪聲,具有一定的節(jié)奏性起伏感,故而得名“音樂(lè)噪聲”。語(yǔ)音信號(hào)的濁音段有明顯的周期性,利用這一特點(diǎn),可以采用諧波增強(qiáng)法構(gòu)造自適應(yīng)梳狀濾波器來(lái)提取語(yǔ)音分量,抑制噪聲。梳狀濾波器可以在時(shí)域?qū)崿F(xiàn),表達(dá)式為:這里,L為基頻周期;M 為常數(shù)(通常不大);是濾波器輸入信號(hào)序列;為輸出信號(hào)序列;為系數(shù),隨信號(hào)周期而變化。輸出信號(hào)是輸入信號(hào)的延時(shí)加權(quán)和的平均值。當(dāng)延時(shí)與周期一致時(shí),這個(gè)平均過(guò)程將使周期性分量得到加強(qiáng),而其它非周期性分量或與信號(hào)周期不同的其它周期性分量受到抑制或消除。顯然,上述方法的關(guān)鍵是要精確估計(jì)出語(yǔ)音信號(hào)的基音周期,這在強(qiáng)背景噪聲干擾下是件困難的事情。在基音發(fā)生變化的過(guò)渡段,這種方法會(huì)受到嚴(yán)重影響。選擇M=1可以減少影響,但增強(qiáng)效果下降。M 與梳狀濾波器的帶寬成反比。梳狀濾波器也可以在頻域?qū)崿F(xiàn)。對(duì)語(yǔ)音進(jìn)行傅立葉變換后可以鑒別出需要提取的各次諧波分量,然后經(jīng)傅立葉反變換恢復(fù)為時(shí)域信號(hào)。梳狀濾波器不但可增強(qiáng)語(yǔ)音信號(hào),也可以用于抑制各種噪聲干擾,包括消除同聲道的其它語(yǔ)音的千擾。同時(shí)對(duì)兩個(gè)語(yǔ)音進(jìn)行梳狀濾波器的主要困難是:存在另一個(gè)人講話干擾時(shí),如何跟蹤并精確估計(jì)講話者的基音。小波分解語(yǔ)音增強(qiáng)法和聽(tīng)覺(jué)掩蔽法是比較新興的算法。很明顯,小波分解法是隨著小波分解這一新的數(shù)學(xué)分析工具的發(fā)展而發(fā)展起來(lái)的。同時(shí)它又結(jié)合了譜相減的一些基本原理。聽(tīng)覺(jué)掩蔽是利用人耳的聽(tīng)覺(jué)特性的一種增強(qiáng)算法,目前人們對(duì)它的研究還處于初級(jí)階段。就近幾年的發(fā)展趨勢(shì)而言,小波分解法和聽(tīng)覺(jué)掩蔽法是人們研究的熱點(diǎn)。人們對(duì)小波分解法的興趣是與小波分解有關(guān)的,團(tuán)為人們對(duì)小波的研究也還是比較新的,隨著人們對(duì)小波分解研究的深入,自然也會(huì)導(dǎo)致對(duì)小波分解增強(qiáng)算法研究的深入。聽(tīng)覺(jué)屏蔽法是隨著人們對(duì)人耳聽(tīng)覺(jué)系統(tǒng)的認(rèn)識(shí)發(fā)展而發(fā)展起來(lái)的。人耳有很多優(yōu)點(diǎn):它可以在強(qiáng)噪聲的干擾下分辨出需要聆聽(tīng)的信號(hào),它也可以在多個(gè)說(shuō)話者同時(shí)發(fā)聲時(shí)分別將它們提取出來(lái),同時(shí),它也是一個(gè)很復(fù)雜的系統(tǒng),人們現(xiàn)在對(duì)它的認(rèn)識(shí)還是很浮淺的。正是由于以上這些原因,人們對(duì)聽(tīng)覺(jué)屏蔽法寄予了厚望,有理由相信,隨著人們對(duì)人耳特性了解的加深,聽(tīng)覺(jué)屏蔽法會(huì)更深入的發(fā)展。另外,人們也在嘗試將人工智能、隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)等理論用于語(yǔ)音增強(qiáng),但目前尚未取得實(shí)質(zhì)性的進(jìn)展。1.4 本課題主要工作基于短時(shí)幅度譜估計(jì)的語(yǔ)音增強(qiáng)方法,如幅度譜相減、維納濾波等方法具有適應(yīng)信噪比范圍大、增強(qiáng)效果好、方法簡(jiǎn)單易于實(shí)時(shí)處理等優(yōu)點(diǎn)。并成為應(yīng)用最廣泛的語(yǔ)音增強(qiáng)方法。所以進(jìn)行基于短時(shí)幅度譜估計(jì)的語(yǔ)音增強(qiáng)方法的研究具有重要意義。本文的主要研究步驟和主要研究?jī)?nèi)容如下所示:第一章: 語(yǔ)音增強(qiáng)的研究背景及意義第二章: MATLAB簡(jiǎn)介和語(yǔ)音信號(hào)特點(diǎn)介紹第三章: 減譜法語(yǔ)音增強(qiáng)第四章: 語(yǔ)音增強(qiáng)的維納濾波研究第五章: 短時(shí)幅度譜估計(jì)在語(yǔ)音增強(qiáng)方面的性能對(duì)比分析第六章: 總結(jié)第二章 MATLAB以及語(yǔ)音信號(hào)特點(diǎn)簡(jiǎn)介2.1 MATLAB簡(jiǎn)介Matlab,Matrix Laboratory的簡(jiǎn)稱,是美國(guó)Mathworks公司于1984年推出的數(shù)值計(jì)算機(jī)仿真軟件,經(jīng)過(guò)不斷的發(fā)展和完善,如今已成為覆蓋多個(gè)學(xué)科、具有超強(qiáng)數(shù)值計(jì)算能力和仿真分析能力的軟件。Matlab應(yīng)用較為簡(jiǎn)單,用大家非常熟悉的數(shù)學(xué)表達(dá)式來(lái)表達(dá)問(wèn)題和求解方法。它把計(jì)算、圖示和編程集成到一個(gè)環(huán)境中,用起來(lái)非常方便。同時(shí),Matlab具有很強(qiáng)的開(kāi)放性和適應(yīng)性,在保持內(nèi)核不變的情況下,Matlab推出了適合不同學(xué)科的工具箱,如圖像處理工具箱,小波分析工具箱、信號(hào)處理工具箱、神經(jīng)網(wǎng)絡(luò)工具箱等,極大地方便了不同學(xué)科的研究工作。Matlab強(qiáng)大的繪圖功能,簡(jiǎn)單的命令形式,使其越來(lái)越受到國(guó)內(nèi)外科技人員的青睞,得到越來(lái)越廣泛的應(yīng)用。一. MATLAB的特點(diǎn)一種語(yǔ)言之所以如此迅速地普及,顯示出如此旺盛的生命力,是由于它有著不同于其它語(yǔ)言的特點(diǎn)。正如同F(xiàn)ortran和C等高級(jí)語(yǔ)言使人們擺脫了需要直接對(duì)計(jì)算機(jī)硬件資源進(jìn)行操作一樣,被稱為第4代計(jì)算機(jī)語(yǔ)言的MATLAB,利用其豐富的函數(shù)資源,使編程人員從繁瑣的程序代碼中解放出來(lái)。1功能強(qiáng)大MATLAB具有功能強(qiáng)勁的工具箱,其包含兩個(gè)部分:核心部分和各種可選的工具箱。核心部分中,有數(shù)百個(gè)核心內(nèi)部函數(shù)。其工具箱又可分為兩類:功能性工具箱和學(xué)科性工具箱。功能性工具箱主要用來(lái)擴(kuò)充其符號(hào)計(jì)算功能、圖示建模仿真功能、文字處理功能以及與硬件實(shí)時(shí)交互功能。功能性工具箱能用于多種學(xué)科,而學(xué)科性工具箱是專業(yè)性比較強(qiáng)的,例如control toolbox,image processing toolbox,signal processing toolbox等。這些工具箱都是由該領(lǐng)域內(nèi)的學(xué)術(shù)水平很高的專家編寫(xiě)的,所以用戶無(wú)需編寫(xiě)自己學(xué)科范圍內(nèi)的基礎(chǔ)程序,就能夠直接進(jìn)行高、精、尖的研究。2. 界面友好,編程效率高M(jìn)ATLAB突出的特點(diǎn)就是簡(jiǎn)潔。它用更直觀的、符合人類思維習(xí)慣的代碼代替了C和Fortran語(yǔ)言的冗長(zhǎng)代碼,給用戶帶來(lái)的是最直觀、最簡(jiǎn)潔的程序開(kāi)發(fā)環(huán)境。MATLAB語(yǔ)言簡(jiǎn)潔緊湊,使用方便靈活,庫(kù)函數(shù)極其豐富,程序書(shū)寫(xiě)形式自由,利用其豐富的庫(kù)函數(shù)避開(kāi)繁雜的子程序編程任務(wù),壓縮了一切不必要的編程工作。由于庫(kù)函數(shù)都是由本領(lǐng)域的專家編寫(xiě)的,因此用戶不必?fù)?dān)心函數(shù)的可靠性??梢哉f(shuō),用MATLAB進(jìn)行科學(xué)開(kāi)發(fā)是站在專家的肩膀上來(lái)完成的。3. 開(kāi)放性強(qiáng)MATLAB有很好的可擴(kuò)充性,可以把它當(dāng)成一種更高級(jí)的語(yǔ)言去使用。各種工具箱中的函數(shù)可以互相調(diào)用,也可以由用戶更改。MATLAB支持用戶對(duì)其函數(shù)進(jìn)行二次開(kāi)發(fā),用戶的應(yīng)用程序可以作為新的函數(shù)添加到相應(yīng)的工具箱中。二 MATLAB的主要功能MATLAB之所以成為世界頂級(jí)的科學(xué)計(jì)算與數(shù)學(xué)應(yīng)用軟件,是因?yàn)樗S著版本的升級(jí)與不斷完善而具有越來(lái)越強(qiáng)大的功能。2 數(shù)值計(jì)算功能MATLAB出色的數(shù)值計(jì)算功能是使之優(yōu)于其他數(shù)學(xué)應(yīng)用軟件的決定性因素之一。2符號(hào)計(jì)算功能MATLAB符號(hào)運(yùn)算的獨(dú)特之處:無(wú)需事先對(duì)變量賦值,而所得的結(jié)果以標(biāo)準(zhǔn)的符號(hào)形式表達(dá),符號(hào)計(jì)算的整個(gè)過(guò)程以字符進(jìn)行。3數(shù)據(jù)分析功能MATLAB可以將計(jì)算數(shù)據(jù)以二維、三維乃至四維的圖形表現(xiàn)。這不僅使數(shù)據(jù)間的關(guān)系清晰、明了,而且對(duì)于揭示其內(nèi)在本質(zhì)有著非常重要的作用。4動(dòng)態(tài)仿真功能MATLAB提供了一個(gè)模擬動(dòng)態(tài)系統(tǒng)的交互程序SIMULINK,用戶通過(guò)簡(jiǎn)單的鼠標(biāo)操作,就可建立起直觀的系統(tǒng)模型,并進(jìn)行仿真。5圖形文字統(tǒng)一處理功能MATLAB Notebook成功地將Microsoft Work與MATLAB集成為一個(gè)整體,為文字處理、科學(xué)計(jì)算、工程設(shè)計(jì)營(yíng)造了一個(gè)完美、統(tǒng)一的工作環(huán)境。它既擁有Word強(qiáng)大的文字處理功能,又能通過(guò)Word訪問(wèn)MATLAB的數(shù)據(jù)計(jì)算和可視化結(jié)果。2.2 語(yǔ)音信號(hào)特點(diǎn)介紹隨著人們對(duì)語(yǔ)音增強(qiáng)研究的發(fā)展,人們?cè)絹?lái)越認(rèn)識(shí)到語(yǔ)音增強(qiáng)不僅僅是一個(gè)單純的語(yǔ)音信號(hào)數(shù)字處理問(wèn)題,而且還涉及到人的聽(tīng)覺(jué)感知、語(yǔ)音學(xué)和語(yǔ)言學(xué)。另外,噪聲來(lái)源很多,隨運(yùn)用場(chǎng)合而異,其特性也各不相同.因此,要想對(duì)語(yǔ)音增強(qiáng)有比較充分的了解,必須首先對(duì)語(yǔ)音和噪聲的重要特性進(jìn)行一番了解和分析。我們還必須認(rèn)識(shí)到,要想得到一種可以適用于各種情形的語(yǔ)音增強(qiáng)算法是不可能的,必須針對(duì)不同的實(shí)際情況,采取不同的語(yǔ)音增強(qiáng)算法。下面我們先分別簡(jiǎn)略的敘述一下語(yǔ)音和噪聲的主要特性。本章我們首先從語(yǔ)音和噪聲的特性入手,對(duì)最常用也是最基本的譜相減法進(jìn)行研究。語(yǔ)音是由一連串的音所組成的,這些音以及相互間的過(guò)渡就是代表信息的符號(hào)。這些音的排列是由語(yǔ)音的規(guī)則和人的發(fā)聲器官?zèng)Q定的。人類的發(fā)聲系統(tǒng)可以描述如下:聲道起始于聲帶的開(kāi)口即聲門(mén)處而中止于嘴,它包含了咽喉和口腔。聲道的截面積取決于舌、唇、領(lǐng)以及小舌的位置。當(dāng)小舌下垂時(shí),鼻道與聲道發(fā)生耦合而產(chǎn)生語(yǔ)音中的鼻音。為了便于理論分析,人們將發(fā)聲系統(tǒng)簡(jiǎn)化,認(rèn)為主要由三部分組成:喉、聲道和嘴。在此基礎(chǔ)上,人們又構(gòu)造了一個(gè)既符合實(shí)際又便于處理的離散時(shí)域生成模型,它包括三部分:激勵(lì)源、聲道模型和輻射模型。進(jìn)一步簡(jiǎn)化得到最常用的語(yǔ)音信號(hào)LPC全極點(diǎn)生成模型(如圖2-1所示)。圖2-1語(yǔ)音的全極點(diǎn)生成模型圖中u(n)為激勵(lì)源,g為增益因子,H(z)=1 /A(z)為全極點(diǎn)濾波,其中:這里,p為階數(shù),為L(zhǎng)PC系數(shù)。根據(jù)這個(gè)模型,可以得到離散時(shí)域語(yǔ)音信號(hào)s(n)的統(tǒng)一表達(dá)式:語(yǔ)音的聲音按照其激勵(lì)形式的不同可以分為三類:第一類是濁音,當(dāng)氣流通過(guò)聲門(mén)時(shí),如果聲帶的張力剛好使聲帶發(fā)生張弛振蕩式的振動(dòng),那么就可以產(chǎn)生準(zhǔn)周期的空氣脈沖,這一空氣脈沖激勵(lì)聲道得到濁音,對(duì)應(yīng)于圖中就是u(n)為間隔是基音周期T的脈沖串;第二類是摩擦音或清音,如果聲道在某處發(fā)生收縮,同時(shí)迫使空氣以高速?zèng)_過(guò)這一收縮部分而產(chǎn)生湍流,就得到這種音,此時(shí)建立的寬帶噪聲源激勵(lì)了聲道,對(duì)應(yīng)于圖中就是u(n)為寬帶噪聲;如果使聲道完全閉合,在閉合后產(chǎn)生氣壓,然后突然釋放,這就得到爆破音。一般而言,語(yǔ)音信號(hào)可以看作是由濁音、清音以及它們之間的過(guò)渡組成的。1.語(yǔ)音信號(hào)的頻譜分量比較集中通過(guò)對(duì)語(yǔ)音信號(hào)發(fā)聲過(guò)程的研究以及觀察記錄的各種語(yǔ)音波形,人們發(fā)現(xiàn)語(yǔ)音信號(hào)的頻譜分量主要集中在3003400Hz的范圍內(nèi),這是因?yàn)槿说穆暤赖淖兓豢赡芴臁_@一點(diǎn)給我們的語(yǔ)音研究和計(jì)算帶來(lái)了很大的便利,我們只要把注意力放在這一區(qū)域就可以了。2.語(yǔ)音是一個(gè)時(shí)變的、非平穩(wěn)的隨機(jī)過(guò)程人類發(fā)聲系統(tǒng)的生理結(jié)構(gòu)的變化速度是有一定的限度的,在一段短時(shí)間內(nèi)(5-50ms)人的聲帶和聲道形狀有相對(duì)穩(wěn)定性,可近似認(rèn)為其特征不變,因而語(yǔ)音的短時(shí)譜分析也有相對(duì)穩(wěn)定性。短時(shí)譜的這種平穩(wěn)性是很多語(yǔ)音處理算法和技術(shù)的基礎(chǔ)。3.語(yǔ)音大體上可以分為清音和濁音兩大類一般而言,人類的語(yǔ)音信號(hào)往往在有些時(shí)段表現(xiàn)出明顯的周期性(濁音),這種語(yǔ)段在頻域上有共振峰結(jié)構(gòu),其能量大部分集中在較低頻段內(nèi);而在另一些時(shí)段表現(xiàn)出完全的隨機(jī)性(清音),這種語(yǔ)段在頻域上沒(méi)有明顯的共振峰結(jié)構(gòu),其頻譜類似于白噪聲;其余的就是由兩者相混合而成。這一點(diǎn)反映在圖2-1就是:激勵(lì)源u(n)要么就是由脈沖發(fā)生器發(fā)出,要么就是由白噪聲發(fā)生器發(fā)出,要么就是由兩者按一定比例混合后發(fā)出。4.作為一個(gè)隨機(jī)過(guò)程,語(yǔ)音信號(hào)可以用統(tǒng)計(jì)分析特性來(lái)描述在高斯模型假設(shè)下,傅立葉展開(kāi)系數(shù)被認(rèn)為是獨(dú)立的高斯隨機(jī)變量,均值為0,而方差是時(shí)變的。這種高斯模型應(yīng)用于有限幀長(zhǎng)時(shí)只是一種近似的描述,在寬帶噪聲污染的帶噪語(yǔ)音的語(yǔ)音增強(qiáng)中,這種假設(shè)可用于分析的前提。第三章 減譜法語(yǔ)音增強(qiáng)3.1信噪比介紹信噪比(Signal-to-Noise Ratio,SNR)一直是衡量針對(duì)寬帶噪聲失真的語(yǔ)音增強(qiáng)算法的常規(guī)方法,有許多變種,如分段式信噪比、頻域加權(quán)型信噪比等。值得注意的是,基于信噪比的衡量方法只對(duì)試圖復(fù)制原來(lái)的輸入波形的編碼或者增強(qiáng)算法有效。假設(shè)表示帶噪信號(hào),表示其中的純凈語(yǔ)音信號(hào),表示相對(duì)應(yīng)的增強(qiáng)信號(hào),所有這些信號(hào)都假設(shè)是能量信號(hào),則時(shí)域誤差信號(hào)如公式:誤差能量公式:純凈語(yǔ)音信號(hào)的能量公式:經(jīng)典形式的信噪比定義公式:從上式可以看出,需要知道純凈語(yǔ)音信號(hào)才有可能決定信噪比的值,這在實(shí)際的環(huán)境下是不可能的。因此,上述方法主要用于純凈語(yǔ)音信號(hào)和噪聲信號(hào)都是已知的算法的仿真中。3.2 基本減譜法處理寬帶噪聲的最通用技術(shù)是譜減法,即從帶噪語(yǔ)音估值中減去噪聲頻譜估值,而得到純凈語(yǔ)音的頻譜。由于人耳對(duì)語(yǔ)音頻譜分量的相位不敏感,因而這種方法主要針對(duì)短時(shí)幅度譜。假定語(yǔ)音為平穩(wěn)信號(hào),而噪聲和語(yǔ)音為加性信號(hào)且彼此不相關(guān)。此時(shí)帶噪語(yǔ)音信號(hào)可表示為。上式中,s(t)為純凈語(yǔ)音信號(hào),n(t)為噪聲信號(hào)。而用Y(w)、S(w)和N(w)表示y(t)、s(t)和n(t)的傅立葉變換,則有下列關(guān)系存在。對(duì)于功率譜則有,因?yàn)榧俣ㄔ肼暿遣幌嚓P(guān)的,所以不會(huì)出現(xiàn)有信號(hào)與噪聲的乘積項(xiàng)。只要從中減去便可恢復(fù)。之所以能這樣做是基于人耳對(duì)語(yǔ)音相位不敏感(相聾)這一特點(diǎn)。因?yàn)樵肼暿蔷植科椒€(wěn)的,故可以認(rèn)為發(fā)語(yǔ)音前的噪聲與發(fā)語(yǔ)音期間的噪聲功率譜相同,因而可以利用發(fā)語(yǔ)音前(或后)的“寂靜幀”來(lái)估計(jì)噪聲。然而,語(yǔ)音是不平穩(wěn)的,而且實(shí)際上只能用一小段加窗信號(hào)。此時(shí)上式應(yīng)寫(xiě)為上式中,下標(biāo)w表示加窗信號(hào),*表示復(fù)共軛??梢愿鶕?jù)觀測(cè)數(shù)據(jù)估計(jì),其余各項(xiàng)必須近似為統(tǒng)計(jì)均值。由于n(t)和s(t)獨(dú)立,則互譜的統(tǒng)計(jì)均值為0。為了用傅立葉逆變換再現(xiàn)語(yǔ)音,還需要的相位,這里用表示。此時(shí)可借用帶噪語(yǔ)音相位,即的相位來(lái)近似。因而則恢復(fù)的語(yǔ)音是估值的傅立葉反變換,如下所示:圖3-1 基本結(jié)構(gòu)3.3 一般形式的功率譜相減估計(jì)器設(shè)帶噪語(yǔ)音的觀測(cè)模型對(duì)上式兩邊做傅立葉變換得進(jìn)一步可得式中“*”代表復(fù)共軛。由于s(n)與w(n)獨(dú)立,所以與獨(dú)立。又因?yàn)闉榱憔蹈咚狗植?,所以有?duì)于一個(gè)分析幀內(nèi)的短時(shí)平穩(wěn)過(guò)程,則其中為噪聲的功率譜密度,即無(wú)語(yǔ)音時(shí)的統(tǒng)計(jì)平均值。由此可得原始語(yǔ)音幅度譜的估計(jì)為:為了維持估計(jì)器在無(wú)噪聲時(shí)系統(tǒng)的同一性,在幅度譜上加上帶噪語(yǔ)音的相位信息,則得到完整的功率譜相減估計(jì)器為:3.4 減譜法的改進(jìn)形式實(shí)際上噪聲譜服從高斯分布其中,m為x的均值,為標(biāo)準(zhǔn)偏差。噪聲的幀功率譜隨機(jī)變化范圍很寬,在頻域中的最大、最小值之比往往達(dá)到幾個(gè)數(shù)量級(jí),而最大值與均值之比也達(dá)68倍。因此,在減去噪聲譜后,會(huì)有些較大的功率譜分量的剩余部分,在頻譜上呈現(xiàn)出隨機(jī)出現(xiàn)的尖峰,在聽(tīng)覺(jué)上形成殘留噪聲。這種噪聲具有一定的節(jié)奏性起伏感,所以稱之為“音樂(lè)噪聲”。為有效地減少寬帶和音樂(lè)噪聲,可對(duì)減譜法進(jìn)行改進(jìn)。噪聲的能量往往分布于整個(gè)頻率范圍,而語(yǔ)音能量則較集中于某些頻率或頻段,尤其在元音的共振峰處。因此可在元音段等幅度較高的時(shí)幀去除噪聲時(shí),減去,則可更好的相對(duì)突出語(yǔ)音的功率譜。這種改進(jìn)也稱為被減項(xiàng)權(quán)值處理。同時(shí),將功率譜計(jì)算及改為和計(jì)算(這里a不一定為整數(shù)),可以增加靈活性。這種方法稱為功率譜修正處理。經(jīng)分析和實(shí)驗(yàn)得知,當(dāng)a2時(shí),它具有與被減項(xiàng)加權(quán)處理相同的結(jié)果。綜合上面兩種處理,減譜法改進(jìn)形式修正為引入、兩個(gè)參數(shù)為算法提供了很大的靈活性。當(dāng)=2,=1時(shí)即變?yōu)榛镜臏p譜法。實(shí)際的增強(qiáng)實(shí)驗(yàn)表明,適當(dāng)調(diào)節(jié)、,可以獲得比原始的減譜法更好的增強(qiáng)效果。3.5 利用MATLAB實(shí)現(xiàn)減譜法語(yǔ)音增強(qiáng)上面我們簡(jiǎn)單的介紹了減譜法語(yǔ)音增強(qiáng)的基本理論,下面我們將利用MATLAB來(lái)設(shè)計(jì)減譜法并選取一個(gè)音頻信號(hào)進(jìn)行增強(qiáng)處理并對(duì)比前后結(jié)果得到增強(qiáng)的效果,并對(duì)前后兩次進(jìn)行時(shí)域和頻域信號(hào)分析。*%對(duì)每幀fftfor i=1:frame_num; fft_frame(:,i)=fft(window.*inframe(:,i); abs_frame(:,i)=abs(fft_frame(:,i); ang_frame(:,i)=angle(fft_frame(:,i);end;%平滑處理abs_frame_f=abs_frame;for i=2:(frame_num-1); abs_frame_f(:,i)=mean(abs_frame(:,(i-1):(i+1),2);end;abs_frame=abs_frame_f;%取前20幀,做為噪聲幅值abs_noise=mean(abs_frame(:,1:20),2);res_noise=max(abs_frame(:,1:20)-abs_noise*ones(1,20),2);for i=1:frame_num; sub_frame(:,i)=abs_frame(:,i)-0.8*abs_noise;end;zero_frame=zeros(len,frame_num); sub_frame_z=sub_frame;%將sub_frame距陣中小于0的點(diǎn)置0I,J=find(sub_frame_zzero_frame);sub_frame_z(sub2ind(size(sub_frame_z),I,J)=zero_frame(sub2ind(size(sub_frame_z),I,J);sub_frame=sub_frame_z;%殘余噪聲消去for i=2:(frame_num-1); I=find(sub_frame(:,i)res_noise); sub_frame(I,i)=min(sub_frame_z(I,(i-1):(i+1),2);end; 通過(guò)如上代碼,我們可以得到仿真結(jié)果,具體仿真結(jié)果如下所示:圖3-2 原始語(yǔ)音的頻譜 通過(guò)運(yùn)行程序,通聽(tīng)覺(jué)上可以感受到該語(yǔ)音信號(hào)有明顯的雜音,聽(tīng)起來(lái)很不舒服。通過(guò)運(yùn)行后結(jié)果,我們可以看到,該語(yǔ)音信號(hào)的時(shí)域部分,在每次人發(fā)音間隔之間具有明顯的噪聲干擾也就是我們所謂的噪聲。圖3-3語(yǔ)音增強(qiáng)以后的頻譜 通過(guò)語(yǔ)音濾波以后,從聽(tīng)覺(jué)好可以聽(tīng)到語(yǔ)音已經(jīng)變的清晰,沒(méi)用明顯的雜音干擾,分析其信號(hào)頻譜,可以看到,其有效頻率和高頻的幅度比變大,說(shuō)明通過(guò)語(yǔ)音增強(qiáng)后音質(zhì)得到了明顯的改善。3.6 總結(jié)譜減技術(shù)可以被視為一種濾波操作,它對(duì)估計(jì)譜的高信噪比區(qū)域做較少的衰減而對(duì)低信噪比區(qū)域做較大的衰減。通過(guò)采用后文所述的短時(shí)傅立葉變換技術(shù)對(duì)譜減算法進(jìn)一步改進(jìn),發(fā)現(xiàn):譜減算法對(duì)噪聲抑制有著一個(gè)重要的特性,就是其衰減特性隨分析窗長(zhǎng)度的變化而變化。并且與帶噪語(yǔ)音相比,雖然增強(qiáng)后的信號(hào)“清晰度”有所提高,但是卻對(duì)起伏噪聲(音樂(lè)噪聲)的濾除效果并不明顯。從人耳感知度角度來(lái)說(shuō),甚至能明顯感到起伏噪聲的存在,這說(shuō)明譜減算法作為一種基本通用方法并不能很好抑制噪聲,需要我們對(duì)算法做進(jìn)一步改進(jìn),我們首先想到的是利用語(yǔ)音識(shí)別技術(shù)對(duì)待操作語(yǔ)音進(jìn)行端點(diǎn)識(shí)別預(yù)操作:對(duì)已知語(yǔ)音段進(jìn)行端點(diǎn)檢測(cè)預(yù)操作,可有效濾除“語(yǔ)音”之外的噪聲。針對(duì)語(yǔ)音分為清音和濁音的特性,我們采取短時(shí)能量和過(guò)零率這兩種方法。在開(kāi)始進(jìn)行端點(diǎn)檢測(cè)之前,首先為短時(shí)能量和過(guò)零率分別確定兩個(gè)門(mén)限。短時(shí)能量用于區(qū)分?jǐn)?shù)據(jù)段內(nèi)的清音和濁音部分,過(guò)零率用于區(qū)分白噪聲和清音部分。一個(gè)是比較低的門(mén)限,其數(shù)值比較小,對(duì)信號(hào)的變化比較敏感,很容易就會(huì)被超過(guò)。另一個(gè)是比較高的門(mén)限,數(shù)值比較大,信號(hào)必須達(dá)到一定強(qiáng)度,該門(mén)限才可能被超過(guò)。低門(mén)限被超過(guò)未必就是語(yǔ)音的開(kāi)始,有可能是時(shí)間很短的噪聲引起的。高門(mén)限被超過(guò)則可以基本確信是由于信號(hào)引起的。整個(gè)語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)可以分為4段:靜音、過(guò)度段、語(yǔ)音段、結(jié)束。程序中使用一個(gè)變量status來(lái)表示當(dāng)前所處的狀態(tài)。在靜音段,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語(yǔ)音段,因此只要兩個(gè)參數(shù)的數(shù)值都回落到低門(mén)限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果在過(guò)渡段中兩個(gè)參數(shù)中的任一個(gè)超過(guò)了高門(mén)限,就可以確定進(jìn)入語(yǔ)音段了。第四章 語(yǔ)音增強(qiáng)的維納濾波研究4.1 維納濾波的發(fā)展從連續(xù)的(或離散的)輸入數(shù)據(jù)中濾除噪聲和干擾以提取有用信息的過(guò)程稱為濾波,而相應(yīng)的裝置稱為濾波器。根據(jù)濾波器的輸出是否為輸入的線性函數(shù),可將它分為線性濾波器和非線性濾波器兩種。濾波器研究的一個(gè)基本課題就是:如何設(shè)計(jì)和制造最佳的或最優(yōu)的濾波器。所謂最佳濾波器是指能夠根據(jù)某一最佳準(zhǔn)則進(jìn)行濾波的濾波器。利用平穩(wěn)隨機(jī)過(guò)程的相關(guān)特性和頻譜特性對(duì)混有噪聲的信號(hào)進(jìn)行濾波的方法,1942年美國(guó)科學(xué)家N.維納為解決對(duì)空射擊的控制問(wèn)題所建立。維納濾波是40年代在線性濾波理論方面所取得的最重要的成果。從噪聲中提取引號(hào)波形的各種估計(jì)方法中,維納(Wiener)濾波是一種最基本的方法,適用于需要從噪聲中分離出的有用信號(hào)是整個(gè)信號(hào)(波形),而不只是它的幾個(gè)參量。其基本依據(jù)就是最小均方誤差準(zhǔn)則。設(shè)維納濾波器的輸入為含噪聲的隨機(jī)信號(hào)。期望輸出與實(shí)際輸出之間的差值為誤差,對(duì)該誤差求均方,即為均方誤差。因此均方誤差越小,噪聲濾除效果就越好。為使均方誤差最小,關(guān)鍵在于求沖激響應(yīng)。如果能夠滿足維納霍夫方程,就可使維納濾波器達(dá)到最佳。根據(jù)維納霍夫方程,最佳維納濾波器的沖激響應(yīng),完全由輸入自相關(guān)函數(shù)以及輸入與期望輸出的互相關(guān)函數(shù) 所決定。維納濾波器的優(yōu)缺點(diǎn) 維納濾波器的優(yōu)點(diǎn)是適應(yīng)面較廣,無(wú)論平穩(wěn)隨機(jī)過(guò)程是連續(xù)的還是離散的,是標(biāo)量的還是向量的,都可應(yīng)用。對(duì)某些問(wèn)題,還可求出濾波器傳遞函數(shù)的顯式解,并進(jìn)而采用由簡(jiǎn)單的物理元件組成的網(wǎng)絡(luò)構(gòu)成維納濾波器。維納濾波器的缺點(diǎn)是,要求得到半無(wú)限時(shí)間區(qū)間內(nèi)的全部觀察數(shù)據(jù)的條件很難滿足,同時(shí)它也不能用于噪聲為非平穩(wěn)的隨機(jī)過(guò)程的情況,對(duì)于向量情況應(yīng)用也不方便。因此,維納濾波在實(shí)際問(wèn)題中應(yīng)用不多。4.2 維納濾波的理論介紹如果在頻域采樣點(diǎn)上對(duì)信號(hào)進(jìn)行處理,可得如下估計(jì)器式中和分別為第n個(gè)頻點(diǎn)上信號(hào)和噪聲功率譜,為第n個(gè)頻點(diǎn)上語(yǔ)音頻譜的估計(jì)值,為帶噪語(yǔ)音在相應(yīng)頻點(diǎn)上的頻譜值。的估計(jì)為,那么上面式子可以寫(xiě)成 現(xiàn)在假設(shè)為系統(tǒng)的后驗(yàn)信噪比,那么上式我們可以修改為,這是一個(gè)基于后驗(yàn)信噪比的估計(jì)方法??梢?jiàn)上式是基于后驗(yàn)信噪比的估計(jì)方法。現(xiàn)在假設(shè)為先驗(yàn)信噪比,那么上式,這是一個(gè)基于先驗(yàn)信噪比的估計(jì)方法。本論文用一個(gè)性能上好一些的估計(jì)先驗(yàn)信噪比的方法,使得基于先驗(yàn)信噪比估計(jì)的維納濾波器得到了比較好的效果。先驗(yàn)信噪比的估計(jì)方法我們通常采用最大概率釋然估計(jì)法,對(duì)于第k個(gè)譜分量,我們以L個(gè)連續(xù)幀帶噪語(yǔ)音譜分量元,為觀測(cè)信號(hào)第i幀的第k個(gè)譜分量)和噪聲的譜分量為參量,推導(dǎo)在第n分析幀第k個(gè)譜分量的最大似然先驗(yàn)信噪比估計(jì)方法。根據(jù)中心極限定理,語(yǔ)音和噪聲的譜分量可以認(rèn)為是統(tǒng)計(jì)獨(dú)立的隨機(jī)變量,這樣在給定和的情況下,的概率密度函數(shù)為:從上式對(duì)進(jìn)行最大似然估計(jì)得:將上式兩邊除以得上式即為先驗(yàn)信噪比的最大似然估計(jì)。4.3維納濾波增強(qiáng)理論從加性噪聲bn干擾的序列(即序列yn=xn+bn)中恢復(fù)目標(biāo)信號(hào)xn,除了譜減方法之外,另一種方法是尋找一個(gè)線性濾波器hn,使得通過(guò)濾波操作后的序列達(dá)到的最小期望值。在xn和bn不相關(guān)且均為平穩(wěn)信號(hào)的假設(shè)前提下,對(duì)于這個(gè)隨機(jī)優(yōu)化問(wèn)題的頻域解可用抑制濾波器表示:這就是維納濾波器(Wiener filter)。當(dāng)信號(hào)xn和bn滿足以上的假設(shè)條件時(shí),維納濾波的方法能夠?qū)崿F(xiàn)噪聲抑制,并且不會(huì)引入很大的目標(biāo)估計(jì)失真和背景殘留噪聲。所需要的功率譜和可以分別從時(shí)間序列xn與bn通過(guò)多幀平均得到。然而在實(shí)際中,目標(biāo)信號(hào)和背景噪聲都是非平穩(wěn)的,也就是說(shuō),它們的功率譜會(huì)隨著時(shí)間變化,即可以表示成時(shí)變函數(shù)和。因此,理想的情況是對(duì)每一幀信號(hào)的STFT采用不同的維納濾波器進(jìn)行濾波。在這里,我們考慮了平穩(wěn)的背景噪聲情況,時(shí)變的維納濾波器可以表示成:其中是對(duì)xn的時(shí)變功率譜的估計(jì),是對(duì)平穩(wěn)噪聲的功率譜的估計(jì)。時(shí)變維納濾波器也可以寫(xiě)為:其中引入了信噪比。維納濾波對(duì)低信噪比區(qū)域有更強(qiáng)的噪聲抑制性能,這是因?yàn)樽V減過(guò)程的傳遞函數(shù)是對(duì)式(3-3)做了壓縮(開(kāi)方)處理,所以譜減的一直效果不如維納濾波方法。與譜減的另一個(gè)重要的區(qū)別是維納濾波并不需要一個(gè)絕對(duì)的門(mén)限。由于噪聲也是隨機(jī)過(guò)程,因此這種估計(jì)只能建立在統(tǒng)計(jì)模型基礎(chǔ)上。人耳感知對(duì)語(yǔ)音頻譜分量的相位不敏感,因此目前的增強(qiáng)算法主要針對(duì)短時(shí)譜幅度。在這里我們?cè)賹?duì)維納濾波法提出了改進(jìn)型方法是基于短時(shí)傅立葉變換的維納濾波來(lái)估計(jì)目標(biāo)譜的方法。利用上節(jié)提出的重疊相加法對(duì)系統(tǒng)讀入的語(yǔ)音數(shù)據(jù)進(jìn)行短時(shí)操作后,表示為。與以前一樣,我們還假設(shè)背景噪聲bn是平穩(wěn)的,它的功率譜是通過(guò)對(duì)一段已知的噪聲區(qū)進(jìn)行平均得到的。對(duì)于非平穩(wěn)的目標(biāo)信號(hào)xn,要得到它的時(shí)變功率譜在第p幀的一個(gè)估計(jì),我們采用前一幀的維納濾波器來(lái)增強(qiáng)當(dāng)前的信號(hào)幀。通過(guò)實(shí)驗(yàn)結(jié)果可以得知,這種做法可以得到第p幀的增強(qiáng)STFT:然后用它來(lái)更新維納濾波器:時(shí)變目標(biāo)信號(hào)的功率譜估計(jì),其初始化采用原始的譜測(cè)量。相關(guān)程序如下(略去讀入數(shù)據(jù)操作):M=X_FB+N_FB;V=1./M;H=X_FB.*V;Y_FB=X_FB.*H;其中,X_FB和N_FB分別為對(duì)純凈語(yǔ)音和噪聲信號(hào)進(jìn)行短時(shí)傅立葉變換后再取絕對(duì)值的數(shù)組。4.4 利用MATLAB設(shè)計(jì)維納濾波器上面我們簡(jiǎn)單的介紹了維納濾波器的基本理論,下面我們將利用MATLAB來(lái)設(shè)計(jì)維納濾波器并選取一個(gè)音頻信號(hào)進(jìn)行增強(qiáng)處理并對(duì)比前后結(jié)果得到增強(qiáng)的效果,并對(duì)前后兩次進(jìn)行時(shí)域和頻域信號(hào)分析。*clc,clearx, fs=wavread(no1.wav);sound(x, fs);% 播放此音頻snr1=SNR(x,0.002*randn(1)time=(1:1024)/fs; figure(1);plotspec(x,1/fs); %原始的語(yǔ)音信號(hào)時(shí)域和頻域分析y=wiener(x,fs); %通過(guò)維納濾波器進(jìn)行語(yǔ)音信號(hào)的增強(qiáng)figure(2);plotspec(y,1/fs); %原始的語(yǔ)音信號(hào)時(shí)域和頻域分析sound(y, fs); %播語(yǔ)音增強(qiáng)后的音頻snr2=SNR(y,0.002*randn(1)這段代碼主要含義為首先讀取一個(gè)語(yǔ)音信號(hào),然后對(duì)這個(gè)信號(hào)進(jìn)行頻譜分析,最后將這個(gè)語(yǔ)音信號(hào)通過(guò)維納濾波,并對(duì)維納濾波以后的信號(hào)進(jìn)行頻譜分析從而對(duì)比語(yǔ)音增強(qiáng)前后兩次效果。在這里我們主要自定義了以下幾個(gè)函數(shù):SNR,plotspec,wiener分別為信噪比計(jì)算函數(shù),頻譜分析函數(shù),維納濾波函數(shù)。其中wiener函數(shù)是系統(tǒng)的主要函數(shù),通過(guò)這個(gè)函數(shù),我們就可以完成語(yǔ)音信號(hào)的增強(qiáng)處理。然后通過(guò)plotspec進(jìn)行信號(hào)的頻譜分析。其中維納濾波主要過(guò)程如下:*%維納濾波for k=1:nf if k=NNoise SpeechFlag=0; NoiseCounter=NNoise; else NoiseMargin=3; HangOver=8; SpectralDist= 20*(log10(ymag(:,k)-log10(MN); SpectralDist(find(SpectralDist0)=0; Dist=mean(SpectralDist); if (Dist HangOver) SpeechFlag=0; else SpeechFlag=1; end end下面我們來(lái)對(duì)比分析以后的效果。 圖4-1 原始信號(hào)的時(shí)域頻域信號(hào)分析 通過(guò)運(yùn)行程序,通聽(tīng)覺(jué)上可以感受到該語(yǔ)音信號(hào)有明顯的雜音,聽(tīng)起來(lái)很不舒服。通過(guò)運(yùn)行后結(jié)果,我們可以看到,該語(yǔ)音信號(hào)的時(shí)域部分,在每次人發(fā)音間隔之間具有明顯的噪聲干擾也就是我們所謂的噪聲。圖4-2 通維納濾波進(jìn)行語(yǔ)音增強(qiáng)后的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年中級(jí)經(jīng)濟(jì)師考試題庫(kù)a4版可打印
- 2024年中級(jí)經(jīng)濟(jì)師考試題庫(kù)(奪冠)
- 2024年云南省《輔警招聘考試必刷500題》考試題庫(kù)附完整答案
- 2024年咨詢工程師考試題庫(kù)附答案(基礎(chǔ)題) (一)
- 2024年咨詢工程師(經(jīng)濟(jì)政策)題庫(kù)附參考答案(考試直接用)
- 2025年行政執(zhí)法證資格考試必刷經(jīng)典題庫(kù)及答案(共250題)
- 預(yù)防接種服務(wù)政策解讀
- 送教上門(mén)工作總結(jié)
- 青年員工違法案件警示
- 闌尾炎病理生理圖
- 美育教育(下)學(xué)習(xí)通章節(jié)答案期末考試題庫(kù)2023年
- 認(rèn)識(shí)壓力容器制造的工藝 課件
- 高等數(shù)學(xué)35函數(shù)最大值和最小值課件
- 新人教版七年級(jí)數(shù)學(xué)下第一二單元檢測(cè)試題
- 化工熱力學(xué)答案-馮新-宣愛(ài)國(guó)-課后總習(xí)題答案詳解
- 拉斐爾課件完整版
- EIM Book 1 Unit 8 We're going on holiday單元知識(shí)要點(diǎn)
- 核舟記測(cè)模擬試題及答案
- MySQL中文參考手冊(cè)MySQL學(xué)習(xí)教程
- 集群企業(yè)住所托管服務(wù)協(xié)議書(shū)
- YS/T 1028.3-2015磷酸鐵鋰化學(xué)分析方法第3部分:磷量的測(cè)定磷鉬酸喹啉稱量法
評(píng)論
0/150
提交評(píng)論