改進(jìn)譜加減在語音噪聲檢測(cè)中的應(yīng)用_第1頁
改進(jìn)譜加減在語音噪聲檢測(cè)中的應(yīng)用_第2頁
改進(jìn)譜加減在語音噪聲檢測(cè)中的應(yīng)用_第3頁
改進(jìn)譜加減在語音噪聲檢測(cè)中的應(yīng)用_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

改進(jìn)譜加減在語音噪聲檢測(cè)中的應(yīng)用

0語音信號(hào)去噪的現(xiàn)有技術(shù)在語音通信過程中,人們不可避免地會(huì)受到環(huán)境和傳輸手段引入的噪聲的干擾。在各種語音處理的應(yīng)用中,由于背景噪聲使得語音質(zhì)量降低的現(xiàn)象非常普遍,例如在移動(dòng)通訊和語音識(shí)別中就希望語音信號(hào)有盡可能高的信噪比,因此設(shè)法去除語音信號(hào)中的非相關(guān)噪聲,提高語音信號(hào)的信噪比,改善語音質(zhì)量,即語音去噪技術(shù)就成為語音研究中的一個(gè)重要課題。目前語音信號(hào)的去噪方法大體上有四類:噪聲對(duì)消法、諧波增強(qiáng)法、基于參數(shù)估計(jì)的語音再合成法和基于語音短時(shí)譜估計(jì)的增強(qiáng)算法。其中,基于短時(shí)譜估計(jì)的譜相減法是一種發(fā)展較早且應(yīng)用較為成熟的語音去噪算法,該算法利用加性噪聲與語音不相關(guān)的特點(diǎn),在假設(shè)噪聲是統(tǒng)計(jì)平穩(wěn)的前提下,用無語音間隙測(cè)算得到的噪聲頻譜估計(jì)值取代有語音期間噪聲的頻譜,與含噪語音頻譜相減,從而獲得語音頻譜的估計(jì)值。譜減法具有算法簡(jiǎn)單、運(yùn)算量小的特點(diǎn),便于實(shí)現(xiàn)快速處理,往往能夠獲得較高的輸出信噪比,所以被廣泛采用。該算法經(jīng)典形式的不足之處是處理后會(huì)產(chǎn)生具有一定的節(jié)奏性起伏、聽上去類似音樂的“音樂噪聲”。針對(duì)這一問題人們提出了各種改進(jìn)形式,這些形式雖未將“音樂噪聲”徹底濾除,但的確在不同程度上使其有所消弱,令聽者樂于接受。文中對(duì)譜減法經(jīng)典形式及多種改進(jìn)形式在理論上加以分析,在此基礎(chǔ)上,提出了在信噪比較低的情況下一種簡(jiǎn)單的改進(jìn)方案,在改進(jìn)譜減法的基礎(chǔ)上,根據(jù)語音的短時(shí)能量和過零率綜合判斷在無聲或有聲期間是否含有過高的偶然噪聲,這樣設(shè)定一定的參數(shù)就可以去除剩余的偶然噪聲。1譜法的原理1.1號(hào)sn被加性噪聲bn所污染的語音yn所污染的語音yn語音yn語音yn語音是非平穩(wěn)隨機(jī)過程,但在10~30ms的分析幀內(nèi)可近似看成是平穩(wěn)的過程,因此語音的短時(shí)譜具有相對(duì)穩(wěn)定特性。假設(shè)純凈語音信號(hào)s(n)被加性噪聲d(n)所污染,形成帶噪語音y(n),即y(n)=s(n)+d(n)。短時(shí)譜處理時(shí)要將信號(hào)分幀處理,分幀時(shí)時(shí)域信號(hào)首先分成相疊的幀信號(hào),幀長(zhǎng)為N,幀移為N/2,設(shè)觀察到的一幀帶噪語音信號(hào)為:其中,s(i)為一幀純凈語音,d(i)為一幀平穩(wěn)加性高斯噪聲,且有s(i)與d(i)相互獨(dú)立,為了避免分幀時(shí)的截?cái)嘈?yīng),應(yīng)在變換到頻域之前對(duì)y(i)加窗處理。1.2不同紅外噪聲下的nk、k-nk的語音預(yù)測(cè)和運(yùn)用譜減法的經(jīng)典形式即在頻域?qū)г胝Z音的功率譜減去噪聲的功率譜得到語音功率譜估計(jì),開方后就得到語音幅度估計(jì),將其相位恢復(fù)后再采用逆傅里葉變換恢復(fù)時(shí)域信號(hào)??紤]到人耳對(duì)相位失真的感知不敏感,相位恢復(fù)時(shí)所采用的相位是帶噪語音的相位信息。譜減法的基本原理如圖1所示,設(shè)y(i)的傅里葉系數(shù)為Yk,s(i)的傅里葉系數(shù)為Sk,d(i)的傅里葉系數(shù)為Nk,則如式(2)所示:由于s(i)和d(i)相互獨(dú)立,Nk滿足高斯分布且均值為零,所以有:對(duì)于一個(gè)分析幀內(nèi)的短時(shí)平穩(wěn)過程,有:|Yk|2=|Sk|2+λn(k),其中λn(k)是無話時(shí)|Nk|2的統(tǒng)計(jì)平均。此時(shí),原始語音的估計(jì)值如式(4)所示:|S?k|2=[|Yk|2?E[|Nk|2]]1/2=[|Yk|2?λn(k)]1/2(4)|S^k|2=[|Yk|2-E[|Νk|2]]1/2=[|Yk|2-λn(k)]1/2(4)|S?S^k|是增強(qiáng)后語音信號(hào)的幅度,圖1是功率譜相減法的經(jīng)典形式。在譜減法中,采用的是用噪聲的統(tǒng)計(jì)均值代替當(dāng)前幀的噪聲,因而在當(dāng)前幀噪聲的一些隨機(jī)譜峰處,經(jīng)過譜減后就剩下殘余的譜峰,而在當(dāng)前幀的噪聲譜谷處,由于采用了半波整流,殘余噪聲譜成份被設(shè)成接近于零的值,這樣經(jīng)過增強(qiáng)后的殘余噪聲在頻域上就成為一些離散的譜峰,相應(yīng)地在時(shí)域就呈現(xiàn)出一些類似正弦信號(hào)的疊加,所以就會(huì)呈現(xiàn)出樂音的特性,即“音樂噪聲”。1.3通過譜相減時(shí)的噪聲去噪方案針對(duì)基本形式的譜減法的殘留噪聲過多且殘余“音樂噪聲”過強(qiáng),眾多研究者提出了各種譜相減法的改進(jìn)形式。提出較早的有:在估計(jì)噪聲譜時(shí)用無語音頻譜的最大值取代基本算法中的均值進(jìn)行處理;譜相減時(shí)給噪聲譜乘上一個(gè)大于1的參數(shù),使剩余噪聲能量減至更低等。這些方案均在不同程度上消弱了“音樂噪聲”對(duì)語音的影響。RobertD.Preuss提出了取各無語音頻譜的最大值,替代經(jīng)典形式中取各無語音頻譜均值,作為估計(jì)噪聲譜。如式(5),(6)所示:通過這種改進(jìn)即可使噪聲分量得到進(jìn)一步抑制,以達(dá)到減少“音樂噪聲”的目的。但試聽時(shí)發(fā)現(xiàn)個(gè)別位置語音損失較大。Berouti提出的重要改進(jìn)方案是通過譜相減時(shí)給噪聲譜乘上一個(gè)大于1的參數(shù),使在頻譜減法時(shí)減去的值比估計(jì)的噪聲譜更多,即:|S?k|=[|Yk|α?βλαn(k)]1/α(7)|S^k|=[|Yk|α-βλnα(k)]1/α(7)這里引入了兩個(gè)參數(shù)α和β用來進(jìn)行調(diào)節(jié)。顯然,當(dāng)α=2,β=1時(shí)就是普通譜相減法。通過適當(dāng)調(diào)節(jié)這兩個(gè)參數(shù)可使去噪效果達(dá)到比較好的增強(qiáng)效果。但過多增加去噪程度會(huì)使增強(qiáng)后的語音失真增大。2濾音、清音剩余噪聲模型在輸入信噪比較低的情況下,改進(jìn)的譜減法也很難去除偶然的高噪聲。文中在改進(jìn)譜減法的基礎(chǔ)上,根據(jù)語音的短時(shí)能量和過零率綜合判斷在無聲或有聲期間是否含有偶然噪聲過高,由此設(shè)定合適的參數(shù)降低偶然噪聲,從而提高語音質(zhì)量和輸出信噪比。設(shè)s?s^(i)為譜減法輸出的某一幀增強(qiáng)語音信號(hào),短時(shí)能量為:amp=∑i=1Ns?2(i)(8)amp=∑i=1Νs^2(i)(8)短時(shí)過零率為:ZCR=12∑n=1N|sgn[s?(i)]?sgn[s?(i?1)]|(9)ΖCR=12∑n=1Ν|sgn[s^(i)]-sgn[s^(i-1)]|(9)式中ZCR表示一幀信號(hào)樣本改變符號(hào)的次數(shù)即過零率。其中sgn是符號(hào)函數(shù):sgn[s?(i)]=[1s?(i)≥0?1s?(i)<0(10)sgn[s^(i)]=[1s^(i)≥0-1s^(i)<0(10)設(shè):式中:α1+α2=1,β1+β2=1(α1,α2,β1,β2>0),h1,h2,h3為門限值。根據(jù)FF來判斷濁音和清音中是否含有剩余白噪聲,無聲段中是否含有剩余白噪聲,然后設(shè)定合適的參數(shù)來降低噪聲。因?yàn)閍mp和ZCR可以判斷清音和濁音、有聲和無聲。濁音的amp比清音大,清音具有較高的ZCR。3語音去噪效果分析語音信號(hào)是一典型的非平穩(wěn)隨機(jī)信號(hào),用文中方法對(duì)實(shí)際語音信號(hào)進(jìn)行了仿真研究。實(shí)驗(yàn)中,所用語音是在安靜的環(huán)境下,利用話筒錄得的一段語音信號(hào)。內(nèi)容為“走進(jìn)了經(jīng)濟(jì)生活,走出了自己的風(fēng)格”。經(jīng)8kHz采樣,PCM編碼,量化為數(shù)字信號(hào),單聲道,數(shù)據(jù)長(zhǎng)28000點(diǎn)。噪聲為高斯白噪聲。按一定比例混合生成三種不同的信噪比(-5dB,0dB,5dB)的帶噪語音。帶噪語音通過長(zhǎng)度為256點(diǎn)(32ms)的漢明窗形成長(zhǎng)度為256點(diǎn)的語音幀,相鄰兩幀之間重疊128點(diǎn),然后對(duì)帶噪語音逐幀進(jìn)行去噪處理,用Matlab7仿真實(shí)現(xiàn)。如圖2,圖3所示,給出不同輸入SNR下語音去噪的仿真結(jié)果。不難看出,經(jīng)過去噪后的語音質(zhì)量和輸出SNR在一定程度上都有所改善,文中算法的去噪效果明顯優(yōu)于改進(jìn)算法,特別是在低信噪比的情況下,效果更為明顯。如圖4,圖5所示,給出了不同輸入SNR下語音去噪前后的寬帶語譜圖偽彩色顯示圖。其橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示頻率,而每像素的灰度值大小反映相應(yīng)時(shí)刻和相應(yīng)頻率的信號(hào)能量密度,這種時(shí)頻圖稱為語譜圖(Spectrogam)。從語譜圖上不僅能看出任一時(shí)刻發(fā)音器官的共振峰特征,而且可以看出語音的基因頻率,是否清音、爆破音等。語譜分析在語音識(shí)別、合成及編碼中很有意義。語譜圖中的花紋有橫杠、亂紋和豎直條等。橫杠是與時(shí)間軸平行的幾條帶紋,它們是共振峰。從橫杠對(duì)應(yīng)的頻率和寬度可以確定相應(yīng)的共振峰頻率和帶寬。在一個(gè)語音段的語譜圖中,有沒有橫杠出現(xiàn)是判斷它是否是濁音的標(biāo)志。豎直條是語譜圖中出現(xiàn)與時(shí)間軸垂直的一條窄條。每個(gè)豎直條相當(dāng)于一個(gè)基音,條紋的起點(diǎn)相當(dāng)于聲門脈沖的起點(diǎn),條紋之間的距離表示基音周期。條紋越密表示基音頻率越高。實(shí)驗(yàn)結(jié)果表明,用文中算法去噪后的語音,其語譜圖能清楚地看到濁音共振峰時(shí)變過程,特別是時(shí)間分辨率高。語音去噪效果的客觀評(píng)價(jià)是以語音系統(tǒng)的輸入信號(hào)和輸出信號(hào)之間的誤差大小來判別語音質(zhì)量的好壞。信噪比(SNR)是衡量針對(duì)寬帶噪聲失真的語音去噪效果的常規(guī)方法。假設(shè)y(n)為帶噪語音信號(hào),s(n)為其中的純凈語音信號(hào),s?s^(n)為去噪后的語音信號(hào),L為語音信號(hào)的長(zhǎng)度,則輸入信噪比為:SNRin=10lg∑n=0Ls2(n)∑n=0L[y(n)?s(n)]2(13)SΝRin=10lg∑n=0Ls2(n)∑n=0L[y(n)-s(n)]2(13)輸出信噪比為:SNRout=10lg∑n=0Ls2(n)∑n=0L[s?(n)?s(n)]2(14)SΝRout=10lg∑n=0Ls2(n)∑n=0L[s^(n)-s(n)]2(14)表1給出了在語音信號(hào)輸入信噪比分別為-5dB,0dB和5dB的情況下,由文中方法得出的實(shí)驗(yàn)結(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論