語(yǔ)音信號(hào)的短時(shí)分析技術(shù)_第1頁(yè)
語(yǔ)音信號(hào)的短時(shí)分析技術(shù)_第2頁(yè)
語(yǔ)音信號(hào)的短時(shí)分析技術(shù)_第3頁(yè)
語(yǔ)音信號(hào)的短時(shí)分析技術(shù)_第4頁(yè)
語(yǔ)音信號(hào)的短時(shí)分析技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、v常用的短時(shí)分析技術(shù)有:短時(shí)能量短時(shí)平均幅度短時(shí)過零率短時(shí)自相關(guān)函數(shù)短時(shí)平均幅度差函數(shù)短時(shí)頻譜短時(shí)功率譜預(yù)濾波v預(yù)濾波的目的防止混疊干擾抑制50Hz的電源干擾預(yù)濾波實(shí)際上是一個(gè)帶通濾波器,其上下截止頻率分別為fH和fL 。對(duì)于絕大多數(shù)語(yǔ)音編碼器而言,要求fH=3400Hz, fL=60100Hz, fs=8KHz.對(duì)于語(yǔ)音識(shí)別系統(tǒng)而言,用于電話用戶時(shí)要求技術(shù)指標(biāo)與語(yǔ)音編碼器相同,如果對(duì)于更高的要求場(chǎng)合,則fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz幀和加窗的概念v短時(shí)分析將語(yǔ)音流分為一段一段來處理,每一段稱為一“幀”;v幀長(zhǎng):1030ms,20ms常見;(

2、幀率)幀移:01/2幀長(zhǎng),幀與幀之間的平滑過渡;v為了減小語(yǔ)音幀的截?cái)嘈?yīng),需要加窗處理;)()()(nwnsnsw10, 1)(Nnnw10),12cos(46. 054. 0)(NnNnnw10),12cos(1 (5 . 0)(NnNnnw矩形窗HammingHannv不同的窗口選擇(形狀、長(zhǎng)度),將決定短時(shí)平均能量的性質(zhì)。什么樣的窗口,其短時(shí)平均能量才能更好的反映語(yǔ)音信號(hào)的振幅變化哪?v首先是窗口的形狀,窗口有多種形狀,他們都是中心對(duì)稱的。v其次是窗口的長(zhǎng)度,無論什么形狀的窗口,窗口序列的長(zhǎng)度N將起決定性的作用。N選得太大,濾波器的通帶變窄,波形的振幅變化細(xì)節(jié)就看不出來,反之,如果N太

3、小,則濾波器的通帶變寬,信號(hào)得不到足夠的平均。v所謂窗口長(zhǎng)度的長(zhǎng)短,都是相對(duì)于語(yǔ)音信號(hào)的基調(diào)周期而言的。通常認(rèn)為在一個(gè)語(yǔ)音幀內(nèi),應(yīng)含有17個(gè)基調(diào)周期為好。可是人的語(yǔ)音的基調(diào)周期值是變化的,從女性小孩的2ms到老年男子的14ms(即基調(diào)頻率為500Hz至70Hz),所以N的選擇是比較困難的。通常折衷的選擇N為100200點(diǎn)為宜。若采用頻率為10KHz,則相當(dāng)于每幀的長(zhǎng)度(即窗口序列的長(zhǎng)度)約為1020ms為宜。若采樣頻率為8KHz,200點(diǎn)相當(dāng)于25ms,40幀/s;120點(diǎn)相當(dāng)于15ms,66幀/s.窗函數(shù)及其比較三種窗函數(shù)都有低通特性,通過分析三種窗的頻率響應(yīng)幅度特性可以發(fā)現(xiàn):矩形窗的主瓣寬

4、度最小,旁瓣高度最高,會(huì)導(dǎo)致泄漏現(xiàn)象,哈明窗的主瓣最寬,旁瓣高度最低,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。v窗口的形狀和長(zhǎng)度對(duì)分析影響很大,不同的分析方法對(duì)窗函數(shù)的要求不盡一樣;10203040506000.81SamplesAmplitudeTime domain00.8-100-80-60-40-2002040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHamming10203040506000.81SamplesAmplitude

5、Time domain00.8-150-100-50050Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domain10203040506000.81SamplesAmplitudeTime domain00.8-20-10010203040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHann矩形窗語(yǔ)音信號(hào)的短時(shí)能量(語(yǔ)音信號(hào)強(qiáng)度的度量參數(shù))v如果窗的起點(diǎn)是n=0,短時(shí)能量為v如果窗的起點(diǎn)

6、為n=m,短時(shí)能量為:)(1020nSENnw)(12mnSEmNmnwm不同窗口寬度的短時(shí)能量函數(shù)示意圖短時(shí)平均能量的主要用途可以從語(yǔ)音中區(qū)別出濁音來,因?yàn)闈嵋魰r(shí)短時(shí)平均能量的值要比清音時(shí)短時(shí)平均能量的值大很多;可以用來區(qū)別聲母和韻母的分界、無聲和有聲的分界等最為一種超音段信息,用于語(yǔ)音識(shí)別中。語(yǔ)音信號(hào)的短時(shí)平均幅度v如果窗的起點(diǎn)是n=0,短時(shí)平均幅度為v如果窗的起點(diǎn)為n=m,短時(shí)平均幅度為:1)(mNmnwmmnSM100)(NnwnSMv短時(shí)過零率v波形穿過橫軸(零電平)的次數(shù)|)1(sgn)(sgn|210nsnsZww短時(shí)過零可以看作信號(hào)頻率的簡(jiǎn)單度量0, 10, 1)sgn(xxx

7、語(yǔ)音信號(hào)的短時(shí)過零率Zv過零就是指信號(hào)通過零值。過零率就是每秒內(nèi)信號(hào)值通過零值的次數(shù)。v對(duì)于離散時(shí)間序列,過零則是指序列取樣值改變符號(hào),過零率則是每個(gè)樣本的改變符號(hào)的次數(shù)。對(duì)于語(yǔ)音信號(hào),則是指在一幀語(yǔ)音中語(yǔ)音信號(hào)波形穿過橫軸(零電平)的次數(shù)??梢杂孟噜弮蓚€(gè)取樣改變符號(hào)的次數(shù)來計(jì)算。v如果窗的起點(diǎn)是n=0,短時(shí)過零率Z為100)1()(21NnwwnSSgnnSSgnZ將Z應(yīng)用于語(yǔ)音信號(hào)分析中v發(fā)濁音時(shí),聲帶振動(dòng),因而聲門激勵(lì)是以此音調(diào)頻率為基頻來使聲道共振;盡管有若干個(gè)共振峰,但其能量的分布集中于低于3KHz的頻率范圍內(nèi)。v發(fā)清音時(shí)聲帶不振動(dòng),聲道某部分阻塞產(chǎn)生類白噪聲激勵(lì),通過聲道后其能量集

8、中在比濁音時(shí)更高的頻率范圍內(nèi)。v濁音時(shí)能量集中于較低頻率段內(nèi),具有較低的過零率,而清音時(shí)能量集中于較高頻率段內(nèi),具有較高的過零率。濁音和清音情況下典型的平均過零率的直方圖。直方圖的分布形狀與高斯分布很吻合,而且濁音時(shí)的短時(shí)平均過零率的均值為14過零/10ms,清音時(shí)短時(shí)過零率的均值為47過零/10ms。注意到濁音和清音有一個(gè)交疊區(qū)域,此時(shí)很難分清是濁音還是清音,盡管如此,平均過零率仍可以粗略的判斷清音和濁音。v短時(shí)平均能量和短時(shí)平均過零率兩個(gè)參數(shù),也都可以用于語(yǔ)音識(shí)別中。主要用于識(shí)別無聲段和語(yǔ)音段的起點(diǎn)和終點(diǎn)的位置。v在背景噪聲比較小的時(shí)候用平均能量來識(shí)別比較有效,在背景噪聲比較大的時(shí)候用平均

9、過零率來識(shí)別比較有效,但是通常情況是兩個(gè)參數(shù)聯(lián)合進(jìn)行識(shí)別。vE、M、Z的條件概率密度函數(shù)濁音、清音、無聲的短時(shí)特性S(無聲)U(清音)V(濁音)三種情況下短時(shí)平均幅度的條件概率密度的示意圖??梢钥闯?,濁音的短時(shí)平均幅度最大,無聲的短時(shí)平均幅度最小。清音的短時(shí)過零率最大,無聲居中,濁音的短時(shí)過零率最小。語(yǔ)音有聲和無聲v在許多語(yǔ)音處理技術(shù)中需要判斷一段輸入信號(hào)中哪些是語(yǔ)音段,哪些是無聲段(只有背景噪聲)v在語(yǔ)音識(shí)別中正確的決定所要識(shí)別語(yǔ)音的起點(diǎn)、終點(diǎn)對(duì)于提高識(shí)別率往往是重要的。v對(duì)于數(shù)字移動(dòng)通信的手持機(jī)編譯碼器,在較長(zhǎng)的無聲段應(yīng)降低發(fā)射功率以節(jié)約其電池的消耗。語(yǔ)音有聲和無聲v對(duì)于已經(jīng)判定為語(yǔ)音段的

10、部分,尚需決定其清音或濁音,無論對(duì)于語(yǔ)音識(shí)別還是低速語(yǔ)音編譯碼器這都是很重要的。這些問題可以概括為無聲/有聲判決以及更細(xì)致的S/U/V判決。v能夠?qū)崿F(xiàn)這些判決的依據(jù)在于不同性質(zhì)的語(yǔ)音的各種短時(shí)參數(shù)具有不同的概率密度函數(shù)以及相鄰的若干幀語(yǔ)音應(yīng)具有一致的語(yǔ)音特性,它們不會(huì)在 S、U、V之間跳來跳去。判斷語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn)v在獨(dú)立詞(字)語(yǔ)音識(shí)別系統(tǒng)中需正確判定每一個(gè)輸入語(yǔ)音的起點(diǎn)和終點(diǎn),利用短時(shí)平均幅度和短時(shí)過零率可以做到這一點(diǎn)。v首先,可根據(jù)濁語(yǔ)音情況下短時(shí)平均幅度M的概率密度函數(shù)P(M/V)確定一個(gè)閾值參數(shù)MH, MH的值定得比較高。當(dāng)一幀輸入信號(hào)的M值超過MH時(shí),就可以十分肯定該幀語(yǔ)音信號(hào)

11、不是無聲,而有相當(dāng)大的可能性是濁音。判斷語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn)v根據(jù)MH可判定輸入語(yǔ)音中的前后兩個(gè)點(diǎn)N1和N2, N1和N2之間肯定是語(yǔ)音段,但是語(yǔ)音的精確起點(diǎn)、終點(diǎn)還要在N1之前和N2之后仔細(xì)查找。為此在設(shè)置一個(gè)低閾值參數(shù)ML ,由N1向前找,當(dāng)短時(shí)平均幅度M由大到小減至ML時(shí)可以確定點(diǎn)N1 。類似由N2向后找,可以確定N2 。在N1和N2之間仍能肯定是語(yǔ)音段。判斷語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn)v由N1向前和N2向后繼續(xù)用短時(shí)過零率Z進(jìn)行搜索。根據(jù)無聲情況下短時(shí)過零率Z的均值,設(shè)置一個(gè)參數(shù)Z0,如果由N1向前搜索時(shí)Z始終大于Z0的3倍,則認(rèn)為這些信號(hào)仍屬于語(yǔ)音段,直至Z突然下降到低于3Z0值時(shí),這時(shí)可以

12、確定語(yǔ)音的精確起點(diǎn)(為了保證可靠,由N1 向前搜索時(shí)間不超過25ms)。對(duì)終點(diǎn)做同樣的處理。采取這一算法的原因在于, N1以前可能是一段清輔音段(如f,s),它的能量相當(dāng)弱,依靠能量不可能把他們與無聲段區(qū)別開,而他們的過零率明顯高于無聲,因而能用這個(gè)參數(shù)來精確的判斷二者的分割點(diǎn),也就是語(yǔ)音真正的起點(diǎn)。判斷語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn)v另一種判斷的方法是如果能夠求出S、U、V三種情況下短時(shí)平均幅度M和短時(shí)過零率Z的條件聯(lián)合概率密度函數(shù)P(M、 Z/S), P(M、Z/U), P(M、Z/V),那么就可以采用統(tǒng)計(jì)學(xué)中的最大似然算法,根據(jù)一幀信號(hào)的M和Z值來判斷它的S/U/V。就是計(jì)算后驗(yàn)概率:vP(X/M

13、,Z)=P(M,Z/X)P(X)/P(M,Z)v其中,X=S或U或V。后驗(yàn)概率最大者即作為判決結(jié)果。v事實(shí)上,僅依靠M和Z兩個(gè)參數(shù)還是不夠的,通常要選擇更多的參數(shù),如相關(guān)函數(shù)等。v短時(shí)自相關(guān)函數(shù)10)()()(kNnwwwknsnskR1、是偶函數(shù);2、s(n)是周期的,那么R(k)也是周期的;3、可用于基音周期估計(jì)和線性預(yù)測(cè)分析;語(yǔ)音信號(hào)的短時(shí)自相關(guān)函數(shù)假設(shè) 一段加窗語(yǔ)音信號(hào),非零區(qū)間為n=0N-1, 的自相關(guān)函數(shù)稱為語(yǔ)音信號(hào)的短時(shí)自相關(guān)函數(shù),)(nsw 1, 1)()()()()(10NNllnSnSlnSnSlRnlNnwwwww可以證明,自相關(guān)函數(shù)是偶函數(shù),且在l=0處取得最大值,且值

14、為短時(shí)能量)(nswv修正的自相關(guān)函數(shù)KkknsnskRNnwww0, )()()(10)()()(nwnsnswKNnnw10, 1)(短時(shí)自相關(guān)函數(shù)的特點(diǎn)濁音是周期信號(hào),濁音的短時(shí)自相關(guān)函數(shù)也呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號(hào)的周期。清音接近于隨機(jī)噪聲,請(qǐng)音的短時(shí)自相關(guān)函數(shù)不具有周期性,且隨著l的增大迅速減小。根據(jù)這個(gè)性質(zhì)可以判斷一個(gè)語(yǔ)音信號(hào)是清音還是濁音,還可以判斷濁音的基音周期。語(yǔ)音信號(hào)的短時(shí)頻譜)(nsw的離散時(shí)域付里葉變換)(exp( jwSw稱為語(yǔ)音信號(hào)的短時(shí)頻譜10)exp()()(exp(NnwwjwnnsjwS2)(exp(jwSw稱為語(yǔ)音信號(hào)的短時(shí)功率譜語(yǔ)音信

15、號(hào)的短時(shí)頻譜窗函數(shù)w(n)語(yǔ)音信號(hào)S(n)加窗語(yǔ)音信號(hào)Sw(n)DTFTS(exp(jw)DTFTW(exp(jw)DTFTSw(exp(jw)計(jì)算短時(shí)頻譜一般采用哈明窗)(exp()(exp()(exp(jwWjwSjwSw)()()(nwnsnswv短時(shí)平均幅度差函數(shù)(AMDF)Average Magnitude Difference FunctionRoss等人于1974年提出的 10| )()(|)(lNnwwwnslnslD050100150200250300350-4000-20000200040006000Voiced Frame. The pitch is about 42.0

16、5010015020025030035002468x 105AMDF Fun050100150200250300350400450-4000-2000020004000(a) A Voiced Speech Segment05010015020025030035040045002468x 105(b) AMDF for the Speech Segment( + local minima )050100150200250300350400450-2000020004000A: Speech Segment05010015020025000.511.522.5x 105B: Modified A

17、MDF( + local minima )短時(shí)基音周期估計(jì)v基于短時(shí)自相關(guān)函數(shù)的基音周期估計(jì)最大峰與基音周期不一致,要求幀長(zhǎng)大于兩個(gè)基音周期;受共振峰的干擾,可以采取濾波或中心消波預(yù)處理。v基于短時(shí)AMDF的基音周期估計(jì)需進(jìn)行谷值點(diǎn)清晰度檢查、比較復(fù)雜的閾值判決;預(yù)處理可以改善效果;對(duì)幅度變化比較敏感。基于短時(shí)自相關(guān)函數(shù)的基音周期估計(jì)方法v短時(shí)自相關(guān)函數(shù)在基音周期的各個(gè)整數(shù)倍點(diǎn)上取得最大值,只要能找到第一最大峰值點(diǎn)的位置并計(jì)算它與l=0點(diǎn)的間隔,便能估計(jì)出基音周期。v實(shí)際上,第一最大峰值點(diǎn)的位置有時(shí)不能與基音周期相吻合。因此很多時(shí)候并不是計(jì)算l=0點(diǎn)的距離作為基音周期。產(chǎn)生這種情況的原因:與窗

18、的選取長(zhǎng)度有關(guān),窗口過長(zhǎng)或過短都會(huì)導(dǎo)致不一致。通常認(rèn)為窗長(zhǎng)至少應(yīng)大于兩個(gè)基音周期,語(yǔ)音信號(hào)中最長(zhǎng)的基音周期約為20ms,因此在基音周期估計(jì)時(shí)窗長(zhǎng)應(yīng)選的大于40ms。與聲道特性的影響有,有時(shí)窗長(zhǎng)足夠長(zhǎng),但是第一最大值與基音周期仍不一致,這是主要由聲道的共振峰特性造成的干擾。(1、60900Hz的帶通濾波器濾波,并用濾波信號(hào)的自相關(guān)函數(shù)進(jìn)行基音周期的估計(jì); 2、對(duì)語(yǔ)音信號(hào)進(jìn)行非線性變換后求自相關(guān)函數(shù),一種有效的非線性變換是中心削波,削波后基音周期的峰起更尖銳) 語(yǔ)音信號(hào)的短時(shí)平均幅度差函數(shù)(AMDF)為了求基音周期,還可以采用短時(shí)平均幅度差函數(shù)10)()()(lNnwwwnslnslr對(duì)于周期語(yǔ)音信號(hào),其短時(shí)平均幅度差函數(shù)也是周期性的。在估計(jì)基音周期時(shí),不論計(jì)算短時(shí)自相關(guān)函數(shù)還是短時(shí)平均幅度差函數(shù),一般都采用矩形窗基于短時(shí)平均幅度差函數(shù)的基音周期估計(jì)方法的特點(diǎn)v基音周期的谷點(diǎn)銳度比峰點(diǎn)的銳度要尖銳,估計(jì)的精度更高v計(jì)算短時(shí)平均幅度差函數(shù)不用乘法,計(jì)算量小v可以通過對(duì)語(yǔ)音信號(hào)進(jìn)行譜平滑(去除共振峰的影響)和中心削波處理來改善基音周期估計(jì)的效果v短時(shí)平均幅度差函數(shù)對(duì)于語(yǔ)音信號(hào)的快速變化比較敏感。對(duì)基音周期軌跡的平滑v中值濾波 平滑點(diǎn)附近左右各取L個(gè)點(diǎn),將2L+1個(gè)點(diǎn)按大小排列,取隊(duì)列中間值作為平滑器的輸出v線性濾波 通過一個(gè)低通濾波器v組合平滑 可以將兩個(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論