基于進(jìn)化算法低信噪比環(huán)境的基音頻率檢測_第1頁
基于進(jìn)化算法低信噪比環(huán)境的基音頻率檢測_第2頁
基于進(jìn)化算法低信噪比環(huán)境的基音頻率檢測_第3頁
基于進(jìn)化算法低信噪比環(huán)境的基音頻率檢測_第4頁
基于進(jìn)化算法低信噪比環(huán)境的基音頻率檢測_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 基于進(jìn)化算法低信噪比環(huán)境的基音頻率檢測 張小恒+李勇明+謝文賓摘 要: 構(gòu)造頻域空間的檢測模型,將基音頻率作為特征值進(jìn)行提取,然后為檢測模型引入模型參數(shù)即優(yōu)化因子,通過進(jìn)化算法對該因子進(jìn)行全局優(yōu)化,從而獲取基音頻率的全局最優(yōu)值,在優(yōu)化精度和時(shí)間代價(jià)上取得了較好的平衡。采用兩種具有代表性的進(jìn)化算法進(jìn)行算法設(shè)計(jì),包括遺傳算法(GA算法)和粒子群算法(PSO算法)。將所提算法與相關(guān)有代表性的算法進(jìn)行比較,結(jié)果表明,所提算法在不同類型不同程度的噪聲環(huán)境下,能顯著提升檢測識(shí)別率,尤其是在極低信噪比下,優(yōu)勢更為明顯。Key: 極低信噪比環(huán)境; 基音頻率; 進(jìn)化算法; 遺傳算法; 粒子群算法: TN912

2、.3?34 : A : 1004?373X(2017)11?0046?07Evolutionary algorithm based fundamental tone frequencydetection in low SNR environmentZHANG Xiaoheng1, 2, LI Yongming2, XIE Wenbin2(1. Chongqing Radio & TV University, Chongqing 400052, China; 2. College of Communication Engineering, Chongqing University, Chongq

3、ing 400030, China)Abstract: A frequency?domain detection model was constructed. The fundamental tone frequency is extracted as characteristic value. The model parameter (optimization factor) is introduced into the detection model, for which the global optimization is carried out with evolutionary al

4、gorithm (EA) to get the global optimum of the fundamental tone frequency, and obtain a better balance in optimization accuracy and time cost. Two representative EAs (genetic algorithm (GA) and particle swarm optimization (PSO) algorithm) are used to perform the algorithm design. The proposed algorit

5、hm is compared with the other representative algorithms. The comparison results show that the proposed algorithm can improve the detection recognition rate greatly in the noise environments of different types and different degrees, especially in the very?low SNR environment.Keywords: very?low SNR en

6、vironment; fundamental tone frequency; evolutionary algorithm; genetic algorithm; PSO0 引 言基音頻率是語音信號(hào)最為重要的參數(shù)之一。準(zhǔn)確有效地檢測基音頻率對很多語音技術(shù)起著極為關(guān)鍵的作用,如說話人檢測、跟蹤、語音分離及識(shí)別等。盡管基音頻率檢測已經(jīng)研究多年,并取得了一系列成果,但相關(guān)算法大都適用于高信噪比環(huán)境,而實(shí)際應(yīng)用中,大多數(shù)語音都處于復(fù)雜惡劣的噪聲環(huán)境中。因此,針對低信噪比環(huán)境,特別是-5 dB以下的基音頻率檢測算法的研究,對實(shí)現(xiàn)性能優(yōu)良、實(shí)用的語音處理技術(shù),取得實(shí)效應(yīng)用有著重要的現(xiàn)實(shí)意義1?4?;纛l率

7、檢測的有效性依賴于語音信號(hào)諧波結(jié)構(gòu)的完整性,噪聲疊加造成諧波結(jié)構(gòu)被破壞,而隨著信噪比的下降最終難以分辨一個(gè)完整的諧波周期。因此低信噪比下實(shí)現(xiàn)優(yōu)良的檢測性能具有較大難度5?9。由于語音信號(hào)參數(shù)隨時(shí)間變化緩慢,相鄰多個(gè)語音幀信號(hào)參數(shù)會(huì)保持一定連續(xù)性,因此典型的基音頻率檢測算法可以分為兩個(gè)階段10:第一個(gè)階段找出基音頻率的多個(gè)可能候選值,或者計(jì)算基音頻率值落在不同頻率區(qū)間的概率。第二階段一般依賴DP11或HMM12算法,從多個(gè)候選值選出最終的基音頻率值。這些算法大都利用了相鄰語音幀數(shù)據(jù)之間的相關(guān)性找出最優(yōu)的基音頻率序列值,從而使得整體的后驗(yàn)誤差概率最低。但這類利用數(shù)據(jù)間強(qiáng)相關(guān)性的算法本身也會(huì)導(dǎo)致一定

8、錯(cuò)誤。此外,該類算法對相關(guān)性的過高要求在現(xiàn)實(shí)中常常難以得到較好滿足。為了抑制噪聲,目前研究的方法一般分為參數(shù)化方法和非參數(shù)化方法兩類13:參數(shù)化算法采用統(tǒng)計(jì)方法對諧波結(jié)構(gòu)進(jìn)行建模,其典型的代表算法有GMM14算法;非參數(shù)化算法一般從頻域的諧波結(jié)構(gòu)或者時(shí)域的周期特性入手,通過對頻域或時(shí)域峰值的檢測得到基音頻率,其典型的代表算法有RAPT15算法和YIN16算法,但這類方法在信噪較高時(shí)比較有效,而當(dāng)信噪比較低時(shí)其峰值特性很容易湮沒在噪聲之中從而使得難以檢測出基音頻率。近年在該領(lǐng)域有一些研究成果出現(xiàn),如HSAC?SAMSF17算法對諧波進(jìn)行自相關(guān)運(yùn)算,然后作對稱性相加求和來尋找基音周期,該算法充分利

9、用語音的諧波特性,并通過DCT相關(guān)運(yùn)算及對稱累加運(yùn)算抑制噪聲;TAPS?CA18算法對頻域信號(hào)進(jìn)行相關(guān)運(yùn)算,并利用稀疏矩陣對其進(jìn)行重建,該算法利用短時(shí)譜的自相關(guān)運(yùn)算抑制噪聲,在高信噪比環(huán)境利用最小均方誤差法求取稀疏矩陣,在低信噪比環(huán)境下利用GMM法對誤差信號(hào)進(jìn)行建模,從而得到最優(yōu)稀疏矩陣。PEFAC13算法是最近提出的性能優(yōu)良的基音頻率檢測算法,其通過對信號(hào)的對數(shù)譜進(jìn)行壓縮以求取峰值信號(hào),充分利用噪聲統(tǒng)計(jì)特性及幅度譜的壓縮抑制噪聲,具有極低信噪比環(huán)境下較好的抗噪聲干擾能力,且在-2020 dB信噪比下均性能良好。基于人工神經(jīng)網(wǎng)絡(luò)的基音頻率檢測算法10也利用了PEFAC算法的特征提取優(yōu)勢,并進(jìn)一

10、步采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,但相比PEFAC算法僅在-10 dB信噪比以上得出性能優(yōu)良的結(jié)論。 總的來說以上算法都是在經(jīng)典的參數(shù)化及非參數(shù)化方法上做了一定程度的改進(jìn),但仍然很難改變無法精確有效描述復(fù)雜噪聲環(huán)境中語音信號(hào)的缺陷。由于語音信號(hào)具有多次諧波特性,基音頻率這一重要參數(shù)可通過特征波形的峰值表達(dá)。因此,本文針對參數(shù)化方法與非參數(shù)化方法的各自不足,充分利用PEFAC對語音信號(hào)進(jìn)行基音頻率特征提取,構(gòu)造基音頻率特征波形,通過對特征波形的峰值求取實(shí)現(xiàn)基音頻率的提取。但是當(dāng)語音信號(hào)被噪聲污染時(shí),信號(hào)的諧波特征被破壞,特征波形的峰值與基音頻率就存在一定的誤差。當(dāng)信噪比惡化時(shí),該誤差就會(huì)明顯增大,嚴(yán)重

11、影響了峰值對基音頻率的表達(dá)。基于此,本文引入優(yōu)化因子對特征波形進(jìn)行校正以抵消噪聲帶來的畸變。該優(yōu)化因子的精確取值能最大程度地抑制噪聲帶來的畸變影響,從而消除特征波形峰值與基音頻率的誤差。本文將優(yōu)化因子最佳取值問題轉(zhuǎn)換為最優(yōu)化問題,嘗試?yán)眠M(jìn)化算法來獲取其全局最優(yōu)解。進(jìn)化算法的優(yōu)勢在于其可解決復(fù)雜的非線性及多維空間尋優(yōu)問題,通過構(gòu)造含有優(yōu)化因子的適應(yīng)度函數(shù),從而能動(dòng)態(tài)尋找出最佳基音頻率值所對應(yīng)的優(yōu)化因子的值。1 基于進(jìn)化算法面向極低信噪比環(huán)境的基音頻率檢測方法(LSNR_PFD_EA)本文提出的基音頻率估計(jì)算法,即低信噪比下基于進(jìn)化算法的基音頻率估計(jì)(LSNR_PFD_EA)主要包括特征提取模塊

12、、基于進(jìn)化算法的優(yōu)化因子搜索模塊及基音頻率提取模塊三部分。圖1為該算法主要流程。如圖1所示,首先提取語音幀的頻域特征,此頻域特征稱為基音特征波形,其峰值用來表達(dá)基音頻率值,然后設(shè)計(jì)一個(gè)多維變量稱為優(yōu)化因子,對基音頻率特征波形的峰值進(jìn)行有效調(diào)整,使得調(diào)整后的峰值能夠表達(dá)的基音頻率是真實(shí)基音頻率值的最佳逼近。本文的特征提取方式基于PEFAC,包括短時(shí)傅里葉變換,頻域?qū)?shù)化,規(guī)整化,再進(jìn)行頻域卷積得到基音特征波形即圖中的特征值。接著,通過優(yōu)化因子搜索模塊,利用基音特征波形與優(yōu)化因子共同構(gòu)造適應(yīng)度函數(shù),利用進(jìn)化算法結(jié)合訓(xùn)練語音搜索到最佳優(yōu)化因子。最后,對測試集語音提取其特征值,基于搜索得到的最佳優(yōu)化因

13、子對該特征值進(jìn)行優(yōu)化,優(yōu)化完成后再通過動(dòng)態(tài)規(guī)劃(DP)得到語音的基音頻率。1.1 特征提取模塊特征提取模塊主要包括如下步驟:(1) 語音幀信號(hào)首先通過短時(shí)傅里葉變換映射到頻域。代表第幀的功率譜密度,對數(shù)頻域的功率譜密度采用表示,其中規(guī)整化后的功率譜密度為:(1)式中:代表長程平均語音譜;而代表平滑后平均語音譜。(2) 規(guī)整化的頻譜通過如下擴(kuò)展峰值的濾波器增強(qiáng)其諧波特性。其中濾波器定義如下:(2)其中的選取滿足而設(shè)置為1.8且設(shè)置為10。(3) 通過對規(guī)整化的功率譜密度進(jìn)行卷積得基音特征波形接下來的基音檢測方法一般可先從中選取較大的幾個(gè)峰值對應(yīng)的頻率值作為候選基音頻率值。(4) 然后通過DP等規(guī)

14、劃算法得到基音頻率值的最佳估計(jì)值。當(dāng)信噪比惡化時(shí),特征波形的峰值被嚴(yán)重破壞,使得候選值均極大地偏離真實(shí)值,也就無法得到準(zhǔn)確的估計(jì)值。為減小候選值與真實(shí)值的誤差,本文提出了優(yōu)化因子策略,即使用優(yōu)化因子計(jì)算優(yōu)化后的基音特征波形從中選取新的峰值對應(yīng)的候選基音頻率值,使得最終的基音頻率估計(jì)值與真實(shí)值的誤差最小。1.2 優(yōu)化因子搜索模塊1.2.1 優(yōu)化函數(shù)分析圖2表示了優(yōu)化因子在基音頻率檢測中的作用。其中圖2(a)為不含噪聲的語音幀經(jīng)過特征提取之后的輸出;圖2(b)為SNR=-10 dB下語音幀經(jīng)過特征提取之后的輸出;圖2(c)為圖2(b)經(jīng)過優(yōu)化因子處理后的波形,若選取幅值最大的3個(gè)峰值作為基音頻率候

15、選值,通常最大峰值對應(yīng)的基音頻率值成為估計(jì)值的概率是最大的,如果后續(xù)不作DP規(guī)劃,則最大峰值對應(yīng)的基音頻率值就是基音頻率估計(jì)值,如果要作DP規(guī)劃,最終的估計(jì)值要在候選值,三個(gè)值之中選取。從圖中發(fā)現(xiàn),圖2(a)中基音頻率候選值與圖2(b)中基音頻率候選值的誤差很大,特別是最大峰值對應(yīng)的頻率值誤差極大,這是低信噪比環(huán)境下噪聲干擾的結(jié)果。若要提升基音頻率估計(jì)精度,減小估計(jì)誤差,可通過優(yōu)化因子處理,如圖2(c)所示。通過將區(qū)間segment的幅度做一定程度的提升,則該區(qū)間峰值對應(yīng)的頻率就會(huì)成為候選基音頻率,而免遭錯(cuò)誤遺漏。優(yōu)化因子取值的不同可以使波形在不同區(qū)間的幅度進(jìn)行放縮。通過進(jìn)化算法來搜索最優(yōu)因子

16、,從而使圖2(a)與圖2(c)的基音頻率候選值誤差最小。圖2是某一類語音幀的情況,由于不同語音幀的基音頻率候選值有所不同,而受到噪聲污染后基音特征波形的畸變也明顯有所不同,因此每個(gè)語音幀的理想優(yōu)化因子也不盡相同,事實(shí)上針對每一幀語音數(shù)據(jù)找出其對應(yīng)的理想優(yōu)化因子是沒有意義的,因?yàn)閮?yōu)化因子數(shù)量十分龐大而無法使用,其次優(yōu)化因子與語音幀的關(guān)聯(lián)性也無法得到有效建立。但肯定能找出一個(gè)合理的優(yōu)化因子,相對于每一幀語音數(shù)據(jù)來說雖不一定最優(yōu),但相對于所有幀語音數(shù)據(jù)來說,總體誤差最小?;谝陨戏治?,優(yōu)化因子的取值就被轉(zhuǎn)化為一個(gè)求解最佳優(yōu)化因子的最優(yōu)化問題。由于優(yōu)化因子是高維向量,加上不同維的取值都有一定精度,優(yōu)化

17、因子的可能取值是海量的,即候選解空間較大。此外,優(yōu)化因子和峰值與基音頻率間誤差的關(guān)系并非線性相關(guān),因此候選解空間將存在多個(gè)局部極值點(diǎn)。鑒于進(jìn)化算法全局尋優(yōu)的特性,本文基于GA19和PSO20算法分別求解該優(yōu)化問題。GA和PSO算法都涉及確定適應(yīng)度函數(shù)的問題,用于基音頻率檢測的優(yōu)化因子的適應(yīng)度函數(shù)分為如下兩種情況:(1) 不使用DP動(dòng)態(tài)規(guī)劃由于不使用DP動(dòng)態(tài)規(guī)劃,優(yōu)化后的基音特征波形最大峰值對應(yīng)的頻率值為基音頻率估計(jì)值,其與真實(shí)基音頻率值的誤差。因此適應(yīng)度函數(shù)即小于5%的概率。 (2) 使用DP動(dòng)態(tài)規(guī)劃表示時(shí)刻語音幀基音特征波形的峰值幅度,表示與之相關(guān)聯(lián)的頻率,則選擇較小峰值的代價(jià)其中為最大峰值

18、幅度;基音頻率候選值的選擇率其中為相鄰語音幀的時(shí)間偏移量,則躍遷到的代價(jià)為其中為在訓(xùn)練語音庫中的均值;時(shí)刻語音幀基音頻率候選值與基音頻率中值的相對誤差為,其中可通過時(shí)刻最大峰值幅度對應(yīng)的基音頻率候選值及相鄰幀的值估計(jì)得到,若相鄰幀不是濁音幀則跳過。綜上,時(shí)刻語音幀的第個(gè)基音頻率候選值躍遷到時(shí)刻語音幀的第個(gè)基音頻率候選值的總代價(jià)為三者之和:其中為限制的最大值,而表示各參數(shù)相關(guān)權(quán)重。將總代價(jià)最小時(shí)選擇的峰值頻率作為基音頻率估計(jì)值,因此適應(yīng)度函數(shù)為:即小于5%的概率。1.2.2 優(yōu)化算法?進(jìn)化算法(1) GA算法本文采用二進(jìn)制遺傳算法,其主要流程如下:步驟1: 二進(jìn)制編碼;步驟2: 隨機(jī)產(chǎn)生二進(jìn)制種

19、群;步驟3:計(jì)算其對應(yīng)的適應(yīng)度函數(shù)值步驟4: 計(jì)算種群適應(yīng)度之和步驟5: 計(jì)算每個(gè)的選擇概率步驟6: 計(jì)算每個(gè)的累加概率步驟7: 競爭法進(jìn)行選擇操作;步驟8: 對新一代種群進(jìn)行單點(diǎn)隨機(jī)交叉運(yùn)算;步驟9: 單點(diǎn)隨機(jī)變異操作;步驟10: 第一代計(jì)算完畢,返回繼續(xù)計(jì)算步驟3,直到達(dá)到滿意的結(jié)果為止。(2) PSO算法本文采用粒子群算法的主要流程如下:步驟1:根據(jù)優(yōu)化因子的維度與取值范圍確定粒子群的參數(shù);步驟2:初始化粒子群,其中粒子的信息可用兩個(gè)維向量表示,第個(gè)粒子的位置(即優(yōu)化因子)可表示為:,其中與為每一維的取值上下限,速度可表示為其中與均為取值范圍在01之間的隨機(jī)數(shù);步驟3:計(jì)算每個(gè)粒子的適應(yīng)

20、度;步驟4:根據(jù)進(jìn)化方程更新及粒子位置速度:步驟5:是否滿足終止條件,否則返回繼續(xù)計(jì)算步驟3,直到達(dá)到滿意的結(jié)果為止。2 實(shí)驗(yàn)結(jié)果與分析2.1 實(shí)驗(yàn)條件2.1.1 數(shù)據(jù)說明本文采用TIMIT標(biāo)準(zhǔn)數(shù)據(jù)庫測試算法性能。訓(xùn)練集包含20男20女,每人3句話。噪聲訓(xùn)練集為NOISE?92,包含white,babble,car三種噪聲。純凈語音與噪聲相混合,信噪比SNR分為9個(gè)不同的等級(jí):-20 dB,-15 dB,-10 dB,-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB。測試集包含10男10女,每人3句話。標(biāo)準(zhǔn)基音頻率使用Praat工具從純凈語音中提取。以兩種標(biāo)準(zhǔn)方式測試估計(jì)結(jié)果

21、:基音頻率識(shí)別率(DR)。DR是針對濁音而言,計(jì)算誤差不超過5%的概率,為濁音幀數(shù),為其中計(jì)算誤差不超過5%的幀數(shù),計(jì)算式如下:2.1.2 參數(shù)設(shè)置優(yōu)化因子的維度為10,每一維的取值范圍均在0.51.5之間。當(dāng)使用GA算法時(shí),基因總數(shù)為100,搜索下限為0.5,上限為1.5,交叉概率為0.8,變異概率為0.1,迭代次數(shù)為30;當(dāng)使用PSO算法時(shí),種群大小為20,粒子初始速度為0.01,最大速度為1,粒子群維度為10,取值范圍在0.51.5,認(rèn)知加速度為2,社會(huì)加速度為2,慣性權(quán)重為1,退化因子為1,迭代次數(shù)為60。2.2 兩種進(jìn)化算法的效果對比圖3為不同迭代次數(shù)下,兩種進(jìn)化算法的檢測效果。兩種

22、算法共同的規(guī)律是隨著信噪比的提高,收斂速度會(huì)加快。隨著迭代次數(shù)的增加,檢測率變化越來越緩慢或者根本不發(fā)生變化。這說明信噪比越低優(yōu)化的空間越大,因此信噪比越低,特征波形的結(jié)構(gòu)受噪聲影響越大。再對比GA與PSO算法,GA算法僅在信噪比為-20 dB下的識(shí)別率有較為明顯的變化,其他信噪比下幾乎沒有變化。從最終的識(shí)別率來看,相同信噪比下PSO的識(shí)別率要高于GA,因此說明PSO算法在搜索最佳優(yōu)化因子上更加有效。因此,后續(xù)實(shí)驗(yàn)中,主要采用基于PSO的基音檢測算法進(jìn)行效果對比。為了便于說明,基于GA的基音檢測算法記為LSNR_PFD_GA,基于PSO的基音檢測算法記為LSNR_PFD_PSO。2.3 不同類

23、型噪聲環(huán)境下的檢測效果對比圖4為三種類型的噪聲環(huán)境下,本文LSNR_PFD_ PSO算法與三種主流算法J&W,YIN,RAPT的識(shí)別效果對比。由圖4可見,對于不同類型的噪聲(白噪聲,babble噪聲,car噪聲),本文算法均優(yōu)于其他算法。此外,信噪比越低,本文算法的改進(jìn)效果越明顯。例如,-5 dB以下,本文算法的識(shí)別率提高了10%20%,而在-20 dB時(shí),其提升程度可以達(dá)到20%50%。這說明本文算法非常適合低信噪比環(huán)境下的基音頻率檢測。2.4 DP對基音頻率檢測的影響分析圖5為本文算法與PEFAC算法針對采用DP與否進(jìn)行的效果對比。比較采用DP與不采用DP計(jì)算的三種噪聲(白噪聲,babbl

24、e噪聲,car噪聲)在不同信噪比下的平均識(shí)別率,采用DP算法并用PSO優(yōu)化后的識(shí)別率是最好的,不采用DP而使用PSO優(yōu)化的識(shí)別率并不如使用了DP的PEFAC效果好,但比未采用DP和PSO優(yōu)化的效果好很多。這說明DP對基音頻率檢測算法具有明顯的正面作用,本文算法也不例外。為了最大限度地發(fā)揮本文算法效率,建議采用DP。圖4 基音頻率識(shí)別率比較2.5 進(jìn)化算法參數(shù)影響分析圖6為基于不同參數(shù)設(shè)置,在不同信噪比下(白噪聲,babble噪聲,car噪聲) LSNR_PFD_PSO算法的平均識(shí)別率。圖6(a)為種群規(guī)模設(shè)置不同帶來的影響。圖6(b)為粒子飛行初始速度設(shè)置不同帶來的影響。 由圖6(a)可見,隨

25、著種群規(guī)模的增大,識(shí)別率有所增加但不明顯,當(dāng)種群規(guī)模由20增加至200,-5 dB以下識(shí)別率平均提升了2%左右。鑒于種群規(guī)模與計(jì)算復(fù)雜度的關(guān)系,因此需要結(jié)合具體情況,通過統(tǒng)計(jì)實(shí)驗(yàn)設(shè)定合適的種群規(guī)模。此外,還發(fā)現(xiàn)種群規(guī)模對識(shí)別率的正面作用在低信噪比下更明顯。由圖6(a)可見,在信噪比為-20 dB,200的種群規(guī)模較20的種群規(guī)模提高效果為25%左右。由圖6(b)可見,粒子初始速度與識(shí)別率為負(fù)相關(guān)關(guān)系,當(dāng)其較大時(shí),識(shí)別率會(huì)變差。具體來說,當(dāng)粒子速度由0.01增至0.05時(shí),-5 dB以下識(shí)別率平均下降3%。這個(gè)結(jié)果的可能原因是初始速度太大將影響搜索的精細(xì)程度,較容易錯(cuò)過最優(yōu)解。由于初始速度過小將

26、增加計(jì)算代價(jià),因此也需要結(jié)合具體情況,通過統(tǒng)計(jì)實(shí)驗(yàn)來設(shè)定合適的初始速度。2.6 相關(guān)算法的時(shí)間代價(jià)對比表1為不同算法基于同一運(yùn)算平臺(tái)的平均時(shí)間代價(jià)。計(jì)算機(jī)平臺(tái)為Intel CPU 2.6 GHz,算法分別為PSO,GA,PEFAC,RAPT,YIN,“算法時(shí)間代價(jià)”是指當(dāng)前算法在裝有Matlab軟件的計(jì)算機(jī)平臺(tái)上處理1 s語音數(shù)據(jù)運(yùn)行的平均時(shí)間代價(jià)。由表1可見,LSNR_PFD_PSO,LSNR_PFD_GA和PEFAC算法的時(shí)間代價(jià)一致,均為0.175 s。這個(gè)時(shí)間代價(jià)并不包含進(jìn)化算法的訓(xùn)練時(shí)間,這是由于一旦訓(xùn)練完成后,幾種算法的實(shí)時(shí)檢測過程所需時(shí)間代價(jià)幾乎無差別。本文算法與YIN算法的時(shí)間

27、代價(jià)也相當(dāng),比PART算法明顯降低。根據(jù)多次實(shí)測表明,本文算法工作所需時(shí)間代價(jià)完全滿足實(shí)時(shí)性要求,現(xiàn)實(shí)可行。3 結(jié) 論極低噪聲環(huán)境下的基音頻率檢測是一個(gè)非常有用但具有較大難度的科研問題,迄今為止,一直沒有得到很好的解決。針對目前新提出的抗噪性能較好的基音檢測算法的不足,本文引入最佳優(yōu)化因子來消除噪聲帶來的畸變影響。通過把最佳優(yōu)化因子取值問題轉(zhuǎn)化為最優(yōu)化問題,引入進(jìn)化算法加以求解,顯著提升了低信噪比環(huán)境下基音頻率檢測性能。實(shí)驗(yàn)結(jié)果表明,面對不同類型不同信噪比的噪聲環(huán)境,本文算法均取得了較為顯著的改進(jìn)效果,且信噪比越低,改進(jìn)效果越明顯。針對下一步工作,本文擬考慮進(jìn)行更大噪聲環(huán)境的實(shí)驗(yàn)及對進(jìn)化算法的

28、改進(jìn)以提高最佳優(yōu)化因子的搜索效率和基音頻率檢測的泛化性能。Reference1 RAMAKRISHNAN A G, ABHIRAM B, PRASANNA S R M. Voice source characterization using pitch synchronous discrete cosine transform for speaker identification J. Journal of the acoustical society of America, 2015, 137(6): 469?475.2 WOHLMAYR M, PERNKOPF F. Model?based

29、 multiple pitch tracking using factorial HMMs: model adaptation and inference J. IEEE transactions on audio, speech and language processing, 2013, 21(8): 1742?1754.3 HAN K, WANG D L. A classification based approach to speech segregation J. Journal of the acoustical society America, 2012, 132(5): 347

30、5?3483.4 RAO K S, MAITY S, REDDY V R. Pitch synchronous and glottal closure based speech analysis for language recognition J. International journal of speech technology, 2013, 16(4): 413?430.5 SHARMA D, NAYLOR P A. Evaluation of pitch estimation in noisy speech for application in non?intrusive speec

31、h quality assessment C/ Proceedings of 2009 European Signal Processing Conference. Glasgow: IEEE, 2009: 2514?2518.6 SHIMAMURA T, KOBAYASHI H. Weighted autocorrelation for pitch extraction of noisy speech J. IEEE transactions on speech and audio processing, 2001, 9(7): 727?730.7 SHAHNAZ C, ZHU W P, A

32、HMAD M O. Robust pitch estimation at very low SNR exploiting time and frequency domain cues C/ Proceedings of 2005 IEEE International Conference on Acoustics, Speech, Signal Processing. Philadelphia: IEEE, 2005: 389?392.8 SHAHNAZ C, ZHU W P, AHMAD M O. A robust pitch estimation algorithm in noise C/

33、 Proceedings of 2007 IEEE International Conference on Acoustics, Speech, and Signal Proces?sing. Honolulu: IEEE, 2007: 1073?1076. 9 WU M, WANG D L, BROWN G J. A multipitch tracking algorithm for noisy speech J. IEEE transactions on speech and audio processing, 2003, 11(3): 229?241.10 HAN Kun, WANG D

34、eliang. Neural network based pitch tracking in very noisy speech J. IEEE transactions on audio, speech and language processing, 2014, 22(12): 2158?2168.11 GOSAIN A, SHARMA G. A survey of dynamic program analysis techniques and tools J. Advances in intelligent systems and computing, 2014, 327: 113?12

35、2.12 JIN Z, WANG D L. HMM?based multipitch tracing for noisy and reverberant speech J. IEEE/ACM transactions on audio, speech and language processing, 2011, 19(5): 1091?1102.13 GONZALEZ S, BROOKES M. PEFAC: a pitch estimation algorithm robust to high levels of noise J. IEEE/ACM transactions on audio, speech

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論