


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 一種基于分帶譜熵的語(yǔ)音激活檢測(cè)算法語(yǔ)音激活檢測(cè)VAD(VoiceActivityDetection)指采用一定的信號(hào)處理技術(shù)來(lái)檢測(cè)信號(hào)中是否包含語(yǔ)音信號(hào),并且從背景噪聲中找出每一段語(yǔ)音的開(kāi)始和終止,以明確找出語(yǔ)音信號(hào)存在的范圍。目前該技術(shù)被廣泛應(yīng)用在語(yǔ)音編碼、語(yǔ)音增強(qiáng)、語(yǔ)音合成、回聲抵消以及語(yǔ)音通信等領(lǐng)域。語(yǔ)音激活檢測(cè)的研究歷史很長(zhǎng),從最早的基于短時(shí)能量、過(guò)零率的判斷,到基于語(yǔ)音模型和統(tǒng)計(jì)知識(shí)的各種復(fù)雜算法,語(yǔ)音激活檢測(cè)算法的原理和實(shí)現(xiàn)方法都在不斷地更新。語(yǔ)音激活檢測(cè)VAD(Voice Activity Detection)指采用一定的信號(hào)處理技
2、術(shù)來(lái)檢測(cè)信號(hào)中是否包含語(yǔ)音信號(hào),并且從背景噪聲中找出每一段語(yǔ)音的開(kāi)始和終止,以明確找出語(yǔ)音信號(hào)存在的范圍。目前該技術(shù)被廣泛應(yīng)用在語(yǔ)音編碼、語(yǔ)音增強(qiáng)、語(yǔ)音合成、回聲抵消以及語(yǔ)音通信等領(lǐng)域。語(yǔ)音激活檢測(cè)的研究歷史很長(zhǎng),從最早的基于短時(shí)能量、過(guò)零率的判斷,到基于語(yǔ)音模型和統(tǒng)計(jì)知識(shí)的各種復(fù)雜算法,語(yǔ)音激活檢測(cè)算法的原理和實(shí)現(xiàn)方法都在不斷地更新。近年來(lái),一些學(xué)者提出了基于支持向量機(jī)1、小波理論2、神經(jīng)網(wǎng)絡(luò)3和循環(huán)累積量4等理論的檢測(cè)方法,對(duì)語(yǔ)音檢測(cè)方法的研究給出了新的思路。如何在保證算法魯棒性的同時(shí)降低算法的復(fù)雜度是一個(gè)極具挑戰(zhàn)性的問(wèn)題,也是目前語(yǔ)音激活檢測(cè)中的熱點(diǎn)問(wèn)題。本文設(shè)計(jì)了一種基于分帶譜熵的語(yǔ)音
3、激活檢測(cè)算法,該方法采用分帶譜熵作為判決參數(shù),達(dá)到了較高的判別準(zhǔn)確率及較低的算法復(fù)雜度。1 特征提取特征提取的框圖如圖1所示。首先對(duì)加噪語(yǔ)音進(jìn)行分幀和加窗處理,然后進(jìn)行時(shí)頻變換,由參考文獻(xiàn)5知,與常用的FFT相比,用離散余弦變換譜熵來(lái)區(qū)分噪聲與語(yǔ)音具有更大的隔離度,因此本文選用離散余弦變換(DCT)。離散余弦變換的定義式為:在DCT變換之后,對(duì)DCT系數(shù)進(jìn)行分帶,分成32個(gè)子帶,然后分別計(jì)算它的能量,其計(jì)算公式為:.為了提高概率密度函數(shù)分辨語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)的能力,提出了一些經(jīng)驗(yàn)性的約束。首先,由于大部分語(yǔ)音信號(hào)都在250Hz6 000 Hz頻帶內(nèi),因此有:為進(jìn)一步提高語(yǔ)音激活檢測(cè)的準(zhǔn)確率,
4、本文采用短時(shí)平均能量進(jìn)行加權(quán)的方法,即:從圖2(c)和圖2(d)可以看出,加權(quán)譜熵對(duì)幀能量更加敏感,而通過(guò)對(duì)其取對(duì)數(shù),在一定程度上降低了能量的影響。正因?yàn)槿绱?,本文采用加?quán)譜熵的對(duì)數(shù)值作為特征量,提高了算法的魯棒性。2 語(yǔ)音激活檢測(cè)算法(1) 對(duì)輸入的語(yǔ)音信號(hào)s(n)進(jìn)行分幀處理,幀長(zhǎng)32ms(256個(gè)樣點(diǎn)),得到每幀信號(hào)si(n),i表示第i幀,并對(duì)si(n)進(jìn)行加窗處理,窗函數(shù)采用漢明窗。(2) 自適應(yīng)閾值的確定。可合理假設(shè)待檢測(cè)語(yǔ)音的前幾幀是非語(yǔ)音信號(hào),本文中假設(shè)前10幀為非語(yǔ)音信號(hào),計(jì)算其加權(quán)譜熵的對(duì)數(shù)值,然后求它們的最大值,門(mén)限值就是前10幀信號(hào)的加權(quán)譜熵的對(duì)數(shù)值中的最大值。(3)
5、計(jì)算每一幀信號(hào)的加權(quán)譜熵的對(duì)數(shù)值,然后把它與門(mén)限值進(jìn)行比較。如果大于門(mén)限值,則判為語(yǔ)音幀,否則判為噪聲幀或靜音幀。(4)對(duì)判決結(jié)果進(jìn)行平滑處理。為了有效地避免激活狀態(tài)的頻繁切換,本文對(duì)判決結(jié)果進(jìn)行平滑后處理。由于無(wú)論是非語(yǔ)音信號(hào)還是語(yǔ)音信號(hào),一般都會(huì)持續(xù)一段時(shí)間,因此為了剔除判決時(shí)的少數(shù)壞點(diǎn),在判決結(jié)束后加入了平滑后處理。即:.3 仿真與實(shí)驗(yàn)結(jié)果本文的算法用VC、Matlab進(jìn)行仿真。圖3所示為原始語(yǔ)音、加噪語(yǔ)音(噪聲為汽車(chē)內(nèi)部噪聲,信噪比為0 dB)、人工標(biāo)注的結(jié)果和使用本文算法檢測(cè)的結(jié)果。圖3(a)是一段純凈語(yǔ)音,其采樣率為8 000 Hz。圖3(b)是加噪語(yǔ)音,所加噪聲為汽車(chē)內(nèi)部噪聲,信
6、噪比為0 dB。圖3(c)為本文算法檢測(cè)的結(jié)果。圖3(d)為人工標(biāo)注的結(jié)果。由圖3(c)可以看出,本文的方法對(duì)低信噪比條件下的語(yǔ)音依然具有較好的分類效果。為進(jìn)一步說(shuō)明本文算法對(duì)加噪語(yǔ)音進(jìn)行檢測(cè)的魯棒性,對(duì)本文算法和G.729B中的VAD算法進(jìn)行對(duì)比。對(duì)1 000幀中文信號(hào)進(jìn)行實(shí)驗(yàn), 測(cè)試環(huán)境分別選取了-5 dB、 0 dB、5 dB、10 dB、20 dB、30 dB等6個(gè)不同的信噪比,充分體現(xiàn)了算法在不同信噪比下的性能。圖4給出了不同算法在相同背景噪聲類型(都為汽車(chē)內(nèi)部噪聲)、不同信噪比情況下的檢測(cè)準(zhǔn)確率。從圖4可以看出,本文算法的性能基本上不隨信噪比的變化而變化。同時(shí)可以看出當(dāng)信噪比逐漸降
7、低時(shí),G.729B算法性能有了明顯的下降。本文中提出了一種能夠準(zhǔn)確進(jìn)行VAD判決的算法。該算法提取了加權(quán)譜熵的對(duì)數(shù)值作為特征,然后通過(guò)自適應(yīng)閾值,實(shí)現(xiàn)語(yǔ)音和靜音(或噪聲)的準(zhǔn)確檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該語(yǔ)音激活檢測(cè)算法在汽車(chē)內(nèi)部噪聲條件具有較高的準(zhǔn)確率和穩(wěn)定性,是一種有效、簡(jiǎn)單的語(yǔ)音激活檢測(cè)算法。參考文獻(xiàn)1 齊峰巖,鮑長(zhǎng)春. 一種基于支持向量機(jī)的含噪語(yǔ)音的清/濁/靜音分類的新方法J.電子學(xué)報(bào),2006,34(4):605-611.2 AGHAJANI K H, MANZURI M T, KARAMI M, et al. A robust voice activity detection based on wavelet transform. 2008 Second International Conference on Electrical Engineering (ICEE). Lahore, Pakistan,2008.3 柳燕,鮑長(zhǎng)春. 基于競(jìng)爭(zhēng)網(wǎng)絡(luò)的語(yǔ)音激活算法研究J.信號(hào)處理,2006,22(1):57-60.4 竇
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- (二模)晉中市2025年高三高考二模 語(yǔ)文試卷(含A+B卷答案詳解)
- 2.2聲音的特性說(shuō)課稿2025年初中人教版物理八年級(jí)上冊(cè)
- 微整顧客協(xié)議書(shū)
- 需求導(dǎo)向性干預(yù)下行無(wú)縫隙護(hù)理在腹腔鏡子宮肌瘤剔除術(shù)圍術(shù)期的干預(yù)效果分析
- 住宅裝修設(shè)計(jì)協(xié)議
- 文化創(chuàng)意產(chǎn)業(yè)內(nèi)容創(chuàng)新與市場(chǎng)推廣方案
- 商業(yè)房產(chǎn)交易居間合同范本
- 提升客戶滿意度服務(wù)質(zhì)量方案
- 提高客戶服務(wù)質(zhì)量與滿意度的實(shí)施方案
- 產(chǎn)品設(shè)計(jì)與生產(chǎn)制造委托協(xié)議
- 2025年兒科常見(jiàn)面試題及答案
- (一模)贛州市2025年高三年級(jí)摸底考試物理試卷(含標(biāo)準(zhǔn)答案)
- 數(shù)學(xué)-湖北省武漢市2025屆高中畢業(yè)生二月調(diào)研考試(武漢二調(diào))試題和解析
- 【公開(kāi)課】同一直線上二力的合成+課件+2024-2025學(xué)年+人教版(2024)初中物理八年級(jí)下冊(cè)+
- 學(xué)術(shù)英語(yǔ)智慧樹(shù)知到答案2024年南開(kāi)大學(xué)
- 【部編版道德與法治六年級(jí)下冊(cè)】全冊(cè)測(cè)試卷(含答案)
- GB/T 10752-2005船用鋼管對(duì)焊接頭
- 現(xiàn)代商業(yè)空間展示設(shè)計(jì)ppt
- 高家堡副井井筒壁座施工安全技術(shù)措施
- 世界貿(mào)易組織(WTO課件(25頁(yè)P(yáng)PT)
- FMEA第五版表格(實(shí)例)
評(píng)論
0/150
提交評(píng)論