語音信號處理第13章課件_第1頁
語音信號處理第13章課件_第2頁
語音信號處理第13章課件_第3頁
語音信號處理第13章課件_第4頁
語音信號處理第13章課件_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、13.1概述13.2耳語音的聲學(xué)特征分析13.3耳語音增強(qiáng)13.4耳語音轉(zhuǎn)換正常音13.5耳語音識別13.6今后的研究方向 第十三章 耳語語音信號處理13.1 概述耳語語音通常稱為耳語音,它是人們常見的語言交流方式之一,在會場、音樂廳、圖書館等禁止大聲喧嘩的場所被廣泛應(yīng)用;在移動(dòng)通信系統(tǒng)廣泛發(fā)展的今天,人們也常常采用耳語的方式來保證通話的保密性并防止打擾他人。因此,耳語音的研究具有廣泛的應(yīng)用前景。 隨著科學(xué)技術(shù)的發(fā)展,近年來對耳語音的研究逐漸走向多領(lǐng)域和實(shí)際應(yīng)用,例如耳語音轉(zhuǎn)換為正常音、耳語音的語音識別和說話人識別、耳語音的語音增強(qiáng)等等。 耳語語音信號處理將綜合多年來語音語言學(xué)、生理學(xué)、心理學(xué)

2、、認(rèn)知科學(xué)等多學(xué)科對耳語音的研究成果,更深層次的揭示耳語音的發(fā)音機(jī)理和聽覺關(guān)于耳語音信息的感知過程和處理機(jī)制;進(jìn)一步揭示耳語音聲學(xué)特性的變化特點(diǎn)和變化規(guī)律;建立和完善耳語語音信號處理的理論基礎(chǔ)。同時(shí)在應(yīng)用方面,對耳語音的研究可以應(yīng)用于喉部切除的失音患者的語音交流以及安全場所的身份識別、犯罪鑒定等多個(gè)方面;在公安、司法等領(lǐng)域,耳語語音研究將有利于破譯語音內(nèi)容,識別罪犯身份等。 13.2耳語音的聲學(xué)特征分析 漢語的音節(jié)一般由一個(gè)元音前后附加一個(gè)或兩個(gè)輔音構(gòu)成,音節(jié)前部的輔音稱為聲母,聲母后面的部分稱為韻母。任何語言的語音都有元音和輔音兩種音素,根據(jù)發(fā)音機(jī)理的不同,輔音又可以分為清輔音和濁輔音。耳語

3、音的清擦音、塞擦音和塞音聲母部分與正常音的發(fā)音方式?jīng)]有大的差異。而韻母部分發(fā)音時(shí),聲門保持半開狀態(tài),聲門前部完全靠攏,后部的氣聲門有一個(gè)寬三角裂隙,聲帶不振動(dòng),從肺部出來的氣流通過開放區(qū)產(chǎn)生摩擦噪聲,故聲源為噪聲。 由于發(fā)耳語音時(shí),偽聲帶區(qū)域變窄,聲門保持半開狀態(tài),使得聲道增加了氣管和肺部分,產(chǎn)生附加的零極點(diǎn),改變了聲道傳輸函數(shù),所以耳語音的韻母部分與正常音的韻母部分有較大的差異。圖為耳語音與正常音發(fā)音時(shí)聲門狀態(tài)的比較。正常音聲門狀態(tài) 耳語音聲門狀態(tài) 正常音與耳語音的時(shí)域波形圖和語譜圖的比較 正常音 耳語音 由于耳語音的元音和濁輔音在發(fā)音時(shí)不產(chǎn)生聲帶振動(dòng),沒有基頻,所以此前一些適用于正常音識別

4、的特征參數(shù)就需要重新評估或者尋找新的替代參數(shù)。就目前而言,對耳語音聲學(xué)特性分析研究的對象主要包括:音長、音高、聲調(diào)和共振峰等。 耳語音的音長 發(fā)音人觀測數(shù)均值標(biāo)準(zhǔn)差最小值最大值均值標(biāo)準(zhǔn)差HHK10218631703873237JF103273328438660-9GL102142518324850SZQ1017924157238-1-6WLT1020721172240226WYS1020134138255-112XB1022230166268318XH102262117524923-5YT102522421128669-28ZSP102461821627040-13ZW101951816321

5、3404Total1102264813838728813.2.2 音高 雖然耳語音的元音和濁輔音沒有基頻,但是人們在用耳語交流時(shí),還是可以感受到聲音的高低,即音高。研究發(fā)現(xiàn)對后元音u、o、a,音高頻率接近后元音的第一共振峰頻率,前元音 、e、i,音高接近其第二共振峰頻率,而其它元音的音高更接近第二共振峰。表2和表3即為不同元音下基頻及前三個(gè)共振峰值比較。人們通過改變第一、第二共振峰頻率值發(fā)現(xiàn),對音高的感知隨共振峰的提高而提高,隨共振峰的下降而下降,尤其第二共振峰的改變對音高感知的影響更大,第一共振峰和第二共振峰同時(shí)改變時(shí)對音高感知的影響最大。表2男性耳語音元音基頻及前三個(gè)共振峰值 VowelP

6、erceived pitchF1F2F3i232035023002750I187043018902300185061018702230166080016202210136089014102120a1220100012502110o112088010902190U9204609102250u90037087013.2.3 聲調(diào) 1958年Jensen對挪威語、瑞典語、斯洛文尼亞語和中國普通話這四種有聲調(diào)特性的語音進(jìn)行了一系列的聲調(diào)辨認(rèn)實(shí)驗(yàn),有人也對28 個(gè)耳語音節(jié)的聲調(diào)進(jìn)行測聽實(shí)驗(yàn),結(jié)果都表明孤立字詞耳語音是含有聲調(diào)信息的,這為耳語音的孤立字識別提供一定依據(jù)。而聲調(diào)信息主要由音節(jié)中的元音部分決定

7、,所以主要考慮韻母部分的相關(guān)參數(shù)。研究表明在重構(gòu)語音過程中發(fā)現(xiàn)幅值包絡(luò)和音長對三聲、四聲的聲調(diào)識別有著重要作用,同時(shí)加大幅值包絡(luò)和音長可以提高人們對聲調(diào)的感知,后來許多研究者對音長和幅值包絡(luò)的研究進(jìn)一步證實(shí)了這兩個(gè)參數(shù)的有效性。此外還發(fā)現(xiàn)共振峰也在一定程度上提供了聲調(diào)信息。 13.2.4 共振峰 各國研究者對英語、塞爾維亞語、日語和漢語耳語音的主要元音研究表明,不同人、不同語種和不同元音的共振峰偏移量都不同,但也有相同的規(guī)律:耳語音的第一、二共振峰頻率高于正常音,第三共振峰頻率和正常音差不多,耳語音的共振峰帶寬變寬。目前大多數(shù)耳語音共振峰估計(jì)算法都是對正常音算法的改進(jìn)。例如將共振峰估計(jì)分為三步

8、:自相關(guān)函數(shù)(ACF)、分段線性預(yù)測濾波(Segment the ACF spectrum)、逆濾波(IFC),最終根據(jù)逆濾波系數(shù)直接得到共振峰值。 除了共振峰的估計(jì),修改和偏移共振峰也對耳語音到正常音的轉(zhuǎn)化起著重要作用。由于耳語音轉(zhuǎn)換正常音研究的需要,常要將共振峰進(jìn)行修改,方法主要有直接法和間接法:前者先求出共振峰值,然后對其進(jìn)行修改;后者通過極點(diǎn)位置或線譜對頻率的改變間接修改共振峰值。通過比較直接法和極點(diǎn)間接修改法的性能,發(fā)現(xiàn)極點(diǎn)法更靈活、更有效,而線譜對修改法則可避免極點(diǎn)法中的極點(diǎn)交叉問題。 13.2.5 耳語音美爾頻率倒譜特征參數(shù)分析 考慮到耳語音發(fā)音的特殊性,目前的研究大多集中在對正

9、常語音特征參數(shù)的修正上。例如采用特征彎折將MFCC、LPCC和小波參數(shù)的分布轉(zhuǎn)換為正態(tài)分布,用改進(jìn)的GMM進(jìn)行耳語音識別,可獲得較好的識別率。徐柏齡等人基于對耳語音共振峰位置、能量以及人耳對耳語音聽覺模型的研究提出了修正MFCC參數(shù)MFCCM 和MFCCExp-log。 通過分析發(fā)現(xiàn)共振峰頻率F1、F3較之其他共振峰參數(shù)對說話人識別更具有重要作用,通過對現(xiàn)有三種頻域尺度下LPCC、MFCC和ASCC(Accent Sensitive Scale Coefficient,口音敏感尺度系數(shù))的研究,提出一種新的頻域尺度WSS(Whisper Sensitive Scale, 耳語敏感尺度),并在此

10、尺度下提取新的特征參數(shù)WSSC(Whisper Sensitive Scale Coefficient, 耳語敏感尺度系數(shù))用于基于HMM的說話人識別系統(tǒng)。 WSS尺度與線性尺度關(guān)系如下式: 13.3耳語音增強(qiáng)耳語音的信噪比很低,因此在對其進(jìn)行識別和轉(zhuǎn)換時(shí),必須進(jìn)行耳語音的增強(qiáng)。雖然正常語音的增強(qiáng)方法也適用于耳語音,但由于耳語音更容易受背景噪聲的干擾,所以需要尋求更適合耳語音的增強(qiáng)方法。傳統(tǒng)的正常語音增強(qiáng)方法如維納濾波和譜減法對提高信噪比有很好的效果,但都?xì)埩袅撕艽蟮摹耙魳吩肼暋?,對耳語音來說無法很好適用。因此蘇州大學(xué)的趙鶴鳴提出兩種增強(qiáng)耳語音信噪比的算法,“基于AD 神經(jīng)網(wǎng)絡(luò)的耳語音增強(qiáng)”和

11、“基于LMS 自適應(yīng)濾波的耳語音增強(qiáng)”。 “基于AD 神經(jīng)網(wǎng)絡(luò)的耳語音增強(qiáng)”利用神經(jīng)網(wǎng)絡(luò)具有模仿人腦結(jié)構(gòu)來處理信息的自適應(yīng)線性神經(jīng)元(ADAptive LINear Neuron, ADLINE)網(wǎng)絡(luò)的線性預(yù)測來自適應(yīng)地消除由譜減法產(chǎn)生的“音樂噪聲”。ADALINE 是線性神經(jīng)網(wǎng)絡(luò)的典型代表, 它以LMS 為學(xué)習(xí)算法,使均方誤差最小,獲得具有較強(qiáng)抗噪能力網(wǎng)絡(luò)。 耳語音增強(qiáng)系統(tǒng)原理框圖 LMS自適應(yīng)噪聲對消原理 13.4耳語音轉(zhuǎn)換正常音 由于耳語音獨(dú)特的發(fā)音機(jī)理和聲學(xué)特性,使得耳語音的變換不同于正常音下不同說話人之間的語音變換,也不同于氣管食管語音的增強(qiáng)。后兩種語音變換都是在基頻存在的情況下進(jìn)行

12、相應(yīng)處理,而耳語音的變換是從無基頻到有基頻的轉(zhuǎn)變,因此有兩個(gè)關(guān)鍵問題需要解決。一是如何添加基頻,二是如何修正聲道傳輸函數(shù)。 上圖是漢語耳語音轉(zhuǎn)換為正常音的系統(tǒng)框圖。首先把8KHz,16bit采集的耳語音進(jìn)行預(yù)加重去除噪聲,然后分幀加海明窗,窗長20ms,窗移10ms。通過計(jì)算各幀信號的對稱相對熵進(jìn)行聲韻分割,分別獲得耳語音的聲母部分和韻母部分。韻母部分通過同態(tài)信號處理正系統(tǒng)后,用短時(shí)窗提取聲道響應(yīng)序列的復(fù)倒譜,然后通過同態(tài)信號處理逆系統(tǒng)恢復(fù)出聲道傳遞時(shí)序序列,再把漢語普通話的歸一字調(diào)模型根據(jù)音調(diào)加入基頻。將處理過的韻母和聲母連接起來就可基本恢復(fù)出正常音。 因?yàn)槎Z音聲道傳輸函數(shù)相對于正常音發(fā)生

13、了改變,使得韻母500Hz以下的譜被衰減,所以需要一個(gè)低頻提升濾波器對韻母部分進(jìn)行低頻提升。考慮到合成語音的自然度,對耳語音的聲母也要適當(dāng)提升。由于耳語音音量比較小,語速比較慢,所以對合成出的正常音還要進(jìn)行音量加強(qiáng)和語速提升。利用該系統(tǒng)對漢語耳語音“零”到“九”進(jìn)行轉(zhuǎn)換,恢復(fù)出正常音,人耳可以對其正常分辨。但是它只是實(shí)現(xiàn)了孤立字的變換,而且其中一些重要的具體問題還有待于進(jìn)一步研究,如精確的聲韻分割、基音周期的確定、聲音的自然度等。 13.5耳語音識別13.5.1 孤立字詞的耳語音識別 孤立字詞識別是耳語音識別的一個(gè)重要分支,目前相關(guān)的研究還較少。孤立字詞識別系統(tǒng)在語音識別領(lǐng)域中存在的問題最少,

14、而且孤立字詞識別的許多技術(shù)是可以用到字詞挑選和連續(xù)語音識別中去的。因?yàn)樽衷~之間有停頓,孤立單詞的端點(diǎn)檢測比較容易,而且單詞之間的協(xié)同發(fā)音影響也可減至最低。 正常音的孤立字識別方法大致有:(1)采用判別函數(shù)或準(zhǔn)則方法;(2)DTW方法;(3)矢量量化(VQ);(4)人工神經(jīng)網(wǎng)絡(luò);(5)HMM;(6)以上方法的混合技術(shù)。 13.5.2 耳語音的說話人識別 徐柏齡等人設(shè)計(jì)了說話人識別系統(tǒng)框圖。系統(tǒng)主要分為預(yù)處理、特征提取、建模與模型匹配3個(gè)部分。其中預(yù)處理主要是對耳語音進(jìn)行端點(diǎn)檢測、語音增強(qiáng)、高通濾波(500Hz)和譜相減降噪。提取的特征矢量為20階傳統(tǒng)MFCC參數(shù)、MFCCM和MFCCExp-Lo

15、g及其各自的一階差分系數(shù)()。模型則采用的是標(biāo)準(zhǔn)隱馬爾可夫模型和改進(jìn)隱馬爾可夫模型。 實(shí)驗(yàn)中采用的樣本庫由20個(gè)人(10男10女)的漢語耳語音數(shù)字(0-9)構(gòu)成,每人將十個(gè)數(shù)字依次讀10遍,合計(jì)2000音。用400個(gè)音進(jìn)行訓(xùn)練,1600個(gè)音用于識別,識別結(jié)果見表 特征參量與模型起止頻率0-4000Hz500-4000MFCC+(標(biāo)準(zhǔn)HMM)85.12%88.25%MFCCM+(標(biāo)準(zhǔn)HMM)87.94%88.88%MFCCExp-Log+(標(biāo)準(zhǔn)HMM)90.50%91.37%MFCCExp-Log+ MFCCM(改進(jìn)HMM)90.13%92.31%從結(jié)果可以看出采用MFCCM 和MFCCExp-

16、Log參數(shù)的說話人識別系統(tǒng)的效能都優(yōu)于采用傳統(tǒng)的MFCC 參數(shù)的系統(tǒng)。 而且采用MFCCExp-Log的優(yōu)勢尤為明顯,這是由于考慮到人耳敏感區(qū)域的偏移,與實(shí)際情況最為吻合。采用MFCCM 的結(jié)果雖然沒有MFCCExp-Log的效果好,但是它對現(xiàn)有系統(tǒng)的改動(dòng)較小,系統(tǒng)在處理正常音時(shí)性能接近傳統(tǒng)MFCC參數(shù),而且計(jì)算量明顯小于MFCCExp-Log ,因此在某些應(yīng)用情況下采用MFCCM 效果更好。 13.6今后的研究方向 關(guān)于耳語音的研究是一個(gè)綜合了聽覺生理學(xué)、心理學(xué)、認(rèn)知科學(xué)以及信號和信息處理的多領(lǐng)域跨學(xué)科的課題,有著極其廣闊的應(yīng)用前景。但是相關(guān)的研究才剛剛開始,許多問題有待解決。如耳語音的韻律

17、問題,目前是各國研究者非常興趣的課題,現(xiàn)在仍處于初級研究階段;耳語音的情感識別研究還沒有展開;在已有的正常語音研究成果基礎(chǔ)上,尋找適用于耳語語音的信號處理方法的研究,做為一個(gè)新興課題,它還有許多問題需要去探討。1. 耳語音的聲學(xué)特征分析與提取以語音學(xué)的分析研究為基礎(chǔ),從工程信息處理角度去研究耳語語音信號處理的關(guān)鍵技術(shù)和方法。包括耳語語音信號中的特征分析和提取方法;研究新的耳語語音信息特征參數(shù)的提取、記述、變換、加工和表現(xiàn)方法。重點(diǎn)研究韻律學(xué)以外的耳語語音信息特征參數(shù),如聲管特征、氣息特征等。由于耳語語音不同于正常語音的無基音和低聲級發(fā)音模式,使得目前正常語音采用的韻律特征對于耳語語音來講效果可

18、能就不太明顯。所以此前一些適用于正常語音識別的特征參數(shù)需要重新評估或者尋找新的參數(shù)。耳語語音的特點(diǎn)是聲管變化與正常語音不同,而且是氣聲發(fā)音模式,所以還需要研究頻譜的相關(guān)特征以及語音音質(zhì)、氣息等超音段特征的分析與提取。這些研究對于正常語音也具有參考研究價(jià)值。 2耳語音的聽覺感知特性的研究耳語音是一種變異音,對于這種變異音人耳存在不同于正常音的感知特性,對此的解釋是對于變異語音,人耳可以單獨(dú)將變異信息分離出來送到大腦某一神經(jīng)中樞來判讀,而將剩余信息提交大腦語言神經(jīng)中樞,最后綜合兩方面的信息得到完整的信息。因此人耳對于耳語音的聽覺感知會發(fā)生那些不同于正常語音的變化、有什么特征參數(shù)可以有效的描述人們對耳語音的這種感知特性?在模式識別方面,傳統(tǒng)方法是否依然有效,如果效果不佳,如何改進(jìn)?上述問題都有待于各國學(xué)者的研究和證明。 3耳語音信號處理的應(yīng)用研究耳語音信號處理是多領(lǐng)域跨學(xué)科的研究課題,有著極其廣闊的應(yīng)用前景,例如電子人工喉的發(fā)音帶有金屬聲,發(fā)聲越大,噪聲越大,并且

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論