基于MATLAB語音信號(hào)檢測(cè)分析及處理_第1頁
基于MATLAB語音信號(hào)檢測(cè)分析及處理_第2頁
基于MATLAB語音信號(hào)檢測(cè)分析及處理_第3頁
基于MATLAB語音信號(hào)檢測(cè)分析及處理_第4頁
基于MATLAB語音信號(hào)檢測(cè)分析及處理_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 基于MATLAB的語音信號(hào)檢測(cè)分析及處理 第一章 緒論Matlab是矩陣實(shí)驗(yàn)室(Matrix Laboratory)的簡(jiǎn)稱,是美國(guó)MathWorks公司出品的商業(yè)數(shù)學(xué)軟件,用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)技術(shù)計(jì)算語言和交互式環(huán)境,主要包括Matlab和Simulink兩大部分。1.1 Matlab簡(jiǎn)介MATLAB是英文MATrix LABoratory(矩陣實(shí)驗(yàn)室)的縮寫。早期的MATLAB是用FORTRAN語言編寫的,盡管功能十分簡(jiǎn)單,但作為免費(fèi)軟件,還是吸引了大批使用者。經(jīng)過幾年的校際流傳,在John Little。Cleve Moler和Steve Banger合作

2、,于1984年成立MathWorks公司,并正式推出MATLAB第一版版。從這時(shí)起,MATLAB的核心采用C語言編寫,功能越來越強(qiáng)大,除原有的數(shù)值計(jì)算功能外,還新增了圖形處理功能。MathWorks公司于1992年推出了具有劃時(shí)代意義的4.0版;1994年推出了4.2版擴(kuò)充了4.0版的功能,尤其在圖形界面設(shè)計(jì)方面提供了新方法;1997年春5.0版問世,5.0版支持了更多的數(shù)據(jù)結(jié)構(gòu),使其成為一種更方便、更完善的編程語言;1999年初推出的MATLAB5.3版在很多方面又進(jìn)一步改進(jìn)了MATLAB語言的功能,隨之推出的全新版本的最優(yōu)化工具箱和Simulink3.0達(dá)到了很高水平;2000年10月,M

3、ATLAB6.0版問世,在操作頁面上有了很大改觀,為用戶的使用提供了很大方便,在計(jì)算機(jī)性能方面,速度變的更快,性能也更好,在圖形界面設(shè)計(jì)上更趨合理,與C語言接口及轉(zhuǎn)換的兼容性更強(qiáng),與之配套的Simulink4.0版的新功能也特別引人注目;2001年6月推出的MATLAB6.1版及Simulink4.1版,功能已經(jīng)十分強(qiáng)大;2002年6月推出的MATLAB6.5版及Simulink5.0版,在計(jì)算方法、圖形功能、用戶界面設(shè)計(jì)、編程手段和工具等方面都有了重大改進(jìn);2004年,MathWorks公司推出了最新的MATLAB7.0版,其中集成了最新的MATLAB7編譯器、Simumlink6.0仿真軟

4、件以及很多工具箱。這一版本增加了很多新的功能和特性,內(nèi)容相當(dāng)豐富。Matlab主要面對(duì)科學(xué)計(jì)算、可視化以及交互式程序設(shè)計(jì)的高科技計(jì)算環(huán)境。它將數(shù)值分析、矩陣計(jì)算、科學(xué)數(shù)據(jù)可視化以及非線性動(dòng)態(tài)系統(tǒng)的建模和仿真等諸多強(qiáng)大功能集成在一個(gè)易于使用的視窗環(huán)境中,為科學(xué)研究、工程設(shè)計(jì)以及必須進(jìn)行有效數(shù)值計(jì)算的眾多科學(xué)領(lǐng)域提供了一種全面的解決方案,代表了當(dāng)今國(guó)際科學(xué)計(jì)算軟件的先進(jìn)水平。Matlab的優(yōu)勢(shì)(1) 工作平臺(tái)編程環(huán)境十分友好(2)編程語言簡(jiǎn)單易用(3)數(shù)據(jù)的計(jì)算處理能力十分強(qiáng)大(4)圖像處理能力強(qiáng)大(5)模塊集合工具箱應(yīng)用廣泛(6)程序的接口和發(fā)布平臺(tái)很實(shí)用(7)可以開發(fā)用戶界面。Matlab 語

5、言的特點(diǎn)MATLAB語言被稱為第四代計(jì)算機(jī)語言,其利用豐富的函數(shù)資源,使程序員從繁瑣的程序代碼中解放出來,其最突出的特點(diǎn)就是簡(jiǎn)潔。MATLAB用更直觀的、符合人們思維習(xí)慣的代碼,代替了C和FORTRAN語言的冗長(zhǎng)代碼,給用戶帶來最直觀、最簡(jiǎn)潔的程序開發(fā)環(huán)境,下面簡(jiǎn)單介紹一下MATLAB的主要特點(diǎn)。語言簡(jiǎn)潔緊湊,使用方便,庫函數(shù)十分豐富。MATLAB程序書寫的形式自由,利用豐富的庫函數(shù)避開了繁瑣的子程序編程任務(wù),由于庫函數(shù)都是由本領(lǐng)域的專家編寫,所以不必?fù)?dān)心函數(shù)的可靠性。高效方便的矩陣和數(shù)組運(yùn)算,MATLAB語言不需要定義數(shù)組的維數(shù),并給出了矩陣函數(shù)、特殊矩陣函數(shù)、特殊矩陣專門的庫函數(shù),使得在求

6、解信號(hào)處理、建模、系統(tǒng)識(shí)別、優(yōu)化和控制等領(lǐng)域的問題時(shí),顯得大為簡(jiǎn)潔、方便、高效,這是其他高級(jí)語言所不能的。MATLAB既具有結(jié)構(gòu)化的控制語句,又具有面向?qū)ο缶幊痰奶匦浴ATLAB語法限制不嚴(yán)格,程序設(shè)計(jì)自由度大,通過建立M后綴名文件的形式,與用戶已經(jīng)編好的FORTRAN、C語言成語混合編程,方便地調(diào)用有關(guān)的FORTRAN、C語言的子程序??梢浦残院芎?,基本上不做修改就可以在各種型號(hào)的計(jì)算機(jī)和操作系統(tǒng)上面運(yùn)行。MATLAB的圖形功能強(qiáng)大。在C和FORTRAN語言里,繪圖都很不容易,但在MATLAB里,數(shù)據(jù)的可視化非常簡(jiǎn)單。此外,MATLAB還具有較強(qiáng)的編輯圖形界面的能力。MATLAB擁有功能強(qiáng)

7、大的工具箱,主要用來擴(kuò)充其符號(hào)計(jì)算功能、圖示建模仿真功能、文字處理功能以及與硬件實(shí)施交互功能。源程序的開放性強(qiáng)。除內(nèi)部函數(shù)以外,所有MATLAB的核心文件和工具箱文件都是可讀可改變的源文件,用戶可通過對(duì)源文件的修改以及加入自己的文件構(gòu)成新的工具箱。MATLAB軟件自1984年推向市場(chǎng)以來,歷經(jīng)十幾年的發(fā)展和競(jìng)爭(zhēng),現(xiàn)已成為國(guó)際公認(rèn)的最優(yōu)秀的科技應(yīng)用軟件。它功能強(qiáng)大、界面友好、語言自然、開放性強(qiáng),很快成為應(yīng)用學(xué)科計(jì)算機(jī)輔助分析、設(shè)計(jì)、仿真、教學(xué)乃至科技文字吹不可缺少的基礎(chǔ)軟件。1.2語音概述1.2.1語音簡(jiǎn)介語音,即語言的聲音,是語言符號(hào)系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出,負(fù)載著一定的語言意義,語言

8、依靠語音實(shí)現(xiàn)它的社會(huì)功能。語音是人們交流思想和進(jìn)行社會(huì)活動(dòng)的最基本手段,因此我們要對(duì)語音信號(hào)進(jìn)行處理分析,優(yōu)化人類通信交流。語音信號(hào)處理包括語音通信、語音增強(qiáng)、語音合成、語音識(shí)別和說話人識(shí)別等方面。語音信號(hào)的好壞、語音識(shí)別率的高低,都取決于語音信號(hào)處理的好壞。因此,語音信號(hào)處理是一項(xiàng)非常有意義的研究課程,而語音端點(diǎn)檢測(cè)是語音語音信號(hào)處理中非常重要的一步。語音端點(diǎn)檢測(cè)是語音分析、合成和識(shí)別中的一個(gè)重要環(huán)節(jié),目的是從包含語音的一段信號(hào)中找出語音的起始點(diǎn)及結(jié)束點(diǎn),從而只存儲(chǔ)和處理有效語音信號(hào)。有效的端點(diǎn)檢測(cè)不僅可以減少數(shù)據(jù)的存和處理時(shí)間,而且能排除無聲段的噪聲干擾。端點(diǎn)檢測(cè)的困難在于無聲段或者語音段

9、前后人為呼吸等產(chǎn)生的雜音、語音開始處的弱摩擦音或弱爆破音以及終點(diǎn)處的鼻音,這些使得語音的端點(diǎn)比較模糊,需要綜合利用語音的各種信號(hào)特征,從而確保定位的精確性,避免包含噪音信號(hào)和丟失語音信號(hào)。近年來出現(xiàn)了很多種端點(diǎn)檢測(cè)的方法如短時(shí)能量、短時(shí)過零率、傳統(tǒng)的雙門限法、倒譜特征的檢測(cè)方法、譜熵的檢測(cè)方法法、分形法等。盡管語音端點(diǎn)檢測(cè)技術(shù)在安靜的環(huán)境中已經(jīng)達(dá)到了令人鼓舞的準(zhǔn)確率,但是在實(shí)際應(yīng)用時(shí)由于聲的引入和環(huán)境的改變通常會(huì)使系統(tǒng)性能顯著下降。研究表明,即使在安靜的環(huán)境中,語音識(shí)別系統(tǒng)一半以上的識(shí)別錯(cuò)誤來自端點(diǎn)檢測(cè)器。因此,作為語音識(shí)別系統(tǒng)的第一步,端點(diǎn)檢測(cè)的關(guān)鍵性不容忽視,尤其是噪聲環(huán)境下語音的端點(diǎn)檢測(cè)

10、,實(shí)驗(yàn)室的研究結(jié)果與復(fù)雜的實(shí)用環(huán)境下的語音端點(diǎn)檢測(cè)仍存在一定的差距,它的準(zhǔn)確性很大程度上直接影響著后續(xù)的工作能否有效進(jìn)行,如何準(zhǔn)確地檢測(cè)出帶噪語音的端點(diǎn)至今仍是一個(gè)難題。1.2.2研究背景及意義語音是語言的聲學(xué)表現(xiàn)形式,語言是人類特有的功能,聲音是人類常用的信息交流工具,通過聲音傳遞信息是人類最重要、最有效、最準(zhǔn)確、最方便、最自然的信息交換的方式。語音信號(hào)處理是一門涉及面很廣的交叉科學(xué),包含計(jì)算機(jī)科學(xué)、語音學(xué)、語言學(xué)、聲學(xué)、生理學(xué)、心理學(xué)和數(shù)學(xué)等諸多領(lǐng)域的內(nèi)容。隨著現(xiàn)代科學(xué)的蓬勃發(fā)展,人類社會(huì)越來越顯示出信息社會(huì)的特點(diǎn),猶如衣、食、住、行對(duì)于人類是必要的一樣,通信和信息交換也成為了人類社會(huì)存在

11、的必要條件,不但在人與人之間,而且在人與機(jī)器之間每時(shí)每刻都需要進(jìn)行大量的信息交換。讓計(jì)算機(jī)聽懂人類的語言,是人類自計(jì)算機(jī)誕生以來夢(mèng)寐以求的想法。語音技術(shù)的應(yīng)用己經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的高新技術(shù)產(chǎn)業(yè),它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理,工業(yè)生產(chǎn)部門的語聲控制,電話、電信系統(tǒng)的自動(dòng)撥號(hào)、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實(shí)際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng)用程序的用戶界面。語音處理內(nèi)容涉及到計(jì)算機(jī)科學(xué)、模式識(shí)別、信號(hào)處理、生理學(xué)、語音學(xué)、心理學(xué)等學(xué)科,還涉及到信號(hào)和信息處理系統(tǒng)、通信和電子系統(tǒng)等具體應(yīng)用領(lǐng)域。語音信號(hào)處理與信息科學(xué)

12、中最活躍的前沿科學(xué)密切聯(lián)系,并且共同發(fā)展。例如,神經(jīng)網(wǎng)絡(luò)理論、模糊集理論、小波理論是當(dāng)前熱門的研究領(lǐng)域,這些領(lǐng)域的研究常常把語音處理任務(wù)作為一個(gè)應(yīng)用實(shí)例,而語音處理研究者也從這些領(lǐng)域的研究進(jìn)展中找到突破口,使語音處理技術(shù)研究取得進(jìn)展。經(jīng)過幾十年的努力,語音信號(hào)處理在語音識(shí)別、語音增強(qiáng)、語音編碼、說話人識(shí)別、說話人情感識(shí)別、語音合成等方面取得了巨大的進(jìn)步,然而,一旦這些技術(shù)應(yīng)用在實(shí)際環(huán)境中,由于環(huán)境噪聲、信道等方面的影響,性能急劇下降,因?yàn)樵趯?shí)際環(huán)境中沒有完全純凈的語音信號(hào),一般都會(huì)伴有噪聲或其它干擾。語音檢測(cè)的任務(wù)就是判斷待處理信號(hào)是語音還是非語音,從輸入信號(hào)中找到語音部分的起止點(diǎn)。語音檢測(cè)是

13、語音識(shí)別、語音增強(qiáng)以及語音編碼等中的一個(gè)重要環(huán)節(jié)。有效的語音檢測(cè)技術(shù)不僅能減少系統(tǒng)的處理時(shí)間、提高系統(tǒng)的處理實(shí)時(shí)性,而且能排除無聲段的噪聲干擾,從而使后續(xù)工作的性能得以較大提高。第二章 語音信號(hào)處理2.1 語音信號(hào)特點(diǎn)語音信號(hào)是隨時(shí)間變化的一維信號(hào),由一連串的音組成,各個(gè)音的排列有一定的規(guī)則。語音具有聲學(xué)特征的物理性質(zhì),聲音質(zhì)量與它的頻率范圍有關(guān),語音信號(hào)的頻率一般是在200Hz3500Hz范圍內(nèi),隨著帶寬的增加,信號(hào)的自然度將逐步得到改善。語音信號(hào)本身的冗余度是較大的,少數(shù)輔音清晰度下降并不明顯影響語句的可懂度,比如通常的模擬電話帶寬只有3KHz4KHz。語音信號(hào)的特性是隨時(shí)間變化的,所以是

14、一種典型的非穩(wěn)態(tài)信號(hào)。但是,從另一方面來看,由于語音的形成過程與發(fā)音器官的運(yùn)動(dòng)密切相關(guān),這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來講要緩慢得多,因此,語音信號(hào)常??杉俣槎虝r(shí)平穩(wěn)的。研究表明,在5ms-40ms的范圍內(nèi),語音信號(hào)的頻譜特性和一些物理特征參數(shù)基本保持不變。這樣,我們就可以將平穩(wěn)過程的處理方法和理論引入到語音信號(hào)的短時(shí)處理中。因此,“短時(shí)分析技術(shù)”貫穿于語音分析的全過程。語音信號(hào)的基本組成單位是音素。音素可分成“濁音”和“清音”兩大類。如果將不存在語音而只有背景噪聲的情況稱為“無聲”。那么音素可以分成“無聲”、“濁音”、“清音”三類。一個(gè)音節(jié)由元音和輔音構(gòu)成。元音在音節(jié)中占主要部分。所有元音都

15、是濁音。在漢語普通話中,每個(gè)音節(jié)都是由“輔音一元音”構(gòu)成的。  在信號(hào)處理中,語音按其激勵(lì)形式的不同可分為2 類: (1)濁音  當(dāng)氣流通過聲門時(shí),如果聲帶的張力剛好使聲帶發(fā)生張弛振蕩式的振蕩,產(chǎn)生一股準(zhǔn)周期的氣流,這一氣流激勵(lì)聲道就產(chǎn)生了濁音。這種語音信號(hào)是1 種激勵(lì)信號(hào),它是由規(guī)則的全程激勵(lì)產(chǎn)生的,其時(shí)域波形具有準(zhǔn)周期性,語音頻率集中在比較低的頻率范圍內(nèi),短時(shí)能量較高,由于語音信號(hào)中的高頻成分有高的過零率而低頻有低的過零率,因此濁音的過零率低。通常,濁音信號(hào)可以由周期激勵(lì)通過線性濾波器合成。 (2)清音  當(dāng)氣流通過聲門

16、時(shí),如果聲帶不振動(dòng),而在某處收縮,迫使氣流高速通過這一收縮部分而產(chǎn)生湍流,就得到清音。清音是由不規(guī)則的激勵(lì)產(chǎn)生的,發(fā)清音時(shí)聲帶不振動(dòng),其時(shí)域波形不具有周期性, 自相關(guān)函數(shù)沒有很強(qiáng)的自相關(guān)周期峰,其語音頻率集中在較高的范圍內(nèi),短時(shí)能量較低,因而過零率較高。通常,清音信號(hào)可由白噪聲通過線性濾波器合成。  2.1.1 語音信號(hào)的“短時(shí)譜”  對(duì)于非平穩(wěn)信號(hào),它是非周期的,頻譜隨時(shí)間連續(xù)變化,因此由傅里葉變換得到的頻譜無法獲知其在各個(gè)時(shí)刻的頻譜特性。如果利用加窗的方法從語音流中取出其中一個(gè)短段,再進(jìn)行傅里葉變換,就可以得到該語音的短時(shí)譜。  2.1.2

17、 基音周期  濁音信號(hào)的周期稱為基音周期,它是聲帶振動(dòng)頻率的倒數(shù),基音周期的估計(jì)稱為基音檢測(cè)?;魴z測(cè)是語音處理中的一項(xiàng)重要技術(shù),它在有調(diào)語音辨意、低速率語音編碼、說話人識(shí)別等方面起著非常關(guān)鍵的作用。但在實(shí)現(xiàn)過程中,由于聲門激勵(lì)波形不是一個(gè)完全的周期脈沖串,再加上聲道影響去除不易、基音周期定位困難、背景噪聲影響強(qiáng)烈等一系列因素,基音檢測(cè)面臨著很大的困難?,F(xiàn)在已有很多性能優(yōu)越的基音檢測(cè)算法,自相關(guān)基因檢測(cè)算法就是一種基于語音時(shí)域分析理論較好的算法,在這里基于聲音文件比較穩(wěn)定的基礎(chǔ)上,使用觀察法獲取基音周期。2.2 語音信號(hào)預(yù)處理為了消除因?yàn)槿祟惏l(fā)聲器官本身和因一些采集語音信號(hào)

18、的設(shè)備等所引起的混疊、高次諧波失真現(xiàn)象,在對(duì)語音信號(hào)進(jìn)行分析和處理之前,必須對(duì)其進(jìn)行預(yù)處理。語音信號(hào)的預(yù)處理應(yīng)盡可能地保證處理后得到的信號(hào)更均勻、平滑,且能提高語音的質(zhì)量。2.2.1預(yù)加重在進(jìn)行語音信號(hào)數(shù)字處理時(shí),為了獲取一段語音信號(hào)的時(shí)域波形,首先要將語音信號(hào)轉(zhuǎn)換成電信號(hào),再用A/D轉(zhuǎn)換器將其變換為離散的數(shù)字化采樣信號(hào)。己經(jīng)數(shù)字化的語音信號(hào)將依次進(jìn)入一個(gè)數(shù)據(jù)區(qū)。由于語音信號(hào)的平均功率受聲門激勵(lì)和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,即6dB/oct(2倍頻)或20dB/dec(10倍頻),所以求語音信號(hào)頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為

19、此要在預(yù)處理中進(jìn)行預(yù)加重處理。目的是提升高頻部分,使信號(hào)變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,而且預(yù)加重零點(diǎn)與輻射零點(diǎn)將抵消聲門波的影響,使語音信號(hào)中只包含聲道部分,以便于頻譜分析或聲道參數(shù)分析。圖2.1表明了語音預(yù)處理的過程采樣量化預(yù)加重加窗分幀算法處理語音圖2.1 語音信號(hào)的預(yù)處理預(yù)加重一般是在語音信號(hào)數(shù)字化之后,用具有6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器來實(shí)現(xiàn),它一般是一階的數(shù)字濾波器: (2-1)式中的取值接近于1。有時(shí)要恢復(fù)原信號(hào),需要從做過預(yù)加重的信號(hào)頻譜來求實(shí)際的頻譜時(shí),要對(duì)測(cè)量值進(jìn)行去加重處理,即加上6dB/倍頻程的下降的頻率特性來還原成原來

20、的特性。2.2.2加窗分幀語音信號(hào)檢測(cè)首先要進(jìn)行分幀處理,然后依次判斷每一幀是否為語音的端點(diǎn)。如果采用較小的窗長(zhǎng),則計(jì)算量增加,語音識(shí)別的速度會(huì)降低。我們可以在語音靜音段時(shí),采用較長(zhǎng)的窗 ;在語音和靜音的過渡段時(shí)采用較小的窗 ,可以確切判斷語音的起始點(diǎn) ;一旦確定語音的起點(diǎn),就改用常規(guī)窗長(zhǎng)。在進(jìn)行了預(yù)加重后,接下來就要對(duì)語音信號(hào)進(jìn)行加窗分幀處理。將語音信號(hào)劃分為許多短時(shí)的語音段,每個(gè)短時(shí)的語音段稱為一個(gè)分析幀。另外,由于不同語音信號(hào)的基音周期不同,為了兼顧男聲和女聲的最高和最低基音頻率,且能準(zhǔn)確地描述語音能量自身的實(shí)際變化規(guī)律,通常將窗寬選為10ms20ms。圖2.2 幀長(zhǎng)和幀移如圖2.2所示

21、分幀一般采用交疊分段的方法,這是為了使幀與幀之間能平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長(zhǎng)的比值一般取為00.5之間。分幀是用可移動(dòng)的有限窗口長(zhǎng)度進(jìn)行加權(quán)實(shí)現(xiàn)的,即用窗函數(shù)乘以語音信號(hào)s(n),從而形成加窗的語音信號(hào): (2-2)由于窗函數(shù)一般取為S(n)中間大兩頭小的光滑函數(shù),這樣的沖激響應(yīng)所對(duì)應(yīng)的濾波器具有低通特性,其帶寬和頻率取決于窗函數(shù)的選取。用得最多的三種窗函數(shù)是矩形窗、漢明窗(Hamming)和漢寧窗(Hanning),它們的定義如下:矩形窗: (2-3)漢明窗: (2-4) 漢寧窗: (2-5)式中N為窗長(zhǎng),窗函數(shù)的選取(形狀和長(zhǎng)度)對(duì)于短時(shí)分析參數(shù)的

22、特性影響很大,為此應(yīng)該選擇合適的窗口,使其短時(shí)參數(shù)能更好地反映語音信號(hào)的特性變化。以上這些窗函數(shù)的幅度頻率響應(yīng)都具有低通特性,它們的主瓣寬度和旁瓣高度如表1-1所示。表1-1 1s長(zhǎng)的各種窗的主瓣寬度和旁瓣高度矩形漢明漢寧主瓣寬度0.81Hz1.19Hz1.87Hz旁瓣寬度-13dB-43dB-32dB從表中可知:矩形窗的主瓣寬度最小,但其旁瓣高度最高;漢明窗的主瓣最寬,而旁瓣高度最低。矩形窗的旁瓣太高,會(huì)產(chǎn)生嚴(yán)重的泄漏現(xiàn)象。漢明窗旁瓣最低,可以有效地克服泄漏現(xiàn)象,具有更平滑的低通特性,因此,一般在語音信號(hào)預(yù)處理中,都選用漢明窗來進(jìn)行語音分幀處理。2.3 語音信號(hào)分析語音信號(hào)處理包括語音識(shí)別、

23、語音合成、語音編碼、說話人識(shí)別等方面,但是其前提和基礎(chǔ)是對(duì)語音信號(hào)進(jìn)行分析。只有將語音信號(hào)分析成表示其本質(zhì)特性的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語音通信,以及建立用于識(shí)別的模板或知識(shí)庫。而且,語音識(shí)別率的高低,語音合成的音質(zhì)好壞,都取決于對(duì)語音信號(hào)分析的準(zhǔn)確性和精度。2.3.1短時(shí)時(shí)域分析語音信號(hào)本身就是時(shí)域信號(hào),因此,時(shí)域分析方法是應(yīng)用最為廣泛的一種方法,這種方法直接利用語音信號(hào)的時(shí)域波形。時(shí)域分析通常用于最基本的參數(shù)分析以及用于語音的分割、預(yù)處理等。語音信號(hào)的時(shí)域參數(shù)有短時(shí)能量、短時(shí)平均幅度、短時(shí)過零率、短時(shí)自相關(guān)函數(shù)等,這些是語音信號(hào)中一組最基本的短時(shí)參數(shù),在各種語音信號(hào)數(shù)字處理技術(shù)

24、中都有重要應(yīng)用。進(jìn)行語音信號(hào)分析時(shí),最先接觸到且最直觀的就是它的時(shí)域波形。時(shí)域分析通常用于最基本的參數(shù)分析,語音的分割、預(yù)處理和大分類。這種分析方法的特點(diǎn)是表示語音信號(hào)比較直觀、物理意義明確;實(shí)現(xiàn)起來比較簡(jiǎn)單、運(yùn)算量少;可得到語音的一些重要參數(shù);可采用示波器等通用設(shè)備進(jìn)行觀測(cè)。取樣之后要對(duì)信號(hào)進(jìn)行量化,而量化過程不可避免地會(huì)產(chǎn)生量化誤差,即量化后的信號(hào)值與原信號(hào)之間的差值。2.3.2頻域分析語音信號(hào)頻域分析,主要是對(duì)一些頻域的參數(shù)進(jìn)行分析,常用的一些頻域參數(shù)有頻譜、功率譜、倒譜等等,最常用的頻域分析方法有傅立葉變換法、線性預(yù)測(cè)法等。1、傅立葉變換法傅里葉頻譜變換是語音信號(hào)頻域分析中廣泛使用的方

25、法,是分析線性系統(tǒng)和平穩(wěn)信號(hào)穩(wěn)態(tài)特性強(qiáng)有力的手段,對(duì)分幀加窗后的語音信號(hào),進(jìn)行傅里葉變換和逆傅里葉變換,可以相應(yīng)的得到頻譜,功率譜,倒譜距離,嫡等特征。由于語音信號(hào)的特性是隨著時(shí)間緩慢變化,所以采用短時(shí)傅里葉變換,相應(yīng)的求得特征為短時(shí)頻域特征,這里的窗函數(shù)都使用漢明窗。(1)短時(shí)頻譜和短時(shí)功率譜設(shè)信號(hào)經(jīng)過傅里葉變換后在頻域記為,則與的關(guān)系見公式1-6。 (2-6)語音的頻譜為的幅度,則有 (2-7)語音的短時(shí)功率譜的是幅度的平方,所以短時(shí)功率譜的計(jì)算方法為 (2-8)(2)倒譜距離語音信號(hào)的倒譜分析是通過同態(tài)處理來實(shí)現(xiàn)的。同態(tài)信號(hào)處理也稱為同態(tài)濾波,就是將非線性問題轉(zhuǎn)化為線性問題的處理方法。由

26、于語音信號(hào)可視為聲門激勵(lì)信號(hào)和聲道沖擊響應(yīng)的卷積,可以對(duì)語音信號(hào)進(jìn)行解卷。倒譜能很好表示語音的特征,在強(qiáng)噪聲環(huán)境下,可通過倒譜系數(shù)求得倒譜距離,使用倒譜距離來作為端點(diǎn)檢測(cè)的特征。信號(hào)的倒譜也可以定義為信號(hào)的能量譜密度函數(shù)S(叻的對(duì)數(shù)的傅里葉級(jí)數(shù)展開式的系數(shù), (2-9)即為倒譜系數(shù),通過倒譜系數(shù)求得倒譜距離幾為 (2-10)(3)熵熵(用表示)是物質(zhì)的復(fù)雜程度的一種反映。熵代表的信息量,的概率分布越模糊,越難判斷, 則的熵為 (2-11)2、線性預(yù)測(cè)法線性預(yù)測(cè)分析的基本思想是:由于語音樣點(diǎn)之間存在相關(guān)性,所以可以用過去的樣點(diǎn)值來預(yù)測(cè)現(xiàn)在或未來的樣點(diǎn)值,即一個(gè)語音的抽樣能夠用過去若干個(gè)語音抽樣或

27、它們的線性組合來逼近。通過使實(shí)際語音抽樣和線性預(yù)測(cè)抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值來決定唯一的一組預(yù)測(cè)系數(shù)。而這組預(yù)測(cè)系數(shù)就反映了語音信號(hào)的特征,可以作為語音信號(hào)特征參數(shù)用與語音識(shí)別、語音合成等。將線性預(yù)測(cè)應(yīng)用與語音信號(hào)處理,不僅是因?yàn)樗念A(yù)測(cè)功能,而且更重要的是因?yàn)樗芴峁┮粋€(gè)非常好的聲道模型及模型參數(shù)估計(jì)方法。線性預(yù)測(cè)的基本原理和語音信號(hào)數(shù)字模型密切相關(guān)。第三章 語音信號(hào)檢測(cè)3.1清音濁音檢測(cè)3.1.1信號(hào)采集該設(shè)計(jì)以本人的聲音為分析樣本??傻贸雎曇舻牟蓸宇l率為11025Hz,且聲音是單通道的。利用sound函數(shù),可清晰地聽到讀音為:“電子信息”的音頻信號(hào)。采集數(shù)據(jù)并畫出波形圖如下所示

28、,fs 為采樣頻率,x為采樣數(shù)據(jù),接下來對(duì)采樣數(shù)據(jù)作傅里葉變換y=fft(x)并畫出頻譜圖如圖1所示,程序如下:fs=11025; %抽樣頻率x=wavread('yin.wav');sound(x1,11025); %讀取語音信號(hào)“電子信息”figure(1)subplot(211)plot(x) %做原始語音信號(hào)的時(shí)域圖形title('原始語音信號(hào)波形');xlabel('樣點(diǎn)數(shù)'); %x軸的名字是“樣點(diǎn)數(shù)”ylabel('幅值 '); %y軸名字是“幅值”grid on; N=128;n=0:N-1;y=fft(x); %

29、對(duì)x進(jìn)行傅里葉變換mag=abs(y); %求幅值f=(0:length(y)-1)'*fs/length(y); %進(jìn)行對(duì)應(yīng)的頻率轉(zhuǎn)換figure(1)subplot(212)plot(f,mag); %做原始語音信號(hào)的頻譜圖xlabel('頻率(Hz)'); ylabel('幅值');title('原始信號(hào)頻譜圖');grid on;圖1 原始語音信號(hào)波形及頻譜圖由頻譜圖可清楚地看到樣本聲音主要以低頻為主。人的語音信號(hào)頻率一般集中在200 kHz到4.5 kHz之間,從聲音頻譜的包絡(luò)來看,樣本聲音的能量集中在0.1(11025Hz)以

30、內(nèi),0.4以外的高頻部分很少。所以信號(hào)寬度近似取為1.1kHz,由采樣定理可得。3.1.2短時(shí)能量和短時(shí)平均幅度能量是語音的一個(gè)重要特性,由于語音信號(hào)的能量隨時(shí)間變化,清音和濁音之間的能量差別相當(dāng)顯著,清音的能量較小,濁音的能量較大。因此對(duì)語音的短時(shí)能量進(jìn)行分析,可以描述語音的這種特征變化情況。短時(shí)能量定義為: (3-1)其中,W(n)是窗函數(shù),N是窗長(zhǎng)。特殊地,當(dāng)采用矩形窗時(shí),可簡(jiǎn)化為: (3-2)由此表明,窗口加權(quán)短時(shí)平均能量En 相當(dāng)于將“語音平方”信號(hào)通過一個(gè)單位函數(shù)響應(yīng)為h( n) 的線性濾波器的輸出。本次語音信號(hào)的短時(shí)平均能量和短時(shí)平均幅度如下圖2所示及程序如下:N=240;Y=w

31、avread('yin.wav');L=length(Y); LL=length(Y)/N; figure(2)Em=zeros(1,(LL-1)*240); for ii=1:(LL-1)*240, temp=Y(ii:ii+240); Em(ii)=sum(temp.*temp); endjj=1:(LL-1)*240; subplot(211)plot(jj, Em,'b'); %繪制短時(shí)平均能量曲線xlabel('幀數(shù)');ylabel('短時(shí)能量');title('短時(shí)平均能量');grid on;%短時(shí)

32、平均幅度Mn=sum(abs(Y)/NMn=zeros(1,(LL-1)*240);for ii=1:(LL-1)*240, temp=Y(ii:ii+240); Mn(ii)=sum(abs(temp)/N;endfigure(2)jj=1:(LL-1)*240; subplot(212)plot(jj, Mn,'b'); %繪制短時(shí)平均幅度曲線xlabel('幀數(shù)');ylabel('短時(shí)平均幅度');title('短時(shí)平均幅度');grid on; 圖2 短時(shí)平均能量和短時(shí)平均幅度由上圖發(fā)現(xiàn),語音濁音段的短時(shí)平均能量遠(yuǎn)遠(yuǎn)大于

33、清音段的短時(shí)平均能量。因此,短時(shí)平均能量En 的計(jì)算給出了區(qū)分清音段與濁音段的依據(jù),即En (濁) > En (清)。根據(jù)En 由高到低的跳變可定出濁音變?yōu)榍逡粽Z音的時(shí)刻, En 由低向高的跳變可定出清音變?yōu)闈嵋粽Z音的時(shí)刻,而只有濁音才有基音周期,清音的基音周期為零。故清濁音判斷是基音檢測(cè)的第一步。該算法中窗口選擇漢明窗,選擇漢明窗的理由是窗函數(shù)的選取原則為窗函數(shù)截取后的x ( n) 盡量是中間大兩頭小的光滑函數(shù),沖激響應(yīng)對(duì)應(yīng)的濾波器具有低通特性。從漢明窗的構(gòu)成及頻率響應(yīng)特性上看, 漢明窗具有這種特性, 而矩形窗及漢寧窗則稍遜之。漢明窗雖然主瓣最高(帶寬大) ,但旁瓣最低(通帶外的衰減大

34、) , 可以有效地克服泄露現(xiàn)象,具有更好的低通特性。故選擇漢明窗而不選擇別的窗函數(shù),能使短時(shí)平均能量En 更能反映語音信號(hào)的幅度變化。短時(shí)能量函數(shù)的應(yīng)用:1)可用于區(qū)分清音段與濁音段。En值大對(duì)應(yīng)于濁音段,En值小對(duì)應(yīng)于清音段。2)可用于區(qū)分濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r(shí)間(根據(jù)En值的變化趨勢(shì))。3)對(duì)高信噪比的語音信號(hào),也可以用來區(qū)分有無語音(語音信號(hào)的開始點(diǎn)或終止點(diǎn))。無信號(hào)(或僅有噪聲能量)時(shí),En值很小,有語音信號(hào)時(shí),能量顯著增大。3.1.3 短時(shí)過零率過零率可以反映信號(hào)的頻譜特性。對(duì)于連續(xù)語音信號(hào),可以考察其時(shí)域波形通過時(shí)間軸的情況。對(duì)于離散時(shí)間信號(hào),如果相鄰兩個(gè)樣點(diǎn)的正負(fù)號(hào)相異時(shí)

35、,我們稱之為“過零”,即此時(shí)信號(hào)的時(shí)間波形穿過了零電平的橫軸。由此可以計(jì)算過零數(shù),過零數(shù)就是樣本改變符號(hào)的次數(shù),統(tǒng)計(jì)單位時(shí)間內(nèi)樣點(diǎn)值改變符號(hào)的次數(shù)就可以得到平均過零率。短時(shí)過零分析通常用在端點(diǎn)檢測(cè),特別是用來估計(jì)清音的起始位置和結(jié)束位置。短時(shí)平均過零率定義為: (3-3) 在矩形窗條件下,可以簡(jiǎn)化為 (3-4)短時(shí)過零率可以粗略估計(jì)語音的頻譜特性。由語音的產(chǎn)生模型可知,發(fā)濁音時(shí),聲帶振動(dòng),盡管聲道有多個(gè)共振峰,但由于聲門波引起了頻譜的高頻衰落,因此濁音能量集中于3KZ以下。而清音由于聲帶不振動(dòng),聲道的某些部位阻塞氣流產(chǎn)生類白噪聲,多數(shù)能量集中在較高頻率上。高頻率對(duì)應(yīng)著高過零率,低頻率對(duì)應(yīng)著低過

36、零率,那么過零率與語音的清濁音就存在著對(duì)應(yīng)關(guān)系。.音頻為“電子信息”的短時(shí)過零率的波形圖如下圖3所示及程序如下:Zn=zeros(1,(LL-1)*240);for ii=2:(LL-1)*240, temp1=sign(Y(ii:ii+240); temp=sign(Y(ii-1:ii+240-1); Zn(ii)=sum(abs(temp1-temp);endfigure(3)jj=1:(LL-1)*240;plot(jj, Zn,'b'); %繪制短時(shí)過零率函數(shù)曲線xlabel('幀數(shù)');ylabel('短時(shí)過零率');title(

37、9;短時(shí)過零率');grid on;圖3 短時(shí)平均過零率分析可知:清音的短時(shí)能量較低,過零率高,濁音的短時(shí)能量較高,過零率低。清音的過零率為0.5左右,濁音的過零率為0.1左右,兩但者分布之間有相互交疊的區(qū)域,所以單純依賴于平均過零率來準(zhǔn)確判斷清濁音是不可能的,在實(shí)際應(yīng)用中往往是采用語音的多個(gè)特征參數(shù)進(jìn)行綜合判決。短時(shí)過零率的應(yīng)用:1)區(qū)別清音和濁音。清音的過零率高,濁音的過零率低。此外,清音和濁音的兩種過零分布都與高斯分布曲線比較吻合。2)從背景噪聲中找出語音信號(hào)。語音處理領(lǐng)域中的一個(gè)基本問題是,如何將一串連續(xù)的語音信號(hào)進(jìn)行適當(dāng)?shù)姆指?,以確定每個(gè)單詞語音的信號(hào),亦即找出每個(gè)單詞的開始

38、和終止位置。3)在孤立詞的語音識(shí)別中,可利用能量和過零作為有話無話的鑒別。3.2語音信號(hào)端點(diǎn)檢測(cè)3.2.1基于短時(shí)能量和短時(shí)過零率的雙門限端點(diǎn)檢測(cè)原理雙門限法是利用短時(shí)能量和過零率的乘積進(jìn)行檢測(cè)的。在基于短時(shí)能量和過零率的雙門限端點(diǎn)檢測(cè)算法中首先為短時(shí)能量和過零率分別確定兩個(gè)門限,一個(gè)為較低的門限,對(duì)信號(hào)的變化比較敏感,另一個(gè)是較高的門限。當(dāng)?shù)烷T限被超過時(shí),很有可能是由于很小的噪聲所引起的,未必是語音的開始,當(dāng)高門限被超過并且在接下來的時(shí)間段內(nèi)一直超過低門限時(shí),則意味著語音信號(hào)的開始。該算法的原理簡(jiǎn)述如下:對(duì)上述兩種特征作一個(gè)統(tǒng)計(jì)估計(jì),得到兩個(gè)門限值,利用短時(shí)能量檢測(cè)濁音,短時(shí)過零率檢測(cè)清音,

39、兩者配合從而確定語音的端點(diǎn)。由于采集的聲音信號(hào)中最初的短時(shí)段多為無聲或背景噪聲,這樣就可以利用已知為“靜態(tài)”的最初幾幀(一般取10幀)信號(hào)計(jì)算其過零率閥值z(mì)cr及高、低能量閥值amp2(低能量閥)和amp1 (高能量閥)。過零率公式: (3-5)計(jì)算amp2和amp1時(shí),首先計(jì)算最初10幀信號(hào)中每幀的短時(shí)平均能量或平均幅度,最大值記為max,最小值記為min。本文在計(jì)算短時(shí)能量之前,先經(jīng)過一個(gè)濾波器,高通濾波器,此為預(yù)加重濾波器,目的在于濾除低頻干擾 ,尤其是50Hz或60Hz的工頻干擾,將對(duì)于語言識(shí)別更為有用的高頻部分的頻率進(jìn)行提升,在計(jì)算短時(shí)能量之前應(yīng)用該濾波器,還可以起到消除直流漂移、抑

40、制隨機(jī)噪聲和提升清音部分能量的效果。其關(guān)鍵代碼為amp=sum(abs(enframe(filter(1-0.98,1,x),FrameLen,FrameInc),2)。文中能量門限調(diào)整代碼為: amp1=min(amp1,max(amp)/4); amp2=min(amp2,max(amp)/8);根據(jù)語音信號(hào)的實(shí)際情況對(duì)門限值進(jìn)行調(diào)整,以便更好的對(duì)語音端點(diǎn)進(jìn)行檢測(cè)。其端點(diǎn)檢測(cè)的流程如下所述:開始進(jìn)行端點(diǎn)檢測(cè)之前,首先為短時(shí)能量和過過零率分別確定兩個(gè)門限amp1、amp2、zcr1、zcr2, 其中amp2、zcr2分別為短時(shí)能量和過零率比較低的門限,其數(shù)值比較小,對(duì)信號(hào)的變化比較敏感,很容

41、易就會(huì)超過。另外amp1、zcr1是比較高的門限,數(shù)值比較大,信號(hào)必須達(dá)到一定的強(qiáng)度,該門限才可能被超過。低們限被超過未必就是語音信號(hào)的開始,有可能是時(shí)間很短的噪聲引起的。高門限被超過則可以基本確信是由于語音信號(hào)引起的。整個(gè)語音信號(hào)的端點(diǎn)檢測(cè)可以分為四段:靜音、過度段、語音段、結(jié)束。程序中使用一個(gè)變量status來表示當(dāng)前所處的狀態(tài)。在靜音段,如果能量或過零率超越了低門限,就應(yīng)該開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。在過渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要個(gè)參數(shù)的數(shù)值都回落到低門限以下,就可以確信進(jìn)入語音段落。而如果在過渡段中兩個(gè)參數(shù)中的任一個(gè)超過了高門限,就可以確信進(jìn)入

42、語音段了。一些突發(fā)性的噪聲也可以引起短時(shí)能量或過零率的數(shù)值很高,但是往往不能維持足夠的長(zhǎng)的時(shí)間,如門窗的開關(guān)、物體的碰撞等引起的噪聲。這些都可以通過設(shè)定最短時(shí)間門限來判別。當(dāng)前狀態(tài)處于語音時(shí),如果兩個(gè)參數(shù)的值下降低到低門限以下,而且總的記時(shí)長(zhǎng)度小于最短時(shí)間門限,則認(rèn)為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù),否則就標(biāo)記好結(jié)束端點(diǎn),并返回。3.2.2 雙門限語音端點(diǎn)檢測(cè)實(shí)驗(yàn)分析1、實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置雙門限語音端點(diǎn)檢測(cè)是在MATLAB軟件環(huán)境下進(jìn)行仿真實(shí)驗(yàn)。文中語音信號(hào)樣本是在實(shí)驗(yàn)室安靜環(huán)境下采用麥克風(fēng)進(jìn)行錄音,以wav格式存儲(chǔ)為較純凈的語音樣本。實(shí)驗(yàn)所加的噪聲為偽隨機(jī)加性高斯白噪聲,實(shí)驗(yàn)中對(duì)較純凈語

43、音樣本進(jìn)行加噪,形成不同SNR的帶噪語音樣本,然后分別對(duì)較純凈的語音樣本和加噪后的語音樣本進(jìn)行語音端點(diǎn)檢測(cè),并對(duì)它們的檢測(cè)結(jié)果進(jìn)行比較。在語音端點(diǎn)檢測(cè)之前首先要對(duì)被測(cè)的語音信號(hào)進(jìn)行預(yù)處理等,包括分幀加窗等。文中加Hmmaing窗,通過特性為(1-0.94)的濾波器預(yù)加重。對(duì)其他參數(shù)進(jìn)行設(shè)置,如設(shè)置語音幀長(zhǎng)度,幀移長(zhǎng)度,F(xiàn)FT取512,門限閥值設(shè)置等。2、性能準(zhǔn)則在各種各樣的信號(hào)處理系統(tǒng)中,噪聲信號(hào)相對(duì)于有用信號(hào)而言,所造成的都是干擾和破壞作用,但是噪聲卻是普遍存在的。噪聲信號(hào)一般分為加性噪聲和非加性噪聲加性噪聲一般被分為沖激噪聲、周期性噪聲、寬帶噪聲、相同聲道情況下其他語音信號(hào)的干擾噪聲等等。

44、(1)高斯噪聲高斯噪聲是指概率密度函數(shù)服從高斯分布的一類噪聲。高斯分布,也稱正態(tài)分布,記為N(,),其中和為分布的參數(shù),分別為高斯分布的期望和方差特別當(dāng)=0,=1時(shí),X的分布為標(biāo)準(zhǔn)正態(tài)分布。(2)信噪比信噪比是指信號(hào)的有用成份與噪聲功率之比,稱為信號(hào)噪聲比,簡(jiǎn)稱信噪比,常常用分貝數(shù)表示。信噪比越高表明它產(chǎn)生的雜音越少。其公式為: 其中 S、N分別表示原始信號(hào)功率與噪聲信號(hào)功率. 而波形信號(hào)計(jì)算式為: 其中I為原始語音信號(hào),In為帶噪聲信號(hào);p1為原始信號(hào)功率,p2為噪聲信號(hào)功率。文中采用的端點(diǎn)檢測(cè)通過在較純凈語音信號(hào)中加入加性高斯噪聲,然后對(duì)其進(jìn)行語音端點(diǎn)檢測(cè),改變信噪比值,觀察在高信噪比和低

45、信噪比條件下雙門限語音端點(diǎn)檢測(cè)結(jié)果,通過實(shí)驗(yàn)仿真圖比較和分析噪聲對(duì)各算法語音端點(diǎn)檢測(cè)結(jié)果的影響。 3、分析基于短時(shí)能量和短時(shí)過零率的雙門限語音端點(diǎn)檢測(cè)算法是結(jié)合短時(shí)能量和過零率各自優(yōu)點(diǎn)來進(jìn)行檢測(cè),雙門限端點(diǎn)檢測(cè)圖中紅色豎線用來表示語音起點(diǎn)線,綠色豎線表示語音終點(diǎn)線,其檢測(cè)的實(shí)驗(yàn)仿真圖如圖3.7所示:function snr=SNR(I,In)p1=1/length(I)*norm(I)2;p2=1/length(I)*norm(In - I)2;snr=10*log(p1/p2);end tmp1=enframe(x(l:length(x)-l),F(xiàn)rameLen,F(xiàn)ramelne);tmp2

46、=enframe(x(2:length(x),F(xiàn)rameLen,F(xiàn)ramelne);signs=(tmp1.*tmp2)<0;diffs=(tmp1-tmp2)>0.02;zcr=sum(signs.*diffs,2);圖4 “端點(diǎn)檢測(cè)”原始語音信號(hào)雙門限語音端點(diǎn)檢測(cè)波形圖 圖5 SNR=62.7下雙門限語音端點(diǎn)檢測(cè)波形圖圖6 SNR=22.7下雙門限語音端點(diǎn)檢測(cè)波形圖上圖4為較純凈的原始語音信號(hào)采用雙門限進(jìn)行語音端點(diǎn)檢測(cè)的仿真圖,從圖中檢測(cè)結(jié)果可以看出第一和第四個(gè)語音段的起始點(diǎn)和終止點(diǎn)都很好,第二個(gè)語音段的終止點(diǎn)和第三個(gè)語音段的起始點(diǎn)被漏判,而且第四個(gè)語音段末尾又誤判成語音信號(hào)。

47、上圖5為高信噪比SNR=62.7時(shí)雙門限語音端點(diǎn)檢測(cè)的仿真圖,從圖中檢測(cè)結(jié)果可以觀察其檢測(cè)效果與較純凈的原始語音信號(hào)檢測(cè)效果差不多。上圖6為低信噪比條件下雙門限語音端點(diǎn)檢測(cè)的仿真圖,從圖中檢測(cè)結(jié)果可以看出信噪比SNR=22.7時(shí)雙門限檢測(cè)法完全無法檢測(cè)出語音信號(hào)的起始點(diǎn)和終止點(diǎn)。從以上仿真圖4、圖5和圖6可以看出傳統(tǒng)的雙門限語音端點(diǎn)檢測(cè)法在較純凈的語音信號(hào)和高信噪比(SNR=62.7)條件下其端點(diǎn)檢測(cè)效果較之低信噪比(SNR=22.7)條件下檢測(cè)效果較好。由此可見這種方法在較純語音信號(hào)和高信噪比時(shí),能較好檢測(cè)出語音信號(hào)的端點(diǎn),但是隨著信噪比的下降,其檢測(cè)結(jié)果率明顯變差,特別是在噪聲很大時(shí),完全

48、不能檢測(cè)出語音端點(diǎn),說明該檢測(cè)方法容易受噪聲影響,不適合用于大噪聲環(huán)境檢測(cè)。3.3 基于倒譜特征的語音端點(diǎn)檢測(cè)3.3.1倒譜特征倒譜能很好表示語音的特征,因此在大多數(shù)語音識(shí)別系統(tǒng)中選擇倒譜系數(shù)作為輸入特征矢量。在噪聲環(huán)境下短時(shí)能量與其它特征參數(shù)都不能很好地區(qū)分語音段與非語音段,因此可采用倒譜系數(shù)來作為端點(diǎn)檢測(cè)的參數(shù),運(yùn)用倒譜特征來檢測(cè)語音端點(diǎn)也是目前語音識(shí)別系統(tǒng)中比較典型的方法之一。3.3.2倒譜距離設(shè)信號(hào)s(n),其倒譜變換為c(n)。信號(hào)倒譜的一種定義是信號(hào)的能量信號(hào)倒譜的一種定義是信號(hào)能量譜密度函數(shù)的對(duì)數(shù)的傅里葉反變換,或者可以將信號(hào)的倒譜看成是的傅里葉級(jí)數(shù)展開,即 (3-6)式中,為倒

49、譜系數(shù),且 = 是實(shí)數(shù),可由下式計(jì)算 (3-7) 3.3.3基于倒譜距離的端點(diǎn)檢測(cè)算法原理如何很好地提取語音信號(hào)聲道特性的譜包絡(luò),并用少量參數(shù)表示出來,在語音識(shí)別、語音合成和語音編碼中都是最重要的問題。按照語音產(chǎn)生模型的理論,語音信號(hào)是由激勵(lì)信號(hào)與聲道響應(yīng)相卷積產(chǎn)生的,要想提取反映聲道特性的譜包絡(luò),就必須通過解卷積去掉激勵(lì)信號(hào)。由同態(tài)解卷積所導(dǎo)出的倒譜分析方法,只需十幾個(gè)倒譜系數(shù)就能相當(dāng)好地描述語音信號(hào)的聲道特性,所以采用倒譜參數(shù)取代傳統(tǒng)的時(shí)域參數(shù)作為語音端點(diǎn)檢測(cè)的判決參量。根據(jù)Parseval定理,對(duì)于兩個(gè)不同信號(hào)和其倒譜差異的均方值可用倒譜距離表示: = (3-8) 式中為倒譜距離,和分別

50、是對(duì)應(yīng)于譜密度函數(shù)和 的倒譜系數(shù)。 信號(hào)與其倒譜是一一對(duì)應(yīng)的變換,因此倒譜的均方距離可以反映兩個(gè)信號(hào)(比如語音與背景噪聲)譜的區(qū)別,倒譜距離可以作為端點(diǎn)檢測(cè)的判決參數(shù),屬于相似距離范疇。1、倒譜系數(shù)的計(jì)算本文選用LPC倒譜特征,根據(jù)線性預(yù)測(cè)系數(shù)推出倒譜,利用了線性預(yù)測(cè)中聲道系統(tǒng)函數(shù)的最小相位特性,避免了復(fù)對(duì)數(shù)中相位卷繞的繁瑣處理。LPC倒譜特征求出的頻譜包絡(luò)能更好地重現(xiàn)譜的峰值,而且運(yùn)算量小,在實(shí)時(shí)語音識(shí)別中采用LPC 倒譜作為特征向量較好。LPC倒譜特征取合適的階數(shù)(832)后可較好地表征聲道特性,但它是按實(shí)際頻率尺度的倒譜系數(shù)。LPC美爾倒譜系數(shù)算法效率較高,既考慮了聲道激勵(lì),又兼顧人耳聽

51、覺,理論上具有一定的可行性。(1)線性預(yù)測(cè)系數(shù)LPC通過用LPC線性預(yù)測(cè)法分析語音時(shí)得到的有關(guān)語音相鄰樣值間某些相關(guān)特性的參數(shù)組。線性預(yù)測(cè)分析基于如下的基本概念,即一語音樣本值能用過去若干語音樣值的線性組合來近似估計(jì)。按在某分析幀(短時(shí))內(nèi)實(shí)際的各語音樣本與各預(yù)測(cè)得到的樣本間差值的平方和最小準(zhǔn)則,可以決定唯一的一組預(yù)測(cè)系數(shù),即LPC(語音短時(shí)自相關(guān)系數(shù))。(2)LPC倒譜LPC系數(shù)可用來估計(jì)語音信號(hào)的倒譜也是語音信號(hào)短時(shí)倒譜分析處理方法。線性預(yù)測(cè)分析推定的聲道模型系統(tǒng)函數(shù)為語音信號(hào)的倒譜指的是信號(hào)能量譜密度函數(shù)的對(duì)數(shù)的傅立葉變換用測(cè)量倒譜距離的方法來判斷每一幀信號(hào)是語音信號(hào)還是噪聲信號(hào),根據(jù)每

52、一幀信號(hào)與噪聲的倒譜距離的軌跡就可以進(jìn)行語音端點(diǎn)檢測(cè)。LPC倒譜(LPCC)由于利用了線性預(yù)測(cè)中聲道系統(tǒng)函數(shù)的最小相位特性,避免了相位卷積,數(shù)的復(fù)雜;且LPC譜的運(yùn)算量小,僅是用FFT求倒譜時(shí)運(yùn)算量的一半,于實(shí)時(shí)應(yīng)用。在MATLAB中采用迭代算法計(jì)算LPC參數(shù)的程序如下:function lpcc=lpc2lpcc(lpc)%計(jì)算LPCCMCC倒譜參數(shù)n_lpc=8;n_lpcc=12;lpcc1=zeros(n_lpcc,1);lpcc1(1)=lpc(1);%當(dāng)n<n_lpc時(shí),采用下述算法來計(jì)算Lpcc倒譜for n=2:n_lpc lpcc1(n)=lpc(n); for l=1

53、:n-1 lpcc1(n)=lpcc1(n)+lpc(l)*lpcc1(n-l)*(n-l)/n; endendlpcc1=-lpcc1;MC=zeros(k,m);for i=1:k MC(i,m)=lpc(m); for j=(m-1):-1:1 if i=1%對(duì)于階數(shù)為1,2要特殊處理 MC(1,j)=lpcc1(j)+a*MC(1,j+1); end if i=2 MC(2,j)=(1-a2)*MC(1,j+1)+a*MC(2,j+1); end endendlpcc=MC(:,1);圖7 原始語音信號(hào)倒譜法語音端點(diǎn)檢測(cè)波形圖2、倒譜距離的檢測(cè)算法步驟在倒譜距離檢測(cè)的算法中,首先需計(jì)算出的每一幀的LPC系數(shù)、噪聲倒譜系數(shù)估計(jì)值等,然后由每幀信號(hào)的倒譜系數(shù)和噪聲倒譜系數(shù)估計(jì)值通過公計(jì)算出倒譜值,然后才能對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測(cè),其檢測(cè)算法思路如下:(1) 預(yù)處理。對(duì) 8Hz采樣信號(hào)進(jìn)行預(yù)加重處理,然后分幀加窗,幀長(zhǎng)取30msS(240個(gè)采樣點(diǎn)),幀移10ms,對(duì)每一幀信號(hào)加240點(diǎn)hamm

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論