(電子科學(xué)與技術(shù)專業(yè)論文)基于高斯混合模型的情感l(wèi)pc系數(shù)的研究與建模.pdf_第1頁
(電子科學(xué)與技術(shù)專業(yè)論文)基于高斯混合模型的情感l(wèi)pc系數(shù)的研究與建模.pdf_第2頁
(電子科學(xué)與技術(shù)專業(yè)論文)基于高斯混合模型的情感l(wèi)pc系數(shù)的研究與建模.pdf_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要 隨著信息技術(shù)的高速發(fā)展,人類對(duì)計(jì)算機(jī)的依賴性不斷增強(qiáng),因 此,人機(jī)的交互能力越來越受到研究者的重視。語音是眾多信息載體 中具有最大信息容量的信號(hào),具有最高的智能水平。當(dāng)今語音信號(hào)處 理研究的熱點(diǎn),己從傳統(tǒng)的只著眼于詞匯傳達(dá)的準(zhǔn)確性,到了研究語 音信號(hào)的情感表達(dá)。因此,本文從情感語音的特征級(jí)出發(fā),對(duì)l p c ( 線 性預(yù)測(cè)) 系數(shù)的情感建模進(jìn)行了研究。 本文針對(duì)當(dāng)前缺乏語音情感特征的發(fā)聲模型方面的專門研究的 現(xiàn)狀,通過探索情感特征與l p c 系數(shù)之間的映射關(guān)系,提出建立l p c 系數(shù)的情感模型的新方案。本文在中科院情感語音庫的基礎(chǔ)上分別建 立高興、憤怒、悲傷及中性四種情感數(shù)據(jù)庫;研究情感語音的音質(zhì)特 征參數(shù),得到上述四種情感的共振峰統(tǒng)計(jì)規(guī)律;重點(diǎn)設(shè)計(jì)并實(shí)現(xiàn)基于 高斯混合( g m m ) 模型的情感l(wèi) p c 系數(shù)的建模方案,通過采用不同情 感語音的l p c 特征矢量,結(jié)合動(dòng)態(tài)時(shí)間規(guī)整技術(shù)( d t w ) 、期望最大 化算法( e m ) 和最小均方誤差準(zhǔn)貝, t j ( m m s e ) ,對(duì)模型進(jìn)行訓(xùn)練和參數(shù)估 計(jì),最終獲得高興、憤怒、悲傷三種情感對(duì)中性語音的l p c 系數(shù)映射 規(guī)則函數(shù),完成對(duì)情感l(wèi) p c 參數(shù)的建模。并設(shè)計(jì)實(shí)驗(yàn)測(cè)試方案,采用 板倉一齋田準(zhǔn)則( 工s ) 對(duì)通過映射函數(shù)得到的l p c 系數(shù)和標(biāo)準(zhǔn)中性語音 的l p c 系數(shù)進(jìn)行譜失真測(cè)度的計(jì)算,仿真實(shí)驗(yàn)結(jié)果表明,建立的情感 模型有效的表征了不同情感對(duì)l p c 系數(shù)的影響。 本文提出的基于高斯混合模型的情感l(wèi) p c 參數(shù)的聲學(xué)建模方法, 是情感語音信號(hào)處理領(lǐng)域的一個(gè)新的研究方法,為情感給語音合成、 識(shí)別等帶來的影響研究提供了新的思路和解決方案。 關(guān)鍵詞:情感語音建模,l p c 系數(shù),高斯混合模型,e m 算法 a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,h u m a n d e p e n d e n c e o n c o m p u t e r i s g r o w i n g t h e r e f o r e ,h u m a n c o m p u t e r i n t e r a c t i o nc a p a b i l i t i e sg e tm o r ea n dm o r ea t t e n t i o no fr e s e a r c h e r s v o i c e h a st h el a r g e s ti n f o r m a t i o nc a p a c i t yi nm a n yi n f o r m a t i o nc a r d e r ,w i t ht h e h i g h e s tl e v e lo fi n t e l l i g e n c e t r a d i t i o n a lv o i c ep r o c e s s i n gs y s t e m sf o c u s o nt h ea c c u r a c yo fv o i c eo n l y ,i g n o r i n gt h ee m o t i o n a lf a c t o r sc o n t a i n e di n t h ev o i c es i g n a l t h e r e f o r e ,t h i sa r t i c l es t u d i e do ne m o t i o n a ls p e e c h m o d e l i n go fl p cc o e f f i c i e n t s a c c o r d i n gt os t a t u so fd e f i c i e n c yo fs t u d yo ne m o t i o n a ls p e e c h m o d e l i n g ,t h ep a p e rp r e s e n t s an e wm e t h o do fe m o t i o n a l s p e e c h m o d e l i n go fl p c c o e f f i c i e n t s t h e p a p e r e s t a b l i s h e df o u rk i n d so f e m o t i o n a ls p e e c hd a t a b a s e i n c l u d i n gh a p p y ,a n g r y ,s a da n dn e u t r a l e m o t i o nr e c o r d e db yc h i n e s ea c a d e m yo fs c i e n c e s ;r e s e a r c h e da c o u s t i c c h a r a c t e r i s t i cp a r a m e t e r s ;g o tr e s o n a n c ep e a ks t a t i s t i c a lr e g u l a r i t yo f d i f f e r e n te m o t i o n ;d e s i g n e da n dr e a l i z e dt h en e wm o d e l i n gs c h e m eo f e m o t i o n a ll p cc o e f f i c i e n t i tu s e dd i f f e r e n te m o t i o n a ll p cf e a t u r ev e c t o r , c o m b i n e dw i t ht h ed y n a m i ct i m ew a r p i n gt e c h n o l o g y ,e ma l g o r i t h ma n d m m s ec r i t e r i o n ,f i n a l l yg o tl p cc o e f f i c i e n tm a p p i n gr u l ef u n c t i o no f t h r e ek i n d so fe m o t i o n a ls p e e c ht on e u t r a ls p e e c h ;a n dc o m p l e t e dt h e e m o t i o n a l l p cp a r a m e t e rm o d e l i n g a l s o t h e p a p e rd e s i g n e d t h e e x p e r i m e n t a lt e s tp l a n ,c a l c u l a t e ds p e c t r u md i s t o r t i o nm e a s u r eb e t w e e n t h es t a n d a r dn e u t r a lv o i c el p cc o e f f i c i e n ta n dl p cc o e f f i c i e n tw h i c hg o tb y m a p p i n gf u n c t i o nu s i n gi sd i s t a n c e s i m u l a t i o nr e s u l t s s h o wt h a tt h e e m o t i o n a l s p e e c h m o d e lc a n e f f i c i e n t l y c h a r a c t e r i z et h ed i f f e r e n t e m o t i o n a le f f e c to nl p cc o e f f i c i e n t t h en e wm e t h o do fm o t i o n a ls p e e c hm o d e l i n go fl p cc o e f f i c i e n t s t h a tt h i sp a p e rp r e s e n t e di san e wm e t h o do fe m o t i o n a ls p e e c hs i g n a l p r o c e s s i n gf i e l da n dp r o v i d e san e wi d e aa n ds o l u t i o nt ot h er e s e a r c ho f t h ei n f l u e n c ef o re m o t i o n a ls p e e c hs y n t h e s i sa n dr e c o g n i t i o n k e yw o r d s :e m o t i o n a ls p e e c hm o d e l i n g ,l p cc o e f f i c i e n t s ,g m mm o d e l , e m a l g o r i t h m 目錄 摘要i a b s t r a c t i i 第一章緒 論1 1 1 課題背景和意義1 1 2 情感特征參數(shù)的研究現(xiàn)狀2 1 3 情感建模的研究現(xiàn)狀_ 4 1 4 課題主要研究?jī)?nèi)容5 第二章情感語音數(shù)據(jù)庫7 2 1 情感語音庫7 2 1 1 情感語音的定義7 2 1 2 情感語音的分類7 2 1 3 情感語音庫的分類8 2 1 4 情感語音庫介紹9 2 2 情感語音數(shù)據(jù)庫的建立1 0 2 3 本章小結(jié)11 第三章情感語音的音質(zhì)特征分析1 3 3 1 語音信號(hào)的預(yù)處理1 3 3 1 1 預(yù)處理1 3 3 1 2 端點(diǎn)檢測(cè)1 5 3 2 線性預(yù)測(cè)系數(shù)l p c 1 8 3 2 1 線性預(yù)測(cè)基本原理1 8 3 2 2 線性預(yù)測(cè)系數(shù)的計(jì)算1 9 3 3 語音情感的音質(zhì)特征分析2 1 3 3 1 情感對(duì)音質(zhì)的影響2 l 3 3 2 共振峰分析2 2 3 4 常見的語音信號(hào)建模方法2 3 3 4 1 線性多變量同歸法2 3 3 4 2 神經(jīng)網(wǎng)絡(luò)法2 4 3 4 3 隱馬爾可夫模型法2 5 3 4 4 高斯混合模型法2 5 3 5 本章小結(jié)2 6 第四章基于高斯混合模型的情感l(wèi) p c 系數(shù)研究2 7 4 1 高斯混合模型的基本概念2 7 4 1 1 高斯混合模型的描述2 7 4 1 2 高斯混合模型的參數(shù)設(shè)置2 8 4 1 3 初始參數(shù)設(shè)置2 9 4 2 建模的構(gòu)架及流程2 9 4 3 情感l(wèi) p c 參數(shù)的提取3 0 4 3 1 預(yù)處理3 0 4 3 2 參數(shù)的提取和仿真3 3 4 4 情感l(wèi) p c 參數(shù)模型的建立3 6 4 4 1g m m 模型的參數(shù)訓(xùn)練3 6 4 4 2 映射規(guī)則3 7 4 5 本章小結(jié)3 8 第五章實(shí)驗(yàn)分析與評(píng)價(jià)4 0 5 1 實(shí)驗(yàn)平臺(tái)4 0 5 2 實(shí)驗(yàn)方案4 0 5 3 實(shí)驗(yàn)結(jié)果與評(píng)價(jià)4 l 5 4 本章小結(jié)4 4 第六章總結(jié)與展望4 5 參考文獻(xiàn)4 7 附勇匙5 1 致謝5 5 學(xué)位期間主要的研究成果5 6 碩士學(xué)位論文 第一章緒論 1 1 課題背景和意義 第一章緒論 隨著科技的高速發(fā)展,計(jì)算機(jī)在人們的生活中扮演著越來越重要的角色。所 以,人與機(jī)器間實(shí)現(xiàn)自然的、智能化的交流是人們追求的理想【1 】。人機(jī)交互發(fā)展 的目標(biāo)就是計(jì)算機(jī)智能化的實(shí)現(xiàn),即計(jì)算機(jī)可以根據(jù)交流對(duì)象的情感狀態(tài)及周圍 的環(huán)境等因素,自適應(yīng)地調(diào)整自身的情感狀態(tài),從而為交流對(duì)象提供更為友好的 交流環(huán)境。在所有信息載體中,語音具有最大信息容量,是人們相互間交流的最 自然的方式,具有最高的智能水平【2 】。語音中除了自身包含的文字信息外,同時(shí) 還包含了情感和情緒等對(duì)于正確理解話語非常重要的信息。內(nèi)容相同的語音,可 以由于說話者的情感不同,話語給聽者傳遞的信息就不同。 現(xiàn)階段對(duì)于情感語音的研究無論是國內(nèi)還是國外都還處于一個(gè)起步階段,考 慮到情感和態(tài)度對(duì)語音所引起的變化對(duì)語音合成、語音識(shí)別、說話人識(shí)別的影響 較大,語音的情感研究逐漸引起人們的重視。在語音處理和人工智能等領(lǐng)域中, 對(duì)情感信息的研究有著十分重要的意義。 然而,現(xiàn)有的語音處理研究中還沒有很多考慮到語音信號(hào)中包含的情感信 息,多注重于準(zhǔn)確的表達(dá)語音的文字信息。另外,傳統(tǒng)的語音信號(hào)處理都是對(duì)中 性語音進(jìn)行建模,往往忽略了包含在語音信號(hào)中的情感因素,其實(shí)情感變化對(duì)語 音處理的各個(gè)領(lǐng)域,如語音合成、語音識(shí)別、說話人識(shí)別等都產(chǎn)生了巨大的影響 【3 訓(xùn)。當(dāng)說話人在不同情感狀態(tài)間轉(zhuǎn)變時(shí),由于說話人情緒的改變引起了發(fā)音方 式的變化,使得基于中性訓(xùn)練語音的說話人識(shí)別系統(tǒng)的性能急劇下降【5 。7 】。隨著 人機(jī)交互對(duì)系統(tǒng)友好性與自然性要求的不斷提高,如何解決說話人自身的變異, 如情感變異帶來的系統(tǒng)性能的下降,是語音信號(hào)領(lǐng)域中一個(gè)有待解決的重要問題 【8 - l o 0 面對(duì)該問題,解決方案從底層到高層可以概括為3 類:( 1 ) 特征級(jí),現(xiàn)階段 的研究表明,語音之所以能夠表達(dá)情感,是因?yàn)槠渲邪荏w現(xiàn)情感特征的參數(shù)。 情感的變化就是通過特征參數(shù)的差異而體現(xiàn)出來。( 2 ) 聲學(xué)模型級(jí),這類方法主 要是根據(jù)語音信號(hào)的特點(diǎn)在特征和聲學(xué)模型訓(xùn)練上作調(diào)整,但由于目前語音情感 分析的研究還處于較低的發(fā)展水平,至今為止對(duì)情感信息的建模以及工學(xué)處理方 法的研究成果比較少。( 3 ) 語言模型級(jí),即利用高層知識(shí)在語言模型上作的調(diào)整。 現(xiàn)有的語音建模方法還沒有將語音的情感信息考慮到語音模型中。其實(shí),語 音模型包含了情感因素,情感的變化會(huì)導(dǎo)致語音參數(shù)的明顯變化,從而不利于語 音識(shí)別等語音處理的相關(guān)應(yīng)用。針對(duì)上述問題,本課題將語音情感特征考慮到語 碩士學(xué)位論文 第一章緒論 音建模中,通過對(duì)含語音情感的發(fā)聲模型進(jìn)行建模,有利于語音識(shí)別、說話人識(shí) 別系統(tǒng)的性能。此外,本課題的研究對(duì)情感語音合成、復(fù)雜聲音環(huán)境中說話人語 音信號(hào)的提取、分離也都有著重要的意義。 1 2 情感特征參數(shù)的研究現(xiàn)狀 心理學(xué)和韻律學(xué)研究結(jié)果表明,說話者的情感在語音中最直觀的表現(xiàn)就是韻 律特征和語音質(zhì)量特征的變化。韻律特征主要有音調(diào)、音強(qiáng)和語速等特征n ;音 質(zhì)特征如呼吸聲、明亮度特征( 低頻能量和高頻能量的比值,用以反映語音的清 亮特性) 和喉化音等。因此對(duì)語音情感的研究也是普遍從韻律特征和音質(zhì)特征開 始,尤其是韻律特征,是目前主要的語音情感特征的研究參數(shù)n 引。表1 1 中列出 了目前較常用的特征參數(shù)。 表卜1 常用的情感特征參數(shù) 情感特征參數(shù)參數(shù)意義 p i t c ha v e r a g e p i t c hr a n g e i n t e n s i t y p i t c hc h a n g e f 1a v e r a g e f 1r a n g e 單位時(shí)間內(nèi)的音節(jié)數(shù)即語速 基音頻率的均值 基音頻率的變化范圍 語音信號(hào)的強(qiáng)度,振幅均值 基頻的平均變化率 第一共振峰的均值 第一共振峰的變化范圍 早在1 9 7 2 年,w i l l i a m s 發(fā)現(xiàn)人的情感變化對(duì)語音的基音輪廓有很大的影響, 這是國外最早的語音情感方面的研究之一。h i o r y af u j i s a k i 于1 9 8 4 年最早提出了 針對(duì)喉部生理運(yùn)動(dòng)特征的f u j i s a k i 基頻模型n3 1 。該模型能夠很好地逼近基頻輪廓, 目前已經(jīng)用于日語、漢語、英語等多種語言。雖然,基音攜帶了重要的情感信息, 但基音檢測(cè)較困難。a b e l i n 1 4 】等用了語速、振幅、基音的混合語音特征參數(shù),研 究表明:相似特征的情緒具有相似的聲學(xué)表現(xiàn),如生氣和強(qiáng)勢(shì)的聲學(xué)表現(xiàn)為短時(shí) 長(zhǎng),強(qiáng)音強(qiáng),恐懼和害羞的聲學(xué)表現(xiàn)都是長(zhǎng)時(shí)長(zhǎng),弱音強(qiáng),難過和害羞的句子內(nèi) 都有較長(zhǎng)的間斷。語音韻律特征的缺點(diǎn)是難以準(zhǔn)確提取,只能區(qū)別各種基本情感 1 5 1 o 音質(zhì)是指語音的聽覺質(zhì)量,目前研究的主要有共振峰參數(shù)和聲門波參數(shù)n 6 1 2 碩士學(xué)位論文第一章緒論 等。音質(zhì)類參數(shù)和聲道的形狀變化有關(guān)。對(duì)于情感語音,發(fā)音人會(huì)適當(dāng)?shù)馗淖兟?道形狀、肌肉張力等參數(shù)以達(dá)到表達(dá)某種情感的目的。共振峰口7 3 是反映聲道特性 的一個(gè)重要參數(shù),因?yàn)椴煌楦械陌l(fā)音可能使聲道有不同的變化,所以能夠預(yù)料 到不同情感發(fā)音的共振峰的位置不同。聲門波參數(shù)的特性不僅對(duì)語音音質(zhì)有影 響,而且對(duì)于語音情感色彩的調(diào)整更是意義重大n8 | 。音質(zhì)特征是其情感表達(dá)的一 個(gè)非常重要的方面。利用音質(zhì)特征進(jìn)行語音情感研究是近年來眾多學(xué)者都在嘗試 的思路之一。 綜合現(xiàn)有的研究,韻律特征( 基頻、能量、語速等) 與語音情感的感知具有明 顯的關(guān)系,并且也被廣泛關(guān)注,這些語音特征參數(shù)也較容易分析,因此成為目前 語音情感識(shí)別中所用的主流特征。相反,語音信號(hào)的譜特征,包括共振峰結(jié)構(gòu)、 平均譜的總體結(jié)構(gòu)等卻較少被關(guān)注,這些特征都是和語音信號(hào)的音質(zhì)相關(guān)的。這 些特征和情感感知不具有明顯的顯式關(guān)系,并且與時(shí)間強(qiáng)烈相關(guān)而難于提取。然 而,有研究成果表明加入音質(zhì)特征對(duì)于區(qū)分那些韻律特征比較相近的情感具有明 顯的幫助。綜上所述,韻律特征和音質(zhì)特征共同影響著語音情感的形成。 當(dāng)前通過對(duì)表1 1 的特征參數(shù)進(jìn)行了大量的研究之后,人們對(duì)它們?cè)诟鞣N情 感下的表現(xiàn)規(guī)律有了相似的認(rèn)識(shí),這些規(guī)律已經(jīng)應(yīng)用于許多情感語音處理的研究 中。此外,有些研究還發(fā)掘出了一些其它的情感特征參數(shù),比如l p c 參數(shù)u 引、 基音的標(biāo)準(zhǔn)差、前三個(gè)共振峰峰值等等啪1 。 線性預(yù)測(cè)分析是當(dāng)前最有效的語音分析技術(shù)之一,在語音編碼、語音合成、 語音識(shí)別和說話人識(shí)別等語音處理領(lǐng)域中得到了廣泛的應(yīng)用。語音線性預(yù)測(cè)的基 本思想是:一個(gè)語音信號(hào)的抽樣值可以用過去若干個(gè)取樣值的線性組合來逼近。 通過使實(shí)際語音抽樣值與線性預(yù)測(cè)抽樣值的均方誤差達(dá)到最小,可以確定唯一的 一組線性預(yù)測(cè)系數(shù)。 采用線性預(yù)測(cè)分析不僅能夠得到語音信號(hào)的預(yù)測(cè)波形,而且能夠提供一個(gè)非 常好的聲道模型。由l p 分析得到的l p c 參數(shù)可以作為語音識(shí)別、語音合成的重 要參數(shù)之。 如果將語音模型看作激勵(lì)源通過一個(gè)線性時(shí)不變系統(tǒng)產(chǎn)生的輸出,那么可以 利用線性預(yù)測(cè)分析對(duì)聲道參數(shù)進(jìn)行估值,以少量低信息率的時(shí)變參數(shù)精確地描述 語音波形及其頻譜的性質(zhì)。此外,線性預(yù)測(cè)分析還能夠?qū)舱穹?、功率譜等語音 參數(shù)進(jìn)行精確估計(jì)。 l p c 系數(shù)作為線性預(yù)測(cè)分析的基本參數(shù),是對(duì)聲管模型的一種描述,情感變 化必將引起聲管的形變,這將導(dǎo)致l p c 參數(shù)隨情感發(fā)生變化,但它在各種情感 語音下的表現(xiàn)規(guī)律還在深入的研究中。 碩士學(xué)位論文 第一章緒論 1 3 情感建模的研究現(xiàn)狀 情感建模既是情感心理學(xué)研究者追求的目標(biāo),也是情感計(jì)算研究者的期望。 合理的情感模型應(yīng)該不僅能夠正確描述情感特征,而且應(yīng)該適合于情感計(jì)算衛(wèi)u 。 目前有部分學(xué)者在情感建模方面做了初步研究,其中一些是完全從心理學(xué)角度建 立的定性模型,此外也有一些利用心理學(xué)研究成果建立的可計(jì)算的情感數(shù)學(xué)模 型。 g c r s h e n s o n 提出了一種基于多值邏輯( 即模糊邏輯) 的情感模型瞳2 l 。他用三個(gè) 二值邏輯:l o v e h a t e 、j o y g r i e f 、h a p p y s a d n e s s 作為三組基本情感,構(gòu)建了一個(gè)三 維情感空間模型。 谷學(xué)靜等人在分析人類情感表現(xiàn)特點(diǎn)的基礎(chǔ)上,提出了一種基于h m m 情感 模型乜3 j 。該模型將人類的情感過程視為兩層的隨機(jī)過程,h m m 的觀測(cè)值對(duì)應(yīng)人 類情感表現(xiàn),而隱含狀態(tài)對(duì)應(yīng)人類的心情,通過調(diào)整模型的初始參數(shù),能夠構(gòu)建 具有不同性格特征的心理模型。他們還提出了情感熵的概念,將其作為構(gòu)造和評(píng) 價(jià)虛擬人物不同個(gè)性的參數(shù)指標(biāo)。 y c h e l a 和t h e 則提出了基于粗集理論的情感計(jì)算模型瞳利。在這個(gè)模型中, 他們利用情感類別將情感空間劃分為有限個(gè)等量集合,用粗集來表示這些情感集 合。并用馬爾可夫鏈表示粗集的混合矩陣,描述人類情感狀態(tài)的變化趨勢(shì)。 v a nk e s t e r e n 等人針對(duì)外界刺激建立了一個(gè)分布式情感模型乜5 1 。整個(gè)分布式 系統(tǒng)把特定的外界刺激轉(zhuǎn)換成與之相對(duì)應(yīng)的情感狀態(tài),過程分為兩個(gè)階段:第一 階段評(píng)價(jià)事件的情感意義,這由事件評(píng)估器完成,針對(duì)每一類相關(guān)事件,分別定 義一個(gè)事件評(píng)估器,當(dāng)事件發(fā)生時(shí),先確定事件的類型和事件信息,然后選擇相 關(guān)事件評(píng)估器進(jìn)行情感評(píng)估,并產(chǎn)生量化結(jié)果e w ( 情感脈沖向量) ;第二階段對(duì) e w 歸一化得到n e w ,通過e s c ( 情感狀態(tài)估計(jì)器) 計(jì)算情感狀態(tài)。事件評(píng)估器、 e i v 到n e w 及e s c 均采用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。 f u j i s a k i 模型瞳剛最早由h i o r y af u j i s a k 在1 9 8 4 年提出,用于建立日文的基頻 模型,后來又推廣到其他語言,比如英語、德語、普通話、泰語等。f u j i s a k i 模 型針對(duì)全句建立數(shù)學(xué)模型,它的基本思想是認(rèn)為一句話的語音基頻是由三個(gè)部分 構(gòu)成的:( 1 ) 基頻直流分量;( 2 ) 以聲帶一次激勵(lì)結(jié)果形成的局部基頻形狀;( 3 ) 跨越多 個(gè)局部的基頻整體趨勢(shì)瞳7 1 。該模型以生理學(xué)為基礎(chǔ),是一種利用喉部結(jié)構(gòu)和喉部 結(jié)構(gòu)的相互作用來定量描述f o 生成和控制機(jī)制的模型。模型利用了重疊組織的 方法很好的描繪出了語句中這種下傾的走勢(shì),通過對(duì)于語句中每個(gè)需要的時(shí)間點(diǎn) 計(jì)算f 0 值,模型參數(shù)至少要在一個(gè)音節(jié)或韻律詞內(nèi)保持恒定,模型組件重疊后 生成的平滑曲線適合于模擬自然的f o 曲線。f u j i s a k i 模型從生理上、聲學(xué)特性上 以及韻律控制上對(duì)語調(diào)做出了清楚的描述。 4 碩士學(xué)位論文第一章緒論從以上的介紹中可知,現(xiàn)有的關(guān)于情感建模的研究大多還是集中于心理學(xué)層面和理論層面。關(guān)于有針對(duì)性的適合于語音情感的建模方法的研究目前還很少,甚至當(dāng)前沒有含語音情感特征的發(fā)聲模型方面的專門研究。1 4 課題主要研究?jī)?nèi)容本文針對(duì)當(dāng)前缺乏語音情感特征的發(fā)聲模型專門研究的現(xiàn)狀,通過探索情感特征與l p c 系數(shù)之間的映射關(guān)系,提出了建立l p c 情感語音模型的新思路和新方法。該方法分別建立高興、憤怒、悲傷及中性四種情感下的情感語音庫,采用g m m 模型,將中性語音和情感語音的l p c 特征矢量作為聯(lián)合矢量,根據(jù)動(dòng)態(tài)時(shí)間規(guī)整技術(shù)、e m 算法和m m s e 準(zhǔn)則,對(duì)模型進(jìn)行訓(xùn)練和參數(shù)估計(jì),最終獲得不同情感狀態(tài)的語音對(duì)中性語音的l p c 系數(shù)映射函數(shù),完成對(duì)情感l(wèi) p c 參數(shù)的建模。設(shè)計(jì)了實(shí)驗(yàn)測(cè)試方案,采用i s 距離對(duì)通過映射函數(shù)的得到的l p c 系數(shù)和標(biāo)準(zhǔn)中性語音的l p c 系數(shù)進(jìn)行性能比較,從而驗(yàn)證了模型的有效性。下面介紹論文的安排:第一章緒論。主要介紹課題背景和研究意義,情感語音特征參數(shù)和情感語音建模的發(fā)展現(xiàn)狀以及本文主要研究?jī)?nèi)容和論文安排。第二章情感語音數(shù)據(jù)庫。確定了本課題所采用的情感分類方法和情感語音庫一中科院錄制的情感語音庫。分析了情感語音庫的建立規(guī)范,并根據(jù)本文的研究?jī)?nèi)容和方案,在中科院情感語音庫的基礎(chǔ)上選擇了和確立了本文采用的情感語音數(shù)據(jù)庫。第三章情感語音的音質(zhì)特征分析。分析研究各種情感下語音的音質(zhì)情感特征參數(shù)的規(guī)律。作為語音信號(hào)分析和處理的前提和基礎(chǔ),本章首先對(duì)預(yù)處理,包括分幀、預(yù)加重、端點(diǎn)檢測(cè)的原理和算法進(jìn)行了研究?;诋?dāng)前缺乏語音情感特征的發(fā)聲模型方面的專門研究的現(xiàn)狀,本文提出了l p c 參數(shù)的情感特征分析和建模的新思路。因此本章還分析了經(jīng)典的線性預(yù)測(cè)技術(shù)和l p c 參數(shù)的提取方法。在總結(jié)現(xiàn)有的對(duì)語音的音質(zhì)情感特征參數(shù)的研究成果基礎(chǔ)上,本章研究了共振峰參數(shù)在高興、憤怒、悲傷和中性狀態(tài)下的規(guī)律,發(fā)現(xiàn)其受說話人和文本的影響較大,但是還是有一定的共性。最后,本章研究了幾種常見的建模和研究方法,為下一章節(jié)的研究與分析奠定了理論基礎(chǔ)。第四章基于高斯混合模型的情感l(wèi) p c 系數(shù)研究。研究了g m m 模型的基本結(jié)構(gòu)、參數(shù)設(shè)置的方法。給出了訓(xùn)練的基本流程和框架。本章采用g m m 模型,將中性語音和情感語音的l p c 特征矢量作為聯(lián)合矢量,根據(jù)動(dòng)態(tài)時(shí)間規(guī)整技術(shù)、e m 算法和m m s e 準(zhǔn)則,對(duì)模型進(jìn)行訓(xùn)練和參數(shù)估計(jì),最終獲得不同情感狀態(tài)的語音對(duì)中性語音的l p c 系數(shù)映射函數(shù),完成對(duì)情感l(wèi) p c 參數(shù)的建模。 碩士學(xué)位論文第一章緒論第五章實(shí)驗(yàn)分析與評(píng)價(jià)。設(shè)計(jì)了實(shí)驗(yàn)測(cè)試方案,采用i s 距離對(duì)通過映射函數(shù)的得到的l p c 系數(shù)和標(biāo)準(zhǔn)中性語音的l p c 系數(shù)進(jìn)行性能比較,從而驗(yàn)證了模型的有效性。第六章結(jié)束語。首先對(duì)本文所做的工作進(jìn)行了總結(jié),說明了本文的創(chuàng)新點(diǎn),最后對(duì)下一步的研究工作進(jìn)行了展望。6 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫第二章情感語音數(shù)據(jù)庫情感語音研究的基礎(chǔ)是建立高質(zhì)量的情感語音庫,只有建立高真實(shí)感、大規(guī)模的情感語音數(shù)據(jù)庫才有可能從事情感語音的研究。情感語音數(shù)據(jù)庫為情感語音的研究提供了大量的分析數(shù)據(jù)及訓(xùn)練語料。2 1 情感語音庫2 1 1 情感語音的定義情感是根據(jù)所處環(huán)境由主觀沖動(dòng)引起的較強(qiáng)的心理狀態(tài)、生理狀態(tài),能夠引起的表現(xiàn)主要在語音、表情以及行為上。對(duì)于情感的產(chǎn)生機(jī)理,盡管研究者們做了很多的研究工作,如今對(duì)于情感仍然沒有被廣泛認(rèn)同的定義。不同的研究方法和目的會(huì)有不同的情感機(jī)理的表現(xiàn)形式。目前有許多研究情感的學(xué)者對(duì)情感的正確定義進(jìn)行了研究,通常認(rèn)為情感是由思想和外部事件引起的生理變化、行為及主觀體驗(yàn)組成,是人們相互之間交流的信息。k l a u ss r 乜8 3 指出情感同立場(chǎng)、態(tài)度和情緒是不相同的,盡管它們之間存在著一定的聯(lián)系。一般來說,態(tài)度與情感是不容易區(qū)分的,而o h a l a 砼鮑則指出情感與態(tài)度間存在本質(zhì)的區(qū)別,說話者在對(duì)話中的目的即是說話者的態(tài)度,說話人對(duì)所處環(huán)境和心理狀態(tài)的反映則是情感。兩者中,態(tài)度的主動(dòng)性更強(qiáng),情感則比較被動(dòng)。從心理學(xué)角度上,c o r n e l i u s 啪1 把情感分成了六種:高興,悲傷,生氣,厭惡,憤怒和驚訝。憤怒包括了惡狠狠的冷怒和“怒發(fā)沖冠”的怒。k l a u ss r b 用心理學(xué)中的高低喚醒度來表達(dá)感情狀態(tài)的強(qiáng)烈程度。高喚醒度( 1 l i g ha r o u a s l ) 是指表現(xiàn)較豐富的感情,可以使說話者表現(xiàn)出強(qiáng)烈感情的語音,而低喚醒度( 1 0 wa r o u s a l ) 的情感表現(xiàn)比較弱,在發(fā)音中沒包含較多的感情。各種情感有各自的喚醒度范圍,如怒發(fā)沖冠的喚醒度較高,而羞愧和悲傷的喚醒度較低。情感語音處理中一般選用較為典型的情感,如高興、恐懼、憤怒和悲傷,也有高興、憤怒、悲傷、恐懼和厭惡等刳。b e r l i n 科技大學(xué)的通訊科學(xué)研究所錄制了包含中立、高興、憤怒、悲傷、厭惡、恐懼和厭煩的情感語音庫口3 i 。2 1 2 情感語音的分類在對(duì)情感語音信號(hào)進(jìn)行研究之前,要采用某些標(biāo)準(zhǔn)對(duì)語音的情感進(jìn)行合理有效的分類。與情感的定義一樣,目前對(duì)情感的分類也沒有比較統(tǒng)一的認(rèn)識(shí),因此具體如何分類可以根據(jù)研究的特定目的來決定。情感的分類的粒度、精確度在很7 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫高興一,一、贊網(wǎng)弋期望(雷寨:點(diǎn)) 恐懼i 、自然暇點(diǎn),麟、- 一鼢、- 一巴。厭惡一瑟傷表2 1f o x 的情感三級(jí)分類模型2 1 3 情感語音庫的分類情感語音庫的分類主要依據(jù)獲得情感語音數(shù)據(jù)的不同途徑,常見的三種情感語音庫類型有啪1 :( 1 ) 自然產(chǎn)生的情感語音:( 2 ) 表演所得的情感語音;( 3 ) 由情感8 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫引導(dǎo)產(chǎn)生的情感語音。各種類型的情感語音庫各有優(yōu)缺點(diǎn)。選擇情感語音庫時(shí),需要根據(jù)我們情感研究的方法、目的、應(yīng)用需求以及一些客觀條件等選擇適合的情感語音庫。1 自然產(chǎn)生的情感語音自然產(chǎn)生的情感語音具有最高的可信度,但是收集起來非常困難。自然情感語音通常在說話者不知情時(shí)錄音,從而達(dá)到收集情感語音的目的。因?yàn)檎f話者對(duì)收集情感語音是不知情的,所以說話者處在非常自然的情況下用語言來達(dá)自己的情感。然而,因?yàn)檎f話者對(duì)采集情感語音的不知情,引出了版權(quán)等一系列法律相關(guān)的問題。在使用自然產(chǎn)生的情感語音之前,需要對(duì)這類情感語音進(jìn)行分類。將自然產(chǎn)生的情感語音合理分類是比較困難的,因?yàn)槟壳扒楦械姆诸愡€是不確定的,根據(jù)不同的研究者及研究目的分類也有差別。自然產(chǎn)生的情感語音庫有l(wèi) e e d s r e a d i n ge m o t i o ni ns p e e e hc o r p u s ,b e l f a s td a t a b a s e ,s u s a sc o r p u s 及j s td a t a b a s e 等。2 表演所得的情感語音雖然自然產(chǎn)生的情感語音具有最高的自然度,但是收集起來太困難,因此,情感語音的學(xué)者們請(qǐng)若干個(gè)演員或播音員模擬各種情感來朗讀給定的語句,然后對(duì)這些情感語音進(jìn)行情感分析,從而得到了表演所得的情感語音。雖然表演所得的情感語音的自然度不如自然產(chǎn)生的情感語音高,但比較容易獲得。表演所得的情感語音的質(zhì)量同它的說話者有很大的聯(lián)系。因此,為提高表演所得的情感語音的質(zhì)量,可以邀請(qǐng)專業(yè)演員或播音員來表演獲取。表演所得的情感語音與自然情感語音相比,前者的情感狀態(tài)可能會(huì)被不同程度的夸大,所以,真實(shí)的情感不能在有些表演所得的情感語音中得到合理的體現(xiàn);雖然表演所得的情感語音有較高的語音情感識(shí)別率,但是真實(shí)的情感語音的特點(diǎn)是不能僅僅用這類情感語音來代表的。可見,語音的情感狀態(tài)的自然度同情感語音的獲取方法是不可調(diào)和的矛盾。3 由情感引導(dǎo)產(chǎn)生的情感語音在對(duì)這類情感語音進(jìn)行錄音之前,情感語音學(xué)者會(huì)讓說話者讀一些能讓說話者產(chǎn)生某種感情的文學(xué)段落,或者看一段能讓說話者產(chǎn)生某種情感的電影,來引導(dǎo)說話者產(chǎn)生某種情感,從而獲得由情感引導(dǎo)產(chǎn)生的情感語音。2 1 4 情感語音庫介紹下面對(duì)國外已有的情感語音庫作簡(jiǎn)要介紹口9 l 。b e l f a s td a t a b a s e :該情感語音庫是英語文本,情感種類有憤怒,悲傷,高興,中立和害怕,情感語音庫的類型是由情感引導(dǎo)產(chǎn)生的情感語音庫,是音頻文件,9 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫發(fā)音人共有5 0 位;b e l f a s tn a t u r a l :該情感語音庫是在電視錄音中采集的英語情感語音,屬于表演所得的情感語音庫,每段語音長(zhǎng)度在10 6 0 s 間,情感種類主要是憤怒,共有1 2 5 個(gè)發(fā)音人,其中3 1 個(gè)男生,9 4 個(gè)女生;a l b e l i n :這個(gè)情感語音庫是瑞典語文本,是表演所得的情感語音,情感種類有憤怒,厭惡,害怕,高興,悲傷,驚訝和羞愧等,只有一個(gè)發(fā)音人;b a n s ea n ds c h e r e r :該情感語音庫屬于引導(dǎo)產(chǎn)生的情感語音庫,是德語文本,字面不包含情感,有情感引導(dǎo)文本引導(dǎo)說話人說出各種情感語音,情感種類有惡狠狠的憤怒,冷怒,焦慮,煩躁,鄙視,厭惡,興高采烈,害怕,高興,感興趣,驕傲,悲傷及羞愧1 3 種情感,共有1 2 個(gè)發(fā)音人,6 個(gè)男生6 個(gè)女生,音頻視頻文件皆有;m o z z i c o n a c c i :該情感語音庫屬于引導(dǎo)產(chǎn)生的情感語音庫,是荷蘭語文本,文本中不包含情緒,但有引導(dǎo)說話人產(chǎn)生某種情感的文本,情感種類包括憤怒,煩惱,害怕,厭惡,內(nèi)疚,高興,驕傲,憤怒,高興,中立,狂怒,悲傷和擔(dān)心1 3 種情感,有3 個(gè)發(fā)音人,音頻文件;r e a d h a g l e e d sd a t a b a s e :該情感語音庫是4 5 個(gè)小時(shí)的廣播電視錄音,英語發(fā)音,情感種類主要是憤怒。國內(nèi)普通話的情感語音庫主要有中科院錄制的情感語音庫。該語音庫屬于a c t e ds p e e c h 類型。錄音人是一普通話標(biāo)準(zhǔn)的男性,語音庫以句子為單位,每個(gè)句子由六個(gè)字組成,分別以高興、憤怒、悲傷、驚奇、害怕和中立6 種情感方式朗讀,采樣率為1 6 k h z ,以w a v 文件類型保存。2 2 情感語音數(shù)據(jù)庫的建立由于語音產(chǎn)生的機(jī)理復(fù)雜、受包括語法句式、重音、說話人情感以及說話人個(gè)性特征等在內(nèi)的眾多因素的影響,為了突出情感特征參數(shù)如何受情感因素影響的研究初衷,設(shè)計(jì)、選取了特定的情感語音數(shù)據(jù)庫。該數(shù)據(jù)庫在語句內(nèi)容、長(zhǎng)度、說話人等方面做了一定的限制,有效避免了干擾因素的影響。本文采用中科院錄制的情感語音庫,并根據(jù)研究方案,對(duì)該數(shù)據(jù)庫進(jìn)行了刪選,下面分別從情感類型的選擇、語料的選擇j 錄音者、存儲(chǔ)格式等方面分析本文建立的情感數(shù)據(jù)庫。( 1 ) 情感類別的選擇情感的確定是建立情感語音數(shù)據(jù)庫之前必須考慮的問題。研究表明,過細(xì)的情感分類并沒有對(duì)人機(jī)交互和情感識(shí)別產(chǎn)生很重大的意義。當(dāng)下的情感識(shí)別中,多采用4 - 6 種情感分類。國內(nèi)許多學(xué)者將情感分為高興、憤怒、驚奇、悲傷四種 碩士學(xué)位論文 第二章情感語音數(shù)據(jù)庫 進(jìn)行相關(guān)研究h0 。,或者分為歡快、憤怒、恐懼、悲傷。這四種情感模型的好處是 情感粒度大,容易區(qū)分辨別。另外,有研究表明,音質(zhì)類參數(shù)與情感不具有一對(duì) 一的關(guān)系,而是可能與一大類的情感相關(guān)。為有效提高實(shí)驗(yàn)的準(zhǔn)確程度,本文采 用r u s s e l l 情感空間中的四種主要情感:憤怒、高興、悲傷和中立。 ( 2 ) 情感語料的選擇 語料的選擇是非常重要的,同時(shí)也是具有一定難度的。每一位話者對(duì)各種情 感的理解可能不同,對(duì)所選語句內(nèi)容的理解可能也不盡相同。即使某一語句從內(nèi) 容上具有某種情感傾向,但經(jīng)某話者發(fā)音后,用信號(hào)處理分析后未必是有效的。 因此,為了得到有效的情感語音數(shù)據(jù),實(shí)驗(yàn)用語料的選擇需要考慮以下3 個(gè)方 面: 1 ) 所選擇的語句必須不包含某一方面的情感傾向; 2 ) 必須具有較高的情感自由度,對(duì)同一個(gè)語句能施加各種情感進(jìn)行分析比 j 工 牧; 3 ) 是口語化的陳述句。 ( 3 ) 錄音者以及存儲(chǔ)格式 該語音庫的錄音者是一普通話標(biāo)準(zhǔn)的女性,可以使實(shí)驗(yàn)結(jié)果不受說話人個(gè)性 特征的影響。對(duì)挑選出的每個(gè)句子分別按照上面所述的歡快、憤怒、悲傷以及不 帶感情的四個(gè)方式朗讀。采用1 6 k h z 采樣率、1 6 b i t 的單聲道音頻格式錄制成標(biāo) 準(zhǔn)p c m 編碼格式并以w a v 類型保存文件。圖2 2 是該情感數(shù)據(jù)庫中的語句“你 可真?zhèn)ゴ笱健狈謩e在憤怒、高興、悲傷和中立四種情感狀態(tài)下的語音波形。 ( a ) 高興情感語音的波形 1 型 蛆 辜o(jì) 1 里 l “hk l 一一。 丫_ 呵 一 r 一1 i 耵1 ( c ) 悲傷情感語音的波形( d ) 中立情感下的語音波形 圖2 - 2 各情感下的語音波形 2 3 本章小結(jié) 本章首先介紹了情感的分類方法,然后根據(jù)實(shí)驗(yàn)條件等客觀因素確定了本課 碩士學(xué)位論文第二章情感語音數(shù)據(jù)庫題采用的情感分類方法;介紹了情感語音庫的類型和已有的情感語音庫,在此基礎(chǔ)上確定了本課題所采用的情感語音庫一中科院錄制的情感語音庫;并根據(jù)本課題的研究方案和需要,分析了情感語音庫的建立規(guī)則和選擇條件,并從中選取了特定的情感語句,最終確定了本課題的情感語音庫。 碩士學(xué)位論文 第三章情感語音的音質(zhì)特征分析 第三章情感語音的音質(zhì)特征分析 在一定的情感狀態(tài)下,說話人發(fā)出的含有一定語義的語音即為情感語音。語 音中所包含的情感信息是相當(dāng)重要的信息,情感信息能幫助人們更好的通過語音 進(jìn)行交流。語音情感狀態(tài)的變化可以由情感參數(shù)的變化規(guī)律來體現(xiàn)。本章主要分 析研究了情感語音的音質(zhì)特征參數(shù)。盡管當(dāng)今對(duì)情感語音的音質(zhì)特征研究還比較 少,通過對(duì)共振峰參數(shù)等的分析,還是發(fā)現(xiàn)了一定的情感表現(xiàn)規(guī)律。本文針對(duì)當(dāng) 前缺乏語音情感特征的發(fā)聲模型方面的專門研究,通過研究現(xiàn)有的建模方法,提 出了建立基于g m m 模型的情感l(wèi) p c 系數(shù)模型的新思路。 預(yù)處理包括語音信號(hào)的數(shù)字化和數(shù)字化后的初步處理,是對(duì)語音信號(hào)進(jìn)行分 析和處理的前提和基礎(chǔ),對(duì)情感語音自然也不例外。所以,本節(jié)首先對(duì)語音信號(hào) 的預(yù)處理進(jìn)行了研究。 3 1 語音信號(hào)的預(yù)處理 3 1 1 預(yù)處理 由于語音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射影響,信號(hào)的高頻部分大 約在8 0 0 h z 以上按6 d b 倍頻程跌落,即語音信號(hào)的頻譜產(chǎn)生高頻衰落現(xiàn)象。所 以系統(tǒng)得到語音信號(hào)頻譜時(shí),頻率越高相應(yīng)的成分越少,高頻部分的頻譜比低頻 部分的難求,為抵消這種影響就進(jìn)行預(yù)加重( p r e e m p h a s i s ) 處理h 1 j 。預(yù)加重的目的 是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻整個(gè)頻帶中,能用 同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。預(yù)加重一般是在語音信 號(hào)數(shù)字化之后、參數(shù)分析之前在計(jì)算機(jī)里用具有提升高頻特性的預(yù)加重?cái)?shù)字濾波 器來實(shí)現(xiàn),它般是一個(gè)一階的數(shù)字濾波器 h = l a z 。1( 3 1 ) a 決定截止頻率,此濾波器為單零點(diǎn)濾波器,呈高通特性。a 為頻域中的預(yù) 加重因子,控制預(yù)加重程度,a 典型值為0 9 左右。圖3 1 是a 為0 9 時(shí)的頻率 特性。 語音信號(hào)特性是隨時(shí)間變化的,但是在一個(gè)短時(shí)間范圍內(nèi)其特性基本保持不 變,因此可以將語音看作是一個(gè)準(zhǔn)平穩(wěn)過程,對(duì)語音的分析和處理都建立在短時(shí) 分析的基礎(chǔ)上,將其分成一段一段來分析,其中每一段稱為一幀,即對(duì)語音信號(hào) 流采用分幀或分段來處理。由于語音通常在1 0 m s 一- 3 0 m s 之內(nèi)是保持相對(duì)平穩(wěn)的, 因而幀長(zhǎng)一般取為10 m s - 3 0 m s 。 碩士學(xué)位論文第三章情感語音的音質(zhì)特征分析1 0號(hào)0翟加2 0:= - = ,1 7 f 。_ - - - - - 。j 。- - - - - 一。廣。oo 2歸境頻率( o 死gr a 州s a m p i e 0 8 )歸一化頻率r ,刑。,m 、圖3 1 預(yù)加重濾波器頻率特性如圖3 2 所示,經(jīng)過了預(yù)加重之后,聲音變得比較尖銳,音量也變小了。a值越大對(duì)高頻分量幅度的提升越大。( a ) 原始語音n y( b ) 預(yù)加重后語音:a - - o 9 5 圖3 - 2 預(yù)加重效果進(jìn)行過預(yù)加重?cái)?shù)字濾波處理后,接下來就是要進(jìn)行加窗分幀處理。分幀的過程實(shí)際上就是加窗的過程。分幀雖然可以用連續(xù)分段的方法,但一般要采用交疊分段的方法,使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀與后一幀之間的距離稱為幀移。幀長(zhǎng)與幀移的比值一般為i 2 左右。分幀是用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的,這就是用一定的窗函數(shù)w ( 刀) 乘以信號(hào)s 俐。從而形成加窗語音信號(hào)s w ( 玎) = s 俐術(shù)w ( n ) 。1 4 碩士學(xué)位論文第三章情感語音的音質(zhì)特征分析在語音數(shù)字信號(hào)處理中常用的窗函數(shù)有矩形窗、漢明( h a m m i n g ) 窗和漢寧( h a r m i n g ) 窗,其定義分別為( 1 ) 矩形窗w _ 蕊虬( 3 - 2 )w ( 加惦其他)( 2 ) 漢明窗) 一i u ,其他、?!? 3 ) 漢寧窗w ( 爐 0 晉:s ( 2 冊(cè)化) 】,o 如虬。( 3 - 4 )w ( 玎) 2 1 0 ,妻他、”其中三為窗長(zhǎng),這些窗函數(shù)都有低通特性。通過比較分析:矩形窗旁瓣太高,會(huì)產(chǎn)生嚴(yán)重的泄漏現(xiàn)象,因此很少采用矩形窗;而漢明窗旁瓣最低,可有效地克服泄漏現(xiàn)象,具有更平滑的低通特性,因此應(yīng)用最廣泛。另外若窗越長(zhǎng),它對(duì)信號(hào)的平均作用越厲害,信號(hào)的頻率分辨率越高,但是其時(shí)間分辨率也越低,因此要想反映出快速時(shí)變信息,窗長(zhǎng)應(yīng)相對(duì)短一些。3 。1 2 端點(diǎn)檢測(cè)對(duì)于采集到的語音信號(hào),除了用戶的語音信號(hào)以外,一般在頭部和尾部還包含靜音段,而在現(xiàn)實(shí)環(huán)境中,靜音段經(jīng)常由于受到噪聲的污染能量值不為零,導(dǎo)致系統(tǒng)誤判,性能降低。對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測(cè)n2 | ,有利于減少系統(tǒng)運(yùn)算量,提高系統(tǒng)性能。首先可以考慮用信號(hào)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論