(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)語音情感識別的研究與實現(xiàn).pdf_第1頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)語音情感識別的研究與實現(xiàn).pdf_第2頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)語音情感識別的研究與實現(xiàn).pdf_第3頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)語音情感識別的研究與實現(xiàn).pdf_第4頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)語音情感識別的研究與實現(xiàn).pdf_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)語音情感識別的研究與實現(xiàn).pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

摘要 摘要 隨著計算機(jī)網(wǎng)絡(luò)通信技術(shù)和多媒體技術(shù)的飛速發(fā)展,新型的人機(jī)交互技術(shù) 已成為當(dāng)前計算機(jī)科學(xué)領(lǐng)域一個十分活躍的研究課題。語音信號和面部表情一 樣,傳遞著情感信息。語音情感識別的研究對于增強(qiáng)計算機(jī)的智能化和人性化, 開發(fā)新型人機(jī)環(huán)境,以及推動心理學(xué)等學(xué)科的發(fā)展,有著重要的現(xiàn)實意義。 本文首先介紹了語音情感識別的研究背景及關(guān)鍵技術(shù),著重介紹了有關(guān)語 音處理、語音情感特征分析與提取、識別方法和目前國內(nèi)外該領(lǐng)域的研究現(xiàn)狀 及發(fā)展方向。 然后,對語音情感識別的分析過程和設(shè)計思想進(jìn)行了深入詳細(xì)的探討。論 文完成了情感語音庫的建立、語音信號預(yù)處理、哈明窗與小波變換相結(jié)合提取 情感特征參數(shù)、采用加權(quán)歐式距離模板匹配方法實現(xiàn)情感識別等工作。通過實 驗分析總結(jié)了所提取的多種情感特征參數(shù)對不同情感狀態(tài)有著不同的貢獻(xiàn)程 度,提出了采用貢獻(xiàn)分析法對提取的語音情感特征進(jìn)行加權(quán)處理并建立模板, 實現(xiàn)了系統(tǒng)對實時性的要求。采用面向?qū)ο蟮脑O(shè)計方法設(shè)計了語音情感識別的 原型系統(tǒng),并驗證了上述方法的有效性。 最后,總結(jié)性分析了該領(lǐng)域存在的一些問題和今后需要進(jìn)一步研究的課題。 關(guān)鍵詞:小波變換,語音情感識別,貢獻(xiàn)分析法,模板匹配 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rn e t w o r km u l t i m e d i at e c h n o l o g y , t h e t e c h n o l o g yo fn e wh u m a nm a c h i n ec o m m u n i c a t i o na n di n t e r a c t i o n ( h c i ) h a s b e c o m eav e r ya c t i v es t u d ys u b je c ti nt h ec o m p u t e rs c i e n c ef i e l da tp r e s e n t s p e e c h i sp a rw i t hf a c i a lo n eo ft h ef u n d a m e n t a lm e t h o d so fc o n v e y i n ge m o t i o n ,o na e x p r e s s i o n t h es t u d yo nt h es p e e c he m o t i o nr e c o g n i t i o nh a sf o u n di m p o r t a n t r e a l i s t i cv a l u e si ns u c ha s p e c t sa se n h a n c i n gt h ei n t e l l i g e n c ea n dh u m a n i t yo f c o m p u t e r , d e v e l o p i n gn e wh u m a n m a c h i n ee n v i r o n m e n t s ,p r o m o t i n gt h es t u d yo f p s y c h o l o g y i nt h i sp a p e r , w ef i r s t l yi n t r o d u c et h es t u d yb a c k g r o u n da n do t h e rr e l a t e dk e y t e c h n o l o g i e s o f s p e e c h e m o t i o n r e c o g n i t i o n b a s e do na u d i oi n f o r m a t i o n , e m p h a s i z i n go nt h ek n o w l e d g eo fd e a l i n gw i t hs p e e c h ,a n a l y z i n ga n de x t r a c t i n g s p e e c he m o t i o nf e a t u r e s ,r e c o g n i t i o nm e t h o d s t h es t u d ya c t u a l i t ya n di t st r e n di n t h i sf i e l di nt h ew o r l da tp r e s e n ta r ea l s oe m p h a s i z e d s e c o n d l yw ed i s c u s si nd e t a i l st h ep r o c e s so fa n a l y s e sa n dm a i nd e s i g ni d e a so f t h es p e e c he m o t i o nr e c o g n i t i o n w eh a v ef i n i s h e dt h ec o n s t r u c t i o no fe m o t i o n s p e e c ht e m p l a t e sd a t a b a s e ,t h ep r e p r o c e s so fs p e e c hs i g n a l s ,s p e e c he m o t i o nf e a t u r e s e x t r a c t i o nb a s e do nh a m m i n gf i l t e ra n dw a v e l e tt r a n s f o r m a t i o n ,s p e e c he m o t i o n r e c o g n i t i o nb a s e do nt e m p l a t e sm a t c h i n g ,c o m b i n i n gw e i g h t e de u c l i d e a nd i s t a n c e d u r i n gr e c o g n i t i o no fs p e e c he m o t i o nb a s eo na u d i of r e q u e n c y , w ea n a l y z ea n d s u m m a r i z ea c c o r d i n gt oe x a m i n a t i o n st h a tt h ed i f f e r e n te x t r a c t e ds p e e c he m o t i o n f e a t u r e sh a v ed i f f e r e n tc o n t r i b u t ei n d e g r e et oe v e r ys p e e c he m o t i o n s t a t u s t h e r e f o r e ,w ep r e s e n tt h ec o n t r i b u t e sa n a l y z i n ga l g o r i t h mt og i v ed i f f e r e n tw e i g h t s t od i f f e r e n te x t r a c t e ds p e e c he m o t i o nf e a t u r e sa n dt h e nc o n s t r u c tt h et e m p l a t e s t h e n i i a b s t r a c t w ec a nu s et h et e m p l a t e sm a t c h i n gm e t h o d sb a s e do nw e i g h t e de u c l i d e a nd i s t a n c et o a c h i e v es p e e c he m o t i o nr e c o g n i t i o n ,e n s u r i n gt h er e a l t i m ec o m m a n do ft h es y s t e m w ea d o p tt h eo b j e c to r i e n t e dd e s i g nm e t h o d st od e s i g nt h es y s t e mo fs p e e c he m o t i o n r e c o g n i t i o na n dt h ev a l i d i t yo fa b o v em e t h o d si sp r o v e d i nt h ee n do ft h i sp a p e r , w es u m m a r i z es o m ep r o b l e m st h a th a v en o tb e e ns o l v e d a n dt h ef u t u r ew o r k si nt h i sf i e l dw i l lb ed i s c u s s e d k e y w o r d s :w a v e l e tt r a n s f o r m a t i o n ,s p e e c he m o t i o nr e c o g n i t i o n ,c o n t r i b u t e s a n a l y z i n ga l g o r i t h m ,t e m p l a t e sm a t c h i n g i i i 獨創(chuàng)性! 聲明 本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡 我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過 的研究成果,也不包含為獲得鑫注! 重整盤堂或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的 材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示 了謝意。 學(xué)位論文版權(quán)使用授權(quán)書 期: 本人完全了解天津師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)將學(xué)位論 文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,并采用影印、縮印或掃描等復(fù)制手段保存、 匯編以供查閱和借閱。同意學(xué)校向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤。 ( 保密的論文在解密后應(yīng)遵守此規(guī)定) 簽名: 么金至塹 導(dǎo)師簽名: 日期: 第1 章緒論 第1 章緒論 1 1研究背景 隨著信息技術(shù)的高速發(fā)展和人類對計算機(jī)技術(shù)的依賴性的不斷增強(qiáng),人機(jī)的 交互能力越來越受到研究者的重視。為了使人類與計算機(jī)間能夠更加智能更加自 然地交互,新型的人機(jī)交互( h u m a nm a c h i n ei n t e r a c t i o n ,h c i ) 技術(shù)正逐漸成為 研究熱點。如何實現(xiàn)計算機(jī)的擬人化,使其能感知周圍的環(huán)境和氣氛以及對象的 態(tài)度、情感等內(nèi)容,自適應(yīng)地為對話對象提供最舒適的對話環(huán)境,盡量消除操作 者和機(jī)器之間的障礙,已經(jīng)成為下一代計算機(jī)發(fā)展的目標(biāo)。研究表明,在人機(jī)交 互中需要解決的問題實際與人和人交流中的重要因素是一致的,最關(guān)鍵的都是 虬隋感智能”的能力。計算機(jī)要能夠更加主動地適應(yīng)操作者的需要,首先必須能 夠識別操作者的情感,而后再根據(jù)情感的判斷來調(diào)整交互對話的方式。對于情感 信息的處理技術(shù)的研究包括多個方面,主要有情感特征分析、情感識別( 如肢體 情感識別、面部情感識別和語音情感識別等) 、情感模擬( 如情感語音的合成等) 。 目前,關(guān)于情感信息處理的研究正處在不斷深入之中,其中語音信號中的情感信 息處理的研究也越來越受到人們的重視。 通過語音相互傳遞信息是人類最重要的基本功能之一。聲音是人類常用的工 具,是相互傳遞信息的最重要的手段。情感在人們生活和交流中起著重要的角色。 包含在語音中的情感信息是一種很重要的信息資源,它是人們感知事物的必不可 少的信息。例如同樣的一句話,由于說話人表現(xiàn)的情感不同,意思就會完全不同, 在聽者的感知上就可能會有較大的差別。所謂“聽話聽音 就是這個道理。然而, 傳統(tǒng)的語音信號處理技術(shù)把這部分信息作為噪聲給去掉了。實際上,語音信號中 不僅包含文字信息,還包含了語調(diào)及情感信息。人們同時接受各種信息,怎樣有 效地利用各種形式的信息達(dá)到最佳的信息傳遞和交流效果,是今后信息處理研究 的發(fā)展方向。所以分析和研究語音中的情感特征、判斷說話人的喜怒哀樂是一個 意義重大的研究課題。 第1 章緒論 1 2 語音情感識別的研究領(lǐng)域 語音的情感識別是目前信號處理及模式識別領(lǐng)域的一個新的研究熱點,在許 多領(lǐng)域有著重要的意義,涉及領(lǐng)域有:信號處理、心理學(xué)研究、虛擬現(xiàn)實技術(shù)、 新型人機(jī)交互技術(shù)、模式識別、信息論、發(fā)聲機(jī)理、聽覺機(jī)理、人工智能等。 語音情感識別,就是通過分析人類語音對應(yīng)于情感的變化規(guī)律,利用計算機(jī) 從語音中準(zhǔn)確提取情感特征,并根據(jù)這些特征確定被測對象的情感狀態(tài)。相對于 有幾十年研究歷史的語音信號處理,語音情感識別著眼點不是語音信號處理中語 音詞匯表達(dá)的準(zhǔn)確性,而是從前研究中完全忽略的包含在語音信號中的情感和情 緒信息。而這部分恰恰是人們感知說話人所要表達(dá)情感的必不可少的信息。因此 對語音情感信息的處理在一定程度上可以說是對這部分被去掉信息的“復(fù)權(quán)”研 究。特別需要指出的是,語音情感識別和人的情緒識別是兩個不同概念。情緒一 般能夠完全體現(xiàn)人的意圖,但由于情感語音與所處的情緒狀態(tài)并不是一一對應(yīng) 的,因此某些情緒并不通過可視的情感語音表現(xiàn)出來。另一方面,情感語音又和 內(nèi)在情緒有著密切的聯(lián)系,大多數(shù)情感語音都由特定的情緒所支配。由此可見, 情感語音在人們交流過程中起著重要的作用,使用計算機(jī)進(jìn)行語音情感識別進(jìn)而 確定人的內(nèi)心情緒的研究是完全可行的。 近幾年,研究者對語音中的情感信息表現(xiàn)出日益濃厚的興趣。他們從生理、 心理學(xué)角度的情感建模到語音情感的聲學(xué)關(guān)聯(lián)特征,以及各種針對語音情感識別 和合成的算法、理論展開了深入的研究,還從工程學(xué)的角度將情感作為信息信號 工學(xué)的研究對象。1 9 8 1 年,w i l l i a m s 和s t e v e n s 1 】通過對語音產(chǎn)生機(jī)理的分析, 總結(jié)出不同情感狀態(tài)下,生理上起主導(dǎo)作用的神經(jīng)系統(tǒng)及相應(yīng)的生理反應(yīng)。1 9 9 6 年d e l l a e r t 2 】提出以基音頻率相關(guān)信息為主要特征的分類方法。他從基頻輪廓 ( p i t c hc o n t o u r ) 曲線提取特征參數(shù),通過研究指出,語音情感識別中最顯著的 特征包括:基音頻率的最大值、最小值和中值,并識別了悲傷、憤怒、高興和害 怕。近年來,隨著h m m 、小波變換等新方法的應(yīng)用【5 】,以及高性能的計算資源 的使用,都極大地推動了語音情感識別技術(shù)的研究與發(fā)展,并使其成為科研熱點。 語音信號的情感識別也可以看成一個模式識別的問題,在眾多領(lǐng)域有著極大 的應(yīng)用價值。如果一說話人的情感狀態(tài)可準(zhǔn)確識別,那么在人機(jī)交互中機(jī)器將能 更有效地對使用者的要求做出回應(yīng)。為進(jìn)一步提高對語音識別的準(zhǔn)確率,通過提 2 第1 章緒論 取說話人的情感狀態(tài),將提高對語言的理解,也能加強(qiáng)語音識別系統(tǒng)的識別準(zhǔn)確 率。 1 3 語音情感識別技術(shù)概述 語音情感識別是建立在對語音信號的產(chǎn)生機(jī)制深入分析的基礎(chǔ)上,對語音中 反映個人情感信息的一些特征參數(shù)進(jìn)行提取,并利用這些參數(shù)采用相應(yīng)模式識別 方法確定語音情感狀態(tài)的技術(shù)。 隨著新型的人機(jī)交互技術(shù)的快速發(fā)展,語音處理領(lǐng)域產(chǎn)生了許多熱門的研究 方向,如個人機(jī)器人、語音識別、語音合成、語音的轉(zhuǎn)換、語言翻譯、個人隱私 保護(hù)等,其中,語音情感識別技術(shù)的研究是伴隨著這些主要的研究方向的興起而 發(fā)展。語音情感識別還可以應(yīng)用在教學(xué)輔導(dǎo)及娛樂等方面。隨著i n t e m e t 的普及 以及計算機(jī)性能的大幅提高,語音情感識別技術(shù)將被廣泛應(yīng)用在更多的領(lǐng)域,會 有非常好的經(jīng)濟(jì)效益和社會價值。 1 3 1語音信號中情感特征分析 對語音中的情感特征進(jìn)行分析,首先要對研究對象語音情感加以界定。 情感狀態(tài)有長期和短期之分。長期情感狀態(tài)反應(yīng)了潛在的長期情感。而短期情感 狀態(tài)則是指受到短時刺激后的情緒以及由此激發(fā)起人的及時行為。在本文中,我 們研究的對象僅僅是短期情感對于語音信號的影響。 在現(xiàn)實生活中,每個人的語音都具有自身的特點。通過一些研究人員在說話 人識別的研究中發(fā)現(xiàn),包含在語音信號中的個人信息是一系列各種因素的綜合 體,一個說話人區(qū)別于另一個說話人語音個人特征包括很多方面。在這些因素中, 主要的可以分成三類特征: l 、基于音段的特征:指語音的音色和聽覺方面的特征。 2 、基于超音段的特征:又稱語音的韻律特征,主要指說話人的種類特征、 說話人風(fēng)格、說話的語調(diào)、音高、情緒等方面的特征。 3 、基于語言的特征:主要指由于地理區(qū)域的不同導(dǎo)致使用的語種和方言的 不同而表現(xiàn)出的特征。 基于音段的特征的表示參數(shù),廣泛運用于各種語音處理相關(guān)的研究中,主要 3 第1 章緒論 有:共振峰中心頻率、帶寬、l p c 系數(shù)、聲道面積比、倒譜系數(shù)等。不同類別( 性 別,年齡等) 的人在超音段特征( 韻律特征) 上有著明顯的差別,例如基音頻率 軌跡的差別,童聲和女聲的音高明顯高于成人和男聲。我們知道聲調(diào)對語言表達(dá) 具有特殊的意義和功能,而聲調(diào)主要和音高有關(guān),即基音頻率軌跡。基于語言的 特征,超出本文的研究范圍,不展開敘述。 通過對語音中個人特征的分析,我們可以明確,對于情感語音的識別將著重 于音段和超音段的特征這兩大類上。在后面相關(guān)章節(jié)中,將具體介紹語音情感特 征參數(shù)的提取。 1 3 2 語音情感識別的研究方法 九十年代中期之后,語音情感信息處理受到了越來越多的關(guān)注,這方面的研 究也在不斷深入,并取得了一定的進(jìn)展。對于語音情感識別的研究涉及多方面內(nèi) 容,主要包括三部分:語音信號的預(yù)處理、語音情感特征參數(shù)的提取和情感語音 的識別。下面將就這三方面內(nèi)容,對相關(guān)研究方法加以介紹。 一、語音信號的預(yù)處理 在對語音信號進(jìn)行分析和處理前,必須對其進(jìn)行預(yù)處理,目的是改善語音信 號質(zhì)量,統(tǒng)一語音信號格式,并為后繼的語音特征提取和情感識別打好基礎(chǔ)。語 音信號預(yù)處理包括反混疊失真濾波、模數(shù)變換、偏差校正、預(yù)加重、去噪處理 以及語音信號的平滑處理等許多方法【1 2 】。 1 、分幀 語音信號從整體來看其特性及表征其本質(zhì)特征的參數(shù)均是隨時間而變化的。 但是,由于不同的語音是由人的口腔肌肉運動構(gòu)成聲道某種形狀而產(chǎn)生的響應(yīng), 而這種口腔肌肉運動相對于語音頻率來說是非常緩慢的,所以在一個短時間范圍 內(nèi)( 一般認(rèn)為在1 0 2 0 m s 的短時間內(nèi)) ,語音信號的特性基本保持不變,即語 音信號具有短時平穩(wěn)性。將語音信號分為一段一段來分析其特征參數(shù),其中每一 段稱為“一幀”,幀長一般取為l o 2 0 m s 。各幀之間常有一些疊接,對每幀的處 理結(jié)果是一個數(shù)或一組數(shù)。這樣,對于整體的語音信號來講,分析出的是由每一 幀特征參數(shù)組成的特征參數(shù)時問序列,用于描述語音信號的特征。 2 、加窗 4 第1 章緒論 通過分幀處理,我們可以將其理解為,將原始語音信號序列x ( 朋) 分成一些 短段,等效于乘以幅度為1 的移動窗w ( n m ) 。當(dāng)移動幅度不是1 而是按一定的 函數(shù)取值時,所分成的短段語音的各個取樣值將受到一定程度的加權(quán)。對于語音 信號的各段進(jìn)行處理,就是對各段進(jìn)行某種變換或施以某種運算,其式為: o 。= 研x ( 刪) w ( n - m ) ( 1 1 ) 其中t 【】表示某種運算,它可以是線性的也可以是非線性的,z 徹) 為輸入語 音信號的序列。q 是所有各段經(jīng)過處理后得到的一個時間序列,可以理解為離 散的語音信號丌】經(jīng)過一個單位沖激為x ( 瓏) 的f i r 低通濾波器產(chǎn)生的輸出。這 里的帶寬和頻率響應(yīng)取決于窗函數(shù)的選擇。在語音信號中采用最多的窗函數(shù)是直 角窗和哈明窗。 二、語音情感特征參數(shù)的提取技術(shù) 語音情感識別研究中,語音特征參數(shù)的提取對于識別效果起了決定性的作 用。在研究中常用的幾種典型方法是:線性預(yù)測分析( l i n e a r p r e d i c t i v ea n a l y s i s , l p ) 、m e l 倒譜系數(shù)( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 和感覺加權(quán) 線性預(yù)測分析( p e r c e p t u a ll i n e a rp r e d i c t i v ea n a l y s i s ,p l p ) 。 l 、線性預(yù)測分析( l p ) 1 9 6 7 年,i t a k u r a 等人最先將線性預(yù)測技術(shù)直接應(yīng)用到語音分析和合成中。 在各種語音分析技術(shù)中,線性預(yù)測分析是第一個得到實際應(yīng)用的技術(shù),并且至今 仍是語音信號處理中的核心技術(shù)。常用的求解方法有基于自相關(guān)法的d u r b i n 遞 推算法和自協(xié)方差法【8 1 等。 在隨機(jī)信號譜分析下,常把一個時間序列模型化為白噪聲序列通過一個數(shù)字 濾波器日( z ) 的輸出【4 1 1 。在一般情況下,日( z ) 可寫成有理分式的形式: h ( z ) = g 1 + l = 1 爭z 一 l 一口f z 一 ( 1 2 ) 式中,系數(shù)a ,b i 以及增益因子g 就是模型參數(shù),因而信號可以用有限數(shù)目的參 5 第1 章緒論 數(shù)構(gòu)成的信號模型來表示,如圖1 1 所示。 圖1 1 信號s ( ,z ) 的模型化 2 、m e l 倒譜系數(shù)( m f c c ) 人耳對不同頻率的聲音信號的響應(yīng)是非線性的。不同頻率聲音形成的波,在 沿著耳蝸基底膜傳播的過程中,峰值出現(xiàn)在耳蝸基底膜的的不同位置,且與聲音 頻率呈對數(shù)關(guān)系。為模擬人耳的這種非線性特點,提出了各種頻率彎折方法,如 b a r k 度、等效矩形帶寬度和m e l 度。其中基于m e l 度的頻率彎折如下式所示。 f m e u ) = 2 5 9 5 l g ( 1 + 去) 1 由于充分考慮了人的聽覺特性,而且沒有任何前提假設(shè),;m f c c 參數(shù)具有良 好的識別性能和抗噪聲能力,但計算量和計算精度要求高。m f c c 計算過程,如 圖1 2 所示。 擷處理后 語音輸入。 哈明窗楨選 f f t譫波器組離散余弦 能量輸出變換 圖1 2m f c c 計算過程示意圖 3 、感覺加權(quán)線性預(yù)測分析( p l p ) 如前所述,線性預(yù)測分析最大的缺點是對各頻段的功率譜采用了相同算法, 忽略了人耳的非線性特性。事實上,人耳對于1 0 0 0 h z 左右的聲音比較敏感,在 8 0 0 h z 以上的高頻段,人耳的頻率分辨率隨著頻率的升高而降低。h e r m a n s k y 通 過實驗證明l p 分析確實與人類聽覺感知習(xí)慣有不吻合之處,并對應(yīng)提出了感覺 加權(quán)線性預(yù)測分析( p l p ) 彌補(bǔ)了l p 的缺點【9 】,該特征參數(shù)是全極點模型預(yù)測 多項式的一組系數(shù),等效于一種l p c ( 線性預(yù)測系數(shù)) 特征。它們的不同是用輸 入的語音信號經(jīng)聽覺模型處理后所得到的信號替代傳統(tǒng)的l p c 分析所用的時域 信號。研究實驗表明基于p l p 提取的特征抗噪性能優(yōu)于基于l p 的方法。 三、情感語音的識別技術(shù) 6 第1 章緒論 目前,語音情感識別大多采用隱馬爾可夫模型、人工神經(jīng)網(wǎng)絡(luò)和多變量解析 主元素分析等技術(shù)。 1 、隱馬爾可夫模型 隱馬爾可夫模型( h m m ) 是一個離散時域有限自動機(jī)系統(tǒng),該模型首先在 語音識別領(lǐng)域得到廣泛的應(yīng)用1 3 】,而語音情感識別作為語音識別中的一個大類, 也將h m m 引入到研究中5 】【1 4 】。文獻(xiàn)【1 5 1 詳細(xì)論述了h m m 理論。h m m 由一組隱 藏的狀態(tài)來定義,隱藏狀態(tài)的輸出是一系列的觀察符號。 h m m 是利用馬爾可夫鏈的信號模型技術(shù),以抽象的概率模型作為參考模板 來反映信號的統(tǒng)計特性,從而對隨機(jī)過程建模。作為首先應(yīng)用于語音識別的技術(shù), 將h m m 應(yīng)用于語音情感識別也是比較廣泛的。如在2 0 0 1 年,n o g u e i r a s 等人【l 6 】 就運用h m m 來識別利用m p e g 4 編碼的情感語音,且得到了與采用聽取試驗 時人們判斷相近的結(jié)果。文獻(xiàn)【5 1 中也用離散隱馬爾可夫模型作為識別方法,在他 們的研究中,通過對提取出的語音情感特征的分析識別,最終達(dá)到了較高的識別 正確率。但h m m 的建立、訓(xùn)練都要較多的時間,且計算的時間復(fù)雜度也較高, 無法滿足我們對語音情感最終達(dá)到實時識別的目標(biāo)要求。 2 、人工神經(jīng)網(wǎng)絡(luò)技術(shù) 人工智能應(yīng)用到語音情感識別領(lǐng)域最基本的思想就是匯集和結(jié)合多種知識 源中的所有知識,并集中于所面對的問題上。人工智能的方法需要建立許多不同 的知識源,其中還涉及到兩個概念:學(xué)習(xí)和自適應(yīng)。對于如何建立知識源這個問 題,研究最多也是應(yīng)用最廣的就是神經(jīng)網(wǎng)絡(luò)方法。 神經(jīng)網(wǎng)絡(luò)之所以引起人們的興趣,主要在于其并行分布處理的能力,這是與 傳統(tǒng)方法截然不同的,同時也因為它具有以下幾個方面的優(yōu)點: 1 ) 高度的非線性和極強(qiáng)的分類能力。 2 ) 自組織和自學(xué)習(xí)的能力,能夠在學(xué)習(xí)的過程中發(fā)現(xiàn)并總結(jié)信號的特征。 3 ) 具有很強(qiáng)的魯棒性和容錯能力。 正是因為神經(jīng)網(wǎng)絡(luò)具有通過自組織和學(xué)習(xí)能夠具有較強(qiáng)的分類能力,也有一 些研究者將它應(yīng)用到了語音情感的識別研究方面。如在2 0 0 3 年,k h k i m 1 7 1 等 人就采用了自適應(yīng)神經(jīng)網(wǎng)絡(luò)對語音情感狀態(tài)進(jìn)行了研究:在他們的研究中,除了 采用傳統(tǒng)的語音特征外,還結(jié)合了發(fā)音時的一些生理特征參數(shù)( 如心跳、心電圖 7 第1 章緒論 等) 進(jìn)行訓(xùn)練和識別,也達(dá)到了7 0 左右的識別率。 3 、多變量解析主元素分析 這是模式識別的一種方法。通過對提取出特征參數(shù)的分析,根據(jù)類別分別訓(xùn) 練建立模板,通過待識別語句與模板距離來確定所屬類別。 針對個十維原始特征矢量的訓(xùn)練語句矢量集,首先求出相關(guān)矩陣,然后求 出相關(guān)矩陣的特征值和特征向量,由特征向量組成變換陣。對于語句的十維原始 特征矢量利用變換矩陣轉(zhuǎn)變?yōu)樵靥卣魇噶俊W儞Q矩陣中和一個主元素相對應(yīng)的 向量叫做該主元素的基向量。一般選擇前,1 個主元素作為有效主元素使用。對于 給定的樣本x ,可以根據(jù)各基向量求出有效主元素。有效主元素組成的矢量被 用作情感訓(xùn)練和識別用特征矢量。 關(guān)于距離法,描述如下。由主元素分析,把每一個訓(xùn)練用d 維矢量 置= 扛n ,t :,工緲) 變換成有效主元素組成的矢量】,= 抄n ,y ,y 護(hù) ,p d 。然 后,分別對各情感類別求出有效主元素特征矢量的矢量集的重心“。和相應(yīng)方差。 對于某一語音情感主元素特征矢量】,由下式求出它與各類別的距離,距離最近 的情感類別即為識別結(jié)果。 。= ( 多一二t ) 。( 多一疋) 1 4 論文的研究內(nèi)容及工作 ( 1 4 ) 本文在廣泛閱讀國內(nèi)外現(xiàn)有的關(guān)于語音信號處理和語音情感識別技術(shù)的文 獻(xiàn)后,比較和借鑒現(xiàn)有成功的語音情感識別方法,對相應(yīng)的情感特征參數(shù)提取及 識別的關(guān)鍵技術(shù)進(jìn)行改進(jìn)和完善,目的就是分析現(xiàn)有的語音情感識別系統(tǒng),并設(shè) 計和實現(xiàn)漢語語音的情感識別。主要研究內(nèi)容和工作包括以下幾個方面: 一、漢語情感語音庫的建立 由于漢語語音情感識別研究時間較短,還沒有標(biāo)準(zhǔn)語音庫可以使用。情感語 音庫的建立是研究的前提和基礎(chǔ)。通過構(gòu)建包含四種基本情感狀態(tài)及自然狀態(tài)的 語音庫,就可以分析其中各個狀態(tài)問的差別并找出有效的情感特征用于識別。 二、語音信號的預(yù)處理 8 第1 章緒論 由于條件的限制,所錄制的語音樣本中含有影響情感識別的因素。通過預(yù)處 理的研究,可以改善語音信號質(zhì)量,統(tǒng)一語音信號格式,并為后繼的語音特征提 取和情感識別打好基礎(chǔ)。 三、韻律特征參數(shù)的提取 為了提取能夠反應(yīng)情感信息的特征參數(shù),從情感語音信號中提取了基頻、能 量以及語速等韻律特征參數(shù),并在此基礎(chǔ)上進(jìn)行細(xì)化,選出八個特征參數(shù)。還進(jìn) 一步分析了這些特征參數(shù)與人類四大情感( 憤怒、高興、悲傷和害怕) 的關(guān)系。 四、語音情感識別研究 基于特征參數(shù)提取的基礎(chǔ)上,結(jié)合提取出的八個特征參數(shù),綜合分析目前情 感分類方法的優(yōu)缺點,研究探索更方便實驗和更適合于實時環(huán)境下語音情感的分 類與識別方法。 五、語音情感識別系統(tǒng)的實現(xiàn) 開發(fā)了集語音信號提取、情感分類識別于一體的語音情感識別系統(tǒng),為進(jìn)一 步研究實時環(huán)境下的語音情感識別打下基礎(chǔ)。 1 5 論文的結(jié)構(gòu) 論文共分五章,主要內(nèi)容如下: 第1 章介紹課題的研究背景和研究意義,概述了語音情感識別所涉及的研究 領(lǐng)域。綜述語音情感識別的研究現(xiàn)狀,重點介紹線性預(yù)測分析、m e l 倒譜系數(shù)、 感覺線性預(yù)測分析、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)等情感特征提取和識別算 法,并對這些算法的優(yōu)缺點從理論上給出比較。同時分析和提出本文的主要研究 工作和結(jié)構(gòu)。 第2 章介紹語音庫語句的選擇和采集,對采集到的語音樣本進(jìn)行聽取檢定確 保其中包含情感的有效性。 第3 章介紹針對語音信號所采用的預(yù)處理算法,主要包括語音信號的偏差校 正、利用小波變換去除寬帶噪聲,達(dá)到了改善語音質(zhì)量、統(tǒng)一語音信號格式的目 標(biāo)。同時通過對語音信號中情感特征構(gòu)造的分析,提出哈明窗和小波變換相結(jié)合 提取情感特征參數(shù)的方法。 第4 章重點介紹加權(quán)歐式距離模板匹配的情感識別算法,實現(xiàn)語音情感快速 9 第1 章緒論 準(zhǔn)確的分類識別,并采用面向?qū)ο蟮脑O(shè)計思想,開發(fā)了語音情感識別系統(tǒng),以直 觀的形式介紹設(shè)計方法與過程。 第5 章總結(jié)全文,并提出進(jìn)一步需要開展的工作。 1 6 本章小結(jié) 本章主要研究了課題項目的研究背景,語音情感識別的研究領(lǐng)域。圍繞語音 情感識別技術(shù),對語音信號中的特征進(jìn)行了概要式分析,重點在語音情感識別的 研究方法。按照語音信號的預(yù)處理、語音情感特征參數(shù)的提取和情感語音識別的 研究步驟,介紹了分幀力日窗的預(yù)處理方法、l p m f c c p l p 的特征參數(shù)提取方法、 h m m 人工神經(jīng)網(wǎng)絡(luò)多變量解析主元素分析的語音情感識別技術(shù),并通過對比, 分析了各自的優(yōu)缺點,為下面自行分析、設(shè)計與實現(xiàn)語音情感識別的研究工作提 供了參考依據(jù)。 本章還介紹了論文的研究內(nèi)容和結(jié)構(gòu),起到統(tǒng)領(lǐng)全文的作用,為后文內(nèi)容的 闡述定準(zhǔn)脈絡(luò)。 1 0 第2 章漢語情感語音庫 2 1 1 情感的定義 第2 章漢語情感語音庫 2 1情感的定義與分類 究竟什么是情感? 已經(jīng)有許多西方學(xué)者就情感的準(zhǔn)確定義展開了討論。 o a t l a y 和j e n k i n s 認(rèn)為情感是人與人之間相互交流的信息,由思想和外部事件引 起的行為、生理變化和主觀體驗組成。在文獻(xiàn)【1 9 】【2 0 】中總結(jié)了1 0 0 多位學(xué)者對于 情感的定義。這些定義通常是復(fù)雜的、難以理解的,這也從一個側(cè)面反應(yīng)給出情 感準(zhǔn)確定義的難度。 人們對于情感的定義僅有有限的一致,很難給出情感的準(zhǔn)確定義。因此,我 們重點研究情感的分類。 2 1 2 情感的分類 近年來隨著計算機(jī)多媒體信息、處理技術(shù)等領(lǐng)域的發(fā)展,情感信息處理技術(shù) 也被越來越多的研究者所重視,對情感狀態(tài)類型的劃分也是情感分析研究的一個 重要部分。在過去的大多數(shù)研究方法中,研究者都用日常語言標(biāo)簽來標(biāo)識和分類 情感,比如:害怕、憤怒和高興等。根據(jù)情感的純度和原始度,情感可分為兩大 類【2 9 】:主要情感( 原始情感) 和次要情感( 派生情感) 。 主要情感是所有社會化的哺乳動物( 人類、猴子、鯨等) 共有的,有特 殊的表現(xiàn)形式( 面部表隋、行為趨勢、生理模式等) 。但對于主要情感的種類, 研究者始終沒有達(dá)成共識,如表2 1 所示。 表2 1 主要情感列表( o r t o n y t u r m e ri n l 9 9 0 ) 研究者主要情感 a r n o l d a n g e r c o u r a g e ,d e j e c t i o n ,d e s i r e ,d e s p a i r , f e a r , h a t e ,h o p e ,l o v e ,s a d n e s s e k m na n ,e t a 1 a n g e r ,d i s g u s t ,f e 甌j o y , s a d n e s s ,s u r p r i s e f r i d j ad e s i r e ,h a p p i n e s s ,i n t e r e s t ,s u r p r i s e ,w o n d e r ,s 0 1 t o w 第2 章漢語情感語音庫 表2 1 主要情感列表( o r t o n y t u r m e ri n l 9 9 0 ) 續(xù)表 研究者 主要情感 g r a yr a g ea n dt e r r o r , a n x i e t y , j o y i z a r d a n g e r , c o m t e m p t ,d i s g u s t ,d i s t r e s s ,f e a r , g u i l t ,i n t e r e s t , j o y , s h a m e ,s u r p r i s e j a m e s f e a r ,g r i e f , l o v e ,r a g e m c d o u g a l la n g e r , d i s g u s t ,e l a t i o n ,f e a r , s u b j e c t i o n ,t e n d e r - e m o t i o n ,w o n d e r m o w e r p a i n ,p l e a s u r e o a t l e y , e t a 1 a n g e r , d i s g u s t ,a n x i e t y , h a p p i n e s s ,s a d n e s s p a n k s e p pe x p e c t a n c y , f e a r , r a g e ,p a n i c p l u t c h i k a c c e p t a n c e ,a n g e r , a n t i c i p a t i o n ,d i s g u s t ,j o y , f e 鴆s a d n e s s ,s u r p r i s e t o m k i n s a n g e r , i n t e r e s t ,c o n t e m p t ,d i s g u s t ,d i s t r e s s ,f e a r , j o y , s h a m e ,s u r p r i s e 廝i t s o n f e a r ,l o v e ,r a g e w e i n e r , e t a 1 h a p p i n e s s ,s a d n e s s ; 從表2 1 可以看出大部分學(xué)者認(rèn)為主要情感包括:害怕( f e a r ) 、憤怒( a n g e r ) 、 高興( j o y ) 、悲傷( s a d n e s s ) 和厭惡( d i s g u s t ) 。 次要情感由主要情感變化或混合得到,就像三元色混合原理一樣。這類 情感的生成理論也叫情感的“調(diào)色板理論【3 0 】 。次要情感包括自豪( 高興的一種 變化形式) ,感激( 高興的一種派生形式) 、悲痛、驚奇等。 通過對國內(nèi)外研究狀況的了解,并結(jié)合自己對語音情感狀態(tài)的理解和分析, 在研究中,將情感類型分為高興、憤怒、害怕和悲傷這4 種,并盡可能地將所有 情感納入這4 種情感狀態(tài)。 2 2 漢語情感語音庫的建立 情感語音是情感建模、語音情感合成和語音情感識別的基礎(chǔ),只有建立大規(guī) 模、高真實感【3 5 】的情感語音庫才有可能從事上述各項研究。情感語音庫為情感 語音分析和建模提供大量的分析數(shù)據(jù);為情感語音合成提供建?;A(chǔ)和合成語 料;為語音情感識別提供訓(xùn)練及測試用語音。 但是,到目前為止,從國內(nèi)外的研究現(xiàn)狀來看沒有一個收集情感分析用語音 資料的標(biāo)準(zhǔn),因此在進(jìn)行下面的研究之前,以選擇錄制的方式設(shè)計了一個用于獨 1 2 第2 章漢語情感語音庫 立文本情感語音識別的漢語情感語音庫。 由于設(shè)備的限制,本次錄音實驗是在以p c 機(jī)和聲卡、麥克風(fēng)為硬件而實施 的,錄音的內(nèi)容是具有真實感情表達(dá)的語音。我們要解決的問題主要體現(xiàn)在以下 幾個方面:錄音腳本的選擇;如何讓錄音者盡可能地在錄音時表達(dá)出真實的情感; 用非專業(yè)錄音環(huán)境獲取相對高質(zhì)量的語音的方法;錄制的語音必須符合研究情感 語音的聲學(xué)特征的要求。 2 2 1 情感語音錄音腳本的采集 情感語音錄音腳本必須符合以下幾點要求: 1 、每句錄音腳本能夠較容易加入說話人的不同情感。 2 、錄音腳本不能有明確的情感傾向性。 3 、錄音腳本男性和女性均適用。 4 、錄音腳本集合能基本覆蓋漢語語音的主要元音和輔音,盡可能避開無聲 輔音。 5 、錄音腳本長度控制在5 秒以內(nèi)。 表2 2 給出了所采集的錄音腳本,共1 l 句。 表2 2 錄音腳本 序號錄音腳本序號錄音腳本 1明天是周末6快點干 2 我做了一個夢 7 這下全完了 3快要下雨了 8 你叫什么名字 4 過來 9 太棒了 5 他就快來了 1 0 你真?zhèn)ゴ?2 2 2 語音情感激發(fā)方法 語音情感的真實度可以分為自然、半自然和模仿三個等級。為了使收集到的 情感語音更真實,對后面的研究工作更有價值,我們給出類似的情感語音真實感 激發(fā)方法: 1 、自然:給定錄音腳本和情感類別,錄音者隨意聯(lián)想后錄音。 2 、半自然:將錄音腳本嵌入情感上下文腳本中,讓錄音者按照相應(yīng)情感朗 讀錄音。 1 3 第2 章漢語情感語音庫 3 、模仿:給出錄音腳本情感表達(dá)的范例,錄音者模仿發(fā)音朗讀。 這三種方法至上而下情感的真實度遞減,因此我們在錄音中將從第一個方法 開始激發(fā)錄音者,如果能錄制符合要求的情感語音,就結(jié)束此人的錄音。如果不 能則用第二種方法,以此類推。通過這種方法我們能獲取每個錄音者盡可能真實 的情感語音表達(dá)。 2 2 3 錄音過程 一、錄音前的準(zhǔn)備工作 1 、設(shè)備、軟件及相關(guān)參數(shù) 錄音設(shè)備采用聯(lián)想臺式機(jī),r e a l t e ka c 9 7a u d i o 聲卡,耳戴式麥克風(fēng)。 w i n d o w s 自帶的錄音機(jī)錄制語音文件,錄音電平監(jiān)視采用s o u n df o r g e 7 0 。 2 、錄音人員 錄音人員選定為大學(xué)4 年級學(xué)生,年齡2 0 歲左右。男女各2 人。普通話標(biāo) 準(zhǔn),口齒清楚,具有較高的情感表達(dá)能力。 3 、語音數(shù)據(jù)存儲方式 我們用文件夾和文件名方式組織和管理錄制的語音。以錄音者姓名為文件夾 名稱,將該錄音者的所有語音放在該文件夾中。語音文件文件名格式為:s e - n c w a y ,s 表示腳本序號;e 表示情感類別( 憤怒a ,高興h ,悲傷s ,害怕f ,自 然n ) ;n 表示錄音次數(shù)( 1 n 4 ) ;c 表示情感激發(fā)方案( 1 c 3 ) 。 二、錄音步驟 1 、由研究人員配合,按上述激發(fā)方法激發(fā)錄音者的情感表達(dá)。 2 、首先試錄憤怒情感語音,調(diào)節(jié)錄音增益電平至最佳值。 3 、按照錄音腳本逐個錄制,每個腳本4 類情感( 高興,憤怒,悲傷, 害怕) 。 4 、同一個錄音腳本,每人每類情感錄制3 次,共計每人1 2 0 句。為進(jìn) 行有效性測定,每人用中性情感狀態(tài)錄制語音樣本3 次,共計每人3 0 句。完成 采集后,實驗用情感語音庫共由6 0 0 旬語音樣本構(gòu)成。 1 4 第2 章漢語情感語音庫 2 2 4 聽取實驗 為了檢驗所收集情感語音的有效性,本文還做了聽取實驗,如圖2 1 所示。 檢定前檢定后 既定播放情感語句:二 識別錯誤盼睹感語句 。 識別正確的情感語句 圖2 1 聽取實驗流程示意圖 邀請以上4 位情感語音獲取者之外的5 名實驗者隨機(jī)聽取這些包含情感的語 音,要求5 位實驗者通過主觀評判說出所播放語音的情感類別。4 類情感語音的 聽取實驗結(jié)果,如表2 3 所示。 表2 3 語音庫聽取實驗匯總表 j 一= 憤怒高興悲傷害怕識別率( ) 實際情感 憤怒1 1 6 3o19 6 7 高興 49 002 67 5 0 悲傷 oo1 1 829 8 3 害怕 52 039 57 9 2 通過對聽取實驗結(jié)果的匯總,可以觀察到:對于憤怒和悲傷情感狀態(tài)的識別 率相當(dāng)高,而對于高興和害t f l 貝j j 較易發(fā)生混淆。這也是由于憤怒和悲傷的情感語 句具有相當(dāng)鮮明的情感特征,且易于識別;反之,則區(qū)別不明顯,易混淆。 2 3 本章小結(jié) 本章從情感的定義入手,從中引出了情感的分類,結(jié)合對語音情感狀態(tài)的理 解和分析,在研究中,將情感類型分為高興、憤怒、害怕和悲傷這4 種。本章重 點給出了語音情感處理中最重要的基礎(chǔ)環(huán)節(jié)情感語音庫的建立,包括語音腳 本的采集、情感激發(fā)方法和錄音步驟。為了檢驗所收集情感語音的有效性,本文 還做了聽取實驗。實驗結(jié)果為后面進(jìn)行預(yù)處理、特征提取和識別工作做好了鋪墊 和準(zhǔn)備。 1 5 第3 章語音信號處理與情感特征參數(shù)提取 第3 章語音信號處理與情感特征參數(shù)提取 3 1語音信號的數(shù)字化和預(yù)處理 3 1 1 采樣和量化 為了將原始的模擬語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟, 從而得到時間和幅度上均為離散的數(shù)字語音信號。根據(jù)采樣定理,當(dāng)采樣頻率大 于語音信號的兩倍帶寬時,采樣過程中不會丟失信息。利用理想濾波器可以從采 樣信號中不失真地重構(gòu)原始信號波形。圖3 1 是語音信號數(shù)字化過程示意圖。 圖3 1 語音信號的數(shù)字化 語音是隨時間而變的一維信號,它所占據(jù)的頻率范圍可達(dá)1 0 k h z 以上,但 是對語音清晰度和可懂度有明顯影響的成份的最高頻率約為5 7 k i - i z 。為了實現(xiàn) 得到更高識別率的語音識別系統(tǒng),某些現(xiàn)代語音處理系統(tǒng)語音頻率高端擴(kuò)展到 7 9 k h z ,相應(yīng)的采樣率也提高到1 5 一- 2 0 k h z 。這里將采樣率提高到11 k h z , 以利用更多的語音信息。在信號的帶寬不明確時,在采樣前應(yīng)接入反混疊濾波器 ( 低通濾波器) ,濾除高于1 2 采樣頻率的信號成分或噪聲,使其帶寬限制在某 個范圍內(nèi)。市面上購買到的普通聲卡在這方面做的都比較好,語音聲波通過話筒 輸入到聲卡后直接獲得的是經(jīng)過防混疊濾波、模數(shù)轉(zhuǎn)換、量化處理后的離散數(shù) 字信號

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論