




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精品文檔,值得收藏!基于mfcc和zcpa的語音情感識別摘要隨著計算機(jī)技術(shù)的不斷發(fā)展,人們對計算機(jī)的要求越來越高,逐漸要求計算機(jī)具有人工智能,而語音情感識別是人工智能領(lǐng)域的研究熱點(diǎn)。語音情感識別包括語音信號預(yù)處理、語音情感特征提取和語音情感識別分類器等。本文使用太原理工大學(xué)錄制的情感語音庫,該數(shù)據(jù)庫包含高興、生氣和中性三種情感,本文采用的情感語音庫中的600句情感語音,文中對情感語音進(jìn)行了預(yù)處理,包括抗混疊濾波、預(yù)加重、加窗以及端點(diǎn)檢測等,并對高興、生氣和中性三種語音情感提取mfcc和zcpa特征,使用支持向量機(jī)對語音的三種情感進(jìn)行識別,實驗結(jié)果表明,mfcc和zcpa特征均取得了較好的識別效
2、果。 關(guān)鍵字:語音情感識別,mfcc,zcpa,支持向量機(jī)speech emotion recognition based on mfcc and zcpaabstractwith the development of computer technology, peoples requirements of computer are higher and higher, and artificial intelligence is gradually important for computers. speech emotion recognition is one of the hotspo
3、ts in the field of artificial intelligence. the speech emotion recognition consists of speech signal pretreatment, feature extraction and speech emotion recognition classifier, etc. this paper used the emotional speech database recorded by the taiyuan university of technology, which contains happine
4、ss, anger and neutra. in this paper, we use 600 emotion sentences from emotional speech database. firstly, this paper pretreated emotion sentences, including aliasing filter, the pre-emphasis, adding window and endpoint detection, etc. this paper extracted mfcc and zcpa features from three emotions,
5、 and recognized by support vector machine (svm), the experimental results show that mfcc and zcpa features can get better recognition rate. key words: speech emotion recognition; mfcc; zcpa; svm;精品文檔,值得下載!目錄摘要iabstractii第一章緒論51.1語音情感識別概述51.1.1引言51.1.2語音識別的發(fā)展過程及其現(xiàn)狀51.1.3語音情感識別中面臨的問題和困難71.2.論文研究的主要內(nèi)容以
6、及章節(jié)安排7第二章語音情感識別原理和技術(shù)82.1綜述82.2.預(yù)處理82.2.1語音情感信號的預(yù)加重處理82.2.2語音情感信號的加窗處理102.2.3短時平均能量122.2.4短時平均過零率132.2.5語音情感信號的端點(diǎn)檢測152.3語音情感特征的提取162.3.1美爾頻率倒譜系數(shù)(mfcc)162.3.2過零率與峰值幅度(zcpa)182.4 本章小結(jié)19第三章語音情感及語音情感庫203.1語音情感203.1.1語音情感的分類203.1.2情感語句的選擇213.1.3國際情感數(shù)據(jù)庫213.2語音情感數(shù)據(jù)庫223.3本章小結(jié)23第四章 語音情感識別分類器244.1語音情感識別技術(shù)基本原理2
7、44.2語音情感識別的方法244.3支持向量機(jī)254.3.1支持向量機(jī)發(fā)展歷史254.3.2支持向量機(jī)的理論基礎(chǔ)254.3.3最大間隔分類超平面264.3.4支持向量機(jī)的原理274.3.5支持向量機(jī)的核函數(shù)294.4 兩種特征參數(shù)的語音情感識別實驗304.4.1 情感語句的兩種特征參數(shù)識別實驗304.4.2 實驗分析和結(jié)論314.5 本章小結(jié)32參考文獻(xiàn)33致謝35附錄一:外文翻譯36附錄二:外文文獻(xiàn)翻譯45附錄三:程序52第一章緒論1.1語音情感識別概述1.1.1引言 隨著信息技術(shù)的高速發(fā)展以及人類對計算機(jī)的依賴性不斷加強(qiáng),人機(jī)交互(hci)的深度和能力受到了越來越多研究者的青睞,計算機(jī)與人
8、類的交流的語言有各種各樣,其中包括各類的低級語言和高級語言。幾年來,研究者們傾向于如何與機(jī)器進(jìn)行語音交流,讓計算機(jī)明白你在說什么,更進(jìn)一步了解到你說話的情感狀態(tài),自適應(yīng)地給對話對象提供最舒適的對話環(huán)境,盡量消除操作者和機(jī)器之間的障礙。如果說以前的研究是屬于“智”,那么近年來研究的方向則為“心”1,這些研究的目的終究是為了讓計算機(jī)更加人性化、情感化。研究計算機(jī)的情感識別技術(shù),可以從兩大方面分析:一是通過面部表情,在hci領(lǐng)域中,面部表情和手勢向來是情感識別系統(tǒng)中的基本方式;二是語音,在溝通過程中想要得知對方的動機(jī)和情緒,語音是最有利和最直接的方式。在語音信號中的情感信息是一種很重要的信息資源,它
9、是人們感知事物必不可少的部分信息,同樣說的一句話,由于說話人的情感不同,在聽者的感知上就可能會有較大的差別。語音之所以能夠表達(dá)出不同的情感,是因為語音信號中含有能體現(xiàn)情感特征的參數(shù),研究認(rèn)為,在某種特定的情感狀態(tài)所引起的語音參數(shù)在不同的人之間是大致相同的。因此計算機(jī)可以利用提取語音情感特征的方式來識別人的情感。目前,相關(guān)的情感識別的研究在不斷的深入中,而其中語音信號中的情感信息處理的研究正越來越受到人們的重視2,如美國、日本、歐洲、韓國等許多國家的一些研究單位都在進(jìn)行語音情感處理的研究工作。語音情感識別的研究也有相當(dāng)大的研究前景,比如:用于自動遠(yuǎn)程電話服務(wù)中心,及時發(fā)現(xiàn)客戶的不滿情緒;用于遠(yuǎn)程
10、教學(xué)和嬰兒教育,及時識別學(xué)生的情緒并做出適當(dāng)?shù)奶幚?,從而提高教學(xué)質(zhì)量;也可以用于刑事偵查中自動檢測犯罪嫌疑人的心理狀態(tài)以及輔助測謊等。語音情感識別是一門涉及面很廣泛的交叉學(xué)科,與計算機(jī)、通信、語音語言學(xué)、數(shù)理統(tǒng)計、信號處理、神經(jīng)心理學(xué)和人工智能等學(xué)科都有著密切的關(guān)系。語音情感識別的最大優(yōu)勢在于使得人機(jī)用戶界面更加自然和容易使用。隨著計算機(jī)技術(shù)、模式識別和信號處理技術(shù)及聲學(xué)技術(shù)等的發(fā)展,使得能滿足各種需要的語音情感識別系統(tǒng)實現(xiàn)成為可能。近二三十年來,語音情感識別在工業(yè)、軍事、交通、醫(yī)學(xué)、民用諸方面,特別是計算機(jī)、信息處理、通信與電子系統(tǒng)、自動控制等領(lǐng)域中有著越來越廣泛的應(yīng)用3-5。1.1.2語音
11、識別的發(fā)展過程及其現(xiàn)狀語音情感識別是語音信號處理領(lǐng)域崛起的新秀,相關(guān)研究至今已有二十余年的研究歷史,對提升智能人機(jī)交互水平和豐富多媒體檢索方式有著重要的實際意義。在1972年williams發(fā)現(xiàn)人的情感變化對語音的基音輪廓有很大的影響,這是國外最早開展的語音情感方面的研究之一。1990年mit多媒體實驗室構(gòu)造了一個“情感編輯器”對外界各種情感信號進(jìn)行采樣,如人的語音信號、臉部表情信號等來識別各種情感6。1996年日本東京seikei大學(xué)提出情感空間的概念并建立了語音情感模型。2000年,maribor大學(xué)的vladimir hozjan研究了基于多種語言的語音情感識別7。2009年4月,日本產(chǎn)
12、業(yè)技術(shù)綜合研究所(aist)研制一個具有豐富表情的新型女性機(jī)器人“hrp-4c”。通過對主人語音情感信號的識別,機(jī)器人可以做出喜、怒、哀、樂和驚訝的表情等8。在國內(nèi),語音情感識別的研究起步較晚。2001年,東南大學(xué)趙力等人提出語音信號中的情感識別研究。2003年,北京科技大學(xué)的谷學(xué)靜等人將bdi agent技術(shù)應(yīng)用與情感機(jī)器人的語音識別技術(shù)研究中。另外,2003年12月中科院自動化所等單位在北京主辦了第一屆中國情感計算及智能交互學(xué)術(shù)會議。2005年10月又在北京主辦了首屆國際情感計算及智能交互學(xué)術(shù)會議。目前許多國家的研究機(jī)構(gòu)都在致力于該領(lǐng)域的研究。在國外,研究最活躍的是美國麻省理工大學(xué)媒體實驗
13、室。國際語音通信協(xié)會(isca)為此也做了很大的貢獻(xiàn),2000年isca在北愛爾蘭的貝爾法斯特召開了一個稱為“語音與情感:研究的概念框架”的研討會,使眾多不同領(lǐng)域的研究者聚集到一起討論語音情感識別的問題,為語音情感識別的研究做了很大的貢獻(xiàn),現(xiàn)在該協(xié)會每兩年舉辦一次的eurospeech或interspeech國際會議,是語音研究領(lǐng)域非常出名的大會。而在國內(nèi),目前在該領(lǐng)域研究比較活躍的單位有中國科學(xué)院自動化研究所和東南大學(xué)學(xué)習(xí)科學(xué)研究中心等。特別是中科院自動化所為中國情感計算研究的發(fā)展做了不可磨滅的貢獻(xiàn),2003年12月中科院自動化所等單位在北京主辦了第一屆中國情感計算及智能交互學(xué)術(shù)會議,200
14、5年10月又在北京主辦了首屆國際情感計算及智能交互學(xué)術(shù)會議,將眾多國內(nèi)乃至國際上該領(lǐng)域的專家聚集到一起。對于情感語音識別的研究現(xiàn)在還存在許多難點(diǎn),比如情感的定義及不同情感的界定,情感語音數(shù)據(jù)庫的采集,有效情感語音特征的尋找以及高效的情感識別算法的研究等。另外,如何提高系統(tǒng)的魯棒性也是一個比較突出的難點(diǎn),目前還沒有相關(guān)報道。要研究如何從語音中自動的識別情感,首先必須有情感理論作為基礎(chǔ)。人類的情感是一種極其復(fù)雜的現(xiàn)象,要對其準(zhǔn)確的定義和描述并不是一件容易的事情。在心理學(xué)領(lǐng)域,對情感的研究已經(jīng)有很長的歷史,但到目前為止,還沒有一種統(tǒng)一的定義和理論模型。美國瓦薩大學(xué)心理學(xué)系的cornelius教授總結(jié)
15、了過去125年左右心理學(xué)領(lǐng)域?qū)η楦欣碚撗芯康乃姆N主要觀點(diǎn)結(jié)果表明四種觀點(diǎn)對情感有截然不同的定義和研究傳統(tǒng),但他認(rèn)為,四種觀點(diǎn)并不是截然對立的,已經(jīng)逐漸相互融合和交叉,當(dāng)今的許多研究者都同時繼承了不同的觀點(diǎn),如美國加州大學(xué)的ekman教授及其“基本”情感理論.瑞士日內(nèi)瓦大學(xué)的scherer認(rèn)為在言語交流中情感的重要性及其對聽者產(chǎn)生的巨大影響很早就為許多學(xué)者所認(rèn)同,最早的可見于古希臘和古羅馬對雄辯學(xué)(rhetoric)的記載,如亞里斯多德的手冊。在19世紀(jì)由于現(xiàn)代進(jìn)化生物學(xué)的出現(xiàn)重新激發(fā)了人們對情感表達(dá)的研究興趣,最有代表性的是達(dá)爾文的研究及其在1872年出版的著作the expression o
16、f the emotion in man and animals。對語音情感的系統(tǒng)研究始于20世紀(jì)60年代,當(dāng)時的精神病學(xué)家試圖從病人的聲音中診斷出他們的情感狀態(tài)。近年來由于人們對計算機(jī)智能的要求越來越高及情感計算的興起,更多的人投入到了情感識別的研究中9。1.1.3語音情感識別中面臨的問題和困難 雖然世界各國的研究人員在語音情感識別研究領(lǐng)域中取得了許多的研究成果,采用的特征以及識別模型各種各樣,但是究竟應(yīng)該選擇什么特征?用什么建模方法?由于目前各種文獻(xiàn)使用的情感語音數(shù)據(jù)庫不同,得到的識別結(jié)果也相去甚遠(yuǎn),不具有可比性,因而很難客觀地判斷特征及建模方法的優(yōu)劣,現(xiàn)階段主要存在的問題如下:語音情感數(shù)
17、據(jù)庫中該領(lǐng)域研究的基礎(chǔ),目前沒有一個多語言情感的數(shù)據(jù)庫可以研究,根據(jù)某些研究發(fā)現(xiàn),不同的語言的情感識別率有比較大的差距,如何建立一個比較規(guī)范的多語言的情感數(shù)據(jù)庫是現(xiàn)階段研究的首要任務(wù)。現(xiàn)階段用于情感識別的特征有各種各樣,總結(jié)起來,可以大致分為兩類,即基于全局的靜態(tài)特征和基于局部的動態(tài)特征?;l中的峰值、均值、方差是描述情感的最重要特征,在很多文獻(xiàn)中,研究者都是采用該特征作為特征參數(shù)。1.2.論文研究的主要內(nèi)容以及章節(jié)安排本文主要是對語音信號特征參數(shù)的提取的基礎(chǔ)之上進(jìn)行語音情感識別分析的,所使用的數(shù)據(jù)庫是太原理工大學(xué)實驗室錄制的含有高興、生氣和中性三種情感的語音。在分析這些數(shù)據(jù)時,選取了能夠辨識
18、情感的有效特征參數(shù)mfcc和zcpa,重點(diǎn)分析mfcc、zcpa之后采用支持向量機(jī)的分類器進(jìn)行語音情感的識別。本文在詳細(xì)論述了語音情感信號處理、語音情感識別以及支持向量機(jī)理論的基礎(chǔ)上,研究了如何利用支持向量機(jī)進(jìn)行語音情感識別。具體章節(jié)安排如下:第一章是緒論,概括介紹了語音情感識別研究的背景、語音情感識別涉及的領(lǐng)域、國內(nèi)外研究現(xiàn)狀和該領(lǐng)域研究中所面臨的困難,同時對語音情感識別的應(yīng)用領(lǐng)域進(jìn)行了簡單描述;最后介紹了本論文的主要研究內(nèi)容和章節(jié)安排。第二章主要介紹了語音情感識別原理和技術(shù),重點(diǎn)介紹了對語音信號進(jìn)行處理的各個步驟,包括預(yù)加重、加窗處理、端點(diǎn)檢測。另外還重點(diǎn)討論了語音情感識別系統(tǒng)中常用到的兩
19、種特征參數(shù):mfcc和zcpa。這兩種參數(shù)為后續(xù)文章中的語音情感識別中奠定了基礎(chǔ)。第三章主要介紹了語音情感的分類和選擇的常用規(guī)則,并且討論了當(dāng)今國際上較為著名的幾種語音情感數(shù)據(jù)庫。另外還詳細(xì)介紹了本文中所使用太原理工大學(xué)的語音庫。選取了該庫中的600句包括高興、生氣和中性三種情感。第四章介紹了語音情感識別技術(shù)的基本原理和方法,重點(diǎn)介紹了支持向量機(jī)的相關(guān)理論和原理,其中包括最大間隔分類超平面和支持向量機(jī)的核函數(shù)。還將兩種情感特征參數(shù)的語音情感識別實驗做了大致地介紹,并列出了實驗結(jié)論和對實驗結(jié)果進(jìn)行了分析。第二章語音情感識別原理和技術(shù)2.1綜述不同的語音情感識別系統(tǒng),其設(shè)計和實現(xiàn)的細(xì)節(jié)是不一樣的,
20、但是其采用的基本技術(shù)都是相似的。語音情感識別系統(tǒng)與語音識別系統(tǒng)類似,分為語音情感語句預(yù)處理、特征參數(shù)提取和模式匹配三個部分。其識別過程如下:首先對情感語句進(jìn)行預(yù)處理,語音情感語句預(yù)處理包括預(yù)加重、分幀加窗和端點(diǎn)檢測等;其次是對情感語句提取特征參數(shù),如和等頻譜特征參數(shù);然后在此基礎(chǔ)之上建立模板,這個建立模板的過程稱為訓(xùn)練過程;將特征參數(shù)與模式匹配的過程稱為識別過程。2.2.預(yù)處理實際的語音情感信號是模擬信號,因此對語音情感信號進(jìn)行數(shù)字處理之前,首先要將模擬語音情感信號以周期為的采樣,將其離散化為,采樣周期的選取應(yīng)根據(jù)模擬語音信號的帶寬來確定,以避免信號的頻域混疊失真。對語音情感信號進(jìn)行預(yù)處理包括
21、:預(yù)加重、加窗和端點(diǎn)檢測。2.2.1語音情感信號的預(yù)加重處理對輸入的語音情感信號進(jìn)行預(yù)加重處理的目的是對語音信號的高頻部分進(jìn)行加重,去除口唇輻射的影響,增加語音的高頻分辨率。由于語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800hz以上按6db/倍頻程跌落,即6db/oct(2倍頻)或20db/dec(10倍頻),所以求語音信號頻譜時,頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進(jìn)行預(yù)加重(pre-emphasis)處理預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析
22、預(yù)加重可在語音信號數(shù)字化時在反混疊濾波器之前進(jìn)行,這樣不僅可以進(jìn)行預(yù)加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比但預(yù)加重一般是在語音情感信號數(shù)字化之后,參數(shù)分析之前在計算機(jī)里用6db/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器來實現(xiàn),它一般是一階的數(shù)字濾波器: (2-1)其中的值接近于1。若時刻的語音采樣值為,經(jīng)預(yù)加重處理后的結(jié)果為: (2-2)圖2.1給出了預(yù)加重濾波器的幅頻特性和相頻特性;圖2.2分別給出了預(yù)加重前和預(yù)加重之后的一段濁音信號以及頻譜。圖2.1預(yù)加重濾波器的幅頻特性和相頻特性圖2.2 預(yù)加重前和預(yù)加重后的一段濁音信號及頻譜2.2.2語音情感信號的加窗處理在預(yù)加重數(shù)字濾波處理
23、后,需要進(jìn)行加窗分幀處理。由于人自身的發(fā)音器官的運(yùn)動,語音情感信號是一種典型的非平穩(wěn)信號。但是相比于聲波振動的速度,發(fā)音器官的運(yùn)動就顯得非常緩慢了。因此,工程技術(shù)人員通常認(rèn)為10ms-30ms這樣長度的時間段中,語音信號是平穩(wěn)信號。幾乎所有的語音情感信號處理方法都是基于這個假設(shè)。這樣每秒的幀數(shù)大約為33-100。分幀雖然可以采用連續(xù)分段的方法,但一般要采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移幀長的比值一般取為0-0.5。分幀是用可移動的有限長度窗口進(jìn)行加權(quán)的方法來實現(xiàn)的,這就是用一定的窗函數(shù)來乘,從而形成加窗語音情感信號: (2-3
24、)在語音信號數(shù)字處理中常用的窗函數(shù)是矩形窗(rectangular window)和漢明窗(hamming window)等,矩形窗如式(2-4)所示: (2-4)漢明窗如式(2-5)所示: (2-5)窗函數(shù)的選擇(形狀和長度),對于短時分析參數(shù)的特性影響很大。為此應(yīng)選擇合適的窗口,使其短時參數(shù)更好地反映語音信號的特性變化。下面從窗口形狀和窗口長度兩方面來討論這個問題。1 窗口形狀 雖然不同的短時分析方法(時域、頻域、倒頻域分析)以及求取不同的語音特征參數(shù)可能對窗函數(shù)的要求不一樣,但一般來講,一個好的窗函數(shù)的標(biāo)準(zhǔn)是:在時域因為是語音波形乘以窗函數(shù),所以要減小時間窗兩端的坡度,使窗口邊緣兩端不引
25、起急劇變化而平滑過渡到零,這樣可以是截取出的語音波形緩慢降為零,減小語音幀的截斷效應(yīng);在頻域要有較寬的3db帶寬以及較小的邊帶最小值。這里以典型的矩形窗和漢明窗為例進(jìn)行比較。1) 矩形窗時: (2-6)對應(yīng)于該單位函數(shù)響應(yīng)的數(shù)字濾波器的頻率響應(yīng)為: (2-7)它具有線性的相位頻率特性,其頻率響應(yīng)為第一個零值時對應(yīng)的頻率為: (2-8)這里,為采用頻率,為采樣周期。2) 漢明窗時: (2-9)發(fā)現(xiàn)其頻率響應(yīng)的第一個零值頻率(即帶寬)以及通帶外的衰減都比矩形窗要大許多。2 窗口長度采樣周期、窗口長度和頻率分辨率之間存在下列關(guān)系: (2-10)可見,采樣周期一定時, 隨窗口寬度的增加而減小,即頻率分
26、辨率相應(yīng)得到提高,但同時時間分辨率降低;如果窗口取短,頻率分辨率下降,而時間分辨率提高,因而二者是矛盾的。應(yīng)該根據(jù)不同的需要選擇合適的窗口長度。圖2.3為程序運(yùn)行后相應(yīng)的矩形窗時域波形和幅頻特性圖。圖2.4為程序運(yùn)行后相應(yīng)的漢明窗時域波形和幅頻特性。圖2.3矩形窗及其頻譜圖2.4漢明窗及其頻譜通過對比圖2.3和圖2.4可以看出矩形窗的主瓣寬度小于漢明窗,具有較高的頻譜分辨能力,但是矩形窗的旁瓣峰值較大,因此其頻譜泄露比較嚴(yán)重。相比較,雖然漢明窗的主瓣寬度較寬,約大于矩形窗一倍,但是其旁瓣衰減較大,具有更平滑的低通特性,能后在較高的程度上反映短時信號的頻率特性。2.2.3短時平均能量由于語音信號
27、的能量隨時間而變化,清音和濁音之間的能量差別相當(dāng)顯著。因此對短時能量和短時平均幅度進(jìn)行分析,可以描述語音的這種特征變化情況。語音信號在時刻的短時平均能量如下式所示: (2-11)式中為窗長,可見短時能量為一幀樣點(diǎn)值的加權(quán)平方和。當(dāng)窗函數(shù)為矩形窗時,為 (2-12)當(dāng)時, (2-13)即語音信號各個樣點(diǎn)值的平方,通過一個沖激響應(yīng)為的濾波器,輸出為由短時能量構(gòu)成的時間序列:圖2.5 語音信號的短時平均能量實現(xiàn)框圖短時平均能量的曲線由圖2.6所示:圖2.6 幀長為200的語音短時能量短時平均能量的主要用途如下:1. 可以作為區(qū)分清音和濁音的特征參數(shù)。實驗結(jié)果表明濁音的能量明顯高于清音,通過設(shè)置一個能
28、量門限值,可以大致判定濁音變?yōu)榍逡舻臅r刻,同時可以大致劃分濁音區(qū)間和清音區(qū)間。2. 在信噪比較高的情況下,短時能量也可以作為區(qū)分有聲和無聲的依據(jù)。3. 可以作為輔助的特征參數(shù)用于語音識別中。2.2.4短時平均過零率短時平均過零率是語音信號時域分析中的一種特征參數(shù)。它是指每幀內(nèi)信號通過零值的次數(shù)。對有時間橫軸的連續(xù)語音信號,可以觀察到語音的時域波形通過橫軸的情況。在離散時間語音信號的情況下,如果相鄰的采樣具有不同的代數(shù)符號就稱為發(fā)生了過零,因此可以計算過零的次數(shù)。單位時間內(nèi)過零的次數(shù)為過零率,一段長時間內(nèi)的過零率為平均過零率。如果是正弦信號,其平均過零率就是信號頻率的兩倍除以采樣頻率,而采樣頻率
29、是固定的。因此過零率在一定程度上反映信號的頻率信息。語音信號不是簡單的正弦序列,所以平均過零率的表示就不那么確切,但由于語音是一種短時平穩(wěn)信號,采用短時平均過零率可以在一定程度上反映其頻譜性質(zhì),短時平均過零率可以定義為: (2-14)式中,代表符號函數(shù),其表達(dá)式如(2-15)式所示: (2-15)是窗長為n的矩形窗,如(2-16)所示: (2-16)當(dāng)相鄰樣點(diǎn)符號相同時,時,可以認(rèn)為沒有過零,當(dāng)相鄰兩個樣點(diǎn)值相反時,該值為過零次數(shù)的2倍,因此窗函數(shù)也可以表示為: (2-17)在矩形窗的條件下時,短時平均過零率為: (2-18)圖2.7是一段語音的短時平均過零次數(shù)的變化曲線,其中窗長為220,幀
30、重疊為50%,從圖中可以看出清音段和濁音段的短時平均過零率。圖2.7一段語音的短時平均過零率短時平均過零率可以語音信號清音和濁音的判斷,語音產(chǎn)生模型表明,由于聲門波引起了譜的高頻跌落,所以濁音語音能量約集中在3khz以下。但對于濁音語音,多數(shù)能量卻是出現(xiàn)在較高的頻率上。所以如果過零率高,語音信號就是清音,如果過零率低,語音信號就是濁音。但是由于某些語音位于濁音和清音的重疊區(qū)域,僅靠短時平均過零率就不可能來清楚地判斷清音和濁音。2.2.5語音情感信號的端點(diǎn)檢測語音信號的端點(diǎn)檢測就是從包含語音的一段信號中準(zhǔn)確地確定語音的起始點(diǎn)和終止點(diǎn),從而區(qū)分語音和非語音信號,它是語音處理技術(shù)中的一個重要方面。經(jīng)
31、過端點(diǎn)檢測后,不僅能減少語音情感特征的采集量,節(jié)約處理時間,還能排除無聲段或噪聲段的干擾,提高語音情感識別系統(tǒng)的性能。語音信號是時變非平穩(wěn)信號,一般將其視為短時平穩(wěn)信號進(jìn)行處理,其特征依賴于時間。在識別時,由于噪聲環(huán)境的引入,使系統(tǒng)無法正確判斷有效語音的起始點(diǎn)和終止點(diǎn),從而造成起點(diǎn)和終點(diǎn)的虛檢或漏檢情況,甚至把一段噪聲作為語音信號來進(jìn)行識別。因此,端點(diǎn)檢測的準(zhǔn)確性在某種程度上影響了特征提取及其識別的好壞。端點(diǎn)檢測是語音信號處理中的一個基本問題,其目的是從包含語音的一段信號中確定出語音的起始點(diǎn)和結(jié)束點(diǎn)。有效地端點(diǎn)檢測不僅能使處理的時間減到最少,而且能抑制無聲段的噪聲干擾,以高語音處理的質(zhì)量。判別
32、語音段的起始點(diǎn)和終止點(diǎn)的問題主要?dú)w結(jié)為區(qū)別噪聲和語音的問題,如果能夠保證系統(tǒng)的輸入信噪比很高(即使最低電平的語音能量也比噪聲能量高),那么只要計算輸入信號的短時能量就基本能夠把語音段和噪聲段區(qū)別開來。但是,在實際應(yīng)用過程中很難有那么高的信噪比,僅僅根據(jù)能量來進(jìn)行端點(diǎn)檢測是不行的。因此還需要利用短時平均過零率進(jìn)行判斷,因為清音和濁音的短時平均過零率比噪聲的平均過零率要高出好幾倍。通常采用基于短時幀能量和過門限率的雙門限端點(diǎn)檢測法來進(jìn)行端點(diǎn)檢測。在基于短時能量(energy)和過門限率(zcr)的雙門限端點(diǎn)檢測算法中,首先為短時能量和過門限率分別確定兩個門限,一個是比較低的門限,其數(shù)值比較小,對信
33、號的變化比較敏感,很容易被超過。另一個是比較高的門限,數(shù)值比較大,信號必須到達(dá)一定的強(qiáng)度,該門限才可能被超過。低門限超過未必就是語音的開始,有可能是時間很短的噪聲引起的。高門限基本確信是由于語言信號引起的。整個語音信號的端點(diǎn)檢測可以分為四個階段:靜音段、過渡段、語音段和結(jié)束。在靜音段,如果能量或過零率超越了低門限,就開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。在過渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要兩個參數(shù)的數(shù)值都回落到低門限以下,就認(rèn)為當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果在靜音段中兩個參數(shù)的任何一個超過了高門限,就可以確信進(jìn)入語音段。一些突發(fā)性的噪聲也可以引起短時能量或過零率的數(shù)值
34、很高,但是往往不能維持足夠長的時間。所以當(dāng)前狀態(tài)處于語音段時,如果兩個參數(shù)的數(shù)值降低到低門限以下,而且總的計時長度小于最短時間門限10,則認(rèn)為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù),否則標(biāo)記好結(jié)束端點(diǎn)。2.3語音情感特征的提取特征參數(shù)提取是語音識別的關(guān)鍵步驟。所謂特征提取,即對不同的語音尋找其內(nèi)在特征來判別未知語音,所以每個語音識別系統(tǒng)都必須進(jìn)行特征提取。特征的選擇對識別效果至關(guān)重要,選擇的標(biāo)準(zhǔn)應(yīng)體現(xiàn)對異音字之間的距離盡可能大,而同音字之間的距離應(yīng)盡可能小,特征參數(shù)的好壞將直接影響到語音識別的精度,一個好的特征參數(shù)應(yīng)具有以下特點(diǎn):1. 能有效代表語音特征,包括聲道特征和聽覺特征,具有很好的區(qū)分性
35、。2. 各階參數(shù)之間應(yīng)有良好的獨(dú)立性。3. 特征參數(shù)要計算方便,最好有高效的計算方法,以保證語音識別系統(tǒng)的實時實現(xiàn)。語音的特征參數(shù)多種多樣,在實際應(yīng)用中,可以根據(jù)需要選擇不同的語音參數(shù)或幾種參數(shù)的組合。在語音識別中經(jīng)常用到的特征參數(shù)有過零率與峰值幅度(zero-crossing with peak-amplitudes, zcpa)、美爾頻率倒譜系數(shù)(mel frequency cepstrum coefficient,mfcc)和線性預(yù)測倒譜系數(shù)(linear prediction cepstrum coefficient, lpcc)等。下面對這幾種參數(shù)依次作出說明。1. 線性預(yù)測系數(shù)(l
36、pc)線性預(yù)測分析是從人的發(fā)生機(jī)理入手,通過對聲道的短管級聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)是全極點(diǎn)數(shù)字濾波器的形式,從而某一時刻的信號可以用若干時刻的信號的線性組合來估計。通過使實際語音的采樣值和線性預(yù)測采樣值之間達(dá)到最小均方誤差,這樣就可以得到線性預(yù)測參數(shù)。2. lpc倒譜系數(shù)(lpcc)倒譜系數(shù)是信號的z變換的對數(shù)模函數(shù)的逆z變換,一般先求信號的傅里葉變換,取模的對數(shù),再求傅里葉逆變換得到。lpcc的主要優(yōu)點(diǎn)是比較徹底地去掉語音產(chǎn)生過程中的激勵信息,反映了聲道響應(yīng),并且通常只需要幾個倒譜系數(shù)就能夠很好的描述語音的共振峰特性。3. 美爾頻率倒譜系數(shù)(mfcc)和過零峰值幅度(zcpa)在后文
37、中詳細(xì)介紹。2.3.1美爾頻率倒譜系數(shù)(mfcc)mfcc是由davies和mermelstein提出的,該特征參數(shù)利用了聽覺原理和倒譜的解相關(guān)性。另外,mel倒譜也具有對卷積性信道失真進(jìn)行補(bǔ)償?shù)哪芰?。由于這些原因,mel參數(shù)被證明是在語音識別任務(wù)中應(yīng)用最成功的特征描述之一。根據(jù)生理學(xué)的研究結(jié)果,人耳對不同頻率的聲波有不同的聽覺靈敏度,在相應(yīng)的臨界帶寬內(nèi)的信號會引起基底膜上不同位置的振動。由此可用帶通濾波器組來模仿人耳聽覺,從而減少噪聲對語音的影響。對人耳聽覺特性的研究表明200hz到5khz之間的語音信號對語音的清晰度影響最大,低音掩蔽高音容易,而高音掩蔽高音較困難,在低頻處的聲音掩蔽的臨界
38、帶寬較高頻處小,據(jù)此,人們從低頻到高頻這一段頻帶內(nèi)按臨界帶寬的大小由密到疏排一組帶通濾波器,對輸入信號進(jìn)行濾波。將每個帶通濾波器輸出的信號的量作為信號的基本特征,對此特征進(jìn)行進(jìn)一步處理后就可以作為語音識別系統(tǒng)的輸入特征。由于這種特征不依賴于信號的性質(zhì),對輸入的信號不作任何假設(shè)和限制,又利用了聽覺模型研究成果,當(dāng)信噪比降低時仍然具有較好的識別性能。由于聲音激勵導(dǎo)致的人耳基底膜最大振動與基音頻率的對數(shù)值成正比。人的聽覺系統(tǒng)的這一感知特性可以用mel尺度表示,mel頻率尺度試圖將音調(diào)、高音等感知特性映射到線性尺度上。mfcc參數(shù)正是在研究人的聽覺系統(tǒng)的基礎(chǔ)上得出的聲學(xué)特征。對人的聽覺機(jī)理的研究發(fā)現(xiàn),
39、當(dāng)兩個頻率相近的音調(diào)同時發(fā)出時,人只能聽到一個音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界,當(dāng)兩個音調(diào)的頻率差小于臨界帶寬時,人就會把兩個音調(diào)聽成一個,這稱為掩蔽效應(yīng)。mel尺度就是對這一臨界帶寬的度量方法之一。mfcc參數(shù)的計算是以mel頻率為基準(zhǔn)的,它和實際頻率的轉(zhuǎn)換關(guān)系是: (2-19)這里,實際頻率的單位是hz。mfcc參數(shù)是按幀計算的。首先要通過fft得到該幀信號的功率譜,然后轉(zhuǎn)換為mel頻率下的功率譜。這需要在計算前先在語音的頻譜范圍內(nèi)設(shè)置若干個帶通濾波器: (2-20)其中,為濾波器的個數(shù),本文取為26;n為一幀語音信號的點(diǎn)數(shù),為了計算fft的方便,取為256。
40、根據(jù)臨界帶寬(critical band)的劃分,可將語音信號的頻率劃分成一串三角濾波器,即濾波器組,頻率尺度濾波器組如圖2.8所示: 圖2.8 mel頻率尺度濾波器組濾波器的輸出如式(2-21)所示: (2-21)的逆函數(shù)如下式所示: (2-22)其中,b代表頻率。濾波器的中心頻率定義為: (2-23)其中為幀長,為采樣頻率,本文中取11025hz;、為濾波器應(yīng)用范圍的頻率的最高頻率和最低頻率,可由式(2-19)求出;本文中,濾波器的中心頻率是在、之間按照刻度以間隔150,帶寬300均勻排列,其中相鄰兩個濾波器的過渡帶之間相互搭接,并且頻率響應(yīng)之和是1。圖2.9為mfcc提取流程圖。圖2.9
41、 mfcc提取流程圖2.3.2過零率與峰值幅度(zcpa)特征參數(shù)的好壞最直接決定著系統(tǒng)的識別性能。要想使系統(tǒng)具有較好的魯棒性,必須要求提取的特征參數(shù)有很強(qiáng)的抗噪性。經(jīng)典的特征參數(shù)在無噪環(huán)境下都取得了相當(dāng)好的效果,但是在有噪聲的情況下,系統(tǒng)的識別率就會顯著下降。人類的聽覺系統(tǒng)在噪聲環(huán)境下就能很好的工作,因此如果語音識別系統(tǒng)能夠模擬人類聽覺感知的特點(diǎn),噪聲的識別率就會有一定的提高。zcpa就是完全基于人耳聽覺特性的,它從物理意義上模仿了人耳聽覺處理過程。首先來介紹人耳對聲音信號的處理過程。人耳由外耳、中耳、內(nèi)耳三部分構(gòu)成。語音信號在外耳膜上轉(zhuǎn)化為機(jī)械運(yùn)動,通過中耳傳遞到內(nèi)耳的耳蝸上,中耳充當(dāng)外耳
42、和內(nèi)耳的匹配阻抗。而語音信號的主要處理任務(wù)是在內(nèi)耳中進(jìn)行的,尤其是在內(nèi)耳的耳蝸中進(jìn)行的。耳蝸中的基底膜對外來的聲音信號有頻率選擇和調(diào)諧的作用。在耳蝸基部通過前庭窗傳遞來的語音信號被轉(zhuǎn)換為基底膜的行波,沿基底膜傳播,其峰值出現(xiàn)在基底膜的不同位置。頻率越底,振動峰值位置越靠近蝸孔,隨頻率增高,該峰值越靠近基底膜根部。約800hz以上,聲音頻率沿基底膜按對數(shù)分布。其位移和頻率的關(guān)系可用(2-24)式表示: (2-24)其中是頻率(hz),是基底膜的歸一化距離,和是常數(shù),分別為、。在聽覺系統(tǒng)中耳蝸對聲音的感受和換能作用是整個復(fù)雜的聽覺系統(tǒng)中非常重要的一個環(huán)節(jié),同時耳蝸具有串/并轉(zhuǎn)換器的功能,它實際上相
43、當(dāng)于一組并聯(lián)的帶通濾波器,串行輸入的聲音信號在耳蝸中被分解并以多路并行的方式輸出。這樣為仿真耳蝸濾波器的模型提供了一定的依據(jù)。圖2.10給出了基于人耳聽覺特性的zcpa特征提取原理圖:圖2.10 zcpa系統(tǒng)原理框圖該系統(tǒng)由帶通濾波器組、過零檢測器、峰值檢測器、非線性壓縮器和頻率接收器組成。帶通濾波器組由16個fir濾波器組成,用來仿真耳蝸基底膜;過零檢測器、峰值檢測器、非線性壓縮部分則仿真聽覺神經(jīng)纖維。從過零檢測器獲得頻率信息,峰值檢測器獲得強(qiáng)度信息,經(jīng)非線性壓縮后,用頻率接收器合成頻率信息和強(qiáng)度信息,最后將16路所獲得的信息合成為語音信號的特征。分析表明:在噪聲存在的情況下,隨著門限制的提
44、高,門限跨越的間隔擾動也變得越大,此時過零率顯得就更具有魯棒性,此時在噪聲環(huán)境下,能夠提供較好的語音信號表示方法。zcpa模型的原理與傳統(tǒng)的信號處理方案有顯著的不同,它需要測量信號在一個時間段內(nèi)的瞬時頻率和強(qiáng)度信息,并在隨后需要進(jìn)行一個時域信息的積累操作以獲取最終輸出。2.4 本章小結(jié)本章主要介紹了語音識別的基本原理與相關(guān)技術(shù)。首先詳細(xì)介紹了語音信號的預(yù)處理過程,包括預(yù)加重、加窗分幀處理及端點(diǎn)檢測等環(huán)節(jié),并且列出了matlab程序,以及語音情感信號經(jīng)預(yù)加重、加窗和端點(diǎn)檢測所得的圖像;然后在語音的特征參數(shù)提取方法的中介紹了一般常用的幾種特征參數(shù),并且詳細(xì)說明了本文中設(shè)計的兩種特征參數(shù):mfcc和
45、zcpa。第三章語音情感及語音情感庫3.1語音情感3.1.1語音情感的分類情感是人類經(jīng)歷的一種最普遍、最重要的心理體驗之一。日常生活中,我們每個人都能體會到各種各樣、程度不一的情感。到底什么是情感?人類的情感是怎樣產(chǎn)生的?由什么構(gòu)成的?或者怎樣對情感分類才是最合理的?這些問題現(xiàn)在都沒有定論。要研究如何從語音中識別情感,首先要對情感進(jìn)行分類,必須有情感理論作為基礎(chǔ)。人類的情感是一個極其復(fù)雜的現(xiàn)象,要對其精確的定義和描述并不是一件容易的事情,已有許多學(xué)者,對這個問題展開討論。情感和情緒是不一樣的,情感被用來表示各種不同的內(nèi)心體驗,情緒被用來表示非常短暫但強(qiáng)烈的內(nèi)心體驗。許多心理學(xué)家長久以來都在討論
46、是否存在幾種基本情緒,復(fù)雜情感則是由基本情緒的不同組合派生出來的問題。mcdougall在1926年就根據(jù)人類潛在本能列出生氣(anger)、厭惡(disgust)、興高采烈(elation)、害怕(fear)、屈服(subjection)、柔情(tender-emotion)和驚奇(wonder)七種基本情緒;后來ekman.p根據(jù)普遍的人臉表情體現(xiàn)給出了生氣(anger)、厭惡(disgust)、害怕(fear)、高興(joy)、悲傷(sadness)和驚訝(surprise)六種基本情緒;1987年oatley.k和johmon-laird.p.n提出五種基本情緒,它們分別是當(dāng)前目標(biāo)取得
47、進(jìn)展時的快樂(happiness),自我保護(hù)的目標(biāo)受到威脅時的焦慮(anxiety),當(dāng)前目標(biāo)不能實現(xiàn)時的悲傷(sadness),當(dāng)前目標(biāo)受挫或遭遇阻礙時的憤怒(anger),以及與味覺目標(biāo)相違背的厭惡(disgust)。魏哲華提出了狀態(tài)空間法的情感建模,該方法考慮了三種基本情感,即恐懼、憤怒、喜歡,認(rèn)為人在某一時刻的情感均是這三種基本情感或這三種情感在不同程度上的組合。這樣一來,任意時刻情感狀態(tài)均是一個三維向量,在這個三維情感空間中存在著27個情感狀態(tài),構(gòu)成了一個立方體。ortony.g.clore和a.collins三人在the cognitive struchure of emotion
48、s一書中,提出occ情感模型。他們認(rèn)為每個情感組中的情感類之間是相互關(guān)聯(lián)的,有著相似的認(rèn)知起源。occ模型把人對外界的事件結(jié)果(events)、對象(objects)和其他智能行為(agents)反應(yīng)而產(chǎn)生的情感分為三組。人對事件完成好壞表現(xiàn)出高興和不高興,對對象表現(xiàn)出喜歡和不喜歡,對其他智能行為表現(xiàn)贊同和不贊同。在這三個情感組中分別體現(xiàn)出了22種具體的情感。這在情感研究領(lǐng)域給出了一個不同于以往情感研究的情感認(rèn)知框架。與上述兩種方法不同,fox11提出的三級情感模型,則是按照情感中表現(xiàn)的主動和被動的程度不同將情感分成不同的等級,等級越低,分類越粗糙,等級越高,分類越精細(xì)。對于情感的分類,真可謂
49、“仁者見仁,智者見智”,研究者對主要情感的種類始終沒有達(dá)成共識,但可以看出大部學(xué)者認(rèn)為主要情感包括:憤怒(anger)、悲傷(sadness)、高興(happy)和厭惡(disguss)。本篇論文用的情感語音包括生氣(anger)、高興(happiness)和中性(neutral)三種類型。3.1.2情感語句的選擇正如其他研究人員在采集語音樣本時采用了某些約束條件一樣,為了能夠建立盡可能完善的語音數(shù)據(jù)采樣庫,我們采用了一些折中辦法。用于情感分析的語音信號是研究工作開展的基礎(chǔ),但從國內(nèi)外的研究現(xiàn)狀來看沒有一個收集情感分析用語音資料的標(biāo)準(zhǔn)。所以本文選擇了自己錄制的方式并設(shè)計了一個用于獨(dú)立文本情感語
50、音識別的數(shù)據(jù)庫。對實驗用語句的選擇主要遵循了以下原則:1. 選擇的語句不能有明確的語義傾向性,只有這樣才能夠保證構(gòu)建語音庫時不會影響實驗者的判斷;2. 所選語句應(yīng)能夠較容易加入說話人的不同情感。如果所選擇語句是比較中性的或者說很難強(qiáng)加一定的感情,那必然對發(fā)音和識別都會帶來很大的困難,從而無法比較針對同一句語句各種不同情感狀態(tài)下各種特征參數(shù)的不同之處;3. 發(fā)音時間控制在5秒以下,時間過長不利于情感的表達(dá),也會引起用于情感判斷特征參數(shù)的弱化;4. 選擇語句中的漢語,均要標(biāo)準(zhǔn)普通話的表達(dá)方式,不能帶有各種方言的表達(dá)形式;而對英語則要求按照標(biāo)準(zhǔn)的英音表達(dá);5. 盡可能避開無聲輔音,如c、p、s、t
51、,避免這些音可能引起的基音周期軌跡的不連續(xù);6. 男性和女性均適用。 schere和abelin等人的研究12-13表明,無論有著什么樣的文化背景,對于與語音相關(guān)的基本情感而言,人們的生理反應(yīng)是具有普遍意義的,所以選擇英語和漢語將不會影響到研究結(jié)果。3.1.3國際情感數(shù)據(jù)庫目前國際上具有代表的語音數(shù)據(jù)庫主要有:1. 英國queens大學(xué)(d-cowie2000)。該語音庫為開發(fā)基于面部表情和語音的情感識別系統(tǒng)而建立,采用錄音和影視剪輯兩種方法獲取情感數(shù)據(jù)。情感數(shù)據(jù)是長度約 10-60秒的視頻片斷(包含語音),從視頻中提取的情感語音文件及描述情感狀態(tài)解釋文件作為附屬文件,庫中包含來自10個說話者
52、的20多條語音和視頻情感數(shù)據(jù)。在此基礎(chǔ)上,系統(tǒng)地提出了構(gòu)建語音情感數(shù)據(jù)庫的注意點(diǎn)(d-cowie 2003),包含情感語音數(shù)據(jù)的規(guī)模和范圍、情感語音發(fā)音的自然度、情感語音的內(nèi)容和語義以及情感語音數(shù)據(jù)的描述方法。2. 日本meikai大學(xué)(makarovazooz)。該語音庫建立了一個包含61個說話人(男12人,女49人)的俄語情感語音數(shù)據(jù)庫ruslana,每人用自然、驚訝、高興、憤怒 、悲傷和害怕朗讀61個語句,ruslana將被用于說話人、性別無關(guān)以及說話人相關(guān)、性別相關(guān)的語音情感識別研究。3. 中國科學(xué)院自動化所(自動化所2005)。該語音庫開發(fā)了共包括四個專業(yè)發(fā)音人和5種情感,分別是高興
53、、悲哀、生氣、驚嚇和中性。每種情感有500句語音,其中前300 句是相同文本的,即對相同的文本賦以不同的情感來閱讀,這些語音可以用來對比分析不同情感狀態(tài)下的聲學(xué)及韻律表現(xiàn);另外100句是不同文本的,這些文本從字面意思就可以看出其情感歸屬,便于錄音人更準(zhǔn)確地表達(dá)情感。選取錄音人男聲、女聲各兩人,每人按照以上所述五種不同的情感朗讀文本2500句,共9600句,采樣率16000hz,16bit,pcm格式存儲。4. 臺灣大同大學(xué)資訊工程學(xué)系(pao2004)。該語音庫開發(fā)了包含憤怒、高興、悲傷、厭煩和中性 5個情感類別,18個男性和16個女性說話人講述約20個語音文本,每個文本的長度從1個字至6個字
54、逐一增加,共獲取情感語音約340句。經(jīng)過3個層次評估語音情感表達(dá)質(zhì)量的聽取實驗篩選后,最終獲取839句情感語音。聽取實驗后各長度情感語音所占的比例表明,人類很難識別文本長度較短語音的情感類別,錄制情感語音時應(yīng)避免使用短長度的文本。5. 柏林的情感數(shù)據(jù)庫該語音庫由10個德國演員(5男5女)進(jìn)行表演,對10個情感語句進(jìn)行錄制,共494個情感語句,表達(dá)的情感共有六種:狂怒、悲傷、高興、恐懼、厭煩以及中性14。雖然目前國內(nèi)外己有一些情感語音數(shù)據(jù)庫,但就采集、評測和管理等方面還沒有形成一套可遵循的標(biāo)準(zhǔn)。由于語種的差異,不同語種的情感語料庫建設(shè)可能有所不同。目前,有關(guān)普通話情感語音數(shù)據(jù)庫的研究剛剛起步,缺
55、少一套完整的、可供參考的采集和管理方案。特別是缺少可供研究共享的情感語音數(shù)據(jù)庫,這使得國內(nèi)同行的各項研究成果缺少可比較的基礎(chǔ)。這些事實都迫切要求我們對情感語音數(shù)據(jù)庫進(jìn)行研究。3.2語音情感數(shù)據(jù)庫本文中所采用的語音情感數(shù)據(jù)庫是太原理工大學(xué)實驗室的非專業(yè)人士錄制的。該語音庫由實驗室26名同學(xué)錄制,這些同學(xué)年齡在22歲到24歲之間,情感把握能力比較強(qiáng),英語和普通話發(fā)音標(biāo)準(zhǔn),沒有咽喉疾病。該語音情感庫包括高興、生氣和中性3種情感表達(dá)11句情感語料(表3.1),最終選取600句情感語句(其中高興200句、生氣200句、中性200句)組成原始情感語音庫。情感語句如圖3.2所示:情感語句1. 爸爸給我買了一輛車。2. 這下全完了。3. 我們要搬家。4. 這件事是他干的。5. 我到北京去。6. 啊,下雨了。 7. my name is lily. 8. i will go home. 9. good morning. 10. open your book 11. the pen is on the fl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣東省佛山市高明區(qū)八下英語期末統(tǒng)考試題含答案
- 網(wǎng)絡(luò)直播試題及答案
- 團(tuán)員考試試題及答案
- 2025年房地產(chǎn)分割調(diào)解協(xié)議
- 2025年標(biāo)準(zhǔn)婚后財產(chǎn)協(xié)議書模板
- 2025年供應(yīng)鏈管理協(xié)議草案
- 2025年合作伙伴利益共享協(xié)議樣本
- 2025年聯(lián)合股權(quán)處置協(xié)議樣本
- 2025年長途通話服務(wù)代理合作協(xié)議
- 2025年合作策劃房地產(chǎn)項目公司聯(lián)合協(xié)議書樣本
- 職業(yè)技術(shù)學(xué)校2025年國際交流計劃
- 2025年土木工程專業(yè)知識測試試卷及答案
- (高清版)DG∕TJ 08-15-2020 綠地設(shè)計標(biāo)準(zhǔn) 附條文說明
- 2025年商業(yè)模式與創(chuàng)新管理考試卷及答案
- 浙江開放大學(xué)2025年《社區(qū)治理》形考任務(wù)1-3答案
- 《肥胖癥診療指南(2024年版)》權(quán)威解讀
- DB34T 4823-2024切坡建房地質(zhì)災(zāi)害防治技術(shù)規(guī)程
- 環(huán)保與可持續(xù)發(fā)展行業(yè):固體廢棄物資源化利用的商業(yè)模式創(chuàng)新
- 《鄉(xiāng)村振興戰(zhàn)略課件》課件
- 玻璃門安裝合同協(xié)議
- 調(diào)度絞車的安全操作知識培訓(xùn)及相關(guān)規(guī)定
評論
0/150
提交評論