版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
太原理工大學(xué)畢業(yè)設(shè)計(jì)(論文)任務(wù)書畢業(yè)設(shè)計(jì)(論文)題目:情感語音信號中共振峰參數(shù)的提取方法畢業(yè)設(shè)計(jì)(論文)要求及原始數(shù)據(jù)(資料):要求:1:大量查閱關(guān)于共振峰提取技術(shù)的資料(通過Internet或圖書館)。2:分析總結(jié)各種共振峰的提取方法。3:用一種共振峰提取方法實(shí)現(xiàn)情感語音中共振峰的提取。4:寫一篇論文并給出共振峰提取結(jié)果。原始數(shù)據(jù):1:共振峰研究意義隨著多模態(tài)人機(jī)交互技術(shù)的發(fā)展,新型人機(jī)交互模式的應(yīng)用前景更加廣闊。語音作為一種自然有效的人機(jī)交互方式,成為當(dāng)前的研究熱點(diǎn)。語音信號不僅包含語音信息,還包含著說話人的情感信息。語音情感信息處理技術(shù)的研究對于提高計(jì)算機(jī)的智能化具有重要的現(xiàn)實(shí)意義。語音情感信息處理技術(shù)作為一個重要的研究領(lǐng)域已經(jīng)有很長時(shí)間的研究歷史了,然而在傳統(tǒng)語音信號處理中往往忽略了在語音信號中的情感因素。共振峰是反映聲道諧振第1頁特性的重要特征,它代表了發(fā)音信息的最直接的來源,而且人在語音感知中利用了共振峰信息。所以共振峰是語音信號處理中非常重要的特征參數(shù),已經(jīng)廣泛地用作語音識別的主要特征和語音編碼傳輸?shù)幕拘畔?。人在語音感知中也利用了共振峰信息。所以共振峰已經(jīng)廣泛地用作語音識別的主要特征和語音編碼的基本信息。語音的頻率特性主要是由共振峰決定的,當(dāng)聲音沿聲管傳播時(shí),其頻譜形狀就會隨聲管而改變。如果講話者的發(fā)音中包含喜、怒、哀、樂等情感信息,那么講話者的聲道形狀就會發(fā)生不同的變化。共振峰作為情感特征信息的非韻律特征參數(shù),我們研究提取它的方法對包含在語音信號中的情感信息分析和處理時(shí)及其有意義的。2:共振峰的幾種提取方法(1)譜包絡(luò)提取法:共振峰信息包含在語音頻譜包絡(luò)中,因此共振峰參數(shù)提取的關(guān)鍵是估計(jì)自然語音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。(2)倒譜法提取共振峰:因?yàn)榈棺V運(yùn)用對數(shù)運(yùn)算和二次變換將基音諧波和聲道的頻譜包絡(luò)分離開來。去除了激勵引起的諧波波動,所以可以更精確地得到共振峰參數(shù)。(3)LPC法提取共振峰:從線性預(yù)測導(dǎo)出的聲道濾波器是頻譜包絡(luò)估計(jì)器的最新形式,線性預(yù)測提供了一個優(yōu)良的聲道模型(條件是語音不含噪聲)。(4)求根法提取共振峰:找出多項(xiàng)式復(fù)根的過程通常采用牛頓—拉夫遜(Newton-Raphson)算法。(5)LPC倒譜法提取共振峰:語音信號的倒譜可以通過對信號做傅里葉變換,取模的對數(shù),再求反傅里葉變換得到。第2頁畢業(yè)設(shè)計(jì)(論文)主要內(nèi)容:1:介紹情感語音信號共振峰提取的背景及研究意義,分析語音合成技術(shù)的國內(nèi)外研究現(xiàn)狀、應(yīng)用領(lǐng)域。2.探索提取情感語音信號中共振峰參數(shù)所所遇到的問題困擾。(1)虛假峰值(2)共振峰合并(3)高音調(diào)語音3.分析掌握共振峰的多種提取方法,對多種共振峰提取方法進(jìn)行比較和分析。(1)譜包絡(luò)提取法(2)倒譜法提取共振峰(3)LPC法提取共振峰(4)求根法提取共振峰(5)LPC倒譜法提取共振峰4.重點(diǎn)研究分析倒譜法提取語音信號共振峰,分析其優(yōu)缺點(diǎn)并利用這種方法提取情感語音中的共振峰。學(xué)生應(yīng)交出的設(shè)計(jì)文件(論文):1:開題報(bào)告2:中期檢查3:畢業(yè)論文第3頁主要參考文獻(xiàn)(資料):[1]胡航.語音信號處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000:113-116.[2]張剛,張雪英,馬建芬.語音處理與編碼[M].北京,兵器工業(yè)出版社,2000.[3]RosalindWPicard.Affectivecomputing[J],MindsandMachines,1999,9:443-447.[4]CowieRandCorneliusR.DescribingtheemotionalstaresthatareexpressedinSpeech[J],Human-ComputerStudies,2003,40:5-3.[5]DVerveridisandCKotropoulos,Emotionalspeechrecognition:Resources,featuresandmethods[J],SpeechCommunication,2006,48(9):1162-1181.[6]Cowie,R.Douglas-Cowie,E.Savvidou,MeMahon,E.Sawey,M.Sehroder,M.FEELTRACE’:AnInstrumentforRecordingPerceivedEmotioninRealTime.InISCAWorkshoponSpeechandEmotion,Belfast2000.[7]Cowie,R.Douglas-Cowie,E.Speakersandhearersarepeople:ReflectionsonSpeechdeteriorationasaconsequenceofacquireddeafnessinProfoundDeafnessandSpeechCommunication.London,1995.[8]R.Cowie,E.Douglas-Cowie,E.Automaticstatisticalanalysisofthesignalandprosodicsignsofemotioninspeech.InProc.4thInt.Conf.SpokenLanguageProcessing.PhiladelPhia,PA,1996:1989-1992.[9]趙力,蔣春輝,鄒采榮.語音信號中的情感特征分析和識別的研究[N].電子學(xué)報(bào),2004,4:606-609.[10]付麗琴,王玉寶,王長江.基于多特征向量的語音情感識別[J].計(jì)算機(jī)科學(xué),2009,36(6):231-134.專業(yè)班級通信0902班學(xué)生趙智越要求設(shè)計(jì)(論文)工作起止日期2013年2月25日—2013年6月16日指導(dǎo)教師簽字日期教研室主任審查簽字日期系主任批準(zhǔn)簽字日期第4頁緒論1.1選題意義隨著多模態(tài)人機(jī)交互技術(shù)的發(fā)展,新型人機(jī)交互模式的應(yīng)用前景更加廣闊。語音作為一種自然有效的人機(jī)交互方式,成為當(dāng)前的研究熱點(diǎn)。語音信號不僅包含語音信息,還包含著說話人的情感信息。語音情感信息處理技術(shù)的研究對于提高計(jì)算機(jī)的智能化具有重要的現(xiàn)實(shí)意義。語音信號處理技術(shù)作為一個重要的研究領(lǐng)域有著很長時(shí)間的研究歷史,然而在傳統(tǒng)語音信號處理中往往忽略了在語音信號中的情感因素。語音情感識別是語音識別的一個重要的分支,而語音識別則是數(shù)字信號處理技術(shù)與語音學(xué)的交叉學(xué)科,它和心理學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、語言學(xué)、人工智能和模式識別等學(xué)科緊密聯(lián)系。近年來,人們研究發(fā)現(xiàn)情感所引起的語音信號變化對語音識別、語音合成、說話人確認(rèn)等方面有較大影響,所以語音情感處理的研究逐步提高了人們的重視。目前有很多研究者在致力于研究并處理語音情感信息有效方法以及情感對語音的影響。漢語普通話發(fā)音中情感特征信息的特征參數(shù)主要包括發(fā)音持續(xù)時(shí)間、振幅能量、基音頻率和共振峰頻率等。共振峰頻率簡稱共振峰,它與聲道的形狀和大小有關(guān),一種形狀對應(yīng)著一套共振峰。共振峰是反映聲道諧振特性的重要特征,它代表了發(fā)音信息的最直接的來源,而且人在語音感知中利用了共振峰信息。所以共振峰是語音信號處理中非常重要的特征參數(shù),人在語音感知中也利用了共振峰信息,已經(jīng)廣泛地用作語音識別的主要特征和語音編碼傳輸?shù)幕拘畔ⅰUZ音的頻率特性主要是由共振峰決定的,當(dāng)聲音沿聲管傳播時(shí),其頻譜形狀就會隨聲管而改變。如果講話者的發(fā)音中包含喜、怒、哀、樂等情感信息,那么講話者的聲道形狀就會發(fā)生不同的變化。共振峰作為情感特征信息的非韻律特征參數(shù),我們研究提取它的方法對包含在語音信號中的情感信息分析和處理是極其有意義的[1][2]。1.2情感語音識別技術(shù)的國內(nèi)外發(fā)展現(xiàn)狀九十年代中期之后,語音情感信息處理受到了越來越多的關(guān)注,這方面的研究也在不斷深入,并取得了一定的進(jìn)展。近幾年,研究者對語音中的情感信息表現(xiàn)出日益濃厚的興趣。他們從生理、心理學(xué)角度的情感建模到語音情感的聲學(xué)關(guān)聯(lián)特征,以及各種針對語音情感識別和合成的算法、理論展開了深入的研究,還從工程學(xué)的角度將情感作為信息信號工學(xué)的研究對象。但是,目前不論從國外還是國內(nèi)來看,情感信息處理的研究,還是處在一個低級水平,存在一些需要進(jìn)一步深入研究的課題。如:合理的有效的語音情感特征建模方法;開發(fā)更全面更有效的語音情感特征;對情感語句中主要反映情感變化的關(guān)鍵詞和短語的研究。下面將分別簡單介紹國內(nèi)外情感語音識別發(fā)展現(xiàn)狀。1.2.1國際情感語音識別發(fā)展現(xiàn)狀目前,關(guān)于情感的研究正處在不斷的深入之中,語音的情感識別因?yàn)樯婕暗讲煌Z種之間的差異,發(fā)展也不盡相同。美國MIT媒體實(shí)驗(yàn)室RosalindWpicard教授領(lǐng)導(dǎo)的情感研究組織首次嘗試了用基頻、時(shí)長、音質(zhì)和清晰度等聲學(xué)參數(shù)的變化來合成情感語音。她后來又驗(yàn)證了情感狀態(tài)與語音聲學(xué)參數(shù)的相關(guān)性,并提出悲傷情感最容易區(qū)分,而高興、驚訝和憤怒等具有相似的語音特性參數(shù),不容易區(qū)分[3]。此后,MIT媒體實(shí)驗(yàn)室RaulFernandez在2003到2004年還完成了關(guān)于從語音的韻律學(xué)參數(shù)入手的語音情感識別的計(jì)算模型研究,試驗(yàn)用有韻律特征進(jìn)行分類實(shí)驗(yàn),比較了與人類情感識別的性能差異[4][5]。英國貝爾法斯特女王大學(xué)的RoddyCowie和EllenDouglas-Cowie教授領(lǐng)導(dǎo)的情感語音小組研究的重點(diǎn)在于心理學(xué)和語音分析。他們收集并創(chuàng)建了第一個大規(guī)模的高自然度聲音的情感數(shù)據(jù)庫,同時(shí)還開發(fā)了一個FEELTRACE工具用來記錄人類從語音中感知到的情感信息[6]。他們還開發(fā)了一個情感語音分析的ASSESS工具,用統(tǒng)計(jì)的方法分析語音的聲學(xué)特征與情感的相關(guān)性,并用基頻曲線、能量強(qiáng)度和停頓、摩擦音及爆破音的邊界信息等,對憤怒、害怕、高興和悲傷4類主要情感進(jìn)行了分類,用判別分析的方法達(dá)到了55%的識別率[7][8]。美國南加州大學(xué)語音情感組由Narnyanan教授領(lǐng)導(dǎo)。在語音情感識別方面,他們以客服系統(tǒng)的呼叫中心為應(yīng)用背景,研究識別正面情感和負(fù)面情感。首次將語音的聲學(xué)信息、詞匯和語義信息結(jié)合,并將模糊推論系統(tǒng)用于識別系統(tǒng),初步試驗(yàn)結(jié)果表明,結(jié)合這三種信息進(jìn)行語音信號的情感識別要比單純使用聲學(xué)信息識別率平均提高了38.5%[9]。CNAnagnostopoulos和TIliou.建立了德語語音庫,提取了133個語音特征來識別其中語音情感,根據(jù)統(tǒng)計(jì)分析來估計(jì)每種語音特征、人工神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練情感分類,最后達(dá)到了平均51%的識別率[10]。1.2.2國內(nèi)情感語音識別發(fā)展現(xiàn)狀目前,國內(nèi)也已經(jīng)有多所高校從事語音情感識別的研究,東南大學(xué)、清華大學(xué)、浙江大學(xué)、中國臺灣大學(xué)、中國科學(xué)院、微軟亞洲研究院、哈爾濱工業(yè)大學(xué)等機(jī)構(gòu)在這方面做了大量工作。東南大學(xué)無線電工程系趙力教授的實(shí)驗(yàn)小組在國內(nèi)率先開展了普通話語音情感識別的研究。他們分析了不同情感的語音在時(shí)間構(gòu)造,能量構(gòu)造,基音構(gòu)造,共振峰構(gòu)造等方面的差別,以情感語音和自然語音特征向量的差值作為情感識別特征,用主成分分析法識別高興、驚奇、憤怒、悲傷四類情感,在較小的實(shí)驗(yàn)數(shù)據(jù)集中能達(dá)到約80%的識別率[11]。由清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系的蔡蓮紅教授領(lǐng)導(dǎo)的人機(jī)語言交互實(shí)驗(yàn)室也開展了普通話語音情感識別研究。蔣丹寧通過特征的區(qū)別特性分析和分類實(shí)驗(yàn),研究了韻律特征在普通話語音情感識別中的作用。將韻律特征分解為純語音的特征和純情感的特征,并將后者運(yùn)用于語音情感識別,用多層感知器對六種情感進(jìn)行識別,得到平均82.4%的識別率[12]。臺灣大同大學(xué)資訊工程學(xué)系的包蒼龍教授領(lǐng)導(dǎo)的數(shù)據(jù)通訊與信號處理實(shí)驗(yàn)室也較早地致力于普通話語音情感識別的研究。他們構(gòu)建一個包含憤怒、高興、悲傷、厭煩和中立五個情感類別,約800句情感語音的普通話情感語音數(shù)據(jù)庫。在語音情感識別中,提取16個LPC參數(shù),12個LPCC參數(shù),16個LFPC參數(shù),16個PLP參數(shù),20個MFCC參數(shù)組成向量,作為識別特征,用LDA,KNN和HMM分類器對說話人無關(guān)和說話人相關(guān)兩組語音素材做識別,得到最高88.7%的識別率[13]。中國電子科技研究院的付麗琴等人以HMM作為語音情感分類器模型,對不同情感狀態(tài)選擇不同的特征向量進(jìn)行識別。系統(tǒng)分兩個階段完成:首先基于漏識率和誤識率最小的決策原則,采用優(yōu)先選擇(PFS)算法分別為每種情感狀態(tài)選擇最優(yōu)的特征向量,然后用這些特征向量分別建立對應(yīng)情感狀態(tài)的HMM模型。利用北航情感語音庫(BHUDES)對算法進(jìn)行驗(yàn)證,將所有實(shí)驗(yàn)樣本分為訓(xùn)練樣本集、特征選擇樣本集和測試樣本集3組,采用交叉實(shí)驗(yàn)的方法對本算法進(jìn)行驗(yàn)證,結(jié)果表明,與單特征向量HMM相比,多特征向量HMM可達(dá)到更高識別精度[14]。1.3本文的主要研究內(nèi)容及結(jié)構(gòu)安排1.3.1本文的主要研究內(nèi)容1.研究情感語音信號共振峰提取的背景及研究意義,分析情感語音識別技術(shù)的國內(nèi)外研究現(xiàn)狀、應(yīng)用領(lǐng)域。2.探索提取情感語音信號中共振峰參數(shù)所所遇到的問題困擾。(1)虛假峰值(2)共振峰合并(3)高音調(diào)語音3.分析共振峰的多種提取方法。(1)譜包絡(luò)提取法共振峰信息包含在語音頻譜包絡(luò)中,因此共振峰參數(shù)提取的關(guān)鍵是估計(jì)自然語音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。(2)倒譜法提取共振峰因?yàn)榈棺V運(yùn)用對數(shù)運(yùn)算和二次變換將基音諧波和聲道的頻譜包絡(luò)分離開來。去除了激勵引起的諧波波動,所以可以更精確地得到共振峰參數(shù)。(3)LPC法提取共振峰從線性預(yù)測導(dǎo)出的聲道濾波器是頻譜包絡(luò)估計(jì)器的最新形式,線性預(yù)測提供了一個優(yōu)良的聲道模型(條件是語音不含噪聲)。(4)求根法提取共振峰找出多項(xiàng)式復(fù)根的過程通常采用牛頓—拉夫遜(Newton-Raphson)算法。(5)LPC倒譜法提取共振峰語音信號的倒譜可以通過對信號做傅里葉變換,取模的對數(shù),在求反傅里葉變換得到。重點(diǎn)研究分析倒譜法提取語音信號共振峰,并利用這種方法提取情感語音中的共振峰。對共振峰提取結(jié)果進(jìn)行分析,并得出結(jié)論。1.3.2本文的結(jié)構(gòu)安排第一章是緒論,說明了本文的選題意義,概括介紹了情感語音識別的國內(nèi)外發(fā)展現(xiàn)狀,最后介紹了本文的主要研究內(nèi)容及結(jié)構(gòu)安排。第二章主要介紹了情感分類的基礎(chǔ)理論和情感語音數(shù)據(jù)庫,最后介紹了語音情感識別系統(tǒng)。首先簡單地介紹通過離散形式和情感維度空間兩種方法概述了情感的分類,然后介紹了情感語音數(shù)據(jù)分為3個類別以及本文所用的情感語音數(shù)據(jù)庫。最后介紹了語音情感識別系統(tǒng)。第三章介紹了共振峰的概念,說明了共振峰在情感語音識別中的重要性;接下來分析了提取共振峰參數(shù)所遇到的問題。第四章對語音情感識別中的共振峰的提取方法進(jìn)行了分析介紹。包括譜包絡(luò)提取法、倒譜法提取共振峰、LPC法提取共振峰、求根法提取共振峰和LPC倒譜法提取共振峰,并簡單分析了這幾種提取共振峰方法的優(yōu)缺點(diǎn)。第五章重點(diǎn)介紹了倒譜法提取共振峰的過程。首先介紹了倒譜的定義以及倒譜法提取共振峰的原理,接下來畫出了共振峰提取框圖和共振峰提取流程圖,最后給出了情感語音中高興、生氣和中立的共振峰提取結(jié)果。并對共振峰提取結(jié)果進(jìn)行分析與總結(jié)。第六章是對本文主要工作和研究成果的總結(jié),并對下一步語音情感識別中共振峰提取的研究工作做出展望。情感的分類與語音情感識別2.1情感的分類情感類型的合理界定是對語句進(jìn)行情感標(biāo)注的基礎(chǔ)。在情感計(jì)算領(lǐng)域,許多學(xué)者從不同的角度研究了情感的分類問題,并提出了相應(yīng)的情感類型定義。傳統(tǒng)的研究通常用日常語言標(biāo)簽來標(biāo)識和分類情感,比如把情感分為高興、憤怒、害怕等[15]。美國心理學(xué)家Eckman提出了六種基本情緒[16]:憤怒、恐懼、悲傷、驚訝、高興和厭惡。而Plutchik提出過八種基本情緒[17]悲痛、恐懼、驚奇、接受、狂喜、狂怒、警惕、憎恨。Shaver等人則認(rèn)為原始情緒有憤怒、愛、高興、害怕、悲傷、驚訝六類[18],這和Eckman的六類墓本情緒存在微小差異。另外,關(guān)于語音情感的研究還可以更為簡單化,部分研究對情感的分類更側(cè)重于系統(tǒng)的實(shí)用性。例如,將語音僅分為“無情感含義”與“帶情感含義”兩大類;或是分為“情感強(qiáng)烈”與“情感不強(qiáng)烈”兩大類;部分研究只關(guān)注于用戶的情感狀態(tài)是“正?!边€是“不正?!?;還有的研究只注重用戶的某些負(fù)面情感,如“挫敗”、“厭煩”、“僧惡”等等。除了以標(biāo)簽法將情感分成離散的類別之外,一些研究者嘗試在連續(xù)的空間中描述情感,也稱作維度輪[19]。在此基礎(chǔ)上,Plutchik等人提出了“情感輪”理論,認(rèn)為情感分布在一個類似于鐘表盤的圓形結(jié)構(gòu)上,圓心是自然原點(diǎn),表示人在內(nèi)心平靜時(shí)的情感狀態(tài),而圓周上的標(biāo)注標(biāo)明兒種基本情感類型,其排列方式可根據(jù)具體研究需要設(shè)置[20]。情感語句的情感類型和強(qiáng)度可用情感輪組成的二維空間中的情感矢量表示,該矢量同自然原點(diǎn)之間的距離體現(xiàn)了情感的強(qiáng)度,方向則表示情感類別。盡管心理學(xué)、認(rèn)知學(xué)等領(lǐng)域的研究人員對于情感種類的定義五花八門,但在目前絕大多數(shù)的語音情感識別系統(tǒng)中,使用的情感類別是MPEG-4國際標(biāo)準(zhǔn)定義的五種情感狀態(tài),即“憤怒(Anger)”、“恐懼(Fear)”、“高興(Happiness)”、“悲傷(Sadness)”和“驚訝(Surprise)”,外加“中立(Neutral)”來表征語音不具有情感含義。2.2情感語音數(shù)據(jù)庫要對語音進(jìn)行情感識別,情感語音數(shù)據(jù)庫的建立是基礎(chǔ)。怎么樣才能獲取高質(zhì)量的情感語音是建立語音庫的關(guān)鍵問題。因?yàn)檎Z音的質(zhì)量將直接影響整個語音情感識別系統(tǒng)的性能。按照表達(dá)的情感自然度可以將情感語音數(shù)據(jù)分為3個類別:自然型情感語音、表演型情感語音和引導(dǎo)型情感語音[19]。自然型情感語音是在說話人不知情的情況下獲取的完全放松狀態(tài)下的情感語音。這種類型的語音被普遍認(rèn)為是最理想最可信的情感語料。然而,由于涉及法律和版權(quán)問題,這類情感語音的錄制較為困難,成本也比較高。表演型情感語音是指情感表現(xiàn)力較強(qiáng)的演員模仿不同情感朗誦指定語句獲得的情感語料。相對于自然型情感語音,表演型情感語音較容易獲取,可控制性較強(qiáng),可以根據(jù)需要錄制任意說話內(nèi)容的情感語句。然而表演型情感語句中的情感成分被夸張了,而且自然度也受說話人的演技高低影響。引導(dǎo)型情感語音是指通過一定的外界環(huán)境和手段,引導(dǎo)說話人的情緒進(jìn)入某種特定的狀態(tài),從而錄制情感語音的方法。引導(dǎo)型情感語音通常通過文字對說話者進(jìn)行引導(dǎo),即通過說話人朗讀帶有一定感情色彩的文本,獲得所需要的情感語句。引導(dǎo)型情感語音是自然型和表演型情感語音錄制方法的一種折中,定制性比較強(qiáng)且語料的獲取相對方便,適合基于不同文本的語音情感方面的研究。然而,純文本引導(dǎo)對于內(nèi)心情感狀態(tài)的生成比較緩慢和微弱,這種方式獲得的情感語句對文本內(nèi)容的選擇性比較強(qiáng)。由于語音情感信息的地域性差異,目前情感語音研究領(lǐng)域中缺乏標(biāo)準(zhǔn)數(shù)據(jù)庫,需要研究者錄制符合自身研究要求的情感語料庫。本文應(yīng)用的是由高興、生氣、中立三種情感語音組成的情感語音數(shù)據(jù)庫,每種情感語音分別有中英文兩種語言,所用情感語句的中文文本為“我到北京去”英文文本為“Goodmorning”以wav格式存儲,持續(xù)時(shí)間五秒以內(nèi),經(jīng)過反復(fù)的主觀聽覺實(shí)驗(yàn),認(rèn)為該情感語音數(shù)據(jù)庫的語料情感辨識度較高,自然度也比較理想,可以滿足本文的研究需求。2.3語音情感識別系統(tǒng)圖2-1典型語音情感識別系統(tǒng)的框圖語音情感識別系統(tǒng)與語音識別系統(tǒng)類似,分為語音情感語句預(yù)處理、特征參數(shù)提取和模式匹配三個部分。其識別過程如下:首先對情感語句進(jìn)行預(yù)處理,語音情感語句預(yù)處理包括預(yù)加重、分幀加窗和端點(diǎn)檢測等;其次是對情感語句提取特征參數(shù),如MFCCI、LPCC、LPMCC和ZCPA等頻譜特征參數(shù);最后將不同情感的特征參數(shù)進(jìn)行訓(xùn)練形成不同的模板庫,并將待識別情感的特征參數(shù)與模板庫進(jìn)行模式匹配,從而將情感識別結(jié)果輸出。典型的語音情感識別系統(tǒng)如圖2-1所示。共振峰的基本概念3.1共振峰參數(shù)的概念及產(chǎn)生原理發(fā)音時(shí),氣流通過聲道,引起聲道諧振,產(chǎn)生的一組諧振頻率,稱為共振峰頻率或簡稱共振峰。共振峰參數(shù)包括共振峰頻率和頻帶寬度,它是區(qū)別不同韻母的重要參數(shù)。共振峰信息包含在頻率包絡(luò)之中,因此共振峰參數(shù)提取的關(guān)鍵是估計(jì)自然語音頻譜包絡(luò),一般認(rèn)為譜包絡(luò)中的最大值就是共振峰[1]。共振峰的分布位置是建立在聲音產(chǎn)生媒介的共鳴物理結(jié)構(gòu)基礎(chǔ)上的(ResonantPhysicalStructure)。無論是人聲還是樂器,它們的聲音特性都源自兩個因素,一個是發(fā)聲系統(tǒng),如人的聲帶或樂器的振動簧片,另一個是共鳴系統(tǒng)。樂器不同的共鳴系統(tǒng)使其在一定頻域中的分音的振幅得以突出,這樣,這些區(qū)域就產(chǎn)生了這個樂器所特有的共振峰值,這些共振峰值同共鳴體的大小、形狀的材料密切相關(guān)。由于一件樂器的結(jié)構(gòu)是穩(wěn)定的,因此在一件樂器發(fā)出的所有音調(diào)中,不論基頻如何,都會表現(xiàn)出相同的共振峰值,只不過其顯著性有強(qiáng)有弱罷了。這就可以幫助我們解釋為什么在很多的樂器中,同一樂器所發(fā)出的不同音調(diào)具有相同的音質(zhì)。在語音聲學(xué)中,人聲也同樣受自身生理如鼻孔、咽腔、口腔大小的影響有自身的共振峰區(qū)(FormantRegions)。通過利用這些共鳴空間的形狀和大小不同的變化(例如改變咽喉、嘴形),我們就能改變聲音的共振峰。我們之所以能夠區(qū)分不同的人聲、元音,主要也是依靠它們的共振峰分布的位置。3.2共振峰參數(shù)的研究意義漢語普通話發(fā)音中情感特征信息的特征參數(shù)主要包括發(fā)音持續(xù)時(shí)間、振幅能量、基音頻率和共振峰頻率等。共振峰是反映聲道諧振特性的重要特征,它代表了發(fā)音信息的最直接來源,而且人在語音感知中利用了共振峰信息,所以共振峰參數(shù)的提取一直以來都是語音信號處理領(lǐng)域中重要的研究題之一。共振峰參數(shù)已經(jīng)廣泛地用作語音識別的主要特征和語音編碼傳輸?shù)幕拘畔?,共振峰軌跡包含了說話人的個性特征,對說話人識別有著重要意義,同時(shí)也是語言學(xué)家研究人類發(fā)音技能的有效工具[21]。3.3提取共振峰參數(shù)所遇到的問題與基音檢測類似,共振峰估計(jì)也是表面上看起來很容易,而實(shí)際上又受很多問題困擾。這些問題包括:(1)虛假峰值。在正常情況下,頻譜包絡(luò)中的極大值完全是由共振峰引起的。但在線性預(yù)測分析方法出現(xiàn)之前的頻譜包絡(luò)估計(jì)器中,出現(xiàn)虛假峰值是相當(dāng)普遍的現(xiàn)象。甚至在采用線性預(yù)測方法時(shí),也并非沒有虛假峰值。為了增加靈活性會給預(yù)測器增加個額外的極點(diǎn),有時(shí)可利用這些極點(diǎn)代表虛假峰值。(2)共振峰合并。相鄰共振峰的頻率可能會靠的太近而難以分辨。這時(shí)會產(chǎn)生共振峰合并現(xiàn)象,而探討一種理想的能對共振峰合并進(jìn)行識別的共振峰提取算法存在很多實(shí)際困難。(3)高音調(diào)語音。傳統(tǒng)的頻譜包絡(luò)估計(jì)方法是利用由諧波峰值提供的樣點(diǎn)。高音調(diào)語音的諧波間隔比較寬,因而為頻譜包絡(luò)估值所提供的樣點(diǎn)比較少,所以譜包絡(luò)的估計(jì)就不夠精確。即使采用線性預(yù)測進(jìn)行頻譜包絡(luò)估計(jì)也會出現(xiàn)這個問題。在這樣的語音中,線性預(yù)測包絡(luò)峰值趨向于離開真實(shí)位置,而朝著最接近的諧波峰位移動。共振峰的提取方法及分析4.1譜包絡(luò)提取法共振峰信息包含在語音頻譜包絡(luò)中,因此共振峰參數(shù)提取的關(guān)鍵是估計(jì)自然語音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。下圖4-1是對21幀信號的線性預(yù)測譜包絡(luò)提取分析[22]。原始語音幀信號(2)線性預(yù)測信號(3)預(yù)測誤差(4)預(yù)測信號功率譜(5)預(yù)測信號幅頻響應(yīng)(6)聲道倒譜(7)LPC倒譜(8)LPC倒譜包絡(luò)圖4-1信號線性預(yù)測譜包絡(luò)提取分析圖4.2倒譜法提取共振峰雖然可以直接對語音信號求離散傅里葉變換(DFT),然后用DFT譜來提取語音信號的共振峰參數(shù),但是,直接DFT的譜要受基頻諧波的影響,最大值只能出現(xiàn)在諧波頻率上,因而共振峰測定誤差較大。為了消除基頻諧波的影響,可以采用同態(tài)解卷技術(shù),經(jīng)過同態(tài)濾波后得到平滑的譜,這樣簡單地檢測峰值就可以直接提取共振峰參數(shù),因而這種方法更為有效和精確。因?yàn)榈棺V運(yùn)用對數(shù)運(yùn)算和二次變換將基音諧波和聲道的頻譜包絡(luò)分離開來。因此用低時(shí)窗從語音信號倒譜c(n)中所截取出來得h(n),能更精確地反映聲道響應(yīng)。這樣,由h(n)經(jīng)DFT得到的H(k),就是聲道的離散譜曲線,用H(k)代替直接DFT的頻譜,因?yàn)槿コ思钜鸬闹C波波動,所以可以更精確地得到共振峰參數(shù)。圖4-2倒譜法求取的共振峰參數(shù)圖4.3LPC法提取共振峰從線性預(yù)測導(dǎo)出的聲道濾波器是頻譜包絡(luò)估計(jì)器的最新形式,線性預(yù)測提供了一個優(yōu)良的聲道模型(條件是語音不含噪聲)。盡管線性預(yù)測法的頻率靈敏度和人耳不相匹配,但它仍是最廉價(jià)、最優(yōu)良的行之有效的方法。用線性預(yù)測可對語音信號進(jìn)行解卷:即把激勵分量歸入預(yù)測殘差中,得到聲道響應(yīng)的全級模型H(z)的分量,從而得到這個分量的參數(shù)。盡管其精度由于存在一定的逼近誤差而有所降低,但去除了激勵分量的影響。此時(shí)求出聲道響應(yīng)分量的譜峰,就可以求出共振峰,這里有兩種途徑:一是用標(biāo)準(zhǔn)的求取復(fù)根的方法計(jì)算全級模型分母多項(xiàng)式A(z)的根,稱為求根法;一是用運(yùn)算量較少的DFT法,求A(z)的離散頻率響應(yīng)A(k)的谷點(diǎn)來得到共振峰的位置。因?yàn)?,所以求此多?xiàng)式系數(shù)序列(1,a1,a2,…,ap)的DFT,就可以得到A(k)。但是一般預(yù)測階數(shù)p不大,這就影響了求其谷點(diǎn)即求其共振峰頻率值的精度。為了提高DFT的頻率分辨率,可以采用補(bǔ)0的辦法增加序列的時(shí)間長度,即用(1,a1,a2,…,ap,0,0,…,0)進(jìn)行DFT,為了能利用FFT,長度一般取為64點(diǎn)、128點(diǎn)、256點(diǎn)、512點(diǎn)等。另外也可以采用拋物線內(nèi)插技術(shù),解決頻率分辨率較低的情況下的共振峰頻率值的求取。圖4-3LPC譜估計(jì)法求取的共振峰參數(shù)圖4.4求根法提取共振峰找出多項(xiàng)式復(fù)根的過程通常采用牛頓—拉夫遜(Newton-Raphson)算法。其方法是一開始先猜測一個根值并就此猜測值計(jì)算多項(xiàng)式及其導(dǎo)數(shù)的值,然后利用結(jié)果再找出一個改進(jìn)的猜測值。當(dāng)前后兩個猜測值之差小于某門限時(shí)結(jié)束猜測過程。由上述過程可知,重復(fù)運(yùn)算找出復(fù)根的計(jì)算量相當(dāng)可觀。然而,假設(shè)每一幀的最初猜測值域前一幀的根的位置重合,那么根的幀到幀的移動足夠小,經(jīng)過較少的重復(fù)運(yùn)算后,可使新的根的值會聚在一起。當(dāng)求根過程初始時(shí),第一幀的猜測值可以在單位圓上等間隔設(shè)置。具體過程是:設(shè):為第一個根,則其共軛值也是一個根。設(shè)與i對應(yīng)的共振峰頻率為Fi,3dB帶寬為Bi,則它們存在下面的關(guān)系:(4.1)(4.2)所以:(4.3)(4.4)式中,T是采樣周期。因?yàn)轭A(yù)測器階數(shù)p是預(yù)先選定的,所以復(fù)共軛對的數(shù)量最多是p/2。因而判斷某一個極點(diǎn)屬于哪一個共振峰的問題就不太復(fù)雜。而且,不屬于共振峰的額外極點(diǎn)容易排除掉,因?yàn)槠鋷挶裙舱穹鍘捯蟮枚唷?.5LPC倒譜法提取共振峰語音信號的倒譜可以通過對信號做傅里葉變換,取模的對數(shù),再求反傅里葉變換得到。由于頻率響應(yīng)H(ejω)反應(yīng)聲道的頻率響應(yīng)和被分析信號的譜包絡(luò),因此用log|H(ejω)|做傅里葉反變換求出的LPC倒譜系數(shù),也可以被認(rèn)為是包含了信號譜的包絡(luò)信息,因此可以將其看作對原信號短時(shí)倒譜的一種近似。圖4-4LPC倒譜法求取的共振峰參數(shù)圖通過線性預(yù)測分析得到的合成濾波器的系統(tǒng)函數(shù)為H(z)=其沖擊響應(yīng)為h(n)。下面求h(n)的倒譜,首先根據(jù)同態(tài)分析方法,有因?yàn)槭亲钚∠辔坏?,即在單位圓內(nèi)是解析的,所以一定可以展開成級數(shù)形式,即就是說的逆變換是存在的。設(shè),將兩邊同時(shí)對z-1求導(dǎo),得(4.5)得到(4.6)有(4.7)令式左右兩邊z的各次冪前系數(shù)分別相等得到:(4.8)按照上式可直接從預(yù)測系數(shù){ai}求得倒譜。這個倒譜是根據(jù)現(xiàn)行預(yù)測模型得到的,又稱為LPC倒譜。4.6幾種提取方法分析比較以上實(shí)驗(yàn)表明,倒譜法因?yàn)槠漕l譜曲線的波動比較小,所以估計(jì)共振峰參數(shù)的效果是較好的,但其運(yùn)算量太大。LPC法的缺點(diǎn)是用一個全極點(diǎn)模型逼近語音譜,對于含有零點(diǎn)的某些音來說A(z)的根反映了極零點(diǎn)的復(fù)合效應(yīng),無法區(qū)分這些根是相對于零點(diǎn)還是極點(diǎn),或完全與聲道的諧振極點(diǎn)有關(guān)。聲道的系統(tǒng)函數(shù)可以由一組LPC預(yù)測系數(shù)唯一確定,因此通過分析能估計(jì)出聲道調(diào)制的效果,即獲得共振峰參數(shù)。當(dāng)然,LPC分析階P的選擇很重要,它近似等于語音信號的抽樣頻率,這是因?yàn)檎Z音譜一般可用每1kHz具有1對共扼極點(diǎn)的平均密度來表示聲道造成的響應(yīng),于是采樣頻率為Fs(kHz)的語音信號的LPC譜大約有Fs個極點(diǎn)。LPC分析在大多數(shù)情況下能成功提取語音的共振峰參數(shù)。求根法求取共振峰的優(yōu)點(diǎn)在于通過對預(yù)測多項(xiàng)式系數(shù)的分解可以精確地確定共振峰的中心頻率和帶寬。LPC倒譜由于利用線性預(yù)測中聲道系統(tǒng)函數(shù)H(z)的最小相位特性,因此避免了一般同態(tài)處理中對復(fù)對數(shù)的麻煩。圖4-5共振峰參數(shù)求取三種方法比較分析圖當(dāng)前還有很多種新的共振峰提取方法,每個方法都是在傳統(tǒng)共振峰提取方法的基礎(chǔ)上進(jìn)行研究和改進(jìn)提出的,在一定的基礎(chǔ)上較好的實(shí)現(xiàn)了共振峰的提取,效果也較為理想,但都保留了一定的改進(jìn)空間供后來者繼承和研究創(chuàng)新。本文重點(diǎn)研究倒譜法提取共振峰,倒譜法根據(jù)對數(shù)功率譜的逆傅立葉變換,能夠分離頻譜包絡(luò)和細(xì)微結(jié)構(gòu),很精確地得到共振峰信息。4.7同類文章提取方法比較基于提取語音信號中的共振峰有多種方法,有很多采取其他共振峰提取方法的同類論文。杭州電子工業(yè)學(xué)院郁伯康,郁梅在LPC方法提取語音信號共振峰的分析中說明線性預(yù)測編碼(LPC)是進(jìn)行語音信號分析、語音信號編碼最有效的技術(shù)之一。其重要性在于提供了一組簡潔的語音信號模型參數(shù),比較精確地表征了語音信號的幅度譜,而分析它們所需的計(jì)算量相對而言并不大。文中就LPC方法提取語音信號共振峰進(jìn)行研究。研究討論了數(shù)字濾波器H(z)在z-平面上的幅-頻、相-頻特性,分析比較了對數(shù)幅-頻特性的二次導(dǎo)數(shù)、相-頻特性的一次導(dǎo)數(shù)和三次導(dǎo)數(shù)的頻率分辨率。并結(jié)合理論分析和實(shí)驗(yàn)結(jié)果表明,采用相-頻特性與對數(shù)幅-頻特性同樣能夠提取語音信號共振峰。并且,與L(2)(),(1)()相比,(3)()隨增加而衰減得最快,并最終說明(3)()具有最高的頻率分辨率,能更有效地解決共振峰合并的問題,提取更精確的語音信號共振峰參數(shù)[24]。劉建新,曹榮,趙鶴鳴在西華大學(xué)學(xué)報(bào)中發(fā)表的一種LPC改進(jìn)算法在提取耳語音共振峰中的應(yīng)用論文中說明了傳統(tǒng)線性預(yù)測編碼(LPC)算法在提取語音共振峰時(shí)存在虛假峰和合并峰的問題。耳語音不同于正常語音的特性,使得準(zhǔn)確提取其共振峰存在更大的困難。文中分析了共振峰提取中存在的極點(diǎn)交叉問題,通過對極點(diǎn)排序,提出基于極點(diǎn)交叉的LPC改進(jìn)算法,從而有效解決這兩個問題,并在實(shí)驗(yàn)結(jié)果中證明了此算法能夠根據(jù)實(shí)際要求準(zhǔn)確提取耳語音的前三個或前四個共振峰[25]。章文義,朱杰,陳斐利在一種新的共振峰參數(shù)提取算法及在語音識別中的應(yīng)用一文中采用了一種基于逆濾波器原理的方法來識別共振峰參數(shù)。用一組逆濾波器來逼近語音信號的短時(shí)能譜,通過動態(tài)搜索算法可以得到濾波器組中各個濾波器的位置與帶寬,從而確定了共振峰的位置和帶寬。采用了優(yōu)化動態(tài)搜索的算法,提高了運(yùn)算速度。把共振峰作為特征參數(shù)用于一個小詞匯量的漢語語音識別系統(tǒng)中,識別正確率達(dá)到了98%[26]。LPC法的缺點(diǎn)是用一個全極點(diǎn)模型逼近語音譜,對于含有零點(diǎn)的某些音來說A(z)的根反映了極零點(diǎn)的復(fù)合效應(yīng),無法區(qū)分這些根是相對于零點(diǎn)還是極點(diǎn),或完全與聲道的諧振極點(diǎn)有關(guān)。所以本文采用倒譜法提取情感語音中的共振峰。因?yàn)榈棺V運(yùn)用對數(shù)運(yùn)算和二次變換將基音諧波和聲道的頻譜包絡(luò)分離開來。因此用低時(shí)窗從語音信號倒譜c(n)中所截取出來得h(n),能更精確地反映聲道響應(yīng)。這樣,由h(n)經(jīng)DFT得到的H(k),就是聲道的離散譜曲線,用H(k)代替直接DFT的頻譜,因?yàn)槿コ思钜鸬闹C波波動,所以可以更精確地得到共振峰參數(shù)。但是采用倒譜法提取共振峰的缺點(diǎn)是運(yùn)算量太大。倒譜法提取共振峰的實(shí)現(xiàn)5.1倒譜的定義設(shè)信號的z變換為,其對數(shù)為(5.1)那么的逆變換可寫成(5.2)取,式(5.1)可寫為(5.3)式(5.2)可寫為(5.4)則式(5.4)即為信號的復(fù)倒譜的定義。在英語中,倒譜Cepstrum是將譜Spectrum中前四個字母倒置后得到的,因?yàn)橐话銥閺?fù)數(shù),故稱為復(fù)倒譜。如果對的絕對值取對數(shù),得(5.5)則為實(shí)數(shù),由此求出的倒頻譜c(n)為實(shí)倒譜,簡稱為倒譜,即(5.6)在式(5.3)中,實(shí)部是可以取唯一值的,但對于虛部,會引起唯一性問題,因此要求相角為的連續(xù)奇函數(shù)[3]。倒譜和復(fù)倒譜的主要區(qū)別是對序列對數(shù)幅度譜的傅立葉逆變換,它是復(fù)倒譜中的偶對稱分量。它們都將卷積運(yùn)算,變?yōu)閭螘r(shí)域中的加法運(yùn)算,使得信號可以運(yùn)用滿足疊加性的線性系統(tǒng)進(jìn)行處理。復(fù)倒譜涉及復(fù)對數(shù)運(yùn)算,而倒譜只進(jìn)行實(shí)數(shù)的對數(shù)運(yùn)算,較復(fù)倒譜的運(yùn)算量大大減少。5.2倒譜法提取共振峰原理共振峰信息包含在頻譜包絡(luò)之中,因此共振峰參數(shù)提取的關(guān)鍵是估計(jì)自然語音頻譜包絡(luò),譜包絡(luò)中的最大值就是共振峰。下面我們分析聲道沖激響應(yīng)序列經(jīng)過倒譜后的特征。選擇最普遍的極零模型來描述聲道響應(yīng)x(n),其z變換的形式為:(5.7)經(jīng)過傅立葉變換、取對數(shù)和逆傅立葉變換后可以得到其復(fù)倒譜:(5.8)對于倒譜可以只考慮它的幅度特性,可以看出,它是一個衰減序列,且衰減的速度快。因而它比原信號x(n)更集中于原點(diǎn)附近,或者說它更具有短時(shí)性。倒譜算法運(yùn)用對數(shù)運(yùn)算和二次變換將基音諧波和聲道的頻譜包絡(luò)分離開來。根據(jù)其特點(diǎn)利用短時(shí)窗可以從語音信號倒譜c(n)中截取出h(n)。由h(n)經(jīng)DFT得到的H(K)就是聲道的離散譜曲線,由于它去除了激勵引起的諧波動,因此能更精確地得到共振峰參數(shù)。但是使用倒譜法估計(jì)共振峰頻率中要注意,并不是所有的譜峰都是共振峰,而且當(dāng)兩個共振峰很靠近時(shí),會發(fā)生譜重疊,很難計(jì)算共振峰的帶寬。5.3倒譜法提取情感語音共振峰具體實(shí)現(xiàn)過程倒譜將情感語音諧波和聲道的頻譜包絡(luò)分離開來。倒譜的低時(shí)部分可以分析聲道、聲門和輻射信息,而高頻部分可用來分析激勵源信息。對倒譜進(jìn)行低時(shí)選窗,通過語音倒譜分析系統(tǒng)的最后一級,進(jìn)行DFT后的輸出即為平滑后的對數(shù)模函數(shù),這個平滑的對數(shù)譜顯示了特定輸入語音段的諧振結(jié)構(gòu),即譜的峰值基本上對應(yīng)于共振峰頻率,對平滑過的對數(shù)譜中的峰值進(jìn)行定位,即可提取共振峰。圖5-1為共振峰提取框圖,圖5-2為共振峰提取流程圖[23]。圖5-1共振峰提取框圖圖5-2共振峰提取流程圖5.4共振峰提取結(jié)果及結(jié)論分析5.4.1情感語音原始波形圖5-3情感語音——高興原始波形圖5-4情感語音——生氣原始波形圖5-5情感語音——中立原始波形5.4.2情感語音共振峰提取結(jié)果圖5-6情感語音——高興共振峰提取結(jié)果圖5-7情感語音——生氣共振峰提取結(jié)果圖5-8情感語音——中立共振峰提取結(jié)果5.4.3結(jié)論分析本文所研究的高興、生氣、中立三種情感語音的錄音文本為“Goodmorning”,時(shí)長為一秒,這三種情感語音的原始波形分別如圖5-3、5-4和5-5所示。運(yùn)用本文所介紹的算法,對高興、生氣、中立三種情感語音信息進(jìn)行共振峰提取,得到的結(jié)果如圖5-6、5-7和5-8所示,從圖中可以看出,相對于中立發(fā)音而言,高興和生氣的第一共振峰頻率相對升高,從人的發(fā)音特點(diǎn)來看,人們在表達(dá)高興和生氣時(shí),嘴比平靜發(fā)音時(shí)張得更大,因此會出現(xiàn)這樣的結(jié)果。所以說,可以用共振峰作為區(qū)分不同情感語音的手段??偨Y(jié)與展望6.1全文總結(jié)語音情感識別是新型人機(jī)交互技術(shù)的研究熱點(diǎn)之一,國內(nèi)外關(guān)于語音情感識別的研究還處于探索嘗試階段,對于語音情感特征參數(shù)的提取方法還有待進(jìn)一步地深入研究。本文就情感語音中共振峰參數(shù)的提取方法進(jìn)行了研究,并應(yīng)用倒譜法實(shí)現(xiàn)了情感語音中共振峰參數(shù)的提取,現(xiàn)將本文主要工作總結(jié)如下:介紹情感分類及本文所用情感語音數(shù)據(jù)庫。分析情感語音共振峰參數(shù)提取的多種方法,并比較優(yōu)缺點(diǎn)。重點(diǎn)介紹倒譜法以及倒譜法提取語音信號中共振峰的原理與具體過程,并實(shí)現(xiàn)運(yùn)用倒譜法實(shí)現(xiàn)共振峰的提取。根據(jù)本文共振峰提取結(jié)果進(jìn)行分析,得出高興、生氣和中立三種情感語音的共振峰分析結(jié)論。6.2展望本文對語音情感識別做了一些基礎(chǔ)性的研究,基本完成了情感識別和情感特征參數(shù)中共振峰的提取工作,但是在語音庫建立、情感語音共振峰提取方法的選擇等很多方面仍然不夠完善,還需要進(jìn)行改進(jìn)和進(jìn)一步地深入研究,對于下一步的研究工作建議從以下幾個方面開展1.完善情感語音庫。由于本實(shí)驗(yàn)中采用的語音庫僅僅包含高興、生氣和中立三種情感,語音庫的情感種類太少,這與實(shí)際中人類豐富的情感是不符的,可以再將其它情感補(bǔ)充進(jìn)來;同時(shí)提高情感語音表達(dá)的自然度,擴(kuò)大情感語料的涉及范圍,并且盡可能的使語音庫涵蓋多個語種。并同時(shí)提取多種情感種類的語音信號共振峰,并分析提取結(jié)果。2.倒譜法因?yàn)槠漕l譜曲線的波動比較小,所以估計(jì)共振峰參數(shù)的效果是較好的,但其運(yùn)算量太大。LPC法的缺點(diǎn)是用一個全極點(diǎn)模型逼近語音譜,對于含有零點(diǎn)的某些音來說A(z)的根反映了極零點(diǎn)的復(fù)合效應(yīng),無法區(qū)分這些根是相對于零點(diǎn)還是極點(diǎn),或完全與聲道的諧振極點(diǎn)有關(guān)。所以需要對情感語音共振峰提取方法做出進(jìn)一步改進(jìn),使提取效果更佳完善。參考文獻(xiàn)胡航.語音信號處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000:113-116.張剛,張雪英,馬建芬.語音處理與編碼[M].北京,兵器工業(yè)出版社,2000.RosalindWPicard.Affectivecomputing[J],MindsandMachines,1999,9:443-447.CowieRandCorneliusR.DescribingtheemotionalstaresthatareexpressedinSpeech[J],Human-ComputerStudies,2003,40:5-3.DVerveridisandCKotropoulos,Emotionalspeechrecognition:Resources,featuresandmethods[J],SpeechCommunication,2006,48(9):1162-1181.Cowie,R.Douglas-Cowie,E.Savvidou,MeMahon,E.Sawey,M.Sehroder,M.FEELTRACE’:AnInstrumentforRecordingPerceivedEmotioninRealTime.InISCAWorkshoponSpeechandEmotion,Belfast2000.Cowie,R.Douglas-Cowie,E.Speakersandhearersarepeople:ReflectionsonSpeechdeteriorationasaconsequenceofacquireddeafnessinProfoundDeafnessandSpeechCommunication.London,1995.R.Cowie,E.Douglas-Cowie,E.Automaticstatisticalanalysisofthesignalandprosodicsignsofemotioninspeech.InProc.4thInt.Conf.SpokenLanguageProcessing.PhiladelPhia,PA,1996:1989-1992.Fernandez,R.AComputationalModelfortheAutomaticRecognitionofAffectinSpeech.MITMediaArtsandScience,February2004.AngJ,DhillonR,KruPSkiA,ShribergE,StolekeA.Prosody-basedautomaticdetectionofannoyanceandfrustrationinhuman-computerdialog[C],IPIConspokenLanguageProcessing,Denver,2002,3:2037-2040.趙力,蔣春輝,鄒采榮.語音信號中的情感特征分析和識別的研究[N].電子學(xué)報(bào),2004,4:606-609.Dan-NingJiang,Lian-HongCai.ClassifyingEmotioninChineseSpeechbyDecomposingProsodicFeatures.IEEESignalProcessingMagazine.2001,15:32-36.TSang-LongPao,Yu-TeChen,Jun-HengYeh.EmotionRecognitionFromMandarinSpeechSignals.ISCSLP,2004:301-304.付麗琴,王玉寶,王長江.基于多特征向量的語音情感識別[M].計(jì)算機(jī)科學(xué),2009,36(6):231-134.WangQing,XieBoandChenGen-cai.Emotionrecognitionofspeechinmandarinbasedonneuralnetwork[C].The1stChineseConferenceonAffectiveComputingandIntelligentInteraction(ACIf03),pp.185-190,Beijing,2003.Ekman,P.AnArgumentforBasicEmotions.CognitionandEmotion,1992,6:169-200.Plutchik,R.AGeneralPsycho-evolutionaryTheoryofEmotion.InEmotion:Theory,Research,andExperience,1980,l:3-33.Shaver,P.Schwartz,J.Kirson,D.O’Connor,C.EmotionKnowledge:FurtherExplorationofaPrototypeApproach.JournalofPersonalityandSocialPsychology,1987,52(6):1061-1086.謝波,普通話語音情感識別關(guān)鍵技術(shù)[D],博士論文,浙江大學(xué),2006.R.Plutchik.Emotion:Apsycho-evolutionarysynthesis[M].NewYorkHarperandRow,1980.M.Lee,J.van.Santen,B.MobiusandJ.Olive.FormantTrackingUsingContext-DependentPhonemicInformation.IEEETrans.onSpeechandAudioProcessing,2005,13(5):741-750.楊丹,姜占才,余鎣良.語音信號共振峰提取方法的研究分析[D],科技信息,161-162.張雪英.數(shù)字語音處理及MATLAB仿真[M].北京,電子工業(yè)出版社,2010.郁伯康,郁梅.LPC方法提取語音信號共振峰的分析[D],電聲技術(shù),2000,3:3-7劉建新,曹榮,趙鶴鳴.一種LPC改進(jìn)算法在提取耳語音共振峰中的應(yīng)用,西華大學(xué)學(xué)報(bào)[N],2008,27(3):77-80.章文義,朱杰,陳斐利.一種新的共振峰參數(shù)提取算法及在語音識別中的應(yīng)用[D].2003,29(13):67-68.致謝在畢業(yè)論文即將完成之際,我要向在這段時(shí)間里給予我?guī)椭椭С值睦蠋熀屯瑢W(xué)表示衷心的感謝!首先十分感謝我的導(dǎo)師孫穎老師,本文從研究課題的確定到最后的修改,都是在她的悉心指導(dǎo)下完成的。孫老師嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度、淵博的知識和誨人不倦的師者風(fēng)范使我受益匪淺。她推薦我查看大量書籍和資料,使我在寫論文之初就打下了扎實(shí)的理論基礎(chǔ)。在我有問題向她請教時(shí),無論問題大小,她都耐心的給我講解。我的每一點(diǎn)進(jìn)步和提高與孫老師一貫的鼓勵和幫助是分不開的。在此,謹(jǐn)向教育培養(yǎng)我的導(dǎo)師表達(dá)我最衷心的感謝。同時(shí),還要感謝所有在我大學(xué)階段指導(dǎo)過我,給予我教誨和栽培的各位老師。其次我要感謝在論文研究期間一起討論,互相學(xué)習(xí)的同組同學(xué),是他們讓我看到了自己的不足,也讓我在討論中得到了進(jìn)步。還要感謝我的舍友吳秀娟同學(xué),是她在我在我論文遇到困難的時(shí)候,幫我分析原因,逐步解決,使我的畢業(yè)設(shè)計(jì)能夠有充分的發(fā)揮空間。最后,我要感謝所有支持我和關(guān)心我的家人和朋友,衷心的謝謝你們!外文原文FormantpositionbasedweightedspectralfeaturesforemotionrecognitionAbstractInthispaper,weproposenovelspectrallyweightedmel-frequencycepstralcoefficient(WMFCC)featuresforemotionrecognitionfromspeech.Theideaisbasedonthefactthatformantlocationscarryemotion-relatedinformation,andthereforecriticalspectralbandsaroundformantlocationscanbeemphasizedduringthecalculationofMFCCfeatures.Thespectralweightingisderivedfromthenormalizedinverseharmonicmeanfunctionofthelinespectralfrequency(LSF)features,whichareknowntobelocalizedaroundformantfrequencies.Theaboveapproachcanbeconsideredasanearlydatafusionofspectralcontentandformantlocationinformation.Wealsoinvestigatemethodsforlatedecisionfusionofunimodalclassifiers.WeevaluatetheproposedWMFCCfeaturestogetherwiththestandardspectralandprosodyfeaturesusingHMMbasedclassifiersonthespontaneousFAUAiboemotionalspeechcorpus.TheresultsshowthatunimodalclassifierswiththeWMFCCfeaturesperformsignificantlybetterthantheclassifierswithstandardspectralfeatures.Latedecisionfusionofclassifiersprovidefurthersignificantperformanceimprovements.Keywords:Emotionrecognition;Emotionalspeechclassification;Spectralfeatures;Formantfrequency;Linespectralfrequency;Decisionfusion.IntroductionEmotion-sensitivemachineintelligenceisabasicrequirementformorenaturalhuman–computerinteraction.Inthissense,theorientationofresearchonemotionalspeechprocessingshiftsfromtheanalysisofactedtowardsspontaneousspeechforadvancedreal-lifeapplicationsinhuman–machineinteractionsystems(VerveridisandKotropoulos,2006;Batlineretal.,2003).Thewideuseoftelecommunicationservicesandmultimediadeviceswillrequirehuman-centereddesignsinsteadofcomputercenteredones.Consequently,accurateperceptionoftheuser’saffectivestatebycomputersystemswillbecrucialfortheinteractionprocess(Zengetal.,2009).Examplesofrecentemotion-awaresystemsincludecall-centerapplications(LeeandNarayanan,2005;NeibergandElenius,2008;Morrisonetal.,2007),intelligentautomobilesystems(Schulleretal.,2006)andinteractivemoviesystems(Nakatsuetal.,2000).Althoughextensivelyinvestigated,automaticemotionrecognitionfromspeechremainsasanopenprobleminthefieldofhuman–computerinteraction.Researchersmostlyfocusondefiningauniversalsetoffeaturesthatcarryemotionalcluesandtrytodevelopclassifiersthatefficientlymodelthesefeatures.Somecommonlyusedspeechfeaturesforemotionrecognitionarethemel-frequencycepstralcoefficients(MFCC)(Vlasenkoetal.,2007;Grimmetal.,2006),thefundamentalfrequency(F0,pitch),whichhasbeenreferredasoneofthemostimportantfeaturesfordeterminingemotioninspeech(Nakatsuetal.,2000;PolzinandWaibel,2000;Leeetal.,2004),andtheresonantfrequenciesofthevocaltract,alsoknownasformants(Nakatsuetal.,2000,2004).Thecontributionsandscopeofthepapercanbestatedunderthreeitems:(i)Themaincontributionistheintroductionofnovelspectrallyweightedmel-frequencycepstralcoefficient(WMFCC)featuresforemotionrecognitionfromspeech.Recently,Goudbeeketal.(2009)reportedthatemotionhasaconsiderableinfluenceonformantpositioning.Basedonthisinformation,weproposeWMFCCfeaturesbyemphasizingspectralcontentofthecriticalspectralbandsaroundformantlocations.Thespectralweightingisobtainedfromthenormalizedinverseharmonicmeanfunctionoflinespectralfrequency(LSF)features.ExperimentalresultsdemonstratethesuperiorityoftheproposedWMFCCfeaturesovertraditionalMFCCfeatures.(ii)WeexperimentallyevaluatevarioustopologiesofhiddenMarkovmodel(HMM)classifiersusingdifferentspectralandprosodyfeaturestogaininsightaboutpossibletemporalpatternsexistingincertainfeaturesetsforemotionrecognitionfromspeech.(iii)Weevaluatetheuseofdecisionfusionmethodstocombinevariousclassifierswithuncorrelatedfeaturesofemotionalspeech.Itiswell-knownthatinclassificationsystems,datafusioniseffectivewhenmodalitiesarecorrelated,andlatefusionisoptimalwhenmodalitiesareuncorrelated(Sarginetal.,2007).Experimentalresultsshowthatdecisionfusionofclassifiersisbeneficial.WeevaluatetheproposedWMFCCfeaturesandthecombinedclassifiersonthespontaneousemotionalspeechcorpusFAUAibo(Steidl,2009),whichisanelicitedcorpuswithclearlydefinedtestingandtrainingpartitionsensuringspeaker-independenceanddifferentroomacousticsasinreal-life.WeachievesignificantperformanceimprovementsoverthebestscoringemotionrecognitionsystemsintheInterspeech2009EmotionChallenge(Schulleretal.,2009)withtheproposedWMFCCfeaturesandthedecisionfusionofclassifiers.Furthermore,weobserveevidenceoftemporalformantpatternsindiscriminatingemotionrelatedclassesofspeechsignal.Theremainderofthispaperisstructuredasfollows.Section2definesthecomponentsoftheproposedemotionrecognitionsystem.TheemployedspectralandprosodyfeaturestogetherwiththeproposedWMFCCfeaturesarepresentedinSection2.1.Section2.2definestheHMMbasedclassifierforemotionrecognition,andSection2.3presentsthedecisionfusionmethodforHMMbasedclassifiers.ExperimentstoassesstheperformanceoftheproposedsystemarediscussedinSection3.Finally,theconcludingremarksarepresentedinSection4.ProposedsystemAblockdiagramoftheproposedautomaticspeechdrivenemotionrecognitionsystemisgiveninFig.1.Thissystemconsistsofthreemainblocks:featureextraction,classificationandlatefusionofclassifiers.ThefeatureextractionblockcomputesprosodicandspectralfeaturesincludingtheproposedWMFCCfeatures.TheclassificationblockincludesHMMbasedclassifiers.HMMbasedclassifierswithseveralstatesarecapableofmodelingtemporalclusters,whereeachstatecanrepresentadifferentdistributionofobservations.WetargettocaptureemotionrelatedpatternsinsyntacticallymeaningfulchunksofspeechsegmentsusingHMMbasedclassifiers.Syntacticallymeaningfulchunksofspeechstandsforameaningfulsequenceofword(s)(Schulleretal.,2009).Finally,decisionfusionisemployedtobenefitfromdifferentoruncorrelatedfeaturesets.Thesethreemainblocksoftheemotionrecognitionsystemaredescribedinthefollowingsections.Fig.1.Overviewoftheproposedemotionrecognitionsystem.Thesystemiscomposedofclassifiertrainingandemotionrecognitionparts.Eachspectralandprosody-relatedfeaturesequence,f,isusedtotrainhiddenMarkovmodelsets,Af,forallemotionclasses.Thehighestlog-likelihoodscores,pf,areevaluatedthroughViterbidecodingtobeusedinthedecisionfusion.2.1.FeatureextractionTwotypesofinformationsourcesareavailabletodeterminetheemotionalstatusofaspeakerfromhis/herspeech,theacousticcontentandthelinguisticcontentofthespeech.Inthisstudy,weconsideronlytheacousticcontentbyusingbothprosody-relate
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年小學(xué)數(shù)學(xué)國培個人研修計(jì)劃書
- 臨床醫(yī)療管理信息系統(tǒng)行業(yè)相關(guān)投資計(jì)劃提議范本
- 全國滇人版初中信息技術(shù)七年級下冊第一單元第3課《優(yōu)化計(jì)算機(jī)》說課稿
- 2025年律師管理工作計(jì)劃例文
- 2025年計(jì)生協(xié)會工作計(jì)劃表格模板
- 2025年大班教學(xué)計(jì)計(jì)劃大二班教學(xué)計(jì)劃
- 車站碼頭保安服務(wù)總結(jié)
- 人教版七年級歷史與社會上冊2.1.1 人類的棲息地說課稿
- 2025年校本培訓(xùn)計(jì)劃
- 2025年林業(yè)站工作計(jì)劃例文
- 中學(xué)美育工作制度
- 2023年保安公司副總經(jīng)理年終總結(jié) 保安公司分公司經(jīng)理年終總結(jié)(5篇)
- 2023中?!督馄蕦W(xué)基礎(chǔ)》題庫202311593753185
- 化妝品生產(chǎn)許可申請表樣板
- 教科版三年級上冊科學(xué)教案(全冊)
- 勞動力安排計(jì)劃及勞動力計(jì)劃表(樣板)
- 利潤表4(通用模板)
- 教育評價(jià)學(xué)全套ppt課件完整版教學(xué)教程
- 注塑領(lǐng)班作業(yè)指導(dǎo)書
- ASTM B330-20 Standard Test Methods for Estimating Average Particle Size of Metal Powders and Related Compounds Using%2
- 血?dú)夥治黾芭R床應(yīng)用
評論
0/150
提交評論