語音情緒識(shí)別_第1頁
語音情緒識(shí)別_第2頁
語音情緒識(shí)別_第3頁
語音情緒識(shí)別_第4頁
語音情緒識(shí)別_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語音情緒識(shí)別2019/1/13多的對(duì)話系統(tǒng)走進(jìn)人們的生活,但是他們中幾乎沒有一個(gè)能注意到我們的情緒,并且像我們?nèi)祟愖约涸诹奶鞎r(shí)對(duì)伙伴作出反應(yīng)。而如果我們有一個(gè)足夠出色的語音情緒識(shí)別系統(tǒng)(speechemotion1.什么是語音情緒識(shí)別?人類的語音中包含了許多信息,其中就包括前文所述的一個(gè)人想要通過語音傳遞的語語音情緒識(shí)別是指通過計(jì)算機(jī)自動(dòng)的識(shí)別說話人所說的語言中含有怎樣的情緒。語音中的情緒信息是反應(yīng)人類情緒的一個(gè)十分重要的行為信號(hào),同時(shí)識(shí)別語音中所包其所攜帶的語義可能完全不同,只有計(jì)算機(jī)同時(shí)識(shí)別出語音的內(nèi)容以及語音所攜帶的情緒,我們才能準(zhǔn)確的理解語音的語義,因此理解語音的情緒才能讓人機(jī)交互更為自然和流利。人類之所以能夠通過聆聽語音捕捉對(duì)方情緒狀態(tài)的變化,是因?yàn)槿四X具備了感知和理解語音信號(hào)中的能夠反映說話人情緒狀態(tài)的信息(如特殊的語氣詞、語調(diào)的變化等自動(dòng)語音情緒識(shí)別則是計(jì)算機(jī)對(duì)人類上述情緒感知和理解過程的模擬,它的任務(wù)就是從采集到的語音信號(hào)中提取表達(dá)情緒的聲學(xué)特征,并找出這些聲學(xué)特征與人類情緒的映射關(guān)系?;谡Z音信號(hào)的情緒識(shí)別在近幾年得到了廣泛的關(guān)注和研究。但對(duì)于情緒的分類,研究者們沒有統(tǒng)一的標(biāo)準(zhǔn),現(xiàn)階段基于語音信號(hào)的情緒識(shí)別主要分為兩大類:離散情緒和維度情緒,分類的依據(jù)是對(duì)情緒的不同表示方式。第一種表示方式是情緒的種類,大多數(shù)研究者認(rèn)Figure1所示,但語音的情緒識(shí)別研究大多采用的是快樂、悲傷、憤怒和中性這四種區(qū)分度大的情緒;Figure六種基本情緒,圖片源自[1]不同于將情緒標(biāo)識(shí)為離散的情緒類別,另有一些學(xué)者嘗試用連續(xù)的維度來表示情緒,其中最著名的、也最為廣大學(xué)者所接受的是喚醒度—愉悅度一控制度(Valence-Arousal-Power)一種情緒類別都可以用這些維度來表示,從而在情緒空間中為其定位。例如圖2度(Arousal)代表情緒喚起程度的高低,愉悅度(valence)代表積極情緒的高低,這兩個(gè)維度都可以通過數(shù)值來代表它的高低程度。比如figure1代表非常低代表非常激動(dòng)/積極。而難過(sad)則可以用低喚醒度和低愉悅度來表示。幾乎人類所有的情緒都可以用這兩個(gè)維度所構(gòu)成的空間來表示。Figure維度情緒模型,圖片源自[3]表1的情緒識(shí)別率相近。其中對(duì)憤怒和悲傷這兩種情緒的識(shí)別率最高。Table將主觀情緒量化為客觀實(shí)數(shù)值的過程,是一個(gè)繁重且難以保證質(zhì)量的過程單一、有限的情緒描述能力無法滿足對(duì)自發(fā)情緒的描述2.語音情緒的語料設(shè)計(jì)語音情緒識(shí)別研究的進(jìn)展與一個(gè)優(yōu)秀的情緒語音數(shù)據(jù)庫有很大關(guān)系。情緒語音庫的質(zhì)量高低,直接影響了由其訓(xùn)練的語音情緒識(shí)別系統(tǒng)的性能,如果使用低質(zhì)量的數(shù)據(jù)庫,可能會(huì)得到不正確的結(jié)論。所以,設(shè)計(jì)一個(gè)情緒語音數(shù)據(jù)庫要考慮以下兩個(gè)因素。所謂情緒的自然度就是表現(xiàn)出來的情緒和日常交流中自然產(chǎn)生的情緒之間的相似度對(duì)于情緒語音的基礎(chǔ)研究和應(yīng)用都具有重要影響。按照自然度的不同,可以把情緒語料大體分為三類,下面一一介紹這三類語料的獲取方法及其優(yōu)缺點(diǎn)。然情緒語料自然情緒語料是指從自然生活中采集的、經(jīng)過人工篩選的語料。這類語料是最直接、真實(shí)、可信的語料,具有最高的自然度。語料的獲取方法,一般是在被錄音者毫不知情的情況下進(jìn)行錄音,因此所錄得的語音自然度最高。但這種錄音方式的缺點(diǎn)是操作性差且涉及到隱私相關(guān)的法律問題。另一個(gè)存在的問題是,采集到的自然情緒語料是需要人為標(biāo)注的,這樣才能給識(shí)別系統(tǒng)使用,但由前面的介紹我們可以得知,情緒的分類本身存在爭(zhēng)議,而自然狀態(tài)下采集到的語料,標(biāo)注人對(duì)語料的標(biāo)注具有較強(qiáng)的主觀性,不同的標(biāo)注者可能對(duì)同一段語音有不同的看法,所以對(duì)自然情緒語料進(jìn)行分類標(biāo)注是件不太容易的事。[4][5][6]擬情緒語料盡管自然情緒語料是最理想的,但考慮到獲取方面的困難,在情緒識(shí)別領(lǐng)域,許多研究者選擇邀請(qǐng)一些專業(yè)的播音員或善于表達(dá)情緒的人,進(jìn)行情緒模仿錄制語料,也就是讓錄音者模仿不同的情緒朗讀指定的內(nèi)容。這種方法是最為常見的語料獲取方法,大多數(shù)情緒語音識(shí)別研究中所使用的語料都是采用這種方法錄制的,因?yàn)檫@種方法有兩個(gè)突出的優(yōu)點(diǎn):一是可操作性強(qiáng),只需要一些簡(jiǎn)單的錄音設(shè)備,再找一個(gè)安靜的錄音環(huán)境即可,可以在短時(shí)間內(nèi)獲??;其二,這樣錄制的語料符合情緒要求,可區(qū)分性強(qiáng)。通過這種方法獲取的語料的就是模擬情緒語料,是錄音者偽裝出來的,情緒的表達(dá)不受心理活動(dòng)刺激,情緒的自然度完全取決于錄音者的模仿能力。因此與自然情緒語料相比,模擬情緒語料中的情緒成分通常被夸大,并不能體現(xiàn)真實(shí)的情緒。一些實(shí)驗(yàn)表明,使用模擬情緒語料的語音情緒識(shí)別實(shí)驗(yàn)通常能獲得較高的識(shí)別率,但是模擬情緒語料并不能完全代表導(dǎo)情緒語料獲取這類語料時(shí),研究者通常會(huì)讓錄音者置于恰當(dāng)?shù)沫h(huán)境之中,誘導(dǎo)錄音者產(chǎn)生某種情緒,完成錄音,這種方法的可操作性也比較強(qiáng),且能獲得比模擬情緒語料更多的自然度,但這種方法無法確保錄音者在設(shè)置的環(huán)境里出現(xiàn)誘導(dǎo)的情緒。從上面的分析中我們不難看出語料的情緒自然度受較多因素影響,很難選出最完美的預(yù)料,語料的選擇因研究方法和目標(biāo)不同而變化。[4][5][6]人類的情緒表達(dá)不僅僅體現(xiàn)在聲學(xué)信號(hào)里,同時(shí)也體現(xiàn)在上下文的內(nèi)容上,這里所指的上下文相關(guān)是說情緒還可以通過面部表情,甚至是一些身體語言的表現(xiàn)出來,所以如果能夠建立一個(gè)包含多個(gè)維度的情緒上下文信息的語料庫對(duì)情緒識(shí)別這一任務(wù)而言是更有幫助的,但由于客觀條件的限制,做到這一點(diǎn)十分困難。[6]3.語音情緒的特征提取在語音情緒識(shí)別系統(tǒng)里提取出合適的且有效的語音情緒特征是十分重要的事。一般來講,語音情緒特征的提取有以下兩個(gè)主要的問題:1)特征提取的作用域。一些研究人員認(rèn)為應(yīng)該先將語音分幀再進(jìn)行特征提取,即提取局部特征;而另外一些研究人員更傾向于將整句語音的全部特征直接抽取出來。2)提取什么特征作為語音情緒識(shí)別任務(wù)的主要特征?例如韻律特征、基于頻譜的特征、聲音質(zhì)量特征等。從每一幀中提取諸如音調(diào)和能量之類的韻律特征稱為局部特征,而全局特征是指從一句話中提取的所有語音特征的統(tǒng)計(jì)結(jié)果?,F(xiàn)階段的相關(guān)研究表明全局特征在分類的準(zhǔn)確度上往往比局部特征表現(xiàn)的要好,同時(shí)耗時(shí)也更少(特征量較少),然而全局特征也有許多缺點(diǎn):1)比如在分類anger和2)全局特征會(huì)丟失語音的短時(shí)信息。由于提取的特征不是在幀層級(jí)特征,所以短時(shí)的情緒信息容易丟失。3)當(dāng)使用較為復(fù)雜的分類器(HMM,SVM等)時(shí),全局變量會(huì)因?yàn)樘卣鬏^少而無法進(jìn)行有效的訓(xùn)練。這時(shí)如果在復(fù)雜的模型中使用局部特征,模型的效果會(huì)更好。還有一種做法是對(duì)語音信號(hào)根據(jù)音素進(jìn)行分段而不是分幀。研究顯示了把分段的特征和全局特征相結(jié)合可以一定程度提高是別的準(zhǔn)確率。[5]1)韻律學(xué)特征:韻律是指語音中凌駕于語義符號(hào)之上的音高、音長(zhǎng)、快慢和輕重等方面的變化,是對(duì)語音流表達(dá)方式的一種結(jié)構(gòu)性安排。它的存在與否并不影響我們對(duì)字、詞、句的聽辨,卻決定著一句話是否聽起來自然順耳、抑揚(yáng)頓挫。韻律學(xué)特征又被稱為“超音段特征”或“超語言學(xué)特征”,它的情緒區(qū)分能力已得到語音情緒識(shí)別領(lǐng)域研究者們的2)基于頻譜的相關(guān)特征:被認(rèn)為是聲道(vocal變化和發(fā)聲運(yùn)動(dòng)(articulatormovement)之間相關(guān)性的體現(xiàn),已在包括語音識(shí)別、話者識(shí)別等在內(nèi)的語音信號(hào)處理領(lǐng)域有著成功的運(yùn)用。Nwe等人[8]通過對(duì)情緒語音的相關(guān)譜特征進(jìn)行研究發(fā)現(xiàn),語音中的情緒內(nèi)容對(duì)頻譜能量在各個(gè)頻譜區(qū)間的分布有著明顯的影響。例如,表達(dá)高興情緒的語音在高頻段表現(xiàn)出高能量,而表達(dá)悲傷的語音在同樣的頻段卻表現(xiàn)出差別明顯的低能量。近年來,有越來越多的研究者們將譜相關(guān)特征運(yùn)用到語音情緒的識(shí)別中來[8,9,視的。在語音情緒識(shí)別任務(wù)中使用的線性譜特征(linear-basedspectral有:LPC(linearpredictorpowercoefficient)[8]等;倒譜特征(cepstral-basedspectral:LPCC(linearpredictorcepstralcepstral3)聲音質(zhì)量是人們賦予語音的一種主觀評(píng)價(jià)指標(biāo),用于衡量語音是否純凈、清晰、容易辨識(shí)等[12]。對(duì)聲音質(zhì)量產(chǎn)生影響的聲學(xué)表現(xiàn)有喘息、顫音、哽咽等,并且常常出現(xiàn)在說話者情緒激動(dòng)、難以抑制的情形之下。語音情緒的聽辨實(shí)驗(yàn)中,聲音質(zhì)量的變化被聽辨者們一致認(rèn)定為與語音情緒的表達(dá)有著密切的關(guān)系[12]。在語音情緒識(shí)別研究中,用于衡量聲音質(zhì)量的聲學(xué)特征一般有:共振峰頻率及其帶寬(formatfrequencyandbandwidth)、頻率微擾和振幅微擾(jitterand4)維高斯混合模型(Gaussianmixture超向量空間映射到低維總變異空間的技術(shù),然而在語音情緒識(shí)別領(lǐng)域的應(yīng)用還較為新穎。文獻(xiàn)[14]提出使用串聯(lián)結(jié)構(gòu)的情緒i-vector特征用于語音情緒的識(shí)別,他們首先使用openSMILE提取出1584維的聲學(xué)特征,并使用這些特征為自然情緒狀態(tài)的語音訓(xùn)練得到一個(gè)通用背景模型(universalbackground自的GMM,繼而得到每類情緒狀態(tài)的GMM超向量用于提取最后,對(duì)應(yīng)于各個(gè)情緒狀態(tài)的i-vector被串連在一起作為支持向量機(jī)的輸入,用于angry,happy,neutral,s4類語音情緒的識(shí)別,取得了優(yōu)于原始1584維聲學(xué)特征的識(shí)別性能。4.語音情緒的特征分類模型在構(gòu)建語音情緒識(shí)別系統(tǒng)時(shí),第2節(jié)介紹過的兩種不同的情緒表示方式造就了兩種不同的分類模型。第一種識(shí)別情緒種類的系統(tǒng)是基于離散的情緒表示的模型,第二種識(shí)別情緒的系統(tǒng)是基于維度的一個(gè)回歸系統(tǒng),因?yàn)橄到y(tǒng)的輸出是一個(gè)連續(xù)性的數(shù)字。這兩種系統(tǒng)都是從聲音信號(hào)里面提取出與情緒相關(guān)聯(lián)的一系列特征向量。然后這些與情緒相關(guān)的特征向量會(huì)被用來訓(xùn)練分類器或者回歸系統(tǒng)。目前大多數(shù)的研究是在離散語音情緒模型上展開的,研究者們提出了許多分類模型,常BayesANN(artificialneuralLinearSVM(supportvectork-NN(k-nearestneighborANN,Non-linearSVM,GMM(Gaussianmixture(hiddenMarkovmodel)以及DNN(deepneural等,其中應(yīng)用最為廣泛有HMM,GMM,SVM以及DNN。NweHMM的識(shí)別器用于6和LPCC被用作情緒特征,為每個(gè)話者的每類情緒構(gòu)建一個(gè)四狀態(tài)、全連接的HMM,一個(gè)緬甸語語料庫和一個(gè)漢語普通話語料庫被分別用于HMM到HMM人不相關(guān)的情形下對(duì)模型性能進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,基于音素類別的HMM模型具有更優(yōu)的表現(xiàn)。GMM是一種用于密度估計(jì)的概率模型,可以被看作是只包含一個(gè)狀態(tài)的連續(xù)HMM模Gaussian成分的數(shù)量進(jìn)行優(yōu)化,由基頻和能量的相關(guān)特征訓(xùn)練得到GMM模型識(shí)別準(zhǔn)確率可達(dá)到Boosting算法進(jìn)行類條件分布估計(jì)的GMM模型,并稱其為Boosted-GMM,與傳統(tǒng)的使用EM(expectation計(jì)的EM-GMM相比,Boosted-GMM表現(xiàn)出更優(yōu)的性能。SVM分類器的關(guān)鍵在于核函數(shù)的運(yùn)用,它負(fù)責(zé)將原始特征以非線性的方式映射到高維空間中,從而提高數(shù)據(jù)的可分性。SVM在語音情緒識(shí)別領(lǐng)域有著廣泛的應(yīng)用,這里以文獻(xiàn)3種策略被用來構(gòu)建基于二分類SVM的多分類模型:前兩種策略中都首先為每類情緒構(gòu)建一個(gè)二分類的SVM,1種策略將待識(shí)別語句分配給距離其余情緒距離最遠(yuǎn)的情緒類型,而第2種策略則將各個(gè)二分類SVM的輸出作為一個(gè)3層MLP網(wǎng)絡(luò)的輸入,通過進(jìn)一步的計(jì)算做出最終的分配決定;第3種策略被稱為多層次的分類模型(hierarchicalclassification子分類器按照樹形結(jié)構(gòu)進(jìn)行排列,從根節(jié)點(diǎn)開始由粗略到細(xì)致地實(shí)現(xiàn)情緒的逐步劃分,在葉節(jié)點(diǎn)處給出最終識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明:在FERMUS種策略的識(shí)別率分別為3種策略表現(xiàn)最優(yōu)。語音情緒識(shí)別問題的一個(gè)難點(diǎn)就在于不清楚哪些特征對(duì)于情緒的識(shí)別更有效,而深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)恰好能對(duì)這一問題提供更多幫助,因?yàn)镈NN模型具有極強(qiáng)特征選擇能力,KunHanDNN模型來模擬每一句語音的情緒狀態(tài)概率分布,并將通過DNN模型提取出來的句子層級(jí)的情緒語音特征送入一個(gè)極端學(xué)習(xí)機(jī)器(extremelearningmachine,ELM)中來對(duì)語音進(jìn)行分類,DNN方法的流程如下圖所示,實(shí)驗(yàn)結(jié)果表明DNN的方法可以取得比上面提到的傳統(tǒng)方法更好的性能。Figure3DNN語音情緒識(shí)別流程,圖片來自[20]相比于離散語音情緒識(shí)別,基于維度情緒的模型較為新興,但也已得到領(lǐng)域內(nèi)研究者們?cè)摲椒ㄒ话惚唤闃?biāo)準(zhǔn)的回歸預(yù)測(cè)問題,即使用回歸預(yù)測(cè)算法對(duì)情緒屬性值進(jìn)行估計(jì),在當(dāng)前的維度語音情緒識(shí)別領(lǐng)域使用較多的預(yù)測(cè)算法有:LinearRegression,k-NN,ANN,SVR(supportvector因?yàn)樾阅芊€(wěn)定、訓(xùn)練時(shí)間短等優(yōu)點(diǎn)應(yīng)用得最為廣泛。例如,GrimmVAM數(shù)據(jù)庫上對(duì)k-NN和SVR等方的預(yù)測(cè)能力更勝一籌.我們可以看出:相比離散情緒分類器的繁榮發(fā)展,維度情緒預(yù)測(cè)算法的研究較為薄弱,更多針對(duì)情緒識(shí)別任務(wù)的有效算法仍有待探索。5.小結(jié)本節(jié)介紹了語音情緒識(shí)別的概念;語音情緒的分類表示,語音的情緒通常有兩種表示方法,一種是離散的語音情緒表示,這種方法通常將語音分成基本的幾個(gè)種類,另一種是基于維度的語音情緒表示方法,這種方法通常將語音的情緒劃分為三個(gè)維度,這對(duì)于語音情緒的描述更加細(xì)致且連續(xù);緊接著介紹了語音情緒特征數(shù)據(jù)庫的設(shè)計(jì)通常需要考慮的一些問題,包括情緒的自然度以及上下文的內(nèi)容;隨后介紹了語音特征的抽取,具體說明了特征抽取的作用域和抽取什么特征;最后本文著重介紹了傳統(tǒng)的基于離散語音情緒表示的分類模型有哪些,以及識(shí)別系統(tǒng)的性能。References[1]/news/Is-Emotion-Tracking-the-Future-in-Tech-or-Just-Down-Right-Creepy-434806.shtml[2]Cowie,Roddy,etal."Emotionrecognitioninhuman-computerinteraongnalprocessingmagazine18.1(2001):32-80.[3]Jiang,Bihan,etal."Adynamicappearancedescriptorapproachtofacialactionstemporalmodeling."IEEETrans.Cybernet2(2014):161-174.[4]ConstantineKotropoulos."Emotionalspeechrecognition:Resources,features,andmethodechcommunication48.9(2006):1162-1181.[5]ElAyadi,Moataz,MohamedS.Kamel,andFakhriKarray."Surveyonspeechemotionrecognition:Features,classificationschemes,anddas.ecogniti443(2011):572-587.[6]Ververidis,Dimitrios,andConstantineKotropoulos."Astateoftheartreviewonemotionalspeechdatabases.roceedingsof1stRichmediare3.[7]Lee,ChulMin,andShrikanthS.Narayanan."Towarddetectingemotionsinspokendialogs."IEEEtransactionsonspeechandaudioprosi005):293-303.[8]Nwe,TinLay,SayWeiFoo,andLiyanageC.DeSilva."SpeechemotionrecognitionusinghiddenMarkovmodels."Speechcommunication41.4(2003):603-623.[9]Bou-Ghazale,SaharE.,andJohnHLHansen."Acomparativestudyoftraditionalandnewlyproposedfeaturesforrecognitionofspeechunderres.ransactionsonspeechandaudioprocessin.4(2000):429-442.[10]Wu,Siqing,TiagoH.Falk,andWai-YipChan."Automaticspeechemotionrecognitionusingmodulationspectralfeaturchcommunication53.5(2011):768-785.[11]Rabiner,LawrenceR.,andRonaldW.Schr.alprocessingofspeechigs100.EnglewoodCliffs,NJ:Prentice-hall,1978.[12]Gobl,Christer,andA.N.Chasaide."Theroleofvoicequalityincommunicatingemotion,moodandattitude.peechCommunication40.1-2(2003):189-212.[13]Dehak,Najim,etal."Front-EndFactorAnalysisforSpeakerVerificationEETransactionsonAudioSpeech&LanguageProce2011):788-798.[14]Xia,Rui,andYangLiu."Usingi-vectorspacemodelforemotionre."AnnualConferenceoftheInternationalSpeechCommunicationAsso2.tion[15]Lee,ChulMin,etal."Emotionrecognitionbasedonphonemeclasses.ighthInternationalConferenceonSpokenLanguageProces20g[16]Breazeal,Cynthia,andLijinAryananda."Recognitionofaffectivecommunicativeintentinrobot-directedspeech.utonomousrobots12.1(2002):83-104.[17]andkurtosis-baseddynamicapproachtoGaussianmixtureEEETransactionsonSystems,Man,andCybernetics-PartA:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論