基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識(shí)別_第1頁(yè)
基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識(shí)別_第2頁(yè)
基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識(shí)別_第3頁(yè)
基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識(shí)別_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識(shí)別

隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)也取得了很大進(jìn)步。但是,由于語(yǔ)音信號(hào)的復(fù)雜性和多樣性,以及連續(xù)語(yǔ)音識(shí)別中的協(xié)同發(fā)音現(xiàn)象廣泛存在,目前的語(yǔ)音識(shí)別算法在一定程度上還不能滿(mǎn)足人們使用的需要。以漢語(yǔ)為例,漢語(yǔ)的發(fā)音音節(jié)很短,一般只有一個(gè)音節(jié),由聲母和韻母組成,因此在語(yǔ)音信號(hào)中的信息量很小,給識(shí)別帶來(lái)很大困難。另外,漢語(yǔ)是一種有調(diào)語(yǔ)言,不同音調(diào)的音節(jié)之間的混淆是識(shí)別中最常見(jiàn)的替代錯(cuò)誤。因此,針對(duì)漢語(yǔ)的特有性質(zhì),有人利用不同的特征在不同的空間分別建模,但勢(shì)必造成系統(tǒng)的結(jié)構(gòu)過(guò)于復(fù)雜。實(shí)驗(yàn)表明,如果在進(jìn)行語(yǔ)音識(shí)別之前,事先知道待識(shí)別語(yǔ)音的性別,則會(huì)大大提高最后的識(shí)別效果。在進(jìn)行語(yǔ)音識(shí)別之前,先對(duì)識(shí)別樣本進(jìn)行性別識(shí)別,再用不同的模型對(duì)不同的性別進(jìn)行語(yǔ)音識(shí)別,這樣不僅訓(xùn)練出來(lái)的模型更加精確,而且也可以減小模型的混合次數(shù),降低模型的復(fù)雜度。仿生模式識(shí)別是王守覺(jué)院士于2002年提出的一種新的模式識(shí)別的方法和理論,在此理論基礎(chǔ)上提出一種高維空間覆蓋算法,通過(guò)不同樣本在高維空間中覆蓋的不同區(qū)域?qū)颖具M(jìn)行劃分,并將該算法應(yīng)用于語(yǔ)音信號(hào)的性別識(shí)別。1語(yǔ)音的性別特征語(yǔ)音信號(hào)中有很多特征參數(shù),如時(shí)域中的短時(shí)能量,短時(shí)過(guò)零率,短時(shí)自相關(guān),以及頻率域中的頻譜,基音頻率等。要想對(duì)語(yǔ)音信號(hào)進(jìn)行性別劃分,就要抓住最能體現(xiàn)語(yǔ)音性別特征的參數(shù)。圖1(a)和圖1(b)分別為男性和女性說(shuō)話(huà)人發(fā)出漢語(yǔ)讀音“元素”時(shí)的波形圖,語(yǔ)譜圖以及有效基音頻率的曲線(xiàn)。從圖中可以看到,男性和女性的基音頻率分布在不同的區(qū)域。圖2中通過(guò)對(duì)比發(fā)現(xiàn),女性基頻值明顯高于男性。語(yǔ)音中的濁音是準(zhǔn)周期信號(hào),基音頻率的物理含義是濁音的聲帶振動(dòng)基頻。統(tǒng)計(jì)顯示,不同性別的說(shuō)話(huà)人,基音頻率具有不同的分布。男性說(shuō)話(huà)者的基頻大部分集中在60~200Hz之間,女性大部分在200~450Hz。2自殺檢測(cè)2.1類(lèi)模式類(lèi)的基本框架模式識(shí)別是通過(guò)對(duì)具體的事物進(jìn)行觀測(cè)所得到的具有時(shí)間與空間分布的信息,模式所屬的類(lèi)別或同一類(lèi)中的模式的總稱(chēng)為模式類(lèi),其中個(gè)別具體的模式稱(chēng)為樣本。其基本框架如圖3所示。其中,起決定作用的是分類(lèi)器的設(shè)計(jì)?,F(xiàn)存的分類(lèi)方法有很多種,如基于統(tǒng)計(jì)決策分類(lèi)理論的統(tǒng)計(jì)識(shí)別,起源于生物神經(jīng)系統(tǒng)研究的神經(jīng)網(wǎng)絡(luò),事先設(shè)定模版的模版匹配識(shí)別,以及基于知識(shí)向量機(jī)理論的模式識(shí)別等。2.2仿生模式的概念傳統(tǒng)模式識(shí)別中,人們考慮模式識(shí)別問(wèn)題的主要出發(fā)點(diǎn)都是若干類(lèi)別的最佳劃分問(wèn)題;而仿生模式識(shí)別的基本出發(fā)點(diǎn)是把模式識(shí)別問(wèn)題看成對(duì)各種各樣模式的“認(rèn)識(shí)”過(guò)程,而不是劃分。正如人類(lèi)能很快地分辨出周?chē)奈矬w,是因?yàn)槿祟?lèi)很好的認(rèn)識(shí)了每一種事物的特征,并不是以對(duì)每種事物的分類(lèi)為前提的。仿生模式識(shí)別的基點(diǎn)為:特征空間中同類(lèi)樣本全體的連續(xù)性規(guī)律。傳統(tǒng)的模式識(shí)別的所有知識(shí)都存在于訓(xùn)練樣本中,因此基本上都是基于大數(shù)據(jù)量的訓(xùn)練樣本。而仿生模式識(shí)別則認(rèn)為,自然界任何預(yù)被認(rèn)識(shí)的事物(包括事物,圖像,聲音,語(yǔ)言,狀態(tài)等等)若存在兩個(gè)“同源”同類(lèi)而不完全相等的事物,而這兩個(gè)事物的差別是可以漸變的或非量子化的,則這兩個(gè)同類(lèi)事物之間必至少存在一個(gè)漸變的過(guò)程,在這個(gè)漸變過(guò)程中間的各事物都是屬于同一類(lèi)的,以數(shù)學(xué)公式描述為:特征空間Rn中,設(shè)所有屬于A類(lèi)事物的全體所構(gòu)成的點(diǎn)集為A,若集合A中存在任意兩個(gè)元素x與y,則對(duì)ε為任意大于零的值時(shí),必定存在集合B使:即在樣本足夠多的情況下,所有同類(lèi)模式所構(gòu)成的樣本在高維空間中應(yīng)構(gòu)成一個(gè)或多個(gè)閉合的區(qū)域,其中任意兩個(gè)樣本之間是連續(xù)的。也就是說(shuō),如果一個(gè)待識(shí)別樣本出現(xiàn)在某一類(lèi)模式的這個(gè)閉合區(qū)域,則該樣本應(yīng)該是屬于這類(lèi)模式。仿生模式識(shí)別抓住任兩個(gè)相近同類(lèi)樣本之間的相似性,通過(guò)對(duì)訓(xùn)練樣本的“認(rèn)識(shí)”過(guò)程來(lái)為每一種模式建立模型。這樣建立起來(lái)的模型不僅能夠反映出訓(xùn)練樣本中所攜帶的信息,也能通過(guò)連續(xù)的思想,將鄰近的兩個(gè)同類(lèi)樣本之間的信息保存在模型中。3模擬識(shí)別適用于性別識(shí)別3.1第三,基音頻率的估計(jì)特征提取的目的是從語(yǔ)音信號(hào)中抽取出能完全,精確的表達(dá)語(yǔ)音信號(hào)所攜帶的全部的用于識(shí)別的信息參數(shù)。特征提取是該系統(tǒng)的第一步,也是至關(guān)重要的一步,因?yàn)橛械恼Z(yǔ)音特征在反映性別特征的過(guò)程中沒(méi)有積極作用,反而造成系統(tǒng)數(shù)據(jù)的冗余?;纛l率在語(yǔ)音信號(hào)中是區(qū)分男女性別的主要特征,而且結(jié)構(gòu)簡(jiǎn)單,每一幀數(shù)據(jù)只有一維基頻,能夠簡(jiǎn)化分類(lèi)識(shí)別過(guò)程。本文中實(shí)驗(yàn)數(shù)據(jù)采樣頻率為8kHz,位深度16bit,采用文獻(xiàn)中的幅度差和函數(shù)方法對(duì)樣本進(jìn)行基音頻率的估計(jì),并用Viterbi算法進(jìn)行后處理。將不存在基音的幀舍棄。3.2平均幀數(shù)及方向函數(shù)仿生模式識(shí)別基本出發(fā)點(diǎn)是對(duì)一類(lèi)一類(lèi)樣本的“認(rèn)識(shí)”,利用神經(jīng)元建立高維空間復(fù)雜幾何形體,完成對(duì)某類(lèi)樣本的最佳覆蓋過(guò)程。本文采用一種類(lèi)高斯混合模型的神經(jīng)元:其中,d為樣本的維數(shù),在性別識(shí)別中為樣本的幀數(shù),即一個(gè)樣本代表高維空間中的一個(gè)點(diǎn),th為設(shè)定門(mén)限值,R=[r1,r2,…,rd]為每一個(gè)神經(jīng)元的核心權(quán)值,表示每一維數(shù)據(jù)在高維空間中的中心;V=[v1,v2,…,vd]為方向權(quán)值,表示在每一個(gè)方向上距離中心的大小。其中:M為訓(xùn)練樣本的個(gè)數(shù),δ為調(diào)整大小的參數(shù)。訓(xùn)練時(shí),首先計(jì)算所有訓(xùn)練樣本之間的距離:m、n代表任意兩個(gè)訓(xùn)練樣本。從中選擇距離最大的兩個(gè)樣本,即一類(lèi)模式的兩個(gè)邊緣,從任意一個(gè)邊緣處開(kāi)始對(duì)樣本進(jìn)行高維空間的覆蓋。尋找平均距離最小的M個(gè)樣本,完成一個(gè)神經(jīng)元的訓(xùn)練,直至所有的樣本都被覆蓋,這時(shí)所有的神經(jīng)元就形成對(duì)該類(lèi)別所有樣本在高維空間的覆蓋。3.3分類(lèi)識(shí)別樣本首先,對(duì)待識(shí)別樣本進(jìn)行和訓(xùn)練樣本同樣過(guò)程的特征提取,將與訓(xùn)練樣本相同幀數(shù)的基音頻率保存下來(lái)。對(duì)待識(shí)別樣本進(jìn)行性別識(shí)別的過(guò)程,就是判斷被識(shí)別樣本是否落在代表男性或是女性的訓(xùn)練樣本所圍成的高維有限空間的并集中。識(shí)別時(shí)的判別函數(shù)為:其中,Ymi代表所有的由男性訓(xùn)練樣本得出的神經(jīng)元,Yfi代表所有由女性樣本得出的神經(jīng)元,f為判別函數(shù)。4仿生模式實(shí)驗(yàn)該實(shí)驗(yàn)采用的數(shù)據(jù)庫(kù)為WSJ英文語(yǔ)音數(shù)據(jù)庫(kù)。為了突出仿生模式識(shí)別的性能優(yōu)勢(shì),減少實(shí)驗(yàn)結(jié)果受隨機(jī)因素的影響,本次實(shí)驗(yàn)主要采取小數(shù)據(jù)集訓(xùn)練,大數(shù)據(jù)集測(cè)試的原則。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)均提取前30幀有效基頻,男女各用50條數(shù)據(jù)進(jìn)行訓(xùn)練,850條數(shù)據(jù)進(jìn)行測(cè)試。由于訓(xùn)練數(shù)據(jù)比較少,可能會(huì)出現(xiàn)由于數(shù)據(jù)采集時(shí)不同人的不同聲音特征不具代表性,而影響最后統(tǒng)計(jì)結(jié)果的普遍性,因此該實(shí)驗(yàn)共進(jìn)行6次,分別使用不同的數(shù)據(jù)進(jìn)行訓(xùn)練,相同的數(shù)據(jù)進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表1所示。同時(shí),使用相同的數(shù)據(jù)采用HMM的方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)使用HTK工具箱,分別為男女建模,模型中狀態(tài)數(shù)為5,混合數(shù)為6,同樣對(duì)以上6組數(shù)據(jù)進(jìn)行識(shí)別,實(shí)驗(yàn)對(duì)比結(jié)果如表2所示。仿生模式識(shí)別的算法設(shè)計(jì)結(jié)果不僅受訓(xùn)練樣本的影響,高維空間的維數(shù)也會(huì)影響識(shí)別結(jié)果。因此,接下來(lái)的實(shí)驗(yàn),依次增大高維空間的維數(shù),從5維增加到100維。訓(xùn)練數(shù)據(jù)100個(gè),測(cè)試數(shù)據(jù)500個(gè)。不同實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)為相同的語(yǔ)料,提取其中的不同幀數(shù)的基音頻率用于識(shí)別。實(shí)驗(yàn)結(jié)果如表3所示。該實(shí)驗(yàn)中,男性女性識(shí)別率具體的變化趨勢(shì)如圖4所示。本文分析了

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論