基于矢量量化模型的說話人識別研究_第1頁
基于矢量量化模型的說話人識別研究_第2頁
基于矢量量化模型的說話人識別研究_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于矢量量化模型的說話人識別研究

1線性預測分析識別語言的關鍵之一是從語言中提取反映語言特征的獨特函數(shù)。語音特征的選擇是整個說話人識別系統(tǒng)的基礎,對正確識別率有著直接的影響。線性預測(LinearPrediction)是語音處理中的核心技術,其提取的語音特征線性預測系數(shù)(LPC)及其導出的特征用于說話人識別時性能各有不同,如何選擇適當?shù)膮?shù)獲得最好的分類結果是需要解決的重要問題。論文通過矢量量化模型下說話人識別系統(tǒng)的仿真實驗系統(tǒng)地研究了線性預測系數(shù)(LPC)及其導出的特征集的性能,總結出適用于說話人特征提取的參數(shù)設置規(guī)律,解決了線性預測分析在說話人識別應用中的實際問題。2線性預測分析中生成的特征集2.1線性預測分析在語音信號中,相鄰采樣值之間存在很大的相關性,某時刻的信號很大程度上可以利用對過去的采樣值的預測得到,即每個采樣值可以通過幾個過去時間的采樣值的線性組合來逼近:式中,p是預測器的階數(shù),u(n)代表激勵序列,G為u(n)的增益。線性預測分析的目的是確定預測系數(shù)邀a(k)|k=1,...,p妖,使平均預測誤差盡可能的小。通常使用Levinson-Durbin算法計算LPC系數(shù),它是將自相關序列作為輸入,時間復雜度為o(p2),小于標準高斯消去方法的復雜度o(p3)。計算步驟見圖1。2.2lar、arcsin、zp的算法實現(xiàn)從LPC系數(shù)可以導出幾種很有用的特征,包括線性預測倒譜系數(shù)(LPCC),反射系數(shù)(REFL),對數(shù)面積比系數(shù)(LAR),反正弦系數(shù)(ARCSIN)和線譜頻率(LSF)。各特征集的計算是相互聯(lián)系的。LPCC系數(shù)可以使用(3)式直接從預測器系數(shù)中生成。使用Levinson-Durbin算法計算LPC系數(shù)同時可以生成REFL系數(shù)邀k(i)妖,i=1,...,p。對(4)式中的一組從REFL系數(shù)得到的新參數(shù)取對數(shù),即為LAR系數(shù)。ARCSIN系數(shù)是通過對REFL系數(shù)求反正弦變換得到的。LSF特征集的計算比較復雜,需要求解兩個復多項式的根。除了計算上面的系數(shù)特征,LPC還可以用于共振峰估計。設z1,z2,...,zp是(5)式中傳遞函數(shù)通過數(shù)值求根的方法得到的極點,每個極點對應頻譜中的一個局部峰值,因此極點是與共振峰結構相關的。通過(6)和(7)式來估計共振峰頻率和帶寬。3對單件性能的測量3.1特征空間的大小要求方差特征參數(shù)的選擇應較好地反映說話人的個人特征:即要求對于同一個人,這些特征參數(shù)最好能集中在特征空間的某一區(qū)域,或者說方差很?。欢鴮Σ煌娜藙t要求方差很大。特征類型的有效性可用“F比”來表征。3.2特征集碼書論文在分類實驗中使用基于矢量量化(VQ)的分類方法。VQ技術是一種非參數(shù)建模方法,對特征的基本分布幾乎沒有要求,因此其實驗結果可以推廣到其它模型。使用隨機局部搜索(RSL)算法從每個說話人的數(shù)據集中產生固定尺寸的碼書。實驗針對說話人閉集數(shù)據庫進行,因此選擇產生最小失真的測試序列對應的說話人作為辨認判決結果。因為識別具體任務只是影響決策類型的選擇,所以如果一種特征集在閉集辨認中有很好的性能,也可以推廣到說話人識別其它兩項任務中(開集辨認和確認)。分類性能使用分類誤差率來進行測量:其中Ne是不正確分類的測試序列的數(shù)目,N是總的序列的數(shù)目。最初實驗使用全部的測試序列,很多情況下誤差率等于零,觀察不到特征中的差異。因此需要將測試集做更細致的劃分,對各子集逐個進行分類,以增強測試結果的分辨率。4語音信號的生成實驗數(shù)據來自英語聲調變化數(shù)據集(IViE,IntonationalVariationinEnglish)。語音信號的采樣頻率為16kHz,在碼書生成(訓練)和識別階段都使用歐氏距離。預處理參數(shù)分別為:30ms的漢明窗,窗移20ms,自適應預加重。4.1線性預測器的階數(shù)對性能的影響所有LPC導出的特征都是基于預測器多項式確定的全極點模型,所以從線性預測系數(shù)性能開始研究。變化LPC預測器階數(shù)(p=5,6,...,30)和碼書尺寸(K=16,32,64)。圖2的仿真結果表明,LPC系數(shù)在說話人識別中的性能與語音識別文獻中提出的觀點有所不同。在語音識別中,因為兩個LPC系數(shù)之間的相關性較大,有人認為LPC系數(shù)不能單獨使用。而實驗中,在只是使用了簡單的歐氏距離測度,沒有任何歸整情況下LPC系數(shù)的性能就很好。盡管在不同預測器階數(shù)情況下性能有所差異,但總體上存在碼書增加,誤差下降的趨勢。在p=15左右誤差率接近零。人類語音大約每1kHz存在一個復極點,并且有1~2個復極點對應于喉和唇的發(fā)射效應。實驗中,F(xiàn)s=11.025kHz,第11個極點為復極點,因此需要大約12~13個極點,線性預測器的階數(shù)p=12~13。這個規(guī)則給出了估計預測器階數(shù)的大致方法。4.2基于低個數(shù)的lpc誘導的lsf特征性能基于前面的實驗,使用階數(shù)p=15的預測器計算LPC導出的特征。固定碼書尺寸K=64,變化特征系數(shù)的數(shù)目。從圖3給出的分類結果可以看出,由于設定系數(shù)數(shù)目足夠,所有的LPC導出的特征性能都優(yōu)于LPC系數(shù)。LSF系數(shù)在系數(shù)數(shù)目較少時性能較差,但隨系數(shù)數(shù)目的增加,LSF的性能也變得與其它特征性能相仿。固定預測器階數(shù)p=15,變化碼書尺寸:從K=16按2冪增加到K=256。從表1中數(shù)據可見,所有的LPC導出的特征系數(shù)在預測器階數(shù)(叟15)和系數(shù)數(shù)目(叟12)足夠時都能達到零誤差,LPC系數(shù)的性能最差。4.3共振峰頻率的確定實驗還對LPC導出的共振峰頻率及其帶寬進行了研究。碼書尺寸固定為K=64,LPC系數(shù)的數(shù)目從p=5到p=15。對于給定的預測器階數(shù),選擇奈奎斯特范圍內最少的極點數(shù)目。圖4比較了共振峰頻率,LPC和LPCC特征集??梢钥吹?,增加LPC階數(shù)可以降低共振峰的誤差率。共振峰的總體性能比LPC系數(shù)差,因此共振峰的判決性要比LPC導出的特征集都差。當LPC階數(shù)高時,共振峰的性能也會變得很好。雖然會出現(xiàn)偽共振峰的情況,但因為說話人的許多信息只存在于共振峰頻率點上,所以研究LPC導出的共振峰頻率還是很有價值的。計算p=30時不同共振峰頻率的“F比”來比較它們的判決性。由圖5知:對于實驗中的數(shù)據集,不同共振峰的判決性趨于一致。5基于lpc的輔助參數(shù)化論文通過對不同參數(shù)設置情況下,線性預測系數(shù)(LPC)及其導出的特征集的性能比較和分析,總結了線性預測分析用于說話人特征提取時選擇參數(shù)的規(guī)律。說話人特征提取中,計算LPC系數(shù)及其導出的特征時階數(shù)要高于語音識別中使用的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論