以NIST評估的結果說明LID技術的發(fā)展_第1頁
以NIST評估的結果說明LID技術的發(fā)展_第2頁
以NIST評估的結果說明LID技術的發(fā)展_第3頁
以NIST評估的結果說明LID技術的發(fā)展_第4頁
以NIST評估的結果說明LID技術的發(fā)展_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

以NIST的評估結果說明LID技術的發(fā)展一、 93年、94年和95年1、NIST評估結果[1]這3年NIST(theNationalInstituteofStandardsandTechnology)評估采用的數(shù)據(jù)庫是OGI-TS數(shù)據(jù)庫,測試方案為閉集測試。其中93年測試10種語種,94年測試11種語種,95年測試9種語種。測試語音時長分為45秒和10秒。測試有兩種方案:一種是兩種語種測試(LanguagePariswithEnglish),也就只測英語和其他語種中的一種,取平均錯誤率;另一種是多個語種測試(N-WAYClassification),取平均錯誤率。每年的最好的性能(錯誤率)分別見下表:表1NIST93年LID的評估結果方案/時^技術方法LanguagePariswithEnglishN-WAYClassification45s10s45s10sSF7%13%22%41%表2NIST94年LID的評估結果方案/時長技術方法LanguagePariswithEnglishN-WAYClassification45s10s45s10sPR4%10%21%30%表3NIST95年LID的評估結果-方案^時^技術方法LanguagePariswithEnglishN-WAYClassification45s10s45s10sSF/PR2%(SF/PR)4%(PR)12%(SF/PR)23%(SF)這里所采用的LID技術方法中,SF指的是syllabicfeaturesystem,PR指的是phonerecognitionfollowedbylanguagemodelingsystem。需要說明的是:在NIST95年評測中,SF/PR指的是上述兩種方法的融合方法。2、所采用的LID技術方法介紹在SF系統(tǒng)中,當時比較有代表性的是基于倒譜特征建模的方法和基于韻律特征建模的方法。1)基于倒譜特征建模的方法[2,3]對語音提取LPCC、MFCC等倒譜特征,訓練時采用VQ、GMM和HMM等方法對每個語種建立相應的模型,識別時對測試語音提取倒譜特征向量,得到每個語種的模型概率得分,取得分最大的模型所對應的語種為識別的語種。這種方法實現(xiàn)比較簡單,實時處理速度也很快,但是識別準確率不是很高。2)基于韻律特征建模的方法[4,5]對語音的每個syllable提取基音和幅度包絡、時長特性和重音模式等韻律

特征,訓練建立每個語種的相應模型,識別時取得分最大的模型所對應的語種為識別的語種。這種方法同樣實時處理速度較快,但是準確率受不同語種測試組合的影響比較大。在PR系統(tǒng)中,當時比較有代表性的是基于phone識別器的方法,即PPRLM方法[6],這種方法的結構框圖如圖1所示:該方法前端是平行的多個phone識別器,分別生成每個語種的phone串,由phone串訓練相應的N-gramLanguageModel,測試句子的phone串在這些LanguageModel的得分相加,取得分最大的模型對應的語種即為所識別語種。PPRLM系統(tǒng)前端可以是任意語種的phone識別器,并且數(shù)目可以任意擴展,但是需要每個語種帶標注的語料訓練相應的phone識別器,而且數(shù)目越多,處理速度也越慢。二、 1996年和2003年1、NIST評估結果[7,8]這兩年NIST均采用CallFriend數(shù)據(jù)庫作為評測數(shù)據(jù)庫,測試方案為開集測試,目標語種均為12種,外加其他非目標語種或者其他集上的目標語種。測試語音時長分為30秒、10秒和3秒,最終以EER作為評測性能的比較。這兩年最好的系統(tǒng)性能分別如下表所示。表4NIST96年LID的評估結果1(EER)語音時長技術方法30s10s3sPPRLM9.6%17.8%26.4%而在參考文獻[1]中提到,如果采用95年的測試方案對96年的評估數(shù)據(jù)進行閉集測試,評估結果則如下表所示。

表5NIST96年LID的評估結果2(ER)方案時技術方法LanguagePariswithEnglishN-WAYClassification30s10s30s10sPPRLM5%13%23%46%在96年之后的長達6年里,NIST沒有對LID進行評估,直到2003年,NIST提出和96年一樣的評估方案。共有6家單位參與了評估,最后以MITLincolnLaboratory的系統(tǒng)性能最好,該系統(tǒng)融合了PPRLM、GMM和SVM三種方法,其評估的結果如下表所示:表6NIST03年LID的評估結果(EER)語音吋長技術方法30s10s3sPPRLM6.6%14.3%25.5%GMM4.8%9.8%19.8%SVM6.1%16.4%28.2%FUSE32.8%7.8%20.3%2、所采用的LID技術方法介紹1) PPRLM方法該方法前面已經介紹過了,但03年所用的PPRLM方法是96年的改進版本,主要做了兩方面改進,一是增加了靜音phone模型,二是采用TrigramLanguageModel代替原來的BigramLanguageModel.2) GMM方法此方法主要包含兩種:GMM_UBM方法和GMMTokenization方法,MIT03年評估所采用的是在參考文獻[]中提到的GMMTokenization方法的改進版本。GMM_UBM方法[9]該方法使用所用語種的訓練數(shù)據(jù)訓練一個UniformBackgroundModel(UBM),然后再使用每個語種的部分訓練數(shù)據(jù)從UBM中自適應出每個語種的模型,該方法借助快速高斯的概念求出每個語種模型的概率得分,選模型得分最大者對應的語種即為所識別的語種,其結構框架如圖2所示[]:TRAININGEnglishFrenchGerman...SpeechUtteranceTESTINGUnknownrUtteranceGMM-UBM_L?gsnGratedfromsp&echofalllanguageBayesianAdaptationEnglishEnglishFrenchGerman...SpeechUtteranceTESTINGUnknownrUtteranceGMM-UBM_L?gsnGratedfromsp&echofalllanguageBayesianAdaptationEnglishA|伽chaGermanA...LanguageModelObtainTop5MiKturasfemUBMforeachspeechIdentifiedLanguage圖2GMM_UBM方法框圖采用94年NIST的評估方案和數(shù)據(jù),參考文獻[]使用該方法對11種

OGI-TS語種測試,特征采用PLP特征,得到Baseline測試結果

(PLP_Baseline);然后Baseline基礎上,特征方面采用VTLN技術,消除說話人聲道影響,5次迭代之后得到第二組測試結果(PLP_VTLN);最后把該方法和PPRLM方法的概率得分融合,得到第三組測試結果(FusedSystem)。每組實驗結果如表7所示:表7GMMUBM的實驗結果(ER)語音時長技術方法45s10sPLPBaseline23%34.4%PLPVTLN14.4%27.0%FusedSystem10.2%18.4%GMMTokenization方法[10,11]該方法和PPRLM方法類似,不同之處是該方法采用每個語種的GMM代替PPRLM中的每個語種的phone識別器作為前端解碼器,從而把語音解碼生成一串最大得分高斯分量的索引序列,由此索引序列訓練得到每個語種的LanguageModel。該方法的結構框圖如圖3所示:圖3GMMTokenziation方法框圖在參考文獻[12]中基于GMMTokenization方法,采用SDC(shifteddeltacepstrum)特征,對CallFriend數(shù)據(jù)庫中12種語種的1492個30秒的語音片斷進行測試,該方法和其他方法的比較試驗結果如表8所示:表8GMMTokenization方法于其他方法的比較實驗結果(EER)方法AcousticTOKFusionPPRLM結果8.78%8.78%6.90%7.84%其中,Acoustic方法指的是只用前端GMM得分作為決策的方法;TOK方法指的是只用后端LanguageModel得分決策的方法;Fusion指的是兩種得分融合決策的方法。MIT03年評估所采用的GMM方法融合了GMM_UBM和GMMTokenization兩種方法,是GMMTokenization的改進版本。它采用UBM自適應出來的每個語種的GMM代替GMMTokenization前端的GMM編碼器,此外又作了兩項改進:一是采用特征映射技術,消除了信道影響,二是每個語種分男女兩個模型,以消除說話人的部分影響。3)SVM方法[12]SVM方法只是近年來才用于語種識別,MIT03年LID評估所用的SVM方法系統(tǒng)框圖如圖4所示:SVMVietnames&LanguagerrwdelscoresShifted氏恤CApttrUCoefficientsInput SpeechSVMEnglishSVMVietnames&LanguagerrwdelscoresShifted氏恤CApttrUCoefficientsInput SpeechSVMEnglishBackendProceMingFeatureExtractionFinalscoresSVMArabic圖4SVM方法框圖使用SVM方法、GMM方法以及這兩種方法融合的方法對NIST03年評估的30秒的數(shù)據(jù)進行測試,其結果如下表9所示:表9SVM方法、GMM方法和Fused方法的實驗結果系統(tǒng)EERSVM6.1%GMM4.8%Fused3.2%三、總結PPRLM方法性能穩(wěn)定而且最好,GMM_UBM、GMMTokenization方法和SVM方法性能較差,但是其處理速度卻比PPRLM方法快得多。這些方法各有優(yōu)缺點,有一定的互補性,所以現(xiàn)在國際上多是把這些方法融合以取得最佳的語種識別性能。參考文獻MarcA.ZissmanandKayM.Berkling,AutomaticLanguageIdentification,SpeechCommunication.Vol35,2001,pp:115-124.M.Sugiyama.AutomaticLanguageRecognitionusingAcousticFeature.Proc.ICASSP'91,Vol.2,May,1991.M.A.Zissman,AutomaticLanguageIdentificationUsingGaussianMixtureandHiddenMarkovModels,inProceedingsoftheIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,Vol.2,pp.399-402,Minneapolis,USA,April1993.Itahashi,S.,Neuburg,E.P.,LanguageIdentificationbasedonspeechfundamentalfrequency,Eurospeech,Vol.2,pp:1359-1362,1995Thyme-Gobbel,A.E.,Hutchins,S.E.,Onusingprosodiccuesinautomaticlanguageidentification,InternationalConferenceonSpokenLanguageProcessing,Vol.3,pp:1768-1772,1996MarcA.Zissman,ComparisonforFourApproachestoAutomaticLanguageIdentificationofTelephoneSpeech,IEEETransactionsonSpeechandAudioProc.Vol.4,1996.E.Singer,P.A.Torres-Carrasquillo,T.P.Gleason,W.M.CampbellandD.A.Reynolds,Acoustic,PhoneticandDiscriminativeApproachestoAutomaticLanguageRecognition,Euroespeech,Sep.1-4,2003,Geneva,Switzerland.AlvinF.MartinandMarkA.Przybockl,NIST2003LanguageRecognitionEvaluation,ProceedingsofEurospeech,2003,pp:161-164E.WongandS.Sridharan,MethodstoImproveGaussianMixtureModelBasedLanguageIdentificationSystem,Proc.ICSLP,Sept.2002,pp:93-96P.A.Torres-Carrasquillo,D.A.ReynoldsandJ.R.Deller,Jr.,LanguageIdentificationusingGaussianMixtureModelTokenization,ICASSP,Orlando,Fl,USA,2002.P.A.Torres-Carrasquillo,E.Singer,M.A.Kohler,R.J.Greene,D.A.ReynoldsandJ.R.Dellar,Jr.,ApproachestoLanguageIdentificationusingGaussianMixtureModelandShiftedDeltaCepstralFeatures,Proc.ICSLP,Sept.2002,pp:89-92W.M.Campbell,E.Singer,P.A.Torres-CarrasquilloandD.A.Reynolds,LanguageRecognitionwithSupportVectorMachine,Proc.Odyssey:TheSpeakerandLanguageRecognitionWorkshopinToledo,Spain,ISCA,pp.41-44,31May-3June2004.2.詳細技術內容語種識別在信息檢索和軍事領域都有很重要的應用,主要包括多語種信息查詢、機器自動翻譯的前端處理以及軍事上對說話人身份和國籍的自動識別等。當前,國際上主流的語種識別系統(tǒng)主要有以下三種:基于phone識別器的語種識別系統(tǒng)(PPRLM),其原理是語音信號經過特征提取之后,通過多個平行的phone識別器生成phone序列,由這些序列訓練相應各語種的n-gram語言模型,測試句子的phone序列由語言模型打分,取得分最大的語言模型所對應的語種作為所識別的語種。這種方法的優(yōu)點是性能最好而且穩(wěn)定,缺點是需要訓練識別器,所以識別速度慢?;贕MM-UBM的語種識別系統(tǒng),其原理是由全局背景模型(UBM)自適應獲得各目標語種的高斯混合模型,然后計算測試句子在各語種模型上的得分,取得分最大的模型所對應的語種為所識別的語種。這種方法的優(yōu)點是不需要訓練識別器,識別速度快,但性能較PPRLM方法較差。基于支持向量機(SVM)的語種識別系統(tǒng),其原理是語音信號的每幀頻譜特征向量通過 GLDS(GeneralizedLinearDiscriminantSequence)模塊,轉換成帶有區(qū)分性的序列特征向量,以此訓練得到各語種的SVM模型。測試句子的序列特征向量由各語種的SVM模型打分,取得分最大的模型所對應的語種為所識別的語種。這種方法最近才用于語種識別,其性能還有待進一步提高。我們在應用于媒體資源管理時,所開發(fā)應用的語種識別系統(tǒng)是基于GMM-UBM的語種識別系統(tǒng),其系統(tǒng)結構框架如下:流程步驟:使用各語種的所有訓練集數(shù)據(jù)獲得一個語言全局背景模型(UBM),然后由貝葉斯自適應算法獲得各目標語種的高斯混合模型(GMM);使用各語種的開發(fā)集數(shù)據(jù),計算得到各語種的模型得分,把該得分向量借助LDA降維,得到各語種的后端高斯分類器;測試時,首先由UBM獲得前N個得分最大的高斯混合分量,然后計算各語種在此N個分量上的模型得分,把該得分向量輸入各語種的后端高斯分類器,取得分最大的分類器所對應的語種為所識別的語種。該系統(tǒng)涉及到的關鍵技術包括:倒譜SDC特征的提取、抗噪、靜音檢測、信道和說話人歸一化技術等;模型的聚類(K均值聚類、ISODATA聚類等)、貝葉斯自適應算法以及LDA算法等。國際上NIST2003年語種識別系統(tǒng)評估的最好結果是由MIT實驗室取得的,其把基于PPRLM、UBM-GMM和SVM三種系統(tǒng)融合,對12種語言的30秒、10秒和3秒的語音識別,其等錯誤率(EER)結果分別為2.8%、7.8%和20.3%;而我們的系統(tǒng)在對短波帶噪的60秒的語音識別時,10種語言的識別率達到90%以上。2.詳細技術內容語種識別在信息檢索和軍事領域都有很重要的應用,主要包括多語種信息查詢、機器自動翻譯的前端處理以及軍事上對說話人身份和國籍的自動識別等。世界上的不同語種間有很多區(qū)別,比如音素集合、音位序列、音節(jié)結構韻律特征、語法及語義等。利用這些特征和大詞匯量連續(xù)語音識別的一些關語音信號特征提取之后,經過多個平行的phone識別器生成phone序列,由這些序列訓練相應各語種的n-gram語言模型,測試

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論