![[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第1頁](http://file.renrendoc.com/FileRoot1/2017-12/8/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd4/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd41.gif)
![[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第2頁](http://file.renrendoc.com/FileRoot1/2017-12/8/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd4/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd42.gif)
![[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第3頁](http://file.renrendoc.com/FileRoot1/2017-12/8/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd4/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd43.gif)
![[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第4頁](http://file.renrendoc.com/FileRoot1/2017-12/8/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd4/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd44.gif)
![[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究_第5頁](http://file.renrendoc.com/FileRoot1/2017-12/8/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd4/1b459f12-021c-4c7d-8c6e-6fb95b9e3dd45.gif)
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀
[碩士論文精品]基于對特定人小詞匯量的車載語音識別的研究.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
武漢理工大學(xué)碩士學(xué)位論文摘要語音識別與處理技術(shù)在信息技術(shù)的人機(jī)接口中得到普遍關(guān)注,它在電子產(chǎn)品中的應(yīng)用使得人們的生活變得更加的精彩。通過語音命令,人們就能控制系統(tǒng)設(shè)備讓其響應(yīng)語音指令的相應(yīng)動作。這種具備了語音識別功能的系統(tǒng)在互聯(lián)網(wǎng)、通信、軍事、國防等方面具有十分重要的價值。語音識別技術(shù)應(yīng)用于車載平臺上,它能使對小車的駕駛顯得更加的靈活簡單,也更加的安全與舒適。本文研究基于特定人小詞匯量的DTW模型與算法的語音識別技術(shù)。介紹了語音識別的基本方法,并在傳統(tǒng)DTW算法的基礎(chǔ)上對語音識別算法進(jìn)行了改進(jìn)與優(yōu)化。本文采用可變窗長和雙門限相結(jié)合的方法來進(jìn)行語音端點(diǎn)檢測。在進(jìn)行最優(yōu)路徑選擇中,本文采取了松弛起點(diǎn)與終點(diǎn)的辦法來選取最優(yōu)匹配路徑。通過MATLAB的仿真結(jié)果可以看出改進(jìn)后的DTW算法識別結(jié)果明顯優(yōu)化傳統(tǒng)DTW算法的識別結(jié)果。全文首先是對語音識別技術(shù)的基本原理作出了介紹與分析。對于特定人孤立詞小詞匯量語音識別系統(tǒng),本文選用DTW算法進(jìn)行語音識別。在確定選用DTW算法后,本文就開始對DTW算法進(jìn)行改進(jìn)與優(yōu)化。并將改進(jìn)后的DTW算法與傳統(tǒng)的DTW算法進(jìn)行對比,通過仿真結(jié)果的比較我們可以看出優(yōu)化后的算法優(yōu)于傳統(tǒng)算法。在進(jìn)行端點(diǎn)檢測的過程中,本文首先將分幀處理后的語音信號劃分為靜音段、過渡段和語音段。然后對靜音段、過渡段、語音段分別取不同的窗長來進(jìn)行處理。在靜音段本文選用較長的窗長進(jìn)行處理,對于語音過渡段我們?nèi)≥^小的窗長與幀移,在語音段,我們就取常規(guī)窗,這樣既不會影響語音識別系統(tǒng)的處理速度,又能夠較準(zhǔn)確的達(dá)到端點(diǎn)檢測的目的。在進(jìn)行變窗長處理的同時本文還結(jié)合雙門限端點(diǎn)檢測的方法來進(jìn)行語音信號的端點(diǎn)檢測。在具體的DTW算法實現(xiàn)的過程中,本文利用了動態(tài)規(guī)整技術(shù)與松弛端點(diǎn)的方法來選取最優(yōu)匹配路徑。在具體的硬件實現(xiàn)中,本文采用了最小系統(tǒng)與最高性價比的方案來實現(xiàn)語音識別功能。語音識別模塊完全采用自制的程序,而且在對小車的控制方面,本文采用了劃分頻段發(fā)送波形的方法來控制小車響應(yīng)不同的動作。針對此語音識別系統(tǒng),本文提出了需要改進(jìn)的地方。最后本文對全文工作做了總結(jié),并對語音識別的未來提出了展望。關(guān)鍵字語音識別;DTW模型;車載語音;端點(diǎn)檢測武漢理工大學(xué)碩士學(xué)位論文ABSTRACTSPEECHRECOGNITIONANDPROCESSINGINHUMANMACHINEINTERFACESTECHNOLOGYISWIDESPREADCONCERNEDITSAPPLICATIONMAKESPEOPLESLIVESMORECONVENIENTPEOPLECANOPERATETHEDEVICEONLYBYTHECOMMANDOFTHEVOICETHEDEVICEWHICHISAVOICERECOGNITIONSYSTEMONTHEINTEMET,COMMUNICATIONS,MILITARY,NATIONALDEFENSEANDETCISOFVERYIMPORTANTVALUESIMILARLY,THESPEECHRECOGNITIONTECHNOLOGYINTHEPLATFORMOFVEHICLE,ITMUSTMAKETHEDRIVINGISMOREFLEXIBLE,MORESECURITYANDCOMFORTABLETHISPAPERISAPAPERBASEDONTHEDTWMODELOFSPEECHRECOGNITIONTECHNOLOGYANDITINTRODUCESTHEBASICMETHODSOFSPEECHRECOGNITIONTHATTHESPEECHRECOGNITIONISIMPROVEDANDOPTIMIZEDISTOBEAPPLIEDTOVEHICLESIMULATIONSYSTEMSTHISPAPERISFOCUSINGONTHEOPTIMIZATIONBASEDENDPOINTDETECTION,COMBININGWITHVARIABLEWINDOWLENGTH,TWOVOICEACTIVITYDETECTIONTHRESHOLDANDTHENMAKINGOPTIMALPATHSELECTION,TAKINGARELAXINGWAYTOTHEBEGINANDTHEEND,SOSPEECHRECOGNITIONWILLBEMOREACCURATETHESIMULATIONANDEXPERIMENTCANBESEENTHATTHESEMETHODSCOULDIMPROVETHEACCURACYOFSPEECHRECOGNITIONANDTENTATIVEONTHEFUZZYALGORITHMISAPPLIEDTOSPEECHRECOGNITIONMODELSPECIFICALLY,FLRST,THEPROCESSINGOFDTWMODELBASEDONSPEECHRECOGNITIONINCLUDINGHOWTOREMOVETHENOISE,THESPEECHFEATUREPARAMETERSEXTRACTIONANDTHEINTERTRANSFORMOFTHESIGNALBETWEENFREQUENCYDOMAINANDTIMEDOMAINANDTHEBASICTHEORYOFSPEECHRECOGNITION,THISPAPERMAKESTHEINTRODUCTIONANDANALYSISTOTHATWHILEDETERMININGTHEISOLATEDWORDSPEECHRECOGNITIONAPPLICATIONSANDTHEDTWMODEL,ITHASBEENIMPROVEDANDOPTIMIZEDTHERECOGNITIONALGORITHMANDITREALIZESTHESYSTEMTHESIMULATIONWILLBEIMPROVEDCOMPAREDTHEOPTIMALALGORITHMSPEECHRECOGNITIONWITHTHEPREVIOUSTRADITIONALMETHODTHISPAPERANALYZEDHOWTHE“VOICERECOGNITIONALGORITHMIMPROVEDWHENATTHEFRAMEPROCESSING,QUIETSEGMENTS,VOICESEGMENTSANDTRANSIENTSEGMENTSGETTHEDIFFERENTWINDOWSTOPROCESSINTHEQUIETSECTIONOFTHESIGNALSOFVOICE,WECANUSELONGERWINDOWLENGTHCAMETOPICKUPTHEFRAMEINTHETRANSITIONSECTIONOFTHEVOICE,WEC盈TNUSESHORTERWINDOWLENGTHTOPICKUPTHEN武漢理工大學(xué)碩士學(xué)位論文FRAMEINTHEVOICESECTION,WECARLUSEREGULARWINDOWLENGTHTOPICKUPTHEFRAMEATTHESAMETIMEWEALSOCOULDUSEADOUBLETHRESHOLDMETHODFORENDPOINTDETECTION,WHICHCOMBINESSHORTTIMEAVERAGEENERGYANDTHESHORTTERMZEROCROSSINGRATE,WETAKETHELOWTHRESHOLDANDHI。GHTHRESHOLDTOLIMITTHEVALUEOFTHESTARTINGPOINTANDENDPOINTINTHESPECIFICPROCESSOFDTWALGORITHM,USINGDYNAMICWARPINGANDRELAXATIONMETHODSINTHEENDPOINT,SELECTINGTHEOPTIMALPATH,SOITCANGETAMOREACCURATEVOICEMATCHINSPECIFICAPPLICATIONS,WECOMBINETHESYSTEMWITHTHEHIGHESTMINIMUMCOSTOFTHEPROGRAMTOACHIEVEITINTHEENTIREAPPLICATIONOFTHEALGORITHM,THISPAPERCOMPLETESTHEIMPLEMENTATIONSPEECHRECOGNITIONPROCESSISCOMPLETELYSELFMADEPROGRAM,INTHECONTROLOFTHECARTHEMETHODOFSENDINGWAVEBANDDIVISIONUSEDTODEALWITHTHEDIFFERENTC缸ACTIONSTHISPAPERPROPOSESTHEPOINTWHICHISNEEDEDTOIMPROVEINSPEECHRECOGNITIONANDPRESENTSTHEFUTUREPROSPECTOFSPEECHRECOGNITIONKEYWORDSSPEECHRECOGNITION;DTWMODEL;AUDIOOFCAR;ENDPOINTDETECTIONIIL獨(dú)創(chuàng)性聲明本人聲明,所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得武漢理工大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。簽名塑查日期獨(dú)之學(xué)位論文使用授權(quán)書本人完全了解武漢理工大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)武漢理工大學(xué)可以將本學(xué)位論文的全部內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或其他復(fù)制手段保存或匯編本學(xué)位論文。同時授權(quán)經(jīng)武漢理工大學(xué)認(rèn)可的國家有關(guān)機(jī)構(gòu)或論文數(shù)據(jù)庫使用或收錄本學(xué)位論文,并向社會公眾提供信息服務(wù)O保密的論文在解密后應(yīng)遵守此規(guī)定研究生C糊艫棒翩C簽蝴日期渺、LI7武漢理工大學(xué)碩士學(xué)位論文第1章緒論11語音識別的研究概況語音識別技術(shù)的研究開始于上個世紀(jì)的50年代,ATBELL實驗室研制成功的第一個可以用來識別僅10個英文數(shù)字的語音識別系統(tǒng)AUDRY系統(tǒng)以來,語音識別技術(shù)才真正走上軌道。AUDRY系統(tǒng)主要通過測量數(shù)字元音區(qū)域的共振波譜來進(jìn)行識別語音。它是一個針對特定人的離散數(shù)字識別系統(tǒng)。20世紀(jì)60年代計算機(jī)開始在實際研究中得到應(yīng)用,這也促使了語音識別技術(shù)得以快速地發(fā)展。這一時期出現(xiàn)了線性預(yù)測分析LPLINEARPREDICTION和動態(tài)規(guī)劃DPDYNAMICPROGRAMMING等在語音識別方面的幾種比較重要的思想。在這兩種思想之中線性預(yù)測分析技術(shù)能較好地解決語音信號產(chǎn)生模型的問題,而動態(tài)規(guī)劃則有效解決了不等長語音信號的匹配問題。這些重要的思想給以后語音識別技術(shù)的發(fā)展奠定了基礎(chǔ)【。同時BELL實驗室又提出了基于模式匹配和概率統(tǒng)計的方法來進(jìn)行語音識別的思想,這種新的思想給語音識別開辟了新的道路,給語音識別技術(shù)的發(fā)展帶來了更加深遠(yuǎn)的影響。20世紀(jì)70年代,伴隨著在微電子技術(shù)方面的發(fā)展與研究,語音識別又有了新的進(jìn)展。特別是在具體的應(yīng)用上,語音識別技術(shù)開始成功地應(yīng)用到電子產(chǎn)品中。這標(biāo)志著語音識別技術(shù)已經(jīng)能夠走出實驗室應(yīng)用到實際的生活中。由于微電子技術(shù)與語音識別技術(shù)的完美結(jié)合以及市場對語音電子產(chǎn)品的需求,使得語音識別方面的成果接連不斷。具體表現(xiàn)為在理論上,線性預(yù)測分析技術(shù)得到了進(jìn)一步的發(fā)展,而且動態(tài)時間彎曲DTWDYNAMICTIMEWARPING技術(shù)基本也已成熟,特別是提出了矢量量化QVECTORQUANTIZATION和隱馬爾科夫模型HMMHIDDENMARKOVMODEL的理論,這些新的理論方法解決了當(dāng)時語音識別技術(shù)所面臨的困難與問題。同時在實際應(yīng)用中也實現(xiàn)了基于線性預(yù)測倒譜等算法的識別系統(tǒng)。理論與實踐的結(jié)合使語音識別技術(shù)取得更快的發(fā)展。80年代,隨著語音識別研究的進(jìn)一步深入,HMM模型在語音識別中得到了成功的應(yīng)用。而且在這一階段人工神經(jīng)網(wǎng)絡(luò)ANN的提出又將語音識別技術(shù)推進(jìn)到一個全新的發(fā)展階段之中。在ATBALL實驗室研究人員的共同努力下,他們終于把原來HMM的純數(shù)學(xué)模型進(jìn)行了工程化的推廣I到。從DTW到HMM模型的改武漢理工大學(xué)碩士學(xué)位論文變這標(biāo)志著語音識別算法從模板匹配技術(shù)轉(zhuǎn)向基于統(tǒng)計模型技術(shù),而且將小詞匯量轉(zhuǎn)入到大詞匯量的解決方案中來。語音識別技術(shù)朝向更復(fù)雜更高端的方向發(fā)展。進(jìn)入90年代,隨著計算機(jī)技術(shù)的飛速發(fā)展與應(yīng)用以及電信領(lǐng)域的快速發(fā)展,這些都加速了多媒體時代的來臨。許多發(fā)達(dá)國家和一些全球知名的大企業(yè)都置身于對語音識別系統(tǒng)的研究中。在這一階段,市場上出現(xiàn)了可以語音撥號的手機(jī)、與人對話的智能玩具等等一序列的電子產(chǎn)品。而且在商業(yè)服務(wù)中,出現(xiàn)了以語音識別、語音合成為核心技術(shù)的呼叫中,T1,CANCENTER、語音門戶網(wǎng)站等等。我國語音識別研究工作始于二十世紀(jì)八十年代初,一直緊跟國際水平。在語音識別技術(shù)方面的研究,國家做了大量的投入。越來越多的學(xué)者都投身到語音識別技術(shù)的研究工作中來。而且在國內(nèi),基于神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)的研究工作早已開始?;谡Z音識別技術(shù)的電子產(chǎn)品也早已在國內(nèi)市場出現(xiàn)。綜上所述,語音識別技術(shù)的研究不僅受到各個國家的重視,更是近幾十年來人們一直關(guān)注的熱點(diǎn)話題。而現(xiàn)在人們更多關(guān)注的是語音識別技術(shù)在車載這個平臺上的應(yīng)用。12語音識別系統(tǒng)的構(gòu)成經(jīng)過飛速的發(fā)展,語音識別技術(shù)已經(jīng)發(fā)展到一個實用性的階段,已經(jīng)從實驗室走向市場。語音特征矢量提取單元前端處理、訓(xùn)練單元、識別單元和后處理單元共同組成了語音識別的主要系統(tǒng),其系統(tǒng)構(gòu)成如圖11所示。測試模塊測量估計識別抉擇語音輸趙預(yù)特訓(xùn)勇,JIJL處征一理提參考模板取。1,模板塊專家知識圖11語音識別系統(tǒng)構(gòu)成圖語音控制汽車是車載語音的一種發(fā)展趨勢。目前,將語音識別技術(shù)應(yīng)用于汽車的產(chǎn)品大多只有在一些玩具中才能見到,而沒有應(yīng)用到實際的車載平臺中其主要是因為考慮到安全性以及各種車載環(huán)境因素的原因。由此可想車載語音控制這一領(lǐng)域蘊(yùn)涵著相當(dāng)大的潛在市場與挑戰(zhàn)。語音識別理論已經(jīng)可以應(yīng)用到實際2武漢理工大學(xué)碩士學(xué)位論文階段了,但目前語音識別技術(shù)應(yīng)用到車載系統(tǒng)中還不夠完善,存在著一些問趔31。但最終語音識別將會成功應(yīng)用于各個領(lǐng)域中。語音識別技術(shù)采用語音命令作為人機(jī)接口,通過說話來控制各項功能。目前比較多的是特定人語音識別,其工作原理是先需要事先進(jìn)行錄音,然后將錄制語音作為參考模板,將待識別語音信號與參考模板語音進(jìn)行匹配計算,從而找出最佳匹配結(jié)果來進(jìn)行語音的識別?,F(xiàn)在,非特定人語音識別技術(shù)的應(yīng)用也正開始逐步擴(kuò)大。那么具體語音識別系統(tǒng)是如何通過其構(gòu)成部分來進(jìn)行語音識別功能的昵首先語音信號經(jīng)麥克風(fēng)轉(zhuǎn)換成電信號,然后加在輸入端,它首先經(jīng)過預(yù)處理,也就包括語音信號的預(yù)加重、加窗和端點(diǎn)檢測等。經(jīng)過預(yù)處理之后,提起語音信號的特征參數(shù),然后訓(xùn)練形成語音模板,然后對待識別語音同樣經(jīng)過預(yù)處理、特征參數(shù)提取之后與語音參考模板庫進(jìn)行匹配,得到識別結(jié)果。而語音識別技術(shù)應(yīng)用于車載系統(tǒng)中能發(fā)揮其獨(dú)特的優(yōu)勢以及在車載這個平臺上能得到完美的表現(xiàn)。13語音識別技術(shù)在汽車上的應(yīng)用隨著汽車產(chǎn)業(yè)的發(fā)展和汽車的普及,人們對汽車的安全性、便利性和舒適性都提出了更高的要求。汽車上所添加的功能也是越來越多,而且越來越智能化、越來越便于使用,這些都?xì)w功于汽車電子在車載這個大的平臺上發(fā)揮著其獨(dú)特的作用。電子產(chǎn)品在汽車上的應(yīng)用可謂是無處不及,而這些都推動著汽車電子的發(fā)展,也為車載系統(tǒng)提出了更高的要求14】。車載語音便是車載系統(tǒng)的重要組成部分。利用語音命令作為人機(jī)接口,通過說話即可控制車載系統(tǒng)的各項功能。語音識別在車載系統(tǒng)上的實現(xiàn)使得駕駛員無需雙手和雙眼的嚴(yán)密配合而只需要進(jìn)行語音命令就能控制小車,這樣既提高了駕駛安全性又增添了駕駛的樂趣。而全部操作只需要通過簡單的幾句話就可以完成,使得車載終端系統(tǒng)的通用性更強(qiáng),也更加人性化。采用語音命令來控制汽車的相應(yīng)部件來作出反應(yīng),這樣既簡便而且又能提高系統(tǒng)響應(yīng)速率,增加駕駛的安全度。就目前語音識別技術(shù)在車載系統(tǒng)中的應(yīng)用而言,語音指令不是很多,所需要訓(xùn)練的語音信號也就無需太多。因為只需要控制小車的相應(yīng)的基本動作,而且為了提高系統(tǒng)響應(yīng)速率以及車載語音系統(tǒng)對說話人語音信號響應(yīng)的準(zhǔn)確度,也應(yīng)盡量使用小詞匯量語音識別15J。目前在車載語音方面應(yīng)用得比較多的為特定人語音識別技術(shù),這種識別技術(shù)需要事先進(jìn)行訓(xùn)練錄音,然后獲取語音模板,這樣才能響應(yīng)特定人的語音指令。而它相對于非特定人語音識別技術(shù)在車載語音系統(tǒng)中的應(yīng)用有一3武漢理工大學(xué)碩士學(xué)位論文定的地位和優(yōu)勢,成熟度也相對高些。雖然現(xiàn)在非特定人語音識別技術(shù)的應(yīng)用正在逐漸擴(kuò)大,準(zhǔn)確性也有所提高,相信其在車載系統(tǒng)上的應(yīng)用也會越來越多,但其理論比較復(fù)雜,實現(xiàn)起來比較繁瑣。目前,非特定人語音識別技術(shù)應(yīng)用于車載系統(tǒng)當(dāng)中會有一定的不穩(wěn)定性,不能起到較好的效果?,F(xiàn)階段也出現(xiàn)了很多車載語音產(chǎn)品如免提車載GPS系統(tǒng),司機(jī)可以在駕駛室內(nèi)通過語音來控制這個免提車載GPS系統(tǒng),通過它來對小車定位與導(dǎo)航,從而解決不熟悉路線的問題和提升汽車駕駛的安全性【6】。本文基于特定人的車載語音識別系統(tǒng)是針對小車主人先通過語音訓(xùn)練獲取小車主人的語音特征參數(shù),然后進(jìn)行特定人識別,進(jìn)行模板匹配從而來識別語音指令。本文選用特定人語音識別既能實現(xiàn)車主方便舒適的語音控制,又能給車主提供可靠的安全保障。14本文研究的內(nèi)容與思路課題研究的主要內(nèi)容是在分析研究各種語音識別算法的基礎(chǔ)上,根據(jù)系統(tǒng)設(shè)計的要求及系統(tǒng)所要實現(xiàn)的功能,選擇確定了特定人小詞匯量的DTW語音識別系統(tǒng),利用改進(jìn)與優(yōu)化后的DTW算法來實現(xiàn)語音的識別。整個系統(tǒng)就是通過語音指令來控ND,車的相應(yīng)動作。本論文的結(jié)構(gòu)安排如下第一章即為緒論,簡要的介紹語音識別技術(shù)的研究歷程以及語音識別系統(tǒng)的構(gòu)成。語音識別技術(shù)在車載語音系統(tǒng)中的應(yīng)用以及發(fā)展。第二章論述語音識別的基本原理,介紹語音識別的處理過程及原理。第三章探討語音識別算法的改進(jìn)與實現(xiàn)。重點(diǎn)介紹語音識別中對DTW算法的改進(jìn)與優(yōu)化,并將改進(jìn)的DTW算法進(jìn)行了實現(xiàn)。第四章主要是對特定人小詞匯量語音識別系統(tǒng)的硬件系統(tǒng)與軟件的設(shè)計與實現(xiàn)。第五章是對本論文的一個總結(jié),概括了在論文撰寫的學(xué)習(xí)過程中所做的工作、收獲和體會以及對以后所要開展工作的一個展望。4武漢理工大學(xué)碩士學(xué)位論文第2章語音識別技術(shù)的分析21語音信號的預(yù)處理對語音信號的預(yù)處理主要包括對其聲音的預(yù)加重,分幀處理和窗化處理。幻語音信號的預(yù)加重采用預(yù)加重方法處理語音信號能補(bǔ)償語音信號的固有衰落,而且能有效地消除唇輻射的影響用。預(yù)加重時所需的傳遞函數(shù)為P1094ZQ21若假設(shè)SN為語音輸入信號,經(jīng)過預(yù)加重后得到的信號為SOSO094S0122參伽就是經(jīng)過預(yù)加重后得到的信號。砩分幀處理要將時域信號變?yōu)轭l率信號,而且將模擬信號進(jìn)行數(shù)字化處理。那么首先就要將語音信號作分幀處理。由于在一般情況下,語音信號在1020MS內(nèi)是相對穩(wěn)定的【羽。那么得到的分幀處理公式如下式23所示。而O一GML以,刀一0J,一1,一0工,三一123曲窗化處理因為要獲取語音特征,濾出噪聲信號,需要進(jìn)行窗化處理。在所有的窗化處理的方法中,漢明窗的旁瓣最低,而且它具有更平滑的低通特性。為了在語音處理的過程中能有效地克服泄漏現(xiàn)象,我們采用漢明窗來進(jìn)行窗化處理【9】O其公式即如下27所示。蜀萬一X,OWO,0S玎SN124式中州一U054046COS舟,眶胚N_12522語音信號的端點(diǎn)檢測對于硬件系統(tǒng)的語音采集口來說它需要實時的檢測有沒有語音指令的輸5武漢理工大學(xué)碩士學(xué)位論文入,而語音指令又不是連續(xù)發(fā)出的,所以通過語音采集口采集到的聲音數(shù)據(jù)并不全是語音指令信號,其中必定有噪音以及其它我們并不需要的信號以及數(shù)據(jù)。因此就需要系統(tǒng)一直判斷是否有聲音指令進(jìn)入,何時是聲音信號。而這種處理過程就是對語音信號進(jìn)行端點(diǎn)檢測。端點(diǎn)檢測技術(shù)用來確定聲音指令音頭、音尾的位置。確定語音信號的起止點(diǎn)能更好的對語音信號進(jìn)行識別,從而提高系統(tǒng)識別率和獲取到更好的語音特征參數(shù)。端點(diǎn)檢測常用的方法有短時過零率、短時平均能量、短時平均幅度、短時自相關(guān)函數(shù)、短時頻域處理等幾種【10L。但在本文中選擇短時過零率和短時平均能量相結(jié)合的方法來進(jìn)行端點(diǎn)檢測。1短時平均能量短時平均能量是具有時域特征的參數(shù)。假設(shè)SN為加窗后的語音信號,那么第T幀語音的短時平均能量可表示為如下式26所示??萬1N驢1刀I26其中N為窗的寬度,SB為第T幀語音信號中第N個采樣點(diǎn)的信號樣值。本文采用將獲取到的語音短時平均能量取其對數(shù)值的方法,結(jié)合短時過零率來進(jìn)行端點(diǎn)檢測,能更加準(zhǔn)確的獲取到語音信號的端點(diǎn)值。2短時過零率短時過零率ZCRZEROCROSSINGRATE用式子表示為如下27所示。Z行墨SGNXM一SGNXM一11。形NM27其中RSGNXN】一1XNNOISEMAXNOISEMAX為噪聲上限SGNXN】一1XNNOISEMINNOISEMIN噪聲下限28LSGNXN】一0OTHERWISE巴亨0SNSN一1為一幀聲音的長度OTHERWISE629210武漢理工大學(xué)碩士學(xué)位論文4短時自相關(guān)函數(shù)自相關(guān)函數(shù)是描述一個隨機(jī)信號的重要特性。自相關(guān)函數(shù)在不同的領(lǐng)域,定義不完全相同。在短時處理技術(shù)中,短時自相關(guān)函數(shù)可描述為1KRKMK脅七,O咖212短時頻域的變化放映了語音信號的頻譜隨時間變化的性質(zhì)。23語音信號的特征參數(shù)提取進(jìn)行語音識別就是要從語音信號中提取對我們有用的信息,濾出無用的信息,從而獲取特征參數(shù)來進(jìn)行語音信號的匹配識別。去除對語音識別無關(guān)緊要的冗余信息,提取出對語音識別有用的重要信息這便是語音信號的特征參數(shù)提取的關(guān)鍵。特征提取是語音識別前端處理的主要任務(wù),如果特征提取得好,以后的模型的設(shè)計與語音訓(xùn)練就會變得容易。因此語音識別所需要的特征是既具備能穩(wěn)定表示語音的特性又有很強(qiáng)的區(qū)別性的特征。特征提取就是要獲取到好的特征參數(shù),那么如何獲取到好的語音特征參數(shù)呢它需要滿足以下三方面的要求才能稱為一個好的特征提取1能有效的提取語音的信號特征,包括人的聲道特征與聽覺模型;2參數(shù)之間具有良好的獨(dú)立性;3特征參數(shù)有比較高效的計算方法。就目前最常用的兩種特征參數(shù)是線性預(yù)測倒譜系數(shù)LPCC和MEL倒譜系數(shù)MFCC,它們在一定程度上反映了人耳對聲音的處理特性。幻LPCC特征參數(shù)的提取線性預(yù)測分析LPCC是較為常用的語音特征分析方法之一。它可以有效地解決短時平穩(wěn)信號的模型化問題。LPCC的基本原理為語音的每個樣值都可以由它過去若干個樣值的線性組合來近似,同樣也可采用實際語音抽樣信號與對它的線性預(yù)測值之間的均方差最小的方式來進(jìn)行逼近,最后解出一組預(yù)測系數(shù)7武漢理工大學(xué)碩士學(xué)位論文【121。可用如下圖21的模型來表示。21信號模型圖UN表示模型的輸入,SN表示模型的輸出。模型的系統(tǒng)函數(shù)HZ表示為HZ一丟L一2131一弩AJZ一釘式子中A,是系數(shù),P是預(yù)測模型的階數(shù)。用信號的前P個樣本來預(yù)測當(dāng)前樣本,定義的方法如下S刀一ATN七214蜀語音信號S刀可由過去的P個樣值SNK來預(yù)測。式214其中的A為加權(quán)系數(shù),即LPC系數(shù),P為LPCC預(yù)測階數(shù),預(yù)測誤差為EN一S廳一S以一S刀一AT5N七215EI由此可求其極值,便得到“CC系數(shù),LPCC系數(shù)它記錄了語音信號譜的極值點(diǎn)的軌跡,以此LPCC系數(shù)來表示語音信號的特征?!盡EL倒譜系數(shù)MFCCMEL倒譜系數(shù)MELFREQUENCYCEPSTRUMCOEFFICIENT是基于人的聽覺模型的基礎(chǔ)上提出來的。它能形象的描述人類聽覺系統(tǒng)對聲音頻率的感覺,近似計算可以表示為如下式216所示。MEL廠_2595LG1700216人耳對不同頻率的聲波有不同的聽覺靈敏度,但從人的聽覺靈敏度來看,人會覺得低音掩蓋高音比較容易,然而高音掩蓋低音就比較困難。在低頻處的聲音掩蔽的臨界帶寬比高頻處的聲音掩蔽的臨界帶寬要小。當(dāng)兩個頻率相近的音調(diào)同時發(fā)出時,人就只能聽到其中頻率較低的一個音調(diào),對于這種由于人的主觀感覺突變而產(chǎn)生無法區(qū)分帶寬邊界的情況,MEL亥LJ度是對這一臨界帶寬的度量方法之一。于是在語音識別過程中可以采取從低頻到高頻這一段頻帶內(nèi)按臨界帶寬的大小由密到稀安排一組帶通濾波器的方法來進(jìn)行語音信號的處理【13】。對輸入信號進(jìn)行濾波,將每個帶通濾波器輸出的信號能量作為信號的基本特征。所選用的帶通濾波器進(jìn)行濾波的情況如下圖22所示。8武漢理工大學(xué)碩士學(xué)位論文圖22MEL尺度濾波器組MFCC特征參數(shù)提取的過程為首先將語音信號進(jìn)行兀丌變換到頻域,通過MEL尺度的濾波器陣列后,將經(jīng)過濾波器陣列輸出后的語音信號進(jìn)行離散余弦變換。具體的參數(shù)計算步驟如下首先將信號進(jìn)行預(yù)加重處理然后假定取T時刻的一幀語音采樣信號,幀長為N,即用式子表示為XT,TL,2,3N,然后確定每一幀的采樣點(diǎn)數(shù)和幀移。然后進(jìn)行相應(yīng)的變換與計算【14L。1加HAMMING窗后作N點(diǎn)快速傅里葉變換H呵,取到信號幅度譜IXKI。2運(yùn)用217此公式將實際頻率尺度轉(zhuǎn)換為MEL頻率尺度其中無為實際頻率。3然后可以設(shè)置在整個MEL軸上配置價三角形濾波器,每個三角形濾波器的中心頻率CL在MEL軸頻率軸上等間隔分配。假設(shè)BL、CL、AL分別是第L個三角型濾波器的下限,中心和上限頻率,相鄰濾波器之間的下限中心和上限頻率有如下圖23的關(guān)系。CLAL廣1BL1217I,1L“1CL1BLAL1CBL1ALC1圖23頻率相連三角形濾波器的關(guān)系9武漢理工大學(xué)碩士學(xué)位論文4由所得到的語音信號幅度卜七I可求出每一個三角形濾波器的輸出。肌。篡啡L砷I卜,218彬K一KB1C二;箋7,BZS七CZ,CZS七S彳219AICI5對所有三角形濾波器的輸出作對數(shù)運(yùn)算,然后再進(jìn)行離散余弦變換,便可以得到MFCC參數(shù)。一歷蹇剛叫”糾孫蚺,Q220其中,Q為MFCC參數(shù)的階數(shù),“I為所求的MFCC的參數(shù)。24語音識別的模型與算法隨著語音識別技術(shù)的飛速發(fā)展和它越來越受人們的關(guān)注與重視,各種各樣的識別方法也陸續(xù)的出現(xiàn)了。但主要的識別技術(shù)仍然是基于模板匹配法、HMM模型法、DTW動態(tài)時間規(guī)劃模型法、ANN神經(jīng)網(wǎng)絡(luò)模型法。對于語音識別技術(shù)來說,這些方法都存在著一些共同點(diǎn),基本上都有一個相同的基本原理。如下圖24所示。語音信號經(jīng)過采樣預(yù)處理后,進(jìn)行特征參數(shù)提取,得到一組反映該段語音特征的參數(shù)模型,然后這些特征參數(shù)送入模型庫模塊進(jìn)行比較,聲音模式匹配模塊根據(jù)模型庫對該段語音進(jìn)行識別,最后得出識別結(jié)果。對于大詞匯量,非特定人等情況的語音識別還需要通過語言模型對結(jié)果進(jìn)行進(jìn)一步的分析處理,最終得到正確的識別結(jié)果。圖24語音識別系統(tǒng)的基本結(jié)構(gòu)10武漢理工大學(xué)碩士學(xué)位論文241DTW動態(tài)時間規(guī)整DTW動態(tài)時間規(guī)整算法其實是把一個語音段內(nèi)的時變特征變?yōu)橐恢碌倪^程,是一種非線性規(guī)整技術(shù)。DTW的基本思想是通過將待識別語音信號或者參考模板在時間軸上進(jìn)行不均勻地拉伸或者彎曲,使其特征與模板特征對齊,并在兩者之間不斷的進(jìn)行兩個矢量距離最小的匹配路徑計算,來獲得兩個矢量匹配時累積距離最小的規(guī)整函數(shù)。這種方法是一個將時間規(guī)整和距離測度有機(jī)結(jié)合在一起的非線性規(guī)整技術(shù),它能保證待識別語音特征與模板特征之間最大的聲學(xué)相似特性和最小的時差失真。采用這種方法能成功的解決待識別語音和模板長度不相等的問題。具體用公式來表示則為首先得利用時間規(guī)整函數(shù)J一WI,此函數(shù)的意義即為使測試語音矢量的時間軸I映射到模板語音矢量的時間軸I上。使其特征與模板特征對齊,并在兩者之間不斷的進(jìn)行兩個矢量距離最小的匹配路徑計算,來獲得兩個矢量匹配時累積距離最小的規(guī)整【151。那么具體用表達(dá)式來表示則可表示為D噸了DPF,尺WF1,其中RF表示測試語音矢量,尺WF表示測試時間軸酊第I幀信號經(jīng)過時間規(guī)整函數(shù)后對應(yīng)于模板語音的矢量,式中D阿F,RWF1是第I幀測試矢量TI和第J幀模板矢量尺之間的距離測度。D則是在最優(yōu)情況下的兩個矢量之間的匹配路徑。DTW的搜索路徑圖如下25所示。JM語ER日模贛J數(shù)1IN待識別語音信號的幀數(shù)圖25DTW的搜索路徑DTW一般采用逆向思路,從過程的最后端開始一直到起點(diǎn)來尋找最優(yōu)路徑,武漢理工大學(xué)碩士學(xué)位論文因為這樣才能更好的確定條更佳的路徑。DTW算法它一般適用于小詞匯量的特定人的孤立詞識別系統(tǒng),采用多模板的訓(xùn)練方法。由于語音的耦合性比較大、訓(xùn)練時又容易產(chǎn)生誤差,所以這種方法的魯棒性不是很好,為了克服這個問題可采用串行訓(xùn)練法,即重復(fù)將訓(xùn)練詞多說幾遍,也就是進(jìn)行多重復(fù)訓(xùn)練,直到找到一致性比較好的特征矢量序列為止,這樣就可以得到較好的沿DTW搜索路徑的特征矢量序列,然后求這些特征序列的平均來得到模板??傊珼TW也有其優(yōu)點(diǎn),其優(yōu)點(diǎn)是只包含了對要識別詞的特征提取,因此訓(xùn)練起來比較簡單,而且已經(jīng)存在有效的硬件方法來實現(xiàn)它,不足之處是對于連續(xù)語音它卻顯得有些無能為力。242HMM隱馬爾可夫模型HMM是一個雙重隨機(jī)過程。它的一個隨機(jī)模型用來表示狀態(tài)的轉(zhuǎn)移另一個隨機(jī)模型用來表示狀態(tài)和觀察值之間的統(tǒng)計對應(yīng)關(guān)系。它用概率論的方式來描述時變信號的變化過程。在該模型中,一個狀態(tài)轉(zhuǎn)移到另外一個狀態(tài)取決于該狀態(tài)的統(tǒng)計特性,而某一個狀態(tài)的觀察值也取決于該狀態(tài)生成語音觀察值的概率。因為在觀察者的角度只可以看到觀察值,而看不到狀態(tài),所以叫做隱馬爾可夫模型,簡寫為HMM。隱馬爾可夫HMM模型是利用概率及統(tǒng)計學(xué)理論來解決如何辨識具有不同參數(shù)特性的短時平穩(wěn)信號段以及如何跟蹤這些具有不同參數(shù)特性的短時平穩(wěn)信號段它們之間的轉(zhuǎn)化問題的模型【161。它通過統(tǒng)計與概率論的方法來實現(xiàn)語音識別。就HMM模型來說,一個HMM模型可以由下列參數(shù)來決定。T觀察符號序列的長度。其集合也可以表示為O一D1D,一DR。M一觀察符號數(shù),即每個狀態(tài)可能輸出的觀察符號的數(shù)目。那么觀察符號的集合可表示為V一VL,12,叫。N模型中的狀態(tài)數(shù)目。雖然隱馬爾可夫模型的狀態(tài)是不能直接獲得的,但這些狀態(tài)它們彼此之間是相互聯(lián)系著的,因為任何一個狀態(tài)都可以由其它的狀態(tài)來表示或者是轉(zhuǎn)移而來。狀態(tài)的集合可表示為S而,J一”S,T時刻的狀態(tài)表示為。萬初始狀態(tài)分布。即初始時刻系統(tǒng)處于某個狀態(tài)的概率。可表示為石;乃,吒LITP【吼一墨J,1SFSNA吠態(tài)轉(zhuǎn)移概率分布。其中元素口。是指T時刻狀態(tài)為墨,而在TL時刻轉(zhuǎn)移到狀12武漢理工大學(xué)碩士學(xué)位論文SS的概率。它是,由鑒態(tài)轉(zhuǎn)移概率構(gòu)成的一個矩陣,用公式。可以表不為彳一口茸J,口驢PQI1SJIGI一墨】,1SISNB狀態(tài)S,的觀測符號概率分布。即它是狀態(tài)SJ的觀測符號概率構(gòu)成的一個矩陣,元素K是指狀態(tài)SJ輸出觀測符號心的概率,T時刻處于狀態(tài)SJ。其公式為B。PJ七J,七。P攻I毋一S門,1SJ墨N,1S七SM243ANN人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是近些年來比較新和熱門的研究方向。它的原理是由多個非常簡單的處理單元彼此按某種方式相互連接而形成的計算機(jī)系統(tǒng),該系統(tǒng)能根據(jù)外部輸入信息的動態(tài)狀態(tài)來做出相應(yīng)的響應(yīng),它具有實時性和靈活性。人腦若要對某個模式得到正確的模式匹配,就需要進(jìn)行大量的訓(xùn)練和糾正。訓(xùn)練越多,糾正越多,匹配就會越準(zhǔn)確,人工神經(jīng)網(wǎng)絡(luò)的識別方法也是如此,它模擬人的大腦,需要通過大量的學(xué)習(xí)與訓(xùn)練才能投入正確使用,在使用中又不斷地進(jìn)行自我學(xué)習(xí)從而來更正或者調(diào)整信號值。而基于ANN的語音識別系統(tǒng)是由神經(jīng)元、訓(xùn)練算法及網(wǎng)絡(luò)結(jié)構(gòu)等要素來構(gòu)成的。它融合了并行處理機(jī)制、非線性信息處理機(jī)制和信息分布存貯機(jī)制等多方面的現(xiàn)代信息技術(shù)【171?;谌斯ど窠?jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)在訓(xùn)練過程中能不斷調(diào)整自身的參數(shù)權(quán)值和拓?fù)浣Y(jié)構(gòu),以適應(yīng)環(huán)境和系統(tǒng)性能優(yōu)化的需求。而且在模式識別中也有速度快、識別率高等顯著特點(diǎn)而且反應(yīng)靈敏且能自動適應(yīng)環(huán)境。人工神經(jīng)網(wǎng)絡(luò)技術(shù)一直是國內(nèi)外語音識別系統(tǒng)研究的方向和熱點(diǎn)。由于人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元個數(shù)眾多以及整個網(wǎng)絡(luò)存儲信息容量的巨大,使得它具有很強(qiáng)的不確定性的信息處理能力。即使是在輸入信息不完全、不準(zhǔn)確或模糊不清的情況下,神經(jīng)網(wǎng)絡(luò)也能夠通過獲取到的這些不完整信息聯(lián)想到存在于思維記憶中的一些相關(guān)的信息【1引。只要輸入到神經(jīng)網(wǎng)絡(luò)中的信號模式接近于訓(xùn)練樣本的信號模式,神經(jīng)網(wǎng)絡(luò)系統(tǒng)就能給出正確的推理結(jié)論。人工神經(jīng)網(wǎng)絡(luò)能進(jìn)行自我完善從而改進(jìn)訓(xùn)練參數(shù),提高精確度。人工神經(jīng)網(wǎng)絡(luò)是一種非線性的處理單元,因為對于所有的輸入信號,神經(jīng)元對這些輸入信號進(jìn)行綜合處理。它突破了傳統(tǒng)的以線性處理為基礎(chǔ)的數(shù)字電子計算機(jī)的局限,這標(biāo)志著智能信息處理能力和模擬人腦智能行為能力的一大技術(shù)飛躍。武漢理工大學(xué)碩士學(xué)位論文25現(xiàn)階段語音識別所面臨的問題就目前而言,語音識別技術(shù)仍然存在著許多有待進(jìn)一步改進(jìn)以及優(yōu)化的地方。由于語音識別一般情況下是對自然語言的識別,那么就必須面臨著連續(xù)語音的識別,然而連續(xù)語音中的因素、音節(jié)或單詞之間的調(diào)音結(jié)合引起的音變,使基本模型的邊界變的不明確,而且需要建立一個語法與語義的規(guī)則來理解它們,這就需要一個優(yōu)化的系統(tǒng)來解決這些問題。不僅如此,語音識別技術(shù)同樣面臨著外界環(huán)境以及噪聲等因素的影響,而不能精確的或者很理想的處理語音識別的問題。因為語音信息的信息量大而且變化量也很大,語音模型對于不同的說話者不可能完全一樣,因此不同的講話者所需選擇的語音模型還是有差異的,即使是同一講話者,其語音模式仍然會隨時間的改變有所改變。其次語音信號有很大的模糊性,不同的語音聽起來雖很相似,但實際則不同,難以區(qū)分。而且在強(qiáng)噪聲的環(huán)境下,語音識別顯得尤為困難。這些因素的影響促使語音識別技術(shù)有待進(jìn)一步的改進(jìn)與完善。而且端點(diǎn)檢測的方法仍需進(jìn)行優(yōu)化。語音識別系統(tǒng)即使在安靜的環(huán)境下,系統(tǒng)的識別錯誤仍然有一半以上來自端點(diǎn)檢測。不僅如此,應(yīng)用于各種環(huán)境下,不同的環(huán)境情況差別也大,語音識別技術(shù)也難以完成準(zhǔn)確的識別。例如應(yīng)用在車載方面,噪音與車載環(huán)境對語音識別來說仍然是很大的難題。語音識別技術(shù)需要融合多學(xué)科知識,如何將多學(xué)科知識更好的應(yīng)用到語音識別系統(tǒng)之中仍然是需要解決的問題【19】。隨著科技的進(jìn)步發(fā)展,語音識別技術(shù)的研究也需要得到更進(jìn)一步的深入。26車載語音識別系統(tǒng)的算法選用由于車載系統(tǒng)工作環(huán)境的影響,車載語音系統(tǒng)就必須具有高抗噪聲的功能以及性能穩(wěn)定等特點(diǎn)。而且現(xiàn)在的汽車電子系統(tǒng)越來越龐大,每個系統(tǒng)構(gòu)成部分都會影響到彼此的穩(wěn)定性。這就要求車載語音部分也必須簡單而且穩(wěn)定可靠。這就需要一個比較簡單可靠的語音模型和算法來達(dá)到車載語音識別系統(tǒng)的要求。在所有的語音模型和算法中,DTW模型以及算法是最古典以及最完善的一套方法與理論,在實際應(yīng)用中也最簡單和易實現(xiàn)。人們往往需要采用這種最簡單可靠的方法來實現(xiàn)這樣或者那樣的一些功能?;贒TW模型與算法的語音識別系統(tǒng)訓(xùn)練起來比較簡單,而且已經(jīng)存在有效的硬件方法來實現(xiàn)?;贒TW模型與算法的語音識別系統(tǒng)應(yīng)用于車載語音中能讓駕駛更加的簡單方便,而且語14武漢理工大學(xué)碩士學(xué)位論文音識別率也比較高,性能穩(wěn)定,能滿足車載語音識別系統(tǒng)的要求。首先就應(yīng)用和理論的復(fù)雜度來說,DTW要比HMM和ANN簡單明了,其原理易于被人們掌握和理解。其次就是DTW算法已經(jīng)能通過硬件來實現(xiàn)【硼。最后,從車載整體性能方面來考慮,如果在汽車電子系統(tǒng)中加入更多更加復(fù)雜的系統(tǒng)或部件,難免會影響到整體性能,整個控制系統(tǒng)控制起來就會比較麻煩,這樣各個系統(tǒng)部件之間就會相互的影響,產(chǎn)生安全以及可靠性方面的問題。于是一個簡單而且獨(dú)立性比較好的系統(tǒng)設(shè)計就顯得尤為重要,因為這樣的系統(tǒng)能讓各個部分獨(dú)立的工作,而不是互相產(chǎn)生干擾。這種系統(tǒng)不僅能提高整體性能,而且還能提高安全性??傊?,結(jié)合語音識別技術(shù)在實際中的應(yīng)用和考慮到性價比以及汽車安全方面的因素,就目前來講DTW仍然是應(yīng)用于特定人小詞匯量語音識別系統(tǒng)上比較好的模型與算法。27本章小結(jié)本章對語音識別的方法及基本原理進(jìn)行了介紹和總結(jié)。首先介紹了語音信號的初步處理,對語音的預(yù)處理、端點(diǎn)檢測、特征參數(shù)提取作了詳細(xì)的介紹與分析。然后對語音識別的模型與算法進(jìn)行了詳細(xì)的介紹,DTW、HMM、ANN本文都一一作了介紹。針對語音識別所面臨的問題作了分析。最后對于特定人小詞匯量語音識別系統(tǒng)的模型與算法的選用,本文就所提到的一些模型與算法作了比較,結(jié)合實際與理論闡明了DTW作為此系統(tǒng)的語音模型與算法的優(yōu)點(diǎn)。武漢理工大學(xué)碩士學(xué)位論文第3章語音識別算法的設(shè)計與改進(jìn)31傳統(tǒng)DTW算法的設(shè)計DTW基于動態(tài)規(guī)整的思想,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法,它解決了發(fā)音長短不一的匹配問題。那么傳統(tǒng)的DTW算法是如何來實現(xiàn)語音識別的呢按照第2章所介紹的內(nèi)容,首先對語音信號進(jìn)行預(yù)處理,然后進(jìn)行端點(diǎn)檢測。在進(jìn)行完端點(diǎn)檢測之后,就需要獲取語音信號的特征參數(shù),對于MEL倒譜系數(shù),采用如下的方式來提取。首先根據(jù)式MEL1一2595LG1,700,將實際頻率尺度轉(zhuǎn)換為MEL頻率尺度。然后在MEL頻率軸上配置I介三角形濾波器組,而L的個數(shù)由信號的截止頻率決定。其次再根據(jù)語音信號幅度譜求每一個三角形濾波器的輸出。最后對所有濾波器輸出作對數(shù)運(yùn)算,再進(jìn)行離散余弦變換就可以得到MFCC系數(shù)了。對于程序而言首先要設(shè)置好三角形濾波器系數(shù),即歸一化濾波器系數(shù)【2N。獲取到特征參數(shù)以后,便可以確定模板,然后就可以對待識別語音進(jìn)行特征參數(shù)提取了。本文所選取的倒譜矢量維數(shù)為12,即選用的階數(shù)為12。在參數(shù)提取分析過程中,若選擇的階數(shù)很大,可將極零點(diǎn)模型用全極點(diǎn)模型來代替,雖然可攜帶大量的語音信息,但同時也增加了運(yùn)算量,但階數(shù)增加到一定程度的話又會使語音的內(nèi)在特征出現(xiàn)很大的隨機(jī)性,導(dǎo)致識別率降低,經(jīng)過實驗統(tǒng)計一般情況下階數(shù)選擇8至1J14之間的數(shù)。通過實驗顯示,本系統(tǒng)選用階數(shù)P為12時所求出的倒譜特征參數(shù)與模板倒譜特征參數(shù)具有良好的相似度。MEL濾波器數(shù)為24個,DFT長度也為160,幀長仍然為160,幀移為40。在獲取到的MEL系數(shù)后除首尾兩幀,因為這兩幀的一階差分參數(shù)為O。然后將所獲取到的MEL倒譜系數(shù)用MATLAB仿真出來的結(jié)果如下圖32所示,這個語音信號是選取的數(shù)字9的發(fā)音信掣22J。由于矢量維數(shù)為12,得到的矩陣行數(shù)其實為88幀,列數(shù)為24表示階數(shù),從圖中可以看出也就是橫坐標(biāo)X表示列數(shù),縱坐標(biāo)Y表示行數(shù),Z軸表示MFCC值。而選擇的是三維坐標(biāo)圖,所以獲取到的結(jié)果如圖31所示。16武攫理工太學(xué)碩士學(xué)位論文墜墊J坩K叭I出_M葉墅世D富口舀嚕QQO??谀縄目XCOLUMNYROWZ抽3020言10芷口王1口20口。_MFCCROW00MFCCCMMN圖31MATLAB繪制的MFCC參數(shù)圖在獲得了特征參數(shù)后,就可以建立模扳將模板的MFCC參數(shù)存入一指定數(shù)組中。在建立所有的參考模板之后,我們對語音模板要做的處理就已經(jīng)完成,那么接著便要對待識別的語音進(jìn)行預(yù)處理、端點(diǎn)檢測、特征參數(shù)提取,和前面對參考模板語音所做的處理一樣。在獲取到的待識別語音的MFCC參數(shù)后同樣要取一指定的數(shù)組來存儲這些特征參數(shù)信息,然后用程序設(shè)置一個循環(huán),外循環(huán)的次數(shù)為所存入的模板數(shù),例如,如果已取了10個模板,那么所需要設(shè)置的外循環(huán)則為10,然后進(jìn)行內(nèi)循環(huán),內(nèi)循環(huán)用來進(jìn)行對待識別語音每幀分別與模板相應(yīng)的每幀進(jìn)行匹配計算。那么接著的問題就是如何進(jìn)行模式匹配。特征序列可分為兩類,對于訓(xùn)練階段輸入的語音進(jìn)行分析,得到各組特征序列被稱為參考模板,記為RJ一,。,一,RJ,L2,,V31式中,為模板對應(yīng)的命令編號,J為該命令中的所需要分析的總的幀數(shù),V為系統(tǒng)模板庫中的總模板數(shù),可以等于或大于待識別的命令條數(shù)。對識別階段輸入武漢理工大學(xué)碩士學(xué)位論文的語音進(jìn)行分析,得到的特征序列被稱為待測試模板,記為R一毛,F(xiàn),一,乙,TJ為輸入待識別語音的幀數(shù)【231。這樣模板匹配過程就是將參考模板R和待測試模板T之間進(jìn)行比較,計算它們之間的相似程度。一般是通過失真度來衡量相似度的,失真越小則相似度越高,那么如何計算失真度呢可以將模板R與測試模板T中對應(yīng)的幀算起,設(shè)N與J分別為T和R中任意選取的一幀的幀號,用DR玎,尺_(dá)|1來表示這兩幀之間的特征矢量的失真,這樣就可以求出每幀的失真,然后再進(jìn)行求和從而計算總失真度。用式子表示則為如下式32所示RDP,R羅DZ廳,R_132,“71。假設(shè)測試語音模板共有幀矢量,而參考模板共有,幀矢量,且桫。那么動態(tài)時間歸整就是尋找一個時間歸整函數(shù)MWN,它將測試矢量的時間軸非線性的映射到模板的時間軸上,并使函數(shù)滿足D一罌彈DFR廳,RW萬133“L勻L、,7J、7式中,D丁刀,尺W力1是測試模板T的第N幀與參考模板的第J幀的距離測度。式中的D它表示處于最優(yōu)時間規(guī)整情況下兩矢量的距離。假設(shè)T的第N幀與R的第J幀對準(zhǔn),當(dāng)N等于J且T和R完全相同時,WN就可以用一條斜率為1的線段來表示。那么當(dāng)T和R不完全相同時,T的第N幀與R的第J幀對準(zhǔn),則得到的這些點(diǎn)組成的線便不是一條直線而是一條曲線了,那么這條曲線對應(yīng)的函數(shù)就是規(guī)整函數(shù)WN,如圖28所示。動態(tài)時間規(guī)整其實是將一個N階段的決策過程劃分為N個單一階段的決策過程。那么所選取的規(guī)整函數(shù)WN需要滿足以下條件1WN為單調(diào)函數(shù)。2規(guī)整函數(shù)必須從1,1點(diǎn)開始至NJ點(diǎn)結(jié)束。3規(guī)整函數(shù)不能跳過任何點(diǎn)。4最大規(guī)整量不能超過限定值,用式子表示即為LNJLQ,Q稱為“窗寬“一般取2。傳統(tǒng)的DTW算法是把時間規(guī)整和距離測度結(jié)合起來的一種非線性規(guī)整技術(shù)。但是傳統(tǒng)動態(tài)規(guī)整算法DP算法1的計算量比較大,由運(yùn)算量大而影響了系統(tǒng)識別速率。那么如何減小計算量而且更好的進(jìn)行匹配以及獲取到更準(zhǔn)確的語音識別結(jié)果就必須進(jìn)行算法的改進(jìn)與優(yōu)化。32DTW算法的改進(jìn)與優(yōu)化應(yīng)用傳統(tǒng)DTW算法來進(jìn)行識別,識別效果不是很好。那么本文對傳統(tǒng)DTW18武漢理工大學(xué)碩士學(xué)位論文算法進(jìn)行了改進(jìn)優(yōu)化。語音信號進(jìn)行預(yù)處理之后便需要進(jìn)行語音信號的端點(diǎn)檢測,端點(diǎn)檢測是語音識別技術(shù)中的關(guān)鍵所在。語音信號的整個端點(diǎn)檢測的工作流程如下圖32所示。好的端點(diǎn)檢測方法會給以后建模以及識別過程帶來很多便利,同時能實現(xiàn)更快更精確的識別【241。圖32端點(diǎn)檢測321可變窗長的語音端點(diǎn)檢測用窗函數(shù)對語音序列進(jìn)行處理后所獲取的一幀語音序列的長度稱為窗長也被稱為幀長。它是指在窗化處理后進(jìn)行的分幀處理。由于語音信號具有時域特性,它是按照時間先后順序進(jìn)行讀取與存入的,那么取幀也就可以按時間順序來取,在存儲空間中也就可以按存入存儲空間中的先后順序來取。據(jù)大量實驗統(tǒng)計,一般的語音信號的窗長取LOMS至20MS之間,前一幀與后一幀的交疊部分為幀移,幀移一般是取小于LOMS的。因為語音信號一般在LO20MS內(nèi)是相對穩(wěn)定的并且由信號的采樣定理可知按上述方法來對語音信號進(jìn)行取幀是合理的。而且如果對語音信號取比較小的窗長,那么就能夠比較準(zhǔn)確的檢測到語音信號的端點(diǎn),但是這樣一來卻增加了計算量,使得語音識別耗時較長,同時也會影響系統(tǒng)的速率。反之,如果所取的窗長很大,那么的確能減少計算量同時能提高語音識別的速度,但是端點(diǎn)檢測的結(jié)果卻是很不精確,對識別結(jié)果也會造成比較大的影響。為此,可靈活的針對不同的情況進(jìn)行不同的處理,這樣就可以在語音靜音段時采用較長的窗進(jìn)行處理,在語音段采用常規(guī)窗進(jìn)行處理,在語音的過渡段采用較小的窗進(jìn)行處理,這樣處理既可以較為精確的判斷語音的起止點(diǎn)也
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《營銷策略揭秘》課件
- 先鋒組織六項紀(jì)律剖析報告
- 《世博盛宴:上海世博會主題深度解讀》課件
- 5《我的家在這里》第一課時教學(xué)設(shè)計-2023-2024學(xué)年道德與法治三年級下冊統(tǒng)編版
- 2025年黔西南道路貨運(yùn)輸從業(yè)資格證模擬考試題庫
- 荊門職業(yè)學(xué)院《海洋數(shù)學(xué)物理方程》2023-2024學(xué)年第一學(xué)期期末試卷
- 武漢城市學(xué)院《中國古典文學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年呼和浩特貨運(yùn)從業(yè)資格證模擬考試題庫及答案大全
- 昆明冶金高等??茖W(xué)?!段幕溲凶x(Ⅱ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川省德陽市綿竹市2024-2025學(xué)年數(shù)學(xué)五下期末學(xué)業(yè)水平測試模擬試題含答案
- 山東鐵投集團(tuán)招聘招聘筆試真題2024
- 共有人房屋貸款協(xié)議
- 江西卷-2025屆高考?xì)v史4月模擬預(yù)測卷(解析版)
- bim安全教育試題及答案
- 運(yùn)輸公司機(jī)務(wù)管理制度
- 婦科管理制度
- 初中數(shù)學(xué)課標(biāo)培訓(xùn)
- 2025年濟(jì)源職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫附答案
- 《浙江省中藥飲片炮制規(guī)范》 2015年版
- 新晉管理者培訓(xùn)
- GB 19762-2025離心泵能效限定值及能效等級
評論
0/150
提交評論