(模式識別與智能系統(tǒng)專業(yè)論文)基于語音識別的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究.pdf_第1頁
(模式識別與智能系統(tǒng)專業(yè)論文)基于語音識別的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究.pdf_第2頁
(模式識別與智能系統(tǒng)專業(yè)論文)基于語音識別的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究.pdf_第3頁
(模式識別與智能系統(tǒng)專業(yè)論文)基于語音識別的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究.pdf_第4頁
(模式識別與智能系統(tǒng)專業(yè)論文)基于語音識別的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究.pdf_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基予語音諼剮的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究 舔要 本論文的主要研究內(nèi)容是基子隱瑪爾可夫模壟的語音識別及其 在電信領(lǐng)域中的應用。類似于人名等語膏識別技術(shù)在電信、證券等領(lǐng) 域有著廣泛的應饜,其育踅要的安用價值幫發(fā)麓翦最。雨隱馬爾爵夫 模型是在謬音識別領(lǐng)域中應用最廣泛、效果最好的一個模型。本文對 特定太孤立謂語啻舔剮馱多個燕度送行了醑變,實現(xiàn)了一個籜特定 人的漢語人名語胬識別實驗系統(tǒng)。在該系統(tǒng)上做了以下幾方面的研 究: 1 特征提敬與變換: 分毒廳討論了l p c c 秘m f c c 兩葶申卷熙的添醬特縫,通過實驗對 兩種特征做了比較,結(jié)果表明m f c c 特征比l p c c 特征更有效,然 麗計算量也稍微大些。另外,通過實驗探討了動態(tài)特征、特征歸一 化手段對識別系統(tǒng)扮影響,結(jié)果表明這些手段對提高識剮系統(tǒng)的性麓 都有很大的作用。 2 稍練方法的改進: h m m 用高斯混合模型的概率密度函數(shù)來模擬語音特征的分布。 毽是這穆模撅衣實際猿囂騫一些縭差。囂努,基予最大經(jīng)然( 溉) 準 則的訓練方法只用同一個詞的不同說話人發(fā)音數(shù)據(jù)來訓練,不能有效 麓撼述不潮通之潮匏發(fā)毒差吳特性。兩纂予最小分類鑲誤( m c e ) 準劉 的訓練方法有效的增加了聲學模型的區(qū)分能力。本論文討論了基于 m c e 準則豹訓練方法,對其優(yōu)化過程進行了仔綱的搽討,勢在孤立 詞人名語膏識別中實現(xiàn)。 3 。a 特定內(nèi)容( 可變詞表) 、非特定人孤立詞識別系統(tǒng): 基于熬譎模羹的特寇內(nèi)容( 譎表) 孤立詞談剮系統(tǒng)瓣應用范譽是 有限的。它的詞表變更需臻重新采集語窩數(shù)據(jù)并且訓練,對系統(tǒng)的修 改攘大。瑟囂特定內(nèi)容靜孤立詞談澍系統(tǒng),露輟隧意擎竣諼霜瓣誘表, 這樣就可以非常便利的將孤立詞識別系統(tǒng)應用別各個領(lǐng)域。我們結(jié)合 漢添瓣發(fā)謄特點,在漢語連續(xù)諉裔識別瓣基礎(chǔ)上著重磷究了l 將定內(nèi) 容的孤立詞語音識別系統(tǒng)中的聲學單元選擇、訓練以及整詞模型拼接 豹閻題,慰系統(tǒng)性能上存在豹閆題進行了討論。 在上述孤立詞語巍識裂系統(tǒng)豹基戳上,本論文初步設(shè)詩了一個基 于語音識別的電話自動轉(zhuǎn)接系統(tǒng)的方案。討論了系統(tǒng)的軟、硬件設(shè)計, 邀話語鬻數(shù)據(jù)采集及英語音數(shù)據(jù)庫的建立。溪音數(shù)據(jù)淳包攢人名溱音 數(shù)據(jù)庫和電話轉(zhuǎn)接語鬻數(shù)據(jù)瘁,并已經(jīng)實際采集了少量規(guī)模的電話語 嗇數(shù)據(jù)。 關(guān)鍵詞:語音識別,隱馬爾可夫模型,聲學模型,最小分類錯誤 s t u d yo nt h ek e yt e c h n o l o g i e s o f s p e e c hr e c o g n i t l 0 nb a s e d t e l e p h o n es w i t c m n gs y s t e m a b s t r a c t 。t h i st h e s i ss t u d i e sh m mb a s e ds p e e c hr e c o g n i t i o ns y s t e ma n di t sa p p l i c a t i o n si n t e l e c o m m u n i c a t i o n s s p e e c hr e c o g n i t i o nt e c h n o l o g yl i k eh s t n es p e e c hr e c o g n i t i o nh a s b e e nw i d e l ya p p l i e di nt h ea r e ao ft e l e c o m m u n i c a t i o n s i th a si m p o r t a n tv a l u e sa n d p r o m i s e so f a p p l i c a t i o n h m mw a s t h eb e s ta n d p r e v a i l e dm o d e li nt h ef i e l do fs p e e c h r e c o g n i t i o n t h ea u t h o rd i s c u s s e dt h e h m mb a s e d s p e a k e r - i n d e p e n d e n t i s o l a t e d s p e e c hr e c o g n i t i o ni n v a r i o u sa s p e c t sa n df u l f i l l e dab a s e l i n ec h i n e s en a m es p e e c h r e c o g n i t i o ns y s t e m s o m ea s p e c t so fi s o l a t e ds p e e c hr e c o g n i t i o na r ed i s c u s s e db a s e d o nt h es y s t e m 1 f e a t u r ee x t r a c t i o na n dt r a n s f o r m a t i o n : l i n e a r p r e d i c t i v ec e p s t r a lc o e f f i c i e n t s ( l p c c ) a n dm e l f r e q u e n c yc e p s t r a l c o e f f i c i e n t s ( m f c c ) w e r et h et w op r e v a l e n tf e a t u r e sf o rs p e e c hr e c o g n i t i o n t h e s e t w of e a t u r e sw e r ec o m p a r e db yt h er e c o g n i t i o nt e s t t h er e s u l ti n d i c a t e st h a tm f c c i s m o r ed i s c r i m i n a t i v et h a nl p c cf o rs p e e c hr e c o g n i t i o n h o w e v e kt h ec o m p u m t i o n l o a df o rm f c ca l s oe x c e e d st h a to f l p c c m o r e o v e r t h ee f f e c t so f d v n a m i c a lf e a t u r e f e a t u r en o r m a l i z a t i o nf o rs p e e c hr e c o g n i t i o nw e r ed i s c u s s e db yt h er e c o g n i t i o nt e s t s t h er e s u l ti n d i c a t e st h a tt h e s ea p p r o a c h e sc a l l g r e a t l yi m p r o v et h ep e r f o r m a n c eo f s p e e c hr e c o g n i t i o ns y s t e m 2 i m p r o v e m e n t s o nt h et r a i n i n gm e t h o d : h m mu s e sg a u s s i a nm i x t u r em o d e l ( g m m ) t oa p p r o x i m a t et h es t a t i s t i c a l d i s t r i b u t i o no f s p e e c hf e a t u r e h o w e v e r ,t h i sa p p r o x i m a t i o nh a ss o m em i s m a t c hw i t h t h ea c t u a l s p e e c hd a t a f u r t h e r m o r e ,t h et r a i n i n gm e t h o db a s e do nm a x i m u m l i k e l i h o o d ( m e ) r u l e j u s tu s es p e e c hd a t af r o md i f f e r e n tp e r s o n so f t h es a l n ew o r dt o t r a i no n em o d e l i tc a n n o tc h a r a c t e r i z ee f f i c i e n t l yt h ea c o u s t i cd i f f e r e n c e so f d i f f e r e n t w o r d s m i n i m u mc l a s s i f i c a t i o ne r r o r ( m c e ) b a s e dt r a i n i n ga p p r o a c hd e m o n s t r a t e s i t sv a l i d 晦t or e i n f o r c et h ed i s c r i m i n a t i v ea b i l i t yo ft h ea c o u s t i cm o d e l s ,t h et h e s i s d i s c u s s e dt h et r a i n i n g a p p r o a c hb a s e dm c e ,e s p e c i a l l yt h e d e t a i l so fo p t i m i z a t i o n p r o c e d u r ei n t h i sa p p r o a c h t h ea u t h o ra l s of u l f i l l e dt h i st r a i n i n ga p p r o a c hi nt h e c h i n e s en a m e s p e e c hr e c o g n i t i o ns y s t e m 3 ,s p e a k e r - i n d e p e n d e n t v a r i a b l ev o c a b u l a r yi s o l a t e ds p e e c hr e c o g n i t i o n : t h ea p p l i c a t i o na r e ao fw h o l e - w o r da c o u s t i cm o d e lb a s e di s o l a t e d s p e e c h r e c o g n i t i o ns y s t e mi sl i m i t e db yt h ev o c a b u l a r y t h em o d i f i c a t i o no ft h ev o c a b u l a r y n e e d sr e a c q u i s i t i o no f s p e e c ht r a i n i n gd a t aa n dr e - t r a i n i n g 。b u ts p e a k e r - i n d e p e n d e n t v a r i a b l e v o c a b u l a r yi s o l a t e ds p e e c hr e c o g n i t i o nc a nm o d i f yt h ev o c a b u l a r yf r e e l y , w h i c hc o u l da p p l yi s o l a t e d s p e e c hr e c o g n i t i o nt om a n ) f i e l d se a s i l yc o n s i d e r e d a c o u s t i cc h a r a c t e r i z a t i o no fc h i n e s el a n g u a g e ,a c o u s t i cu n i ts e l e c t i o n ,t r a i n i n g a r i d w h o l e 。w o r da c o u s t i cm o d e lc o m b i n a t i o nw e r ed i s c u s s e d 。t h e p e r f o r m a n c e a n d p r o b l e m so f t h es y s t e mw e r ea l s od i s c u s s e d i na d d i t i o n ,s p e e c hr e c o g n i t i o nb a s e dt e l e p h o n es w i t c h i n gs y s t e mw a sd e v i s e d b a s e do nt h ef u l f i l l e di s o l a t e ds p e e c hr e c o g n i t i o ns y s t e m t h es y s t e mh a r d w a r ea n d s o f t w a r ed e s i g n ,a c q u i s i t i o no fm l e p h o n es p e e c hd a t aa n dt e l e p h o n es p e e c hc o r p u s w e r ed i s c u s s e d 。t h e s p e e c hc o r p u si n c l u d e sc h i n e s en a m es p e e c hd a t a b a s ea n d t e l e p h o n ei n q u i r ys p e e c hd a t a b a s e k e y w o r d s :s p e e c hr e c o g n i t i o n ,h i d d e nm a r k o vm o d e l ( 糍嫂錘) ,a c o u s t i cm o d e l , m i n i m u m - c l a s s i f i c a t i o ne r r o r 獨創(chuàng)性( 或創(chuàng)新性) 聲明 本人聲明所是交的論文是本人在導師指導下進行的研究工作及取得的研究 成果。爆我所知,除了文中特別加瑗標注和致謝中所羅列的內(nèi)容阻辯,論文中不 包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包禽為獲得北京郵電大學或萁他 教育撬穩(wěn)的學鬣或 歪書瑟使用遺的孝考瓣。與我藺工律靜嗣恚蔚率磊拜究薪骰靛任 何貢獻均已在論文中作了明確的說明并表示了謝意。 串請學篷論文與資羚 菪有不實之廷,率a 零攆一切穗關(guān)責任。 本人簽名_ 致撬熊一 目期:2 苧壘杰擔 關(guān)于論文使用授權(quán)的說明 學位論文作者完全了解北京郵電大學有關(guān)保暖和使用學位論文的規(guī)定。即: 砑究生程校玫讀學蘊麓瓣論文王佟的翔談產(chǎn)權(quán)蕈鬣震襲京瓣逛大學。學按鴦投保 留并向潮家有關(guān)部門或機構(gòu)送交論文的復印件和磁盤,允許學位論文被查閏和借 閹:學姣可以公奄學位論文豹全部或部分蠹容,可娃競許袋曩影印、績印或其它 復制手段保存、匯編學位論文。( 保密的攀位論文在解密后遵守此規(guī)定) 保密論文注釋:本學位論文鼴于保密在一年緞?wù)筮m用本授權(quán)書。非保密論 文注釋:本學位論文不瘸予保密范圍。 本人簽名:邋 導掰簽名:二主革_ i 孓一 適用本授板書。 日期:皇鰳墨塵 日期:2 竺! 竺! ! ! , 燕王堡童塑型塑魚透壅塑墨堡史羞璧墊鑒塑竺塞 一 一。 1 。1 語音識別概述 第一章緒論 語音識別是指利用電子汁算機等設(shè)備對語音信號進辨識,以獲取謬音信號的 含義。語音識別涉及模式識別、數(shù)字信號處理、信息與通信理論、入工智能、形 式語言和自動機、語音學、語言學、生理學、心理學莓,是門綜合性的學科。 語音識別的研究目標是讓機器“聽德”人類的語言【1o 聽懂具有兩種含義:策 種是將口述語言逐字逐句地轉(zhuǎn)化成為相應的書面文字;第二種是對口述語言中 所包含的要求或者詢問做出正確的響應,而并不拇泥予所有詞正確地轉(zhuǎn)換為書藤 文字。語嗇識別和語音合成相結(jié)舍,即構(gòu)成個“人機通償系統(tǒng)”。信息產(chǎn)業(yè) 技術(shù)的迅猛發(fā)展促進了語音識酃技術(shù)的研究c 2 】【3 】。語音識別技術(shù)有著廣泛的斑 用前景; 語音聽寫梳:可以用口述代替鍵鑫,實現(xiàn)文字輸入并屋打印輸出,這最 人們長久以來的個迫切愿望。這對于辦公自動化將帶來革命性的變化 ( 用機器秘書代替人類秘書) 。由于漢語計算楓輸入的特殊性,漢語語音 昕寫機的璧要性尤冀突出。一方面,它使人機接口更加友好和自然;但 更重要的是,它可懿促進計算祝應用在中國的普及。 強通信工稷中的應用:世界備大通信公司如美國a t & t 公司,日本n t t 公司都一直長期致力予語音識別的研究,因為它在通信的各個領(lǐng)域都有 蟄廣泛的成用。例如手機語音撥號、股市查詢、信魍卡認證等問題。柱 通信方面。一磧更加雄心勃的詩劃是實現(xiàn)兩種語言之聞的直接交滾,即 通過“語醬識別一機器翻譯語音合成”技術(shù)將一種語言直接轉(zhuǎn)換成為 另外一種語言。目前有一些歐美及e 本簿研究組織正在開發(fā)這個領(lǐng)域的 產(chǎn)品。 數(shù)據(jù)癢檢索:政府部門、銀行、金融極構(gòu)、軍事指揮所幫工業(yè)管理部門 無不需要對龐大的數(shù)據(jù)庫避行頻繁的檢索和焱詢,其中很多是通過電話 來進行的。通過鑫然語言壹接檢索數(shù)據(jù)庫可以免涂大量搡終人員靛重復 第一章鰭論 勞動,毿經(jīng)濟又浚速。 語音命令控制;在很多場合下,由于手腳已被占用進行其它動作或照明 不是無法避行搡佟靖,必矮霜諉蠢發(fā)凄擐令,秘熱蹇;裝靈襲離速 亍鼗懿 汽車中撥打電話。另一方面,隨著第三代移動通信技術(shù)的發(fā)展,個人智 麓終臻體積越來越小,逶避按鍵逐行控豢l 越來越不方霞,溪考鑫令按裁 是十分理想、便利的人機接口方式。 魏舞語音識別顯然還會繪失驥者帶來緩大熬方整。透a 卡年來潺音諼裂瓣磅 究開發(fā)工作逐漸殲展,并取得初步成果【4 】。尤其照近一二十年,各國都進行了 大量疆究,勞萎筵囂、基本、敢溯屠領(lǐng)受越位。國內(nèi)騷究穗懟起步鞍浚,毽是瞧 取得不少成果。 1 2 研究歷史與現(xiàn)狀 關(guān)于語音識別的第一篇論文燕1 9 5 2 年美國貝爾實驗室d a v i s 等人利用共振 峰特征識別孤立數(shù)字的研究論文。隨后,1 9 5 6 年夔國的r c a 實驗痰的o l s o n 等 人進行了單音節(jié)識別系統(tǒng)的研究。在非特定人語音識別方面的嘗試,是1 9 5 9 年 美國m i tl i n c o l n 實驗室的r o r g i e 和f o 塔i e 研制的元音識別裝要。網(wǎng)時,在英國 的u n n e r s 時c o l l e g e i ne n g l a n d ,f r y 等入建立了一個英語胬索識剮糕。在他們的 研究中,、第一次使用了統(tǒng)計語法信息來輔助語音識別f 5 】。 到六、七十年代,語音識別作為一個蘧要晦研究課題而展開,弗且逐步取得 了實質(zhì)性的進展,一系列的里程碑式的基礎(chǔ)性突破為今后謠膏識別的發(fā)展奠定了 基礎(chǔ)。程語音學方面,瑞典人f a n t 發(fā)表了著名的博士論文語音產(chǎn)生的聲學理 論;人們還對人耳的聽覺生理和心理方蕊進行了研究,提出了臨界頻帶理論。 在信號簸理方藹,線性預涌編碼( l i n e a r p r e d i c t i o nc o d i n g ,l p c ) 技術(shù)在7 0 年代被 目本學贛i t a k u m 成功地皮用于語音識另u 6 i ,成為途今為止最為有效的語音特征 參數(shù)之一;前蘇聯(lián)科學家v i n t s y u k 在6 0 拳代將動森規(guī)劃f d y n a m i cp r o g r a m m i n g , d e ) 應用于模式識別,成為語音識別方法的重要基礎(chǔ):而日零學者s a k o e 和c h i b a 捷出了動態(tài)時間伸縮( d y n a m i c t i m ew a r p i n g ,d t w ) 算法。成為第一種通用的語音 識別算法,在特定人語音識別中獲得了廣泛的應用。 翠勰的語裔識嗣系統(tǒng)都是按黼簡單的模板囂辯原理二作的特定入、小調(diào)匯 表,孤立詞識別系統(tǒng)。d t w 算法克服了說話人逮魔不均勻造成的時間伸縮變化 的影響,往系統(tǒng)瓣性髓有了顯著瓣提高。穗是對予楚高要求豹語音談剮系統(tǒng)這種 基于語音識別的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究 簡單的機制則有些力不勝任,例如詞匯表的擴大,孤立詞語音識別轉(zhuǎn)向連續(xù)語音 識別無法像孤立詞識別那樣以詞作為基本識別單元。如果采用音節(jié)或者音素作為 識別單元,則存在下述矛盾:即一方面為了減小識別時的搜索范圍,希望所選的 識別單元的數(shù)量盡可能少,另一方面,希望所選的識別單元在不同的上下文中變 化越小越好,而識別單元數(shù)量的減小,會使這一要求難以實現(xiàn)。另外一個困難是 連續(xù)發(fā)音時的各個音素以及音節(jié)之間的邊界不能像孤立詞那樣可以明確劃定。此 外,發(fā)音人不特定的語音識別( 非特定人語音識別) 還存在更大的困難。這是由于 不同人說同一個音素或音節(jié)時,聲學特征有很大的差異。這使得語音識別,特別 是非特定人、大詞匯表、連續(xù)語音識別成為一項非常困難的研究課題。 八十年代以后,逐漸使用以隱馬爾可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 為代表的基于統(tǒng)計模型的方法 7 】來代替以前的模板匹配的方法。以前只在i b m 、 c m u 等少數(shù)研究機構(gòu)使用h m m 方法,到八十年代中后期開始在語音識別領(lǐng)域 中廣泛使用。美國的t 0 0 0 單詞規(guī)摸的d a r p a 研究項目在很大程度上推動了語 音識別的研究。以此為契機,s r i 、m i t 、c m u 、b b n 等展開激烈競爭,并且取 得許多非常重要的研究成果。在美國,八十年代末期由c m u 推出的s p h l n x 系 統(tǒng) 8 ,率先突破了語音識別中非特定人、連續(xù)語音、大詞匯量三大難題,被世 界公認為語音識別技術(shù)發(fā)展中的一個里程碑。八十年代中后期,人工神經(jīng)網(wǎng)絡(luò)也 成為了新興的語音識別方法【9 】。 九十年代以來,隨著語音識別各方面問題的逐個解決,語音識別中最困難的 非特定人、大詞匯量、連續(xù)語音識別已經(jīng)達到了較高的性能。各研究機構(gòu)推出的 識別系統(tǒng)包括:i b m 公司的v i a v o i c e 系統(tǒng),m i c m s o t t 的w h i s p e r 系統(tǒng)等。還有 劍橋大學開發(fā)h m 工具包h t k i o ,它已經(jīng)成為研究人員研究語音識別的重要 工具。 漢語語音識別起步雖晚,但發(fā)展很快。目前,國內(nèi)從事語音識別研究的單 位超過了幾十個:如清華大學、中科院自動化所、聲學所、哈爾濱工業(yè)大學、北 京郵電大學等。它們結(jié)合漢語語音學和語言學的特點,在基礎(chǔ)理論、模型和實用 系統(tǒng)等方面作了大量的工作,并取得了較好的成果。臺灣在漢語語音識別方面的 研究也具有較高水平,其中以l i n s h a hl e e 教授主持的研究小組最為出色,它們 研制成功了一個實時漢語語音聽寫機- - g o l d e nm a n d a r i n 。在我國的“八五”計劃 和“8 6 m 計劃中,漢語語音識別的研究得到了大力支持,強有力地推動了漢語 語音識別研究的發(fā)展。特別值得一提的是i b m 公司開發(fā)的v i a v 0 i c e 漢語語音識別 蘭二蘭笪墮一 軟件,它代表了漢語語音識別較高水平。系統(tǒng)具有如下優(yōu)點:i 、非特定人、大 詞匯量、連續(xù)語音識別系統(tǒng),每分鐘可以輸j k l 5 0 - 字以i 。2 、高識別率,最高識 別率達9 5 ,平均識別率達8 5 。3 、強大的詞組學 - 3 功能,系統(tǒng)自定詞組3 2 0 0 0 個,根據(jù)用戶需要可添自1 1 2 8 0 0 0 個詞組或短語。4 、強大的用戶1 2 1 音學習功能,只 需讓用戶訓練5 0 句話,就能完全適應帶口音的用戶。5 、自適應功能,只要把識 別錯誤修改過來,便可以自動學習,不斷適應用戶的口音和詞語。 1 3 語音識別的發(fā)展前景 盡管語音識別的研究工作取得了一定的進展,但是目前的技術(shù)水平比起人 類的聽覺識別能力還是相距甚遠【l i 。另外大多數(shù)的系統(tǒng)都只適合于識別“干凈” 的語音,當他們應用于噪聲環(huán)境中,性能大大降低。大量實驗表明,大多數(shù)現(xiàn)有 的非特定人語音識別系統(tǒng),如果使用不同于訓練時所使用的麥克風和不同于訓練 時所處的外部環(huán)境時,即便在安靜地辦公室內(nèi)測試,性能都會嚴重下降。而對于 電話語音信號,汽車、工廠內(nèi)、室外環(huán)境或戰(zhàn)場上的語音信號來說,現(xiàn)有的語音 識別系統(tǒng)的性能更差 1 2 】。產(chǎn)生上述現(xiàn)象的主要原因在于語音信號在受到各種實 際影響后而表現(xiàn)出的多變性,包括音素可變性,聲學可變性,說話人本身的可變 性,說話人之間的可變性等等。因此還需要在以下幾個方面進行深入研究: 1 自然口語語音識別 以i b m 的v i a v o i c e 為代表的“朗讀”式語音識別技術(shù)已經(jīng)取得了令人滿意的 效果。但是在實際的使用環(huán)境中,更多、更自然的人機交互方式是“自然口語” 語音例如:各種信息查詢服務(wù)系統(tǒng)、自動翻譯系統(tǒng)?!白匀豢谡Z”語音有如下 特點:( 1 ) 語法規(guī)則靈活多變( f l e x i b i | 崎) ;( 2 ) 其中包含大量非語音現(xiàn)象,如:語 音插入、猶豫、咳嗽、咂嘴等;( 3 ) 同一語音受背景聲學環(huán)境、上下文語境( c o n t e x t ) 、說話人c i 音等因素的影響而產(chǎn)生“發(fā)音變形”( p r o n u n c i a t i o nv a r i a b i l i t y l 。 因此,口語語音識別的關(guān)鍵技術(shù)在于:( 1 ) 為非語音現(xiàn)象和發(fā)音變形建立相應的 聲學模型:( 2 ) 建立描述口語內(nèi)在隨機性的語法網(wǎng)絡(luò)或統(tǒng)計語言模型。 2 使用更好的方法去除電話和周圍環(huán)境噪音等影響 在實際應用中,語音識別系統(tǒng)往往是在比較復雜的聲學環(huán)境下使用,即存在 各種背景噪聲和由說話人、語音通道、說話方式等導致的語音變形,此時其性能 顯著下降,因此提高系統(tǒng)的魯棒性是語音識別實用化的關(guān)鍵技術(shù)。目前常用的技 術(shù)有:采用具有抗噪特性的特征、麥克風陣列、語音增強和針對噪聲的模型補償 基于語音識別的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究 或自適應簿。雖然這些方法鄱取得了明顯的效果,侵還有逶一步捷離瓣余建,黼 此還需要尋找更好的方法去除環(huán)境噤聲等的影響。 3 支持多種語言靜語音諼粥技術(shù) 目前的語音識別技術(shù)譙語音模型和語裔模型等方面都是非常依賴具體語育 戇。隨著髓來越多的語音談剮應用投放劐市場上,開發(fā)支持多種語富( m u l t i l i n g u i s t i c ) 的語音識別技術(shù)也顯得非常重要,因為每當開發(fā)一種新的應用服務(wù)都需愛 對若干羊牽語言進行大量靛修改將是十分暴赍露耗簿熬。 4 有關(guān)人性因素( h u m a nf a c t o r s ) 的研究 在語密謖鬟產(chǎn)鼯孛還殘當考慮一些人攘閑素,鑲強友好豹器薔設(shè)計、荔饜憋、 智能的提示響應以及錯誤恢復等,臺理的加入人性因索可以提高語音識別系統(tǒng)的 度婷經(jīng)饔袋活性,縮小實驗室應眉秘實際瘦潮之閽靜醺髓差躐。 5 實用化的研究 語音談掰研究豹蠢靜就楚瑟蘑爨鬻純鶿。大詞挺麓語音識翔系統(tǒng)蘸髓主要是 蒸于p c 機漿統(tǒng)的,如i b m 的v i a v o i c e 系統(tǒng)。以后如何將其在低成本計簿機系統(tǒng), 魏掌上電靛等,或膣掇系絞上實瑗蹙曩、應掰研究懿爨點。奪詞匯置謬音識嗣幫 懸在脫機系統(tǒng),如數(shù)字信號處理芯片( d i g i t a ls i g n a lp r o c e s s o r , d s p ) 上實現(xiàn)的。 隧藿d s p 瀚牲能靜飛速提贏,語耆談?wù)橄到y(tǒng)麓諼剩率、速度黻及任務(wù)靜復雜程幫 會有顯著的提高:另外,由于通用d s p 的成本較高,語音識別專用芯片的研制將 爨洚低語音識囊豢綾蔽本、普及諉囂滾舅l 瘦爝范圈靜重要途徑。 1 4 課題豹主要內(nèi)褰翻慧義 技術(shù)必頒與應用緊密結(jié)合?,F(xiàn)我語音識別已經(jīng)在誨多領(lǐng)域里囂開始應用,像 語音聽寫機、聲控撥號、銀行或證券的查詢鐐等。這是因為,方面謬音識剮技 術(shù)在某些穆用方蕊已經(jīng)達到了實用喜 :豹程度;另外一方囂,用戶的需求也越來說 遺切。 雖然滔謄識別技術(shù)習裁還沒有完全成熟,但是從璐究與應用的關(guān)繁來看,發(fā) 展中的技術(shù)也可 三l 在很多情況下有燕相應的使用價值。例如,特定人、孤立詞語 嗇識別技術(shù)可以用來實現(xiàn)電話聲控撥號的功嬈,省去了用戶記大量電落號碼的受 拯,還可以在騎車薄不方便廂手撥崎的情況下使用。選樣更安全、方便。另外鼉坪 究和應用之間還有栩互促進的作用。一方面,新的研究成果可以;l 入到精的應用 中去,改善人類生活方式:粥一方面,應用中的不足叉會產(chǎn)生新的研究方向和熱 第一章緒滄 點,使褥磅究霉鴦瑟深入,技寒更麓疲熬。 本謀題從上述研究和應用的必系出發(fā),建立了個非特定人、孤立詞、中小 讖匯量懿孤立詞人名語謄識剎系綾。簌應溺囂燕庭器,該系統(tǒng)霹戳疲麓囊移溯毫 話上實現(xiàn)聲控撥號的功能,也可以應用到掌上電腦簿手持終端設(shè)備上實現(xiàn)電話號 強壹讒鬣浯音控鍘等功熊。當蘸手穗終媸戇發(fā)震趨勢是髂獲越來越夸,撰撂要求 更加簡便,而利用語音讖行控制藕輸入則是十分理想的提贏人機接蝴的方式,也 楚實褒入撬交互熬一個途徑。箕瘋蘑蔻遴一卜分廣溺。另癸,獲磅究強度著,語音 識別技米涉及多學科,包括數(shù)字信號處理、模式識別、通糖與信息理論、聲學語 音學、落言學、愛理學等等,纛藏技求實袋十分復袈,選攆入襲語卷鼉跫裂系繞終 為開展譖音識別研究比較合理。嘲為該系統(tǒng)結(jié)構(gòu)完整、功能單純,感一個典型的 語音識躞系凌。宅覆蓋了港嗇識爨技術(shù)茲主要痰棗,騫裁予掌握基稿理論露慕本 方法。為深入研究奠定了堅實的藻礎(chǔ)。 1 5 主要研究成果 奉課題主要完成了以下幾方面工作: 1 建立了一個人名語音數(shù)據(jù)瘁及其相應的發(fā)音儲息庫和個電話轉(zhuǎn)接語啻數(shù) 據(jù)庫。 人名語音數(shù)據(jù)庫不但包括人名語音文件,麗且避包括與澩音環(huán)境鞠錄音者相 關(guān)的信意,如:澩音環(huán)境、姓名、性別、年齡、方言等。這些信息裔乖j 于數(shù)據(jù)庫 的分類、整理和遣找。尉前,數(shù)搬庫中已經(jīng)存放了4 1 個人( 其中女性1 3 人) 的采 樣數(shù)據(jù),每人在安靜的蜜驗室環(huán)境下采集多級。 2 建藏了基于c h m m 的非特定人的人名語音識別系統(tǒng) 該系統(tǒng)詞匯麓為1 0 0 個入名,首先經(jīng)察驗確定了系統(tǒng)的h m m 的狀態(tài)數(shù)稻高 斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 混合度大小。然后,通過對特征進行 酌緬仡娥理提高識剮率,在h m m 狀態(tài)數(shù)淑l o 。黼斯混合魔5 的條件下,系統(tǒng) 平均識別率可以達到9 6 以上。在此基礎(chǔ)上,又對“次最優(yōu)距離”的拒識方法做 了研究。通過使髑基于最,j 、分類錯 溪( m i n i m u mc l a s s i f i c a t i o ne r r o r , m c e ) 準則的 判別訓練方法來訓練聲學模型,便系統(tǒng)識別率提商到9 7 2 。同時,還對h m m 轉(zhuǎn)移矩陣精諼掰攀韻影響進行了蜜驗分析,發(fā)現(xiàn)固定的轉(zhuǎn)移概率矩陣凡乎不損失 識別性能。 3 建交基于聲酚簿模黧的菲特定內(nèi)容、稚特定入挎營音後剩系統(tǒng) 莖三量童望型絲皇堡鑾堡墨竺! 苤壁墊壟塑型莖 系統(tǒng)詞匯量是1 0 0 個人名,以漢語聲韻母作為聲學基本單元,采用模型拼接的方 法構(gòu)成整詞人名作為識別單元。主要研究了聲學模型的訓練和整詞模型的拼接, 同時探討了一些系統(tǒng)實現(xiàn)和性能方面的問題。 1 6 論文結(jié)構(gòu)和內(nèi)容 第一章概述語音識別技術(shù),回顧語音識別研究的歷史、現(xiàn)狀和發(fā)展前景,概 括介紹本課題的研究內(nèi)容和結(jié)果。 第二章概述了語音識別的基本原理,包括基于模式識別和統(tǒng)計理論的語音識 別系統(tǒng)模型,語音特征提取的方法。 第三章提出有一個基于語音識別的電話自動總機系統(tǒng)地方案。討論語音識別 中語音數(shù)據(jù)庫的意義,介紹建立的人名語音數(shù)據(jù)庫和電話轉(zhuǎn)接語音數(shù)據(jù)庫的結(jié)構(gòu) 和內(nèi)容。 , 第四章介紹隱含馬爾可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的基本理論及 其在語音識別中的聲學層建模的方法。分析和研究基于c h m m 的非特定人的人 名語音識別系統(tǒng)的結(jié)構(gòu)和性能以及提高識別率的措施。 第五章介紹基于聲韻母模型的非特定內(nèi)容、非特定人的孤立詞語音識別中聲 學建模和模型拼接方法,討論系統(tǒng)實現(xiàn)中的具體技術(shù)問題,。 第六章對本文進行總結(jié)與展望 第二章語音識別基本原理 第二章語音識別基本原理 語音識別是人機交互的一項重要內(nèi)容,也是語音信號處理中非常重要的應用 技術(shù)。它是一門涉及面很廣的交叉學科,與計算機、數(shù)字信號處理、通信與信息 理論、語音語言學、神經(jīng)生理學等學科都有密切的關(guān)系。 研究語音識別主要有三種方法:聲學語音學方法、人工智能方法、模式識別 方法。經(jīng)過大量研究和實踐,基于模式識別的方法占據(jù)了主流,其性能也最好 1 3 】。就像大多數(shù)模式識別系統(tǒng)一樣,基于模式識別的語音識別系統(tǒng)有兩個步驟 一語音模式的訓練和通過模式匹配來識別?!坝柧殹彪A段的任務(wù)是建立識別基本 單元的聲學模型以及進行文法分析的語言模型等。識別”階段選擇能夠滿足要 求的一種識別方法,采用語音分折方法提取出這種識別方法所要求的語音特征參 數(shù),按照一定的準則和游度與系統(tǒng)模型進行比較,通過判決邏輯得出識別結(jié)果。 基于模式識別的方法有一個很大的優(yōu)點:語音所攜帶的“信息”通過訓練階 段麗儲存在系統(tǒng)之中了,它幾乎是“盲”的。因為我們不需要語音學家來標定哪 一段語音是什么,起始邊界在哪里,發(fā)音特征是什么樣的。而完全是由系統(tǒng)通過 大量的實際語音數(shù)據(jù)訓練麗“學習”獲得的。 2 1 基于模式識別的語音識別系統(tǒng)模型 如圖2 - 1 所示一個典型的基于模式識別的語音識別系統(tǒng)。它主要包含了四個 部分【13 : f i g u r e2 - 1 b l o c kd i a g r a mo f p a t t e r nr e c o g n i t i o no r i e n t e d s p e e c hr e c o s n i z c rf 1 3 】 1 特征提?。簭妮斎霐?shù)字語音信號經(jīng)過各種變換等到一個語音特征時間序列( 語 基于語音識剮的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究 音特征禳式,。莆先,褥語音信號分成短靜辯闐段,稱之勢“賴”。然后對每 幀語音信號提取特征,從而形成語音特征序列。一般特征掇取都是用一些頻 譜分櫥方法,鍘鱺濾渡囂韁方法,線性談瓣分拆等簿。主簧使用的特征是線 性預測倒譜系數(shù)( l p c c ) ,鎂爾頻率倒譜系數(shù)( m f c c ) 等。 2 攘式謝練:用霹應于麗一類語音鵑特征模式去生成該類靜個代表特征禳 式。這個代表特征模式邋常由某種平均方法而得到,稱之為摸板,鍘如基于 d t w 簿法靜懨魏系統(tǒng)串瓣參考穰薇;或者它電可淤是一個摟壅,箍述了這 個代表特征模式的某些統(tǒng)計特性,例如基于h m m 的識別系統(tǒng)中的統(tǒng)計聲學 摟墼。 3 模式匹配:未知的特征模式逐一的與儲存的模板或者模型進行比較并且生成 涎翥之瀾懿一個籀似f 或囂離) 潮菠。要琵較兩個語鬻特征耩式,一般薷要囂 個步驟。一個是計算局部( 短時) 躐離,用米度量兩幀語音特征矢量之間的相 戳度;舅巾是全局躲辯漓調(diào)整鞠較方法,角它來靜償鼴個語音特髹穰式之 間的不閽說話速率。早期使用的較多的是幼態(tài)時間彎i 尚( d t w ) 算法,目前主 要經(jīng)蘧瓣是h m m 釋方法。 4 判決邏輯:利用模式匹配的相似測度結(jié)果來判決哪個代表特征模式與未知的 姆短模式最匹配,簸焉繪舞諼澍臻采。在茲箍識靜情況下,逡較籬攀方法懿 就是將來知特征模式劃為具有最小距離測度的那類;在商拒識的情況下, 遁鬻是萼棼最小蘸題騫蘸凌鴦一個 l 瑟遴符跑較;藏囂褰 淳繇有豹距離測度, 從最小的兩個距離測度的差來判決是據(jù)識述是判決。 2 2 基于統(tǒng)計理論的話音談男模型 早期的語音識別系統(tǒng)都怒按照簡單的模板匹配原礁工作的小詞匯表,孤立 詞識別系統(tǒng)。d t w 算法克服了說話人速度不均勻造成酌對闖攛繚變純的影響, 使系統(tǒng)的性熊有了顯著的提高。僵是對于更高鬻求的語膏識別系統(tǒng)這種簡單的機 制則有些力不勝任。從8 0 年代以來,逐漸使用以毖馬爾葛夫模型( h m 為代表 的基于統(tǒng)計瓚論來建模聲學屢附方法州【1 4 】來代替以前的模板聰配的方法。以前 只在i b m 、c m u 等少數(shù)研究機構(gòu)使用h m m 方法,到年代巾居期由b e l l 實 驗室s e l e v i n s o n ,b h j u a n g , l r r a b i n e r 等人發(fā)表的文章對h m m 進行深入淺 出的介紹,才逐漸使h m m 為世界各國從事語贅處理的磅究人員贗了解鞠熟悉, 避麗成為一個研究熱點同時開始廣泛使用。隨后成為了研究語街識別的主流方 釜三煮重量臻型至奎蓬鍪 一。一 法。冀賽,這兩瓣方法酃可鑫落怒建立奩炎哮新粼凌理論( b a y e s d e c i s i o nt h e o 蟹, ) 基礎(chǔ)上的。b h j u a n g 證明了:基于模稅匹配的渤態(tài)時聞彎曲( d t w ) 方法和基 子穩(wěn)蠻罵拳孬夫摟型( h 黼鴦熬方法茬一是條釋下跫萼囂魏,糍鑫在連續(xù)飄灝空 間中,隱含馬爾可夫模烈的狀態(tài)時間序列猩一定條件下就是動態(tài)時間彎曲中的參 考蒺投f 鼙。 蒸于統(tǒng)計理論的譜街識別方法是把譖醬看作具有一患隨機性的信源t 果髑統(tǒng) 計方法寒模式駐醞移割捷。語裔戇產(chǎn)生、傳輸幫惑籀罄是蒸予穰息鴦逶信濺論戇 觀點來獵待的【1 6 。如圖2 - 2 所泳。 黼神嘲秘懶艇硪蝴嬸酗轟巍磷 匝互p 侄垂p 韙愛y ( 垂) 野黜* f i g u r e2 - 2 c o m m u n i c a t i o nt h e o r e t i c a lv i e wo f s p e hr e c o g n i t i o n1 1 6 】 漓惠源產(chǎn)生個澄意m ,透過語法俺道( 1 i n g u i s t i cc h a n n e l ) 形成涌w ;群經(jīng)過 發(fā)聲債道( a r t i c u l a t o r yc h a n n e l ) ,即人體發(fā)聲器宮,把詞變成語音信號s ,譙這個 進程審不弱說話a 翡蜀齏。語速等影嫡著諾音信號s i 熊詹經(jīng)過聲學佰道( a c o u s t i c c h a n n e l ) ,語音信號又收剿說話環(huán)境,傳黲器等影響變成a ;最后經(jīng)過傳輸信道 ( t r a n s m i s s i o nc h a n n e l ) 變成了語啻諼掰系統(tǒng)靜輸入籬號x 。 對于語音識別來講。目標就是識別出x 中包禽的詞w 。這可以歸結(jié)為個 決策闞鼷,露蓁于x 攜帶靛僖惠秘識掰任務(wù)靜糨美稚諼,俸出一個8 最德”茲 推斷,給出嵌入在x 中的詞w 。這神“最憂”是罄予某種準則而是的,例如貝 時薪最陵、錯誤穰率等。凳蕊詫討論起冤( 孤立潺識掰的穗b x ) ,每個哥麓的譎w 被認為是一個類。我們假設(shè)共有麒的不間的類。鞫此,這時語啻識別就是根據(jù) 菜靜最優(yōu)握剜,斃輸入德號x 諼剃成掰個哥麓串酶萊一熬。鱺圈2 2 囊示,語 音信號x 具有不確定性、可變?nèi)?、隨機挫等,綴自然的這凝使統(tǒng)計模式識別成 濤了解浹語音識掰敢方法之一。 如皋統(tǒng)計聯(lián)合分布p ( w ,科以準確的計算,那么由霸葉斯判決準則: 基于晤音識別的電話交換系統(tǒng)中關(guān)鍵技術(shù)的研究 w = a r g a x p ( w ,x ) ( 2 - t ) 其中礦就是識別出來的詞。這個準則在貝葉斯風險最小的意義下是最優(yōu)的。如 圖2 2 所示,由于各個信道的復雜性和大量的不確定性,我們沒有足夠的知識和 方法來準確描述x 和w 的聯(lián)合分布。而實際的語音識別中,我們也很難去描述 圖2 2 中的各個信道。因此,一般采用如圖2 3 所示的簡化源信道模型( s o u r c e c h a n n e lm o d e l ) 來描述語音識別問題 1 6 1 4 。 w o r d s in o i s y1 s p e e c h c h a n n 。e l 卜磊 s p e e c “l(fā)c h a n n e i l w o r d s 吾d e c o d i n g 廣“ f i g u r e2 - 3 s o u s e c h a n n e lm o d e lo f s p e e c hg e n e r a t i o n r e c o g n i t i o n 1 6 】 1 聯(lián)合分布p ( w ,x ) 分解成兩部分:p ( x l 緲) 和p ( ) ,分別稱為聲學模型和語 言模型。聲學模型描述了詞w 產(chǎn)生的情況下信號x 的似然度:語言模型描 述了詞w 出現(xiàn)的概率特性。 2 概率分布p ( x l ) 和p ( ) 被假設(shè)成某種已知的參數(shù)化概率分布函數(shù) p ( z l ) 和片( 礦) 。 3 上述概率分布函數(shù)中的參數(shù)集a 和1 1 由統(tǒng)計學中的點估計方法從實際訓i 練 數(shù)據(jù)中估計得到。 這樣,所有圖2 - 2 的中間信道,例如發(fā)聲、聲學、傳輸信道,都被綜合成圖2 - 3 所示的有噪聲的信道。這時語音識別就變成了一個有噪聲信道解碼的問題。其中 信道建模變成了一個重要問題,包括聲學建模和語言建模。有了這個簡化,語音 識別中最常用的判決準則就是嵌入最大后驗判決準則( p l u g i nm a x i m u m a p o s t e r i o r i ( m a p ) d e c i s i o nr u l e ) , w 。a r g m a x p ( w i x 、= a g a x p x ( x l w ) p r ( w ) 其中天和f 是通過訓練而估計出來的參數(shù)集,礦就是識別出來的詞。這個判決準 則是由貝葉斯判決準則( 2 1 ) 推導而得的,廣泛的應用于各類模式識別中【1 7 】。要 想在語音識別中實現(xiàn)嵌入最大后

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論