(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于hmm的嵌入式語(yǔ)音識(shí)別系統(tǒng)研究.pdf_第1頁(yè)
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于hmm的嵌入式語(yǔ)音識(shí)別系統(tǒng)研究.pdf_第2頁(yè)
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于hmm的嵌入式語(yǔ)音識(shí)別系統(tǒng)研究.pdf_第3頁(yè)
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于hmm的嵌入式語(yǔ)音識(shí)別系統(tǒng)研究.pdf_第4頁(yè)
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于hmm的嵌入式語(yǔ)音識(shí)別系統(tǒng)研究.pdf_第5頁(yè)
已閱讀5頁(yè),還剩68頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于hmm的嵌入式語(yǔ)音識(shí)別系統(tǒng)研究.pdf.pdf 免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要 曼 蔓i i i r o l l 一一 曼 苧 皇 苧 鼉 摘要 語(yǔ)音識(shí)別 a s r 是指機(jī)器通過(guò)識(shí)別和理解把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件 或命令的技術(shù) 通過(guò)語(yǔ)音識(shí)別技術(shù)實(shí)現(xiàn)人機(jī)交互 可以使交互過(guò)程變得自然 高 效 經(jīng)過(guò)多年的發(fā)展 語(yǔ)音識(shí)別系統(tǒng)已顯示出巨大的應(yīng)用前景 同時(shí)也形成了完 整的理論體系和識(shí)別模型 隱馬爾可夫模型 h m m 就是其中一種 它是一種基 于統(tǒng)計(jì)的模型 具有良好的識(shí)別性能和魯棒性 因而被應(yīng)用到很多優(yōu)秀的語(yǔ)音識(shí) 別系統(tǒng)中 近年來(lái) 嵌入式技術(shù)的蓬勃發(fā)展為嵌入式語(yǔ)音識(shí)別應(yīng)用帶來(lái)了廣大的市場(chǎng)需 求 傳統(tǒng)的d t w 算法在進(jìn)行非特定人識(shí)別時(shí)的性能不太令人滿意 且識(shí)別過(guò)程 運(yùn)算量較大 對(duì)嵌入式平臺(tái)實(shí)時(shí)應(yīng)用來(lái)說(shuō)是一種挑戰(zhàn) 因此需要采取一種性能良 好的算法 h m m 則是一種不錯(cuò)的選擇 但大多數(shù)基于h m m 的語(yǔ)音識(shí)別系統(tǒng)都 是在p c 平臺(tái)上實(shí)現(xiàn)的 因此研究在嵌入式平臺(tái)下基于h m m 的語(yǔ)音識(shí)別系統(tǒng)是 十分必要而又有意義的 本文通過(guò)對(duì)嵌入式語(yǔ)音識(shí)別原理和h m m 模型研究 根據(jù)嵌入式平臺(tái)語(yǔ)音識(shí) 別系統(tǒng)研究流程 首先在p c 平臺(tái)上采用c 語(yǔ)言設(shè)計(jì)與實(shí)現(xiàn)了基于h m m 的語(yǔ)音 識(shí)別算法 驗(yàn)證本文所設(shè)計(jì)算法的正確性 并對(duì)結(jié)果進(jìn)行了簡(jiǎn)單分析 鑒于f p g a 平臺(tái)的諸多優(yōu)點(diǎn) 本文采用嵌入式平臺(tái)為f p g a 通過(guò)對(duì)嵌入式f p g a 平臺(tái)的開(kāi) 發(fā)流程進(jìn)行研究 設(shè)計(jì)了f p g a 平臺(tái)上的基于h m m 的嵌入式語(yǔ)音識(shí)別系統(tǒng)方案 結(jié)合系統(tǒng)需求和算法本身特點(diǎn) 提出了系統(tǒng)的總體框架 并對(duì)系統(tǒng)進(jìn)行了軟硬件 功能模塊劃分 設(shè)計(jì)了系統(tǒng)的軟硬件框架 調(diào)度策略 同時(shí)通過(guò)對(duì)嵌入式語(yǔ)音識(shí) 別系統(tǒng)進(jìn)行分析 提出了系統(tǒng)實(shí)現(xiàn)過(guò)程中的關(guān)鍵問(wèn)題 如語(yǔ)音數(shù)據(jù)如何輸入到 f p g a 中 信號(hào)分析模塊算法如何實(shí)現(xiàn)浮點(diǎn)轉(zhuǎn)定點(diǎn)計(jì)算以及為了保證識(shí)別實(shí)時(shí)性 而采用硬件實(shí)現(xiàn)的v i t e r b i 算法的硬件如何實(shí)現(xiàn)等 并針對(duì)這些問(wèn)題分別給出了 相應(yīng)的解決方法 設(shè)計(jì)實(shí)現(xiàn)了一個(gè)嵌入式語(yǔ)音識(shí)別系統(tǒng)的原型 語(yǔ)音識(shí)別技術(shù)在嵌入式系統(tǒng)中的應(yīng)用是當(dāng)前的研究熱點(diǎn) 本文研究了嵌入式 平臺(tái)基于h m m 的語(yǔ)音識(shí)別系統(tǒng) 對(duì)語(yǔ)音識(shí)別算法的嵌入式設(shè)i f 矛n 實(shí)現(xiàn)做了有益 的探索 對(duì)嵌入式語(yǔ)音識(shí)別的進(jìn)一步研究具有積極的理論和實(shí)踐意義 關(guān)鍵詞語(yǔ)音識(shí)別 嵌入式 h m m f p g a a b s t r a c t 曼 曼 曼i 二 i 二 i i 一i iii i i a b s t r a c t s p e e c hr e c o g n i t i o ni s at e c h n o l o g yi nw h i c hc o m p u t e r sc o n v e r ts p e e c hs i g n a l s i n t oc o r r e s p o n d i n gt e x t so rc o m m a n d sb yr e c o g n i t i o na n du n d e r s t a n d i n g m a k i n gt h e h u m a n m a c h i n ei n t e r a c t i o nm o r en a t u r a l a n de f f e c t i v e a f t e rm a n yy e a r s d e v e l o p m e n t s p e e c hr e c o g n i t i o ns y s t e mh a ss h o w nh u g ea p p l i c a t i o nf o r e g r o u n d a l s o h a sf o r m e di n t e g r a t e dt h e o r ys y s t e ma n dr e c o g n i t i o nm o d e l s h m m h i d d e nm a r k o v m o d e l i so n eo ft h e s em a t u r em o d e l s t h eh m m i sap r o b a b i l i s t i cm o d e lu s e di n s p e e c hr e c o g n i t i o ns y s t e m s w i t hah i g h r e c o g n i t i o n r a t ea n dg o o da n n n o i s e p e r f o r m a n c e h e n c ei su s e di nl o t so f e x c e l l e n tr e c o g n i t i o ns y s t e m s i nr e c e n ty e a r s t h er a p i dd e v e l o p m e n to fe m b e d d e dt e c h n o l o g yh a sb r o u g h t e x t e n d e dm a r k e tr e q u i r e m e n t s t h es p e a k e r i n d e p e n d e n tr e c o g n i t i o np e r f o r m a n c e u s i n gt r a d i t i o n a ld t wa l g o r i t h mi sn o tv e r ys a t i s f y i n ga n dt h er e c o g n m o np r o c e s sl s c a l c u l a t i o nc o n s u m i n gw h i c hi sab i gc h a l l e n g ef o rt h er e a l t i m ea p p l i c a t i o n o n e m b e d d e dp l a t f o r m s oi ti sn e c e s s a r yt oa d o p tab e t t e ra l g o r i t h m h m mi s ag o o d c h o i c e b u tm o s to ft h ec u r r e n t l ye x i s t i n gs p e e c hr e c o g n i t i o ns y s t e m sc o n s i s to f c o m p u t e rs o f t w a r eo np cp l a t f o r m s s oi t i sm e a n i n g f u la n di n e v i t a b l et or e s e a r c h h o wt or e a li z et h es p e e c hr e c o g n i t i o no ne m b e d d e dp l a t f o r m t h i s p a p e rr e p o r t s o nr e s e a r c hi n t ot h ep r i n c i p l e s o fe m b e d d e ds p e e c h r e c o g n i t i o na n dh m m u s i n gt h ef o l l o w i n gr e s e a r c hf l o ww i t ht h eg o a lo fo b t a i n i n ga s p e e c hr e c o g n i t i o ns y s t e mo na ne m b e d d e dp l a t f o r m t h er e s e a r c h e rf i r s t c h o s et h e a l g o r i t h mw h i c ht h es y s t e mw o u l da d o p ta n dt h e nd e s i g n e da n di m p l e m e n t e dt h e a l g o r i t h m so ft h es p e e c hr e c o g n i t i o ns y s t e mo nap cp l a t f o r m t ov e r i f yt h ec o r r e c t n e s s o ft h ed e s i g n t h en e x ts t e p w a st oc h o o s et h ee m b e d d e dp l a t f o r m b e c a u s e f p g a f i e l dp r o g r a m m a b l eg a t ea r r a y h a sm a n ya d v a n t a g e sf o re m b e d d e dd e s i g n s t h i sr e s e a r c ha d o p t e d i t a si t sd e v e l o p m e n t a lp l a t f o r m n e x tw ep r o p o s e a n h m m b a s e ds p e e c hr e c o g n i t i o ns o l u t i o nr e s u l t i n gf r o mt h er e s e a r c ho nt h ee m b e d d e d f p g ap l a t f o r m i no r d e rt om e e tt h es y s t e mr e q u i r e m e n t s a n db a s e do nt h e c h a r a c t e r i s t i c so ft h ea l g o r i t h m s t h er e s e a r c h e rd e s i g n e dt h es y s t e mf r a m e w o r k i n c l u d i n gt h eh a r d w a r ea n ds o f t w a r e f r a m e w o r k so ft h es y s t e m a s w e l la sa s c h e d u l i n gs t r a t e g y a f t e ra n a l y z i n gt h ee m b e d d e ds p e e c hr e c o g n i t i o ns y s t e m t h e r e s e a r c h e ri d e n t if i e dt h ec r i t i c a lp r o b l e m st h a tw o u l db ee n c o u n t e r e dd u r i n gt h e d r o c e s so fs y s t e mi m p l e m e n t a t i o n s u c ha sh o wt oi n p u ts p e e c hd a t a t ot h ef p g a 北京丁 i k 大學(xué)t 學(xué)碩十學(xué)付論文 p l a t f o r m h o wt or e a l i z et h ei pc o r eo ft h ev i t e r b ia l g o r i t h m e t c i no r d e rt os o l v e t h e s ec r i t i c a l p r o b l e m s t h er e s e a r c h e rd e s i g n e dc o r r e s p o n d i n gs o l u t i o n s a n d i m p l e m e n t e dt h es y s t e mp r o t o t y p e t h ea p p l i c a t i o no fs p e e c hr e c o g n i t i o no ne m b e d d e ds y s t e mi sah o tr e s e a r c hs p o t t h ew h o l er e s e a r c h p r e p a r e d f o rt h ef u r t h e rr e s e a r c ho nh m mb a s e d s p e e c h r e c o g n i t i o no ne m b e d d e dp l a t f o r ma n d h a dr e f e r e n c e dv a l u et os o m ee x t e n t k e y w o r d ss p e e c hr e c o g n i t i o n e m b e d d e d t t m m f p g a i v 獨(dú)創(chuàng) i 生聲明 本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研 究成果 盡我所知 除了文中特別加以標(biāo)注和致謝的地方外 論文中不包含其他 人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果 也不包含為獲得北京工業(yè)大學(xué)或其它教育機(jī)構(gòu) 的學(xué)位或證書(shū)而使用過(guò)的材料 與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均 已在論文中作了明確的說(shuō)明并表示了謝意 簽名 掃象蟄 r 期 蘭 堡 5 呈 關(guān)于論文使用授權(quán)的說(shuō)明 本人完全了解北京工業(yè)大學(xué)有關(guān)保留 使用學(xué)問(wèn)論文的規(guī)定 即 學(xué)校有權(quán) 保留送交論文的復(fù)印件 允許論文被查閱和借閱 學(xué)??梢怨颊撐牡娜炕虿?分內(nèi)容 可以采用影印 縮印或其他復(fù)制手段保存論文 保密的論文在解密后應(yīng)遵守此規(guī)定 簽名 叁要蕘生黽 導(dǎo)師簽名 第l 章緒論 1 1 課題研究背景 第1 章緒論 語(yǔ)音作為人類交流最自然 最方便的手段 因而也必然成為人和計(jì)算機(jī)之間 交流的最自然 最方便的手段f l l 語(yǔ)音處理技術(shù)和自然語(yǔ)言處理技術(shù)的飛速發(fā)展 對(duì)基于自然語(yǔ)言的人機(jī)交互方式提出了更高的要求 當(dāng)日訂人們已不再滿足于簡(jiǎn)單 的問(wèn)與答系統(tǒng) 而需要具有更高智能水平的對(duì)話處理系統(tǒng) 交互的智能性將成為 衡量交互效果的一個(gè)重要標(biāo)準(zhǔn) 因此如何提高交互的友好性 自然性成為當(dāng)今的 一個(gè)研究熱點(diǎn) 語(yǔ)音是人與人之間最自然的交互方式 通過(guò)語(yǔ)音識(shí)別技術(shù)實(shí)現(xiàn)人機(jī)之間的語(yǔ) 音交互 可極大提高信息服務(wù)的自然度 擴(kuò)展信息服務(wù)的人群 語(yǔ)音識(shí)別是機(jī)器 通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的高技術(shù) 2 l 作為 專門(mén)的研究領(lǐng)域 語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科 它與聲學(xué) 語(yǔ)音學(xué) 語(yǔ)言學(xué) 數(shù)字 信號(hào)處理理論 信息論 計(jì)算機(jī)科學(xué)等眾多學(xué)科緊密相連l j l 語(yǔ)音識(shí)別經(jīng)過(guò)四十 多年的發(fā)展 已經(jīng)顯示出巨大的應(yīng)用前景 語(yǔ)音識(shí)別技術(shù)的根本目的是解決人機(jī)交互問(wèn)題 希望機(jī)器可以像入一樣能聽(tīng) 懂話語(yǔ) 進(jìn)行交流 隨著計(jì)算機(jī)與網(wǎng)絡(luò)的不斷發(fā)展以及社會(huì)信息化程度的日益提 高 人們對(duì)獲取信息的手段和方式提出了越來(lái)越高的要求 作為人類最有效便捷 的通信交互手段 自然的語(yǔ)音交互方式在人機(jī)通訊領(lǐng)域的地位同漸凸顯 隨著嵌 入式技術(shù)的蓬勃發(fā)展 嵌入式設(shè)備同人們?nèi)粘I畹穆?lián)系變得越來(lái)越密切 這些 嵌入式設(shè)備多以信息終端的形式出現(xiàn) 集計(jì)算 通信 傳感功能于一身 能方便 地與各種設(shè)備 包括日常用品 結(jié)合在一起 因此為了滿足用戶對(duì)于嵌入式設(shè)備 更便捷 自然使用的需求 將語(yǔ)音合成技術(shù)應(yīng)用到嵌入式設(shè)備中成了必然的趨勢(shì) 同時(shí)消費(fèi)者對(duì)小而方便的嵌入式設(shè)備的需求也給嵌入式語(yǔ)音識(shí)別應(yīng)用帶來(lái)了更 大的市場(chǎng)需求i jj 語(yǔ)音識(shí)別有多種識(shí)別算法 如d t w h l 隱馬爾可夫模型引 基于傳統(tǒng)d t w 算法的語(yǔ)音識(shí)別系統(tǒng)由于算法自身特點(diǎn) 在對(duì)特定人語(yǔ)音識(shí)別有較好的識(shí)別性 能 但在使用前需要對(duì)所有詞條進(jìn)行訓(xùn)練 詞表一旦發(fā)生變化則需要用戶重新訓(xùn) 練模板 使用非常不方便 6 隱馬爾可夫模型 h m m 是一種基于統(tǒng)計(jì)信號(hào)模型 算法具有良好的識(shí)別性能和抗噪性能 可用于非特定人識(shí)別且不需要用戶事先訓(xùn) 練 且具有良好的識(shí)別性能 因而被應(yīng)用到許多優(yōu)秀的語(yǔ)音識(shí)別系統(tǒng)中 面對(duì)廣闊的嵌入式語(yǔ)音識(shí)別設(shè)備市場(chǎng)空間 如何在嵌入式環(huán)境中采用一種便 于用戶使用且識(shí)別效果良好的算法來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別系統(tǒng) 則是我們需要解決的問(wèn) 題 本課題正是在這種背景下提出的 1 2 嵌入式語(yǔ)音識(shí)別研究現(xiàn)狀 2 0 世紀(jì)5 0 年代 a t tb e l l 實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ) 音識(shí)別系統(tǒng)a u d r y 系統(tǒng) 6 0 年代中 最重要的成果是提出了動(dòng)念規(guī)整d p 和線性 預(yù)測(cè)分析技術(shù)l p 這個(gè)時(shí)期語(yǔ)音識(shí)別系統(tǒng)的構(gòu)成基本上都是用硬件實(shí)現(xiàn)的濾波 器組末提取頻譜特征 剛計(jì)算機(jī)進(jìn)行匹配計(jì)算和判決 7 0 年代 理論上 線性 預(yù)測(cè)分析技術(shù)成功應(yīng)用于語(yǔ)音識(shí)別 動(dòng)態(tài)時(shí)間規(guī)整技術(shù)d t w 基本成熟 矢量量 化v q 理論 隱馬爾可夫模型法h m m 也獲得初步的成功 在實(shí)踐上 實(shí)現(xiàn)了基 于線性顱測(cè)倒譜和d t w 技術(shù)的特定人孤立語(yǔ)音識(shí)別系統(tǒng) 1 1 8 0 年代以后 丌 始 出現(xiàn)語(yǔ)音處理技術(shù)產(chǎn)品化的熱潮 這與上面幾種技術(shù)的推動(dòng)作用是分d f 的 八十年代以來(lái) h m m 模型的廣泛應(yīng)用使語(yǔ)音識(shí)別算法從模板匹配技術(shù)轉(zhuǎn)向 基于統(tǒng)計(jì)模型技術(shù) h m m 理論是1 9 7 0 年前后出b a u m 等人建立起來(lái)的 隨后 由c m u 的b a r k e r 和i b m 的j e l i n e k 等人將其應(yīng)用到語(yǔ)音識(shí)別中 由于b e l l 實(shí)驗(yàn) 室的r a b i n e r 等人在8 0 年代中期對(duì)h m m 深入淺出的介紹 使得h m m 為世界 各國(guó)從事語(yǔ)音處理的研究人員所了解和熟悉 進(jìn)而成為一個(gè)公認(rèn)的研究熱點(diǎn) 也 是目6 j 的主流研究途徑 7 1 9 0 年代初 美國(guó)卡耐基梅隆大學(xué) c m u 丌發(fā)出基于 v q h m m 的非特定人連續(xù)浯音識(shí)別系統(tǒng)s p h i n x 首先克服了語(yǔ)音識(shí)別中非特 定人 連續(xù)語(yǔ)音 大詞量三大難題 被世界公認(rèn)為語(yǔ)音識(shí)別技術(shù)發(fā)展中的一個(gè)里 程碑捧j 它能識(shí)別包括9 9 7 個(gè)詞匯的連續(xù)語(yǔ)句 其它比較有代表性的系統(tǒng)有b e l l 實(shí)驗(yàn)室丌發(fā)的識(shí)別5 個(gè)詞v r c p 系統(tǒng)和8 0 0 語(yǔ)音識(shí)別服務(wù)系統(tǒng)f 9 j 在電話業(yè)務(wù)中 得到了較好的應(yīng)用 在英國(guó) 劍橋大學(xué)開(kāi)發(fā)的h t k l l 0j 大詞量連續(xù)語(yǔ)音識(shí)別系統(tǒng) 在a r p a 連續(xù)語(yǔ)音識(shí)別系統(tǒng)性能評(píng)測(cè)中識(shí)別率名列首位 此外還有i b m 公司推 出的v i av o i c e 連續(xù)語(yǔ)音諺 別系統(tǒng) j 等 我國(guó)于5 0 年代歹1 始語(yǔ)音識(shí)別的研究 近年來(lái)發(fā)展也很快 研究水平也從實(shí) 驗(yàn)室逐步走向?qū)嵱?固家8 6 3 計(jì)劃智能計(jì)算機(jī)主題專家組為語(yǔ)音識(shí)別技術(shù)的研究 專門(mén)立項(xiàng) 我國(guó)語(yǔ)音諺 別技術(shù)的研究水平基本上與國(guó)外同步 在漢語(yǔ)語(yǔ)音識(shí)別的 研究上還有自己的特點(diǎn)與優(yōu)勢(shì) 并接近國(guó)際先進(jìn)水平 我國(guó)現(xiàn)有很多科研單位在 從事語(yǔ)音識(shí)別技術(shù)的研究工作 具有代表性的研究單位是清華大學(xué)電子工程系和 中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室 清華大學(xué)開(kāi)發(fā)的連續(xù)語(yǔ)音識(shí)別系 統(tǒng)一t h e e s p 具有良好的識(shí)別性能 中科院自動(dòng)化所和所屬的模式科技 p a t t e k 公司發(fā)和了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的 天語(yǔ) 中文語(yǔ)音系列產(chǎn) 品 p a t t e ka s r 結(jié)束了1 9 9 8 年以來(lái)語(yǔ)音識(shí)別產(chǎn)品一直由國(guó)外壟斷的歷史 近幾年來(lái) 隨著半導(dǎo)體和集成電路技術(shù)的突飛猛進(jìn) 基于嵌入式系統(tǒng)的便攜 式移動(dòng)設(shè)備j 下在成為人們生活中不可缺少的電子產(chǎn)品 移動(dòng)便攜式設(shè)備的廣泛普 及使人們對(duì)這些設(shè)備體積的要求也越來(lái)越高 目前 主流的嵌入式設(shè)備會(huì)提供小 第l 犖緒論 尺寸的軟鍵盤(pán)或者手寫(xiě)觸摸屏 但是這種簡(jiǎn)單的輸入方式?jīng)]有為用戶與機(jī)器的交 互提供足夠的便利 使用語(yǔ)音作為人機(jī)交互的途徑對(duì)于使用者來(lái)說(shuō)是最自然的一 種方式 如果能將語(yǔ)音識(shí)別技術(shù)應(yīng)用到嵌入式系統(tǒng)中 將會(huì)促進(jìn)便攜式設(shè)備的進(jìn) 一步普及提供 1 2 語(yǔ)音識(shí)別技術(shù)目前在嵌入式系統(tǒng)中的應(yīng)用主要為語(yǔ)音命令控 制 它使用語(yǔ)音代替了原本需要手工操作來(lái)完成的工作 方便了用戶的使用 語(yǔ) 音命令控制可用于家電語(yǔ)音遙控 玩具 p d a 及移動(dòng)電話等便攜設(shè)備中 由于 嵌入式設(shè)備通常針對(duì)特定應(yīng)用而設(shè)計(jì) 只需要對(duì)幾十個(gè)詞的命令進(jìn)行識(shí)別 因此 對(duì)嵌入式語(yǔ)音識(shí)別技術(shù)的要求不在于大詞匯量或連續(xù)語(yǔ)音識(shí)別 而在于識(shí)別的準(zhǔn) 確性與魯棒性 i 川 目前嵌入式語(yǔ)音識(shí)別的實(shí)現(xiàn)主要通過(guò)單片機(jī)m c u 或數(shù)字信號(hào)處理器d s p 來(lái)實(shí)現(xiàn) 單片機(jī)運(yùn)算速度慢 處理能力不高 雖然d s p 數(shù)字信號(hào)處理速度很快 但其產(chǎn)品成本很高 電源能量消耗也很大 因此為了滿足嵌入式交互系統(tǒng)的體積 越來(lái)越小 功能越來(lái)越強(qiáng) 功耗越來(lái)越小的苛刻需求 這就需要一個(gè)高度集成的 硬件平臺(tái) 基于片上系統(tǒng)s o c s y s t e mo nc h i p 的語(yǔ)音識(shí)別系統(tǒng)因此而生 s o c 結(jié)構(gòu)大大減少了嵌入式系統(tǒng)的芯片數(shù)量 能夠提供高集成度和相對(duì)低成本的解決 方案 同時(shí)系統(tǒng)的可靠性也大大提高 1 4 j s o c 的實(shí)現(xiàn)方式有專用集成電路a s i c a p p l i c a t i o ns p e c i f i ci n t e g r a t e dc i r c u i t 和現(xiàn)場(chǎng)可編程門(mén)陣列f p g a f i e l d p r o g r a m m a b l eg a t e a r r a y 兩種 a s i c 是芯片前端和后端設(shè)計(jì)完成后 直接用流 片方式由圓晶工廠生產(chǎn)成具體的芯片 雖然一片a s i c 芯片的成本很低 但它本 身設(shè)計(jì)周期長(zhǎng) 流片投入費(fèi)用高 風(fēng)險(xiǎn)較大 l5 1 f p g a 源于美國(guó)x i l i n x 公司 其丌發(fā)目標(biāo)是實(shí)現(xiàn)l s i v l s i 門(mén)陣列技術(shù)的高邏輯密度性和用戶現(xiàn)場(chǎng)可編程的 高設(shè)計(jì)靈活性相結(jié)合 上市快捷以及成品的有效性相結(jié)合 f p g a 保持了a s i c 的 高速性 增加了設(shè)計(jì)的靈活性和適應(yīng)性 修改簡(jiǎn)單 降低了開(kāi)發(fā)風(fēng)險(xiǎn) 并可進(jìn)行 編程 再編程 降低了成本 在嵌入式開(kāi)發(fā)中發(fā)揮越來(lái)越重要的作用 目前世界 上有十幾家生產(chǎn)c p l d f p g a 的公司 最大的三家是 x i l i n x a l t e r a l a t t i c e 其中全球p l d f p g a 產(chǎn)品6 0 以上是由x i l i n x 和a l t e r a 提供的i l 引 f p g a 平臺(tái)語(yǔ)音識(shí)別芯片的研究在國(guó)外是一個(gè)新興研究領(lǐng)域 嵌入式f p g a 平臺(tái)上基于h m m 的語(yǔ)音識(shí)別研究由于成本和復(fù)雜度的限制 雖然已取得了一些 成果 2 8 1 但距離成熟的語(yǔ)音識(shí)別芯片還有很長(zhǎng)的一段研究路程 目前國(guó)內(nèi)的相關(guān) 研究還非常少 作為一個(gè)新興的課題 f p g a 平臺(tái)上的語(yǔ)音識(shí)別具有很大的研究 空間和應(yīng)用前景 1 3 研究?jī)?nèi)容 論文的主要任務(wù)通過(guò)研究嵌入式語(yǔ)音識(shí)別的基本原理和h m m 模型的思想 北京t 業(yè)大學(xué)i 掌壩一i 聲何淪文 根據(jù)嵌入式語(yǔ)音識(shí)別系統(tǒng)研究流程 研究f p g a 平臺(tái)下基于h m m 的嵌入式語(yǔ)音 識(shí)別 主要研究?jī)?nèi)容如下 1 研究嵌入式語(yǔ)音識(shí)別原理以及識(shí)別過(guò)程中所涉及的算法 如端點(diǎn)檢測(cè) 特征提取 矢量量化等 2 研究h m m 模型的原理以及模型中三個(gè)基本問(wèn)題 并對(duì)模型中的自 j 后向 算法 訓(xùn)練算法b a u m w e l c h 識(shí)別算法v i t e r b i 進(jìn)行深入的研究 3 設(shè)計(jì)與實(shí)現(xiàn)p c 平臺(tái)上的基于h m m 的語(yǔ)音識(shí)別算法 并對(duì)實(shí)驗(yàn)結(jié)果進(jìn) 行分析 4 研究嵌入式平臺(tái)f p g a 開(kāi)發(fā)流程 并根據(jù)f p g a 開(kāi)發(fā)流程研究設(shè)計(jì)語(yǔ)音 識(shí)別系統(tǒng)在嵌入式平臺(tái)下的實(shí)現(xiàn)方案 包括系統(tǒng)總體框架 軟硬件模塊劃分方法 系統(tǒng)調(diào)度等 5 分析嵌入式語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)中的關(guān)鍵問(wèn)題 并針對(duì)這些關(guān)鍵問(wèn)題 設(shè) 計(jì)相應(yīng)的解決方案 實(shí)現(xiàn)嵌入式語(yǔ)音識(shí)別系統(tǒng)原型 1 4 論文組織結(jié)構(gòu) 論文的章節(jié)結(jié)構(gòu)安排如下 第1 章 緒論 介紹了嵌入式語(yǔ)音識(shí)別系統(tǒng)的研究背景 總結(jié)了嵌入式語(yǔ)音 識(shí)別的研究現(xiàn)狀 并對(duì)本文的研究?jī)?nèi)容和組織結(jié)構(gòu)進(jìn)行了說(shuō)明 第2 章 嵌入式語(yǔ)音識(shí)別基礎(chǔ) 主要介紹了嵌入式語(yǔ)音識(shí)別的基本原理以及 嵌入式語(yǔ)音識(shí)別技術(shù) 為后面的研究工作提供理論基礎(chǔ) 第3 章 基于h m m 的語(yǔ)音識(shí)別算法 本章主要介紹了基于h m m 的語(yǔ)音識(shí) 別算法 并在p c 平臺(tái)上進(jìn)行實(shí)現(xiàn)驗(yàn)證 對(duì)語(yǔ)音識(shí)別系統(tǒng)在嵌入式平臺(tái)的研究有 重要指導(dǎo)意義 首先介紹了算法總體設(shè)計(jì)方案 并逐步對(duì)語(yǔ)音識(shí)別系統(tǒng)前端模塊 后端模塊所涉及的算法功能進(jìn)行了實(shí)現(xiàn) 并對(duì)仿真結(jié)果進(jìn)行了初步分析 第4 章 嵌入式語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì) 本章首先介紹基于f p g a 平臺(tái)丌發(fā)流程 通過(guò)對(duì)系統(tǒng)進(jìn)行分析 設(shè)計(jì)一種f p g a 平臺(tái)上基于h m m 模型的語(yǔ)音識(shí)別系統(tǒng)方 案 包括系統(tǒng)的軟硬件模塊劃分 軟件框架 硬件框架以及中斷調(diào)度策略等 第5 章 嵌入式語(yǔ)音識(shí)別系統(tǒng)原型實(shí)現(xiàn) 通過(guò)對(duì)嵌入式語(yǔ)音識(shí)別系統(tǒng)進(jìn)行分 析 研究了嵌入式語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)過(guò)程的關(guān)鍵問(wèn)題 并針對(duì)這些問(wèn)題給出了相 應(yīng)的解決方案 設(shè)計(jì)實(shí)現(xiàn)嵌入式平臺(tái)語(yǔ)音識(shí)別系統(tǒng)原型 結(jié)論 總結(jié)了本文工作 并對(duì)進(jìn)一步的工作進(jìn)行了展望 第2 章嵌入式語(yǔ)音識(shí)別基礎(chǔ) 第2 章嵌入式語(yǔ)音識(shí)別基礎(chǔ) 2 1 語(yǔ)音識(shí)別介紹 2 1 1 語(yǔ)音識(shí)別原理 語(yǔ)音識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng) 系統(tǒng)首先對(duì)語(yǔ)音信號(hào)進(jìn)行分析得到語(yǔ)音 的特征參數(shù) 然后對(duì)這些參數(shù)進(jìn)行處理形成標(biāo)準(zhǔn)的模板 這個(gè)過(guò)程稱為訓(xùn)練或?qū)W 習(xí) 當(dāng)有測(cè)試語(yǔ)音進(jìn)入系統(tǒng)時(shí) 系統(tǒng)將對(duì)這些語(yǔ)音信號(hào)進(jìn)行處理 然后進(jìn)行參考 模板的匹配 得出結(jié)果 此時(shí)便完成了語(yǔ)音識(shí)別的過(guò)程 語(yǔ)音識(shí)別系統(tǒng)的原理圖 如下圖2 1 所示 語(yǔ)昔俯吁 穰q 塒 判決 頂處理 特征提取模式匹配 分幀訓(xùn)練訓(xùn)綾i 1 加窗 一模式訓(xùn)練h 模型庫(kù)l 信號(hào)分析 模式匹配 邏輯識(shí)剮 圖2 一l 語(yǔ)音識(shí)別原理圖 f i g u r e2 1p r i n c i p l eo fs p e e c hr e c o g n i t i o n 從上圖可看出一個(gè)語(yǔ)音識(shí)別系統(tǒng)包括信號(hào)分析 聲學(xué)模型和模式匹配 邏輯 識(shí)別三個(gè)大的部分 其中信號(hào)分析模塊的輸出是聲學(xué)模型和模式匹配的輸入 各 部分功能介紹如下 1 信號(hào)分析模塊主要完成語(yǔ)音信號(hào)的分析處理 包括預(yù)處理 特征提取等 其中預(yù)處理包括預(yù)加重 分幀 加窗 端點(diǎn)檢測(cè) 特征提取是從語(yǔ)音波形中提取 出反映語(yǔ)音特征的相關(guān)信息 去掉相對(duì)無(wú)關(guān)的信息 語(yǔ)音識(shí)別系統(tǒng)常用的特征參 數(shù)有幅度 能量 過(guò)零率 線性預(yù)測(cè)系數(shù) l p c l p c 倒譜系數(shù) l p c c 線譜 對(duì)參數(shù) l s p 等 2 聲學(xué)模型和模式匹配階段主要是通過(guò)訓(xùn)練來(lái)完成語(yǔ)音聲學(xué)模型的建立 通過(guò)模式匹配來(lái)完成識(shí)別工作 在訓(xùn)練階段 系統(tǒng)根據(jù)獲取的語(yǔ)音特征參數(shù)通過(guò) 學(xué)習(xí)訓(xùn)練算法生成模板 并保存到模板庫(kù) 在模式識(shí)別階段 語(yǔ)音信號(hào)經(jīng)過(guò)相同 的通道處理得到語(yǔ)音參數(shù) 生成測(cè)試模板 與參考模板進(jìn)行匹配 并將匹配分?jǐn)?shù) 最高的參考模板作為識(shí)別結(jié)果 北京t 業(yè)大學(xué)t 學(xué)碩士學(xué)位論文 3 邏輯識(shí)別部分主要是根據(jù)一些判決規(guī)9 1 u 確定語(yǔ)音識(shí)別的輸出 2 1 2 語(yǔ)音識(shí)別系統(tǒng)分類 語(yǔ)音識(shí)別系統(tǒng)按照不同的角度可分為不同的類別 一般情況下 可以按以下 幾種方式進(jìn)行分類t 7 l 1 根掘識(shí)別的詞匯量大小可分為大 中 小詞匯量語(yǔ)音識(shí)別系統(tǒng) 其中大 詞匯量系統(tǒng)詞數(shù)超過(guò)1 0 0 0 詞 中詞匯量系統(tǒng)通常包括幾百個(gè)到上千個(gè)詞 小詞 匯量系統(tǒng)詞數(shù)小于1 0 0 鬩數(shù)量越多 系統(tǒng)識(shí)別時(shí)間越長(zhǎng) 識(shí)別精度越低 難度 也越大 2 按識(shí)別單位分為孤立詞識(shí)別 連接詞識(shí)別 連續(xù)語(yǔ)音識(shí)別三種 孤立詞 識(shí)別即說(shuō)話人每次只洗一個(gè)詞 詞組或命令 這些在詞匯表中都算作一個(gè)獨(dú)立詞 條 連接詞識(shí)別一股足指由十個(gè)數(shù)字連接而成的多位數(shù)字識(shí)別 有時(shí)會(huì)出現(xiàn)一些 連音 連續(xù)語(yǔ)音識(shí)別系統(tǒng)的輸入是自然流利的連續(xù)語(yǔ)音輸入 會(huì)出現(xiàn)大量連音和 變音 3 按說(shuō)話人的限定范圍可分為特定人語(yǔ)音識(shí)別和非特定人語(yǔ)音識(shí)別 所謂 特定人語(yǔ)音識(shí)別只針對(duì)某一個(gè)特定用戶 用戶在使用系統(tǒng)前必須建立自己的參考 模板 非特定人語(yǔ)音識(shí)別是指語(yǔ)音識(shí)別的系統(tǒng)的用戶可以是任何人 使用者無(wú)需 訓(xùn)練 共崩一套參考模版庫(kù) 2 1 3 語(yǔ)音信號(hào)產(chǎn)生模型 對(duì)發(fā)音器官和語(yǔ)音產(chǎn)生的機(jī)理進(jìn)行分析可知 語(yǔ)音是由空氣流激勵(lì)聲道最后 從嘴唇或鼻孔或同時(shí)從嘴唇和鼻孔輻射出來(lái)而形成的 1 引 大部分語(yǔ)音可分為濁音 和清音兩類 而對(duì)于清音 濁音來(lái)說(shuō)激勵(lì)源是不同的 聲道則可以用全極點(diǎn)模型 來(lái)描述 在該模型下 可認(rèn)為任何語(yǔ)音都是由一個(gè)激勵(lì)源作用于聲道而產(chǎn)生的 語(yǔ)音產(chǎn)生的數(shù)學(xué)模型如下圖2 2 所示 樣值 圖2 2 語(yǔ)音產(chǎn)生的數(shù)字模型 f i g u r e2 2d i g i t a lm o d e lo fs p e e c hs i g n a l 在上圖中 清濁音開(kāi)關(guān)模擬了加在聲道上激勵(lì)的改變情況 當(dāng)開(kāi)關(guān)接在濁 第2 章嵌入式語(yǔ)音識(shí)別基礎(chǔ) 音位置時(shí) 激勵(lì)源是準(zhǔn)周期脈沖序列發(fā)生器 其重復(fù)頻率由基音周期來(lái)確定 當(dāng) 開(kāi)關(guān)接在清音位置時(shí) 激勵(lì)源是隨機(jī)噪音發(fā)生器 增益因子g 給出聲音的晌度 圖中的時(shí)變線性系統(tǒng)用來(lái)模擬聲道的特性 2 1 4 語(yǔ)音信號(hào)處理 2 1 4 1 語(yǔ)音信號(hào)預(yù)處理 原始的語(yǔ)音信號(hào)都是模擬信號(hào) 為了對(duì)語(yǔ)音信號(hào)進(jìn)行處理 就要將原始的語(yǔ) 音信號(hào)先轉(zhuǎn)成數(shù)字信號(hào) 并對(duì)這些信號(hào)進(jìn)行加工處理 使語(yǔ)音信號(hào)能夠用于特征 參數(shù)的提取 這個(gè)過(guò)程便是預(yù)處理的過(guò)程 預(yù)處理主要包括以下幾個(gè)部分 1 采樣與量化 采樣將模擬語(yǔ)音信號(hào)s t 以t 為采樣周期進(jìn)行采樣 然后將其離散量化為數(shù) 字信號(hào)為s n 主要是進(jìn)行a d 轉(zhuǎn)換 當(dāng)然對(duì)離散后的語(yǔ)音信號(hào)進(jìn)行量化處理 過(guò)程會(huì)帶來(lái)一定的量化噪聲和失真 2 預(yù)加重 預(yù)加重是指在a d 轉(zhuǎn)換后加一個(gè)高頻提升濾波器 它是一種重要的自i f 處理 技術(shù) 由于發(fā)聲過(guò)程中聲帶和嘴唇的效應(yīng) 使得高頻共振峰的振幅低于低頻共振 峰的振幅 在分析語(yǔ)音信號(hào)之前 需對(duì)其高頻部分進(jìn)行增強(qiáng) 增加語(yǔ)音的高頻分 辨率 一般通過(guò)一個(gè)傳遞函數(shù)為麒z 1 及木z 1 的濾波器對(duì)其加以濾波 其中a 為預(yù)加重系數(shù)且o 9 a 1 0 假設(shè)n 時(shí)刻的語(yǔ)音采樣值為s n 經(jīng)過(guò)預(yù)加重處理 后的結(jié)果為 d t 4 n s 功一菸 一1 0 9 a 線性預(yù)測(cè)及線性預(yù)測(cè)倒譜系數(shù) 人的發(fā)聲器官可以用若于段前后連接的聲管進(jìn)行模擬 這就足所謂的聲管模 型 全極點(diǎn)線性預(yù)測(cè)模型 l p c 可以對(duì)聲管模型進(jìn)行很好的描述 每段聲管則 對(duì)應(yīng)一個(gè)l p c 模型的極點(diǎn) 一般l o 1 6 個(gè)極點(diǎn)就可以足夠清晰的拙述語(yǔ)音信號(hào) 的特征了 線性預(yù)測(cè)分析技術(shù)是目前被廣泛應(yīng)用的特征參數(shù)提取技術(shù) 許多成功 的識(shí)別系統(tǒng)都采用基于線性預(yù)測(cè)技術(shù)提取的l p c 倒譜系數(shù)作為系統(tǒng)的特征矢 量 它的基本思想為 語(yǔ)音信號(hào)相鄰的采樣點(diǎn)之間有很強(qiáng)的相關(guān)性 每個(gè)語(yǔ)音信 號(hào)的采樣值 可以用它商可面的若干個(gè)采樣值的加權(quán)和 線性組合 來(lái)近似表示 預(yù)測(cè)誤差定義為真實(shí)采樣值和預(yù)測(cè)值之差 根據(jù)預(yù)測(cè)誤差均方值最小準(zhǔn)則 可以 唯一確定一組線性預(yù)測(cè)系數(shù) 定義預(yù)測(cè)函數(shù)為 s 門(mén) a i s n 一1 a 2 s n 一2 a p s n p 2 4 系數(shù)a l c 1 2 a p 為常數(shù) 稱為l p c 系數(shù) 也是全極點(diǎn)模型 俐的參數(shù) 上 式可改寫(xiě)為 一p s 刀 吼s n 一后 2 5 盤(pán) i 公式2 4 的差分形式可以表示j 例和甜例的時(shí)域關(guān)系為 s 門(mén) 日 s n 七 g 甜 刀 2 6 k l 那么系統(tǒng)的預(yù)測(cè)誤差為 p p 門(mén) s 刀 s n s n d s n k 2 7 k l 預(yù)測(cè)分析的基本問(wèn)題是確定預(yù)測(cè)系數(shù) c k 由于語(yǔ)音信號(hào)頻譜特征是隨時(shí)間 變化的 所以計(jì)算給定n 時(shí)刻的預(yù)測(cè)系數(shù)必須取n 時(shí)刻附近的一段短時(shí)語(yǔ)音幀進(jìn) 行估計(jì) 基本方法是求出一組預(yù)測(cè)器系數(shù)使得在一短段語(yǔ)音波形中均方預(yù)測(cè)誤差 最小 為此定義短時(shí)平均預(yù)測(cè)誤差平方和為 p 巴 2 歷 is n 川 一 a k s m k 1 2 1 7 1 胛k l 其中 s m 式在抽樣點(diǎn)附近選擇的一個(gè)語(yǔ)義段 即 s 聊 s n 柳 按照對(duì)預(yù)測(cè)誤差的均方值最小的準(zhǔn)則求吼 令o e o a 0 則可得到 2 8 s 朋 i s 聊 吼 s 朋 i s 腳一七 2 9 用k l用 即 丸 f o 口 丸 f 七 1 2 p 2 1 0 其中 丸 f 七 s 肌一f s m k 這是由p 個(gè)方程構(gòu)成的方程組 未知數(shù)為p 個(gè) 求解該方程組 就可以得到 系統(tǒng)的線性預(yù)測(cè)系數(shù) 在語(yǔ)音的識(shí)別系統(tǒng)中一般不是直接使用l p c 系數(shù) 而是使用由l p c 系數(shù) 推導(dǎo)出另 種參數(shù) 線性預(yù)測(cè)倒譜系數(shù) l p c c 它的主要優(yōu)點(diǎn)是比較徹底地去 掉了語(yǔ)音產(chǎn)生過(guò)程中的激勵(lì)信息 主要反映了聲道響應(yīng) 一般十幾個(gè)倒譜系數(shù)就 能較好地描述語(yǔ)音信號(hào)的共振峰特性 因此在語(yǔ)音識(shí)別中取得了較好的效果 具 體的參數(shù)提取實(shí)現(xiàn)過(guò)程將在后面的章節(jié)中進(jìn)行介紹 m e l 倒譜系數(shù) m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t 人的聽(tīng)覺(jué)系統(tǒng)是一個(gè)特殊的非線性系統(tǒng) 它響應(yīng)不同頻率信號(hào)的靈敏度是不 同的 因此在進(jìn)行聲學(xué)測(cè)量時(shí) 頻率刻度常常取為非線性刻度 以m e l 為單位的 北京t i k 入孑 工號(hào) 碩t 1 號(hào) 位論文 曼 曼 曼蔓曼 曼 曼 曼曼 皇 曼曼 曼 i 1 1 1 1 1 曼 曼蔓 曼 曼 曼 曼 曼 寡 頻率刻度就是符合這種特性的一種頻率刻度 它是根據(jù)主觀音高均勻劃分的 它 和線性頻率的轉(zhuǎn)換關(guān)系為 m e l f 2 5 9 5l o g 1 f 7 0 0 1 m e l 頻率倒?jié)搮?shù)是一種能夠比較充分利用入耳感知特性的參數(shù) m e l 頻率 倒譜系數(shù)首先是將信號(hào)頻譜的頻率軸變換為m e l 刻度 再變換到倒譜域得到倒譜 系數(shù) m f c c 參數(shù)具有良好的識(shí)別性能和抗噪能力 計(jì)算流程如下圖2 5 所示 竺釅 圖2 5m f c c 計(jì)算過(guò)程 f i g u r e2 5f l o wc h a r to fm f c cc a l c u l a t i o n 具體描述如下 2 0 1 1 確定每一幀語(yǔ)音采樣序列的點(diǎn)數(shù) 對(duì)每幀序列進(jìn)行預(yù)加重處理后再經(jīng)過(guò) 離散f f t f a s tf o u r i e rt r a n s f o r m 變換得到其頻譜 2 求頻譜幅度的平方得到能量譜 并用m 個(gè)三角濾波器在頻譜域?qū)δ芰窟M(jìn) 行帶通濾波 這組帶通濾波器中心頻率是按m e i 頻率刻度均勻排列的 間隔 1 5 0 m e l 帶寬3 0 0 m e l 每個(gè)濾波器的三角形的兩個(gè)底點(diǎn)的頻率分別等于相鄰的 兩個(gè)濾波器的中心頻率 即每連個(gè)相鄰的濾波器的過(guò)渡帶互相搭接 且頻率n 向應(yīng) 之和為l 濾波器的個(gè)數(shù)通常與臨界帶數(shù)相近 經(jīng)過(guò)m 個(gè)濾波后得到的輸出為 x k k l 2 m 3 計(jì)算濾波器輸出x k 的自然對(duì)數(shù) 得到l o g x k k i 2 m 4 計(jì)算t o g x k 的2 m 點(diǎn)離散余弦變換即可得到m f c c 由于其對(duì)稱性 此式可簡(jiǎn)化為 m c l o g x k c o s z k 0 5 n m n 1 2 l 七 l mf c c 參數(shù)的個(gè)數(shù)l 通常取1 2 1 6 在譜失真測(cè)度定義中通常不用o 階倒 譜系數(shù) 因?yàn)樗欠从愁l譜能量的 另外在m e l 倒譜的提取過(guò)程中 如果f f t 運(yùn)算的點(diǎn)數(shù)選耳 過(guò)大 那么運(yùn)算復(fù)雜度增大 從而使系統(tǒng)所需的計(jì)算時(shí)間變長(zhǎng) 但如果f f t 運(yùn)算的點(diǎn)數(shù)過(guò)小 則可能造成頻率分辨率過(guò)低 提取的參數(shù)的誤差 過(guò)大 第2 蕈嵌入式渚罰 識(shí)別夏礎(chǔ) 2 1 4 5 矢量量化 矢量量化擔(dān) 是七十年代后期發(fā)展起來(lái)的一種數(shù)據(jù)壓縮和編碼技術(shù) 廣泛應(yīng)用 于語(yǔ)音編碼 語(yǔ)音合成 語(yǔ)音識(shí)別和說(shuō)話人識(shí)別等領(lǐng)域 在語(yǔ)音識(shí)別處理中占有 十分重要的地位 矢量量化的原理是將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)矢量然后在多維 空間給予整體量化 從而可以在信息量損失較小的情況下壓縮數(shù)據(jù) 矢量量化原 理如下 1 首先 把k 維歐幾罩得空間尺 無(wú)遺漏的劃分成j 個(gè)互不相交的子空間 蜀 r 2 8 且滿足以下條件 it jm 一礎(chǔ) 尺 nr j j 2 然后在每一個(gè)子空間內(nèi)找n 個(gè)代表矢量 則k 維空間的j 個(gè)代表矢 量為 i 匕 y 當(dāng)對(duì)任意輸入的矢量x 進(jìn)行量化時(shí) 矢量量化器將以某種方 式在k 維空間中搜索 尋找一個(gè)與z 最接近的子空間r 然后輸出該子空間r 的代表矢量 也即 矢量量化的過(guò)程就是用 代表x 的過(guò)程 l q x 1 j sjl i n 其中 o x 是量化器函數(shù) 從矢量量化的原理看出 矢量量化關(guān)鍵是要進(jìn)行量化器函數(shù)即矢量量化器的 設(shè)計(jì) 也就是從大量信號(hào)樣本中訓(xùn)練出好的碼書(shū) 尋找到好的失真測(cè)度定義公式 設(shè)計(jì)出最佳的矢量量化系統(tǒng) 因此 為了進(jìn)行矢量量化 需要解決以下三個(gè)問(wèn)題 l 初始碼書(shū)設(shè)計(jì) 矢量量化器在進(jìn)行碼本設(shè)計(jì)之前需要生成初始碼書(shū) 一 般有隨機(jī)選取法 分裂生成法等 2 碼本設(shè)計(jì) 即劃分j 個(gè)隨機(jī)矢量空間并選擇各個(gè)子空間的代表矢量的過(guò) 程 這個(gè)過(guò)程也稱為 訓(xùn)練 或建立碼本 3 確定兩個(gè)矢量在進(jìn)行比較時(shí)的測(cè)度 失真測(cè)度是將輸入矢量x 用碼本矢 量r 來(lái)表示所產(chǎn)生的誤差或失真的度量方法 它可以描述兩個(gè)或多個(gè)矢量間的相 似程度 失真測(cè)度一般采用歐氏距離 似然比失真等方法 在選定了失真測(cè)度和初始碼書(shū)后 就可用相關(guān)算法對(duì)初始碼書(shū)進(jìn)行迭代優(yōu) 北京下業(yè)大學(xué)t 學(xué)碩十學(xué) t 論文 化 一直到系統(tǒng)性能滿足要求或不再有明顯的改進(jìn)為止 此時(shí)得到的矢量則為系 統(tǒng)的碼書(shū) 2 1 5 模板匹配方法 語(yǔ)音識(shí)別系統(tǒng)進(jìn)行語(yǔ)音識(shí)別的時(shí)候 將輸入的待識(shí)別語(yǔ)音信號(hào)模板與參考模 板進(jìn)行匹配得到識(shí)別結(jié)果 這個(gè)匹配的過(guò)程有很多種方法 主要有動(dòng)態(tài)時(shí)i 日j 規(guī)整 隱馬爾可夫模型 神經(jīng)網(wǎng)絡(luò)等 下文將分別介紹這幾種方法 2 1 5 1 動(dòng)態(tài)時(shí)間規(guī)整 語(yǔ)音信號(hào)有較大的隨機(jī)性 即使同一個(gè)人在不同時(shí)刻的州一句話發(fā)的同一個(gè) 音 也不可能具有完全相同的時(shí)間長(zhǎng)度 因此時(shí)l 日j 伸縮處理是必不可少的 針對(duì) 這一問(wèn)題門(mén)本學(xué)者板倉(cāng)提出了著名的動(dòng)態(tài)時(shí)間伸縮算法 d t w d t w 是較早的 一種模式匹配和模型訓(xùn)練技術(shù) 算法的核心是把特征分析中提取的一組隨時(shí)l e j 變 化的特征矢量序列和事先通過(guò)學(xué)習(xí)后生成的樣本序列進(jìn)行距離最小的匹配路徑 計(jì)算 在這一過(guò)程中 未知量 待識(shí)別語(yǔ)音信號(hào) 的時(shí)間軸進(jìn)行不均勻地扭曲和彎 曲 使其特征與模板特征對(duì)齊 即時(shí)間規(guī)整 通過(guò)計(jì)算獲得兩個(gè)矢量匹配時(shí)累積 距離最小的規(guī)整函數(shù) 當(dāng)輸入特征序列和存儲(chǔ)的樣本通過(guò)一定失真準(zhǔn)則比較后即 可找到和輸出特征矢量序列最接近的樣本序列1 2 引 基于d t w 的模板匹配技術(shù)的 缺點(diǎn)是只對(duì)特定人語(yǔ)音識(shí)別有較好的識(shí)別性能 并且在使用前需要對(duì)所有詞條進(jìn) 行訓(xùn)練 使用不是很方便 而且隨著時(shí)間的推移 系統(tǒng)識(shí)別率會(huì)下降 2 1 5 2 隱馬爾可夫模型 隱馬爾可夫模型作為語(yǔ)音信號(hào)的一種統(tǒng)計(jì)模型 在語(yǔ)音處理各個(gè)領(lǐng)域中被廣 泛應(yīng)用 語(yǔ)音信號(hào)可以看成是一種信號(hào)過(guò)程 它在足夠短的時(shí)n j 段上的信號(hào)特性 近似于穩(wěn)定 而總的過(guò)程可看成是依次從相對(duì)穩(wěn)定的某 特性過(guò)渡到另一特性 h m m 是對(duì)語(yǔ)音信號(hào)按時(shí)問(wèn)建立統(tǒng)計(jì)模型 可將它看作一個(gè)雙重隨機(jī)過(guò)程1 2 3 1 一 個(gè)是用具有有限狀態(tài)的m a r k o v 鏈來(lái)模擬語(yǔ)言信號(hào)統(tǒng)計(jì)特征變化的隱含的隨機(jī)過(guò) 程 另一個(gè)是與m a r k o v 鏈的每一狀態(tài)相關(guān)聯(lián)的觀測(cè)系列的隨機(jī)過(guò)程 h m m 模 板庫(kù)是通過(guò)反復(fù)的訓(xùn)練過(guò)程 用迭代算法形成一套與訓(xùn)練輸出信號(hào)吻合概率最大 的最佳h m m 模型參數(shù) 這些參數(shù)均反映了訓(xùn)練中語(yǔ)音的隨機(jī)過(guò)程在統(tǒng)計(jì)特性下 的數(shù)字參數(shù) 而不是模式特征參數(shù)本身 在識(shí)別過(guò)程中 采用v i t e r b i 算法 計(jì) 算待識(shí)別語(yǔ)音序列與h m m 模型參數(shù)之間的似然概率達(dá)到最大值 所對(duì)應(yīng)的最佳 狀態(tài)序列作為識(shí)別輸出 這個(gè)過(guò)程也是一個(gè)反映待識(shí)別序列與h m m 模型參數(shù)狀 箔2 章嵌入式語(yǔ)音識(shí)別藎礎(chǔ) 態(tài)序列最大關(guān)聯(lián)的隨機(jī)過(guò)程的統(tǒng)計(jì)過(guò)程 h m m 方法雖然在訓(xùn)練過(guò)程中的處理比d t w 方法要復(fù)雜 但識(shí)別過(guò)程則遠(yuǎn) 比d t w 方法簡(jiǎn)單 h m m 模型的這種統(tǒng)計(jì)特性使它非常適合于非特定人的語(yǔ)音 識(shí)別 在漢語(yǔ)語(yǔ)音識(shí)別中 h m m 方法不僅可用于孤立詞識(shí)別系統(tǒng)中 而且在連 續(xù)語(yǔ)音識(shí)別 說(shuō)話人識(shí)別等方面也得到廣泛的應(yīng)用 是目前漢語(yǔ)語(yǔ)音識(shí)別技術(shù)的 主流 2 1 5 3 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò) a n n 是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型 具有自組 織和自學(xué)習(xí)能力 其性能近似理想的分類器 a n n 是采用大量的簡(jiǎn)單處理單元 廣泛地連接起來(lái)構(gòu)成的一種復(fù)雜的信息處理網(wǎng)絡(luò) 模擬了人類神經(jīng)元活動(dòng)的原 理 具有自學(xué) 聯(lián)想 對(duì)比 推理和概括的能力 基于a n n 的語(yǔ)音識(shí)別系統(tǒng)通 常由神經(jīng)元 訓(xùn)練算法及網(wǎng)絡(luò)結(jié)構(gòu)等三大要素構(gòu)成1 24 1 不同層之f b j 的神經(jīng)元通過(guò) 一定的加權(quán)系數(shù)相互連接 這些加權(quán)系數(shù)在訓(xùn)練中加以學(xué)習(xí) 每個(gè)神經(jīng)元對(duì)所有 的輸入進(jìn)行讀取 然后把結(jié)果傳到下一層的神經(jīng)節(jié)點(diǎn)上 神經(jīng)網(wǎng)絡(luò)采用并行處理 機(jī)制 具有高速的信息處理能力 并且有著較強(qiáng)的適應(yīng)和自動(dòng)調(diào)節(jié)能力 神經(jīng)網(wǎng) 絡(luò)在訓(xùn)練過(guò)程中能不斷調(diào)整自身的參數(shù)權(quán)值和拓?fù)浣Y(jié)構(gòu) 以適應(yīng)環(huán)境和系統(tǒng)性能 優(yōu)化的需求 在模式識(shí)別中有著速度快 識(shí)別率高等顯著特點(diǎn) 基于人工神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng)具有很大的發(fā)展空間 但普遍存在訓(xùn)練 識(shí) 別時(shí)間過(guò)長(zhǎng)的缺點(diǎn) 目前有將神經(jīng)網(wǎng)絡(luò)同傳統(tǒng)方法相互結(jié)合的語(yǔ)音識(shí)別系統(tǒng)的研 究方法并取得一定進(jìn)展 2 2 嵌入式語(yǔ)音識(shí)別介紹 嵌入式語(yǔ)音識(shí)別是在具有一定計(jì)算能力和存儲(chǔ)資源的嵌入式平臺(tái)上進(jìn)行的 語(yǔ)音識(shí)別 由于語(yǔ)音交互的自然性 嵌入式平臺(tái)的語(yǔ)音識(shí)別技術(shù)和應(yīng)用是人們認(rèn) 識(shí)到的語(yǔ)音識(shí)別技術(shù)最適宜的應(yīng)用切入點(diǎn)之一 另一方面 嵌入式系統(tǒng)對(duì)體積有 嚴(yán)格的限制 這就需要一個(gè)高度集成的硬件平臺(tái) s o c 技術(shù)因此而產(chǎn)生 成為 了嵌入式語(yǔ)音識(shí)別中一個(gè)重要的研究方向 2 2 1s o c 技術(shù) s o c 設(shè)計(jì)技術(shù)始于2 0 世紀(jì)9 0 年代中期 它是一種系統(tǒng)級(jí)的設(shè)計(jì)技術(shù) s o c 系統(tǒng)將原來(lái)由許多芯片完成的功能 集中到一塊芯片中完成 s o c 的丌發(fā)是從 整個(gè)系統(tǒng)的功能和性能出發(fā) 利用i p 復(fù)用和深亞微米技術(shù) 采用軟件和硬件結(jié) 北京丁業(yè)入號(hào) 工學(xué) 壩l j 掌位論義 合的設(shè)計(jì)和驗(yàn)證方法 綜合考慮軟硬件資源的使用成本 設(shè)計(jì)出滿足性能要求的 高效率 低成本的軟硬件體系結(jié)構(gòu) 從而在一個(gè)芯片上實(shí)現(xiàn)復(fù)雜的功能1 2 川 s o c 的設(shè)計(jì)以a s i c 或f p g a 為物理載體 使用a s i c 為物理載體進(jìn)行芯片 設(shè)計(jì)的技術(shù)稱為片上系統(tǒng)技術(shù) 即s o c 以f p g a 芯片作為物理載體的s o c 系 統(tǒng)稱為可編程片上系統(tǒng) s o p c 它是一種特殊的片上系統(tǒng) 但它是可編程的系 統(tǒng) 具

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論