智能機器人語音識別技術_第1頁
智能機器人語音識別技術_第2頁
智能機器人語音識別技術_第3頁
智能機器人語音識別技術_第4頁
智能機器人語音識別技術_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、.專業(yè)整理.學習幫手.智能機器人語1識別技術:學號:201215715關鍵詞:智能機器人;語音識別;隱馬爾可夫模型DSP摘要:給出了一種由說話者說出控制命令,機器人進行識別理解,并執(zhí)行相應動作的實現(xiàn)技術。在此,提出了一種高準確率端點檢測算法、高精度定點DSP動態(tài)指數(shù)定標算法,以解決 定點DSP實現(xiàn)連續(xù)隱馬爾科夫模型 CHMMR別算法時所涉及的大量浮點小數(shù)運算問題,提高 了定點DS際現(xiàn)的實時性、精度,及其識別率 關鍵詞:智能機器人;語音識別;隱馬爾可夫模型;DSP1語音識別概述語音識別技術最早可以追溯到20世紀50年代,是試圖使機器能“聽懂”人類語音的技術。按照目前主流的研究方法, 連續(xù)語音識別

2、和孤立詞語音識別采用的聲學模型一般不同。孤立詞語音識別一般采用 DTWV助態(tài)時間規(guī)整算法。連續(xù)語音識別一般采用 HMMII型或者HMMW人工神經(jīng)網(wǎng)絡 ANN1結合。語音的能量來源于正常呼氣時肺部呼出的穩(wěn)定氣流,喉部的聲帶既是閥門,又是振動部件。語音信號可以看作是一個時間序列,可以由隱馬爾可夫模型(HMM)S行表征。語音信號經(jīng)過數(shù)字化及濾噪處理之后,進行端點檢測得到語音段。對語音段數(shù)據(jù)進行特征提取,語音信號就被轉換成為了一個向量序列,作為觀察值。在訓練過程中,觀察值用于估計HMM的參數(shù)。這些參數(shù)包括觀察值的概率密度函數(shù),及其對應的狀態(tài),狀態(tài)轉移概率等。當參數(shù)估計完成后,估計出的參數(shù)即用于識別。

3、此時經(jīng)過特征提取后的觀察值作為測試數(shù)據(jù)進行識別,由此進行識別準確率的結果統(tǒng)計。訓練及識別的結構框圖如圖1所示。S 1語祝鶴系屹”構框的1.1端點檢測找到語音信號的起止點,從而減小語音信號處理過程中的計算量,是語音識別過程中一個基本而且重要的問題。端點作為語音分割的重要特征,其準確性在很大程度上影響系統(tǒng)識別的性能。能零積定義:一幀時間圍的信號能量與該段時間信號過零率的乘積。能零積門限檢測算法可以在不丟失語音信息的情況下,對語音進行準確的端點檢測,經(jīng)過450個孤立詞(數(shù)字“09”)測試準確率為 98%以上,經(jīng)該方法進行語音分割后的語 音,在進入識別模塊時識別正確率達95%。當話者帶有呼吸噪聲,或周

4、圍環(huán)境出現(xiàn)持續(xù)時間較短能量較高的噪聲,或者持續(xù)時間長而能量較弱的噪聲時,能零積門限檢測算法就不能對這些噪聲進行濾除,進而被判作語音進入識別模塊,導致誤識。圖 2(a)所示為室環(huán)境,正常情況下采集到的帶有呼氣噪聲的 數(shù)字“09”的語音信號,利用能零積門限檢測算法得到的效果示意圖。最前面一段信號為呼氣噪聲,之后為數(shù)字“ 09”的語音。0昂刎門1眼武零,出型IS Z 性潮蠟豪的通滅矛惠國從圖2(a)直觀的顯示出能零積算法在對付能量較弱,但持續(xù)時間長的噪音無能為力。由此引出了雙門限能零積檢測算法。所謂的雙門限能零積算法指的是進行兩次門限判斷。第一門限采用能零積,第二門限為單詞能零積平均值。也即在前面介

5、紹的能零積檢測算法的基礎上再進行一次能零積平均值的判決。其中,第二門限的設定依據(jù)取決于所有實驗樣本中呼氣噪聲的平均能零積及最小的語音單詞能零積之間的一個常數(shù)。如圖2(b)所示,即為圖2(a)中所示的語音文件經(jīng)過雙門限能零積檢測算法得到的檢測結果??梢悦黠@看到,最前一段信號,即呼氣噪聲已經(jīng)被視 為噪音濾除。1. 2隱馬爾可夫模型 HMM隱馬爾可夫模型,即HM謔一種基于概率方法的模式匹配方法。它的應用是20世紀80年代以來語音識別領域取得的重要成果。一個HM瞰型可以表示為:A =4.4+。) 1)式中:兀 為初始狀態(tài)概率分布,兀i=P(q1= 0 i) , IwiWN,表示初始狀態(tài)處于0 i的概率

6、;A 為狀態(tài)轉移概率矩陣,(aij)N XN, aij=P( qt+1 = 0 j|qt= Qi) , 1<i , j < Nl; B 為觀察值概率矩陣,B=bj(ot) , j=1 , 2,,N,表示觀察值輸出概率分布,也就是觀察 值ot處于狀態(tài)j的概率。1. 3模型訓練HMM有多種結構類型,并且有不同的分類方法。 根據(jù)狀態(tài)轉移矩陣(A參數(shù))和觀察值 輸出矩陣(B參數(shù))的不同有不同類型的 HMM對于CHMMI型,當有多個觀察值序列時, 其重估公式由參考文檔給出,此處不再贅述。1. 4概率計算利用HMM勺定義可以得出 P(O|入)的直接求取公式:P(O I A) 2 fl(傳|式(

7、2)計算量巨大,是不能接受的。Rabiner提出了前向后向算法, 計算量大大減小。定義前向概率:«f (i) = PS ,電,%必< | A> (3) 那么有: (1)初始化;由(力三 jt大) l<i<N C4) (2)遞推, N*1。= £酊 4仇。#1) 1 W 工 N, ini<3)終止:*廠邛PCO| A) =。I式(2)表示的是初始前向概率,其中 bi(o1)為觀察值序列處于t=1時刻在狀態(tài)i時 的輸出概率,由于它服從連續(xù)高斯混合分布,故此值往往極小。根據(jù)大量實驗觀察,通常小于10-10 ,此值在定點DSP中已不能用Q格式表示。分析

8、式(3)可以發(fā)現(xiàn),隨著時間t的增 加,還會有大量的小數(shù)之間的乘法加法運算,使得新的前向概率值at+1更小,逐漸趨向于0,定點DS陳用普通的Q格式進行計算時便會負溢出,即便不發(fā)生負溢出也會大大丟失精 度。因此必須尋找一種解決方法,在不影響DSP實時性的前提下,既不發(fā)生負溢出,又能提高精度。2. DSP實現(xiàn)語音識別孤立詞語音識別一般采用 DTW動態(tài)時間規(guī)整算法。連續(xù)語音識別一般采用HMMI型或者HMMW人工神經(jīng)網(wǎng)絡 ANN1結合。為了能實時控制機器人,首先需要考慮的是能夠實現(xiàn)實時地語音識別。而考慮到 CHMMJ巨大計算量以及成本因素,采用了數(shù)據(jù)處理能力強大,成本相對較低的定點數(shù)字信 號處理器,即定

9、點DSP本實驗采用的是 TI公司多媒體芯片 TMS320DM642定點DSP要能準 確、實時的實現(xiàn)語音識別,必須考慮2點問題:精度問題和實時性問題。精度問題的產(chǎn)生原因已經(jīng)由1.4節(jié)詳細闡述,這里不再贅述。因此必須找出一種可以提高精度,而又不會對實時性造成影響的解決方法。基于以上考慮,本文提出了一種動態(tài)指數(shù)定標方法。這種方法類似于科學計數(shù)法,用2個32 b單元,一個單元表示指數(shù)部分 EXP,另一個單元表示小數(shù)部分 Frac。首先將待計算的數(shù)據(jù)按照指數(shù)定標格式歸一化,再進行運 算。這樣當數(shù)據(jù)進行運算時,仍然是定點進行,從而避開浮點算法,從而使精度可以達到要 求。對于實時性問題,通常,語音的頻率圍大

10、約是3003 400 Hz左右,因而本實驗采樣率取8 kHz, 16 b量化??紤]識別的實現(xiàn),必須將語音進行分幀處理。研究表明,大約在 1030 ms,人的發(fā)音模型是相對穩(wěn)定的,所以本實驗中取32 ms為一幀,16 ms為幀移的時間間隔。解決實時性問題必須充分利用DS芯片的片上資源。利用EDMAl行音頻數(shù)據(jù)的搬移,提高CPUJ用率。采用PING-PONGS沖區(qū)進行數(shù)據(jù)的緩存,以保證不丟失數(shù)據(jù)。CHMM”練的模板放于外部存儲器,由于外部存儲器較片存儲器的速度更慢,因此開啟CACHE建立DSP/BIOS任務,充分利用BIOS進行任務之間的調度,實時處理新到的語音數(shù)據(jù),檢測語音的 起止點,當有語音數(shù)

11、據(jù)時再進入下一任務進行特征提取及識別。將識別結果用揚聲器播放, 并送入到機器人的控制模塊。實驗中,采用如圖3的程序架構。圖3 機M人識刷就件捱富3機器人控制機器人由自然條件下的語句進行控制。這些語句描述了動作的方向,以及動作的幅度。為了簡單起見,讓機器人只執(zhí)行簡單命令。由手機進行遙控,DSP莫塊識別出語音命令, 送控制命令到ARM莫塊,驅動左右機械輪執(zhí)行相應動作。3. 1硬件結構機器人的硬件結構如圖 4所示。困4 機名A*件玷內機器人主要有2大模塊,一個是基于 DSP的語音識別模塊;另一個是基于 ARM勺控 制模塊,其機械足為兩滑輪。由語音識別模塊識別語音,由控制模塊控制機器人動作。4. 2語

12、音控制首先根據(jù)需要,設置了如下幾個簡單命令:前、后、左、右。機器人各狀態(tài)之間的轉移關系如圖5所示。其中,等待狀態(tài)為默認狀態(tài),當每次執(zhí)行前后或左右轉命令后停止,即回到等待狀態(tài),此時為靜止狀態(tài)。語音的訓練模板庫由 4個命令加10個阿拉伯數(shù)字共14個組成,如下所示。命令:“前”、“后”、“左”、“右”;數(shù)字:“09”。命令代表動作的方向, 數(shù)字代表動作的幅度。當執(zhí)行前后命令時,數(shù)字的單位為dm 執(zhí)行左右轉彎命令時,數(shù)字的單位為角度單位的20°。每句命令句法為命令 +數(shù)字。例如,語音“左2”表示的含義為向左轉彎 40。,“前4”表示向前直行4 dm。機器人語音控制的關鍵在于語音識別的準確率。表1給出了 5個男聲樣本的識別統(tǒng)計結果。一方向費字常疊牛牛100300100識鼾率/%97

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論