基于DSP的語音識別技術在賓館客房中的應用_第1頁
基于DSP的語音識別技術在賓館客房中的應用_第2頁
基于DSP的語音識別技術在賓館客房中的應用_第3頁
基于DSP的語音識別技術在賓館客房中的應用_第4頁
基于DSP的語音識別技術在賓館客房中的應用_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、東北電力學院學報第25卷第2期Journal Of Northeast China Vol.25,No.2 2005年4月Institute Of Electric Pow er Engineering Apr.,2005文章編號:1005-2992(200502-0054-04基于DSP的語音識別技術在賓館客房中的應用高芙楠,白雪,張文婷(東北電力學院信息工程系,吉林吉林132012摘要:結(jié)合人們對賓館客房中電氣設備應用的需求,提出一種用DSP實現(xiàn)的說話人識別系統(tǒng),對客房中基本電氣功能進行語音控制,從而將語音識別技術應用到賓館客房控制中。關鍵詞:語音識別;特征參數(shù)提取;賓館;DSP(Digi

2、tal Signal Processing中圖分類號:TN910文獻標識碼:A傳統(tǒng)的賓館客房門多采用鑰匙或磁性門卡,這使得人們在外出時不得不多攜帶一把鑰匙或是一張門卡,這對在外旅行的人造成了不大不小的麻煩;另外從市場的角度來看,存在這樣的需求,當我們到一個陌生的客房時,完全不了解不熟悉它的電器控制開關的位置、對應關系及特點,給我們的旅途帶來諸多的不便。賓館客房的電氣控制系統(tǒng)還有待于作進一步的人性化設計。語音識別是近二十幾年發(fā)展起來的信息學科,特別是近十年來國內(nèi)外競相研究的熱點。語音識別具有最自然、最快速、最方便等優(yōu)點。始于二十世紀六十年代的語音識別研究,識別率有了很大的提高,基本可達實用水平。

3、但是因為語音識別的計算量非常大,難以實時實現(xiàn),因此一直制約著它的應用。隨著DSP和專用集成電路技術的發(fā)展,始語音識別尤其是計算量較小的說話人實時實現(xiàn)成為可能。賓館客房采用語音電子門禁(語音識別技術,合法用戶(經(jīng)過注冊可通過語音密碼進入房間,然后可進行口述命令,控制室內(nèi)電器的啟動、調(diào)節(jié)和關閉等,而非法用戶則被語音密碼阻擋,無法進入客房。1客房語音服務方案可對客房進行的語音服務方案大致如下:a.運用語音識別技術對客房內(nèi)的電器進行開關的控制;如控制電視、空調(diào)、床燈及其他的電器時,只需要呼叫相應的電器名字即可以改變它的開關狀況;b.運用語音識別的語音確認的功能,對客房的臨時主人進行身份登記確認,防止其

4、他外人進入客房和使用控制系統(tǒng);c.語音的實時報時及趣味語音鬧鐘功能;您只需要開口問時間幾點,系統(tǒng)將準確地把實時的時間通過語音方式告知;d.賓館把最重要的服務信息,通過語音的方式儲存在系統(tǒng)中,供客戶進行語音的查詢;儲存的信息內(nèi)容可以隨時錄入更改,信息播放采用語音喚醒功能。收稿日期:2005203206作者簡介:高芙楠(1979-,女,東北電力學院信息工程系研究生,研究方向基于DSP技術語音信號處理.2語音識別系統(tǒng)目前,常用的語音識別方法有模版匹配法、隨機模型法、人工神經(jīng)網(wǎng)絡法等??紤]到數(shù)據(jù)量、實時性及識別率的問題,本文采用基于矢量量化的隱馬爾可夫模型(HMM 相結(jié)合的方法1。說話人識別系統(tǒng)主要由

5、預處理、語音特征參數(shù)的提取、訓練、識別和后處理組成,系統(tǒng)圖如下:圖1說話人識別系統(tǒng)2.1預處理預處理主要是對輸入的模擬語音數(shù)據(jù)作初步處理,使其適于后面的特征提取及識別。預處理主要有以下幾步:A/D 轉(zhuǎn)換、量化編碼、反混疊處理、預加重、短時過零率等。2.2語音特征參數(shù)提取語音識別系統(tǒng)中的特征檢測即提取語音信號中表征人的基本特征,此特征應能有效區(qū)分不同的說話人,且對同一說話人的變化保持相對穩(wěn)定??紤]到特征的可量化性、訓練樣本的數(shù)量和系統(tǒng)性能的評價問題,目前的語音識別系統(tǒng)主要依靠較低層次的聲學特征進行識別。說話人特征大體可歸為下述幾類:譜包絡參數(shù)語音信息通過濾波器組輸出,以合適的速率對濾波器輸出抽樣

6、,并將它們作為識別特征?;糨喞?、共振峰頻率帶寬及其軌跡這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。線性預測系數(shù)使用線性預測系數(shù)是語音信號處理中的一次飛躍,以線性預測導出的各種參數(shù),如線性預測系數(shù)、自相關系數(shù)、反射系數(shù)、對數(shù)面積比、線性預測殘差及其組合等參數(shù),作為識別特征,可以得到較好的效果。主要原因是線性預測與聲道參數(shù)模型是相符合的。反映聽覺特性的參數(shù)模擬人耳對聲音頻率感知的特性而提出了多種參數(shù),如倒譜系數(shù)、感知線性預測等。本系統(tǒng)在說話人識別中采用倒譜系數(shù)和基音周期參數(shù),而在控制命令的語音識別中僅采用倒譜系數(shù),倒譜系數(shù)采用線性預測倒譜系數(shù)(L PCC 2。對L PCC 參

7、數(shù)的提取,可采用協(xié)方差算法來求L PC 系數(shù),然后求L PCC 參數(shù)??啥xR n (j =N -1n =0s (n s (n -j R n (j -i =N -1n =0s (n -j s (n -i 可用c (j ,i 來表示R n (j -i ,c (j ,i 即為s (n 的協(xié)方差。c (j ,i =R n (j -i =N -1n =0s (n -j s (n -i c (j ,0=P i =1i c (j ,i =0(1j P 矩陣表示形式如下:c (1,1c (1,2c (1,3c (1,P c (2,1c (2,2c (2,3c (2,P c (3,1c (3,2 c (3,3

8、c (3,P c (P ,1c (P ,2c (P ,3c (P ,P 123P =c (1,0c (2,0c (3,0c (P ,0求解矩陣方程可以用矩陣分解的Cholesky 法3進行,它可將協(xié)方差矩陣C 進行L U 分解,其中L 為55第2期高芙楠等:基于DSP 的語音識別技術在賓館客房中的應用三角矩陣,U 為上三角陣。下圖給出了協(xié)方差算法圖解 :圖2協(xié)方差算法圖解基音周期估計的方法主要有基自相關函數(shù)的算法、基于求短時平均幅度差函數(shù)(AMDF 的算法、基于同態(tài)信號處理和線性預測編碼的算法。本系統(tǒng)可采用自相關函數(shù)算法。設S W (n 是一段加窗語音信號,它的非零區(qū)間為n =0,1,N -1

9、。S W (n 的自相關函數(shù)稱為語音信號的短時自相關函數(shù),用R W (l 表示:R W (l =+n =-S W (n S W (n +l =N -l -1n =0S W (n S W (n +l R W (0=N -1n =0S 2W (n 短時自相關函數(shù)在R W (0處最大,且在基音周期的各個整數(shù)倍點上有很大的峰值,選擇合適的窗函數(shù)與濾波器后,只要找到自相關函數(shù)的第一最大峰值點的位置并計算它與零點的距離,便能估計出基音周期。2.3訓練訓練單元的功能是把事先收集到的語音利用一定的算法為每一個待識別的說話人訓練出與之相匹配的參數(shù)??紤]到賓館客房服務的實際需要,此訓練應主要針對語音電子門禁,因為

10、同一個房間可能同時住多個人,所以應為每個合法用戶建立一個HMM 模型,同時采用基于矢量量化(VQ 的方法,為每個合法用戶建立VQ 碼本。考慮到房間內(nèi)設施復雜,為盡可能減少訓練事項(我們都不希望在賓館住宿時還要進行繁瑣的語音識別訓練,所以應該把室內(nèi)的語音控制系統(tǒng)設計為非特定人識別系統(tǒng)。2.4識別識別單元的功能是利用經(jīng)訓練已經(jīng)獲得的HMM 模型4參數(shù)和測得的說話人的基音周期在一定的判決條件下辨認出帶識別的說話人并估計出待識別的控制命令詞串。HMM 模型參數(shù)通常采用的判決條件是最大后驗概率,用Viterbi 算法實現(xiàn)。3系統(tǒng)實現(xiàn)由于賓館客房中的電氣控制命令是有限的詞條和數(shù)字串的組合,對這些語音命令的

11、識別屬于特定人小詞匯量的識別,不論是從目前的DSP 運算還是存儲空間來說,實時實現(xiàn)這些語音命令的識別都是完全可能的。系統(tǒng)中采用TMS320VC54025。它是TI 公司生產(chǎn)的從屬于TMS320C54x 系列的一個工作靈活、高速、具有較高性價比、低功耗的16b 定點通用DSP 芯片。其主要特點為:采用改進的哈佛結(jié)構(gòu),一條程序總線(PB ,三條數(shù)據(jù)總線(CB ,DB ,EB 和四條地址總線(PAB ,CAB ,DAB ,EAB ,帶有專用硬件邏輯CPU (40b 算術邏輯單元AL U ,包括一個40b 桶形移位器和兩個40b 累加器;一個17×17乘法器和一個40b 專用加法器,允許16

12、b 帶或不帶符號的乘法,片內(nèi)存儲器(八個輔助寄存器及一個軟件棧,片內(nèi)外專用的指令集,允許使用最先進的定點DSP C 語言編譯器。A/D 芯片采用TLC320AD50C ,其中含有A/D 、D/A 、低通濾波器和采樣保持電路。模擬語音信號主要通過傳聲器輸入,A/D 轉(zhuǎn)換后的數(shù)字語音數(shù)據(jù)以同步串行通信方式傳送給DSP 。65東北電力學院學報第25卷用DSP 來完成對語音命令的識別,見圖3。圖3識別系統(tǒng)框圖4小結(jié)語音識別技術的精度本身很難衡量,這主要因為很多因素的影響,包括:環(huán)境噪聲、使用者的語音(受年齡、性別、口音、重音程度、健康、語音強度甚至一天中說話的時間、使用產(chǎn)品的用戶的水平和垂直位置、聲學

13、環(huán)境、麥克風類型、麥克風安裝以及所使用的提示類型,所有這些都能影響識別性能,當在用戶產(chǎn)品中設計語音識別時必須考慮這些因素。出于以上語音識別技術的特點考慮,應用在賓館客房相對封閉安靜的空間、使用者(成年人的聲音穩(wěn)定變化較小、電器類型基本不重復的環(huán)境中,完全可以實現(xiàn)高精度的語音識別效果.考文獻1張軍英.說話人識別的現(xiàn)代方法與技術M .西安:西北大學出版社,1994.2易克初等.語音信號處理M .北京:國防工業(yè)出版社,2000.5孫宗瀛,謝鴻琳.TMS320C54X DSP 原理設計與應用M .北京:清華大學出版社,2002.Application of Speech R ecognition T

14、echnology to G uest Room of H otelG AO Fu 2nan ,BAI Xue ,ZHANG Wen 2ting(Department of Computer Engineering ,Northeast China Institute of Electric Power Engineering ,Jilin City ,132012Abstract :To satisfy with the needs of electronic equipments application ,this paper puts forward a sort of speech recognition system based on DSP technology to control electric equipment in gu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論