人工智能與語音識(shí)別_第1頁
人工智能與語音識(shí)別_第2頁
人工智能與語音識(shí)別_第3頁
人工智能與語音識(shí)別_第4頁
人工智能與語音識(shí)別_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、語音識(shí)別及其發(fā)展本文簡要介紹了語音識(shí)別技術(shù)的發(fā)展歷史,所采用的關(guān)鍵技術(shù)以及所面臨的困難與挑戰(zhàn),最 后討論了語音識(shí)別在通信等領(lǐng)域中的應(yīng)用。機(jī)器能聽懂人類的語言嗎?我們能扔掉鍵盤、鼠標(biāo)用自然語言操縱計(jì)算機(jī)嗎?隨著語音 識(shí)別技術(shù)的發(fā)展,夢(mèng)想正在變?yōu)楝F(xiàn)實(shí)。語音識(shí)別以語音為研究對(duì)象,它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一 個(gè)分支,涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉 及到人的體態(tài)語言(如人在說話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo) 是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。本文將簡要介紹語音識(shí)別的發(fā)展歷史,采用的關(guān)鍵技術(shù),面臨的困難與挑戰(zhàn)以及廣闊的

2、應(yīng)用前景。1語音識(shí)別的發(fā)展歷史語音識(shí)別的研究工作大約開始于50年代,當(dāng)時(shí)AT& T Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別 十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)Audry系統(tǒng)。60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識(shí)別的發(fā)展。這時(shí)期的重要成果是提出了動(dòng)態(tài)規(guī)劃 (DP)和線性預(yù)測分析技術(shù)(LP),其中后者較好地解決了語音信號(hào)產(chǎn)生模型的問題,對(duì)語 音識(shí)別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代,語音識(shí)別領(lǐng)域取得了突破。在理論上,LP技術(shù)得到進(jìn)一步發(fā)展,動(dòng)態(tài)時(shí)間歸 正技術(shù)(DTW)基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理 論。在實(shí)踐上,實(shí)現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立語音識(shí)別系統(tǒng)。80年代,

3、語音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò) (ANN)在語音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT& T Bell實(shí)驗(yàn)室 Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者 了解和認(rèn)識(shí)。ANN和HMM模型建立的語音識(shí)別系統(tǒng),性能相當(dāng)。進(jìn)入90年代,隨著多媒體時(shí)代的來臨,迫切要求語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱谩TS 多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple、AT&T、NTT等著名公司都為語音識(shí)別 系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。我國語音識(shí)別研究工作一直緊跟國際水平,國家也很重視,并把大詞匯量語音識(shí)別的研 究列入“863”

4、計(jì)劃,由中科院聲學(xué)所、自動(dòng)化所及北京大學(xué)等單位研究開發(fā)。鑒于中國未 來龐大的市場,國外也非常重視漢語語音識(shí)別的研究。美國、新加坡等地聚集了一批來自大 陸、臺(tái)灣、香港等地的學(xué)者,研究成果已達(dá)到相當(dāng)高水平。因此,國內(nèi)除了要加強(qiáng)理論研究 外,更要加快從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化。2語音識(shí)別技術(shù)首先介紹一下語音識(shí)別系統(tǒng)的分類方式及依據(jù)。根據(jù)對(duì)說話人說話方式的要求,可以分為孤立字(詞)語音識(shí)別系統(tǒng),連接字語音識(shí) 別系統(tǒng)以及連續(xù)語音識(shí)別系統(tǒng)。根據(jù)對(duì)說話人的依賴程度可以分為特定人和非特定人語音識(shí)別系統(tǒng)。根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí) 別系統(tǒng)。不同的語音識(shí)別系統(tǒng),雖

5、然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個(gè)典 型語音識(shí)別系統(tǒng)的實(shí)現(xiàn)過程如圖1所示。語音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外, 還涉及到語音識(shí)別單元的選取。(1)語音識(shí)別單元的選取選擇識(shí)別單元是語音識(shí)別研究的第一步。語音識(shí)別單元有單詞(句)、音節(jié)和音素三種, 具體選擇哪一種,由具體的研究任務(wù)決定。單詞(白)單元廣泛應(yīng)用于中小詞匯語音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模 型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。音節(jié)單元多見于漢語語音識(shí)別,主要因?yàn)闈h語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié), 并且漢語雖然有大約1300個(gè)音節(jié),但

6、若不考慮聲調(diào),約有408個(gè)無調(diào)音節(jié),數(shù)量相對(duì)較少。 因此,對(duì)于中、大詞匯量漢語語音識(shí)別系統(tǒng)來說,以音節(jié)為識(shí)別單元基本是可行的。音素單元以前多見于英語語音識(shí)別的研究中,但目前中、大詞匯量漢語語音識(shí)別系統(tǒng)也 在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28 個(gè))構(gòu)成,且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化 聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響, 音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。(2)特征參數(shù)提取技術(shù) 語音信號(hào)中含有豐富的信息,但如何從中提取出對(duì)語音識(shí)別有用的信息呢?特征

7、提取就 是完成這項(xiàng)工作,它對(duì)語音信號(hào)進(jìn)行分析處理,去除對(duì)語音識(shí)別無關(guān)緊要的冗余信息,獲得 影響語音識(shí)別的重要信息。對(duì)于非特定人語音識(shí)別來講,希望特征參數(shù)盡可能多的反映語義 信息,盡量減少說話人的個(gè)人信息(對(duì)特定人語音識(shí)別來講,則相反)。從信息論角度講, 這是信息壓縮的過程。線性預(yù)測(LP)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng) 都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測模型是純數(shù)學(xué)模型,沒有考慮人類聽覺系 統(tǒng)對(duì)語音的處理特點(diǎn)。Mel參數(shù)和基于感知線性預(yù)測(PLP)分析提取的感知線性預(yù)測倒譜,在一定程度上模 擬了人耳對(duì)語音的處理特點(diǎn),應(yīng)用了人耳聽覺感知方面的一些研究成果。

8、實(shí)驗(yàn)證明,采用這 種技術(shù),語音識(shí)別系統(tǒng)的性能有一定提高。也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有 待進(jìn)一步研究。(3)模式匹配及模型訓(xùn)練技術(shù)模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù), 而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個(gè)模型獲得最佳匹配。語音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)、隱馬爾 可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語音信 號(hào)特征參數(shù)序列比較時(shí)時(shí)長不等的難題,在孤立詞語音識(shí)別中獲得了良好性

9、能。但因其不適 合連續(xù)語音大詞匯量語音識(shí)別系統(tǒng),目前已被HMM模型和ANN替代。HMM模型是語音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述 信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測的)具有有限狀態(tài)的Markor鏈,另一個(gè)是 與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測的)。隱蔽Markor鏈的特征 要靠可觀測到的信號(hào)特征揭示。這樣,語音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào) 的隨機(jī)過程描述,而信號(hào)隨時(shí)間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括 HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。按照隨機(jī)函數(shù)的 特點(diǎn),HMM模型

10、可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡稱DHMM)和 連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù),簡稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點(diǎn))。一般來講,在訓(xùn)練數(shù)據(jù)足夠的,CHMM優(yōu)于DHMM 和 SCHMMoHMM模型的訓(xùn)練和識(shí)別都已研究出有效的算法,并不斷被完善,以增強(qiáng)HMM模型的 魯棒性。人工神經(jīng)元網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適 應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動(dòng)的原理,具有自學(xué)、聯(lián)想、對(duì)比、推理和概括 能力。這些能力是HMM模型不具備的,但ANN又不個(gè)有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。 因此,現(xiàn)在已有人

11、研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來,從而提高整個(gè)模型的魯棒性。3語音識(shí)別的困難與對(duì)策目前,研究工作進(jìn)展緩慢,主要表現(xiàn)在理論上一直沒有突破。雖然各種新的修正方法不 斷涌現(xiàn),但其普遍適用性都值得商榷。具體來講,困難主要表現(xiàn)在:語音識(shí)別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),即在某種環(huán)境下采集到的語 音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個(gè)問題是對(duì)用戶的錯(cuò) 誤輸入不能正確響應(yīng),使用不方便。高噪聲環(huán)境下語音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語速變 慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號(hào)分析處理方法。語言學(xué)、生理學(xué)、心理學(xué)方面的

12、研究成果已有不少,但如何把這些知識(shí)量化、建模并 用于語音識(shí)別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識(shí)別中是 非常重要的。我們對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的 認(rèn)識(shí)還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識(shí)別,還有一個(gè)艱難的過程。語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決,識(shí) 別速度、拒識(shí)問題以及關(guān)鍵詞(句)檢測技術(shù)(即從連續(xù)語音中去除諸如“啊、“唉”等語 音,獲得真正待識(shí)別的語音部分)等等技術(shù)細(xì)節(jié)要解決。為了解決這些問題,研究人員提出了各種各樣的方法,如自適應(yīng)訓(xùn)練,基于最大互信息 準(zhǔn)則(MMI)和最小區(qū)

13、別信息準(zhǔn)則(MDI)的區(qū)別訓(xùn)練和“矯正”訓(xùn)練;應(yīng)用人耳對(duì)語音 信號(hào)的處理特點(diǎn),分析提取特征參數(shù),應(yīng)用人工神經(jīng)元網(wǎng)絡(luò)所有這些努力都取得了一定 成績。不過,如果要使語音識(shí)別系統(tǒng)性能有大的提高,就要綜合應(yīng)用語言學(xué)、心理學(xué)、生理學(xué) 以及信號(hào)處理等各門學(xué)科有關(guān)知識(shí),只用其中一種是不行的。4語音識(shí)別的應(yīng)用目前世界各國都加快了語音識(shí)別應(yīng)用系統(tǒng)的研究開發(fā),并已有一些實(shí)用的語音識(shí)別系統(tǒng) 投入商業(yè)運(yùn)營。在美國語音識(shí)別系統(tǒng)的銷售額逐年上升,由于使用了語音識(shí)別系統(tǒng),為企業(yè) 贏得了巨額收入。比較典型而成功的語音識(shí)別系統(tǒng)有AT&T于1992年開發(fā)的VRCP系統(tǒng)。該系統(tǒng)是有五 個(gè)單詞(collect,person,thir

14、d number,operator和calling card)的非特定人小詞匯量語音識(shí) 別系統(tǒng),現(xiàn)已應(yīng)用于AT&T通信網(wǎng)上,可以實(shí)現(xiàn)自動(dòng)話務(wù)員協(xié)助式呼叫,代替話務(wù)員完成 五種呼叫類型,即 collect call受話人付費(fèi)電話,命令字collect person-person-call一定人呼叫,命令字person third-party-billing-call第三方付費(fèi)電話,命令字 third number operator-assisted call話務(wù)員協(xié)助呼叫,命令字 operator credit card call信用卡呼叫,命令字 calling card為使用戶使用方便,系統(tǒng)配有語音提示告訴用戶如何使用。該系統(tǒng)所具有的關(guān)鍵詞檢測 技術(shù)可從句子中查找到五個(gè)命令字中的一個(gè),從而使用戶在講話時(shí)更加自然,如可以講 “collect call please”,整個(gè)系統(tǒng)的正確識(shí)別率超過99%。此外,已經(jīng)實(shí)用的系統(tǒng)還有AT & T 800語音識(shí)別服務(wù)系統(tǒng),NTT A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論