語音識別綜述_第1頁
語音識別綜述_第2頁
語音識別綜述_第3頁
語音識別綜述_第4頁
語音識別綜述_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、山西大學研究生學位課程論文(2014 - 2015 學年 第 2 學期)學院(中心、所): 計算機與信息技術學院 專 業(yè) 名 稱: 計算機應用技術 課 程 名 稱: 自然語言處理技術 論 文 題 目: 語音識別綜述 授課 教師(職稱): 研 究 生 姓 名: 年 級: 學 號: 成 績: 評 閱 日 期: 山西大學研究生學院2015年 6 月 2日語音識別綜述摘要 隨著大數(shù)據(jù)、云時代的到來,我們正朝著智能化和自動化的信息社會邁進,作為人機交互的關鍵技術,語音識別在五十多年來不僅在學術領域有了很大的發(fā)展,在實際生活中也得到了越來越多的應用。本文主要介紹了語音識別技術的發(fā)展歷程,國內(nèi)外研究現(xiàn)狀,具

2、體闡述語音識別的概念,基本原理、方法,以及目前使用的關鍵技術HMM、神經(jīng)網(wǎng)絡等,具體實際應用,以及當前面臨的困境與未來的研究趨勢。關鍵詞 語音識別;隱馬爾科夫模型;神經(jīng)網(wǎng)絡;中文信息處理1. 引言 語言是人類相互交流最常用、有效的和方便的通信方式,自從計算機誕生以來,讓計算機能聽懂人類的語言一直是我們的夢想,隨著大數(shù)據(jù)、云時代的到來,信息社會正朝著智能化和自動化推進,我們越來越迫切希望能夠擺脫鍵盤等硬件的束縛,取而代之的是更加易用的、自然的、人性化的語音輸入。語音識別是以語音為研究對象,通過對語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。 2. 語音識別技術的發(fā)展歷史及現(xiàn)狀2.1語

3、音識別發(fā)展歷史語音識別的研究工作起源與上世紀50年代,當時AT&T Bell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)Audry系統(tǒng)。1959年,J.W.Rorgie和C.D.Forgie采用數(shù)字計算機識別英文元音及孤立字,開始了計算機語音識別的研究工作。60年代,計算機應用推動了語音識別的發(fā)展。這時期的重要成果是提出了動態(tài)規(guī)劃(DP)和線性預測分析技術(LP),其中后者較好的解決了語音信號產(chǎn)生模型的問題,對后來語音識別的發(fā)展產(chǎn)生了深遠的影響。70年代,LP技術得到了進一步的發(fā)展,動態(tài)時間歸正技術(DTW)基本成熟,特別是矢量量化(VQ)和隱馬爾科夫(HMM)理論的提出,并且實現(xiàn)了基于

4、線性預測倒譜和DTW技術的特定人孤立語音識別系統(tǒng)。80年代,實驗室語音識別研究產(chǎn)生了巨大的突破,一方面各種連接詞語音識別算法被開發(fā),比如多級動態(tài)規(guī)劃語音識別算法;另一方面語音識別算法從模板匹配技術轉向基于統(tǒng)計模型技術,研究從微觀轉向宏觀,從統(tǒng)計的角度來建立最佳的語音識別系統(tǒng)。隱馬爾科夫模型(HMM)就是其典型代表,能夠很好的描述語音信號的時變性和平穩(wěn)性,使大詞匯量連續(xù)語音識別系統(tǒng)的開發(fā)成為可能,在80年代中期在實踐開發(fā)中成功應用了HMM模型和人工神經(jīng)網(wǎng)絡(ANN)。1988年Kai-FuLee等用VQ/HMM方法實現(xiàn)的非特定人連續(xù)語音識別系統(tǒng)SPHINX是語音識別歷史上的一個里程碑。90年代以

5、后,人工神經(jīng)網(wǎng)絡技術為語音識別開辟了一條新途徑,ANN具有自適應性、并行性、魯棒性、容錯性和學習特性,在結構和算法都顯示了很大的潛力,更在細化模型的設計、參數(shù)提取和優(yōu)化,以及系統(tǒng)的自適應技術上取得了關鍵進展,語音識別開始進入實際應用。2.2語音識別國內(nèi)外發(fā)展現(xiàn)狀近幾年語音技術發(fā)展迅速,雖然國內(nèi)對語音識別商業(yè)化仍有一些欠缺。但整體來說國內(nèi)的語音技術研究與國外基本同步。科大訊飛,捷通華聲等語音企業(yè)相繼成立。2010年Google發(fā)布的Voice Action支持語音操作與檢索,2011年初微軟的深度神經(jīng)網(wǎng)絡(DNN)模型在語音搜索任務上獲得成功;同年10月蘋果公司Siri首次亮相,人機交互開啟了新

6、的篇章;國內(nèi)科大訊飛首次將DNN技術運用到語音云平臺;2013年Google發(fā)布的Glass使用語音交互,同時蘋果公司加大了對iWatch的研發(fā)投入,穿戴式語音交互設備成為新熱點。我國在語音識別方面的研究最早起源于1958年,當時中科院聲學所通過最簡單的電子管電路來完成對10個元音的識別,由于計算機技術的滯后,直到國家執(zhí)行863計劃后,語音識別技術和其他關鍵技術才得到一定的扶持,研究工作才步入了高速發(fā)展時期,目前我們的研究水平基本與國外接軌,在漢語語音識別已經(jīng)處于領先水平,3.語音識別基本原理方法3.1語音識別基本原理語音識別其實是一個模式識別匹配的過程,語音系統(tǒng)一般可以分為前端處理和后端處理

7、,如圖1所示。前端包括語音信號的輸入,預處理,特征提取,后端是對數(shù)據(jù)庫的搜索過程,分為訓練和識別。訓練是對所建模型進行評估,匹配,優(yōu)化,獲得模型參數(shù)。識別時一個專用的搜索數(shù)據(jù)庫,獲得前端數(shù)值后,在聲學模型,語言模型,字典。聲學模型是通過訓練來識別特定用戶的語音模型和發(fā)音環(huán)境特征。語言模型就涉及到中文信息處理的問題,在這要對語料庫單詞規(guī)則化建一個概率模型。字典則列出了大量的單詞和發(fā)音規(guī)則。圖1語音系統(tǒng)結構圖具體過程如下,計算機先根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需要的模板,然后在識別過程中,計算機根據(jù)語音識別所需的模板。然后在識別過

8、程中,計算機根據(jù)語音識別的整體模型,講計算機中以經(jīng)存在的語音模板與輸入語音信號的特征進行比較,并根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的與輸入語音匹配的模板。最后通過查表和判決算法給出識別結果。顯然識別結果的準確率與語音特征的選擇,語音模型和語音模板的好壞,準確度有關。語音識別的目標是把需要的語音特征向量序列X=x1,x2,xt轉化成詞序列W=w1,w2wn并輸出,基于最大后驗概率的語音識別模型如下式:找最可能的詞序列W,要使得P(X|W)與P(W)乘積達到最大,其中P(X|W)是特征矢量序列X在給定W條件下的條件概率;P(W)是W獨立于語音特征矢量的先驗概率,是平衡聲學模型與語言模型的權重。

9、3.2語音識別分類目前語音識別系統(tǒng)的分類主要有孤立語音和連續(xù)語音識別系統(tǒng),特定人和非特定人語音識別系統(tǒng),大詞匯量和小詞匯量語音識別系統(tǒng),嵌入式/服務式模式。自然語言只是在句尾或者文字需要加標點的地方有個間斷,其他部分都是連續(xù)的發(fā)音,以前的語音系統(tǒng),主要是對于單字單詞這些孤立的語音系統(tǒng)。近年來,連續(xù)語音系統(tǒng)已經(jīng)漸漸成為主流。根據(jù)聲學模型建立的方式,特定人語音系統(tǒng)是在前期需要大量的用戶發(fā)音數(shù)據(jù)來訓練模型,非特定人系統(tǒng)則在系統(tǒng)構建成功后,用戶不需要大量語音數(shù)據(jù)訓練就可以使用。在語音識別技術的發(fā)展過程中,詞匯量是不斷積累的,隨著詞匯量的增大,對系統(tǒng)的穩(wěn)定性要求也越來越高,系統(tǒng)的成本也越來越高。比如一個

10、識別電話號碼的系統(tǒng)只需要聽懂十個數(shù)字就可以了,如果是一個訂票系統(tǒng)就需要能識別各個地名,如果需要識別一個報道稿,就需要一個大詞匯量的語音系統(tǒng)。嵌入式是將語音識別系統(tǒng)安裝在終端設備,比如手機移動終端,識別過程在終端進行。如果是服務器模式,終端是需要收集傳導語音信號,服務器進行識別過程。因此對大規(guī)模、多用戶和大量識別需求的系統(tǒng),服務器模式可以提供一個有效的解決方案,另外服務器對用戶知識需求少,系統(tǒng)整體的更新升級維護更加方便。4. 語音識別的主要模型4.1樣本匹配法語音識別模型通常有聲學模型和語言模型,語言模型能否表達自然語言所包含的豐富語言學知識,是語音識別系統(tǒng)性能好壞的關鍵。主要的語音識別分類方法

11、有樣本匹配法,吧特征縫隙提取的一組隨時間而變特征矢量序列和事先通過學習后存在機器里的樣本序列進行比較,輸入特征序列和存儲的樣本通過一定失真準則比較后可找到和輸出特征矢量序列最接近的樣本序列,由于自然語言語言速度不是恒定的,故動態(tài)時間歸正方法是樣本匹配法成功的關鍵。4.2隱馬爾科夫(HMM)模型HMM是目前最強有力的語音識別算法,是對語音信號的時間序列結構所建立的統(tǒng)計模型,是在馬爾科夫鏈的基礎上發(fā)展起來的。對語音識別系統(tǒng)而言,通常HMM模型有兩個假設前提,一是內(nèi)部狀態(tài)的轉移只與上一狀態(tài)有關,一是輸出值只與當前狀態(tài)或當前狀態(tài)轉移有關,除了這兩個假設外,他還假設語音是一個嚴格的馬爾科夫過程。他說一種

12、基于參數(shù)模型的統(tǒng)計識別方法,可以視作一個雙重隨機過程,來模仿人的言語過程,比如用具有有限狀態(tài)數(shù)的馬爾科夫鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與馬爾科夫鏈的每一個狀態(tài)相關聯(lián)的觀測序列的隨機過程。通常我們從左向右的單向的、帶自環(huán)的、帶跨越的HMM拓撲結構來對識別基本建模。例如一個音素對應一個三至五狀態(tài)的HMM,一個詞對應于構成該詞的多個音素的HMM串,而連續(xù)語音則對應于詞和靜音組合起來的HMM串。HMM模型在某狀態(tài)j下對應的觀察值可以由一組概率bk,k=1,2m,來描述,它是M個離散可數(shù)的隨機變量X,也可以由一個觀察概率密度函數(shù)bj(X)表示,這就是一個連續(xù)的HMM,目前運用最廣

13、泛的是高斯型,如下公式:4.3人工神經(jīng)網(wǎng)絡(ANN)模型多層神經(jīng)網(wǎng)絡廣泛應用于語音模型,不同層之間的神經(jīng)元通過一定加權系數(shù)相互連接,這些加權系數(shù)可以在訓練過程中學習。通過模擬人類神經(jīng)元活動原理,具有自學,聯(lián)想對比,推理和概括能力。單個神經(jīng)元模型如下圖:圖2單個神經(jīng)元模型Yk代表某一時刻神經(jīng)元k的輸出,f為激活函數(shù),uk表示第k個神經(jīng)元的凈輸入,通過下式計算:x1,x2xm表示共有m個輸入,wk1wkm分別對應于每個輸入的權值,bk稱為偏置值,其中激活函數(shù)f在該模型中起著很重要的作用,因為一個神經(jīng)網(wǎng)絡分類或者是函數(shù)逼近能力,除了和網(wǎng)絡拓撲結構有關,還與激活函數(shù)有密切的關系,一般傳輸函數(shù)用來控制輸

14、入對輸出的激活作用以及限制神經(jīng)元輸出的范圍既可以將無限輸入映射到有限的輸出?,F(xiàn)在主流的神經(jīng)網(wǎng)絡有前饋神經(jīng)網(wǎng)絡,它具有很強的學習能力,且結構清晰,便于編程,該網(wǎng)絡可以用一個有向無環(huán)圖表示如下圖:圖3多層前饋神經(jīng)網(wǎng)絡圖5.語言識別的難點及未來發(fā)展趨勢 語音識別面臨的主要困難是理論上沒有突破,雖然出現(xiàn)了很多新的修正方法,但在識別速度,關鍵詞檢測等仍有許多問題亟待解決。這些困難主要表現(xiàn)在:(1) 語音識別對環(huán)境依賴性強,經(jīng)過某一環(huán)境的訓練學習后,在別的環(huán)境下性能有一個急劇的下降。(2) 高噪音環(huán)境下語音識別困難,此時對語音不同音頻的抽取也很困難。(3) 模型算法大都存在一定缺陷,比如經(jīng)典的HMM語音識

15、別模型在一些重要方面也有缺陷,既不符合語音信號的實際情況,又使得模型需要的訓練量太大,目前以及提出各種HMM改進算法也加入了遺傳算法,并行算法等新技術使得HMM的訓練和識別更加準確。(4) 我們?nèi)祟惖穆犛X理解,知識積累學習機制和人腦神經(jīng)系統(tǒng)的控制機理等方面的認識還不是很清楚,所以仍然有一些技術上的難關。(5) 語音系統(tǒng)涉及眾多領域的學科,像語音學,人工智能,模式識別,數(shù)理統(tǒng)計,通信學,計算機科學甚至心理學,因此這些學科的發(fā)展也制約著語音識別。語音識別技術是非常重要的人機交互技術,應用語音的自動理解和翻譯,可消除人類相互交往語言障礙。未來語音識別技術將為網(wǎng)上會議,商業(yè)管理,醫(yī)藥衛(wèi)生,教育培訓等各個領域帶來極大的便利。參考文獻1馬志欣,王

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論