版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
語音識別綜述第一頁,共二十五頁,編輯于2023年,星期三語音識別的分類一、從識別單位分為以下幾類1.孤立詞語音識別。識別的單詞間有停頓。2.連接詞語音識別。在連續(xù)語音中識別出其包含的幾個或某幾個詞。3.連續(xù)語音識別。識別的單詞之間沒有停頓。4.語音理解。在語音識別的基礎(chǔ)上,用語言學(xué)知識推斷出語音的含義。二、從識別的詞匯量可以分為小詞匯(10~50個)、中詞匯(50~200個)、大詞匯(200個以上)等三類。三、按講話人范圍可以分為特定講話人和非特定講話人兩類。不僅僅這三種分類方法,我們還可以從識別方法、識別環(huán)境、說話人類型等方面進行分類。 第二頁,共二十五頁,編輯于2023年,星期三語音識別技術(shù)的發(fā)展方向一、大詞匯量連續(xù)語音識別系統(tǒng),主要應(yīng)用于計算機的聽寫,以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計算機平臺上實現(xiàn)的。二、小型化、便攜式語音產(chǎn)品的應(yīng)用,如無線手機上的撥號、汽車設(shè)備的語音控制、智能玩具、家電遙控等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都是使用專門的硬件系統(tǒng)實現(xiàn)。語音識別與語言學(xué)和人工智能有密切聯(lián)系。語音識別的重大進展可能并不是來自分析、自適應(yīng)模式匹配及計算機運算等方面的進一步研究,而是來自語言感知、語言產(chǎn)生、語音學(xué)、語言學(xué)及心理學(xué)的研究。第三頁,共二十五頁,編輯于2023年,星期三語音識別的原理第四頁,共二十五頁,編輯于2023年,星期三預(yù)處理
待識別的語音經(jīng)過話筒變成電信號后加在識別系統(tǒng)的輸入端,首先要經(jīng)過預(yù)處理。預(yù)處理包括反混疊失真濾波、預(yù)加重和端點檢測。經(jīng)過預(yù)處理后,按照一定的特征提取方法產(chǎn)生語音特征參數(shù),這些特征參數(shù)的時間序列便構(gòu)成了待識別語音模式,將其與已經(jīng)存儲在的參考模式逐一進行比較(模式匹配),最佳(由判決規(guī)則確定)的參考模式便是識別結(jié)果。參考模式是在系統(tǒng)使用前獲得并存儲起來的,為此,要輸入一系列已知語音信號,提取它們的特征作為參考模式,這一過程稱為訓(xùn)練。語音識別所遇的難題是搜索最佳識別結(jié)果和參數(shù)訓(xùn)練。目前,語音識別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動態(tài)時間規(guī)整技術(shù)(DTW)、隱馬爾科夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)。第五頁,共二十五頁,編輯于2023年,星期三特征提取
特征提取就是對語音信號進行分析處理,去除語音識別無關(guān)緊要的冗余信息,獲得影響語音識別的重要信息。特征提取一般要解決兩個問題,一個是從語音信號中提取有代表性的合適的特征參數(shù),另一個是進行適當(dāng)?shù)臄?shù)據(jù)壓縮。目前,語音識別技術(shù)中應(yīng)用最流行的特征參數(shù)是基于人的聲道模型和聽覺機理的LPCC,LPCMCC,MFCC和ZCPA。 語音特征的參數(shù)是分幀提取的,每幀特征參數(shù)一般構(gòu)成一個矢量序列。語音信號中提取出來的矢量序列經(jīng)過數(shù)據(jù)壓縮后便成為語音的模板,顯然,特征的選取對識別效果至關(guān)重要,選擇的標準應(yīng)盡量滿足一下兩個要求: (1)能有效的代表語音特征,包括聲道特征和聽覺特征,具有很好的區(qū)分性。 (2)特征參數(shù)要計算方便,在保持高識別率的情況下。最好有高效的計算方法。 第六頁,共二十五頁,編輯于2023年,星期三特征提取的方法一、線性預(yù)測系數(shù)(LPC)二、LPC倒譜系數(shù)(LPCC)三、Mel頻率倒譜系數(shù)(MFCC)四、LPC梅爾倒譜系數(shù)(LPCC)五、zcpa特征第七頁,共二十五頁,編輯于2023年,星期三LPC倒譜
依據(jù)語音信號產(chǎn)生的生理和數(shù)學(xué)模型可知,語音信號是音源激勵分量與聲道沖激響應(yīng)、輻射模型三者相卷積的產(chǎn)物。因此通過語音信號的倒譜分析可有效地分離激勵成分與聲道成分。計算語音信號的倒譜通常有兩種方法:其一是先對語音信號進行短時付里葉變換,取其模的對數(shù)值,再進行反變換,得其倒譜。聲道信息可通過低時窗取出。 其二是依據(jù)AR模型對LPC參數(shù)進行遞推,形成LPC倒譜,LPC倒譜(LPCC)由于利用了線性預(yù)測中聲道系統(tǒng)函數(shù)的最小相位特性,避免了復(fù)雜的相位卷積和復(fù)對數(shù)計算;且LPC倒譜的運算量僅是用FFT求倒譜時運算量的一半,適于實時應(yīng)用,它的遞推式如下:第八頁,共二十五頁,編輯于2023年,星期三式中a1…ap為p階LPC的特征向量。第九頁,共二十五頁,編輯于2023年,星期三識別方法介紹一般來說,語音識別的方法有四種:(1)基于聲道模型和語音知識的方法(2)模式匹配方法(3)統(tǒng)計型模型方法(4)人工神經(jīng)網(wǎng)絡(luò)方法第十頁,共二十五頁,編輯于2023年,星期三
基于聲道模型和語音知識的方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復(fù)雜,現(xiàn)階段沒有達到實用的階段。 模式匹配常用的技術(shù)有動態(tài)時間規(guī)整(DTW)和矢量量化(VQ);統(tǒng)計型模型方法常見的是隱馬爾可夫模型;語音識別常用的神經(jīng)網(wǎng)絡(luò)有反向傳播(BP)神經(jīng)網(wǎng)絡(luò),徑向基函數(shù)網(wǎng)絡(luò)(RBF)及新興的小波網(wǎng)絡(luò)(這兩年很少有人用)。第十一頁,共二十五頁,編輯于2023年,星期三動態(tài)時間規(guī)整(DTW)
動態(tài)時間彎折是一種效果非常好的非線性時間規(guī)整模板匹配法。例如對于孤立詞識別系統(tǒng),將每個詞重復(fù)多遍發(fā)音,直到得到一個一致性較好的特征矢量序列,從而形成一個模板,在識別時,待識別矢量序列用DTW算法分別求得與每個模板的累計失真,然后判別它屬于哪一類。第十二頁,共二十五頁,編輯于2023年,星期三矢量量化(VQ) DTW方法是針對時間對準問題的,我們希望不考慮時間順序任意指定時間對準點,這意味著沒有任何時間歸一化的處理。矢量量化就時完全忽略時間信息的一種方法。對于孤立詞,首先為詞會表中的每個但詞建立一個碼本,這些碼本是分離的,它們即為每個單詞的模板,識別過程指不過是搜尋譽為指單詞有最佳擬合的碼本問題,即每個輸入矢量必須和每個碼本所有碼字進行比較。第十三頁,共二十五頁,編輯于2023年,星期三神經(jīng)網(wǎng)絡(luò)
關(guān)于神經(jīng)網(wǎng)絡(luò)在語音信號處理中的應(yīng)用研究十分活躍,其中以在語音識別方面的應(yīng)用最令人矚目。目前,主要是從聽覺神經(jīng)模型中得到啟發(fā),以便構(gòu)成一些具有類似能力的人工系統(tǒng),使它們在解決語音信號處理(特別是識別)問題時能得到較好的性能。研究神經(jīng)網(wǎng)絡(luò)以探索人的聽覺神經(jīng)機理,改進現(xiàn)有語音語音識別系統(tǒng)的性能,是當(dāng)前語音識別研究的一個重要方向。在模式識別的應(yīng)用中,多采用BP網(wǎng)和RBF網(wǎng)等前向神經(jīng)網(wǎng)絡(luò)來實現(xiàn)。第十四頁,共二十五頁,編輯于2023年,星期三RBF網(wǎng)絡(luò)拓撲結(jié)構(gòu)第十五頁,共二十五頁,編輯于2023年,星期三RBF神經(jīng)網(wǎng)絡(luò)的特點
徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(簡稱RBFNN)是一種三層前向神經(jīng)網(wǎng)絡(luò)。它的隱層激活函數(shù)是一種徑向?qū)ΨQ的核函數(shù)。當(dāng)輸入樣本傳播到隱單元空間時,這組核函數(shù)構(gòu)成了輸入樣本的一組“基”。因此,這種神經(jīng)網(wǎng)絡(luò)稱為徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)。RBFNN具有以下特點:●是一種靜態(tài)網(wǎng)絡(luò);●與函數(shù)逼近理論相吻合;●具有唯一最佳逼近點;●網(wǎng)絡(luò)連接權(quán)值與輸出呈線性關(guān)系。
徑向基網(wǎng)絡(luò)與一般的三層BP網(wǎng)結(jié)構(gòu)很相似,區(qū)別有兩點:
1.輸入層到隱層之間權(quán)值固定為1,只有隱層到輸出層之間的全值可調(diào)節(jié)。
2.隱層神經(jīng)元的激活函數(shù)不同,它用一種具有局部作用性質(zhì)的函數(shù)代替了BP網(wǎng)常用的Sigmoid函數(shù)。RBF網(wǎng)最常用的激活函數(shù)是高斯函數(shù)。第十六頁,共二十五頁,編輯于2023年,星期三
從上面的分析可知,RBF網(wǎng)絡(luò)由兩部分組成(設(shè)輸入維數(shù)為p,隱單元數(shù)為m,輸出維數(shù)為q):●第一部分:從輸入空間到隱含層空間的非線性變換層第i個隱單元輸出為:第十七頁,共二十五頁,編輯于2023年,星期三
其中:g(.)為隱單元的變換函數(shù)(即徑向基函數(shù)),一般取為Gauss函數(shù),即
x
為p維的輸入向量,即
為第i個非線性變化單元的“中心”向量。
為非線性變化單元的寬度。第十八頁,共二十五頁,編輯于2023年,星期三●第二部分:從隱含層空間到輸出層空間的線性合并層第j個輸出其中:為第i個隱單元與第j個輸出之間的連接權(quán)值;y為q維的輸出向量,即。
第十九頁,共二十五頁,編輯于2023年,星期三
在RBF網(wǎng)絡(luò)中可以調(diào)整的參數(shù)有:隱節(jié)點激勵函數(shù),隱節(jié)點中心和半徑,隱層節(jié)點個數(shù)和隱層至輸出的連接權(quán)值。RBF網(wǎng)絡(luò)的學(xué)習(xí)方法有兩種:
1.參數(shù)同時訓(xùn)練。
2.兩階段訓(xùn)練?!舸_定每個RBF隱單元的中心和半徑;◆調(diào)節(jié)權(quán)值矩陣(線性最小二乘法)。
RBF網(wǎng)絡(luò)的學(xué)習(xí)第二十頁,共二十五頁,編輯于2023年,星期三基于RBF網(wǎng)絡(luò)的語音識別原理圖第二十一頁,共二十五頁,編輯于2023年,星期三第一步:提取特征第二步:確定網(wǎng)絡(luò)結(jié)構(gòu)第三步:確定隱函數(shù)中心(聚類方法)第四步:確定半徑(根據(jù)公式)第五步:訓(xùn)練隱層到輸出層的連接權(quán)值(最小二乘法)第六步:對測試集單詞進行識別實驗步驟第二十二頁,共二十五頁,編輯于2023年,星期三K均值聚類算法步驟(LBG算法):
即按照一定的失真測度,對訓(xùn)練數(shù)據(jù)進行分類,從而把訓(xùn)練數(shù)據(jù)在多維空間中劃分成一個個以形心(碼字)為中心的胞腔。這個過程需要一個由大量的矢量構(gòu)成的樣本集,經(jīng)過統(tǒng)計實驗后確定出各個胞腔的中心矢量。下面是LBG算法的具體步驟:第二十三頁,共二十五頁,編輯于2023年,星期三
①初始化:采用某種適當(dāng)?shù)姆椒ㄟx一個包含N個碼字的初始碼本矢量。②分類:按最近鄰(NearestNeighbor)準則,以碼字為中心,將訓(xùn)練矢量集中的所有矢量分到各個胞腔中,形成N個區(qū)域。③產(chǎn)生新碼本:重新計算每個區(qū)域新的中心,并以此作為該區(qū)域的新碼字。計算所有訓(xùn)練矢量的總失真度。④結(jié)束判斷:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 食品生產(chǎn)質(zhì)量安全免責(zé)合同書
- 2025年高校食堂外包食品安全與營養(yǎng)管理合同3篇
- 二零二四學(xué)生校園安全教育與培訓(xùn)合同3篇
- 二零二五年度旅游行業(yè)管理人員聘用合同范本
- 2025年度租賃房產(chǎn)押金退還授權(quán)委托合同
- 二零二五年度草原承包合同:草原旅游基礎(chǔ)設(shè)施建設(shè)項目合同
- 2025年度家居建材銷售合同提成細則
- 2025年度高級環(huán)境工程師聘用與服務(wù)合同
- 2025年度旅游項目資金監(jiān)管與運營服務(wù)合同
- 二零二五年度公寓房租賃與商務(wù)服務(wù)合同
- 電能質(zhì)量與安全課件
- 醫(yī)藥營銷團隊建設(shè)與管理
- 工程項目設(shè)計工作管理方案及設(shè)計優(yōu)化措施
- 二年級數(shù)學(xué)上冊口算題100道(全冊完整)
- 圍場滿族蒙古族自治縣金匯螢石開采有限公司三義號螢石礦礦山地質(zhì)環(huán)境保護與土地復(fù)墾方案
- 小升初幼升小擇校畢業(yè)升學(xué)兒童簡歷
- 資金支付審批單
- 第一單元(金融知識進課堂)課件
- 新概念二冊課文電子版
- 介入導(dǎo)管室護士述職報告(5篇)
- 零件的工藝分析及毛坯選擇
評論
0/150
提交評論