版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
語(yǔ)音識(shí)別綜述第一頁(yè),共二十五頁(yè),2022年,8月28日語(yǔ)音識(shí)別的分類一、從識(shí)別單位分為以下幾類1.孤立詞語(yǔ)音識(shí)別。識(shí)別的單詞間有停頓。2.連接詞語(yǔ)音識(shí)別。在連續(xù)語(yǔ)音中識(shí)別出其包含的幾個(gè)或某幾個(gè)詞。3.連續(xù)語(yǔ)音識(shí)別。識(shí)別的單詞之間沒(méi)有停頓。4.語(yǔ)音理解。在語(yǔ)音識(shí)別的基礎(chǔ)上,用語(yǔ)言學(xué)知識(shí)推斷出語(yǔ)音的含義。二、從識(shí)別的詞匯量可以分為小詞匯(10~50個(gè))、中詞匯(50~200個(gè))、大詞匯(200個(gè)以上)等三類。三、按講話人范圍可以分為特定講話人和非特定講話人兩類。不僅僅這三種分類方法,我們還可以從識(shí)別方法、識(shí)別環(huán)境、說(shuō)話人類型等方面進(jìn)行分類。 第二頁(yè),共二十五頁(yè),2022年,8月28日語(yǔ)音識(shí)別技術(shù)的發(fā)展方向一、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽(tīng)寫(xiě),以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語(yǔ)音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計(jì)算機(jī)平臺(tái)上實(shí)現(xiàn)的。二、小型化、便攜式語(yǔ)音產(chǎn)品的應(yīng)用,如無(wú)線手機(jī)上的撥號(hào)、汽車(chē)設(shè)備的語(yǔ)音控制、智能玩具、家電遙控等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都是使用專門(mén)的硬件系統(tǒng)實(shí)現(xiàn)。語(yǔ)音識(shí)別與語(yǔ)言學(xué)和人工智能有密切聯(lián)系。語(yǔ)音識(shí)別的重大進(jìn)展可能并不是來(lái)自分析、自適應(yīng)模式匹配及計(jì)算機(jī)運(yùn)算等方面的進(jìn)一步研究,而是來(lái)自語(yǔ)言感知、語(yǔ)言產(chǎn)生、語(yǔ)音學(xué)、語(yǔ)言學(xué)及心理學(xué)的研究。第三頁(yè),共二十五頁(yè),2022年,8月28日語(yǔ)音識(shí)別的原理第四頁(yè),共二十五頁(yè),2022年,8月28日預(yù)處理
待識(shí)別的語(yǔ)音經(jīng)過(guò)話筒變成電信號(hào)后加在識(shí)別系統(tǒng)的輸入端,首先要經(jīng)過(guò)預(yù)處理。預(yù)處理包括反混疊失真濾波、預(yù)加重和端點(diǎn)檢測(cè)。經(jīng)過(guò)預(yù)處理后,按照一定的特征提取方法產(chǎn)生語(yǔ)音特征參數(shù),這些特征參數(shù)的時(shí)間序列便構(gòu)成了待識(shí)別語(yǔ)音模式,將其與已經(jīng)存儲(chǔ)在的參考模式逐一進(jìn)行比較(模式匹配),最佳(由判決規(guī)則確定)的參考模式便是識(shí)別結(jié)果。參考模式是在系統(tǒng)使用前獲得并存儲(chǔ)起來(lái)的,為此,要輸入一系列已知語(yǔ)音信號(hào),提取它們的特征作為參考模式,這一過(guò)程稱為訓(xùn)練。語(yǔ)音識(shí)別所遇的難題是搜索最佳識(shí)別結(jié)果和參數(shù)訓(xùn)練。目前,語(yǔ)音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)、隱馬爾科夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)。第五頁(yè),共二十五頁(yè),2022年,8月28日特征提取
特征提取就是對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去除語(yǔ)音識(shí)別無(wú)關(guān)緊要的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息。特征提取一般要解決兩個(gè)問(wèn)題,一個(gè)是從語(yǔ)音信號(hào)中提取有代表性的合適的特征參數(shù),另一個(gè)是進(jìn)行適當(dāng)?shù)臄?shù)據(jù)壓縮。目前,語(yǔ)音識(shí)別技術(shù)中應(yīng)用最流行的特征參數(shù)是基于人的聲道模型和聽(tīng)覺(jué)機(jī)理的LPCC,LPCMCC,MFCC和ZCPA。 語(yǔ)音特征的參數(shù)是分幀提取的,每幀特征參數(shù)一般構(gòu)成一個(gè)矢量序列。語(yǔ)音信號(hào)中提取出來(lái)的矢量序列經(jīng)過(guò)數(shù)據(jù)壓縮后便成為語(yǔ)音的模板,顯然,特征的選取對(duì)識(shí)別效果至關(guān)重要,選擇的標(biāo)準(zhǔn)應(yīng)盡量滿足一下兩個(gè)要求: (1)能有效的代表語(yǔ)音特征,包括聲道特征和聽(tīng)覺(jué)特征,具有很好的區(qū)分性。 (2)特征參數(shù)要計(jì)算方便,在保持高識(shí)別率的情況下。最好有高效的計(jì)算方法。 第六頁(yè),共二十五頁(yè),2022年,8月28日特征提取的方法一、線性預(yù)測(cè)系數(shù)(LPC)二、LPC倒譜系數(shù)(LPCC)三、Mel頻率倒譜系數(shù)(MFCC)四、LPC梅爾倒譜系數(shù)(LPCC)五、zcpa特征第七頁(yè),共二十五頁(yè),2022年,8月28日LPC倒譜
依據(jù)語(yǔ)音信號(hào)產(chǎn)生的生理和數(shù)學(xué)模型可知,語(yǔ)音信號(hào)是音源激勵(lì)分量與聲道沖激響應(yīng)、輻射模型三者相卷積的產(chǎn)物。因此通過(guò)語(yǔ)音信號(hào)的倒譜分析可有效地分離激勵(lì)成分與聲道成分。計(jì)算語(yǔ)音信號(hào)的倒譜通常有兩種方法:其一是先對(duì)語(yǔ)音信號(hào)進(jìn)行短時(shí)付里葉變換,取其模的對(duì)數(shù)值,再進(jìn)行反變換,得其倒譜。聲道信息可通過(guò)低時(shí)窗取出。 其二是依據(jù)AR模型對(duì)LPC參數(shù)進(jìn)行遞推,形成LPC倒譜,LPC倒譜(LPCC)由于利用了線性預(yù)測(cè)中聲道系統(tǒng)函數(shù)的最小相位特性,避免了復(fù)雜的相位卷積和復(fù)對(duì)數(shù)計(jì)算;且LPC倒譜的運(yùn)算量?jī)H是用FFT求倒譜時(shí)運(yùn)算量的一半,適于實(shí)時(shí)應(yīng)用,它的遞推式如下:第八頁(yè),共二十五頁(yè),2022年,8月28日式中a1…ap為p階LPC的特征向量。第九頁(yè),共二十五頁(yè),2022年,8月28日識(shí)別方法介紹一般來(lái)說(shuō),語(yǔ)音識(shí)別的方法有四種:(1)基于聲道模型和語(yǔ)音知識(shí)的方法(2)模式匹配方法(3)統(tǒng)計(jì)型模型方法(4)人工神經(jīng)網(wǎng)絡(luò)方法第十頁(yè),共二十五頁(yè),2022年,8月28日
基于聲道模型和語(yǔ)音知識(shí)的方法起步較早,在語(yǔ)音識(shí)別技術(shù)提出的開(kāi)始,就有了這方面的研究,但由于其模型及語(yǔ)音知識(shí)過(guò)于復(fù)雜,現(xiàn)階段沒(méi)有達(dá)到實(shí)用的階段。 模式匹配常用的技術(shù)有動(dòng)態(tài)時(shí)間規(guī)整(DTW)和矢量量化(VQ);統(tǒng)計(jì)型模型方法常見(jiàn)的是隱馬爾可夫模型;語(yǔ)音識(shí)別常用的神經(jīng)網(wǎng)絡(luò)有反向傳播(BP)神經(jīng)網(wǎng)絡(luò),徑向基函數(shù)網(wǎng)絡(luò)(RBF)及新興的小波網(wǎng)絡(luò)(這兩年很少有人用)。第十一頁(yè),共二十五頁(yè),2022年,8月28日動(dòng)態(tài)時(shí)間規(guī)整(DTW)
動(dòng)態(tài)時(shí)間彎折是一種效果非常好的非線性時(shí)間規(guī)整模板匹配法。例如對(duì)于孤立詞識(shí)別系統(tǒng),將每個(gè)詞重復(fù)多遍發(fā)音,直到得到一個(gè)一致性較好的特征矢量序列,從而形成一個(gè)模板,在識(shí)別時(shí),待識(shí)別矢量序列用DTW算法分別求得與每個(gè)模板的累計(jì)失真,然后判別它屬于哪一類。第十二頁(yè),共二十五頁(yè),2022年,8月28日矢量量化(VQ) DTW方法是針對(duì)時(shí)間對(duì)準(zhǔn)問(wèn)題的,我們希望不考慮時(shí)間順序任意指定時(shí)間對(duì)準(zhǔn)點(diǎn),這意味著沒(méi)有任何時(shí)間歸一化的處理。矢量量化就時(shí)完全忽略時(shí)間信息的一種方法。對(duì)于孤立詞,首先為詞會(huì)表中的每個(gè)但詞建立一個(gè)碼本,這些碼本是分離的,它們即為每個(gè)單詞的模板,識(shí)別過(guò)程指不過(guò)是搜尋譽(yù)為指單詞有最佳擬合的碼本問(wèn)題,即每個(gè)輸入矢量必須和每個(gè)碼本所有碼字進(jìn)行比較。第十三頁(yè),共二十五頁(yè),2022年,8月28日神經(jīng)網(wǎng)絡(luò)
關(guān)于神經(jīng)網(wǎng)絡(luò)在語(yǔ)音信號(hào)處理中的應(yīng)用研究十分活躍,其中以在語(yǔ)音識(shí)別方面的應(yīng)用最令人矚目。目前,主要是從聽(tīng)覺(jué)神經(jīng)模型中得到啟發(fā),以便構(gòu)成一些具有類似能力的人工系統(tǒng),使它們?cè)诮鉀Q語(yǔ)音信號(hào)處理(特別是識(shí)別)問(wèn)題時(shí)能得到較好的性能。研究神經(jīng)網(wǎng)絡(luò)以探索人的聽(tīng)覺(jué)神經(jīng)機(jī)理,改進(jìn)現(xiàn)有語(yǔ)音語(yǔ)音識(shí)別系統(tǒng)的性能,是當(dāng)前語(yǔ)音識(shí)別研究的一個(gè)重要方向。在模式識(shí)別的應(yīng)用中,多采用BP網(wǎng)和RBF網(wǎng)等前向神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。第十四頁(yè),共二十五頁(yè),2022年,8月28日RBF網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)第十五頁(yè),共二十五頁(yè),2022年,8月28日RBF神經(jīng)網(wǎng)絡(luò)的特點(diǎn)
徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱RBFNN)是一種三層前向神經(jīng)網(wǎng)絡(luò)。它的隱層激活函數(shù)是一種徑向?qū)ΨQ的核函數(shù)。當(dāng)輸入樣本傳播到隱單元空間時(shí),這組核函數(shù)構(gòu)成了輸入樣本的一組“基”。因此,這種神經(jīng)網(wǎng)絡(luò)稱為徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)。RBFNN具有以下特點(diǎn):●是一種靜態(tài)網(wǎng)絡(luò);●與函數(shù)逼近理論相吻合;●具有唯一最佳逼近點(diǎn);●網(wǎng)絡(luò)連接權(quán)值與輸出呈線性關(guān)系。
徑向基網(wǎng)絡(luò)與一般的三層BP網(wǎng)結(jié)構(gòu)很相似,區(qū)別有兩點(diǎn):
1.輸入層到隱層之間權(quán)值固定為1,只有隱層到輸出層之間的全值可調(diào)節(jié)。
2.隱層神經(jīng)元的激活函數(shù)不同,它用一種具有局部作用性質(zhì)的函數(shù)代替了BP網(wǎng)常用的Sigmoid函數(shù)。RBF網(wǎng)最常用的激活函數(shù)是高斯函數(shù)。第十六頁(yè),共二十五頁(yè),2022年,8月28日
從上面的分析可知,RBF網(wǎng)絡(luò)由兩部分組成(設(shè)輸入維數(shù)為p,隱單元數(shù)為m,輸出維數(shù)為q):●第一部分:從輸入空間到隱含層空間的非線性變換層第i個(gè)隱單元輸出為:第十七頁(yè),共二十五頁(yè),2022年,8月28日
其中:g(.)為隱單元的變換函數(shù)(即徑向基函數(shù)),一般取為Gauss函數(shù),即
x
為p維的輸入向量,即
為第i個(gè)非線性變化單元的“中心”向量。
為非線性變化單元的寬度。第十八頁(yè),共二十五頁(yè),2022年,8月28日●第二部分:從隱含層空間到輸出層空間的線性合并層第j個(gè)輸出其中:為第i個(gè)隱單元與第j個(gè)輸出之間的連接權(quán)值;y為q維的輸出向量,即。
第十九頁(yè),共二十五頁(yè),2022年,8月28日
在RBF網(wǎng)絡(luò)中可以調(diào)整的參數(shù)有:隱節(jié)點(diǎn)激勵(lì)函數(shù),隱節(jié)點(diǎn)中心和半徑,隱層節(jié)點(diǎn)個(gè)數(shù)和隱層至輸出的連接權(quán)值。RBF網(wǎng)絡(luò)的學(xué)習(xí)方法有兩種:
1.參數(shù)同時(shí)訓(xùn)練。
2.兩階段訓(xùn)練?!舸_定每個(gè)RBF隱單元的中心和半徑;◆調(diào)節(jié)權(quán)值矩陣(線性最小二乘法)。
RBF網(wǎng)絡(luò)的學(xué)習(xí)第二十頁(yè),共二十五頁(yè),2022年,8月28日基于RBF網(wǎng)絡(luò)的語(yǔ)音識(shí)別原理圖第二十一頁(yè),共二十五頁(yè),2022年,8月28日第一步:提取特征第二步:確定網(wǎng)絡(luò)結(jié)構(gòu)第三步:確定隱函數(shù)中心(聚類方法)第四步:確定半徑(根據(jù)公式)第五步:訓(xùn)練隱層到輸出層的連接權(quán)值(最小二乘法)第六步:對(duì)測(cè)試集單詞進(jìn)行識(shí)別實(shí)驗(yàn)步驟第二十二頁(yè),共二十五頁(yè),2022年,8月28日K均值聚類算法步驟(LBG算法):
即按照一定的失真測(cè)度,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類,從而把訓(xùn)練數(shù)據(jù)在多維空間中劃分成一個(gè)個(gè)以形心(碼字)為中心的胞腔。這個(gè)過(guò)程需要一個(gè)由大量的矢量構(gòu)成的樣本集,經(jīng)過(guò)統(tǒng)計(jì)實(shí)驗(yàn)后確定出各個(gè)胞腔的中心矢量。下面是LBG算法的具體步驟:第二十三頁(yè),共二十五頁(yè),2022年,8月28日
①初始化:采用某種適當(dāng)?shù)姆椒ㄟx一個(gè)包含N個(gè)碼字的初始碼本矢量。②分類:按最近鄰(NearestNeighbor)準(zhǔn)則,以碼字為中心,將訓(xùn)練矢量集中的所有矢量分到各個(gè)胞腔中,形成N個(gè)區(qū)域。③產(chǎn)生新碼本:重新計(jì)算每個(gè)區(qū)域新的中心,并以此作為該區(qū)域的新碼字。計(jì)算所有訓(xùn)練矢量的總失真度。④結(jié)束判斷
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流倉(cāng)庫(kù)經(jīng)理年度述職報(bào)告
- 智慧教室裝修方案
- 從業(yè)人員安全生產(chǎn)教育培訓(xùn)
- 孕期糖尿病飲食和護(hù)理
- 老年人糖尿病病人的護(hù)理
- 齲齒病的發(fā)展過(guò)程圖解
- 2.3.1物質(zhì)的量的單位-摩爾 課件高一上學(xué)期化學(xué)人教版(2019)必修第一冊(cè)
- 吉林省2024七年級(jí)數(shù)學(xué)上冊(cè)第1章有理數(shù)1.10有理數(shù)的除法課件新版華東師大版
- 吉林省2024七年級(jí)數(shù)學(xué)上冊(cè)第1章有理數(shù)全章整合與提升課件新版華東師大版
- 深度學(xué)習(xí)及自動(dòng)駕駛應(yīng)用 課件 第9、10章 生成對(duì)抗網(wǎng)絡(luò)及自動(dòng)駕駛應(yīng)用、強(qiáng)化學(xué)習(xí)理論及自動(dòng)駕駛應(yīng)用實(shí)踐
- 仿制藥一致性與BE試驗(yàn)
- 絕交協(xié)議書(shū)模板
- 管理經(jīng)濟(jì)學(xué)課后答案
- 《波特價(jià)值鏈模型》課件
- 學(xué)術(shù)規(guī)范與學(xué)術(shù)道德課件
- 中考數(shù)學(xué)復(fù)習(xí)《圓》專題訓(xùn)練-附帶有答案
- 數(shù)據(jù)倉(cāng)庫(kù)與AI應(yīng)用整合
- 2023年版勞動(dòng)合同法全文
- 《交換機(jī)基礎(chǔ)原理》培訓(xùn)課件
- 人教版-初中-道德與法治-《共圓中國(guó)夢(mèng)》說(shuō)課稿
- 短視頻的拍攝與剪輯
評(píng)論
0/150
提交評(píng)論