版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)字語音處理課程論文指導(dǎo)老師:班級(jí):姓名:學(xué)號(hào):語音識(shí)別語音識(shí)別技術(shù)涉及到好幾個(gè)領(lǐng)域,其中有:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等。聲學(xué)特征
聲學(xué)特征的提取與選擇是語音識(shí)別的一個(gè)重要環(huán)節(jié)。聲學(xué)特征的提取既是一個(gè)信息大幅度壓縮的過程,也是一個(gè)信號(hào)解卷過程,目的是使模式劃分器能更好地劃分。
由于語音信號(hào)的時(shí)變特性,特征提取必須在一小段語音信號(hào)上進(jìn)行,也即進(jìn)行短時(shí)分析。這一段被認(rèn)為是平穩(wěn)的分析區(qū)間稱之為幀,幀與幀之間的偏移通常取幀長的1/2或1/3。通常要對(duì)信號(hào)進(jìn)行預(yù)加重以提升高頻,對(duì)信號(hào)加窗以避免短時(shí)語音段邊緣的影響。
下面介紹常用的一些聲學(xué)特征。
線性預(yù)測(cè)系數(shù)LPC:線性預(yù)測(cè)分析從人的發(fā)聲機(jī)理入手,通過對(duì)聲道的短管級(jí)聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式,從而n時(shí)刻的信號(hào)可以用前若干時(shí)刻的信號(hào)的線性組合來估計(jì)。通過使實(shí)際語音的采樣值和線性預(yù)測(cè)采樣值之間達(dá)到均方差最小LMS,即可得到線性預(yù)測(cè)系數(shù)LPC。對(duì)LPC的計(jì)算方法有自相關(guān)法(德賓Durbin法)、協(xié)方差法、格型法等等。計(jì)算上的快速有效保證了這一聲學(xué)特征的廣泛使用。與LPC這種預(yù)測(cè)參數(shù)模型類似的聲學(xué)特征還有線譜對(duì)LSP、反射系數(shù)等等。
倒譜系數(shù)CEP:利用同態(tài)處理方法,對(duì)語音信號(hào)求離散傅立葉變換DFT后取對(duì)數(shù),再求反變換iDFT就可得到倒譜系數(shù)。對(duì)LPC倒譜(LPCCEP),在獲得濾波器的線性預(yù)測(cè)系數(shù)后,可以用一個(gè)遞推公式計(jì)算得出。實(shí)驗(yàn)表明,使用倒譜可以提高特征參數(shù)的穩(wěn)定性。
Mel倒譜系數(shù)MFCC和感知線性預(yù)測(cè)PLP:不同于LPC等通過對(duì)人的發(fā)聲機(jī)理的研究而得到的聲學(xué)特征,Mel倒譜系數(shù)MFCC和感知線性預(yù)測(cè)PLP是受人的聽覺系統(tǒng)研究成果推動(dòng)而導(dǎo)出的聲學(xué)特征。對(duì)人的聽覺機(jī)理的研究發(fā)現(xiàn),當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí),人只能聽到一個(gè)音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界,當(dāng)兩個(gè)音調(diào)的頻率差小于臨界帶寬時(shí),人就會(huì)把兩個(gè)音調(diào)聽成一個(gè),這稱之為屏蔽效應(yīng)。Mel刻度是對(duì)這一臨界帶寬的度量方法之一。
MFCC的計(jì)算首先用FFT將時(shí)域信號(hào)轉(zhuǎn)化成頻域,之后對(duì)其對(duì)數(shù)能量譜用依照Mel刻度分布的三角濾波器組進(jìn)行卷積,最后對(duì)各個(gè)濾波器的輸出構(gòu)成的向量進(jìn)行離散余弦變換DCT,取前N個(gè)系數(shù)。PLP仍用德賓法去計(jì)算LPC參數(shù),但在計(jì)算自相關(guān)參數(shù)時(shí)用的也是對(duì)聽覺激勵(lì)的對(duì)數(shù)能量譜進(jìn)行DCT的方法。系統(tǒng)實(shí)現(xiàn)
語音識(shí)別系統(tǒng)選擇識(shí)別基元的要求是,有準(zhǔn)確的定義,能得到足夠數(shù)據(jù)進(jìn)行訓(xùn)練,具有一般性。英語通常采用上下文相關(guān)的音素建模,漢語的協(xié)同發(fā)音不如英語嚴(yán)重,可以采用音節(jié)建模。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān)。模型設(shè)計(jì)得過于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力,會(huì)使得性能急劇下降。
聽寫機(jī):大詞匯量、非特定人、連續(xù)語音識(shí)別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對(duì)每個(gè)基元用前向后向算法獲得模型參數(shù),識(shí)別時(shí),將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。針對(duì)漢語易于分割的特點(diǎn),先進(jìn)行分割再對(duì)每一段進(jìn)行解碼,是用以提高效率的一個(gè)簡化方法。
對(duì)話系統(tǒng):用于實(shí)現(xiàn)人機(jī)口語對(duì)話的系統(tǒng)稱為對(duì)話系統(tǒng)。受目前技術(shù)所限,對(duì)話系統(tǒng)往往是面向一個(gè)狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等等。其前端是一個(gè)語音識(shí)別器,識(shí)別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進(jìn)行分析獲取語義信息,再由對(duì)話管理器確定應(yīng)答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來獲取語義信息。自適應(yīng)與魯棒性
語音識(shí)別系統(tǒng)的性能受許多因素的影響,包括不同的說話人、說話方式、環(huán)境噪音、傳輸信道等等。提高系統(tǒng)魯棒性,是要提高系統(tǒng)克服這些因素影響的能力,使系統(tǒng)在不同的應(yīng)用環(huán)境、條件下性能穩(wěn)定;自適應(yīng)的目的,是根據(jù)不同的影響來源,自動(dòng)地、有針對(duì)性地對(duì)系統(tǒng)進(jìn)行調(diào)整,在使用中逐步提高性能。以下對(duì)影響系統(tǒng)性能的不同因素分別介紹解決辦法。
解決辦法按針對(duì)語音特征的方法(以下稱特征方法)和模型調(diào)整的方法(以下稱模型方法)分為兩類。前者需要尋找更好的、高魯棒性的特征參數(shù),或是在現(xiàn)有的特征參數(shù)基礎(chǔ)上,加入一些特定的處理方法。后者是利用少量的自適應(yīng)語料來修正或變換原有的說話人無關(guān)(SI)模型,從而使其成為說話人自適應(yīng)(SA)模型。
說話人自適應(yīng)的特征方法有說話人規(guī)一化和說話人子空間法,模型方法有貝葉斯方法、變換法和模型合并法。
語音系統(tǒng)中的噪聲,包括環(huán)境噪聲和錄音過程加入的電子噪聲。提高系統(tǒng)魯棒性的特征方法包括語音增強(qiáng)和尋找對(duì)噪聲干擾不敏感的特征,模型方法有并行模型組合PMC方法和在訓(xùn)練中人為加入噪聲。信道畸變包括錄音時(shí)話筒的距離、使用不同靈敏度的話筒、不同增益的前置放大和不同的濾波器設(shè)計(jì)等等。特征方法有從倒譜矢量中減去其長時(shí)平均值和RASTA濾波,模型方法有倒譜平移。小結(jié):
以上介紹了實(shí)現(xiàn)語音識(shí)別系統(tǒng)的各個(gè)方面的技術(shù)。這些技術(shù)在實(shí)際使用中達(dá)到了較好的效果,但如何克服影響語音的各種因素還需要更
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度醫(yī)院醫(yī)技人員技能提升合同4篇
- 打雜工合同范本(2篇)
- 二零二五年度農(nóng)村土地整治項(xiàng)目承包合同書4篇
- 二零二五年度充電樁充電服務(wù)補(bǔ)貼資金管理合同3篇
- 二零二五版高端鎳氫電池產(chǎn)品定制研發(fā)合同范本4篇
- 二零二五年度農(nóng)場租賃合同農(nóng)業(yè)生態(tài)修復(fù)與保護(hù)協(xié)議4篇
- 2025年度房地產(chǎn)租賃合同房屋質(zhì)量及維修責(zé)任約定4篇
- 2025年互聯(lián)網(wǎng)+內(nèi)資股東股權(quán)投資合同
- 二零二五版智能門禁系統(tǒng)與電梯聯(lián)動(dòng)工程合同3篇
- 2025年度互聯(lián)網(wǎng)企業(yè)程序員聘用合同模板
- 2024年中考語文滿分作文6篇(含題目)
- 第一節(jié)-貨幣資金資料講解
- 如何提高售后服務(wù)的快速響應(yīng)能力
- 北師大版 2024-2025學(xué)年四年級(jí)數(shù)學(xué)上冊(cè)典型例題系列第三單元:行程問題“拓展型”專項(xiàng)練習(xí)(原卷版+解析)
- 2023年譯林版英語五年級(jí)下冊(cè)Units-1-2單元測(cè)試卷-含答案
- Unit-3-Reading-and-thinking課文詳解課件-高中英語人教版必修第二冊(cè)
- 施工管理中的文檔管理方法與要求
- DL∕T 547-2020 電力系統(tǒng)光纖通信運(yùn)行管理規(guī)程
- 種子輪投資協(xié)議
- 執(zhí)行依據(jù)主文范文(通用4篇)
- 浙教版七年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)課件
評(píng)論
0/150
提交評(píng)論