深度學(xué)習(xí)案例教程 課件 第9章 語(yǔ)音識(shí)別_第1頁(yè)
深度學(xué)習(xí)案例教程 課件 第9章 語(yǔ)音識(shí)別_第2頁(yè)
深度學(xué)習(xí)案例教程 課件 第9章 語(yǔ)音識(shí)別_第3頁(yè)
深度學(xué)習(xí)案例教程 課件 第9章 語(yǔ)音識(shí)別_第4頁(yè)
深度學(xué)習(xí)案例教程 課件 第9章 語(yǔ)音識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語(yǔ)音識(shí)別原理以及模型第一節(jié)

語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別,也被稱為自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR),其目標(biāo)是將人類的語(yǔ)音轉(zhuǎn)換為文字。從語(yǔ)音識(shí)別的應(yīng)用方式來(lái)看,語(yǔ)音應(yīng)用經(jīng)常被分為離線語(yǔ)音識(shí)別和實(shí)時(shí)在線語(yǔ)音識(shí)別兩大類。語(yǔ)音識(shí)別介紹第一節(jié)

語(yǔ)音識(shí)別原理聲音的產(chǎn)生第一節(jié)

語(yǔ)音識(shí)別原理Phoneme(音位,音素)Grapheme(字位)Word(詞)Morpheme(詞素)bytes語(yǔ)音識(shí)別的基本單位第一節(jié)

語(yǔ)音識(shí)別原理語(yǔ)音特征處理第一節(jié)

語(yǔ)音識(shí)別原理預(yù)處理話音檢測(cè)與斷句音頻場(chǎng)景分析識(shí)別引擎(語(yǔ)音識(shí)別的模型)工程調(diào)度&異常處理語(yǔ)音識(shí)別的流程第二節(jié)

語(yǔ)音識(shí)別發(fā)展歷史20世紀(jì)50年代。三個(gè)BellLabs的研究人員開(kāi)發(fā)了一個(gè)叫做"Audrey"的系統(tǒng)用來(lái)識(shí)別數(shù)字,并且只能識(shí)別固定的某個(gè)人說(shuō)的數(shù)字.語(yǔ)音識(shí)別歷史演變第二節(jié)

語(yǔ)音識(shí)別發(fā)展歷史20世紀(jì)80年代HMM開(kāi)始嶄露頭角一直到21世紀(jì),HMM在語(yǔ)音識(shí)別領(lǐng)域一直獨(dú)占鰲頭.語(yǔ)音識(shí)別歷史演變第二節(jié)

語(yǔ)音識(shí)別發(fā)展歷史1997年:長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM。2007年:由CTC訓(xùn)練的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)開(kāi)始在特定的應(yīng)用上超過(guò)傳統(tǒng)的語(yǔ)音識(shí)別方法。2015年:谷歌的語(yǔ)音識(shí)別聲稱通過(guò)CTC訓(xùn)練的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),使得自己的語(yǔ)音識(shí)別性能戲劇性的上升了49%。2017年:微軟研究者在電話錄音語(yǔ)音識(shí)別任務(wù)中,到達(dá)了人類歷史的里程碑。語(yǔ)音識(shí)別歷史演變通常,

語(yǔ)音識(shí)別過(guò)程大致分為兩步:

第1步,

首先對(duì)語(yǔ)音信號(hào)提取特定的聲學(xué)特征,

然后對(duì)聲學(xué)特征進(jìn)行“學(xué)習(xí)”或者說(shuō)是“訓(xùn)練”。第2步是“識(shí)別”,

根據(jù)識(shí)別系統(tǒng)的類型選擇能夠滿足要求的識(shí)別方法,

采用語(yǔ)音分析方法分析出這種識(shí)別方法所要求的語(yǔ)音特征參數(shù),

按照一定的準(zhǔn)則和測(cè)度與系統(tǒng)模型進(jìn)行比較,

通過(guò)判決得出識(shí)別結(jié)果.語(yǔ)音識(shí)別過(guò)程第三節(jié)

傳統(tǒng)語(yǔ)音識(shí)別方法語(yǔ)音識(shí)別過(guò)程第三節(jié)

傳統(tǒng)語(yǔ)音識(shí)別方法通常,

在進(jìn)行語(yǔ)音識(shí)別之前,

需要根據(jù)語(yǔ)音信號(hào)波形提取有效的聲學(xué)特征.語(yǔ)音識(shí)別特征提取第三節(jié)

傳統(tǒng)語(yǔ)音識(shí)別方法語(yǔ)音識(shí)別特征提取第三節(jié)

傳統(tǒng)語(yǔ)音識(shí)別方法聲學(xué)模型在語(yǔ)音特征與音素之間建立映射關(guān)系,

即給定模型后產(chǎn)生語(yǔ)音波形的概率,

其輸入是語(yǔ)音信號(hào)經(jīng)過(guò)特征提取后得到的特征向量序列。聲學(xué)模型整個(gè)語(yǔ)音識(shí)別系統(tǒng)中最重要的部分,

只有學(xué)好了發(fā)音,

才能順利和發(fā)音詞典、語(yǔ)言模型相結(jié)合得到較好的識(shí)別性能.通常使用GMM-HMM來(lái)作為聲學(xué)模型。語(yǔ)音識(shí)別聲學(xué)模型第三節(jié)

傳統(tǒng)語(yǔ)音識(shí)別方法在深度學(xué)習(xí)中,對(duì)語(yǔ)音識(shí)別的處理一般使用seq2seq結(jié)構(gòu)的模型,而seq2seq結(jié)構(gòu)有LAS、CTC、RNN-T、MoChA等。深度學(xué)習(xí)語(yǔ)音識(shí)別模型第四節(jié)

深度學(xué)習(xí)語(yǔ)音識(shí)別方法LAS模型是一個(gè)seq2seq的結(jié)構(gòu)的模型。由三部分組成:1、Listen(encoder)部分可以使用多種網(wǎng)絡(luò)結(jié)構(gòu),主要作用是進(jìn)行注意力機(jī)制和過(guò)濾噪聲等工作。2、Attend就是一般的Attention結(jié)構(gòu),由encoder的輸出和decoder(RNN)上一時(shí)刻的輸入變換后經(jīng)過(guò)點(diǎn)乘或相加得到。3、Spell(decoder)一般是RNN(LSTM)結(jié)構(gòu),這部分可以認(rèn)為是模型中的LanguageModel。LAS模型第四節(jié)

深度學(xué)習(xí)語(yǔ)音識(shí)別方法1.encoder端將輸入數(shù)據(jù)轉(zhuǎn)化為高維隱層嵌入2.Attention過(guò)程:將decoder上一時(shí)刻的輸出和encoder的每個(gè)輸出分別做match得到每個(gè)encoder輸出的權(quán)重參數(shù),然后對(duì)權(quán)重參數(shù)進(jìn)行softmax,最后將權(quán)重參數(shù)作為權(quán)重對(duì)隱藏層參數(shù)進(jìn)行加權(quán)求和得到語(yǔ)義變量。3.將上一步的語(yǔ)義變量作為decoder(RNN)當(dāng)前時(shí)刻的輸入傳入decoder,并將decoder結(jié)果作為L(zhǎng)AS當(dāng)前時(shí)刻的輸出返回。LAS模型過(guò)程第四節(jié)

深度學(xué)習(xí)語(yǔ)音識(shí)別方法在LAS中,常用以下技術(shù)來(lái)優(yōu)化模型性能1.downsampling(下采樣)2.Beamsearch3.AttentionLAS模型關(guān)鍵技術(shù)第四節(jié)

深度學(xué)習(xí)語(yǔ)音識(shí)別方法CTC(ConnectionistTemporalClassification)模型,主要用來(lái)解決輸入序列和輸出序列難以一一對(duì)應(yīng)的問(wèn)題,和LAS相比,CTC能夠?qū)崿F(xiàn)實(shí)時(shí)識(shí)別的功能。CTC模型第四節(jié)

深度學(xué)習(xí)語(yǔ)音識(shí)別方法CTC模型的構(gòu)造方式如下:首先,模型先通過(guò)一個(gè)encoder結(jié)構(gòu)將輸入的token轉(zhuǎn)化為一個(gè)高維隱層嵌入,然后對(duì)于每一個(gè)token的輸出使用一個(gè)分類器(全連接網(wǎng)絡(luò))進(jìn)行分類,最終的到每個(gè)token對(duì)應(yīng)的預(yù)測(cè)結(jié)果。CTC模型原理第四節(jié)

深度學(xué)習(xí)語(yǔ)音識(shí)別方法RNN-T網(wǎng)絡(luò)在RNA網(wǎng)絡(luò)的基礎(chǔ)上使每個(gè)輸入token可以連續(xù)輸出多個(gè)結(jié)果,當(dāng)每個(gè)token輸出符號(hào)時(shí),RNN網(wǎng)絡(luò)再開(kāi)始接受下一個(gè)token。RNN-T模型第四節(jié)

深度學(xué)習(xí)語(yǔ)音識(shí)別方法(MoCha)MonotonicChunkwiseAttention。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論