基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練

上傳人：眾*** IP屬地：上海上傳時間：2022-09-02 格式：DOC 頁數(shù)：5 大?。?8.50KB 積分：18 舉報 版權(quán)申訴

基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練_第2頁

基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練_第3頁

基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練_第4頁

基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練_第5頁

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、基于非均勻MCE準(zhǔn)那么的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練基于非均勻E準(zhǔn)那么的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練自2022年以來，深度學(xué)習(xí)已經(jīng)成為機器學(xué)習(xí)的一個重點研究領(lǐng)域，而且現(xiàn)已在許多方面獲得了卓越進展。而在語音識別領(lǐng)域，基于深度學(xué)習(xí)的方法也隨即應(yīng)用而生，特別是在聲學(xué)建模上，深度神經(jīng)網(wǎng)絡(luò)DeepNeuralNetrk，DNN已經(jīng)可以替代高斯混合模型Gaussianixturedel，G，并和隱馬爾科夫模型Hiddenarkvdel，H結(jié)合而推出了DNN-H混合模型，在實際應(yīng)用中獲得了很高的識別率1。當(dāng)前的關(guān)鍵詞檢測Spkenterdetetin，STD系統(tǒng)通常是利用大詞匯量連續(xù)語音識別

2、器largevabularyntinuusspeehregnitin，LVSR來對搜索語音解碼產(chǎn)生關(guān)鍵詞假設(shè)，再通過將輸入語音轉(zhuǎn)換為文本形式；基于此，關(guān)鍵詞檢測系統(tǒng)就可以利用文本搜索的一些技術(shù)，但其與文本搜索不同的那么是關(guān)鍵詞檢測多會利用lattie來表示語音識別結(jié)果2-3。在語音識別中，常常都是采用不同的區(qū)分性訓(xùn)練準(zhǔn)那么來減小語音識別的詞錯誤率rdErrrRate，ER，著名的區(qū)分性訓(xùn)練準(zhǔn)那么主要有EiniulassifiatinErrr4、IaxiuutualInfratin5、PEiniuPhneErrr6和EiniurdErrr6。在關(guān)鍵詞檢測任務(wù)中，關(guān)注的重點只是預(yù)定義的關(guān)鍵詞是否被

3、檢測到。至于與目的關(guān)鍵詞無關(guān)的詞，針對其所獲的檢測結(jié)果卻并不重要。Fu等人提出利用非均勻E準(zhǔn)那么，并開展了運用至語音識別中的嘗試7-8。eng等人針對傳統(tǒng)G-H模型利用非均勻E準(zhǔn)那么來推進關(guān)鍵詞檢測的研究，也就是通過在聲學(xué)建模階段利用非均勻E準(zhǔn)那么來進展區(qū)分性訓(xùn)練，進步了關(guān)鍵詞檢測系統(tǒng)的性能9。研究表本文由論文聯(lián)盟.Ll.搜集整理明，區(qū)分性訓(xùn)練可以改善DNN系統(tǒng)的性能10。hen等人在非均勻準(zhǔn)那么的根底上，利用基于keyrd-bstedsBRstate-leveliniuBayesrisk準(zhǔn)那么來訓(xùn)練關(guān)鍵詞檢測中的DNN-H模型，同時再通過在聲學(xué)模型訓(xùn)練階段對定義的關(guān)鍵詞進展加重來進步模型對關(guān)

4、鍵詞的建模才能，結(jié)果即獲得了ATVAtualTerEightedValue1.7%-6.1%的提升11。在此，立基于對傳統(tǒng)G-H模型之上，相較于非均勻sBR準(zhǔn)那么而言，非均勻E準(zhǔn)那么可以利用AdaBst來調(diào)整關(guān)鍵詞權(quán)重系數(shù)，而非均勻sBR準(zhǔn)那么的權(quán)重系數(shù)卻是固定的，因此非均勻E準(zhǔn)那么要比非均勻sBR準(zhǔn)那么獲得更佳效果12。從這一結(jié)論出發(fā)，本文即將文獻9中所提出的非均勻E準(zhǔn)那么引入到關(guān)鍵詞檢測的DNN聲學(xué)建模階段，在DNN的參數(shù)調(diào)整過程中，通過對關(guān)鍵詞進展一定程度的側(cè)重來進步DNN-H模型對關(guān)鍵詞的建模才能。1基于非均勻E準(zhǔn)那么的關(guān)鍵詞DNN聲學(xué)模型訓(xùn)練1.1DNN-H聲學(xué)模型DNN-H模型利用

5、DNN替代G提供LVSR中H狀態(tài)的后驗概率。特別的，表示語句r時刻t的觀測變量，DNN對H狀態(tài)s的輸出可以通過sftax激活函數(shù)來計算：1其中，表示狀態(tài)s對應(yīng)的輸出層的激活值，識別器通常利用偽對數(shù)似然來計算后驗概率：2式中，表示從訓(xùn)練數(shù)據(jù)中計算得到的狀態(tài)s的先驗概率。網(wǎng)絡(luò)訓(xùn)練可以通過利用反向傳播算法來優(yōu)化給定的目的函數(shù)而獲得實現(xiàn)。更經(jīng)常地，DNN-H聲學(xué)模型主要利用穿插熵rss-entrpy作為目的函數(shù)，優(yōu)化那么主要利用隨機梯度下降方法來進展處理和操作展開。1.2基于E準(zhǔn)那么的區(qū)分性訓(xùn)練區(qū)分性訓(xùn)練中，E訓(xùn)練準(zhǔn)那么是常用的一種。該準(zhǔn)那么以最小化經(jīng)歷錯誤率為目的4，在語音識別中，令Xrr=1，R為

6、訓(xùn)練集中的R個句子，r為句子Xr所對應(yīng)的標(biāo)注，是特定的假設(shè)空間，對某個假設(shè)的判別函數(shù)可以定義為：3其中，和分別表示聲學(xué)模型和語言模型得分，表示聲學(xué)模型因子，誤分類度量通常采用：4誤分類度量的符號反映了給定聲學(xué)模型參數(shù)，句子的分類正確或者錯誤程度。經(jīng)過對上式運用sigid函數(shù)進展平滑，目的損失函數(shù)可以表示為：5其中，表示sigid函數(shù)，目的函數(shù)表示針對訓(xùn)練集的經(jīng)歷損失。1.3關(guān)鍵詞檢測的非均勻E準(zhǔn)那么非均勻準(zhǔn)那么的區(qū)分性訓(xùn)練是基于某些識別單元可能比其他單元攜帶更多重要信息的假設(shè)9，其目的不是最小錯誤率而是最小錯誤損失，最小錯誤率不區(qū)分不同的錯誤。訓(xùn)練過程中的關(guān)鍵詞識別錯誤比非關(guān)鍵詞識別錯誤代價更

7、大。在DNN系統(tǒng)中，對某一幀t，定義幀級判別函數(shù)為：6其中，i是狀態(tài)編號，是給定Xr和假設(shè)標(biāo)簽的后驗概率，研究中只關(guān)注關(guān)鍵詞是否在標(biāo)簽或假設(shè)中出現(xiàn)，定義錯誤損失函數(shù)為語句r在時刻t的損失，關(guān)鍵詞檢測的非均勻E準(zhǔn)那么的目的函數(shù)為：7為了對公式7進展優(yōu)化，同時與普通的E準(zhǔn)那么進展比照，并推導(dǎo)出非均勻E與普通E準(zhǔn)那么優(yōu)化的不同，進而采取有效的方法來優(yōu)化非均勻E準(zhǔn)那么的目的函數(shù)，即對公式7進展求導(dǎo)：8其中，分別表示標(biāo)注和假設(shè)的幀后驗概率，將非均勻E準(zhǔn)那么的導(dǎo)數(shù)與原來的E準(zhǔn)那么進展比照，實際使用中，為了便于計算，通常令并忽略，詳細公式為：9可以看到，非均勻E與普通的E方法的一個區(qū)別是，普通E對單個句子是

8、不變的。另一個區(qū)別是非均勻的錯誤損失函數(shù)，錯誤損失函數(shù)是加在每一幀上的，為了便于計算非均勻E目的函數(shù)并有效優(yōu)化參數(shù)，在此采用了普通E的固定值而不是變化值，目的函數(shù)近似為：10錯誤損失函數(shù)定義為：11其含義是，假設(shè)當(dāng)前訓(xùn)練實例的標(biāo)注是關(guān)鍵詞，錯誤損失定義為K1；假設(shè)對當(dāng)前訓(xùn)練實例，關(guān)鍵詞出如今假設(shè)中錯誤損失定義為K2；當(dāng)關(guān)鍵詞既未出如今標(biāo)注又未出如今假設(shè)空間時，錯誤損失定義為1。K1、K2應(yīng)該都大于1，這樣在模型訓(xùn)練階段才可以對關(guān)鍵詞進展側(cè)重。公式11中的錯誤損失函數(shù)在不同的迭代中對同一幀賦予一樣的錯誤損失，當(dāng)使用較大的錯誤損失時可能會導(dǎo)致過訓(xùn)練。與普通的E相比，非均勻的E相當(dāng)于對每一幀根據(jù)進展

9、了重采樣，因此，可以考慮采用基于bsting的方法。AdaBst方法在每次迭代時均會根據(jù)錯誤率調(diào)整錯誤損失13，因此可以將AdaBst方法運用到非均勻E準(zhǔn)那么中。訓(xùn)練啟動時會使用較大的K1和K2來初始化錯誤損失函數(shù)，這些值會根據(jù)識別器的性能進展調(diào)整9。詳細算法總結(jié)如算法1所示。2實驗結(jié)果與分析本文設(shè)計了一系列的實驗來研究前述的非均勻E準(zhǔn)那么的DNN聲學(xué)模型區(qū)分性訓(xùn)練，主要研究不同的K1、K2值對關(guān)鍵詞檢測系統(tǒng)性能的影響。本實驗所使用的語料庫來自于國家863朗讀語料庫，其中約100個小時的數(shù)據(jù)用來訓(xùn)練DNN-H模型的識別器，約10個小時的數(shù)據(jù)用作關(guān)鍵詞檢測的搜索集。實驗的基線系統(tǒng)由開源的語音識別

10、工具Kaldi建立14，關(guān)鍵詞檢測系統(tǒng)的評測利用NISTpenKS15提供，關(guān)鍵詞檢測系統(tǒng)的評價主要通過ATV來計算15-16，其數(shù)學(xué)描繪如下：12其中，K是關(guān)鍵詞數(shù)目，Nissk是漏檢的關(guān)鍵詞數(shù)，NFAk是檢測到的虛警數(shù)，T是測試集的時間長度以秒計，是為999.9的常數(shù)。本文進展了非均勻E準(zhǔn)那么的訓(xùn)練，迭代次數(shù)為4，不同的K1、K2和下系統(tǒng)ATV值如表1所示。分析可知，較大的K1和K2可以獲得較高的性能，但衰減因子會導(dǎo)致波動。表1基于非均勻E準(zhǔn)那么關(guān)鍵詞檢測實驗結(jié)果Tab.1Resultsfnn-unifrriteriabasedSTD方案K1K2ATV基線LE-0.6153AdaBst非均勻E準(zhǔn)那么550.30.7265550.50.7237550.70.7213770.30.7276770.50.7268770.70.72733完畢語本文在DNN聲學(xué)模型的參數(shù)訓(xùn)練階段，通過利用非均勻的E準(zhǔn)那么對關(guān)鍵詞進展側(cè)重，由此進步了DNN-H模型對關(guān)鍵詞的建模才能。采用AdaBst算法，可以解決過訓(xùn)練的問題。研究結(jié)果說

人人文庫> 全部分類> 專業(yè)文獻 > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練

文檔簡介

溫馨提示

最新文檔

評論

基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔