基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練_第1頁
基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練_第2頁
基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練_第3頁
基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練_第4頁
基于非均勻MCE準(zhǔn)則的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于非均勻MCE準(zhǔn)那么的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練基于非均勻E準(zhǔn)那么的DNN關(guān)鍵詞檢測系統(tǒng)中聲學(xué)模型的訓(xùn)練自2022年以來,深度學(xué)習(xí)已經(jīng)成為機器學(xué)習(xí)的一個重點研究領(lǐng)域,而且現(xiàn)已在許多方面獲得了卓越進展。而在語音識別領(lǐng)域,基于深度學(xué)習(xí)的方法也隨即應(yīng)用而生,特別是在聲學(xué)建模上,深度神經(jīng)網(wǎng)絡(luò)DeepNeuralNetrk,DNN已經(jīng)可以替代高斯混合模型Gaussianixturedel,G,并和隱馬爾科夫模型Hiddenarkvdel,H結(jié)合而推出了DNN-H混合模型,在實際應(yīng)用中獲得了很高的識別率1。當(dāng)前的關(guān)鍵詞檢測Spkenterdetetin,STD系統(tǒng)通常是利用大詞匯量連續(xù)語音識別

2、器largevabularyntinuusspeehregnitin,LVSR來對搜索語音解碼產(chǎn)生關(guān)鍵詞假設(shè),再通過將輸入語音轉(zhuǎn)換為文本形式;基于此,關(guān)鍵詞檢測系統(tǒng)就可以利用文本搜索的一些技術(shù),但其與文本搜索不同的那么是關(guān)鍵詞檢測多會利用lattie來表示語音識別結(jié)果2-3。在語音識別中,常常都是采用不同的區(qū)分性訓(xùn)練準(zhǔn)那么來減小語音識別的詞錯誤率rdErrrRate,ER,著名的區(qū)分性訓(xùn)練準(zhǔn)那么主要有EiniulassifiatinErrr4、IaxiuutualInfratin5、PEiniuPhneErrr6和EiniurdErrr6。在關(guān)鍵詞檢測任務(wù)中,關(guān)注的重點只是預(yù)定義的關(guān)鍵詞是否被

3、檢測到。至于與目的關(guān)鍵詞無關(guān)的詞,針對其所獲的檢測結(jié)果卻并不重要。Fu等人提出利用非均勻E準(zhǔn)那么,并開展了運用至語音識別中的嘗試7-8。eng等人針對傳統(tǒng)G-H模型利用非均勻E準(zhǔn)那么來推進關(guān)鍵詞檢測的研究,也就是通過在聲學(xué)建模階段利用非均勻E準(zhǔn)那么來進展區(qū)分性訓(xùn)練,進步了關(guān)鍵詞檢測系統(tǒng)的性能9。研究表本文由論文聯(lián)盟.Ll.搜集整理明,區(qū)分性訓(xùn)練可以改善DNN系統(tǒng)的性能10。hen等人在非均勻準(zhǔn)那么的根底上,利用基于keyrd-bstedsBRstate-leveliniuBayesrisk準(zhǔn)那么來訓(xùn)練關(guān)鍵詞檢測中的DNN-H模型,同時再通過在聲學(xué)模型訓(xùn)練階段對定義的關(guān)鍵詞進展加重來進步模型對關(guān)

4、鍵詞的建模才能,結(jié)果即獲得了ATVAtualTerEightedValue1.7%-6.1%的提升11。在此,立基于對傳統(tǒng)G-H模型之上,相較于非均勻sBR準(zhǔn)那么而言,非均勻E準(zhǔn)那么可以利用AdaBst來調(diào)整關(guān)鍵詞權(quán)重系數(shù),而非均勻sBR準(zhǔn)那么的權(quán)重系數(shù)卻是固定的,因此非均勻E準(zhǔn)那么要比非均勻sBR準(zhǔn)那么獲得更佳效果12。從這一結(jié)論出發(fā),本文即將文獻9中所提出的非均勻E準(zhǔn)那么引入到關(guān)鍵詞檢測的DNN聲學(xué)建模階段,在DNN的參數(shù)調(diào)整過程中,通過對關(guān)鍵詞進展一定程度的側(cè)重來進步DNN-H模型對關(guān)鍵詞的建模才能。1基于非均勻E準(zhǔn)那么的關(guān)鍵詞DNN聲學(xué)模型訓(xùn)練1.1DNN-H聲學(xué)模型DNN-H模型利用

5、DNN替代G提供LVSR中H狀態(tài)的后驗概率。特別的,表示語句r時刻t的觀測變量,DNN對H狀態(tài)s的輸出可以通過sftax激活函數(shù)來計算:1其中,表示狀態(tài)s對應(yīng)的輸出層的激活值,識別器通常利用偽對數(shù)似然來計算后驗概率:2式中,表示從訓(xùn)練數(shù)據(jù)中計算得到的狀態(tài)s的先驗概率。網(wǎng)絡(luò)訓(xùn)練可以通過利用反向傳播算法來優(yōu)化給定的目的函數(shù)而獲得實現(xiàn)。更經(jīng)常地,DNN-H聲學(xué)模型主要利用穿插熵rss-entrpy作為目的函數(shù),優(yōu)化那么主要利用隨機梯度下降方法來進展處理和操作展開。1.2基于E準(zhǔn)那么的區(qū)分性訓(xùn)練區(qū)分性訓(xùn)練中,E訓(xùn)練準(zhǔn)那么是常用的一種。該準(zhǔn)那么以最小化經(jīng)歷錯誤率為目的4,在語音識別中,令Xrr=1,R為

6、訓(xùn)練集中的R個句子,r為句子Xr所對應(yīng)的標(biāo)注,是特定的假設(shè)空間,對某個假設(shè)的判別函數(shù)可以定義為:3其中,和分別表示聲學(xué)模型和語言模型得分,表示聲學(xué)模型因子,誤分類度量通常采用:4誤分類度量的符號反映了給定聲學(xué)模型參數(shù),句子的分類正確或者錯誤程度。經(jīng)過對上式運用sigid函數(shù)進展平滑,目的損失函數(shù)可以表示為:5其中,表示sigid函數(shù),目的函數(shù)表示針對訓(xùn)練集的經(jīng)歷損失。1.3關(guān)鍵詞檢測的非均勻E準(zhǔn)那么非均勻準(zhǔn)那么的區(qū)分性訓(xùn)練是基于某些識別單元可能比其他單元攜帶更多重要信息的假設(shè)9,其目的不是最小錯誤率而是最小錯誤損失,最小錯誤率不區(qū)分不同的錯誤。訓(xùn)練過程中的關(guān)鍵詞識別錯誤比非關(guān)鍵詞識別錯誤代價更

7、大。在DNN系統(tǒng)中,對某一幀t,定義幀級判別函數(shù)為:6其中,i是狀態(tài)編號,是給定Xr和假設(shè)標(biāo)簽的后驗概率,研究中只關(guān)注關(guān)鍵詞是否在標(biāo)簽或假設(shè)中出現(xiàn),定義錯誤損失函數(shù)為語句r在時刻t的損失,關(guān)鍵詞檢測的非均勻E準(zhǔn)那么的目的函數(shù)為:7為了對公式7進展優(yōu)化,同時與普通的E準(zhǔn)那么進展比照,并推導(dǎo)出非均勻E與普通E準(zhǔn)那么優(yōu)化的不同,進而采取有效的方法來優(yōu)化非均勻E準(zhǔn)那么的目的函數(shù),即對公式7進展求導(dǎo):8其中,分別表示標(biāo)注和假設(shè)的幀后驗概率,將非均勻E準(zhǔn)那么的導(dǎo)數(shù)與原來的E準(zhǔn)那么進展比照,實際使用中,為了便于計算,通常令并忽略,詳細公式為:9可以看到,非均勻E與普通的E方法的一個區(qū)別是,普通E對單個句子是

8、不變的。另一個區(qū)別是非均勻的錯誤損失函數(shù),錯誤損失函數(shù)是加在每一幀上的,為了便于計算非均勻E目的函數(shù)并有效優(yōu)化參數(shù),在此采用了普通E的固定值而不是變化值,目的函數(shù)近似為:10錯誤損失函數(shù)定義為:11其含義是,假設(shè)當(dāng)前訓(xùn)練實例的標(biāo)注是關(guān)鍵詞,錯誤損失定義為K1;假設(shè)對當(dāng)前訓(xùn)練實例,關(guān)鍵詞出如今假設(shè)中錯誤損失定義為K2;當(dāng)關(guān)鍵詞既未出如今標(biāo)注又未出如今假設(shè)空間時,錯誤損失定義為1。K1、K2應(yīng)該都大于1,這樣在模型訓(xùn)練階段才可以對關(guān)鍵詞進展側(cè)重。公式11中的錯誤損失函數(shù)在不同的迭代中對同一幀賦予一樣的錯誤損失,當(dāng)使用較大的錯誤損失時可能會導(dǎo)致過訓(xùn)練。與普通的E相比,非均勻的E相當(dāng)于對每一幀根據(jù)進展

9、了重采樣,因此,可以考慮采用基于bsting的方法。AdaBst方法在每次迭代時均會根據(jù)錯誤率調(diào)整錯誤損失13,因此可以將AdaBst方法運用到非均勻E準(zhǔn)那么中。訓(xùn)練啟動時會使用較大的K1和K2來初始化錯誤損失函數(shù),這些值會根據(jù)識別器的性能進展調(diào)整9。詳細算法總結(jié)如算法1所示。2實驗結(jié)果與分析本文設(shè)計了一系列的實驗來研究前述的非均勻E準(zhǔn)那么的DNN聲學(xué)模型區(qū)分性訓(xùn)練,主要研究不同的K1、K2值對關(guān)鍵詞檢測系統(tǒng)性能的影響。本實驗所使用的語料庫來自于國家863朗讀語料庫,其中約100個小時的數(shù)據(jù)用來訓(xùn)練DNN-H模型的識別器,約10個小時的數(shù)據(jù)用作關(guān)鍵詞檢測的搜索集。實驗的基線系統(tǒng)由開源的語音識別

10、工具Kaldi建立14,關(guān)鍵詞檢測系統(tǒng)的評測利用NISTpenKS15提供,關(guān)鍵詞檢測系統(tǒng)的評價主要通過ATV來計算15-16,其數(shù)學(xué)描繪如下:12其中,K是關(guān)鍵詞數(shù)目,Nissk是漏檢的關(guān)鍵詞數(shù),NFAk是檢測到的虛警數(shù),T是測試集的時間長度以秒計,是為999.9的常數(shù)。本文進展了非均勻E準(zhǔn)那么的訓(xùn)練,迭代次數(shù)為4,不同的K1、K2和下系統(tǒng)ATV值如表1所示。分析可知,較大的K1和K2可以獲得較高的性能,但衰減因子會導(dǎo)致波動。表1基于非均勻E準(zhǔn)那么關(guān)鍵詞檢測實驗結(jié)果Tab.1Resultsfnn-unifrriteriabasedSTD方案K1K2ATV基線LE-0.6153AdaBst非均勻E準(zhǔn)那么550.30.7265550.50.7237550.70.7213770.30.7276770.50.7268770.70.72733完畢語本文在DNN聲學(xué)模型的參數(shù)訓(xùn)練階段,通過利用非均勻的E準(zhǔn)那么對關(guān)鍵詞進展側(cè)重,由此進步了DNN-H模型對關(guān)鍵詞的建模才能。采用AdaBst算法,可以解決過訓(xùn)練的問題。研究結(jié)果說

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論