




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
南京郵電大學(xué)
通信與信息工程學(xué)院
第9章語音編碼目錄
1語音編碼的評價(jià)指標(biāo)
3語音信號的參數(shù)編碼
5基于深度學(xué)習(xí)的語音編碼
2語音信號的波形編碼
4語音信號的混合編碼9.1語音編碼的評價(jià)指標(biāo)—語音編碼的依據(jù)語音信號中存在著冗余度(包括時(shí)域與頻域),人的聽覺感知機(jī)理也有很多可以利用的特點(diǎn)。語音信號壓縮編碼之所以可行,正是因?yàn)檫@兩種情況的存在。語音編碼的依據(jù)之一:語音信號冗余度基本時(shí)域冗余:(1)語音信號幅度非均勻分布性(2)語音信號樣本間的強(qiáng)相關(guān)性(3)濁音語音段具有的準(zhǔn)周期性(4)聲道形狀及其變化的緩慢性(5)靜止系數(shù)(即語音間隙性)基本頻域冗余:(1)從長時(shí)間的功率譜密度來看,語音信號具有強(qiáng)烈的非平坦型,存在著固定的冗余度。而且高頻能量通常較低,恰好對應(yīng)于時(shí)域上的相鄰樣本相關(guān)性。(2)從短時(shí)功率譜密度來看,語音信號在不同頻率交替出現(xiàn)峰值(共振峰)與谷值。整個(gè)功率譜的細(xì)節(jié)基于基音頻率形成高次諧波結(jié)構(gòu)。語音編碼的依據(jù)之二:人的聽覺特點(diǎn)(1)人類聽覺系統(tǒng)存在著掩蔽系統(tǒng),即高聲級單音會(huì)明顯掩蔽臨近頻率聲音。(2)對于不同頻段的聲音,人耳的敏感程度不盡相同。(3)人類對于語音信號的周期性(即音調(diào))極為敏感,但對信號的相位卻充耳不聞,這與理論分類存在差異。長時(shí)功率譜密度短時(shí)功率譜密度9.1語音編碼的評價(jià)指標(biāo)—語音編碼系統(tǒng)的評價(jià)標(biāo)準(zhǔn)較為重要的性能評價(jià)指標(biāo)(1)編碼速率(比特率),決定了編碼器工作時(shí)占用的信道帶寬,要求盡可能降低。(2)編碼器的完健性,要求良好。(3)編碼器的時(shí)延,要求最小化。(4)誤碼容限,要求保持較高值。(5)算法復(fù)雜度(包括運(yùn)算復(fù)雜度與內(nèi)存要求),影響硬件成本,盡可能降低。(6)算法可擴(kuò)展性,越高越好。9.1除了以上提到的客觀指標(biāo),語音質(zhì)量是衡量語音編解碼技術(shù)的關(guān)鍵指標(biāo)。其按照評測方法可分為兩大類:主觀評價(jià)和客觀評價(jià)。語音編碼的評價(jià)指標(biāo)—語音編碼系統(tǒng)的評價(jià)標(biāo)準(zhǔn)目錄
1語音編碼的評價(jià)指標(biāo)
3語音信號的參數(shù)編碼
5基于深度學(xué)習(xí)的語音編碼
2語音信號的波形編碼
4語音信號的混合編碼9.2語音信號的波形編碼—概述波形編碼:波形編碼是語音編碼系統(tǒng)在早期所廣泛采用的方法,它把語音信號當(dāng)成普通的波形信號來處理從而保持原波形形狀。波形編碼適應(yīng)能力強(qiáng),合成語音質(zhì)量好,但比特率過高,編碼的效率也不盡如人意。幾種典型的波形編碼:(1)脈沖編碼調(diào)制(PCM)(2)自適應(yīng)預(yù)測編碼(3)自適應(yīng)增量調(diào)制(ADM)(4)自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)(4)子帶編碼(SBC)9.2語音信號的波形編碼—脈沖編碼調(diào)制形式一:均勻PCM最簡單最原始的波形編碼方式,沒有運(yùn)用壓縮技術(shù),產(chǎn)生的比特率也極高,故在當(dāng)今運(yùn)用極少。形式二:非均勻PCM將信號進(jìn)行非線性變換后再均勻量化,變換后信號具有均勻概率密度分布。編碼時(shí)常采用對數(shù)變換壓縮(譯碼時(shí)指數(shù)擴(kuò)展)。采用非線性壓縮擴(kuò)張的非均勻量化器9.2語音信號的波形編碼—脈沖編碼調(diào)制
μ律壓縮擴(kuò)張技術(shù)(應(yīng)用于北美、日本)A律壓縮擴(kuò)張技術(shù)(應(yīng)用于其他國家與地區(qū))9.2語音信號的波形編碼—脈沖編碼調(diào)制
?匹配自適應(yīng)G匹配自適應(yīng)兩種自適應(yīng)方法的原理圖9.2語音信號的波形編碼—脈沖編碼調(diào)制按自適應(yīng)參數(shù)來源劃分(以?為例)前饋?zhàn)赃m應(yīng)反饋?zhàn)赃m應(yīng)其中,有且或9.2語音信號的波形編碼—自適應(yīng)預(yù)測編碼基本的自適應(yīng)預(yù)測編碼系統(tǒng)根據(jù)信號量化噪聲比的定義:
是由量化器決定的信噪比,而反映了線性預(yù)測帶來的增益,稱為預(yù)測增益。由此可知,引入線性預(yù)測之后,SNR將得到改善。
9.2語音信號的波形編碼—自適應(yīng)增量調(diào)制自適應(yīng)增量調(diào)制(ADM):增量調(diào)制(DM)的基本方案:增量調(diào)制方式將下一個(gè)語音信號與當(dāng)前語音信號比較,如果高與當(dāng)前值則系統(tǒng)則編碼1,否則系統(tǒng)編碼0。自適應(yīng)增量調(diào)制(ADM)的工作方式:自適應(yīng)增量調(diào)制隨輸入波形自適應(yīng)的改變量化階梯的大小,在信號平均斜率大時(shí)自動(dòng)增大量化階梯,反之減小。9.2語音信號的波形編碼—自適應(yīng)差分脈沖編碼調(diào)制自適應(yīng)差分脈沖編碼調(diào)制(ADPCM):差分脈沖編碼調(diào)制(DPCM):不同于DM的一位編碼,DPCM多位量化對兩個(gè)采樣之間的差分信號利用多位量化進(jìn)行編碼,使信息量得到壓縮的同時(shí)降低了信道負(fù)載。
DPCM結(jié)構(gòu)框圖9.2語音信號的波形編碼—自適應(yīng)差分脈沖編碼調(diào)制但采用固定的高階預(yù)測,改善效果并不明顯,于是,高階自適應(yīng)預(yù)測作為相應(yīng)的解決方式被提出,自適應(yīng)預(yù)測器隨著語音特征變化不斷更新預(yù)測系數(shù),從而獲得更高的預(yù)測增益。后向自適應(yīng)預(yù)測結(jié)構(gòu)框圖
后向自適應(yīng)預(yù)測作為ADPCM的常用編碼方式,所采用的是序貫隨機(jī)梯度算法,其預(yù)測系數(shù)滿足:為較少傳輸誤碼的影響,可加入衰減因子,并采用符號梯度法簡化硬件,于是又有:9.2語音信號的波形編碼—子帶編碼子帶編碼原理:子帶編碼屬于頻域編碼,它首先將語音信號通過帶通濾波器分割為若干頻帶(子帶),而后對子帶信號進(jìn)行頻譜平移變?yōu)榛鶐盘枺倮媚慰固厮俾食闃?,最后進(jìn)行編碼處理。實(shí)際應(yīng)用中SBC往往采用“整數(shù)帶”取樣方法,即:
由帶通信號采樣定理可知,在時(shí),子帶信號不會(huì)發(fā)生混疊,可以直接進(jìn)行對其采樣。子帶分帶數(shù)目越大,編碼增益也會(huì)越大,實(shí)際應(yīng)用中SBC一般采用4~8個(gè)子帶。對已經(jīng)采樣的輸入信號,抽取可實(shí)現(xiàn)頻譜搬移,合成時(shí)通過插值恢復(fù)。離散信號輸入、整數(shù)帶子帶編碼第k個(gè)通道工作原理9.2語音信號的波形編碼—子帶編碼為減少混疊造成的失真,需要極高階的濾波器,而此時(shí)采用正交鏡像濾波器組(QMFB)既可解決失真問題,階數(shù)要求也可得到降低。
正交鏡像濾波器組結(jié)構(gòu)原理其輸入輸出關(guān)系為:其中,理論上需滿足:我們一般希望其滿足理想條件:目錄
1語音編碼的評價(jià)指標(biāo)
3語音信號的參數(shù)編碼
5基于深度學(xué)習(xí)的語音編碼
2語音信號的波形編碼
4語音信號的混合編碼9.3語音信號的參數(shù)編碼—線性預(yù)測聲碼器參數(shù)編碼針對語音信號的特征參數(shù)來編碼,只適用于語音信號。實(shí)際應(yīng)用中一般采用的實(shí)現(xiàn)設(shè)備是線性預(yù)測聲碼器。LPC聲碼器框圖9.3語音信號的參數(shù)編碼—線性預(yù)測聲碼器(1)反射系數(shù):對反射系數(shù)的值在【-1,1】區(qū)間一般進(jìn)行非線性量化,另外比特?cái)?shù)分配應(yīng)遞減。(2)對數(shù)面積比:針對對數(shù)面積比的方式是最為有效的編碼方式,很適合數(shù)字編碼與傳輸:其中
為面積函數(shù),通過上式可知幅度均勻分布,可以采用均勻量化。LPC參數(shù)的變換與量化:9.3語音信號的參數(shù)編碼—線性預(yù)測聲碼器變幀率LPC聲碼器:為降低LPC聲碼器的速率,應(yīng)用了變幀速率編碼(VFR)技術(shù)的變幀率LPC聲碼器應(yīng)運(yùn)產(chǎn)生。通過付出編碼解碼復(fù)雜化與時(shí)延出現(xiàn)的代價(jià),變幀率LPC聲碼器可明顯降低傳輸數(shù)碼率同時(shí)保持音質(zhì)。LPC-10編碼器:LPC-10利用簡單的二元激勵(lì)取代余量信號,在2.4kbps的速率上得到了清晰的合成語音,在當(dāng)代長期被作為標(biāo)準(zhǔn)算法使用。但因?yàn)榧?lì)信號選取的影響,抗噪能力與自然度仍不盡如人意。當(dāng)代參數(shù)編碼技術(shù)簡介:目錄
1語音編碼的評價(jià)指標(biāo)
3語音信號的參數(shù)編碼
5基于深度學(xué)習(xí)的語音編碼
2語音信號的波形編碼
4語音信號的混合編碼9.4語音信號的混合編碼20世紀(jì)80年代后期,綜合了參數(shù)編碼低比特率與波形編碼高語音質(zhì)量優(yōu)點(diǎn)的混合編碼得到廣泛的使用。它在假定語音產(chǎn)生模型的同時(shí)又使用與波形編碼相匹配的技術(shù)將模型參數(shù)編碼,吸收了兩者的優(yōu)點(diǎn)?;旌霞?lì)線性預(yù)測(MELP)在傳統(tǒng)的二元激勵(lì)LPC模型上采用了混合激勵(lì)、非周期脈沖、自適應(yīng)譜增強(qiáng)、脈沖整形濾波以及傅里葉級數(shù)幅度值5項(xiàng)新技術(shù),使合成語音質(zhì)量得到了極大的改善,使2.4kbit/s碼率上能提供良好的語音質(zhì)量。MELP聲碼器編碼原理圖MELP聲碼器解碼原理圖目錄
1語音編碼的評價(jià)指標(biāo)
3語音信號的參數(shù)編碼
5基于深度學(xué)習(xí)的語音編碼
2語音信號的波形編碼
4語音信號的混合編碼9.5基于深度學(xué)習(xí)的語音編碼—深度學(xué)習(xí)融入傳統(tǒng)語音編碼通過在傳統(tǒng)編碼方法中引入深度學(xué)習(xí)并將其作為某中間過程,從而使語音編碼性能得到提高。以在語音信號的參數(shù)編碼方法中的清濁語音幀判別為例,正確的清濁音判別有利于為不同語音幀選擇合適的激勵(lì)信號,從而提高語音恢復(fù)質(zhì)量,并且能夠提升音素邊界檢測的性能。此外,根據(jù)不同語音幀特性采取不同的編碼策略也能提高語音編碼質(zhì)量、降低編碼比特率。然而,不同類型的語音幀特性各異,交疊在一起,并且伴隨著背景噪聲,常常難以正確區(qū)分。
為了提高語音編碼中的語音幀分類準(zhǔn)確性,趙月嬌等學(xué)者引入深度學(xué)習(xí)技術(shù),采用棧自動(dòng)編碼器(StackAutoencoder,SAE)和Softmax分類器所組成的神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。基于棧自動(dòng)編碼器的語音幀分類模型結(jié)構(gòu)圖9.5基于深度學(xué)習(xí)的語音編碼—深度學(xué)習(xí)融入傳統(tǒng)語音編碼算法主要分為兩部分,第一部分是提取語音參數(shù),第二部分則是利用深度學(xué)習(xí)完成語音幀分類。(1)語音參數(shù)提取為了得到訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的語音參數(shù),首先對原始語音進(jìn)行隔直濾波,而后采用上一節(jié)介紹的語音混合編碼算法MELP,提取語音信號的子帶信號強(qiáng)度、殘差信號峰值、增益、基音周期和線譜頻率(LineSpectrumFrequency,LSF)。(2)深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)整個(gè)深度神經(jīng)網(wǎng)絡(luò)是由SAE和Softmax分類器兩部分組成,其中SAE是由多個(gè)自動(dòng)編碼器堆疊而成,它是一種多層神經(jīng)網(wǎng)絡(luò)。由于上述五種提取出的語音參數(shù)的量綱不同,在輸入神經(jīng)網(wǎng)絡(luò)之前需要先進(jìn)行歸一化操作。接著,對神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練,利用無監(jiān)督逐層貪婪訓(xùn)練算法,每次只訓(xùn)練網(wǎng)絡(luò)中的一層。具體而言,首先訓(xùn)練只含一個(gè)隱藏層的網(wǎng)絡(luò),使用梯度下降算法最小化損失函數(shù),得到第一隱藏層的參數(shù),接著再訓(xùn)練下一個(gè)隱藏層;而后,將最后一層隱藏層的結(jié)果輸入到Softmax分類器中;分類器需要用手動(dòng)標(biāo)注的純凈信號清/濁標(biāo)記來引導(dǎo)模型的訓(xùn)練,并通過反向傳播算法對網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào);最后,將不同信噪比下的語音信號所提取的特征輸入到已經(jīng)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)中,完成語音幀的分類。9.5基于深度學(xué)習(xí)的語音編碼—深度學(xué)習(xí)融入傳統(tǒng)語音編碼不同于將深度學(xué)習(xí)作為傳統(tǒng)語音編碼的一個(gè)組成部分來使用,端到端深度語音編碼將整個(gè)編解碼過程定義為一個(gè)神經(jīng)網(wǎng)絡(luò),通過編碼器—解碼器框架完整地學(xué)習(xí)輸入到輸出的映射,從而直接從訓(xùn)練數(shù)據(jù)中獲知信號的冗余,以實(shí)現(xiàn)語音編碼。9.5基于深度學(xué)習(xí)的語音編碼—端到端深度語音編碼(1)網(wǎng)絡(luò)結(jié)構(gòu)Kankanahalli等學(xué)者將語音編碼和解碼過程分別建模為編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)。當(dāng)語音信號進(jìn)入編碼器神經(jīng)網(wǎng)絡(luò)后,首先經(jīng)過一個(gè)卷積塊,將K個(gè)通道的樣本轉(zhuǎn)換成C個(gè)通道,再經(jīng)過四個(gè)殘差塊、下采樣塊,使數(shù)據(jù)流長度縮短,接著再經(jīng)過四個(gè)殘差塊,并通過一個(gè)卷積塊轉(zhuǎn)換為單通道數(shù)據(jù),進(jìn)行量化后傳輸。解碼器神經(jīng)網(wǎng)絡(luò)在接收到數(shù)據(jù)后,首先進(jìn)行反量化,而后依次通過卷積塊、殘差塊、上采樣塊將數(shù)據(jù)重新映射成語音信號。端到端深度語音編碼模型結(jié)構(gòu)圖9.5基于深度學(xué)習(xí)的語音編碼—端到端深度語音編碼(2)Softmax量化需要注意的是,上一段所提到的量化是將神經(jīng)網(wǎng)絡(luò)的實(shí)值輸出映射為離散輸出。然而,從本質(zhì)上說,量化運(yùn)算是不可微分的,帶來的問題是無法用經(jīng)典的梯度下法對整個(gè)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。為了避免這種情況,采用近似可微的思想,將標(biāo)量量化重新定義為最近鄰分配:即,給定N個(gè)量化區(qū)間B1,…,BN,通過將量化模塊的輸入z分配給最近的量化區(qū)間來完成量化。這個(gè)運(yùn)算仍然是不可微的,但可以近似如下:當(dāng)σ→∞時(shí),S是N個(gè)量化區(qū)間的軟分配。在解碼器方面,可以通過取S和B的點(diǎn)積將
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海海事職業(yè)技術(shù)學(xué)院《廣播電視節(jié)目形態(tài)研究》2023-2024學(xué)年第二學(xué)期期末試卷
- 沈陽工業(yè)大學(xué)《國際金融(nternatonaFnance)》2023-2024學(xué)年第二學(xué)期期末試卷
- 鄭州市“平急兩用”公共基礎(chǔ)設(shè)施設(shè)計(jì)指南(試行)2025
- 伊犁師范大學(xué)《工程建設(shè)法規(guī)》2023-2024學(xué)年第二學(xué)期期末試卷
- 石家莊人民醫(yī)學(xué)高等??茖W(xué)?!痘貧w分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 九州職業(yè)技術(shù)學(xué)院《陜西地域文化》2023-2024學(xué)年第一學(xué)期期末試卷
- 云南省騰沖市第八中學(xué)2024-2025學(xué)年高三下學(xué)期第一次檢測試題考試數(shù)學(xué)試題試卷含解析
- 浙江省金華市婺城區(qū)2025年下學(xué)期初三英語試題中考仿真考試試卷含答案
- 蘇州科技大學(xué)天平學(xué)院《籃球3》2023-2024學(xué)年第一學(xué)期期末試卷
- 武漢科技職業(yè)學(xué)院《學(xué)術(shù)交流技能》2023-2024學(xué)年第二學(xué)期期末試卷
- 電力工業(yè)企業(yè)檔案分類表0-5
- 臨時(shí)用地草原植被恢復(fù)治理方案
- 2025高考語文小說文本:人物形象特點(diǎn)概括分析
- 2024年7月國家開放大學(xué)法律事務(wù)??啤斗勺稍兣c調(diào)解》期末紙質(zhì)考試試題及答案
- 消防系統(tǒng)維保項(xiàng)目的售后服務(wù)方案
- 2023年4月1日江蘇省事業(yè)單位統(tǒng)考《綜合知識(shí)和能力素質(zhì)》(管理崗客觀題)原卷+答案
- 塞內(nèi)加爾歷史與現(xiàn)在
- 《中國的科技成就》課件
- T-JYBZ 024-2022《幼兒園戶外游戲場地玩教具配備規(guī)范》
- 關(guān)于太空垃圾
- 美妝博主營業(yè)方案
評論
0/150
提交評論