第十一章聲碼器和混合編碼_第1頁(yè)
第十一章聲碼器和混合編碼_第2頁(yè)
第十一章聲碼器和混合編碼_第3頁(yè)
第十一章聲碼器和混合編碼_第4頁(yè)
第十一章聲碼器和混合編碼_第5頁(yè)
已閱讀5頁(yè),還剩78頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第第10章章 語(yǔ)音編碼語(yǔ)音編碼(1)波形編碼波形編碼v概述及分類(lèi)概述及分類(lèi)v脈沖編碼調(diào)制脈沖編碼調(diào)制PCMv預(yù)測(cè)編碼及其自適應(yīng)預(yù)測(cè)編碼及其自適應(yīng)APCv自適應(yīng)差分脈沖編碼調(diào)制自適應(yīng)差分脈沖編碼調(diào)制ADPCM及自適應(yīng)增量調(diào)及自適應(yīng)增量調(diào)制制ADMv子帶編碼子帶編碼SBCv自適應(yīng)變換編碼自適應(yīng)變換編碼ATC概述概述語(yǔ)音編碼:語(yǔ)音編碼:Speech Coding, 在語(yǔ)音通信及人類(lèi)信息交流中占舉足在語(yǔ)音通信及人類(lèi)信息交流中占舉足輕重的地位。研究對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮傳輸、存儲(chǔ)等內(nèi)容。目前數(shù)輕重的地位。研究對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮傳輸、存儲(chǔ)等內(nèi)容。目前數(shù)字通信得以廣泛應(yīng)用,語(yǔ)音編碼是將模擬語(yǔ)音數(shù)字化的手段。字通

2、信得以廣泛應(yīng)用,語(yǔ)音編碼是將模擬語(yǔ)音數(shù)字化的手段。將語(yǔ)音信號(hào)編碼為二進(jìn)制數(shù)字序列,最簡(jiǎn)單的方法是對(duì)其直接進(jìn)行將語(yǔ)音信號(hào)編碼為二進(jìn)制數(shù)字序列,最簡(jiǎn)單的方法是對(duì)其直接進(jìn)行模模/數(shù)變換;只要取樣率足夠高,量化每個(gè)樣本的比特?cái)?shù)足夠多,數(shù)變換;只要取樣率足夠高,量化每個(gè)樣本的比特?cái)?shù)足夠多,則可以保證解碼恢復(fù)的語(yǔ)音信號(hào)有很好的音質(zhì),不會(huì)丟失有用信息。則可以保證解碼恢復(fù)的語(yǔ)音信號(hào)有很好的音質(zhì),不會(huì)丟失有用信息。 然而對(duì)語(yǔ)音信號(hào)直接數(shù)字化所需的數(shù)碼率太高,例如,普通的電話(huà)通信中采用8kHz取樣率,如用12bit進(jìn)行量化,則數(shù)碼率為96kbit/s。這樣大的數(shù)碼率即使對(duì)很大容量的傳輸信道也是難以承受的,因而必須

3、對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮編碼。 概述概述語(yǔ)音編碼語(yǔ)音編碼目的目的:在保持可以接受的失真的情況下,采用盡可能少的:在保持可以接受的失真的情況下,采用盡可能少的比特?cái)?shù)表示語(yǔ)音,即減少傳輸碼率或存儲(chǔ)量。比特?cái)?shù)表示語(yǔ)音,即減少傳輸碼率或存儲(chǔ)量。編碼后同樣的信道容量能傳輸更多路的信號(hào),因而這類(lèi)編碼又稱(chēng)編碼后同樣的信道容量能傳輸更多路的信號(hào),因而這類(lèi)編碼又稱(chēng)為為壓縮編碼壓縮編碼,壓縮編碼需要在,壓縮編碼需要在保持可懂度與音質(zhì)保持可懂度與音質(zhì)、降低數(shù)碼率降低數(shù)碼率和和降低編碼過(guò)程的計(jì)算代價(jià)降低編碼過(guò)程的計(jì)算代價(jià)三方面折衷。三方面折衷。傳輸碼率傳輸碼率:也稱(chēng)為也稱(chēng)為數(shù)碼率數(shù)碼率,指?jìng)鬏斆棵腌娬Z(yǔ)音信號(hào)所需要的比特,指

4、傳輸每秒鐘語(yǔ)音信號(hào)所需要的比特?cái)?shù)。數(shù)。波形編碼波形編碼語(yǔ)音編碼分類(lèi)語(yǔ)音編碼分類(lèi):波形編碼,:波形編碼,Waveform Coder; 參數(shù)編碼,參數(shù)編碼,Parametric Coder; 混合編碼,混合編碼,Hybrid Coder特點(diǎn)特點(diǎn):針對(duì)語(yǔ)音波形進(jìn)行編碼,盡量保持輸入波形不變,即恢復(fù):針對(duì)語(yǔ)音波形進(jìn)行編碼,盡量保持輸入波形不變,即恢復(fù)的語(yǔ)音信號(hào)基本上與輸入的語(yǔ)音信號(hào)波形相同。的語(yǔ)音信號(hào)基本上與輸入的語(yǔ)音信號(hào)波形相同。 優(yōu)缺點(diǎn)優(yōu)缺點(diǎn):具有適應(yīng)能力強(qiáng)、語(yǔ)音質(zhì)量好等優(yōu)點(diǎn),缺點(diǎn)是需要的編:具有適應(yīng)能力強(qiáng)、語(yǔ)音質(zhì)量好等優(yōu)點(diǎn),缺點(diǎn)是需要的編碼速率高。碼速率高。 典型的編碼方式典型的編碼方式:脈沖

5、編碼調(diào)制:脈沖編碼調(diào)制PCM、自適應(yīng)差分脈沖編碼調(diào)制、自適應(yīng)差分脈沖編碼調(diào)制ADPCM、子帶編碼、子帶編碼SBC等。等。 在在16-64kbit/s的數(shù)碼率上能給出高的編碼質(zhì)量,當(dāng)數(shù)碼率進(jìn)一步的數(shù)碼率上能給出高的編碼質(zhì)量,當(dāng)數(shù)碼率進(jìn)一步降低時(shí),其性能下降較快。降低時(shí),其性能下降較快。聲碼器聲碼器:即:即參數(shù)編碼參數(shù)編碼特點(diǎn)特點(diǎn):先對(duì)語(yǔ)音信號(hào)進(jìn)行分析,提取出其參數(shù),對(duì)參數(shù)進(jìn)行編碼,先對(duì)語(yǔ)音信號(hào)進(jìn)行分析,提取出其參數(shù),對(duì)參數(shù)進(jìn)行編碼,解碼后這些參數(shù)重新合成出重構(gòu)的語(yǔ)音信號(hào)。力圖使重建的語(yǔ)音解碼后這些參數(shù)重新合成出重構(gòu)的語(yǔ)音信號(hào)。力圖使重建的語(yǔ)音信號(hào)具有盡可能高的可懂度,而不必保持波形的一致。信號(hào)具

6、有盡可能高的可懂度,而不必保持波形的一致。 優(yōu)缺點(diǎn)優(yōu)缺點(diǎn):優(yōu)點(diǎn)是編碼速率低,可以低到優(yōu)點(diǎn)是編碼速率低,可以低到2.4kbps甚至以下,缺點(diǎn)是甚至以下,缺點(diǎn)是合成語(yǔ)音質(zhì)量差,特別是自然度低,處理復(fù)雜。合成語(yǔ)音質(zhì)量差,特別是自然度低,處理復(fù)雜。 典型的編碼方式典型的編碼方式:如通道聲碼器、相位聲碼器、同態(tài)聲碼器、線性如通道聲碼器、相位聲碼器、同態(tài)聲碼器、線性預(yù)測(cè)聲碼器等。預(yù)測(cè)聲碼器等。 混合編碼混合編碼特點(diǎn)特點(diǎn):上述兩類(lèi)方法的有機(jī)結(jié)合,與參數(shù)編碼相同的是,它也是基:上述兩類(lèi)方法的有機(jī)結(jié)合,與參數(shù)編碼相同的是,它也是基于語(yǔ)音產(chǎn)生模型的假定并采用了分析合成技術(shù),但同時(shí)它又利用了于語(yǔ)音產(chǎn)生模型的假定并采

7、用了分析合成技術(shù),但同時(shí)它又利用了語(yǔ)音的時(shí)間波形信息,增強(qiáng)了重建語(yǔ)音的自然度,使得語(yǔ)音質(zhì)量有語(yǔ)音的時(shí)間波形信息,增強(qiáng)了重建語(yǔ)音的自然度,使得語(yǔ)音質(zhì)量有明顯的提高,代價(jià)是編碼速率相應(yīng)上升,一般在明顯的提高,代價(jià)是編碼速率相應(yīng)上升,一般在16-2.4Kbps之間。之間。典型的編碼方式典型的編碼方式:多脈沖激勵(lì)線性預(yù)測(cè)編碼:多脈沖激勵(lì)線性預(yù)測(cè)編碼MPLPC、規(guī)則脈沖激勵(lì)、規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼線性預(yù)測(cè)編碼RPE-LPC、碼本激勵(lì)線性預(yù)測(cè)編碼、碼本激勵(lì)線性預(yù)測(cè)編碼CELP等等按傳輸碼率分類(lèi)按傳輸碼率分類(lèi)高速率語(yǔ)音編碼高速率語(yǔ)音編碼:速率:速率32kbit/s以上以上, PCM, 64kbit/s,

8、主主要用于公用電話(huà)網(wǎng)要用于公用電話(huà)網(wǎng);中高速率語(yǔ)音編碼中高速率語(yǔ)音編碼:速率:速率16-32kbit/s, ADPCM, 32kbit/s, 主要用于公用網(wǎng)主要用于公用網(wǎng);中速率語(yǔ)音編碼中速率語(yǔ)音編碼:速率:速率4.8-16kbit/s, GSM用的用的RPE/LTP 13kbit/s、VSELP, 8kbit/s主要用于數(shù)字移動(dòng)通信話(huà)音郵主要用于數(shù)字移動(dòng)通信話(huà)音郵件件; 低速率語(yǔ)音編碼低速率語(yǔ)音編碼:速率:速率1.2-4.8kbit/s, CELP, 4.8kb/s、 LPC, 1.2kb/s, 主要用于保密話(huà)音主要用于保密話(huà)音;極低速率語(yǔ)音編碼極低速率語(yǔ)音編碼:速率:速率1.2kbit/s

9、以下以下脈沖編碼調(diào)制脈沖編碼調(diào)制PCM波形編碼方式的最簡(jiǎn)單形式是脈沖編碼調(diào)制脈沖編碼調(diào)制(Pulse code modulation,簡(jiǎn)稱(chēng)PCM)。它直接把語(yǔ)音信號(hào)進(jìn)行采樣量化,表示成二進(jìn)制數(shù)字信號(hào),并通過(guò)并-串轉(zhuǎn)換過(guò)程轉(zhuǎn)換成串行的脈沖,并用脈沖對(duì)采樣幅度進(jìn)行編碼,以便于傳輸和存儲(chǔ)。 它沒(méi)有利用語(yǔ)音信號(hào)的冗余度,所以信號(hào)沒(méi)有得到壓縮,編碼效它沒(méi)有利用語(yǔ)音信號(hào)的冗余度,所以信號(hào)沒(méi)有得到壓縮,編碼效率很低。率很低。一般,一般,PCM有均勻有均勻PCM、非均勻、非均勻PCM和自適應(yīng)和自適應(yīng)PCM幾種形式幾種形式模擬語(yǔ)音信號(hào)數(shù)字語(yǔ)音編碼抗混疊濾 波采樣量化編碼A/D轉(zhuǎn)換1.均勻均勻PCM:不論信號(hào)幅度

10、的大小,它都采用同等的量化階距不論信號(hào)幅度的大小,它都采用同等的量化階距進(jìn)行量化,即采用均勻量化。進(jìn)行量化,即采用均勻量化。2.非均勻非均勻PCM:從觀測(cè)到的語(yǔ)音信號(hào)概率密度可知,語(yǔ)音信號(hào)大量集中在低幅度上。因而,可以利用非均勻量化來(lái)彌補(bǔ)均勻量化的缺點(diǎn)。來(lái)彌補(bǔ)均勻量化的缺點(diǎn)。非均勻量化的基本思想是對(duì)大幅度的樣本使用大的,對(duì)小幅度的樣本使用小的;在接收端按此還原。 PCM的量化方式的量化方式均勻量化與非均勻量化 國(guó)際上采用兩種非均勻量化方法:A律和 律改變量化階大小的方法有兩種:一種稱(chēng)為前向自適應(yīng)改變量化階大小的方法有兩種:一種稱(chēng)為前向自適應(yīng)(forward adaptation),另一種稱(chēng)為后

11、向自適應(yīng),另一種稱(chēng)為后向自適應(yīng)(backward adaptation)。3.自適應(yīng)自適應(yīng)PCM(APCM): PCM在量化間隔上存在矛盾:為適應(yīng)大的幅值要用大的,但為了提高信噪比又希望用小的。除了前面介紹的非均勻量化外,還有一種是采用自適應(yīng)方法,稱(chēng)為自適應(yīng)PCM (adaptive PCM,簡(jiǎn)稱(chēng)APCM)。 自適應(yīng)脈沖編碼調(diào)制自適應(yīng)脈沖編碼調(diào)制(APCM)是根據(jù)是根據(jù)輸入信號(hào)幅度大小來(lái)改變量輸入信號(hào)幅度大小來(lái)改變量化階大小化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng),的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng),即量化階的大小每隔幾個(gè)樣本就改變,也可以是音節(jié)自適應(yīng),即即量化階的大

12、小每隔幾個(gè)樣本就改變,也可以是音節(jié)自適應(yīng),即量化階的大小在較長(zhǎng)時(shí)間周期里發(fā)生變化。量化階的大小在較長(zhǎng)時(shí)間周期里發(fā)生變化。前向是指(n) 是由估計(jì)輸入信號(hào)而得到的,而后向是指由估計(jì)量化器的輸出前向自適應(yīng)是根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平,以此來(lái)確定量化階的大小,并對(duì)其電平進(jìn)行編碼作為邊信息(side information)傳送到接收端。其特點(diǎn)是使用原始信號(hào)提取預(yù)測(cè)系數(shù),精度比較高,預(yù)測(cè)的效果好。 但是需要將預(yù)測(cè)器系數(shù)用邊信息傳送到接收端的解碼器,從而減小了差值信號(hào)量化的有效比特?cái)?shù),處理的延時(shí)比較大。后向自適應(yīng)是從量化器剛輸出的過(guò)去樣本中來(lái)提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩

13、端自動(dòng)生成量化階,所以它不需要傳送邊信息。后向自適應(yīng)預(yù)測(cè)利用量化后的信號(hào)提取預(yù)測(cè)信號(hào),避免了前向自適應(yīng)預(yù)測(cè)的缺點(diǎn),但是由于存在量化噪聲,使得預(yù)測(cè)系數(shù)的提取精度收到一定的影響。預(yù)測(cè)編碼及其自適應(yīng)預(yù)測(cè)編碼及其自適應(yīng)APC在第六章中我們?cè)敿?xì)討論了線性預(yù)測(cè)分析原理,利用線性預(yù)測(cè)可以改進(jìn)編碼中的量化器性能,因?yàn)轭A(yù)測(cè)誤差e(n)的動(dòng)態(tài)范圍和平均能量均比信號(hào)x(n)小,如果對(duì)e(n)進(jìn)行量化和編碼,則量化bit數(shù)將減少。在接收端,只要使用與發(fā)送端相同的預(yù)測(cè)器,就可恢復(fù)原信號(hào)x(n)。 基于這種原理的編碼方式稱(chēng)為預(yù)測(cè)編碼(predictive coding,簡(jiǎn)稱(chēng)PC) 當(dāng)預(yù)測(cè)系數(shù)是自適應(yīng)隨語(yǔ)音信號(hào)變化時(shí),又稱(chēng)

14、為自適應(yīng)預(yù)測(cè)編碼自適應(yīng)預(yù)測(cè)編碼(Adaptive PC,簡(jiǎn)稱(chēng)APC)。 )( )()(nxnxne語(yǔ)音數(shù)據(jù)流一般分為10 20 ms相繼的幀,而預(yù)測(cè)器系數(shù)(或其等效參數(shù))則與預(yù)測(cè)誤差一起傳輸。 在接收端,用由預(yù)測(cè)器系數(shù)控制的逆濾波器再現(xiàn)語(yǔ)音。采用自適應(yīng)技術(shù)后,預(yù)測(cè)器P(z)要自適應(yīng)變化,以便與信號(hào)匹配。 自適應(yīng)差分脈沖編碼調(diào)制自適應(yīng)差分脈沖編碼調(diào)制ADPCM及自適應(yīng)增及自適應(yīng)增量調(diào)制量調(diào)制ADM在DM中,與量化階梯相比,當(dāng)語(yǔ)音波形幅度發(fā)生急劇變化時(shí),譯碼波形不能充分跟蹤這種急劇的變化而必然產(chǎn)生失真,這稱(chēng)為斜率過(guò)載斜率過(guò)載。 相反地,在沒(méi)有輸入語(yǔ)音的無(wú)聲狀態(tài)時(shí),或者是信號(hào)幅度為固定值時(shí),量化輸出

15、都將呈現(xiàn)0、1交替的序列,而譯碼后的波形只是的重復(fù)增減。這種噪聲稱(chēng)為顆粒噪聲顆粒噪聲,它給人以粗糙的噪聲感覺(jué)。 為了減少斜率過(guò)載失真,必須把設(shè)計(jì)得大一些;但是過(guò)大,又增加了顆粒噪聲。因此,兼顧兩方面要求,需按均方量化誤差為最?。词箖煞N失真均減至最?。﹣?lái)選擇。 即采用隨輸入波形自適應(yīng)地改變大小的自適應(yīng)編碼方式,使值隨信號(hào)平均斜率而變化;斜率大時(shí),自動(dòng)增大;反之則減小。這就是自適應(yīng)增量調(diào)制(Adaptive,DM,簡(jiǎn)稱(chēng)ADM)。 2. 自適應(yīng)增量調(diào)制自適應(yīng)增量調(diào)制ADM引入自適應(yīng)技術(shù)后、ADM大約可增多10dB的增益。實(shí)驗(yàn)表明,取樣率為56kHz時(shí)ADM具有與取樣率為8kHz時(shí)的7bit對(duì)數(shù)PC

16、M相同的語(yǔ)音質(zhì)量。 差分脈沖編碼調(diào)制DPCM 降低傳輸比特率的一種方法是減少必須編碼的信息量,這要利用語(yǔ)音信號(hào)中大量的冗余度。在相鄰的語(yǔ)音樣本之間存在著明顯的相關(guān)性,因此,對(duì)相鄰樣本間的差信號(hào)(差分)進(jìn)行編碼,便可謀求信息量的壓縮,因?yàn)椴罘中盘?hào)比原語(yǔ)音信號(hào)的動(dòng)態(tài)范圍和平均能量都小。這種編碼稱(chēng)為差分脈沖編碼調(diào)制差分脈沖編碼調(diào)制(Differential PCM,簡(jiǎn)稱(chēng)DPCM)。 DPCM實(shí)質(zhì)上是預(yù)測(cè)編碼APC的一種特殊情況,是最簡(jiǎn)單的一階線性預(yù)測(cè),即 A(z) = 1 a1z-1 當(dāng)a1= 1時(shí),被量化的編碼是e(n)x(n) - x(n-1) DPCM編碼的原理編碼的原理量化器編碼器預(yù)測(cè)器+-

17、)(ndq)(nd)(ns)(nI)(nsp)(nsr的代碼。是是量化后的差值信號(hào),積累。構(gòu)可以避免量化誤差的采用這種結(jié)系統(tǒng)是一個(gè)反饋系統(tǒng),中產(chǎn)生的量化誤差。來(lái)補(bǔ)償過(guò)去編碼信號(hào)進(jìn)行量化編碼,用實(shí)際上就是對(duì)這個(gè)差值系統(tǒng)。為差值信號(hào)或余量信號(hào)是預(yù)測(cè)誤差信號(hào),也稱(chēng)是預(yù)測(cè)語(yǔ)音信號(hào),入信號(hào)。下一個(gè)信號(hào)估計(jì)值的輸預(yù)測(cè)器確定是重建語(yǔ)音信號(hào),作為是輸入語(yǔ)音信號(hào),)()()()()()()(ndnIndDPCMDPCMndnsnsnsqqpr解碼器預(yù)測(cè)器+)( nI)(ndq)(nsp)(nsr由于a1是固定的,顯然它不可能對(duì)所有講話(huà)者和所有語(yǔ)音內(nèi)容都是最佳的,如果采用高階(p 1)的固定頂測(cè),改善效果并不明顯

18、;比較好的方法是采用高階自適應(yīng)預(yù)測(cè)。采用自適應(yīng)量化及高階自適應(yīng)預(yù)測(cè)的DPCM稱(chēng)為ADPCM,它本質(zhì)上也是一種APC。 CCITT(國(guó)際電報(bào)電話(huà)咨詢(xún)委員會(huì))在1984年提出的32kbit/s編碼器建議(G721),就是采用ADPCM作為長(zhǎng)途傳輸中一種新的國(guó)際通用語(yǔ)音編碼方案。這種ADPCM可達(dá)到標(biāo)準(zhǔn)kbit/sPCM的語(yǔ)音傳輸質(zhì)量,并具有很好的抗誤碼性能。 子帶編碼子帶編碼SBC帶通濾波頻率搬移量化編碼帶通濾波頻率搬移量化編碼量化編碼頻率搬移帶通濾波合路112 wfs222 wfsMw1w2ws(n)發(fā)信碼子帶編碼(Sub-Band Coding,簡(jiǎn)稱(chēng)SBC)也稱(chēng)為頻帶分割編碼 首先使用帶通濾波

19、器組將語(yǔ)音信號(hào)分割成若干個(gè)頻段也稱(chēng)為子帶,然后用調(diào)制的方法對(duì)濾波后的信號(hào)即子帶信號(hào)進(jìn)行頻譜平移變成低通信號(hào)(即基帶信號(hào)),以利于降低取樣率進(jìn)行抽??;再利用奈奎斯特速率對(duì)其進(jìn)行取樣,最后再進(jìn)行編碼處理。而信號(hào)的恢復(fù)按與上面完全相反的過(guò)程進(jìn)行。 帶通濾波頻率搬移譯碼帶通濾波頻率搬移譯碼譯碼頻率搬移帶通濾波分路112 wfs222 wfsMw1w2wMsMwf 2收信碼sr(n)SBC解碼器解碼器SBC的優(yōu)點(diǎn)是對(duì)應(yīng)于人的聽(tīng)覺(jué)特性,可以比較容易地考慮噪聲的抑制;即各子帶可以選用不同的量化參數(shù)以分別控制其信噪比,滿(mǎn)足主觀聽(tīng)覺(jué)的要求。 例如,由于語(yǔ)音能量的不平衡,對(duì)于含有基音頻率和第一共振峰的低頻部分,對(duì)

20、語(yǔ)音清晰度等主觀品質(zhì)影響較大,應(yīng)分配比較多的信息、量化細(xì)些;反之,高頻部分的量化就可粗些。 這樣,可以減少量化噪聲對(duì)聽(tīng)覺(jué)的妨害程度,整體上也能降低比特?cái)?shù)。另外,量化噪聲只能出現(xiàn)在各被分割的頻帶內(nèi),對(duì)其他頻帶沒(méi)有任何影響,所以可以較容易地控制噪聲譜。 各子帶的帶寬可以是相同的也可以是不相同的,相同的稱(chēng)為等帶寬子帶編碼,不同的稱(chēng)為變帶寬子帶編碼。正交鏡像濾波器組正交鏡像濾波器組自適應(yīng)變換編碼自適應(yīng)變換編碼ATC第11章 語(yǔ)音編碼(2)-聲碼器技術(shù)及混合編碼參數(shù)編碼也稱(chēng)為模型編碼。它是對(duì)語(yǔ)音信號(hào)建立模型,然后對(duì)模型參數(shù)或是語(yǔ)音的特征參數(shù)進(jìn)行編碼,力圖使重建語(yǔ)音信號(hào)在聽(tīng)覺(jué)上具有盡可能高的清晰度和可懂度

21、。v線性預(yù)測(cè)聲碼器線性預(yù)測(cè)聲碼器:應(yīng)用最成功的低速率參數(shù)語(yǔ)音編碼器。:應(yīng)用最成功的低速率參數(shù)語(yǔ)音編碼器。線性預(yù)測(cè)線性預(yù)測(cè)分析器分析器編碼器編碼器音調(diào)音調(diào)檢測(cè)器檢測(cè)器線性預(yù)測(cè)線性預(yù)測(cè)合成器合成器解碼器解碼器)(ns)(ns信道LPC聲碼器框圖11.1 線性預(yù)測(cè)聲碼器線性預(yù)測(cè)聲碼器v與利用線性預(yù)測(cè)的波形編碼不同的是它的接收端不再利用殘差,即不具體恢復(fù)與利用線性預(yù)測(cè)的波形編碼不同的是它的接收端不再利用殘差,即不具體恢復(fù)輸入語(yǔ)音的波形,而是直接利用預(yù)測(cè)系數(shù)等參數(shù)合成傳輸語(yǔ)音。輸入語(yǔ)音的波形,而是直接利用預(yù)測(cè)系數(shù)等參數(shù)合成傳輸語(yǔ)音。vLPC有作為預(yù)測(cè)器和作為模型的雙重作用。有作為預(yù)測(cè)器和作為模型的雙重作

22、用。LPC參數(shù)的變換和量化變幀率LPC聲碼器v充分利用了語(yǔ)音信號(hào)在時(shí)域上的冗余度,尤其是元音和擦音在發(fā)音過(guò)程中都有充分利用了語(yǔ)音信號(hào)在時(shí)域上的冗余度,尤其是元音和擦音在發(fā)音過(guò)程中都有緩變的區(qū)間,描述這部分區(qū)間的語(yǔ)音不必像一些快變語(yǔ)音那樣用很多比特的信緩變的區(qū)間,描述這部分區(qū)間的語(yǔ)音不必像一些快變語(yǔ)音那樣用很多比特的信息量。息量。v語(yǔ)音信號(hào)是非平穩(wěn)的時(shí)變信號(hào),波形變化隨時(shí)間而不同。(清音至濁音的過(guò)渡語(yǔ)音信號(hào)是非平穩(wěn)的時(shí)變信號(hào),波形變化隨時(shí)間而不同。(清音至濁音的過(guò)渡段,語(yǔ)音特性變化劇烈,理論上應(yīng)用較短的分析幀,要求段,語(yǔ)音特性變化劇烈,理論上應(yīng)用較短的分析幀,要求LPC聲碼器至少每隔聲碼器至少每

23、隔10ms就發(fā)送一幀新的就發(fā)送一幀新的LPC參數(shù);而對(duì)于濁音部分,在發(fā)音過(guò)程中有緩變的區(qū)間參數(shù);而對(duì)于濁音部分,在發(fā)音過(guò)程中有緩變的區(qū)間,語(yǔ)音信號(hào)的頻譜特性變化很小,分析幀就可以取長(zhǎng)些;在語(yǔ)音活動(dòng)停頓情況,語(yǔ)音信號(hào)的頻譜特性變化很小,分析幀就可以取長(zhǎng)些;在語(yǔ)音活動(dòng)停頓情況下更是如此。)下更是如此。)v因而可以采用變幀速率的編碼技術(shù)來(lái)降低聲碼器的平均傳輸碼率。因而可以采用變幀速率的編碼技術(shù)來(lái)降低聲碼器的平均傳輸碼率。v實(shí)現(xiàn)思路實(shí)現(xiàn)思路:幀長(zhǎng)可保持恒定,不必將每幀:幀長(zhǎng)可保持恒定,不必將每幀LPC參數(shù)都去編碼和傳送,合成部參數(shù)都去編碼和傳送,合成部分所需的參數(shù)可以通過(guò)重復(fù)使用其前幀參數(shù)或內(nèi)插的方法

24、獲得,可降低平均傳分所需的參數(shù)可以通過(guò)重復(fù)使用其前幀參數(shù)或內(nèi)插的方法獲得,可降低平均傳碼率。碼率。v關(guān)鍵問(wèn)題關(guān)鍵問(wèn)題:需要一種度量方法來(lái)確定當(dāng)前幀參數(shù)和上一幀參數(shù)之間的差異(:需要一種度量方法來(lái)確定當(dāng)前幀參數(shù)和上一幀參數(shù)之間的差異(距離)。距離)。11.2 LPC-10編碼器編碼器 11.3 語(yǔ)音信號(hào)的混合編碼v 20世紀(jì)世紀(jì)80年代后期,綜合了參數(shù)編碼低比特率與波形編碼高語(yǔ)音質(zhì)量?jī)?yōu)點(diǎn)的混年代后期,綜合了參數(shù)編碼低比特率與波形編碼高語(yǔ)音質(zhì)量?jī)?yōu)點(diǎn)的混合編碼得到廣泛的使用。合編碼得到廣泛的使用。v最為典型的就是最為典型的就是CELP模型。它在比特率為模型。它在比特率為4-16Kbps時(shí)已經(jīng)可以得到

25、比其他算法時(shí)已經(jīng)可以得到比其他算法更高的重建語(yǔ)音質(zhì)量。更高的重建語(yǔ)音質(zhì)量。v得到最廣泛應(yīng)用的是得到最廣泛應(yīng)用的是LPAS(基于線性預(yù)測(cè)技術(shù)的分析(基于線性預(yù)測(cè)技術(shù)的分析-合成編碼方法),通過(guò)線合成編碼方法),通過(guò)線性預(yù)測(cè)確定系統(tǒng)參數(shù),并通過(guò)閉環(huán)或分析性預(yù)測(cè)確定系統(tǒng)參數(shù),并通過(guò)閉環(huán)或分析-合成方法來(lái)確定激勵(lì)序列。合成方法來(lái)確定激勵(lì)序列。短時(shí)預(yù)測(cè)器:分析語(yǔ)短時(shí)預(yù)測(cè)器:分析語(yǔ)音信號(hào)的共振峰結(jié)構(gòu)音信號(hào)的共振峰結(jié)構(gòu)(譜包絡(luò))(譜包絡(luò))長(zhǎng)時(shí)預(yù)測(cè)器:分析語(yǔ)長(zhǎng)時(shí)預(yù)測(cè)器:分析語(yǔ)音信號(hào)的基音結(jié)構(gòu)音信號(hào)的基音結(jié)構(gòu)感知加權(quán)濾波器:使得量化誤差能被高能量的共振峰所掩蓋。激勵(lì)信號(hào)依據(jù)MSE選擇v3種最常見(jiàn)的分析種最常見(jiàn)的

26、分析-合成線性預(yù)測(cè)編碼算法分別是:合成線性預(yù)測(cè)編碼算法分別是:v多脈沖線性預(yù)測(cè)算法(多脈沖線性預(yù)測(cè)算法(MP-LPC)v規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(RPE-LPC)v碼激勵(lì)線性預(yù)測(cè)編碼(碼激勵(lì)線性預(yù)測(cè)編碼(CELP):具有較高質(zhì)量的合成語(yǔ)音和良好的抗噪性):具有較高質(zhì)量的合成語(yǔ)音和良好的抗噪性和多次復(fù)接能力,近年很多聲碼器基于該模型。和多次復(fù)接能力,近年很多聲碼器基于該模型。傳統(tǒng)的LPC聲碼器采用的是二元激勵(lì),它將激勵(lì)源分為清音和濁音;CELP的主要改進(jìn)是采用矢量量化技術(shù)對(duì)激勵(lì)信號(hào)編碼,將事先經(jīng)過(guò)訓(xùn)練得到的一組碼矢量組成一個(gè)碼本,然后對(duì)每一幀語(yǔ)音信號(hào)從這組碼本中選出一個(gè)

27、在感知加權(quán)誤差最小意義上的最佳碼矢作為激勵(lì)源。用一個(gè)固定的隨機(jī)碼本中的碼矢量來(lái)逼近語(yǔ)音經(jīng)過(guò)短時(shí)、用一個(gè)固定的隨機(jī)碼本中的碼矢量來(lái)逼近語(yǔ)音經(jīng)過(guò)短時(shí)、長(zhǎng)時(shí)預(yù)測(cè)后的余量信號(hào)。長(zhǎng)時(shí)預(yù)測(cè)后的余量信號(hào)。用一個(gè)自適應(yīng)碼本中的碼矢量來(lái)逼近語(yǔ)音的長(zhǎng)時(shí)周期性(基音)結(jié)構(gòu);)( ns碼本誤差最小化索引)(ns)(nSw)(nv)(nx)(nc)(zp)(zA)(zW)(zW)(ne_CELP編碼器示意圖 CELP模型編碼仍基于語(yǔ)音的短時(shí)特性,采用模型編碼仍基于語(yǔ)音的短時(shí)特性,采用LAPS與矢量量化。在編碼類(lèi)型上與矢量量化。在編碼類(lèi)型上,既采用了類(lèi)似聲源模型的語(yǔ)音合成方法,又做了波形的最佳匹配,所以同時(shí),既采用了類(lèi)似

28、聲源模型的語(yǔ)音合成方法,又做了波形的最佳匹配,所以同時(shí)具有參數(shù)編碼與波形編碼的特征,故稱(chēng)為混合編碼。具有參數(shù)編碼與波形編碼的特征,故稱(chēng)為混合編碼。 11.4 現(xiàn)代通信中的語(yǔ)音信號(hào)編碼方法v當(dāng)前語(yǔ)音編碼的研究主要致力于如何在較低數(shù)據(jù)速率的條件下提高聲碼器的語(yǔ)當(dāng)前語(yǔ)音編碼的研究主要致力于如何在較低數(shù)據(jù)速率的條件下提高聲碼器的語(yǔ)音質(zhì)量使之盡量接近有線話(huà)音質(zhì)量。音質(zhì)量使之盡量接近有線話(huà)音質(zhì)量。v目前的系統(tǒng)中,基于算法的算法在語(yǔ)音質(zhì)量與比目前的系統(tǒng)中,基于算法的算法在語(yǔ)音質(zhì)量與比特速率間取得了很好的平衡,且適用于變速率編碼,抗干擾能力也令人滿(mǎn)意,特速率間取得了很好的平衡,且適用于變速率編碼,抗干擾能力也

29、令人滿(mǎn)意,從而得到了極為廣泛的應(yīng)用。從而得到了極為廣泛的應(yīng)用。7.6.1 EVRC算法基本原理算法基本原理vEVRC采用采用8kHz采樣頻率的采樣頻率的16bit線性線性PCM信號(hào)作為輸入信號(hào),以信號(hào)作為輸入信號(hào),以20ms(即即160個(gè)個(gè)采樣點(diǎn)采樣點(diǎn))為一幀進(jìn)行編解碼。為一幀進(jìn)行編解碼。v根據(jù)輸入信號(hào)的特點(diǎn)來(lái)選擇編碼速率根據(jù)輸入信號(hào)的特點(diǎn)來(lái)選擇編碼速率變速率編碼變速率編碼平均比特速率低于平均比特速率低于8kbps。v最后編碼結(jié)果的比特速率為最后編碼結(jié)果的比特速率為8.5kbps(全速率全速率),4kbps(半速率半速率)或或0.8kbps(1/8速率速率)。)。vEVRC使用了使用了3種類(lèi)型

30、的參數(shù)來(lái)表征語(yǔ)音模型種類(lèi)型的參數(shù)來(lái)表征語(yǔ)音模型線性預(yù)測(cè)系數(shù)、基音參數(shù)、激線性預(yù)測(cè)系數(shù)、基音參數(shù)、激勵(lì)信號(hào)。勵(lì)信號(hào)。v每一個(gè)每一個(gè)20ms幀中,它產(chǎn)生幀中,它產(chǎn)生10個(gè)個(gè)LP系數(shù),并根據(jù)編碼速率采用不同精度系數(shù),并根據(jù)編碼速率采用不同精度的矢量量化,并采用相應(yīng)的比特?cái)?shù)表達(dá)。的矢量量化,并采用相應(yīng)的比特?cái)?shù)表達(dá)。v基音周期估計(jì):采用兩步法,先在基音周期估計(jì):采用兩步法,先在20ms內(nèi)開(kāi)環(huán)搜索得到一個(gè)最佳基音周內(nèi)開(kāi)環(huán)搜索得到一個(gè)最佳基音周期,然后線性?xún)?nèi)插得到基音曲線,最后用自適應(yīng)碼本來(lái)映射長(zhǎng)時(shí)相關(guān)性期,然后線性?xún)?nèi)插得到基音曲線,最后用自適應(yīng)碼本來(lái)映射長(zhǎng)時(shí)相關(guān)性。這樣可減小基音的比特速率。這樣可減小基音

31、的比特速率。v激勵(lì)信號(hào):激勵(lì)信號(hào):EVRC采用代數(shù)碼本。采用代數(shù)碼本。共振峰合成濾波器自適應(yīng)碼本固定碼本隨機(jī)碼矢量增益自適應(yīng)碼矢量增益基音周期固定碼本索引)(nET)(nC)(nE) (nSpgcg語(yǔ)音合成示意圖編碼器示意圖信號(hào)處理信號(hào)處理參數(shù)參數(shù)短時(shí)殘差短時(shí)殘差/速率編碼速率編碼/速率編碼速率編碼數(shù)碼率判別數(shù)碼率判別長(zhǎng)時(shí)延遲估計(jì)長(zhǎng)時(shí)延遲估計(jì)增益增益) (nS)(nsp采樣信號(hào)采樣信號(hào))(n,10.3 , 2 , 11 ,ia濾波,降噪濾波,降噪7.6.2 EVRC算法概述算法概述編碼器示意圖預(yù)處理預(yù)處理參數(shù)參數(shù)短時(shí)殘差短時(shí)殘差/速率編碼速率編碼/速率編碼速率編碼數(shù)碼率判別數(shù)碼率判別長(zhǎng)時(shí)延遲估計(jì)長(zhǎng)時(shí)延遲估計(jì)增益增益) (nS)(nsp采樣信號(hào)采樣信號(hào))(n,10.3 , 2 , 11 ,ia濾波,降噪濾波,降噪經(jīng)經(jīng)8kHz采樣,采樣,16bit量化后得到的線性量化后得到的線性PCM信號(hào)信號(hào)s(n)首先被送到預(yù)處理模塊。在這里經(jīng)過(guò)三級(jí)二階首先被送到預(yù)處理模塊。在這里經(jīng)過(guò)三級(jí)二階Butterworth濾波器(截止頻率濾波器(截止頻率120Hz的高通,抑制非人聲的造音分量,包括的高通,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論