第十一章聲碼器和混合編碼

上傳人：小*** IP屬地：天津上傳時間：2021-11-27 格式：DOC 頁數(shù)：100 大小：2.64MB 積分：35 舉報 版權(quán)申訴

已閱讀5頁，還剩95頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第10章語音編碼(1)波形編碼:概述及分類脈沖編碼調(diào)制PCM:預(yù)測編碼及其自適應(yīng)APC：自適應(yīng)差分脈沖編碼調(diào)制ADPCM及自適應(yīng)增量調(diào) 制ADM：子帶編碼SBC自適應(yīng)變換編碼ATC語音編碼：Speech Coding,在語音通信及人類信息交流中占舉足輕重的地位。研究對語音信號進(jìn)行壓縮傳輸、存儲等內(nèi)容。目前數(shù) 字通信得以廣泛應(yīng)用，語音編碼是將模擬語音數(shù)字化的手段。將語音信號編碼為二進(jìn)制數(shù)字序列，最簡單的方法是對其直接進(jìn)行模/數(shù)變換；只要取樣率足夠高，量化每個樣本的比特數(shù)足夠多，則可以保證解碼恢復(fù)的語音信號有很好的音質(zhì)，不會丟失有用信息。然而對語音信號直接數(shù)字化所需的數(shù)碼率太高，例如，普通的

2、電話通信中采用8kHz取樣率，如用12bit進(jìn)行量化，則數(shù)碼率為 96kbit/so這樣大的數(shù)碼率即使對很大容量的傳輸信道也是難以承受的，因而必須對語音信號進(jìn)行壓縮編碼。語音編碼目的：在保持可以接受的失真的情況下，采用盡可能少的比特數(shù)表示語音，即減少傳輸碼率或存儲量。編碼后同樣的信道容量能傳輸更多路的信號，因而這類編碼又稱為壓縮編碼，壓縮編碼需要在保持可懂度與音質(zhì)、降低數(shù)碼率和降低編碼過程的計算代價三方面折衷。傳輸碼率：也稱為數(shù)碼率，指傳輸每秒鐘語音信號所需要的比特數(shù)。語音編碼分類：波形編碼，Waveform Coder; 參數(shù)編碼，Parametric Coder; 混合編碼，Hy

3、brid Coder波形編碼特點(diǎn)：針對語音波形進(jìn)行編碼，盡量保持輸入波形不變，即恢復(fù) 的語音信號基本上與輸入的語音信號波形相同。優(yōu)缺點(diǎn)：具有適應(yīng)能力強(qiáng)、語音質(zhì)量好等優(yōu)點(diǎn)，缺點(diǎn)是需要的編碼速率高。在16-64kbit/s的數(shù)碼率上能給出高的編碼質(zhì)量，當(dāng)數(shù)碼率進(jìn)一步降低時，其性能下降較快。典型的編碼方式：脈沖編碼調(diào)制PCM、自適應(yīng)差分脈沖編碼調(diào)制 ADPCM、子帶編碼SBC等。聲碼器：即參數(shù)編碼特點(diǎn)：先對語音信號進(jìn)行分析，提取出其參數(shù)，對參數(shù)進(jìn)行編碼, 解碼后這些參數(shù)重新合成出重構(gòu)的語音信號。力圖使重建的語音信號具有盡可能高的可懂度，而不必保持波形的一致。優(yōu)缺點(diǎn)：優(yōu)點(diǎn)是編碼速率低，可以低到2

4、.4kbps甚至以下，缺點(diǎn)是合成語音質(zhì)量差，特別是自然度低，處理復(fù)雜。典型的編碼方式：如通道聲碼器、相位聲碼器、同態(tài)聲碼器、線性預(yù)測聲碼器等。混合編碼特點(diǎn)：上述兩類方法的有機(jī)結(jié)合，與參數(shù)編碼相同的是，它也是基于語音產(chǎn)生模型的假定并采用了分析合成技術(shù)，但同時它又利用了語音的時間波形信息，增強(qiáng)了重建語音的自然度，使得語音質(zhì)量有明顯的提高，代價是編碼速率相應(yīng)上升，一般在1624Kbps之間。典型的編碼方式：多脈沖激勵線性預(yù)測編碼MPLPC、規(guī)則脈沖激勵線性預(yù)測編碼RPE-LPC、碼本激勵線性預(yù)測編碼CELP等波形編碼與參數(shù)編碼的比較波形編碼與參數(shù)編碼的比較波形編碼與參數(shù)編碼的比較參數(shù)編碼

5、波形編碼波形編碼與參數(shù)編碼的比較波形編碼與參數(shù)編碼的比較9 6-64KbpsSNR譜失真和主觀聽音編碼信息比特率語音質(zhì)量評價方法樓型鑒數(shù)2,49.6Kbps波形編碼與參數(shù)編碼的比較波形編碼與參數(shù)編碼的比較缺慮=1隨著量化粗糙語音質(zhì)董下降合成涪音質(zhì)量較低魯處理復(fù)雜度高按傳輸碼率分類高速率語音編碼：速率32kbit/s以上，PCM, 64kbit/s,主要用于公用電話網(wǎng)；1-1中高速率語音編碼：速率16-32kbit/s, ADPCM, 32kbit/s, 主要用于公用網(wǎng)；中速率語音編碼：速率4.8-16kbit/s, GSM用的RPE/LTP 13kbit/s> VSELP, 8kbit

6、/s主要用于數(shù)字移動通信話音郵件；低速率語音編碼：速率 1.2-4.8kbit/s, CELP, 4.8kb/s、LPC, 1.2kb/s,主要用于保密話音；極低速率語音編碼：速率1.2kbit/s以下脈沖編碼調(diào)制PCM波形編碼方式的最簡單形式是脈沖編碼調(diào)制(Pulse code modulation, 簡稱PCM)O它直接把語音信號進(jìn)行采樣量化，表示成二進(jìn)制數(shù) 字信號，并通過并串轉(zhuǎn)換過程轉(zhuǎn)換成串行的脈沖，并用脈沖對采樣幅度進(jìn)行編碼，以便于傳輸和存儲。編碼效它沒有利用語音信號的冗余度，所以信號沒有得到壓縮, 率很低。般，PCM有均勻PCM、非均勻PCM和自適應(yīng)PCM幾種形式1均勻PCM：

7、不論信號幅度的大小，它都采用同等的量化階距進(jìn)行量化，即采用均勻量化。A/D轉(zhuǎn)換數(shù)字語音編碼假設(shè)董化誤差藝仏）在各個量化間隔的區(qū)間里均勻分布, 則信號對址化噪聲的信噪比可近似寫為：SN/?(dB)= 6.02B-7.2其中B為量化器宇長。當(dāng)要求60dB的SNR時至少應(yīng)取llo 此時，對于帶寬為4kHz的電話語音信號，若采樣率為8kHz,則 PCM要求的速率為8KXH = 88 Kbp況2非均勻PCM：均勻量化的缺點(diǎn)就是不論語音信號的幅度大小而董化階距保持不變這樣在信號動態(tài)范圍較大而方差較小時，其信噪比將下降。從觀測到的語音信號概率密度可知，語音信號大量集中在低幅度 ±o因而，可以利

8、用非均勻量化來彌補(bǔ)均勻量化的缺點(diǎn)。這種量化在輸入為低電平時量化階距小，而高電平時量化階距大口即信號概率密度大的區(qū)間，量化間隔應(yīng)該小些;反之信號概率密度小的區(qū)間，量化間隔應(yīng)該大些。非均勻量化的基本思想是對大幅度的樣本使用大的' 對小幅度的樣本使用小的4在接收端按此還原。PCM的量化方式均勻量化與非均勻量化非均勻量化也可看作是將佶號進(jìn)行非線性變換后再作均勻量化. 通當(dāng)被電話系統(tǒng)釆用的PCM,利用語音信號幅度的統(tǒng)計特性，對幅度按對數(shù)變換壓縮,將壓縮后的信號作PCM,因此稱為對數(shù)PCMo 在譯碼時需要按指數(shù)進(jìn)行擴(kuò)展。這種技術(shù)也稱為壓縮擴(kuò)張技術(shù)。帚化輸人國際上釆用兩種非均勻量化方法：4

9、律和“律其中律PCM主要在北美和日本使用，A律PCM用于其他-1國家和地區(qū)。這兩種方式差別很小皿律壓縮是最常用的一種。在美國7位“律PCM-般已被接受為K途電話質(zhì)量的標(biāo)準(zhǔn)。設(shè)占（允為語音波形的取樣值，則聲律壓縮的定義為;匕5)杠5而y sgn(*j)jIn 1 +“ X八maxFTi式中用喚是工（小的最大幅度心是表示壓縮程.度的參量. p -0表示沒有壓縮，戸越大壓縮率越高，故稱之為H律壓編心通常嚴(yán)在100-500之間取值。取尹= 255,可以對電話質(zhì)量語音進(jìn)行編碼，其音質(zhì)與1?位均勻量化的音質(zhì)相當(dāng)乜我國則釆用A律壓縮，其壓縮公式為:FR&)二丙百沖工1 + nA jc( n )

10、/Xnwc ( . 11 + lnA丨R (兀)丨1% *“ /'tnax目前有標(biāo)椎的A律PCM編碼芯片（如2911） PWnnw-2553自適應(yīng) PCM(APCM)：PCM在量化間隔上存在矛盾：為適應(yīng)大的幅值要用大的,但為了提高信噪比又希望用小的亠除了前面介紹的非均勻量化外，還有一種是采用自適應(yīng)方法，稱為自適應(yīng)PCM (adaptive PCM,簡稱 APCM) o自適應(yīng)脈沖編碼調(diào)制(APCM)是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時自適應(yīng), 即量化階的大小每隔幾個樣本就改變，也可以是音節(jié)自適應(yīng)，即量化階的大小在較長時間周期里發(fā)生變化

11、。改變量化階大小的方法有兩種：一種稱為前向自適應(yīng)(fonvardadaptation),另一種稱為后向自適應(yīng)(backward adaptation)。前向是指()是由佔(zhàn)計輸入信號而得到的，而后向是指由彳占計量化器的輸出S(k)信道緩伸器1一量化器1.11111>¥ D化器邊信道前向自適應(yīng)是根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平，以此來確定量化階的大小，并對其電平進(jìn)行編碼作為邊信息(side information)傳送到接收端。其特點(diǎn)是使用原始信號提取預(yù)測系數(shù)，精度比較高，預(yù)測的效果好。但是需要將預(yù)測器系數(shù)用邊信息傳送到接收端的解碼器，從而減小了差值信號量化

12、的有效比特數(shù)，處理的延時比較大。s(k)量器適配器信道Sr(k)量化階適配器后向自適應(yīng)是從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動生成量化階，所以它不需要傳送邊信息。后向自適應(yīng)預(yù)測利用量化后的信號提取預(yù)測信號，避免了前向自適應(yīng)預(yù)測的缺點(diǎn)，但是由于存在量化噪聲，使得預(yù)測系數(shù)的提取精度收到一定的影響。預(yù)測編碼及其自適應(yīng)APC在第六章中我們詳細(xì)討論了線性預(yù)測分析原理，利用線性預(yù)測可以改進(jìn)編碼中的量化器性能，因為預(yù)測誤差e（）的動態(tài)范圍和平均能量均比信號兀小，如果對和）進(jìn)行量化和編碼，則量化bit數(shù)將減少。在接收端，只要使用與發(fā)送端相同的預(yù)測器，就可恢復(fù)原

13、彳言號x（n）o 基于這種原理的編碼方式稱為預(yù)測編碼（predictive coding,簡稱PC）當(dāng)預(yù)測系數(shù)是自適應(yīng)隨語音信號變化時，又稱為自適應(yīng)預(yù)測編碼（Adaptive PC,簡稱APC）。e(n) = x(n) 一 x(n)語音數(shù)據(jù)流一般分為10 20 ms相繼的幀，而預(yù)測器系數(shù)(或其等效參數(shù))則與預(yù)測誤差一起傳輸。在接收端，用由預(yù)測器系數(shù)控制的逆濾波器再現(xiàn)語音。釆用自適應(yīng)技術(shù)后，預(yù)測器Hz)要自適應(yīng)變化，以便與信號匹配。自適應(yīng)差分脈沖編碼調(diào)制ADPCM 及自適應(yīng)增量調(diào)制ADM一增調(diào)制(DIM!)及自適應(yīng)增調(diào)制(ADM)1 增調(diào)制增壘調(diào)制簡稱為DM或AM,是對一個語音信號的

14、信息用最低限度的一位來表示的方法。在這種調(diào)制方式中，首先判別下一個語音信號值比當(dāng)前的信號值是高還是低，如果髙則給定編碼“廣,如果低給定為這樣來進(jìn)行語音信號的編碼。X(z)如果差值為正，即下一個語音信號值比當(dāng)前的信號值高，則量化器輸岀為m如果差值為負(fù)，即下一個語音信號值比現(xiàn)在的信號值低，則量化器輸出為“0J在接收端,用接收的脈沖串控制，信號就可以用上升下降的階梯波形來逼近。在DM中，與量化階梯相比，當(dāng)語音波形幅度發(fā)生急劇變化時，譯碼波形不能充分跟蹤這種急劇的變化而必然產(chǎn)生失真，這稱為斜率過載。相反地，在沒有輸入語音的無聲狀態(tài)時，或者是信號幅度為固定值時，量化輸出都將呈現(xiàn)0、1交替的

15、序列，而譯碼后的波形只是的重復(fù)增減。這種噪聲稱為顆粒噪聲，它給人以粗糙的噪聲感覺。兩種噪聲的形式2.自適應(yīng)增量調(diào)制ADM為了減少斜率過載失真，必須把設(shè)計得大一些；但是過大，又增加了顆粒噪聲。因此，兼顧兩方面要求，需按均方量化誤差為最?。词箖煞N失真均減至最?。﹣磉x擇即采用隨輸入波形自適應(yīng)地改變大小的自適應(yīng)編碼方式，使厶值隨信號平均斜率而變化；斜率大時，自動增大；反之則減小。這就是自適應(yīng)增量調(diào)制（Adaptive, DM,簡稱ADM）。引入自適應(yīng)技術(shù)后、ADM大約可增多10dB的增益。實(shí)驗表明，取樣率為56kHz時ADM具有與取樣率為8kHz時的7bit對數(shù)PCM相同的語音質(zhì)量。

16、差分脈沖編碼調(diào)制DPCM降低傳輸比特率的一種方法是減少必須編碼的信息量，這要利用語音信號中大量的冗余度。在相鄰的語音樣本之間存在著明顯的相關(guān)性，因此，對相鄰樣本間的差信號(差分)進(jìn)行編碼，便可謀求信息量的壓縮，因為差分信號比原語音信號的動態(tài)范圍和平均能量都小。這種編碼稱為差分脈沖編碼調(diào)制(Differential PCM,簡稱DPCM) oDPCM實(shí)質(zhì)上是預(yù)測編碼APC的一種特殊情況，是最簡單的一階線性預(yù)測，即A二 1當(dāng)Q二1時,被量化的編碼是e(n)=x(n) - x(n-l)sG）是輸入語音信號，SpG）是重建語音信號，作為預(yù)測器確定下一"信號估計值的輸入信號。Sp（

17、n）是預(yù)測語音信號，d（n）是預(yù)測誤差信號，也稱為差值信號或余量信號。DPCM系統(tǒng) 實(shí)際上就是對這個差值信號進(jìn)行量化編碼，用來補(bǔ)償過去編碼中產(chǎn)生的量化誤差。DPCM系統(tǒng)是一個反饋系統(tǒng)，采用這種結(jié) 構(gòu)可以避免量化誤差的積累。切）是量化后的差值信號, 心）是d$ （斤）的代碼o由于0是固定的，顯然它不可能對所有講話者和所有語音內(nèi)容都是最佳的，如果采用高階（1）的固定頂測，改善效果并不明顯；比較好的方法是采用高階自適應(yīng)預(yù)測。采用自適應(yīng)量化及高階自適應(yīng)預(yù)測的DPCM稱為ADPCM,它本質(zhì)上也是一種 APCoCCITT （國際電報電話咨詢委員會）在1984年提出的32kbit/s編碼器建議（

18、G. 721）,就是采用ADPCM作為長途傳輸中一種新的國際通用語音編碼方案。這利1 ADPCM可達(dá)到標(biāo)準(zhǔn)kbit/sPCM的語音傳輸質(zhì)量，并具有很好的抗誤碼性能。子帶編碼SBC子帶編碼(Sub-Band Coding,簡稱SBC)也稱為頻帶分割編碼1帶通濾波頻率搬移量化編碼Avv9f 9 Aw合帶通濾波頻率搬移J s2量化編碼路帶通濾波頻率搬移量化編碼發(fā)信碼首先使用帶通濾波器組將語音信號分割成若干個頻段也稱為子帶，然后用調(diào)制的方法對濾波后的信號即子帶信號進(jìn)行頻譜平移變成低通信號(即基帶信號)，以利于降低取樣率進(jìn)行抽?。辉倮媚慰?斯特速率對其進(jìn)行取樣，最后再進(jìn)行編碼處理。而信號的恢復(fù)

19、按與上面完全相反的過程進(jìn)行。SBC解碼器在接收端，把總的編碼分成各子帶的編碼值，分別解碼，再經(jīng)頻譜平移，帶通濾彼,最后相加得到重建信號。SBC的優(yōu)點(diǎn)是對應(yīng)于人的聽覺特性，可以比較容易地考慮噪聲的抑制；即各子帶可以選用不同的量化參數(shù)以分別控制其信噪比，滿足主觀聽覺的要求。例如，由于語音能量的不平衡，對于含有基音頻率和第一共振峰的低頻部分，對語音清晰度等主觀品質(zhì)影響較大，應(yīng)分配比較多的信息、量化細(xì)些；反之，高頻部分的量化就可粗些。這樣，可以減少量化噪聲對聽覺的妨害程度，整體上也能降低比特數(shù)。另外，量化噪聲只能出現(xiàn)在各被分割的頻帶內(nèi)，對其他頻帶沒有任何影響，所以可以較容易地控制噪聲譜

20、。各子帶的帶寬可以是相同的也可以是不相同的，相同的稱為等帶寬子帶編碼，不同的稱為變帶寬子帶編碼。等帶寬子帶編碼的優(yōu)點(diǎn)是易于用硬件實(shí)現(xiàn)也便于進(jìn)行理論分析。設(shè)有M個子帶，則對于等帶寬子帶編碼，艸二W/MM 二 1,2,，M直中附是編碼系統(tǒng)總的帶寬,M是子帶總數(shù)在變帶寬編碼中，常用的子帶劃分方法是令各子帶寬度隨由增加而增加,也就是低頻段的子帶寬度較窄，高頻段的較寬。這樣劃分環(huán)僅和語音信號的功率相匹配而且也和語音信號的可懂度:EO. tUL或清晰度隨頻率變化的關(guān)系相匹配。中具有相同帶寛的各子帶對語音可懂度研究表明,語音信號頻帶H影響是不同的。低頻段的彩響大，高頻段的影響小。因此，將低頻段的子帶分

21、得細(xì)一些,量化精度高一些,就可能使整個重建語音的質(zhì) 量高一些。但是在等帶寬分割時，肘不同子帶分配不同的比特數(shù)，等帶寬子帶編碼也能獲得很好的質(zhì)量戔持別是當(dāng)M比較大時（例如M=16或32SBC中，相鄰子帶的交迭區(qū)或間隔應(yīng)盡量小。為了減小相鄰子帶的交迭區(qū)或間隔，濾波器的滾降特性應(yīng)該比較陡'代價是增加濾波器階數(shù)。川12i3412 .34l H W) Ia*(a)理想四了帯誕波曙組幅頻特性實(shí)際濾波器幅度響應(yīng)都有有限滾降持性，因此，在具體實(shí)現(xiàn)濾波組時有兩種情況。424(b)四f帶濾波器組幅頻特性一種是各子帶濾波器之間有交疊區(qū)域。若按理想帶通濾波器Nyquist 速率采樣，則會產(chǎn)生混疊若按實(shí)

22、際子帶寬度的Nvquist速率采樣，則會增加總的編碼速率。第二種情況各子帶之間有一定的間隙。實(shí)際語音帶寬小于原始語音帶寬，雖可以降低總的編碼邃率但重建語音會產(chǎn)生混響的主觀感覺。這兩種情況都要求濾波器組的滾降特性比較陡，盡最接近理想帶通特性，其代階是必須增加濾波器階數(shù)，從而使硬件復(fù)雜化。實(shí)際應(yīng)用中SBC往往采用“整數(shù)帶”取樣方法。因為該方法不需要調(diào)制器來平移各子帶的頻譜成分，所以有利于硬件實(shí)現(xiàn)。整數(shù)帶分割是措各子帶的下截止頻率幾恰好是該子帶寬度的整數(shù)倍，即:根據(jù)帶通信號的采樣定理，這時可以用f = 2SW,直接對子帶信號采樣，而不發(fā)生混疊。圖給出了子吊信號的取樣、編碼和解碼過程:/.&

23、#39; ”1回壬巴-/ .f理*叫丿;-（ + ）/;打.-mJ 仆 /2匚 3Z 4/.J 丨 t t !5）幅度iffW=22/.（卜2 /. j,按厲贏樣1 /-2/.02./.4/.'. 山心樣洽詁打譜 “2丿；”M誌L 顱構(gòu)常廿譜在發(fā)送端，各個濾波器的輸出按2£速率轉(zhuǎn)取樣（£是第i個子帶的帶寬）, 重新取樣后的子信號經(jīng)編碼和多路器后送入數(shù)字信道。：在接收端，分路器和解碼器恢復(fù)岀各子帶信號，它們經(jīng)過補(bǔ)零、再增加取樣, 和原始信號昭口）相同；再通過和發(fā)送端相同的一組帶通濾波掘”最后對各濾波器輸岀求和便產(chǎn)生出重構(gòu)的語音信號。正交鏡像濾波器組對于各子帶之間有疊

24、接的濾波器組，如果按理想帶通的Nyquist采樣定理對子帶信號采樣，則會產(chǎn)生混疊。為了減少混疊造成的失真，濾波；器的滾降特性必須陡lb肖，這就要求濾波器的階數(shù)較高。在數(shù)字濾波器實(shí)現(xiàn)中為了實(shí)現(xiàn)線性相位濾波，往往需要采用128256階甚至更高階的FIR濾波器才能使混疊效應(yīng)不至于對編碼質(zhì)量產(chǎn)生明顯的影響，這無疑會使實(shí)現(xiàn)濾波器的運(yùn)算負(fù)擔(dān)太重。止交鏡像濾波器組QMFB 不但能夠解決混疊問題，面目對濾波器的滾降特性可以大大降低要求, 般只要16-32階就足夠。這種方法首先將整個語咅帶分成兩個相零部分Hi形成子帶，然后這些子帶被同樣分割以形成四個子帶。這個過程可按島藍(lán)重龕. 以產(chǎn)4；任何吵個了帑

25、窓采用這種方法的濾波器就稱為正交鏡像濾波器°止交鏡像遞波器的原理如圖°圖儀是低通濾波器，其通帶為工5）的下半帶；浙仮繪上半帶，是相應(yīng)丁出的鏡像濾波器。這種濾波器所具有的性質(zhì)是：匕子帶濾波器的頻率響應(yīng)足卜嚴(yán)帶濾波器頻率響應(yīng)的鏡像，即I H（出曲）| = |武中、口二2處£ = 2tt/ T是卞（幾）的取樣角頻率（.這樣一對濾波器可用有限沖激響應(yīng)（FIR）數(shù)字濾波器實(shí)現(xiàn),U2是將乩沖激響應(yīng)每隔-個樣本的符號反號由H得到的。子帶每分隔一次+采樣率就隨著降低1倍。在接收器，輸人樣本通過內(nèi)插進(jìn)行過采樣，并采用與發(fā)送端濾波器相匹配的數(shù)字濾波器進(jìn)行帶逋濾波7自適應(yīng)

26、變換編碼ATC利用正交變換，把信號從時域變換到另一個域°正交變換可起相關(guān)的作用，使變換域系數(shù)集中在一個較小范圍內(nèi)把語音數(shù)據(jù)串分成相鄰的幀J每幀由運(yùn)算A進(jìn)行變換并對變換值進(jìn)行編碼和傳輸匕在接收端由反變換來恢復(fù)原來語音。設(shè)-幀涪昔信號訊九)w " W N -，町以形成個咲量 x = 15 (0), (I )H- j(yv - |) J1這里T表水轉(zhuǎn)置J該矢最通過一個正交變換矩陣A ,作一個線性變換式中M滿足4"y -肛A1,J中的兀素就是變換域系數(shù),它們被竝化后形成矢量" 在接收端通過逆變換重構(gòu)出倍號矢量ix = Ay = 4tj 這里，問題是要提供一種合

27、適的正交變換“主要選擇對象有DFT、沃爾什-哈達(dá)馬變換、離散余弦變換DCT (Discrete Cosine Transform) KLT變換(Karhunen - Ueve Transform)。目前正交變換都采用DCT, 并往往將這種方式稱為ATS其原因是DCT有以下特點(diǎn):(D DCrr與KLT相比，頻域變換明確且與人的聽覺頻率分析機(jī)理相對應(yīng),因此容易控制量化噪聲的頻率范圍匚 DCT提供的性能一般在KLT的1 - 2 dB之內(nèi)其他變換則相當(dāng)差。而KLT的計算量太大。由于DCTH需在每幀采用FFT運(yùn)算即可，因此運(yùn)算董、數(shù)據(jù)量少他不需要傳輸特征矢量。由于DCT統(tǒng)計地近似丁氏時間最佳正交變

28、換和特征矢量，所以DCT與DFT相比，統(tǒng)汁地看DCT變換效率高° DC7與DFT相比號在端點(diǎn)取岀彼形的影響較小，在頻域區(qū)的畸變小。TV點(diǎn)DCT定義如下Y -X)血)二 x( rz) i)cos "2" g 甘"(0 蟲 & w 川一 1)n = Ui其反變換為*( n)=寺 £ Xf( c( fe)cos "" ； JT(0 w n W w - 1)式中I ( k = 0)U'2(1 w & w /v - i)ATC系統(tǒng)的原理框圖c上4離敝余輪變換一雖:化編叫=解礙一4余弦反變換計斤比特分配駅化何

29、隔佔(zhàn)計諸按每一幀作DCT變換，把DCT系數(shù)劃分為20個左右的頻帶，求各頻帶的平均功率，作為邊帶信息傳送口；這樣，編碼器輸出的信號為表示頻譜包絡(luò)的輔助信息以及被量化過的DCT系數(shù)舁專輸邊帶信息需要2 kbit/s的數(shù) 據(jù)量。第11章語音編碼（2）-聲碼器技術(shù)及混合編碼參數(shù)編碼也稱為模型編碼。它是對語音信號建立模型，然后對模型參數(shù)或是語音的特征參數(shù)進(jìn)行編碼，力圖使重建語音信號在聽覺上具有盡可能高的清晰度和可懂度。線性預(yù)測聲碼器是一種參數(shù)編碼方法。參數(shù)編碼利用生成模型，在幅度譜上逼近原誥音，但重建語音的波形與原語音信號的波形較大差別。參數(shù)編碼實(shí)現(xiàn)語音通信的設(shè)備通常稱為聲碼器；例：通道聲碼

30、器、共振峰聲碼器、同態(tài)聲碼器、LPC聲碼器；§11.1線性預(yù)測聲碼器線性預(yù)測聲碼器：應(yīng)用最成功的低速率參數(shù)語音編碼器。與利用線性預(yù)測的波形編碼不同的是它的接收端不再利用殘差，即不具體恢復(fù) 輸入語音的波形，而是直接利用預(yù)測系數(shù)等參數(shù)合成傳輸語音。 LPC有作為預(yù)測器和作為模型的雙重作用。直接量化預(yù)測系數(shù)不介適，因合成誤差大，甚至系統(tǒng)不穩(wěn)定。解決辦法：或用較多的bit量化每個預(yù)測器系數(shù)?；?qū)㈩A(yù)測器系數(shù)變換成具它參數(shù)形式。歸納起來，有以下兒種(1) 反射系數(shù)仏,危,，冷。分析表明：在區(qū)間-11對反射系數(shù)作線性量化是低效的：比特數(shù)應(yīng)非均分配，仏和他的比特數(shù)多些(56 bit) o(2) 對

31、數(shù)面積比，師。g = lg 1 += lg4 ; / = 1,2,-! 1- 4式屮咼,&+ 聲管第？節(jié)和第汁1節(jié)的截fin積。上式映射，使g呈相當(dāng)均勻的幅度分布，可以采用均勻量化; 參數(shù)間相關(guān)性低，經(jīng)內(nèi)插產(chǎn)生的濾波器是穩(wěn)定的，需 56 bit 量化。'，. -(3) 預(yù)測多項式的根務(wù)嘰、kp o對預(yù)測多項式4分解因式，有*)=1-& 件，b)對預(yù)測多項式的根進(jìn)行量化，易保證合成濾波器的穩(wěn)定性。每個根平均用5 bit量化就能精確表示屮包含的頻譜信息。問題：求根運(yùn)算量大，計算效率低，故該算法少用。> 一幀典型的LPC參數(shù)包括:1 bit清/濁音信息、大約5 bi

32、t增益常數(shù)、6 bit基音周期、反射系數(shù)或?qū)?shù)面積比平均56 bit量化(共有812個) 每幀共約60 bit。若25 ms幀，則編碼速率為2斗kbit/s左右。2.變幀率LPC聲碼器充分利用了語音信號在時域上的冗余度，尤其是元音和擦音在發(fā)音過程中都有緩變的區(qū)間，描述這部分區(qū)間的語音不必像一些快變語音那樣用很多比特的信語音信號是非平穩(wěn)的時變信號，波形變化隨時間而不同。（清音至濁音的過渡段，語音特性變化劇烈，理論上應(yīng)用較短的分析幀，要求LPC聲碼器至少每隔 10ms就發(fā)送一幀新的LPC參數(shù)；而對于濁音部分，在發(fā)音過程中有緩變的區(qū)間 ,語音信號的頻譜特性變化很小，分析幀就可以取長些；在語音活動

33、停頓情況下更是如此。）因而可以采用變幀速率的編碼技術(shù)來降低聲碼器的平均傳輸碼率。心辭數(shù)：Z鑑曲跡蠶瑟囁氐鑼碼率。謡問題：需要一種度量方法來確定當(dāng)前幀參數(shù)和上-幀參數(shù)之間的差異（§11.2 LPC-10 編碼器LPC10盧碼器>LPC-l(h美國1976年確定的2.4kb.to語音通信的標(biāo)準(zhǔn)技術(shù)。1981年公布作為聯(lián)邦政府標(biāo)準(zhǔn)FED-STD-1015oA該算法可介成清晰、可懂的語音，但抗噪能力和自然度欠佳。>LPC-10e： 2.4kbJ必速率，LPC-1O 的增強(qiáng)型。> H JL986年以來，美國第二代保密電話裝宜采用LPC-lOeo »本節(jié)主要包括：

34、>.發(fā)端編碼器* > 收端解碼器% LPC-10聲碼器存在的問題1.編碼器LPC-10編碼器框圖（幀180個樣，幀長22.5 ms）預(yù)加重濾波器的傳輸函數(shù)：”嚴(yán)=1-0.9375L】聲道濾波器參數(shù)RC、增益卍席用準(zhǔn)基音同步相位法計算。2.計算聲道濾波器參數(shù)用7采用10階LPC分析濾波器，利用協(xié)方差法計算預(yù)測系數(shù)：ava2".a1Q,（用U卩分解法對系數(shù)矩陣求逆）轉(zhuǎn)換成反射系數(shù)或部分相關(guān)系數(shù)（PARCOR） o（理論上，RC和PARCOR互為相反數(shù)） LPC分析采用半基音同步算法，即濁音幀長度取為130個樣本以內(nèi)的基音周期整數(shù)倍值, 來計算和增益心於。每一個基音周期都可以

35、單獨(dú)用一組系數(shù)處理。清音幀長度為22.5 ms的整幀屮點(diǎn)為屮心的130個樣本形成分析幀來計算R0和RA1SO3.計算増益RMS用如下公式計算増益RAIS:RMS =式屮 XU')經(jīng)過預(yù)加重的數(shù)字語音; 分析幀的長度。4.提取基音周期和檢測清/濁音 x輸入語音經(jīng)3 dB截止頻率為80() Hz的4階Buttenvorth低通濾波，濾波后信號冉經(jīng)二階逆濾波。 (盪詭波器葩系敷茍喩而LPC今桁爾列屜親時需畚嶽丿取樣頻率降低至原來的1/4,再計算延遲時間為20- 156個樣點(diǎn)的AMDF, 基音周期：由AMDF的最小值確定。計算AMDF：公式為AMDF(r) = Y： x(m)- x(m

36、+ r)|式中，t = 20,21,22,.,40,42,44,.,80.8488,156；相當(dāng)丁在50400 Hz范圍內(nèi)計算60個AMDF值。清/濁音判決：利用模式匹配技術(shù)，基丁低帶能量、AMDF函數(shù)最大值與最小值Z比、過零率作出的。對基音值、清/濁音判決結(jié)果用動態(tài)規(guī)劃算法：嗪裁1 在3幀范圍內(nèi)進(jìn)彳亍平滑和錯誤校正，從而給出當(dāng)前幀的基音周期T、清/濁音判決參數(shù)U譏每幀清/濁音判決結(jié)果用兩位碼表示四種狀態(tài)：00:穩(wěn)定的清音；01：清音向濁音轉(zhuǎn)換；10：濁音向清音轉(zhuǎn)換；11：穩(wěn)定的濁音。LPCJLO 的 bit 分配濁音清音濁音清音ZVoiciiis774RMS冷 JJ.爲(wèi)4Sync11%45

37、%3爲(wèi)氣5102kp 5誤差校正0205總計545345 參數(shù)編碼與解碼 LPC-10的傳輸數(shù)據(jù)流含：10個反射系數(shù)：濟(jì)應(yīng)血0，增益RAIS.基音周期丁、清/濁音UA-同步信號Sync.同步信號采用相鄰幀1、0碼交替的模式。編碼成每幀54 bit。傳輸-44.4幀人，編碼速率為2 4 khit&o> :濁音幀和清音幀的比特分配。(1) 反射系數(shù)的編碼S解碼廠用對數(shù)而積比品表示反射系數(shù)&方法編碼，具關(guān)系為：+上呂二lg ；/ =J0xLPC-10,先將&變換成再查表量化。方法如下：符號轉(zhuǎn)換：對丁濁音，血被向+1偏負(fù)。儕和底作對數(shù)而積比后，確定仏和億的符號，負(fù)

38、T，正=0：對何和危的絕對值除以2X若±63,取為63，否則取原值。查表2得4 bit碼字再附上符號位,得5 bit碼為編碼輸出o表9.2對數(shù)面積比編碼對數(shù)面積比編碼對數(shù)面積比編碼對數(shù)面積比編碼對數(shù)面積比編碼05027-33449-5286012612134-38553-559611313-1923943656,5710621420-26344 “ 48758,59116315注：PARCOR參數(shù)上的絕對值作為序號于負(fù)的上參數(shù)用2進(jìn)制補(bǔ)碼運(yùn)算濁音幀：心心。取整后除以厶加上表93屮對應(yīng)的偏置數(shù),冉乘上表9；的比例因子后取整（具值在范-127-127 內(nèi)）,用8減左按表9-1分配的比

39、特數(shù)的位數(shù)右移，剩下的比特數(shù)即為編碼輸出，具屮含1位符號位。濁音幀：用表9.5 （見下頁丿對接收的處和他解碼，對T'io加一個量化偏置以補(bǔ)償量化的影響，然后以發(fā)送端相反的相應(yīng)操作去偏置和去比例因子，即乘以2打，取整。表9.3 FARCOR參數(shù)的偏置表參數(shù)k3趣k910偏置-1152+28164-1536+3584+ 1280+2432-768+1920>1：偏置加到參數(shù)帶特號移住Mbit的值上.偏置一1152 十 2816 十乃 36十 3%4十1280十 2432768 十 1920>i:偏蓋加到參數(shù)帶脊號移侵坯bit的值上表9.4 FARCOR參數(shù)的比例因子參數(shù)k

40、5k78比例因子0.00560.00630.00680.00720.00740.00730.00840.0102注：比參數(shù)放比例因子擴(kuò)展為6 bit分布.表9占對數(shù)面職比解碼表編碼對數(shù)面積比編碼對數(shù)面積比編碼對數(shù)面積比編碼對數(shù)面積比編碼對數(shù)面積比0262313431925501672714462057276129830154821582862313933165022 59306341610361752235931 63519113918542460注：接收上參數(shù)的絕對值尙左移一便作為解碼序號.非濁音幀（清音或過渡音）：僅發(fā)送k嚴(yán)屮（& 4'） Hamming擴(kuò)展碼保護(hù)和RAIS

41、的4個高有效位;設(shè)4位信息碼為/71=777077?1叫皿3'發(fā)送碼字1円務(wù)叫吋爭屮譏尹"則編碼方程為：（最偸省軟洼叢僑碼丿v0 二 m0, v4 二叫刀2 W m2. v = /；71, v5 =叫 mx © 叫 r v2 = m2. v6 = /77O m2 m3 v3 m3, v7 - m ffl m2 叫(2) 恥卅參數(shù)的編碼、解碼KA/S參數(shù)用查表法進(jìn)行-編碼、解碼。表9.6:數(shù)值在2512 Z間的圧於值用步長為0.773 dB的對數(shù)碼表進(jìn)行編碼和解碼。表96用跑編碼表序號丄換空值序號WE值序號WE值序號用府值序號用府值序號皿空值序號皿空值序號皿空值008

42、41682416323240664813556275109417825173335417249147573002110518926193439427950164583283.11151910272135424386511765935942126201128233646449452192603925213621122925375145：103532106142863 :14722133027385546113542306246873157231531303960471235525163512注：用對分法查表.在表內(nèi)我到序號后.序號廉以2即為發(fā)送比特. 計算公式為：序號=202)/0.773(3)

43、基音、清/濁音編碼、解碼 60個基音值和清/濁音編碼用7 bit編碼表不。清音/過渡幀；用矢量000C)0C)0/表示： 60個基音值用碼字重量3或4的7 bit Gray碼編碼;A表9.7：編碼方案。解碼時,收到的7 bit矢量,若碼字重量為3或4時，按表97的基音周期編碼表解碼;若碼字重量為0或1時，則判定接收幀為清音幀；表9.7基音周期編碼表Gzy碼周期GiayS§周期Gmy碼周期Grny 碼周期Gray®周期Guy碼周期0010011200001111300110101401011010601001101801110001120000101121000011131

44、0110001421011000621001001841110000124001101122010011132011001144101110064 '10010118811100101280011001230100110330110010461010100661001010921100010132001110124010111034011011048101011068 .100111096110101013600 W1012501010103501 101005010100107010001101001101000140001011126010101136011110052101001

45110110014400101102701010013701110005410100017410000111081100100148001111028010110138oiii .010561010101761100011112110010115200011102901001013900110105810001017811000011161001100156若碼字重量為7或6時，則判定接收幀為過渡幀；若碼字重量為2或5時，則判定接收幀為無效幀。最后按表9.8的比特順序，組成發(fā)送比特流發(fā)往線路。表9.8發(fā)送比特流bit濁音清音bit濁音清音bit濁音清音Bit濁音清音1

46、妬,0同左15近2同左29go43耳22同左16同左3044褊23乓,0同左17務(wù)3同左31可4同左45D/c4Tfl同左18$2同左32虬4同左46心,25Rfi同左19每3同左3331.547同左6心,1同左20同左34艱048閔,17同左21尺3同左35爲(wèi),149匕38褊1同左22為,4同左364 550饑,3爲(wèi),89盜1同左23觴3同左3751為,3褊810同左24的4同左38去Lj652為2怠，811俎2同左25褊3同左3953心,312褊0同左26R4同左40盤? 2為；754sync同左13同左27石3同左41忌014氏2同左28饑4同左42同左注；1 發(fā)送順序是從bit 1到b

47、it 54；2. T是基音”氏是RM& k是反射系數(shù);3.參數(shù)丁后的數(shù)字爲(wèi)嚴(yán)表示的是第j位bit。圖9占：LPC-10收端解碼器框圖。接收信號經(jīng)串/并變換及同步后，用查表法進(jìn)行檢錯、糾錯。譯碼后的數(shù)據(jù)經(jīng)參數(shù)解碼得：解碼參數(shù)，結(jié)果延時一幀輸出。輸出數(shù)據(jù)在過去幀、當(dāng)前幀和將來幀，共3幀內(nèi)平滑。每幀只傳輸一組參數(shù)，但一幀內(nèi)可有不止一個基音周期，因此，要對接收數(shù)值進(jìn)行由幀塊到基音塊的轉(zhuǎn)換和插值。(1) 參數(shù)插值原則。對數(shù)面積比參數(shù)值毎幀插值兩次； RMS參數(shù)值在對數(shù)域進(jìn)行-基音同步插值；基音參數(shù)值用基音同步的線性插值；在濁音向清音過渡時對數(shù)面積比不插值。每個基音周期更新一次預(yù)測系數(shù)、增益、基

48、音周期、清/濁音等參數(shù)，這個過程在幀塊到基音塊的轉(zhuǎn)換和插值屮完成。(2) 激勵源。根據(jù)基音周期和清/濁音標(biāo)志決定耍采用的激勵信號源。清音幀用隨機(jī)數(shù)作為激勵源；濁音幀用周期性沖激序列通過一個全通濾波器來生成激勵源，語音合成濾波器輸入激勵的幅度保持恒定不變，輸出幅度受RMS參數(shù)加權(quán)。給岀一組有41個樣點(diǎn)的濁音激勵信號：麗二0、0, a Q 0,0,0, Q 5, & 13, 24 43,8U47, 252,359, 364,92,336 -306. -336 92.364.359,252.147 8143、24,13, & 5.0. Q 0, (X 0.0.0、0若當(dāng)前的基音周

49、期不等于41個樣點(diǎn)，則將此激勵源截短或者填零，使之與基音周期等長。(3)語音合成。用Levinson遞推算法將反射參數(shù)變換成預(yù)測系數(shù)。收端合成器應(yīng)用直接型遞歸濾波器合成語音。對具輸出進(jìn)行幅度校正、去加重，并變換為模擬信號, 最后經(jīng)3600 Hz的彳氐通濾波器后輸岀模擬涪音。LPC-10聲碼器存在的問題(1) 損失了語音的Fl然度。實(shí)際語音的殘差信號屮，有部分既非周期脈沖乂非隨機(jī)噪聲；或者低頻段是周期脈沖，高頻段是隨機(jī)噪聲。采用二元激勵代替殘圣信號，使合成語音聽起來不H然。(2) 穩(wěn)健性(Robustness)墾。噪聲環(huán)境下，基音周期和清/濁音判決不易準(zhǔn)確提取。噪聲較強(qiáng)時，系統(tǒng)性能顯著惡化。

50、(3) 共振峰位置及帶寬估值會有很大失真。失真的原因是濁語音段時域上的周期重復(fù)信號使得短時語音譜形接近于線狀分布譜?；l較大，且與譜包絡(luò)中共振峰久相接近，即方=1幾由丁 LPC譜估計力圖使模型譜逼近丁信號譜包絡(luò)，在估計岀的譜包絡(luò)屮會岀現(xiàn)極其尖銳的峰值O 在合成語音中會出現(xiàn)尖峰或較大毛刺，從而影響語音質(zhì)量。§ 11.3語音信號的混合編碼20世紀(jì)80年代后期，綜合了參數(shù)編碼低比特率與波形編碼高語音質(zhì)量優(yōu)點(diǎn)的混合編碼得到廣泛的使用。最為典型的就是CELP模型。它在比特率為4-16Kbps時已經(jīng)可以得到比其他算法更高的重建語音質(zhì)量。：得到最廣泛應(yīng)用的是LPAS （基于線性預(yù)測技術(shù)的分

51、析合成編碼方法），通過線性預(yù)測確定系統(tǒng)參數(shù)，并通過閉環(huán)或分析-合成方法來確定激勵序列。0感知加權(quán)濾波器：使得量化誤差能被高能量的共振峰所掩蓋。« 3種最常見的分析-合成線性預(yù)測編碼算法分別是: 多脈沖線性預(yù)測算法（MPLPC）規(guī)則脈沖激勵線性預(yù)測編碼（RPE-LPC）：碼激勵線性預(yù)測編碼（CELP）:具有較高質(zhì)量的合成語音和良好的抗噪性和多次復(fù)接能力，近年很多聲碼器基于該模型。傳統(tǒng)的LPC聲碼器采用的是二元激勵，它將激勵源分為清音和濁音；CELP的主要改進(jìn)是采用矢量量化技術(shù)對激勵信號編碼，將事先經(jīng)過訓(xùn)練得到的一組碼矢量組成一個碼本，然后對每一幀語音信號從這組碼本中選出一個在感知加權(quán)誤差最小意義上的最佳

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第十一章聲碼器和混合編碼

文檔簡介

溫馨提示

最新文檔

評論

第十一章聲碼器和混合編碼

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔