多媒體第3章音頻信息處理技術(shù)課件

上傳人：5*** IP屬地：貴州上傳時(shí)間：2022-12-10 格式：PPTX 頁數(shù)：488 大?。?.45MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩483頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3章音頻信息處理技術(shù)3.1基本概念3.2音頻信號(hào)數(shù)字化3.3音頻信號(hào)壓縮編碼3.4語音壓縮編碼標(biāo)準(zhǔn)3.5常見多媒體應(yīng)用的語音編碼器的選擇3.6IP電話技術(shù)練習(xí)與思考題第3章音頻信息處理技術(shù)3.1基本概念

3.1

基本概念

1．聽覺掩蔽在人類聽覺系統(tǒng)中，一個(gè)聲音的存在會(huì)影響人們對其他聲音的聽覺能力，使一個(gè)聲音在聽覺上掩蔽了另一個(gè)聲音，即所謂的“掩蔽效應(yīng)”。由于掩蔽聲的存在，使被掩蔽聲的聞?dòng)颍ㄈ藙偤每陕牭铰曇舻捻懚龋┍仨毺岣叩姆重悢?shù)被定義為一個(gè)聲音對另一個(gè)聲音的掩蔽值。掩蔽效應(yīng)受四種要素的影響：時(shí)間、頻率、聲壓級、聲音品質(zhì)(例如，純音和噪音)。3.1基本概念1．聽覺

2．頻譜掩蔽頻譜掩蔽發(fā)生在高電平音調(diào)使附近頻率的低電平聲音不能被人耳聽到的情況下。當(dāng)頻率離掩蔽音調(diào)越遠(yuǎn)時(shí)，掩蔽效應(yīng)減弱的速度就越快?？梢赃@樣來解釋這種效應(yīng)，雪橇上的鈴聲可以掩蔽高音碰撞的聲音，但不能掩蔽低音鼓的聲音。2．頻譜掩蔽3．瞬態(tài)掩蔽聲音有一個(gè)沖擊時(shí)間（即幅值隨時(shí)間推移而增大的時(shí)間段）和一個(gè)衰退時(shí)間（即幅值隨時(shí)間推移而減小的時(shí)間段）。撥小提琴所產(chǎn)生聲音的沖擊和衰退都很快，而拉小提琴所產(chǎn)生聲音的沖擊和衰退都很慢。此外，在沖擊前和衰退后，聲音都有掩蔽效應(yīng)。前掩蔽時(shí)間為50～200ms，而后掩蔽時(shí)間約為該范圍的1/10。3．瞬態(tài)掩蔽

4．失真失真是用得非常廣泛的概念，在這里主要用來描述重現(xiàn)聲音和原來聲音的相差程度。而表示這種相差程度的方法有兩種：（1）失真的主觀度量。失真的一個(gè)主觀評價(jià)指標(biāo)稱為平均觀點(diǎn)分(MeanOpinionScore，MOS)。聽眾根據(jù)系統(tǒng)質(zhì)量的好壞使用N分制給系統(tǒng)打分。例如，在為HDTV選擇音頻壓縮方案時(shí)就使用了這種度量方法。表3.1-1給出了一種常見的5分制系統(tǒng)。4．失真表3.1-1

5分制平均觀點(diǎn)分舉例平均觀點(diǎn)分質(zhì)量等級主觀感覺5極好覺察不到4好覺察得到，但不難聽3一般有點(diǎn)難聽2差難聽，但不反感1極差難以忍受表3.1-15分制平均觀點(diǎn)分舉例平均觀點(diǎn)分

一方面，MOS確實(shí)是度量音頻重現(xiàn)的最低限度：聽起來感覺怎么樣?另外一方面，度量的結(jié)果隨聽眾、測試位置和原材料的不同而不同，因此，很難將一組結(jié)果和另一組結(jié)果相比較。一方面，MOS確實(shí)是度量音頻重（2）失真的客觀度量。失真的客觀度量是一種可以校準(zhǔn)和重現(xiàn)的測試，它可對原始信號(hào)和重現(xiàn)信號(hào)之間的差別進(jìn)行度量。這里有個(gè)問題，就是失真的絕對大小也許和失真聲音使人厭煩的程度沒有多大關(guān)系。現(xiàn)實(shí)生活中有一個(gè)失真的例子，我們幾乎每天都會(huì)碰到，但它并不是那么令人厭煩，這個(gè)例子就是削波。如果一個(gè)純音(正弦波)通過一個(gè)動(dòng)態(tài)范圍不足的放大器，那么，放大器也許會(huì)將該正弦波的波峰和波谷拉平，這樣就產(chǎn)生了一組奇諧波。對于這種類型的失真，原始(或基波)信號(hào)和失真之間有一種一致的對應(yīng)關(guān)系，因此，這種失真并不一定使你感到煩躁。（2）失真的客觀度量。

5．聲道單聲道(Monophonic)意味著單個(gè)聲源，而立體聲并不表示有兩個(gè)聲源，立體聲(Stereophonic)指的是三維聽覺效果。為了確定聲源位置，大腦要將每個(gè)耳朵所聽到聲音的三個(gè)屬性進(jìn)行比較，這三個(gè)屬性分別是：（1）幅值(Amplitude)：如果左耳聽到的聲音比右耳的大，那么我們就認(rèn)為聲音在左邊。5．聲道（2）相位(Phase)：如果人的兩耳聽到的信號(hào)具有相同的相位，那么大腦就認(rèn)為聲音在中部；如果兩耳聽到信號(hào)有180°的相位差，那么聲音就不包含方向信息了。（3）時(shí)序(Timing)：聲音的傳播速度為1英尺每毫秒；如果聲音到達(dá)右耳的時(shí)間比到達(dá)左耳的早，我們就認(rèn)為聲源就在右邊。一般來說，如果聽眾所處的位置剛好是兩個(gè)聲源（例如兩個(gè)揚(yáng)聲器）的中軸線上，則聽眾就可以享受三維立體聲的效果；否則聽眾就會(huì)失去完全的立體聲效果，因?yàn)樗嚯x其中一個(gè)聲源的距離更短。（2）相位(Phase)：如果人的兩耳聲源位置可以通過添加一個(gè)中央通道的方法來確定。為此，Dolby公司在上個(gè)世紀(jì)70年代就實(shí)現(xiàn)了由四個(gè)聲道產(chǎn)生三維立體聲的效果，這四個(gè)聲道分別是：左聲道、右聲道、中央聲道、環(huán)繞聲道。為了使聲音更加豐富，現(xiàn)在的立體聲劇院（包括家庭劇院）都增加了一個(gè)超低音聲道，主要目的是增強(qiáng)低音。聲源位置可以通過添加一個(gè)中央通道的方

3.2

音頻信號(hào)數(shù)字化音頻信息處理主要包括音頻信號(hào)的數(shù)字化和音頻信息的壓縮兩大技術(shù)，圖3.2-1為音頻信息處理結(jié)構(gòu)框圖。音頻信息的壓縮是音頻信息處理的關(guān)鍵技術(shù)，而音頻信號(hào)的數(shù)字化是為音頻信息的壓縮作準(zhǔn)備的。音頻信號(hào)的數(shù)字化過程就是將模擬音頻信號(hào)轉(zhuǎn)換成有限個(gè)數(shù)字表示的離散序列，即數(shù)字音頻序列，在這一處理過程中涉及到模擬音頻信號(hào)的采樣、量化和編碼。對同一音頻信號(hào)采用不同的采樣、量化和編碼方式就可形成多種形式的數(shù)字化音頻。3.2音頻信號(hào)數(shù)字化音頻信息處圖3.2-1

音頻信息處理框圖圖3.2-1音頻信息處理框圖（1）采樣過程。模擬音頻信號(hào)是一個(gè)在時(shí)間上和幅值上都連續(xù)的信號(hào)。采樣過程就是在時(shí)間上將連續(xù)信號(hào)離散化的過程，采樣一般是按均勻的時(shí)間間隔進(jìn)行的。目前常見的音頻信號(hào)的頻率范圍如圖3.2-2所示，由圖可見：電話信號(hào)的頻帶為200Hz～3.4kHz，調(diào)幅廣播(AM)信號(hào)的頻帶為50Hz～7kHz，調(diào)頻廣播(FM)信號(hào)的頻帶為20Hz～15kHz，高保真音頻信號(hào)的頻帶為10Hz～20kHz。根據(jù)不同的音頻信源和應(yīng)用目標(biāo)，可采用不同的采樣頻率，如8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz或48kHz等都是典型的采樣頻率值。（1）采樣過程。模擬音頻信號(hào)是一個(gè)圖3.2-2

常見音頻應(yīng)用帶寬示意圖圖3.2-2常見音頻應(yīng)用帶寬示意圖(2)量化過程。量化過程是指將每個(gè)采樣值在幅度上再進(jìn)行離散化處理。量化可分為均勻量化（量化值的分布是均勻的或者說每個(gè)量化階距是相同的）和非均勻量化。量化會(huì)引入失真，并且量化失真是一種不可逆失真，這就是通常所說的量化噪聲。(3)編碼過程。編碼過程是指用二進(jìn)制數(shù)來表示每個(gè)采樣的量化值。如果量化是均勻的，又采用自然二進(jìn)制數(shù)表示，這種編碼方法就是脈沖編碼調(diào)制(PulseCodeModulation，PCM），這是一種最簡單、最方便的編碼方法。(2)量化過程。量化過程是指將每

3.3

音頻信號(hào)壓縮編碼從20世紀(jì)30年代提出PCM（脈沖編碼調(diào)制）原理以及聲碼器的概念以來，音頻信息壓縮編碼技術(shù)主要是向基于波形和基于參數(shù)兩個(gè)方向發(fā)展的，從這個(gè)角度出發(fā)，音頻信息編碼技術(shù)可分為三類：3.3音頻信號(hào)壓縮編碼從20（1）波形編碼。這種方法主要基于語音波形預(yù)測，它力圖使重建的語音波形保持原信號(hào)的波形狀態(tài)。它的優(yōu)點(diǎn)是編碼方法簡單、易于實(shí)現(xiàn)、適應(yīng)能力強(qiáng)、語音質(zhì)量好等，缺點(diǎn)是壓縮比相對來說較低，需要較高的編碼速率。常用的波形法編碼技術(shù)有增量調(diào)制(DM)、自適應(yīng)差分脈沖編碼調(diào)制（ADPCM）、子帶編碼(SBC)和矢量量化編碼（VQ）等等。（1）波形編碼。這種方法主要基于語音（2）參數(shù)編碼。這種方法主要基于參數(shù)的編碼方法。與波形編碼不同的是，這類編碼方法通過語音信號(hào)的數(shù)學(xué)模型對語音信號(hào)特征參數(shù)（主要是指表征聲門振動(dòng)的激勵(lì)參數(shù)和表征聲道特性的聲道參數(shù)）進(jìn)行提取及編碼，力圖使重建的語音信號(hào)盡可能保持原信號(hào)的語意，而重建的語音信號(hào)波形同原信號(hào)的波形可能會(huì)有較大的區(qū)別?；谶@種編碼技術(shù)的編碼系統(tǒng)一般稱為聲碼器，它主要用于在窄帶信道上提供4.8kb/s以下的低速語音通信和一些對延時(shí)要求較寬的應(yīng)用場合（如衛(wèi)星通信等）。最常用的參數(shù)編碼法為線性預(yù)測編碼（LPC）。（2）參數(shù)編碼。這種方法主要基于參(3)混合編碼。這種方法克服了原有波形編碼與參數(shù)編碼的弱點(diǎn)，并且結(jié)合了波形編碼的高質(zhì)量和參數(shù)編碼的低數(shù)據(jù)率，取得了比較好的效果?；旌暇幋a是指同時(shí)使用兩種或兩種以上的編碼方法進(jìn)行編碼的過程。由于每種編碼方法都有自己的優(yōu)勢和不足，若是用兩種，甚至兩種以上的編碼方法進(jìn)行編碼，可以優(yōu)勢互補(bǔ)，克服各自的不足，從而達(dá)到高效數(shù)據(jù)壓縮的目的。無論是在音頻信號(hào)的數(shù)據(jù)壓縮中，還是后面章節(jié)將要描述的圖像信號(hào)的數(shù)據(jù)壓縮中，混合編碼均被廣泛采用。(3)混合編碼。這種方法克服了

3.3.1

增量調(diào)制

1．一般增量調(diào)制增量調(diào)制（DM）是一種比較簡單且有數(shù)據(jù)壓縮功能的波形編碼方法。增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖如圖3.3-1所示。在編碼端，由前一個(gè)輸入信號(hào)的編碼值經(jīng)解碼器解碼可得到下一個(gè)信號(hào)的預(yù)測值。輸入的模擬音頻信號(hào)與預(yù)測值在比較器上相減，從而得到差值。差值的極性可以是正也可以是負(fù)。若為正，則編碼輸出為1；若為負(fù)，則編碼輸出為0。這樣，在增量調(diào)制的輸出端可以得到一串1位編碼的DM碼。增量調(diào)制編碼過程示意圖如圖3.3-2所示。3.3.1增量調(diào)制圖3.3-1

增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖圖3.3-1增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖圖3.3-2

增量調(diào)制編碼過程示意圖圖3.3-2增量調(diào)制編碼過程示意圖在圖3.3-2中，縱坐標(biāo)表示輸入的模擬電壓，橫坐標(biāo)表示隨時(shí)間增加而順序產(chǎn)生的DM碼。圖中虛線表示輸入的音頻模擬信號(hào)。從圖3.3-2可以看到，當(dāng)輸入信號(hào)變化比較快時(shí)，編碼器的輸出無法跟上信號(hào)的變化，從而會(huì)使重建的模擬信號(hào)發(fā)生畸變，這就是所謂的“斜率過載”?？梢钥闯觯?dāng)輸入模擬信號(hào)的變化速度超過了經(jīng)解碼器輸出的預(yù)測信號(hào)的最大變化速度時(shí)，就會(huì)發(fā)生斜率過載。增加采樣速度，可以避免斜率過載的發(fā)生。但采樣速度的增加又會(huì)使數(shù)據(jù)的壓縮效率降低。在圖3.3-2中，縱坐標(biāo)表示輸入的從圖3.3-2中還能發(fā)現(xiàn)另一個(gè)問題：當(dāng)輸入信號(hào)沒有變化時(shí)，預(yù)測信號(hào)和輸入信號(hào)的差會(huì)十分接近，這時(shí)，編碼器的輸出是0和1交替出現(xiàn)的，這種現(xiàn)象就叫做增量調(diào)制的“散粒噪聲”。為了減少散粒噪聲，就希望使輸出編碼1位所表示的模擬電壓

（又叫量化階距）小一些，但是，減少量化階距

會(huì)使在固定采樣速度下產(chǎn)生更嚴(yán)重的斜率過載。為了解決這些矛盾，促使人們研究出了自適應(yīng)增量調(diào)制（ADM）方法。從圖3.3-2中還能發(fā)現(xiàn)另一個(gè)問題

2.自適應(yīng)增量調(diào)制（ADM）從前面分析可以看出，為減少斜率過載，希望增加階距；為減少散粒噪聲，又希望減少階距。于是人們就想，若是能使DM的量化階距

適應(yīng)信號(hào)變化的要求，必須是既降低了斜率過載又減少了散粒噪聲的影響。也就是說，當(dāng)發(fā)現(xiàn)信號(hào)變化快時(shí)，增加階距；當(dāng)發(fā)現(xiàn)信號(hào)變化緩慢時(shí)，減少階距。這就是自適應(yīng)增量調(diào)制的基本出發(fā)點(diǎn)。2.自適應(yīng)增量調(diào)制（ADM）在ADM中，常用的規(guī)則有兩種：一種是控制可變因子

M，使量化階距在一定范圍內(nèi)變化。對于每一個(gè)新的采樣，其量化階距為其前面數(shù)值的M倍。而M的值則由輸入信號(hào)的變化率來決定。如果出現(xiàn)連續(xù)相同的編碼，則說明有發(fā)生過載的危險(xiǎn)，這時(shí)就要加大M。當(dāng)0，1信號(hào)交替出現(xiàn)時(shí)，說明信號(hào)變化很慢，會(huì)產(chǎn)生散粒噪聲，這時(shí)就要減少M(fèi)

值。其典型的規(guī)則為（3.3-1）在ADM中，常用的規(guī)則有兩種：（

另一類使用較多的自適應(yīng)增量調(diào)制稱為連續(xù)可變斜率增量（CVSD）調(diào)制。其工作原理如下：如果調(diào)制器（CVSD）連續(xù)輸出三個(gè)相同的碼，則量化階距加上一個(gè)大的增量，也就是說，因?yàn)槿齻€(gè)連續(xù)相同的碼表示有過載發(fā)生。反之，則量化階距增加一個(gè)小的增量。CVSD的自適應(yīng)規(guī)則為其他（3.3-2）另一類使用較多的自適應(yīng)增量調(diào)制稱為連式中，β可在0～1之間取值?？梢钥吹?，β的大小可以通過調(diào)節(jié)增量調(diào)制來適應(yīng)輸入信號(hào)變化所需時(shí)間的長短。P和Q為增量，而且P要大于等于Q。式中，β可在0～1之間取值?？?/p>

3.3.2

自適應(yīng)差分脈沖編碼調(diào)制

1.非均勻PCM（μ律壓擴(kuò)方法）若輸入的音頻信號(hào)是話音信號(hào)，使用8kHz采樣頻率進(jìn)行均勻采樣，而后再將每個(gè)樣本編碼為8位二進(jìn)制數(shù)字信號(hào)，則我們就可以得到數(shù)據(jù)率為64kb/s的PCM信號(hào)，這就是典型的脈沖編碼調(diào)制。這種編碼方式對輸入的音頻信號(hào)進(jìn)行均勻量化，不管輸入的信號(hào)是大還是小，均采用同樣的量化間隔。但是，對音頻信號(hào)而言，大多數(shù)情況下信號(hào)幅度都很小，出現(xiàn)大幅度信號(hào)的概率很小。3.3.2自適應(yīng)差分脈沖編碼調(diào)制然而，為了適應(yīng)這種很少出現(xiàn)的大信號(hào)，在均勻量化時(shí)不得不增加二進(jìn)制碼位。對大量的小信號(hào)來說，這樣多的碼位是一種浪費(fèi)。因此，均勻量化PCM效率不高，有必要進(jìn)行改進(jìn)。采用非均勻量化編碼的實(shí)質(zhì)在于減少表示采樣的位數(shù)，從而達(dá)到數(shù)據(jù)壓縮的目的。其基本思路是，當(dāng)輸入信號(hào)幅度小時(shí)，采用較小的量化間隔；當(dāng)輸入信號(hào)幅度大時(shí)，采用較大的量化間隔。這樣就可以做到在一定的精度下，用更少的二進(jìn)制碼位來表示采樣值。這種對小信號(hào)擴(kuò)展、大信號(hào)壓縮的特性可用下式表示：然而，為了適應(yīng)這種很少出現(xiàn)的大信號(hào)，在均勻量化時(shí)式中：x為輸入電壓與A/D變換器滿刻度電壓之比，其取值范圍為－1～＋1；sgn(x)為x的極性；μ為壓擴(kuò)參數(shù)，其取值范圍為100～500，μ越大，壓擴(kuò)越厲害。該壓擴(kuò)規(guī)則的特性如圖3.3-3所示，通常將此曲線叫做μ律壓擴(kuò)特性。(3.3-3)式中：x為輸入電壓與A/D變換器滿刻圖3.3-4μ律壓擴(kuò)數(shù)據(jù)格式圖3.3-4μ律壓擴(kuò)數(shù)據(jù)格式在實(shí)際應(yīng)用中，規(guī)定某個(gè)μ值，采用數(shù)段折線來逼近圖3.3-3所示的壓擴(kuò)特性。這樣就大大地簡化了計(jì)算并保證了一定的精度。例如，當(dāng)選擇μ＝255時(shí)，壓擴(kuò)特性用8段折線來代替。當(dāng)用8位二進(jìn)制表示一個(gè)采樣時(shí)，可以得到無壓擴(kuò)的13位二進(jìn)制數(shù)碼的音頻質(zhì)量。這8位二進(jìn)制數(shù)中，最高位表示符號(hào)位，其后3位用來表示折線編號(hào)，最后4位用來表示數(shù)據(jù)位。μ律壓擴(kuò)數(shù)據(jù)格式如圖3.3-4所示。在實(shí)際應(yīng)用中，規(guī)定某個(gè)μ值，采用在解碼恢復(fù)數(shù)據(jù)時(shí)，根據(jù)符號(hào)和折線即可通過預(yù)先做好的表恢復(fù)原始數(shù)據(jù)。另外一種常用的壓擴(kuò)特性為A律13折線，它實(shí)際上是將μ律壓擴(kuò)特性曲線以13段直線代替而成的。我國和歐洲采用的是A律13折線壓擴(kuò)法，美國和日本采用的是μ律。對于A律13折線，一個(gè)信號(hào)樣值的編碼由兩部分構(gòu)成：段落碼（信號(hào)屬于13折線哪一段）和段內(nèi)碼。在解碼恢復(fù)數(shù)據(jù)時(shí)，根據(jù)符號(hào)和折線即在非均勻PCM編碼中，存在著大量的冗余信息。這是因?yàn)橐纛l信號(hào)鄰近樣本間的相關(guān)性很強(qiáng)。若采用某種措施，便可以去掉那些冗余的信息，差分脈沖編碼調(diào)制（DPCM）是常用的一種方法。在非均勻PCM編碼中，存在著大量的2.差分脈沖編碼調(diào)制（DPCM）差分脈沖編碼調(diào)制的中心思想是對信號(hào)的差值而不是對信號(hào)本身進(jìn)行編碼。這個(gè)差值是指信號(hào)值與預(yù)測值的差值。預(yù)測值可以由過去的采樣值進(jìn)行預(yù)測，其計(jì)算公式如下所示：（3.3-4）2.差分脈沖編碼調(diào)制（DPCM）式中，ai

為預(yù)測系數(shù)。因此，利用若干個(gè)前面的采樣值可以預(yù)測當(dāng)前值。當(dāng)前值與預(yù)測值的差為（3.3-5）式中，ai為預(yù)測系數(shù)。因此，利差分脈沖編碼調(diào)制就是將上述每個(gè)樣點(diǎn)的差值量化編碼，而后用于存儲(chǔ)或傳送。由于相鄰采樣點(diǎn)有較大的相關(guān)性，預(yù)測值常接近真實(shí)值，故差值一般都比較小，從而可以用較少的數(shù)據(jù)位來表示，這樣就減少了數(shù)據(jù)量。在接收端或數(shù)據(jù)回放時(shí)，可用類似的過程重建原始數(shù)據(jù)。差分脈沖調(diào)制系統(tǒng)的方框圖如圖3.3-5所示。差分脈沖編碼調(diào)制就是將上述每個(gè)樣點(diǎn)的差圖3.3-5

差分脈沖調(diào)制系統(tǒng)的方框圖(a)編碼器；(b)解碼器圖3.3-5差分脈沖調(diào)制系統(tǒng)的方框圖由圖3.3-5可見，只要求出預(yù)測值

，則實(shí)現(xiàn)這種方法就不困難了，而要得到，關(guān)鍵的問題是確定預(yù)測系數(shù)ai。如何求ai呢？我們定義ai就是使估值的均方差最小的ai。估值的均方差可由下式?jīng)Q定：（3.3-6）由圖3.3-5可見，只要求出預(yù)測為了求得均方差最小，就需對式（3.3-6）中各個(gè)a求導(dǎo)數(shù)并使方程等于0，最后解聯(lián)立方程可以求出ai。預(yù)測系數(shù)與輸入信號(hào)特性有關(guān)，也就是說，采樣點(diǎn)同其前面采樣點(diǎn)的相關(guān)性有關(guān)。只要預(yù)測系數(shù)確定，問題便可迎刃而解。通常一階預(yù)測系數(shù)ai的取值范圍為0.8～1。為了求得均方差最小，就需對式（3.3-6）中各個(gè)3.自適應(yīng)差分脈沖編碼調(diào)制（ADPCM）為了進(jìn)一步提高編碼的性能，人們將自適應(yīng)量化器和自適應(yīng)預(yù)測器結(jié)合在一起用于DPCM之中，從而實(shí)現(xiàn)了自適應(yīng)差分脈沖編碼調(diào)制（ADPCM）。其簡化的框圖如圖3.3-6所示。3.自適應(yīng)差分脈沖編碼調(diào)制（A自適應(yīng)量化器首先檢測差分信號(hào)的變化率和差分信號(hào)的幅度大小，而后決定量化器的量化階距。自適應(yīng)預(yù)測器能夠更好地跟蹤語音信號(hào)的變化。因此，將兩種技術(shù)組合起來使用，從而可以提高系統(tǒng)性能。從圖3.3-6中可以看出，在圖3.3-6（a）編碼器框圖中，實(shí)際上也包含著圖3.3-6（b）的解碼器框圖，兩者的算法是一樣的。自適應(yīng)量化器首先檢測差分信號(hào)的變化率圖3.3-6ADPCM編解碼框圖(a)ADPCM編碼器;(b)ADPCM解碼器圖3.3-6ADPCM編解碼框圖

3.3.3

子帶編碼聲音信號(hào)對人耳的聽覺貢獻(xiàn)與信號(hào)頻率有關(guān)，比如人耳對1kHz附近頻率成分尤其敏感。再比如實(shí)驗(yàn)發(fā)現(xiàn)，如果講話人發(fā)出無意義的音節(jié)，則聽話人在保留400Hz～6kHz頻率范圍的語音情況下，就可聽清此音節(jié)；而上限頻率降低至1.7kHz時(shí)可聽清約一半；如果講話人發(fā)出的是連續(xù)有意義的句子，那么只保留頻率范圍為400Hz～3kHz的語音就可完全聽懂了。3.3.3子帶編碼與人耳聽覺特性在頻率上分布不均勻相對應(yīng)，人所發(fā)出的語音信號(hào)的頻譜也不是平坦的。事實(shí)上,多數(shù)人的語音信號(hào)能量主要集中在頻率為500Hz～1kHz范圍內(nèi)，并隨著頻率的升高很快衰減。根據(jù)上述特點(diǎn)，可以設(shè)想將輸入信號(hào)用某種方法劃分成不同頻段上的子信號(hào)，然后區(qū)別對待，根據(jù)各子信號(hào)的特性，分別編碼。比如，對語音信號(hào)中能量較大，對聽覺有重要影響的部分（如500～800Hz頻段內(nèi)的信號(hào)）分配較多的碼字，對次要信號(hào)（如話帶中大于3kHz的信號(hào)）則分配較少的碼字。與人耳聽覺特性在頻率上分布不均勻相對各子信號(hào)分別編碼后的碼字在接收方被分別解碼，最后再合成出解碼語音。因此，可以設(shè)想，首先用一組帶通濾波器，將輸入的音頻信號(hào)分成若干個(gè)連續(xù)的頻段，并將這些頻段稱為子帶。然后，再分別對這些子帶中的音頻分量進(jìn)行采樣和編碼。最后，再將各子帶的編碼信號(hào)組織到一起進(jìn)行存儲(chǔ)或送到信道上傳送。在信道的接收端（或在回放時(shí)）得到各子帶編碼的混合信號(hào)，將各子帶的編碼取出來，對它們分別進(jìn)行解碼，產(chǎn)生各子帶的音頻分量，再將各子帶的音頻分量組合在一起，恢復(fù)原始的音頻信號(hào)。子帶編碼的原理框圖如圖3.3-7所示。由圖3.3-7可以看出上述的基本原理。各子信號(hào)分別編碼后的碼字在接收方被分別解碼，最后再合圖3.3-7

子帶編碼的原理框圖圖3.3-7子帶編碼的原理框圖子帶編碼能夠?qū)崿F(xiàn)較高的壓縮比，而且具有較高的質(zhì)量，因此，得到了比較廣泛的應(yīng)用。這種編碼常常與其他一些編碼混合使用，以實(shí)現(xiàn)混合編碼。這一問題留待后面再作說明。子帶編碼能夠?qū)崿F(xiàn)較高的壓縮比，而且

3.3.4

變換域編碼在子帶編碼中，劃分子帶的方法是通過帶通濾波器來完成的。而另外一種方法就是通過變換域編碼方法，將輸入信號(hào)直接轉(zhuǎn)換到頻域，然后在頻域劃分各頻段，根據(jù)不同的頻段能量大小分配碼字然后編碼，收方解碼后再用相應(yīng)的反變換轉(zhuǎn)換成時(shí)域信號(hào)。3.3.4變換域編碼與子帶編碼類似，變換域編碼也是一種“頻域”編碼。事實(shí)上，只有采用離散傅里葉變換（FFT）或離散余弦變換（DCT），變換后的各系數(shù)才真正代表頻率分量。由于DCT接近最佳變換Karhunen-Loeve變換（KLT），因而語音變換域編碼基本上都采用DCT，在這個(gè)意義上可以稱語音變換域編碼為頻域編碼。與子帶編碼類似，變換域編碼也是一種在語音子帶編碼中，常用的子帶數(shù)目為2～4，寬帶音頻編碼也只不過用32個(gè)子帶。語音的變換域編碼，其變換系數(shù)，或稱頻率分量數(shù)目則要大得多，通常取在123～256之間。變換域編碼將連續(xù)8個(gè)輸入語音樣點(diǎn)塊，經(jīng)線性變換后再進(jìn)行量化處理，因此變換域編碼也稱塊編碼。量化的方法可以采用標(biāo)量量化，也可以采用矢量量化。在語音子帶編碼中，常用的子帶數(shù)目為KLT變換能夠使變換域編碼性能充分發(fā)揮，但在使用KLT時(shí)，需要對每個(gè)信號(hào)輸入塊都求出N個(gè)特征矢量，并以邊信息（SideInformation，或稱為“輔助信息”）的方式傳送到接收端。另外，KLT在進(jìn)行變換時(shí)需要做N2次乘法／加法運(yùn)算，不存在快速算法，因此在實(shí)際中并沒有得到應(yīng)用。事實(shí)上，它只給出一些次優(yōu)而實(shí)用的算法在性能上的界限，在理論研究上起參照作用。在實(shí)際應(yīng)用中，離散Hadamard變換（DHT）、離散WalshHadamard變換（DWHD）、離散傅里葉變換（DFT）以及離散余弦變換（DCT）等都得到了應(yīng)用。特別是，DCT在語音及圖像的變換域編碼中，由于其性能非常接近于KLT，又有快速算法，因此得到了廣泛的應(yīng)用。KLT變換能夠使變換域編碼性能充DCT的一個(gè)重要優(yōu)點(diǎn)是：它真正代表了頻域變換，因此可以很容易根據(jù)人耳的特性來控制各頻率分量的量化誤差，使得在數(shù)碼率一定的條件下，獲得最好的主觀編碼質(zhì)量。DCT的另一個(gè)重要優(yōu)點(diǎn)是：對于自回歸（AR）輸入過程，并且相鄰樣點(diǎn)有較高的相關(guān)性時(shí)，其性能非常接近KLT。不僅僅對于語音信號(hào)，其他許多信號(hào)都能夠用AR模型來描述。DCT的第三個(gè)優(yōu)點(diǎn)是：它可以借助FFT進(jìn)行快速計(jì)算。這對具體應(yīng)用，特別是當(dāng)N比較大時(shí)，是至關(guān)重要的。DCT的一個(gè)重要優(yōu)點(diǎn)是：它真正代在語音編碼系統(tǒng)中，為了適應(yīng)語音信號(hào)的非平穩(wěn)性，通常都要采用自適應(yīng)處理技術(shù)。變換域編碼將輸入信號(hào)塊分解成不同的頻率分量，去除了大部分樣點(diǎn)之間的相關(guān)性，因此，自適應(yīng)技術(shù)主要使用了自適應(yīng)比特分配和自適應(yīng)量化。自適應(yīng)比特分配用來適應(yīng)短時(shí)譜形狀的變化，而自適應(yīng)量化主要用來適應(yīng)短時(shí)譜能量的變化。在更一般的概念中，變換的矩陣也可以自適應(yīng)，由于實(shí)現(xiàn)上的困難，在實(shí)際應(yīng)用中幾乎都采用固定變換矩陣，因此，自適應(yīng)變換域編碼（ATC）一詞通常指自適應(yīng)比特分配和自適應(yīng)量化，特別是指自適應(yīng)比特分配。在語音編碼系統(tǒng)中，為了適應(yīng)語音信由于分塊處理，前向自適應(yīng)更適合變換域編碼，自適應(yīng)信息需要以邊信息的形式傳送給接收端，以供解碼用。由于邊信息占用一部分速率，因此需要研究高效率的自適應(yīng)方法，盡量少用一些比特來傳送邊信息，以省下更多的比特用來對系數(shù)進(jìn)行量化。圖3.3-8示出了自適應(yīng)變換域編解碼的框圖，其中包含了邊信息支路，它們用來提供自適應(yīng)量階及自適應(yīng)比特分配信息。由于分塊處理，前向自適應(yīng)更適合變換域編碼，自適應(yīng)圖3.3-8

自適應(yīng)變換編解碼原理框圖（a）編碼;（b）解碼圖3.3-8自適應(yīng)變換編解碼原理框圖3.3.5矢量量化矢量量化VQ（VectorQuantization）是一種有損的編碼方案，其主要思想是將輸入的語音信號(hào)按一定方式分組，把這些分組數(shù)據(jù)看成一個(gè)矢量，對它進(jìn)行量化。這就區(qū)別于直接對一個(gè)個(gè)數(shù)據(jù)作量化的標(biāo)量量化方法。矢量量化編碼及解碼的原理框圖如圖3.3-9所示。3.3.5矢量量化圖3.3-9

矢量量化編碼及解碼原理框圖圖3.3-9矢量量化編碼及解碼原理框圖假定將語音數(shù)據(jù)分組，每組有k個(gè)數(shù)據(jù)。這樣，一組就是一個(gè)k維的矢量。把每一個(gè)組形成的矢量看成一個(gè)元素，又叫碼字，那么，語音所分成的組就形成了各自的碼字。這些碼字排列起來，就構(gòu)成了一個(gè)表，人們將此表叫做碼本或碼書。形象一點(diǎn)說，碼書就類似于漢字的電報(bào)號(hào)碼本，電報(bào)號(hào)碼本里面是復(fù)雜的漢字，而在這里是一組原始的語音數(shù)據(jù)；電報(bào)號(hào)碼本里每個(gè)漢字旁邊標(biāo)有只用4位阿拉伯?dāng)?shù)字表示的號(hào)碼，而在矢量量化方法里就是每組數(shù)據(jù)所對應(yīng)的下標(biāo)。假定將語音數(shù)據(jù)分組，每組有k個(gè)系統(tǒng)工作原理為：先將待編碼的序列劃分成一個(gè)個(gè)等長的段，每段含有若干個(gè)樣點(diǎn)，這一段段樣點(diǎn)就構(gòu)成一個(gè)個(gè)矢量。編碼對象可以是直接的語音輸入序列，也可以是參數(shù)編碼中語音模型對應(yīng)的激勵(lì)序列，或者是準(zhǔn)平穩(wěn)期內(nèi)的語音經(jīng)線性預(yù)測分析產(chǎn)生的一組自回歸（AR）模型參數(shù)，等等。每一個(gè)矢量與已預(yù)先訓(xùn)練（是指某種算法計(jì)算）好的一個(gè)矢量碼本（Codebook）中的每一個(gè)碼字（Codeword，它與輸入矢量一樣，也是同維數(shù)的矢量）按某種失真準(zhǔn)則進(jìn)行比較，求出誤差。系統(tǒng)工作原理為：先將待編碼的序列劃碼本中每一個(gè)碼字都與輸入矢量產(chǎn)生一個(gè)相應(yīng)的誤差，其中誤差最小的矢量可用來代替輸入矢量，即輸入的最佳量化值。只需對碼本中每一個(gè)碼字的位置進(jìn)行編碼即可，即傳送的不是碼本中對應(yīng)的碼字本身（這對數(shù)據(jù)壓縮毫無意義），而是它的下標(biāo)。傳送下標(biāo)所用的數(shù)據(jù)量比傳送原始的k維數(shù)據(jù)要小得多，從而達(dá)到了數(shù)據(jù)壓縮的目的。在接收端，也有同樣的碼本，當(dāng)接收到對方傳來的矢量下標(biāo)時(shí)，即可根據(jù)此下標(biāo)，在碼本中查出相應(yīng)的碼字作為重建的語音數(shù)據(jù)。碼本中每一個(gè)碼字都與輸入矢量產(chǎn)生一個(gè)相應(yīng)的誤差，如果碼本的長度為N

，則下標(biāo)可用lbN二進(jìn)制位來表示，而k個(gè)數(shù)據(jù)構(gòu)成一個(gè)碼字。所以，矢量量化編碼的比特壓縮量可達(dá)到1/klbN。矢量量化編碼的關(guān)鍵技術(shù)一方面在于設(shè)計(jì)一個(gè)優(yōu)良的碼本，即矢量碼本的構(gòu)造問題。一般可通過反復(fù)迭代、不斷修正的方法完成，目前最常用的是一種稱為LBG的算法。這個(gè)算法是三位學(xué)者Y.Linde、A.Buzo和R.M.Gray共同提出的，故以它們的名字命名。采用LGB算法的步驟為：如果碼本的長度為N，則下標(biāo)可用l（1）采集用于構(gòu)造碼本的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)越多，采集對象越廣泛，則訓(xùn)練出的碼本越好。當(dāng)然，數(shù)據(jù)越多，訓(xùn)練時(shí)間越長，因而必須在性能和訓(xùn)練代價(jià)之間尋求一個(gè)折衷。（2）構(gòu)造初始碼本。它有許多方法，例如，常用的隨機(jī)碼本、白噪聲碼本等。（3）訓(xùn)練數(shù)據(jù)對已有的碼本進(jìn)行矢量量化編碼，對每個(gè)碼字形成數(shù)據(jù)聚類。（4）根據(jù)量化得到的聚類結(jié)果修正碼字，即尋找每一類的新的代表性碼字。（1）采集用于構(gòu)造碼本的訓(xùn)練數(shù)據(jù)。（5）判斷(3)中量化編碼誤差是否小于規(guī)定數(shù)值，或者迭代次數(shù)是否超過規(guī)定值，若是，訓(xùn)練結(jié)束。否則轉(zhuǎn)（3）繼續(xù)。矢量量化編碼的關(guān)鍵技術(shù)的另一個(gè)方面是量化編碼準(zhǔn)則問題，這與被編碼對象特性有關(guān)。舉例來說，若直接對輸入語音波形進(jìn)行矢量量化，則多用最小均方誤差MSE（Mean-Squared-Error）準(zhǔn)則：（3.3-7）（5）判斷(3)中量化編碼誤差是否小于其中，Yi是碼本中第i個(gè)碼字，每個(gè)碼字有m維;wj

是權(quán)函數(shù);d是誤差值。若矢量量化編碼的對象是語音模型參數(shù)，則MSE（最小均方誤差）準(zhǔn)則就不合適了。因?yàn)槟Ｐ蛥?shù)反映的是語音的頻譜特性，參數(shù)量化誤差最小，代表語音頻譜量化誤差最?。ǔ菂?shù)間無誤差），所以在這種場合，將多數(shù)由參數(shù)來表示的語音頻譜失真作為誤差準(zhǔn)則。最常用的是（3.3-8）其中，Yi是碼本中第i個(gè)碼字，每圖3.3-10

二進(jìn)碼樹編碼原理圖3.3-10二進(jìn)碼樹編碼原理

圖3.3-10中，一共有

級，第一級有2

1個(gè)碼字，第二級有2

2個(gè)碼字，第

m級有2

個(gè)碼字。輸入矢量首先與第一級兩個(gè)碼字比較，如果圖中上面一個(gè)的碼字量化誤差小，則再與它對應(yīng)的第二級的兩個(gè)碼字（如圖中虛線箭頭所指）進(jìn)行比較，依次類推，每次僅與某級的兩個(gè)碼字進(jìn)行比較，一直到最后一級的第

j個(gè)，即為量化結(jié)果，量化的路徑如圖3.3-10中

的實(shí)線所示。這樣，搜索的過程只與2m個(gè)碼字進(jìn)行比較，而不是普通矢量量化與2

個(gè)碼字的比較，計(jì)算量大大減少。當(dāng)然，碼本的構(gòu)造也是先構(gòu)造一個(gè)碼字，再構(gòu)造兩個(gè)，兩個(gè)再構(gòu)造四個(gè)，依此類推。圖3.3-10中，一共有m級G.723.1和G.729標(biāo)準(zhǔn)中采用的代數(shù)結(jié)構(gòu)碼本，是使其碼本呈現(xiàn)某種預(yù)先規(guī)定的排列特征（等間隔的脈沖串、不同碼矢量可以通過別的碼字的移位得到），另外，每個(gè)碼字中非零元素很少，可以大大降低求解合成語音時(shí)的計(jì)算量。矢量量化編碼不一定是對語音樣值進(jìn)行處理，也可以對語音的其他特征進(jìn)行編碼，比如G.723.1標(biāo)準(zhǔn)中，合成濾波器系數(shù)轉(zhuǎn)化為線譜對（LinearSpectrum

Pair，LSP）系數(shù)后采用的就是矢量編碼法。因此，矢量量化的用途是很廣的。G.723.1和G.729標(biāo)準(zhǔn)中采用

3.3.6

線性預(yù)測編碼前面我們已介紹過線性預(yù)測編碼（LPC）方法為參數(shù)編碼方式。參數(shù)編碼的基礎(chǔ)是人類語音的生成模型，通過這個(gè)模型，提取語音的特征參數(shù)，然后對特征參數(shù)進(jìn)行編碼傳輸。在式（3.3-4）和式（3.3-5）中分別給出了預(yù)測方程和預(yù)測誤差。在DPCM中只用低階進(jìn)行預(yù)測，有時(shí)甚至取ai=1

，即只用前面一個(gè)采樣來代替（預(yù)測）當(dāng)前樣值。而在LPC中，對輸入的音頻信號(hào)進(jìn)行分幀（例如，每10ms為一幀）提取參數(shù)。發(fā)送這些參數(shù)以達(dá)到數(shù)據(jù)壓縮的目的。在接收端，利用所得的參數(shù)進(jìn)行合成，重建語音。3.3.6線性預(yù)測編碼在提取的參數(shù)中，最重要的是預(yù)測系數(shù)ai

。求取線性預(yù)測系數(shù)的依據(jù)就是式（3.3-5）的

e20為最小。也就是說，要提取在一幀數(shù)據(jù)中使e20為最小的ai。在實(shí)際應(yīng)用中，通常要取10階或12階預(yù)測系數(shù)，這就需要求出各ai下的e20的最小值。通過解聯(lián)立方程的方法求出ai

來。實(shí)際上求10階（或12階）預(yù)測系數(shù)需要計(jì)算本幀語音信號(hào)的協(xié)方差或自相關(guān)，使求取的預(yù)測值盡可能地接近實(shí)際值。除了預(yù)測系數(shù)外，其他要提取的參數(shù)有音調(diào)、清音/濁音以及信號(hào)的幅度。在提取的參數(shù)中，最重要的是預(yù)測系數(shù)LPC系統(tǒng)將預(yù)測系數(shù)及其他有關(guān)參數(shù)進(jìn)行編碼并傳送。在接收端，利用收到的線性預(yù)測系數(shù)以及其他參數(shù)，使用語音合成器重建原始語音。一個(gè)典型的例子是美國使用的LPC-10算法，其編碼原理框圖如圖3.3-11所示。LPC-10與其他LPC的區(qū)別在于它采用了平均幅值差分函數(shù)（AMDF）間隔提取方法和采用協(xié)方差計(jì)算短時(shí)預(yù)測器系數(shù)，而不是用自相關(guān)方法。在此系統(tǒng)中，語音的采樣率為8kHz，樣本編碼字長為12位。以180個(gè)采樣值為一幀。LPC-10對每幀信號(hào)采樣值進(jìn)行處理，分別計(jì)算出10階預(yù)測系數(shù)、音調(diào)、幅度及清音或濁音。LPC系統(tǒng)將預(yù)測系數(shù)及其他有關(guān)參數(shù)進(jìn)圖3.3-11LPC-10算法的編碼原理框圖圖3.3-11LPC-10算法的編碼原理框圖利用迭代法計(jì)算協(xié)方差矩陣，求得10階預(yù)測系數(shù)。前4個(gè)系數(shù)用5bit表示；第5到第8個(gè)系數(shù)用4bit表示；第9個(gè)系數(shù)為3bit；第10個(gè)系數(shù)為2bit。這樣，10個(gè)線性預(yù)測系數(shù)共用41bit來表示。用7bit傳送音調(diào)和清音/濁音，再用5bit表示幅度，另外還要加1位同步位。這樣一來，原來一幀（180個(gè)采樣值）數(shù)據(jù)可用54bit來傳送，從而使系統(tǒng)的傳送率為8000/180×54＝2.4kb/s。

利用迭代法計(jì)算協(xié)方差矩陣，求得1

3.4

語音壓縮編碼標(biāo)準(zhǔn)經(jīng)過近二三十年的努力，人們已在語音信號(hào)壓縮編碼方面取得了很大進(jìn)展，開發(fā)出了許多壓縮方法，其中的一些已成為了國際或地區(qū)的編碼標(biāo)準(zhǔn)，表3.4-1所示是按波形編碼、參數(shù)編碼和混合編碼三類編碼方法分類的具有代表性的標(biāo)準(zhǔn)。3.4語音壓縮編碼標(biāo)準(zhǔn)經(jīng)過近二表3.4-1

數(shù)字音頻編碼算法、標(biāo)準(zhǔn)簡表表3.4-1數(shù)字音頻編碼算法、標(biāo)準(zhǔn)簡表

3.4.1

常見音頻編碼標(biāo)準(zhǔn)

1．G.711標(biāo)準(zhǔn)G.711標(biāo)準(zhǔn)是1972年制定的電話質(zhì)量的PCM語音壓縮標(biāo)準(zhǔn)，采樣頻率為8kHz，每個(gè)樣值采用8位二進(jìn)制編碼，因此其速率為64kb/s。推薦使用A律或μ律的非線性壓擴(kuò)技術(shù)，將13位的PCM按A律，14位的PCM按μ律轉(zhuǎn)換成8位編碼，其質(zhì)量相當(dāng)于12比特線形量化。標(biāo)準(zhǔn)規(guī)定選用不同解碼規(guī)則的國家之間，數(shù)據(jù)通路傳送按A律解碼的信號(hào)。使用μ律的國家應(yīng)進(jìn)行轉(zhuǎn)換，標(biāo)準(zhǔn)給出了μA編碼的對應(yīng)表。標(biāo)準(zhǔn)還規(guī)定，在物理介質(zhì)上連續(xù)傳輸時(shí)，符號(hào)位在前，最低有效位在后。本標(biāo)準(zhǔn)廣泛用于數(shù)字語音編碼。3.4.1常見音頻編碼標(biāo)準(zhǔn)2．G.721標(biāo)準(zhǔn)G.721標(biāo)準(zhǔn)是ITU-T于1984年制定的，主要目的是用于64kb/s的A律和μ律PCM與32kb/s的ADPCM之間的轉(zhuǎn)換。它基于ADPCM技術(shù)，采樣頻率為8kHz，每個(gè)樣值與預(yù)測值的差值用4位編碼，其編碼速率為32kb/s，ADPCM是一種對中等質(zhì)量音頻信號(hào)進(jìn)行高效編碼的有效算法之一，它不僅適用于語音壓縮，而且也適用于調(diào)幅廣播質(zhì)量的音頻壓縮和CD-I音頻壓縮等應(yīng)用。2．G.721標(biāo)準(zhǔn)3．G.722標(biāo)準(zhǔn)G.722標(biāo)準(zhǔn)旨在提供比G.711或G.721標(biāo)準(zhǔn)壓縮技術(shù)更高的音質(zhì)，G.722編碼采用了高低兩個(gè)子帶內(nèi)的ADPCM方案，即使用子帶ADPCM(SB-ADPCM)編碼方案。高低子帶的劃分以4kHz為界，然后再對每個(gè)子帶內(nèi)采用類似G.721標(biāo)準(zhǔn)的ADPCM編碼。它是1988年ITU-T為調(diào)幅廣播質(zhì)量的音頻信號(hào)壓縮制定的標(biāo)準(zhǔn)。G.722能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號(hào)壓縮為64kb/s，主要用于視聽多媒體和會(huì)議電視等。G.722壓縮信號(hào)的帶寬范圍為50Hz～7kHz，比特率為48kb/s、56kb/s、64kb/s。在標(biāo)準(zhǔn)模式下，采樣頻率為16kHz，幅度深度為14bit。3．G.722標(biāo)準(zhǔn)

4．G.728標(biāo)準(zhǔn)G.728標(biāo)準(zhǔn)是一個(gè)追求低比特率的標(biāo)準(zhǔn)，其速率為16kb/s，其質(zhì)量與32kb/s的G.721

標(biāo)準(zhǔn)相當(dāng)。它使用了LD-CELP（低延時(shí)碼激勵(lì)線性預(yù)測）算法。該算法考慮了人耳的聽覺特性，具有以塊為單位的后向自適應(yīng)高階預(yù)測、后向自適應(yīng)型增益量化、以矢量為單位的激勵(lì)信號(hào)量化等特點(diǎn)。語音輸入為5個(gè)取樣值，附加上激勵(lì)信號(hào)的波形與增益表達(dá)信息10比特，編碼時(shí)延在2ms以內(nèi)。4．G.728標(biāo)準(zhǔn)這一點(diǎn)與每一幀取160個(gè)樣值，附加有除激勵(lì)信號(hào)和波形與增益表達(dá)信息外還包括線性預(yù)測系數(shù)、音調(diào)預(yù)測系數(shù)、音調(diào)增益輔助信息等信息，這些信息的基本CELP結(jié)構(gòu)不同。另外，G.721方案是對每個(gè)取樣值進(jìn)行預(yù)測并自適應(yīng)量化，而本方案則是對所有取樣值以矢量為單位處理，并且應(yīng)用了線性預(yù)測和增益自適應(yīng)的最新理論與成果。這一點(diǎn)與每一幀取160個(gè)樣值，附加有除激勵(lì)信號(hào)和波編碼時(shí)將事先準(zhǔn)備好的激勵(lì)矢量的所有組合合成語音，然后將其結(jié)果與被編碼的輸入信號(hào)相比較，選出聽覺加權(quán)后距離最小的碼元作為信息傳遞。而合成器則將發(fā)送端編碼傳送所制定的激勵(lì)矢量、3比特增益碼和自身合成過的語音波形一起合成為語音。ITU-TG.728標(biāo)準(zhǔn)的LD-CELP編碼原理框圖如圖3.4-1所示。編碼時(shí)將事先準(zhǔn)備好的激勵(lì)矢量的所有組合合成語音，圖3.4-1G.728標(biāo)準(zhǔn)的LD-CELP編碼原理框圖圖3.4-1G.728標(biāo)準(zhǔn)的LD-CELP編碼原理框圖G.728是低速率(56～128kb/s)ISDN可視電話的推薦語音編碼器，由于它具有反向自適應(yīng)特性，可實(shí)現(xiàn)低時(shí)延，被認(rèn)為復(fù)雜度較高。由于自適應(yīng)反向?yàn)V波器，因而G.728具有幀或包丟失隱藏措施，對隨機(jī)比特差錯(cuò)有相當(dāng)強(qiáng)的承受力，超出任何其他語音編碼器。并且，一個(gè)碼字中的全部10個(gè)比特對比特差錯(cuò)的敏感度基本相同。G.728是低速率(56～1285．G.729標(biāo)準(zhǔn)G.729標(biāo)準(zhǔn)是ITU-T為低碼率應(yīng)用設(shè)計(jì)而制定的語音壓縮標(biāo)準(zhǔn)，其碼率為8kb/s，算法相對比較復(fù)雜，采用碼激勵(lì)線性預(yù)測（CELP，CodeExcitationLinearPrediction）技術(shù)，同時(shí)為了提高合成語音質(zhì)量，采取了一些措施，具體的算法要比CELP復(fù)雜一些，通常稱為共軛結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測（CS-ACELP，ConjugateStructureAlgebraicCodeExcitedLinearPrediction）。G.729標(biāo)準(zhǔn)語音編碼系統(tǒng)的原理框圖如圖3.4-2所示。5．G.729標(biāo)準(zhǔn)圖3.4-2

G.729標(biāo)準(zhǔn)語音編碼系統(tǒng)的原理框圖圖3.4-2G.729標(biāo)準(zhǔn)語音編碼系統(tǒng)的原理框圖G.729標(biāo)準(zhǔn)的編碼過程如下：（1）預(yù)處理。它可對輸入信號(hào)進(jìn)行高通濾波和按一定比例縮小，以防溢出。（2）對10ms幀長語音段采用Levinson-Durbin算法進(jìn)行LPC分析（階數(shù)10階），并將LP系數(shù)轉(zhuǎn)換成線譜對LSP參數(shù)，用VQ技術(shù)量化編碼。G.729標(biāo)準(zhǔn)的編碼過程如下：（3）將10ms幀分成兩個(gè)5ms的子幀，分別求子幀語音模型對應(yīng)的激勵(lì)信號(hào)。（4）第二子幀的信號(hào)，合成濾波器系數(shù)取自第二步運(yùn)算的結(jié)果，而第一子幀合成濾波器系數(shù)是通過第二子幀系數(shù)與前一幀系數(shù)內(nèi)插得到的（這樣，第一子幀合成濾波器系數(shù)不必傳輸了）。（3）將10ms幀分成兩個(gè)5ms的子幀（5）開環(huán)基音估計(jì)。即根據(jù)短時(shí)預(yù)測產(chǎn)生的預(yù)測誤差，直接進(jìn)行估計(jì)。（6）進(jìn)行自適應(yīng)碼書搜索，得到語音中具有準(zhǔn)周期特性的激勵(lì)。根據(jù)第(5)步的結(jié)果，搜索范圍可以很小。G.729標(biāo)準(zhǔn)采取了一些措施，使得基音周期還可以取分?jǐn)?shù)值（1/3樣值精度），提高了合成語音質(zhì)量。

（5）開環(huán)基音估計(jì)。即根據(jù)短時(shí)預(yù)測產(chǎn)生的（7）具有代數(shù)結(jié)構(gòu)的固定碼書搜索，從而得到語音模型的隨機(jī)激勵(lì)信號(hào)。（8）兩個(gè)碼書的增益（固定碼本增益和自適應(yīng)碼本增益）采用具有共軛結(jié)構(gòu)的兩級碼書進(jìn)行矢量量化。（7）具有代數(shù)結(jié)構(gòu)的固定碼書搜索，從而表3.4-28kb/sCS-ACELP算法比特分配方案表3.4-28kb/sCS-ACELP算法比特分配方

6．G.723.1標(biāo)準(zhǔn)ITU-T頒布的語音壓縮標(biāo)準(zhǔn)中碼率最低的G.723.1標(biāo)準(zhǔn)主要是用于各種網(wǎng)絡(luò)環(huán)境中的多媒體通信的。它的編碼的流程圖如圖3.4-3所示。盡管圖3.4-3中流程看起來很復(fù)雜，但它仍是基于分析／合成（A/S）編碼原理的。它與G.729標(biāo)準(zhǔn)的主要不同在于：6．G.723.1標(biāo)準(zhǔn)圖3.4-3

G.723.1標(biāo)準(zhǔn)語音編碼系統(tǒng)原理框圖圖3.4-3G.723.1標(biāo)準(zhǔn)語音編碼系統(tǒng)原理框圖（1）分析幀長是30ms，且分成4個(gè)子幀。每個(gè)子幀分別進(jìn)行LPC分析，但僅僅最后一個(gè)子幀的LPC系數(shù)量化編碼；基音估計(jì)每兩個(gè)子幀進(jìn)行一次。G.729中分析幀長為10ms，

分成兩個(gè)子幀。所以，G.723.1編解碼時(shí)延更大。（2）自適應(yīng)碼書和固定碼書增益量化是分別進(jìn)行的，前者采用矢量量化，后者用標(biāo)量量化，沒有像G.729那樣，兩個(gè)增益都采用共軛結(jié)構(gòu)碼書。（3）激勵(lì)有兩種，分別為多脈沖激勵(lì)（高速率時(shí)）和代數(shù)碼激勵(lì)（低速率時(shí)），而G.729只有代數(shù)碼激勵(lì)。所以G.723.1可以有多速率選擇，能適應(yīng)網(wǎng)絡(luò)資源情況變化。（1）分析幀長是30ms，且分成4G.723.1具體編碼過程的步驟如下：（1）輸入為16bit線性PCM信號(hào)。（2）編碼器每次處理一幀240個(gè)語音樣點(diǎn)，在抽樣頻率為8kHz時(shí)等于30ms時(shí)長。（3）每幀語音首先高通濾波，然后被分成4個(gè)等長子幀，每子幀含60個(gè)樣值。G.723.1具體編碼過程的步驟如下（4）每個(gè)子幀用Levinson-Durbin法，求取10階LPC濾波器系數(shù)。（5）4個(gè)子幀中最后一個(gè)子幀的LPC系數(shù)，經(jīng)7.5Hz帶寬擴(kuò)展，再轉(zhuǎn)換成LSP系數(shù)。LSP系數(shù)用預(yù)測分裂矢量量化器進(jìn)行量化編碼。具體做法是，首先去除LSP系數(shù)中直流分量，再與前一幀解碼的LSP矢量做預(yù)測，以減小動(dòng)態(tài)范圍。每個(gè)預(yù)測誤差矢量（10維）分裂成3個(gè)維數(shù)為3、3、4的子矢量，分別用8bitVQ碼書進(jìn)行量化編碼。（4）每個(gè)子幀用Levinson-Dur（6）4個(gè)子幀的前三個(gè)子幀，其量化后LSP（從而LPC）系數(shù)的獲得，是通過對前一幀的解碼LSP系數(shù)，與第四幀解碼LSP系數(shù)的線性內(nèi)插得到。（7）各子幀得到解碼LPC系數(shù)后，構(gòu)成合成濾波器。（8）各子幀用未量化的LPC系數(shù)，組成感覺加權(quán)濾波器，其傳遞函數(shù)為式（3.4-1），并對輸入語音濾波得加權(quán)語音信號(hào)：(3.4-1)（6）4個(gè)子幀的前三個(gè)子幀，其量化后其中,p是共振峰模型階數(shù)，ai是共振峰模型系數(shù)，r1為0.9，r2

為0.5。（9）對（8）的輸出，每二個(gè)子幀做一次開環(huán)基音估計(jì)。所以一幀語音的240個(gè)樣點(diǎn)產(chǎn)生二個(gè)基音估計(jì)值。（10）為改進(jìn)語音各質(zhì)量，對加權(quán)語音，進(jìn)行一次諧波噪聲形成濾波。（11）計(jì)算（7）中合成濾波器、（8）中感覺加權(quán)濾波器和（10）中諧波噪聲濾波器三者的組合濾波器的脈沖響應(yīng)。這是經(jīng)過感覺加權(quán)處理的合成濾波器。其中,p是共振峰模型階數(shù)，a（12）考慮到前后兩幀間濾波器的影響，去除（11）中組合濾波器的零輸入響應(yīng)。（13）先進(jìn)行CELP系統(tǒng)中自適應(yīng)碼書的量化，此處叫基音預(yù)測器，它是5階的FIR系統(tǒng)。根據(jù)步驟（9）中求得的開環(huán)基音值，進(jìn)行精細(xì)的閉環(huán)基音分析，求得的結(jié)果進(jìn)行VQ編碼。

（12）考慮到前后兩幀間濾波器的影響，（14）量化編碼的最后一個(gè)對象是固定碼書的編碼。高速率采用多脈沖／最大似然量化，與普通多脈沖方案不同的是，各脈沖幅度是一樣的，符號(hào)可以不同，且所有脈沖位置，要么全在偶數(shù)號(hào)序列處，要么全在奇數(shù)號(hào)序列位置處，所以它與ACELP的碼本有相似之處。低速率時(shí)的固定碼書的編碼，即是ACELP，比之高速率方案，脈沖個(gè)數(shù)減少了，且位置限制更嚴(yán)，不同碼字間存在簡單代數(shù)移位關(guān)系。在所有編碼工作完成后，進(jìn)行各固定碼書的編碼的狀態(tài)更新，為下一次編碼作好準(zhǔn)備。G.723.1標(biāo)準(zhǔn)算法中，兩種碼率情況下，比特分配如表3.4-3和3.4-4所示。（14）量化編碼的最后一個(gè)對象是固定碼表3.4-3G.723.1標(biāo)準(zhǔn)中6.3kb/s速率編碼算法的碼字分配表3.4-3G.723.1標(biāo)準(zhǔn)中6.3kb/s表3.4-4G.723.1標(biāo)準(zhǔn)中5.3kb/s速率編碼算法的碼字分配表3.4-4G.723.1標(biāo)準(zhǔn)中5.3kb/s速率7．GSM音頻編碼標(biāo)準(zhǔn)GSM是歐洲電信管理局（EuropeanTelecommunicationAdministration）下屬的一個(gè)工作小組CEPT-CCH-GSM（GroupSpecialMobile）的縮寫。GSM是歐洲采用的移動(dòng)電話的壓縮標(biāo)準(zhǔn)，GSM所采用的RPE-LTP算法編碼器原理框圖如圖3.4-4所示。它采用的算法為長時(shí)預(yù)測規(guī)則碼激勵(lì)（RPE-LTP，Regular-PulseExcitation/LongTermPrediction），采樣頻率為8kHz，運(yùn)行速率為13kb/s。7．GSM音頻編碼標(biāo)準(zhǔn)由于GSM在參數(shù)編碼過程中采用了主觀加權(quán)最小均方誤差準(zhǔn)則逼近原始波形，具有原始波形的特點(diǎn)，因此有較好的自然度，并對噪聲及多人講話環(huán)境不敏感。同時(shí)它采用了長時(shí)預(yù)測、對數(shù)面積比（LAR）量化等一系列措施，使其具有較好的語音質(zhì)量，其主觀評分（MOS）達(dá)3.8。由于GSM在參數(shù)編碼過程中采用了主觀加權(quán)最小均方誤圖3.4-4GSM所采用的RPE-LTP算法編碼器原理框圖圖3.4-4GSM所采用的RPE-LTP算法編碼器原理框圖如圖3.4-4所示，GSM的編碼主要有下列五個(gè)步驟：（1）預(yù)處理：包括采樣、去除直流分量以及利用濾波器對高頻進(jìn)行預(yù)加重等處理。（2）LPC分析：對160個(gè)樣點(diǎn)（20ms）一幀的信號(hào)采用Schur迭代算法計(jì)算出8個(gè)LPC反射系數(shù)，并轉(zhuǎn)換成對數(shù)面積比（LAR）參數(shù)，進(jìn)行編碼。（3）短時(shí)分析預(yù)測：經(jīng)過格形短時(shí)分析濾波器求短時(shí)預(yù)測系統(tǒng)的預(yù)測誤差。如圖3.4-4所示，GSM的編碼主要有（4）長時(shí)預(yù)測：利用長時(shí)預(yù)測對第（3）步的誤差信號(hào)進(jìn)行去除多余度，并求出每個(gè)子幀的最佳長時(shí)預(yù)測延時(shí)樣點(diǎn)數(shù)Nc和相應(yīng)的長時(shí)預(yù)測系數(shù)bc，并量化編碼。（5）RPE編碼：對經(jīng)過短時(shí)、長時(shí)預(yù)測后得到的線性預(yù)測誤差信號(hào)進(jìn)行加權(quán)濾波、規(guī)則脈沖序列提取和量化編碼。GSM編碼方案中各參數(shù)所用比特?cái)?shù)分配情況如表3.4-5所示，GSM編碼方案的語音幀長為20ms，每幀為260bit，所以總的編碼速率為13kb/s。（4）長時(shí)預(yù)測：利用長時(shí)預(yù)測對第（表3.4-5

GSM方案參數(shù)比特分配表表3.4-5GSM方案參數(shù)比特分配表3.4.2MPEG音頻編碼標(biāo)準(zhǔn)1．MPEG音頻概述MPEG音頻不是單個(gè)一種壓縮算法，而是三種音頻編碼和壓縮方案的一個(gè)系列，稱為MPEG聲音Layer1，Layer2，Layer3。隨著層數(shù)的增加，算法的復(fù)雜度也增大，所有三層都分級兼容，也就是最復(fù)雜的解碼器（即在MPEGLayer3工作的解碼器）同樣可對Layer1或Layer2的壓縮編碼流進(jìn)行解碼。3.4.2MPEG音頻編碼標(biāo)準(zhǔn)MPEG聲音標(biāo)準(zhǔn)規(guī)定其音頻采樣率可選擇為32kHz、44.1kHz或48kHz；音頻帶寬可選擇15kHz和20kHz，其中15kHz對應(yīng)的采樣頻率為32kHz，20kHz對應(yīng)的采樣頻率為44.1kHz和48kHz；壓縮碼率可選擇從32～320kb/s的一些特定比特率。它支持單聲道、雙聲道、立體聲和聯(lián)合立體聲四種聲音模式。表3.4-6為MPEG音頻編碼三個(gè)等級壓縮比和每層總編碼數(shù)據(jù)速率比較表。值得注意的是，MPEG聲音壓縮的方案是有損的，但是它們可達(dá)到感覺上的無損品質(zhì)。MPEG聲音標(biāo)準(zhǔn)規(guī)定其音頻采樣率可表3.4-6MPEG音頻編碼等級比較表表3.4-6MPEG音頻編碼等級比較表2．MPEG音頻Layer1MPEG音頻Layer1是MUSICAM的一個(gè)簡化版本，它允許構(gòu)建中等品質(zhì)的簡單的編碼器與解碼器，圖3.4-5給出了Layer1音頻編碼的數(shù)據(jù)幀結(jié)構(gòu)。其中，幀頭占用32bit，由同步和狀態(tài)信息組成，12bit的同步碼字全為1；幀校驗(yàn)占用16bit，用于檢測比特流中的差錯(cuò)；音頻數(shù)據(jù)由比特分配信息、比例因子信息和子帶樣值組成，不同的層其音頻數(shù)據(jù)不同；輔助數(shù)據(jù)用于傳輸輔助信息。2．MPEG音頻Layer1圖3.4-5MPEG音頻Layer1數(shù)據(jù)幀結(jié)構(gòu)幀頭幀校驗(yàn)音頻數(shù)據(jù)輔助數(shù)據(jù)圖3.4-5MPEG音頻Layer1數(shù)據(jù)幀結(jié)構(gòu)幀頭3．MPEG音頻Layer2MPEG音頻Layer2與MUSICAM標(biāo)準(zhǔn)相同，在Layer1音頻編碼中，只能傳送左右兩個(gè)聲道。為此，MPEG音頻Layer2擴(kuò)展了低碼率多聲道編碼，將多聲道擴(kuò)展信息加到Layer1音頻數(shù)據(jù)幀結(jié)構(gòu)的輔助數(shù)據(jù)段（其長度沒有限制）中。這樣可將聲道數(shù)擴(kuò)展至5.1，即3個(gè)前聲道(左L、中C和右R)、2個(gè)環(huán)繞聲(左LS、右RS)和1個(gè)超低音聲道LFE(常稱之為0.1)，由此形成了MPEGLayer2音頻編碼標(biāo)準(zhǔn)。3．MPEG音頻Layer2圖3.4-6給出了MPEGLayer2音頻編碼的數(shù)據(jù)幀結(jié)構(gòu)，在MPEGLayer1音頻編碼的第一層，多聲道擴(kuò)展數(shù)據(jù)被分成三個(gè)部分，在連續(xù)3幀MPEGLayer1音頻數(shù)據(jù)幀的輔助數(shù)據(jù)段中傳送，而在第2、3層，多聲道擴(kuò)展數(shù)據(jù)在MPEGLayer1音頻數(shù)據(jù)幀的輔助數(shù)據(jù)段中傳送。MPEGLayer2音頻編碼能傳送多路聲音，并能確保比特流與MPEGLayer1前向和后向兼容。由于MPEGLayer1和MPEGLayer2音頻編碼的核心主要是采用MUSICAM音頻編碼方案，因此，后面專門介紹一些有關(guān)MUSICAM編碼的知識(shí)。圖3.4-6給出了MPEGLayer2音頻編碼的圖3.4-6MPEGLayer2數(shù)據(jù)幀結(jié)構(gòu)圖3.4-6MPEGLayer2數(shù)據(jù)幀結(jié)構(gòu)4．MPEG音頻Layer3（MP3）MPEGLayer3（通常簡稱為MP3）是MPEG音頻系列性能最好的方案，它是MUSICAM方案和ASPEG的組合。MP3的好處在于大幅度降低數(shù)字聲音文件的容量，而不會(huì)破壞原來的音質(zhì)。以CD音質(zhì)的Wave文件來說，如抽樣分辨率為16bit，抽樣頻率為44.1kHz，聲音模式為立體聲，那么存儲(chǔ)1秒鐘CD音質(zhì)的Wave文件，必須要用16bit×44100Hz×2(Stereo)=1411200bit，也就是相當(dāng)于1411.2kbit的存儲(chǔ)容量，存儲(chǔ)介質(zhì)的負(fù)擔(dān)相當(dāng)大。不過通過MP3格式壓縮后，文件便可壓縮為原來的1/10到1/12，每1秒鐘的MP3只需大約112～128kbit就可以了。4．MPEG音頻Layer3（MPMP3相對于MPEG音頻Layer1和Layer2在速率較低情況下還能保持較好音質(zhì)，其原因主要在于：MPEG音頻Layer1是為了DCC（數(shù)字錄音帶）而設(shè)計(jì)的，使用了384kb/s的速率。MPEG音頻Layer2是為在復(fù)雜性和性能之間的一個(gè)平衡而設(shè)計(jì)的，它在低于192kb/s的比特率下還保持了很好的聲音質(zhì)量，如果再低的話，聲音質(zhì)量就變差。MP3相對于MPEG音頻Laye而MPEG音頻Layer3從一開始就是為了低比特率而設(shè)計(jì)的，它在MPEG音頻Layer2之上加入了一些“高級特性”：采用MDCT（改進(jìn)型DCT）變換增強(qiáng)頻率的分辨率，使頻率分辨率提高了18倍，從而使得Layer3的播放器能更好地適應(yīng)量化噪聲；只有Layer3使用了熵編碼（像MPEG視頻）進(jìn)一步地減少了冗余；Layer3還可以使用更高級的聯(lián)合立體聲編碼機(jī)制。MP3編碼原理框圖如圖3.4-7所示。而MPEG音頻Layer3從一開始就是為了低比特率圖3.4-7MP3編碼原理框圖圖3.4-7MP3編碼原理框圖5．MUSICAM算法原理MUSICAM（MaskingPatternUniversalSub-bandIntegratedCodingAndMultiplexing，自適應(yīng)掩蔽模型的通用子帶綜合編碼和復(fù)用）算法是基于兩種機(jī)理來減少音頻信號(hào)碼率的：一是利用統(tǒng)計(jì)相關(guān)性來去除音頻信號(hào)的冗余度；另一種是不相干壓縮，它是考慮人耳的心理學(xué)現(xiàn)象，如頻譜掩蔽和時(shí)間掩蔽。MUSICAM算法使用了以下技術(shù)：將數(shù)字音頻信號(hào)分為32個(gè)子帶、使用人耳的聽覺特性、比例因子、自適應(yīng)比特分配等。圖3.4-8給出了MUSICAM編碼器原理框圖。5．MUSICAM算法原理圖3.4-8MUSICAM編碼器原理框圖圖3.4-8MUSICAM編碼器原理框圖如圖3.4-8所示，子帶濾波器先將輸入的數(shù)字音頻信號(hào)分成32個(gè)子帶，在每個(gè)子帶(750Hz)中確定一段信號(hào)(8ms)中的最大電平，由此得到比例因子的相對變化很小，因此采用差分熵編碼方法。根據(jù)人耳的掩蔽效應(yīng)確定掩蔽門限，在這個(gè)過程中必須首先將輸入信號(hào)作FFT運(yùn)算，實(shí)現(xiàn)時(shí)域到頻域的轉(zhuǎn)換，然后根據(jù)一定規(guī)則來確定掩蔽門限。根據(jù)確定的掩蔽門限自適應(yīng)地分配比特，以達(dá)到高效壓縮音頻數(shù)據(jù)。最后將音頻壓縮數(shù)據(jù)、比例因子和比特分配信息按幀結(jié)構(gòu)組合在一起，形成音頻比特流。如圖3.4-8所示，子帶濾波器先將圖3.4-9給出了MUSICAM編碼器輸出的幀格式。MUSICAM算法的解碼相對于編碼要簡單得多，其中最主要的是不需要?jiǎng)討B(tài)比特分配，主要的計(jì)算量在于合成子帶濾波，解碼原理框圖如圖3.4-10所示。圖3.4-9給出了MUSICAM編碼器輸出的幀格式圖3.4-9MUSICAM幀格式圖3.4-9MUSICAM幀格式圖3.4-10MUSICAM解碼原理框圖圖3.4-10MUSICAM解碼原理框圖3.4.3AAC在提到MPEG音頻的時(shí)候，還應(yīng)該提到AAC。因此，本節(jié)主要介紹AAC的相關(guān)知識(shí)。實(shí)質(zhì)上，MPEG-2標(biāo)準(zhǔn)中，其音頻編碼技術(shù)可分為BC和AAC兩種。BC(BackwardCompatible)為向下兼容格式，其基本內(nèi)容與前面介紹的MPEG音頻格式相同，在數(shù)字編碼單聲道和雙聲道以及分三個(gè)層面的基礎(chǔ)上，加上了三聲道以上的多聲道和對低取樣率音源編碼的能力。其最大特點(diǎn)是可以在MPEG音頻格式的解碼器中解碼（即能向下兼容），但由于兼容性的制約，在較低比特率時(shí)無法取得較高的音質(zhì)，重建音質(zhì)達(dá)不到ITU-R和歐廣聯(lián)（EBU）關(guān)于無線廣播的要求（即重建音質(zhì)與CD音質(zhì)相當(dāng)），3.4.3AAC所以在1994年MPEG-2通過的同時(shí)，MPEG組織決定研究和制定新的音頻編碼，新的音頻編碼必須達(dá)到ITU-R和EBU的要求，并且不要求向下兼容，這就是AAC（AdvancedAudioCoding：先進(jìn)音頻編碼）。有許多著名公司和大學(xué)參加了AAC標(biāo)準(zhǔn)的制定，其中有美國的DolbyLab，LucentBellLab，AT＆TLab，德國的FraunhoferIIS，UniversityofHanover，日本的SonyCo，NEC等。所以在1994年MPEG-2通過的同時(shí)，MPEG組AAC為了追求低比特率數(shù)據(jù)的高音質(zhì)，放棄了向下兼容能力，采用了更高壓縮率的先進(jìn)編碼技術(shù)。此標(biāo)準(zhǔn)于1997年制定完善，同年公布。AAC可以把48kHz、16bit格式取樣的數(shù)據(jù)壓縮到64kb/s，而且音質(zhì)與原來相同。另外，用MPEG音頻或MPEG-2的BC第三層面壓縮的MP3數(shù)字音頻

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多媒體第3章音頻信息處理技術(shù)課件

文檔簡介

溫馨提示

最新文檔

評論

多媒體第3章音頻信息處理技術(shù)課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔