多媒體第3章音頻信息處理技術(shù)課件_第1頁
多媒體第3章音頻信息處理技術(shù)課件_第2頁
多媒體第3章音頻信息處理技術(shù)課件_第3頁
多媒體第3章音頻信息處理技術(shù)課件_第4頁
多媒體第3章音頻信息處理技術(shù)課件_第5頁
已閱讀5頁,還剩483頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3章音頻信息處理技術(shù)3.1基本概念3.2音頻信號(hào)數(shù)字化3.3音頻信號(hào)壓縮編碼3.4語音壓縮編碼標(biāo)準(zhǔn)3.5常見多媒體應(yīng)用的語音編碼器的選擇3.6IP電話技術(shù)練習(xí)與思考題第3章音頻信息處理技術(shù)3.1基本概念

3.1

基本概念

1.聽覺掩蔽在人類聽覺系統(tǒng)中,一個(gè)聲音的存在會(huì)影響人們對其他聲音的聽覺能力,使一個(gè)聲音在聽覺上掩蔽了另一個(gè)聲音,即所謂的“掩蔽效應(yīng)”。由于掩蔽聲的存在,使被掩蔽聲的聞?dòng)颍ㄈ藙偤每陕牭铰曇舻捻懚龋┍仨毺岣叩姆重悢?shù)被定義為一個(gè)聲音對另一個(gè)聲音的掩蔽值。掩蔽效應(yīng)受四種要素的影響:時(shí)間、頻率、聲壓級、聲音品質(zhì)(例如,純音和噪音)。3.1基本概念1.聽覺

2.頻譜掩蔽頻譜掩蔽發(fā)生在高電平音調(diào)使附近頻率的低電平聲音不能被人耳聽到的情況下。當(dāng)頻率離掩蔽音調(diào)越遠(yuǎn)時(shí),掩蔽效應(yīng)減弱的速度就越快??梢赃@樣來解釋這種效應(yīng),雪橇上的鈴聲可以掩蔽高音碰撞的聲音,但不能掩蔽低音鼓的聲音。2.頻譜掩蔽3.瞬態(tài)掩蔽聲音有一個(gè)沖擊時(shí)間(即幅值隨時(shí)間推移而增大的時(shí)間段)和一個(gè)衰退時(shí)間(即幅值隨時(shí)間推移而減小的時(shí)間段)。撥小提琴所產(chǎn)生聲音的沖擊和衰退都很快,而拉小提琴所產(chǎn)生聲音的沖擊和衰退都很慢。此外,在沖擊前和衰退后,聲音都有掩蔽效應(yīng)。前掩蔽時(shí)間為50~200ms,而后掩蔽時(shí)間約為該范圍的1/10。3.瞬態(tài)掩蔽

4.失真失真是用得非常廣泛的概念,在這里主要用來描述重現(xiàn)聲音和原來聲音的相差程度。而表示這種相差程度的方法有兩種:(1)失真的主觀度量。失真的一個(gè)主觀評價(jià)指標(biāo)稱為平均觀點(diǎn)分(MeanOpinionScore,MOS)。聽眾根據(jù)系統(tǒng)質(zhì)量的好壞使用N分制給系統(tǒng)打分。例如,在為HDTV選擇音頻壓縮方案時(shí)就使用了這種度量方法。表3.1-1給出了一種常見的5分制系統(tǒng)。4.失真表3.1-1

5分制平均觀點(diǎn)分舉例平均觀點(diǎn)分質(zhì)量等級主觀感覺5極好覺察不到4好覺察得到,但不難聽3一般有點(diǎn)難聽2差難聽,但不反感1極差難以忍受表3.1-15分制平均觀點(diǎn)分舉例平均觀點(diǎn)分

一方面,MOS確實(shí)是度量音頻重現(xiàn)的最低限度:聽起來感覺怎么樣?另外一方面,度量的結(jié)果隨聽眾、測試位置和原材料的不同而不同,因此,很難將一組結(jié)果和另一組結(jié)果相比較。一方面,MOS確實(shí)是度量音頻重(2)失真的客觀度量。失真的客觀度量是一種可以校準(zhǔn)和重現(xiàn)的測試,它可對原始信號(hào)和重現(xiàn)信號(hào)之間的差別進(jìn)行度量。這里有個(gè)問題,就是失真的絕對大小也許和失真聲音使人厭煩的程度沒有多大關(guān)系。現(xiàn)實(shí)生活中有一個(gè)失真的例子,我們幾乎每天都會(huì)碰到,但它并不是那么令人厭煩,這個(gè)例子就是削波。如果一個(gè)純音(正弦波)通過一個(gè)動(dòng)態(tài)范圍不足的放大器,那么,放大器也許會(huì)將該正弦波的波峰和波谷拉平,這樣就產(chǎn)生了一組奇諧波。對于這種類型的失真,原始(或基波)信號(hào)和失真之間有一種一致的對應(yīng)關(guān)系,因此,這種失真并不一定使你感到煩躁。(2)失真的客觀度量。

5.聲道單聲道(Monophonic)意味著單個(gè)聲源,而立體聲并不表示有兩個(gè)聲源,立體聲(Stereophonic)指的是三維聽覺效果。為了確定聲源位置,大腦要將每個(gè)耳朵所聽到聲音的三個(gè)屬性進(jìn)行比較,這三個(gè)屬性分別是:(1)幅值(Amplitude):如果左耳聽到的聲音比右耳的大,那么我們就認(rèn)為聲音在左邊。5.聲道(2)相位(Phase):如果人的兩耳聽到的信號(hào)具有相同的相位,那么大腦就認(rèn)為聲音在中部;如果兩耳聽到信號(hào)有180°的相位差,那么聲音就不包含方向信息了。(3)時(shí)序(Timing):聲音的傳播速度為1英尺每毫秒;如果聲音到達(dá)右耳的時(shí)間比到達(dá)左耳的早,我們就認(rèn)為聲源就在右邊。一般來說,如果聽眾所處的位置剛好是兩個(gè)聲源(例如兩個(gè)揚(yáng)聲器)的中軸線上,則聽眾就可以享受三維立體聲的效果;否則聽眾就會(huì)失去完全的立體聲效果,因?yàn)樗嚯x其中一個(gè)聲源的距離更短。(2)相位(Phase):如果人的兩耳聲源位置可以通過添加一個(gè)中央通道的方法來確定。為此,Dolby公司在上個(gè)世紀(jì)70年代就實(shí)現(xiàn)了由四個(gè)聲道產(chǎn)生三維立體聲的效果,這四個(gè)聲道分別是:左聲道、右聲道、中央聲道、環(huán)繞聲道。為了使聲音更加豐富,現(xiàn)在的立體聲劇院(包括家庭劇院)都增加了一個(gè)超低音聲道,主要目的是增強(qiáng)低音。聲源位置可以通過添加一個(gè)中央通道的方

3.2

音頻信號(hào)數(shù)字化音頻信息處理主要包括音頻信號(hào)的數(shù)字化和音頻信息的壓縮兩大技術(shù),圖3.2-1為音頻信息處理結(jié)構(gòu)框圖。音頻信息的壓縮是音頻信息處理的關(guān)鍵技術(shù),而音頻信號(hào)的數(shù)字化是為音頻信息的壓縮作準(zhǔn)備的。音頻信號(hào)的數(shù)字化過程就是將模擬音頻信號(hào)轉(zhuǎn)換成有限個(gè)數(shù)字表示的離散序列,即數(shù)字音頻序列,在這一處理過程中涉及到模擬音頻信號(hào)的采樣、量化和編碼。對同一音頻信號(hào)采用不同的采樣、量化和編碼方式就可形成多種形式的數(shù)字化音頻。3.2音頻信號(hào)數(shù)字化音頻信息處圖3.2-1

音頻信息處理框圖圖3.2-1音頻信息處理框圖(1)采樣過程。模擬音頻信號(hào)是一個(gè)在時(shí)間上和幅值上都連續(xù)的信號(hào)。采樣過程就是在時(shí)間上將連續(xù)信號(hào)離散化的過程,采樣一般是按均勻的時(shí)間間隔進(jìn)行的。目前常見的音頻信號(hào)的頻率范圍如圖3.2-2所示,由圖可見:電話信號(hào)的頻帶為200Hz~3.4kHz,調(diào)幅廣播(AM)信號(hào)的頻帶為50Hz~7kHz,調(diào)頻廣播(FM)信號(hào)的頻帶為20Hz~15kHz,高保真音頻信號(hào)的頻帶為10Hz~20kHz。根據(jù)不同的音頻信源和應(yīng)用目標(biāo),可采用不同的采樣頻率,如8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz或48kHz等都是典型的采樣頻率值。(1)采樣過程。模擬音頻信號(hào)是一個(gè)圖3.2-2

常見音頻應(yīng)用帶寬示意圖圖3.2-2常見音頻應(yīng)用帶寬示意圖(2)量化過程。量化過程是指將每個(gè)采樣值在幅度上再進(jìn)行離散化處理。量化可分為均勻量化(量化值的分布是均勻的或者說每個(gè)量化階距是相同的)和非均勻量化。量化會(huì)引入失真,并且量化失真是一種不可逆失真,這就是通常所說的量化噪聲。(3)編碼過程。編碼過程是指用二進(jìn)制數(shù)來表示每個(gè)采樣的量化值。如果量化是均勻的,又采用自然二進(jìn)制數(shù)表示,這種編碼方法就是脈沖編碼調(diào)制(PulseCodeModulation,PCM),這是一種最簡單、最方便的編碼方法。(2)量化過程。量化過程是指將每

3.3

音頻信號(hào)壓縮編碼從20世紀(jì)30年代提出PCM(脈沖編碼調(diào)制)原理以及聲碼器的概念以來,音頻信息壓縮編碼技術(shù)主要是向基于波形和基于參數(shù)兩個(gè)方向發(fā)展的,從這個(gè)角度出發(fā),音頻信息編碼技術(shù)可分為三類:3.3音頻信號(hào)壓縮編碼從20(1)波形編碼。這種方法主要基于語音波形預(yù)測,它力圖使重建的語音波形保持原信號(hào)的波形狀態(tài)。它的優(yōu)點(diǎn)是編碼方法簡單、易于實(shí)現(xiàn)、適應(yīng)能力強(qiáng)、語音質(zhì)量好等,缺點(diǎn)是壓縮比相對來說較低,需要較高的編碼速率。常用的波形法編碼技術(shù)有增量調(diào)制(DM)、自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)、子帶編碼(SBC)和矢量量化編碼(VQ)等等。(1)波形編碼。這種方法主要基于語音(2)參數(shù)編碼。這種方法主要基于參數(shù)的編碼方法。與波形編碼不同的是,這類編碼方法通過語音信號(hào)的數(shù)學(xué)模型對語音信號(hào)特征參數(shù)(主要是指表征聲門振動(dòng)的激勵(lì)參數(shù)和表征聲道特性的聲道參數(shù))進(jìn)行提取及編碼,力圖使重建的語音信號(hào)盡可能保持原信號(hào)的語意,而重建的語音信號(hào)波形同原信號(hào)的波形可能會(huì)有較大的區(qū)別?;谶@種編碼技術(shù)的編碼系統(tǒng)一般稱為聲碼器,它主要用于在窄帶信道上提供4.8kb/s以下的低速語音通信和一些對延時(shí)要求較寬的應(yīng)用場合(如衛(wèi)星通信等)。最常用的參數(shù)編碼法為線性預(yù)測編碼(LPC)。(2)參數(shù)編碼。這種方法主要基于參(3)混合編碼。這種方法克服了原有波形編碼與參數(shù)編碼的弱點(diǎn),并且結(jié)合了波形編碼的高質(zhì)量和參數(shù)編碼的低數(shù)據(jù)率,取得了比較好的效果?;旌暇幋a是指同時(shí)使用兩種或兩種以上的編碼方法進(jìn)行編碼的過程。由于每種編碼方法都有自己的優(yōu)勢和不足,若是用兩種,甚至兩種以上的編碼方法進(jìn)行編碼,可以優(yōu)勢互補(bǔ),克服各自的不足,從而達(dá)到高效數(shù)據(jù)壓縮的目的。無論是在音頻信號(hào)的數(shù)據(jù)壓縮中,還是后面章節(jié)將要描述的圖像信號(hào)的數(shù)據(jù)壓縮中,混合編碼均被廣泛采用。(3)混合編碼。這種方法克服了

3.3.1

增量調(diào)制

1.一般增量調(diào)制增量調(diào)制(DM)是一種比較簡單且有數(shù)據(jù)壓縮功能的波形編碼方法。增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖如圖3.3-1所示。在編碼端,由前一個(gè)輸入信號(hào)的編碼值經(jīng)解碼器解碼可得到下一個(gè)信號(hào)的預(yù)測值。輸入的模擬音頻信號(hào)與預(yù)測值在比較器上相減,從而得到差值。差值的極性可以是正也可以是負(fù)。若為正,則編碼輸出為1;若為負(fù),則編碼輸出為0。這樣,在增量調(diào)制的輸出端可以得到一串1位編碼的DM碼。增量調(diào)制編碼過程示意圖如圖3.3-2所示。3.3.1增量調(diào)制圖3.3-1

增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖圖3.3-1增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖圖3.3-2

增量調(diào)制編碼過程示意圖圖3.3-2增量調(diào)制編碼過程示意圖在圖3.3-2中,縱坐標(biāo)表示輸入的模擬電壓,橫坐標(biāo)表示隨時(shí)間增加而順序產(chǎn)生的DM碼。圖中虛線表示輸入的音頻模擬信號(hào)。從圖3.3-2可以看到,當(dāng)輸入信號(hào)變化比較快時(shí),編碼器的輸出無法跟上信號(hào)的變化,從而會(huì)使重建的模擬信號(hào)發(fā)生畸變,這就是所謂的“斜率過載”??梢钥闯觯?dāng)輸入模擬信號(hào)的變化速度超過了經(jīng)解碼器輸出的預(yù)測信號(hào)的最大變化速度時(shí),就會(huì)發(fā)生斜率過載。增加采樣速度,可以避免斜率過載的發(fā)生。但采樣速度的增加又會(huì)使數(shù)據(jù)的壓縮效率降低。在圖3.3-2中,縱坐標(biāo)表示輸入的從圖3.3-2中還能發(fā)現(xiàn)另一個(gè)問題:當(dāng)輸入信號(hào)沒有變化時(shí),預(yù)測信號(hào)和輸入信號(hào)的差會(huì)十分接近,這時(shí),編碼器的輸出是0和1交替出現(xiàn)的,這種現(xiàn)象就叫做增量調(diào)制的“散粒噪聲”。為了減少散粒噪聲,就希望使輸出編碼1位所表示的模擬電壓

Δ

(又叫量化階距)小一些,但是,減少量化階距

Δ

會(huì)使在固定采樣速度下產(chǎn)生更嚴(yán)重的斜率過載。為了解決這些矛盾,促使人們研究出了自適應(yīng)增量調(diào)制(ADM)方法。從圖3.3-2中還能發(fā)現(xiàn)另一個(gè)問題

2.自適應(yīng)增量調(diào)制(ADM)從前面分析可以看出,為減少斜率過載,希望增加階距;為減少散粒噪聲,又希望減少階距。于是人們就想,若是能使DM的量化階距

Δ

適應(yīng)信號(hào)變化的要求,必須是既降低了斜率過載又減少了散粒噪聲的影響。也就是說,當(dāng)發(fā)現(xiàn)信號(hào)變化快時(shí),增加階距;當(dāng)發(fā)現(xiàn)信號(hào)變化緩慢時(shí),減少階距。這就是自適應(yīng)增量調(diào)制的基本出發(fā)點(diǎn)。2.自適應(yīng)增量調(diào)制(ADM)在ADM中,常用的規(guī)則有兩種:一種是控制可變因子

M,使量化階距在一定范圍內(nèi)變化。對于每一個(gè)新的采樣,其量化階距為其前面數(shù)值的M倍。而M的值則由輸入信號(hào)的變化率來決定。如果出現(xiàn)連續(xù)相同的編碼,則說明有發(fā)生過載的危險(xiǎn),這時(shí)就要加大M。當(dāng)0,1信號(hào)交替出現(xiàn)時(shí),說明信號(hào)變化很慢,會(huì)產(chǎn)生散粒噪聲,這時(shí)就要減少M(fèi)

值。其典型的規(guī)則為(3.3-1)在ADM中,常用的規(guī)則有兩種:(

另一類使用較多的自適應(yīng)增量調(diào)制稱為連續(xù)可變斜率增量(CVSD)調(diào)制。其工作原理如下:如果調(diào)制器(CVSD)連續(xù)輸出三個(gè)相同的碼,則量化階距加上一個(gè)大的增量,也就是說,因?yàn)槿齻€(gè)連續(xù)相同的碼表示有過載發(fā)生。反之,則量化階距增加一個(gè)小的增量。CVSD的自適應(yīng)規(guī)則為其他(3.3-2)另一類使用較多的自適應(yīng)增量調(diào)制稱為連式中,β可在0~1之間取值??梢钥吹?,β的大小可以通過調(diào)節(jié)增量調(diào)制來適應(yīng)輸入信號(hào)變化所需時(shí)間的長短。P和Q為增量,而且P要大于等于Q。式中,β可在0~1之間取值???/p>

3.3.2

自適應(yīng)差分脈沖編碼調(diào)制

1.非均勻PCM(μ律壓擴(kuò)方法)若輸入的音頻信號(hào)是話音信號(hào),使用8kHz采樣頻率進(jìn)行均勻采樣,而后再將每個(gè)樣本編碼為8位二進(jìn)制數(shù)字信號(hào),則我們就可以得到數(shù)據(jù)率為64kb/s的PCM信號(hào),這就是典型的脈沖編碼調(diào)制。這種編碼方式對輸入的音頻信號(hào)進(jìn)行均勻量化,不管輸入的信號(hào)是大還是小,均采用同樣的量化間隔。但是,對音頻信號(hào)而言,大多數(shù)情況下信號(hào)幅度都很小,出現(xiàn)大幅度信號(hào)的概率很小。3.3.2自適應(yīng)差分脈沖編碼調(diào)制然而,為了適應(yīng)這種很少出現(xiàn)的大信號(hào),在均勻量化時(shí)不得不增加二進(jìn)制碼位。對大量的小信號(hào)來說,這樣多的碼位是一種浪費(fèi)。因此,均勻量化PCM效率不高,有必要進(jìn)行改進(jìn)。采用非均勻量化編碼的實(shí)質(zhì)在于減少表示采樣的位數(shù),從而達(dá)到數(shù)據(jù)壓縮的目的。其基本思路是,當(dāng)輸入信號(hào)幅度小時(shí),采用較小的量化間隔;當(dāng)輸入信號(hào)幅度大時(shí),采用較大的量化間隔。這樣就可以做到在一定的精度下,用更少的二進(jìn)制碼位來表示采樣值。這種對小信號(hào)擴(kuò)展、大信號(hào)壓縮的特性可用下式表示:然而,為了適應(yīng)這種很少出現(xiàn)的大信號(hào),在均勻量化時(shí)式中:x為輸入電壓與A/D變換器滿刻度電壓之比,其取值范圍為-1~+1;sgn(x)為x的極性;μ為壓擴(kuò)參數(shù),其取值范圍為100~500,μ越大,壓擴(kuò)越厲害。該壓擴(kuò)規(guī)則的特性如圖3.3-3所示,通常將此曲線叫做μ律壓擴(kuò)特性。(3.3-3)式中:x為輸入電壓與A/D變換器滿刻圖3.3-4μ律壓擴(kuò)數(shù)據(jù)格式圖3.3-4μ律壓擴(kuò)數(shù)據(jù)格式在實(shí)際應(yīng)用中,規(guī)定某個(gè)μ值,采用數(shù)段折線來逼近圖3.3-3所示的壓擴(kuò)特性。這樣就大大地簡化了計(jì)算并保證了一定的精度。例如,當(dāng)選擇μ=255時(shí),壓擴(kuò)特性用8段折線來代替。當(dāng)用8位二進(jìn)制表示一個(gè)采樣時(shí),可以得到無壓擴(kuò)的13位二進(jìn)制數(shù)碼的音頻質(zhì)量。這8位二進(jìn)制數(shù)中,最高位表示符號(hào)位,其后3位用來表示折線編號(hào),最后4位用來表示數(shù)據(jù)位。μ律壓擴(kuò)數(shù)據(jù)格式如圖3.3-4所示。在實(shí)際應(yīng)用中,規(guī)定某個(gè)μ值,采用在解碼恢復(fù)數(shù)據(jù)時(shí),根據(jù)符號(hào)和折線即可通過預(yù)先做好的表恢復(fù)原始數(shù)據(jù)。另外一種常用的壓擴(kuò)特性為A律13折線,它實(shí)際上是將μ律壓擴(kuò)特性曲線以13段直線代替而成的。我國和歐洲采用的是A律13折線壓擴(kuò)法,美國和日本采用的是μ律。對于A律13折線,一個(gè)信號(hào)樣值的編碼由兩部分構(gòu)成:段落碼(信號(hào)屬于13折線哪一段)和段內(nèi)碼。在解碼恢復(fù)數(shù)據(jù)時(shí),根據(jù)符號(hào)和折線即在非均勻PCM編碼中,存在著大量的冗余信息。這是因?yàn)橐纛l信號(hào)鄰近樣本間的相關(guān)性很強(qiáng)。若采用某種措施,便可以去掉那些冗余的信息,差分脈沖編碼調(diào)制(DPCM)是常用的一種方法。在非均勻PCM編碼中,存在著大量的2.差分脈沖編碼調(diào)制(DPCM)差分脈沖編碼調(diào)制的中心思想是對信號(hào)的差值而不是對信號(hào)本身進(jìn)行編碼。這個(gè)差值是指信號(hào)值與預(yù)測值的差值。預(yù)測值可以由過去的采樣值進(jìn)行預(yù)測,其計(jì)算公式如下所示:(3.3-4)2.差分脈沖編碼調(diào)制(DPCM)式中,ai

為預(yù)測系數(shù)。因此,利用若干個(gè)前面的采樣值可以預(yù)測當(dāng)前值。當(dāng)前值與預(yù)測值的差為(3.3-5)式中,ai為預(yù)測系數(shù)。因此,利差分脈沖編碼調(diào)制就是將上述每個(gè)樣點(diǎn)的差值量化編碼,而后用于存儲(chǔ)或傳送。由于相鄰采樣點(diǎn)有較大的相關(guān)性,預(yù)測值常接近真實(shí)值,故差值一般都比較小,從而可以用較少的數(shù)據(jù)位來表示,這樣就減少了數(shù)據(jù)量。在接收端或數(shù)據(jù)回放時(shí),可用類似的過程重建原始數(shù)據(jù)。差分脈沖調(diào)制系統(tǒng)的方框圖如圖3.3-5所示。差分脈沖編碼調(diào)制就是將上述每個(gè)樣點(diǎn)的差圖3.3-5

差分脈沖調(diào)制系統(tǒng)的方框圖(a)編碼器;(b)解碼器圖3.3-5差分脈沖調(diào)制系統(tǒng)的方框圖由圖3.3-5可見,只要求出預(yù)測值

,則實(shí)現(xiàn)這種方法就不困難了,而要得到,關(guān)鍵的問題是確定預(yù)測系數(shù)ai。如何求ai呢?我們定義ai就是使估值的均方差最小的ai。估值的均方差可由下式?jīng)Q定:(3.3-6)由圖3.3-5可見,只要求出預(yù)測為了求得均方差最小,就需對式(3.3-6)中各個(gè)a求導(dǎo)數(shù)并使方程等于0,最后解聯(lián)立方程可以求出ai。預(yù)測系數(shù)與輸入信號(hào)特性有關(guān),也就是說,采樣點(diǎn)同其前面采樣點(diǎn)的相關(guān)性有關(guān)。只要預(yù)測系數(shù)確定,問題便可迎刃而解。通常一階預(yù)測系數(shù)ai的取值范圍為0.8~1。為了求得均方差最小,就需對式(3.3-6)中各個(gè)3.自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)為了進(jìn)一步提高編碼的性能,人們將自適應(yīng)量化器和自適應(yīng)預(yù)測器結(jié)合在一起用于DPCM之中,從而實(shí)現(xiàn)了自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)。其簡化的框圖如圖3.3-6所示。3.自適應(yīng)差分脈沖編碼調(diào)制(A自適應(yīng)量化器首先檢測差分信號(hào)的變化率和差分信號(hào)的幅度大小,而后決定量化器的量化階距。自適應(yīng)預(yù)測器能夠更好地跟蹤語音信號(hào)的變化。因此,將兩種技術(shù)組合起來使用,從而可以提高系統(tǒng)性能。從圖3.3-6中可以看出,在圖3.3-6(a)編碼器框圖中,實(shí)際上也包含著圖3.3-6(b)的解碼器框圖,兩者的算法是一樣的。自適應(yīng)量化器首先檢測差分信號(hào)的變化率圖3.3-6ADPCM編解碼框圖(a)ADPCM編碼器;(b)ADPCM解碼器圖3.3-6ADPCM編解碼框圖

3.3.3

子帶編碼聲音信號(hào)對人耳的聽覺貢獻(xiàn)與信號(hào)頻率有關(guān),比如人耳對1kHz附近頻率成分尤其敏感。再比如實(shí)驗(yàn)發(fā)現(xiàn),如果講話人發(fā)出無意義的音節(jié),則聽話人在保留400Hz~6kHz頻率范圍的語音情況下,就可聽清此音節(jié);而上限頻率降低至1.7kHz時(shí)可聽清約一半;如果講話人發(fā)出的是連續(xù)有意義的句子,那么只保留頻率范圍為400Hz~3kHz的語音就可完全聽懂了。3.3.3子帶編碼與人耳聽覺特性在頻率上分布不均勻相對應(yīng),人所發(fā)出的語音信號(hào)的頻譜也不是平坦的。事實(shí)上,多數(shù)人的語音信號(hào)能量主要集中在頻率為500Hz~1kHz范圍內(nèi),并隨著頻率的升高很快衰減。根據(jù)上述特點(diǎn),可以設(shè)想將輸入信號(hào)用某種方法劃分成不同頻段上的子信號(hào),然后區(qū)別對待,根據(jù)各子信號(hào)的特性,分別編碼。比如,對語音信號(hào)中能量較大,對聽覺有重要影響的部分(如500~800Hz頻段內(nèi)的信號(hào))分配較多的碼字,對次要信號(hào)(如話帶中大于3kHz的信號(hào))則分配較少的碼字。與人耳聽覺特性在頻率上分布不均勻相對各子信號(hào)分別編碼后的碼字在接收方被分別解碼,最后再合成出解碼語音。因此,可以設(shè)想,首先用一組帶通濾波器,將輸入的音頻信號(hào)分成若干個(gè)連續(xù)的頻段,并將這些頻段稱為子帶。然后,再分別對這些子帶中的音頻分量進(jìn)行采樣和編碼。最后,再將各子帶的編碼信號(hào)組織到一起進(jìn)行存儲(chǔ)或送到信道上傳送。在信道的接收端(或在回放時(shí))得到各子帶編碼的混合信號(hào),將各子帶的編碼取出來,對它們分別進(jìn)行解碼,產(chǎn)生各子帶的音頻分量,再將各子帶的音頻分量組合在一起,恢復(fù)原始的音頻信號(hào)。子帶編碼的原理框圖如圖3.3-7所示。由圖3.3-7可以看出上述的基本原理。各子信號(hào)分別編碼后的碼字在接收方被分別解碼,最后再合圖3.3-7

子帶編碼的原理框圖圖3.3-7子帶編碼的原理框圖子帶編碼能夠?qū)崿F(xiàn)較高的壓縮比,而且具有較高的質(zhì)量,因此,得到了比較廣泛的應(yīng)用。這種編碼常常與其他一些編碼混合使用,以實(shí)現(xiàn)混合編碼。這一問題留待后面再作說明。子帶編碼能夠?qū)崿F(xiàn)較高的壓縮比,而且

3.3.4

變換域編碼在子帶編碼中,劃分子帶的方法是通過帶通濾波器來完成的。而另外一種方法就是通過變換域編碼方法,將輸入信號(hào)直接轉(zhuǎn)換到頻域,然后在頻域劃分各頻段,根據(jù)不同的頻段能量大小分配碼字然后編碼,收方解碼后再用相應(yīng)的反變換轉(zhuǎn)換成時(shí)域信號(hào)。3.3.4變換域編碼與子帶編碼類似,變換域編碼也是一種“頻域”編碼。事實(shí)上,只有采用離散傅里葉變換(FFT)或離散余弦變換(DCT),變換后的各系數(shù)才真正代表頻率分量。由于DCT接近最佳變換Karhunen-Loeve變換(KLT),因而語音變換域編碼基本上都采用DCT,在這個(gè)意義上可以稱語音變換域編碼為頻域編碼。與子帶編碼類似,變換域編碼也是一種在語音子帶編碼中,常用的子帶數(shù)目為2~4,寬帶音頻編碼也只不過用32個(gè)子帶。語音的變換域編碼,其變換系數(shù),或稱頻率分量數(shù)目則要大得多,通常取在123~256之間。變換域編碼將連續(xù)8個(gè)輸入語音樣點(diǎn)塊,經(jīng)線性變換后再進(jìn)行量化處理,因此變換域編碼也稱塊編碼。量化的方法可以采用標(biāo)量量化,也可以采用矢量量化。在語音子帶編碼中,常用的子帶數(shù)目為KLT變換能夠使變換域編碼性能充分發(fā)揮,但在使用KLT時(shí),需要對每個(gè)信號(hào)輸入塊都求出N個(gè)特征矢量,并以邊信息(SideInformation,或稱為“輔助信息”)的方式傳送到接收端。另外,KLT在進(jìn)行變換時(shí)需要做N2次乘法/加法運(yùn)算,不存在快速算法,因此在實(shí)際中并沒有得到應(yīng)用。事實(shí)上,它只給出一些次優(yōu)而實(shí)用的算法在性能上的界限,在理論研究上起參照作用。在實(shí)際應(yīng)用中,離散Hadamard變換(DHT)、離散WalshHadamard變換(DWHD)、離散傅里葉變換(DFT)以及離散余弦變換(DCT)等都得到了應(yīng)用。特別是,DCT在語音及圖像的變換域編碼中,由于其性能非常接近于KLT,又有快速算法,因此得到了廣泛的應(yīng)用。KLT變換能夠使變換域編碼性能充DCT的一個(gè)重要優(yōu)點(diǎn)是:它真正代表了頻域變換,因此可以很容易根據(jù)人耳的特性來控制各頻率分量的量化誤差,使得在數(shù)碼率一定的條件下,獲得最好的主觀編碼質(zhì)量。DCT的另一個(gè)重要優(yōu)點(diǎn)是:對于自回歸(AR)輸入過程,并且相鄰樣點(diǎn)有較高的相關(guān)性時(shí),其性能非常接近KLT。不僅僅對于語音信號(hào),其他許多信號(hào)都能夠用AR模型來描述。DCT的第三個(gè)優(yōu)點(diǎn)是:它可以借助FFT進(jìn)行快速計(jì)算。這對具體應(yīng)用,特別是當(dāng)N比較大時(shí),是至關(guān)重要的。DCT的一個(gè)重要優(yōu)點(diǎn)是:它真正代在語音編碼系統(tǒng)中,為了適應(yīng)語音信號(hào)的非平穩(wěn)性,通常都要采用自適應(yīng)處理技術(shù)。變換域編碼將輸入信號(hào)塊分解成不同的頻率分量,去除了大部分樣點(diǎn)之間的相關(guān)性,因此,自適應(yīng)技術(shù)主要使用了自適應(yīng)比特分配和自適應(yīng)量化。自適應(yīng)比特分配用來適應(yīng)短時(shí)譜形狀的變化,而自適應(yīng)量化主要用來適應(yīng)短時(shí)譜能量的變化。在更一般的概念中,變換的矩陣也可以自適應(yīng),由于實(shí)現(xiàn)上的困難,在實(shí)際應(yīng)用中幾乎都采用固定變換矩陣,因此,自適應(yīng)變換域編碼(ATC)一詞通常指自適應(yīng)比特分配和自適應(yīng)量化,特別是指自適應(yīng)比特分配。在語音編碼系統(tǒng)中,為了適應(yīng)語音信由于分塊處理,前向自適應(yīng)更適合變換域編碼,自適應(yīng)信息需要以邊信息的形式傳送給接收端,以供解碼用。由于邊信息占用一部分速率,因此需要研究高效率的自適應(yīng)方法,盡量少用一些比特來傳送邊信息,以省下更多的比特用來對系數(shù)進(jìn)行量化。圖3.3-8示出了自適應(yīng)變換域編解碼的框圖,其中包含了邊信息支路,它們用來提供自適應(yīng)量階及自適應(yīng)比特分配信息。由于分塊處理,前向自適應(yīng)更適合變換域編碼,自適應(yīng)圖3.3-8

自適應(yīng)變換編解碼原理框圖(a)編碼;(b)解碼圖3.3-8自適應(yīng)變換編解碼原理框圖3.3.5矢量量化矢量量化VQ(VectorQuantization)是一種有損的編碼方案,其主要思想是將輸入的語音信號(hào)按一定方式分組,把這些分組數(shù)據(jù)看成一個(gè)矢量,對它進(jìn)行量化。這就區(qū)別于直接對一個(gè)個(gè)數(shù)據(jù)作量化的標(biāo)量量化方法。矢量量化編碼及解碼的原理框圖如圖3.3-9所示。3.3.5矢量量化圖3.3-9

矢量量化編碼及解碼原理框圖圖3.3-9矢量量化編碼及解碼原理框圖假定將語音數(shù)據(jù)分組,每組有k個(gè)數(shù)據(jù)。這樣,一組就是一個(gè)k維的矢量。把每一個(gè)組形成的矢量看成一個(gè)元素,又叫碼字,那么,語音所分成的組就形成了各自的碼字。這些碼字排列起來,就構(gòu)成了一個(gè)表,人們將此表叫做碼本或碼書。形象一點(diǎn)說,碼書就類似于漢字的電報(bào)號(hào)碼本,電報(bào)號(hào)碼本里面是復(fù)雜的漢字,而在這里是一組原始的語音數(shù)據(jù);電報(bào)號(hào)碼本里每個(gè)漢字旁邊標(biāo)有只用4位阿拉伯?dāng)?shù)字表示的號(hào)碼,而在矢量量化方法里就是每組數(shù)據(jù)所對應(yīng)的下標(biāo)。假定將語音數(shù)據(jù)分組,每組有k個(gè)系統(tǒng)工作原理為:先將待編碼的序列劃分成一個(gè)個(gè)等長的段,每段含有若干個(gè)樣點(diǎn),這一段段樣點(diǎn)就構(gòu)成一個(gè)個(gè)矢量。編碼對象可以是直接的語音輸入序列,也可以是參數(shù)編碼中語音模型對應(yīng)的激勵(lì)序列,或者是準(zhǔn)平穩(wěn)期內(nèi)的語音經(jīng)線性預(yù)測分析產(chǎn)生的一組自回歸(AR)模型參數(shù),等等。每一個(gè)矢量與已預(yù)先訓(xùn)練(是指某種算法計(jì)算)好的一個(gè)矢量碼本(Codebook)中的每一個(gè)碼字(Codeword,它與輸入矢量一樣,也是同維數(shù)的矢量)按某種失真準(zhǔn)則進(jìn)行比較,求出誤差。系統(tǒng)工作原理為:先將待編碼的序列劃碼本中每一個(gè)碼字都與輸入矢量產(chǎn)生一個(gè)相應(yīng)的誤差,其中誤差最小的矢量可用來代替輸入矢量,即輸入的最佳量化值。只需對碼本中每一個(gè)碼字的位置進(jìn)行編碼即可,即傳送的不是碼本中對應(yīng)的碼字本身(這對數(shù)據(jù)壓縮毫無意義),而是它的下標(biāo)。傳送下標(biāo)所用的數(shù)據(jù)量比傳送原始的k維數(shù)據(jù)要小得多,從而達(dá)到了數(shù)據(jù)壓縮的目的。在接收端,也有同樣的碼本,當(dāng)接收到對方傳來的矢量下標(biāo)時(shí),即可根據(jù)此下標(biāo),在碼本中查出相應(yīng)的碼字作為重建的語音數(shù)據(jù)。碼本中每一個(gè)碼字都與輸入矢量產(chǎn)生一個(gè)相應(yīng)的誤差,如果碼本的長度為N

,則下標(biāo)可用lbN二進(jìn)制位來表示,而k個(gè)數(shù)據(jù)構(gòu)成一個(gè)碼字。所以,矢量量化編碼的比特壓縮量可達(dá)到1/klbN。矢量量化編碼的關(guān)鍵技術(shù)一方面在于設(shè)計(jì)一個(gè)優(yōu)良的碼本,即矢量碼本的構(gòu)造問題。一般可通過反復(fù)迭代、不斷修正的方法完成,目前最常用的是一種稱為LBG的算法。這個(gè)算法是三位學(xué)者Y.Linde、A.Buzo和R.M.Gray共同提出的,故以它們的名字命名。采用LGB算法的步驟為:如果碼本的長度為N,則下標(biāo)可用l(1)采集用于構(gòu)造碼本的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)越多,采集對象越廣泛,則訓(xùn)練出的碼本越好。當(dāng)然,數(shù)據(jù)越多,訓(xùn)練時(shí)間越長,因而必須在性能和訓(xùn)練代價(jià)之間尋求一個(gè)折衷。(2)構(gòu)造初始碼本。它有許多方法,例如,常用的隨機(jī)碼本、白噪聲碼本等。(3)訓(xùn)練數(shù)據(jù)對已有的碼本進(jìn)行矢量量化編碼,對每個(gè)碼字形成數(shù)據(jù)聚類。(4)根據(jù)量化得到的聚類結(jié)果修正碼字,即尋找每一類的新的代表性碼字。(1)采集用于構(gòu)造碼本的訓(xùn)練數(shù)據(jù)。(5)判斷(3)中量化編碼誤差是否小于規(guī)定數(shù)值,或者迭代次數(shù)是否超過規(guī)定值,若是,訓(xùn)練結(jié)束。否則轉(zhuǎn)(3)繼續(xù)。矢量量化編碼的關(guān)鍵技術(shù)的另一個(gè)方面是量化編碼準(zhǔn)則問題,這與被編碼對象特性有關(guān)。舉例來說,若直接對輸入語音波形進(jìn)行矢量量化,則多用最小均方誤差MSE(Mean-Squared-Error)準(zhǔn)則:(3.3-7)(5)判斷(3)中量化編碼誤差是否小于其中,Yi是碼本中第i個(gè)碼字,每個(gè)碼字有m維;wj

是權(quán)函數(shù);d是誤差值。若矢量量化編碼的對象是語音模型參數(shù),則MSE(最小均方誤差)準(zhǔn)則就不合適了。因?yàn)槟P蛥?shù)反映的是語音的頻譜特性,參數(shù)量化誤差最小,代表語音頻譜量化誤差最?。ǔ菂?shù)間無誤差),所以在這種場合,將多數(shù)由參數(shù)來表示的語音頻譜失真作為誤差準(zhǔn)則。最常用的是(3.3-8)其中,Yi是碼本中第i個(gè)碼字,每圖3.3-10

二進(jìn)碼樹編碼原理圖3.3-10二進(jìn)碼樹編碼原理

圖3.3-10中,一共有

m

級,第一級有2

1個(gè)碼字,第二級有2

2個(gè)碼字,第

m級有2

m

個(gè)碼字。輸入矢量首先與第一級兩個(gè)碼字比較,如果圖中上面一個(gè)的碼字量化誤差小,則再與它對應(yīng)的第二級的兩個(gè)碼字(如圖中虛線箭頭所指)進(jìn)行比較,依次類推,每次僅與某級的兩個(gè)碼字進(jìn)行比較,一直到最后一級的第

j個(gè),即為量化結(jié)果,量化的路徑如圖3.3-10中

的實(shí)線所示。這樣,搜索的過程只與2m個(gè)碼字進(jìn)行比較,而不是普通矢量量化與2

m

個(gè)碼字的比較,計(jì)算量大大減少。當(dāng)然,碼本的構(gòu)造也是先構(gòu)造一個(gè)碼字,再構(gòu)造兩個(gè),兩個(gè)再構(gòu)造四個(gè),依此類推。圖3.3-10中,一共有m級G.723.1和G.729標(biāo)準(zhǔn)中采用的代數(shù)結(jié)構(gòu)碼本,是使其碼本呈現(xiàn)某種預(yù)先規(guī)定的排列特征(等間隔的脈沖串、不同碼矢量可以通過別的碼字的移位得到),另外,每個(gè)碼字中非零元素很少,可以大大降低求解合成語音時(shí)的計(jì)算量。矢量量化編碼不一定是對語音樣值進(jìn)行處理,也可以對語音的其他特征進(jìn)行編碼,比如G.723.1標(biāo)準(zhǔn)中,合成濾波器系數(shù)轉(zhuǎn)化為線譜對(LinearSpectrum

Pair,LSP)系數(shù)后采用的就是矢量編碼法。因此,矢量量化的用途是很廣的。G.723.1和G.729標(biāo)準(zhǔn)中采用

3.3.6

線性預(yù)測編碼前面我們已介紹過線性預(yù)測編碼(LPC)方法為參數(shù)編碼方式。參數(shù)編碼的基礎(chǔ)是人類語音的生成模型,通過這個(gè)模型,提取語音的特征參數(shù),然后對特征參數(shù)進(jìn)行編碼傳輸。在式(3.3-4)和式(3.3-5)中分別給出了預(yù)測方程和預(yù)測誤差。在DPCM中只用低階進(jìn)行預(yù)測,有時(shí)甚至取ai=1

,即只用前面一個(gè)采樣來代替(預(yù)測)當(dāng)前樣值。而在LPC中,對輸入的音頻信號(hào)進(jìn)行分幀(例如,每10ms為一幀)提取參數(shù)。發(fā)送這些參數(shù)以達(dá)到數(shù)據(jù)壓縮的目的。在接收端,利用所得的參數(shù)進(jìn)行合成,重建語音。3.3.6線性預(yù)測編碼在提取的參數(shù)中,最重要的是預(yù)測系數(shù)ai

。求取線性預(yù)測系數(shù)的依據(jù)就是式(3.3-5)的

e20為最小。也就是說,要提取在一幀數(shù)據(jù)中使e20為最小的ai。在實(shí)際應(yīng)用中,通常要取10階或12階預(yù)測系數(shù),這就需要求出各ai下的e20的最小值。通過解聯(lián)立方程的方法求出ai

來。實(shí)際上求10階(或12階)預(yù)測系數(shù)需要計(jì)算本幀語音信號(hào)的協(xié)方差或自相關(guān),使求取的預(yù)測值盡可能地接近實(shí)際值。除了預(yù)測系數(shù)外,其他要提取的參數(shù)有音調(diào)、清音/濁音以及信號(hào)的幅度。在提取的參數(shù)中,最重要的是預(yù)測系數(shù)LPC系統(tǒng)將預(yù)測系數(shù)及其他有關(guān)參數(shù)進(jìn)行編碼并傳送。在接收端,利用收到的線性預(yù)測系數(shù)以及其他參數(shù),使用語音合成器重建原始語音。一個(gè)典型的例子是美國使用的LPC-10算法,其編碼原理框圖如圖3.3-11所示。LPC-10與其他LPC的區(qū)別在于它采用了平均幅值差分函數(shù)(AMDF)間隔提取方法和采用協(xié)方差計(jì)算短時(shí)預(yù)測器系數(shù),而不是用自相關(guān)方法。在此系統(tǒng)中,語音的采樣率為8kHz,樣本編碼字長為12位。以180個(gè)采樣值為一幀。LPC-10對每幀信號(hào)采樣值進(jìn)行處理,分別計(jì)算出10階預(yù)測系數(shù)、音調(diào)、幅度及清音或濁音。LPC系統(tǒng)將預(yù)測系數(shù)及其他有關(guān)參數(shù)進(jìn)圖3.3-11LPC-10算法的編碼原理框圖圖3.3-11LPC-10算法的編碼原理框圖利用迭代法計(jì)算協(xié)方差矩陣,求得10階預(yù)測系數(shù)。前4個(gè)系數(shù)用5bit表示;第5到第8個(gè)系數(shù)用4bit表示;第9個(gè)系數(shù)為3bit;第10個(gè)系數(shù)為2bit。這樣,10個(gè)線性預(yù)測系數(shù)共用41bit來表示。用7bit傳送音調(diào)和清音/濁音,再用5bit表示幅度,另外還要加1位同步位。這樣一來,原來一幀(180個(gè)采樣值)數(shù)據(jù)可用54bit來傳送,從而使系統(tǒng)的傳送率為8000/180×54=2.4kb/s。

利用迭代法計(jì)算協(xié)方差矩陣,求得1

3.4

語音壓縮編碼標(biāo)準(zhǔn)經(jīng)過近二三十年的努力,人們已在語音信號(hào)壓縮編碼方面取得了很大進(jìn)展,開發(fā)出了許多壓縮方法,其中的一些已成為了國際或地區(qū)的編碼標(biāo)準(zhǔn),表3.4-1所示是按波形編碼、參數(shù)編碼和混合編碼三類編碼方法分類的具有代表性的標(biāo)準(zhǔn)。3.4語音壓縮編碼標(biāo)準(zhǔn)經(jīng)過近二表3.4-1

數(shù)字音頻編碼算法、標(biāo)準(zhǔn)簡表表3.4-1數(shù)字音頻編碼算法、標(biāo)準(zhǔn)簡表

3.4.1

常見音頻編碼標(biāo)準(zhǔn)

1.G.711標(biāo)準(zhǔn)G.711標(biāo)準(zhǔn)是1972年制定的電話質(zhì)量的PCM語音壓縮標(biāo)準(zhǔn),采樣頻率為8kHz,每個(gè)樣值采用8位二進(jìn)制編碼,因此其速率為64kb/s。推薦使用A律或μ律的非線性壓擴(kuò)技術(shù),將13位的PCM按A律,14位的PCM按μ律轉(zhuǎn)換成8位編碼,其質(zhì)量相當(dāng)于12比特線形量化。標(biāo)準(zhǔn)規(guī)定選用不同解碼規(guī)則的國家之間,數(shù)據(jù)通路傳送按A律解碼的信號(hào)。使用μ律的國家應(yīng)進(jìn)行轉(zhuǎn)換,標(biāo)準(zhǔn)給出了μA編碼的對應(yīng)表。標(biāo)準(zhǔn)還規(guī)定,在物理介質(zhì)上連續(xù)傳輸時(shí),符號(hào)位在前,最低有效位在后。本標(biāo)準(zhǔn)廣泛用于數(shù)字語音編碼。3.4.1常見音頻編碼標(biāo)準(zhǔn)2.G.721標(biāo)準(zhǔn)G.721標(biāo)準(zhǔn)是ITU-T于1984年制定的,主要目的是用于64kb/s的A律和μ律PCM與32kb/s的ADPCM之間的轉(zhuǎn)換。它基于ADPCM技術(shù),采樣頻率為8kHz,每個(gè)樣值與預(yù)測值的差值用4位編碼,其編碼速率為32kb/s,ADPCM是一種對中等質(zhì)量音頻信號(hào)進(jìn)行高效編碼的有效算法之一,它不僅適用于語音壓縮,而且也適用于調(diào)幅廣播質(zhì)量的音頻壓縮和CD-I音頻壓縮等應(yīng)用。2.G.721標(biāo)準(zhǔn)3.G.722標(biāo)準(zhǔn)G.722標(biāo)準(zhǔn)旨在提供比G.711或G.721標(biāo)準(zhǔn)壓縮技術(shù)更高的音質(zhì),G.722編碼采用了高低兩個(gè)子帶內(nèi)的ADPCM方案,即使用子帶ADPCM(SB-ADPCM)編碼方案。高低子帶的劃分以4kHz為界,然后再對每個(gè)子帶內(nèi)采用類似G.721標(biāo)準(zhǔn)的ADPCM編碼。它是1988年ITU-T為調(diào)幅廣播質(zhì)量的音頻信號(hào)壓縮制定的標(biāo)準(zhǔn)。G.722能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號(hào)壓縮為64kb/s,主要用于視聽多媒體和會(huì)議電視等。G.722壓縮信號(hào)的帶寬范圍為50Hz~7kHz,比特率為48kb/s、56kb/s、64kb/s。在標(biāo)準(zhǔn)模式下,采樣頻率為16kHz,幅度深度為14bit。3.G.722標(biāo)準(zhǔn)

4.G.728標(biāo)準(zhǔn)G.728標(biāo)準(zhǔn)是一個(gè)追求低比特率的標(biāo)準(zhǔn),其速率為16kb/s,其質(zhì)量與32kb/s的G.721

標(biāo)準(zhǔn)相當(dāng)。它使用了LD-CELP(低延時(shí)碼激勵(lì)線性預(yù)測)算法。該算法考慮了人耳的聽覺特性,具有以塊為單位的后向自適應(yīng)高階預(yù)測、后向自適應(yīng)型增益量化、以矢量為單位的激勵(lì)信號(hào)量化等特點(diǎn)。語音輸入為5個(gè)取樣值,附加上激勵(lì)信號(hào)的波形與增益表達(dá)信息10比特,編碼時(shí)延在2ms以內(nèi)。4.G.728標(biāo)準(zhǔn)這一點(diǎn)與每一幀取160個(gè)樣值,附加有除激勵(lì)信號(hào)和波形與增益表達(dá)信息外還包括線性預(yù)測系數(shù)、音調(diào)預(yù)測系數(shù)、音調(diào)增益輔助信息等信息,這些信息的基本CELP結(jié)構(gòu)不同。另外,G.721方案是對每個(gè)取樣值進(jìn)行預(yù)測并自適應(yīng)量化,而本方案則是對所有取樣值以矢量為單位處理,并且應(yīng)用了線性預(yù)測和增益自適應(yīng)的最新理論與成果。這一點(diǎn)與每一幀取160個(gè)樣值,附加有除激勵(lì)信號(hào)和波編碼時(shí)將事先準(zhǔn)備好的激勵(lì)矢量的所有組合合成語音,然后將其結(jié)果與被編碼的輸入信號(hào)相比較,選出聽覺加權(quán)后距離最小的碼元作為信息傳遞。而合成器則將發(fā)送端編碼傳送所制定的激勵(lì)矢量、3比特增益碼和自身合成過的語音波形一起合成為語音。ITU-TG.728標(biāo)準(zhǔn)的LD-CELP編碼原理框圖如圖3.4-1所示。編碼時(shí)將事先準(zhǔn)備好的激勵(lì)矢量的所有組合合成語音,圖3.4-1G.728標(biāo)準(zhǔn)的LD-CELP編碼原理框圖圖3.4-1G.728標(biāo)準(zhǔn)的LD-CELP編碼原理框圖G.728是低速率(56~128kb/s)ISDN可視電話的推薦語音編碼器,由于它具有反向自適應(yīng)特性,可實(shí)現(xiàn)低時(shí)延,被認(rèn)為復(fù)雜度較高。由于自適應(yīng)反向?yàn)V波器,因而G.728具有幀或包丟失隱藏措施,對隨機(jī)比特差錯(cuò)有相當(dāng)強(qiáng)的承受力,超出任何其他語音編碼器。并且,一個(gè)碼字中的全部10個(gè)比特對比特差錯(cuò)的敏感度基本相同。G.728是低速率(56~1285.G.729標(biāo)準(zhǔn)G.729標(biāo)準(zhǔn)是ITU-T為低碼率應(yīng)用設(shè)計(jì)而制定的語音壓縮標(biāo)準(zhǔn),其碼率為8kb/s,算法相對比較復(fù)雜,采用碼激勵(lì)線性預(yù)測(CELP,CodeExcitationLinearPrediction)技術(shù),同時(shí)為了提高合成語音質(zhì)量,采取了一些措施,具體的算法要比CELP復(fù)雜一些,通常稱為共軛結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(CS-ACELP,ConjugateStructureAlgebraicCodeExcitedLinearPrediction)。G.729標(biāo)準(zhǔn)語音編碼系統(tǒng)的原理框圖如圖3.4-2所示。5.G.729標(biāo)準(zhǔn)圖3.4-2

G.729標(biāo)準(zhǔn)語音編碼系統(tǒng)的原理框圖圖3.4-2G.729標(biāo)準(zhǔn)語音編碼系統(tǒng)的原理框圖G.729標(biāo)準(zhǔn)的編碼過程如下:(1)預(yù)處理。它可對輸入信號(hào)進(jìn)行高通濾波和按一定比例縮小,以防溢出。(2)對10ms幀長語音段采用Levinson-Durbin算法進(jìn)行LPC分析(階數(shù)10階),并將LP系數(shù)轉(zhuǎn)換成線譜對LSP參數(shù),用VQ技術(shù)量化編碼。G.729標(biāo)準(zhǔn)的編碼過程如下:(3)將10ms幀分成兩個(gè)5ms的子幀,分別求子幀語音模型對應(yīng)的激勵(lì)信號(hào)。(4)第二子幀的信號(hào),合成濾波器系數(shù)取自第二步運(yùn)算的結(jié)果,而第一子幀合成濾波器系數(shù)是通過第二子幀系數(shù)與前一幀系數(shù)內(nèi)插得到的(這樣,第一子幀合成濾波器系數(shù)不必傳輸了)。(3)將10ms幀分成兩個(gè)5ms的子幀(5)開環(huán)基音估計(jì)。即根據(jù)短時(shí)預(yù)測產(chǎn)生的預(yù)測誤差,直接進(jìn)行估計(jì)。(6)進(jìn)行自適應(yīng)碼書搜索,得到語音中具有準(zhǔn)周期特性的激勵(lì)。根據(jù)第(5)步的結(jié)果,搜索范圍可以很小。G.729標(biāo)準(zhǔn)采取了一些措施,使得基音周期還可以取分?jǐn)?shù)值(1/3樣值精度),提高了合成語音質(zhì)量。

(5)開環(huán)基音估計(jì)。即根據(jù)短時(shí)預(yù)測產(chǎn)生的(7)具有代數(shù)結(jié)構(gòu)的固定碼書搜索,從而得到語音模型的隨機(jī)激勵(lì)信號(hào)。(8)兩個(gè)碼書的增益(固定碼本增益和自適應(yīng)碼本增益)采用具有共軛結(jié)構(gòu)的兩級碼書進(jìn)行矢量量化。(7)具有代數(shù)結(jié)構(gòu)的固定碼書搜索,從而表3.4-28kb/sCS-ACELP算法比特分配方案表3.4-28kb/sCS-ACELP算法比特分配方

6.G.723.1標(biāo)準(zhǔn)ITU-T頒布的語音壓縮標(biāo)準(zhǔn)中碼率最低的G.723.1標(biāo)準(zhǔn)主要是用于各種網(wǎng)絡(luò)環(huán)境中的多媒體通信的。它的編碼的流程圖如圖3.4-3所示。盡管圖3.4-3中流程看起來很復(fù)雜,但它仍是基于分析/合成(A/S)編碼原理的。它與G.729標(biāo)準(zhǔn)的主要不同在于:6.G.723.1標(biāo)準(zhǔn)圖3.4-3

G.723.1標(biāo)準(zhǔn)語音編碼系統(tǒng)原理框圖圖3.4-3G.723.1標(biāo)準(zhǔn)語音編碼系統(tǒng)原理框圖(1)分析幀長是30ms,且分成4個(gè)子幀。每個(gè)子幀分別進(jìn)行LPC分析,但僅僅最后一個(gè)子幀的LPC系數(shù)量化編碼;基音估計(jì)每兩個(gè)子幀進(jìn)行一次。G.729中分析幀長為10ms,

分成兩個(gè)子幀。所以,G.723.1編解碼時(shí)延更大。(2)自適應(yīng)碼書和固定碼書增益量化是分別進(jìn)行的,前者采用矢量量化,后者用標(biāo)量量化,沒有像G.729那樣,兩個(gè)增益都采用共軛結(jié)構(gòu)碼書。(3)激勵(lì)有兩種,分別為多脈沖激勵(lì)(高速率時(shí))和代數(shù)碼激勵(lì)(低速率時(shí)),而G.729只有代數(shù)碼激勵(lì)。所以G.723.1可以有多速率選擇,能適應(yīng)網(wǎng)絡(luò)資源情況變化。(1)分析幀長是30ms,且分成4G.723.1具體編碼過程的步驟如下:(1)輸入為16bit線性PCM信號(hào)。(2)編碼器每次處理一幀240個(gè)語音樣點(diǎn),在抽樣頻率為8kHz時(shí)等于30ms時(shí)長。(3)每幀語音首先高通濾波,然后被分成4個(gè)等長子幀,每子幀含60個(gè)樣值。G.723.1具體編碼過程的步驟如下(4)每個(gè)子幀用Levinson-Durbin法,求取10階LPC濾波器系數(shù)。(5)4個(gè)子幀中最后一個(gè)子幀的LPC系數(shù),經(jīng)7.5Hz帶寬擴(kuò)展,再轉(zhuǎn)換成LSP系數(shù)。LSP系數(shù)用預(yù)測分裂矢量量化器進(jìn)行量化編碼。具體做法是,首先去除LSP系數(shù)中直流分量,再與前一幀解碼的LSP矢量做預(yù)測,以減小動(dòng)態(tài)范圍。每個(gè)預(yù)測誤差矢量(10維)分裂成3個(gè)維數(shù)為3、3、4的子矢量,分別用8bitVQ碼書進(jìn)行量化編碼。(4)每個(gè)子幀用Levinson-Dur(6)4個(gè)子幀的前三個(gè)子幀,其量化后LSP(從而LPC)系數(shù)的獲得,是通過對前一幀的解碼LSP系數(shù),與第四幀解碼LSP系數(shù)的線性內(nèi)插得到。(7)各子幀得到解碼LPC系數(shù)后,構(gòu)成合成濾波器。(8)各子幀用未量化的LPC系數(shù),組成感覺加權(quán)濾波器,其傳遞函數(shù)為式(3.4-1),并對輸入語音濾波得加權(quán)語音信號(hào):(3.4-1)(6)4個(gè)子幀的前三個(gè)子幀,其量化后其中,p是共振峰模型階數(shù),ai是共振峰模型系數(shù),r1為0.9,r2

為0.5。(9)對(8)的輸出,每二個(gè)子幀做一次開環(huán)基音估計(jì)。所以一幀語音的240個(gè)樣點(diǎn)產(chǎn)生二個(gè)基音估計(jì)值。(10)為改進(jìn)語音各質(zhì)量,對加權(quán)語音,進(jìn)行一次諧波噪聲形成濾波。(11)計(jì)算(7)中合成濾波器、(8)中感覺加權(quán)濾波器和(10)中諧波噪聲濾波器三者的組合濾波器的脈沖響應(yīng)。這是經(jīng)過感覺加權(quán)處理的合成濾波器。其中,p是共振峰模型階數(shù),a(12)考慮到前后兩幀間濾波器的影響,去除(11)中組合濾波器的零輸入響應(yīng)。(13)先進(jìn)行CELP系統(tǒng)中自適應(yīng)碼書的量化,此處叫基音預(yù)測器,它是5階的FIR系統(tǒng)。根據(jù)步驟(9)中求得的開環(huán)基音值,進(jìn)行精細(xì)的閉環(huán)基音分析,求得的結(jié)果進(jìn)行VQ編碼。

(12)考慮到前后兩幀間濾波器的影響,(14)量化編碼的最后一個(gè)對象是固定碼書的編碼。高速率采用多脈沖/最大似然量化,與普通多脈沖方案不同的是,各脈沖幅度是一樣的,符號(hào)可以不同,且所有脈沖位置,要么全在偶數(shù)號(hào)序列處,要么全在奇數(shù)號(hào)序列位置處,所以它與ACELP的碼本有相似之處。低速率時(shí)的固定碼書的編碼,即是ACELP,比之高速率方案,脈沖個(gè)數(shù)減少了,且位置限制更嚴(yán),不同碼字間存在簡單代數(shù)移位關(guān)系。在所有編碼工作完成后,進(jìn)行各固定碼書的編碼的狀態(tài)更新,為下一次編碼作好準(zhǔn)備。G.723.1標(biāo)準(zhǔn)算法中,兩種碼率情況下,比特分配如表3.4-3和3.4-4所示。(14)量化編碼的最后一個(gè)對象是固定碼表3.4-3G.723.1標(biāo)準(zhǔn)中6.3kb/s速率編碼算法的碼字分配表3.4-3G.723.1標(biāo)準(zhǔn)中6.3kb/s表3.4-4G.723.1標(biāo)準(zhǔn)中5.3kb/s速率編碼算法的碼字分配表3.4-4G.723.1標(biāo)準(zhǔn)中5.3kb/s速率7.GSM音頻編碼標(biāo)準(zhǔn)GSM是歐洲電信管理局(EuropeanTelecommunicationAdministration)下屬的一個(gè)工作小組CEPT-CCH-GSM(GroupSpecialMobile)的縮寫。GSM是歐洲采用的移動(dòng)電話的壓縮標(biāo)準(zhǔn),GSM所采用的RPE-LTP算法編碼器原理框圖如圖3.4-4所示。它采用的算法為長時(shí)預(yù)測規(guī)則碼激勵(lì)(RPE-LTP,Regular-PulseExcitation/LongTermPrediction),采樣頻率為8kHz,運(yùn)行速率為13kb/s。7.GSM音頻編碼標(biāo)準(zhǔn)由于GSM在參數(shù)編碼過程中采用了主觀加權(quán)最小均方誤差準(zhǔn)則逼近原始波形,具有原始波形的特點(diǎn),因此有較好的自然度,并對噪聲及多人講話環(huán)境不敏感。同時(shí)它采用了長時(shí)預(yù)測、對數(shù)面積比(LAR)量化等一系列措施,使其具有較好的語音質(zhì)量,其主觀評分(MOS)達(dá)3.8。由于GSM在參數(shù)編碼過程中采用了主觀加權(quán)最小均方誤圖3.4-4GSM所采用的RPE-LTP算法編碼器原理框圖圖3.4-4GSM所采用的RPE-LTP算法編碼器原理框圖如圖3.4-4所示,GSM的編碼主要有下列五個(gè)步驟:(1)預(yù)處理:包括采樣、去除直流分量以及利用濾波器對高頻進(jìn)行預(yù)加重等處理。(2)LPC分析:對160個(gè)樣點(diǎn)(20ms)一幀的信號(hào)采用Schur迭代算法計(jì)算出8個(gè)LPC反射系數(shù),并轉(zhuǎn)換成對數(shù)面積比(LAR)參數(shù),進(jìn)行編碼。(3)短時(shí)分析預(yù)測:經(jīng)過格形短時(shí)分析濾波器求短時(shí)預(yù)測系統(tǒng)的預(yù)測誤差。如圖3.4-4所示,GSM的編碼主要有(4)長時(shí)預(yù)測:利用長時(shí)預(yù)測對第(3)步的誤差信號(hào)進(jìn)行去除多余度,并求出每個(gè)子幀的最佳長時(shí)預(yù)測延時(shí)樣點(diǎn)數(shù)Nc和相應(yīng)的長時(shí)預(yù)測系數(shù)bc,并量化編碼。(5)RPE編碼:對經(jīng)過短時(shí)、長時(shí)預(yù)測后得到的線性預(yù)測誤差信號(hào)進(jìn)行加權(quán)濾波、規(guī)則脈沖序列提取和量化編碼。GSM編碼方案中各參數(shù)所用比特?cái)?shù)分配情況如表3.4-5所示,GSM編碼方案的語音幀長為20ms,每幀為260bit,所以總的編碼速率為13kb/s。(4)長時(shí)預(yù)測:利用長時(shí)預(yù)測對第(表3.4-5

GSM方案參數(shù)比特分配表表3.4-5GSM方案參數(shù)比特分配表3.4.2MPEG音頻編碼標(biāo)準(zhǔn)1.MPEG音頻概述MPEG音頻不是單個(gè)一種壓縮算法,而是三種音頻編碼和壓縮方案的一個(gè)系列,稱為MPEG聲音Layer1,Layer2,Layer3。隨著層數(shù)的增加,算法的復(fù)雜度也增大,所有三層都分級兼容,也就是最復(fù)雜的解碼器(即在MPEGLayer3工作的解碼器)同樣可對Layer1或Layer2的壓縮編碼流進(jìn)行解碼。3.4.2MPEG音頻編碼標(biāo)準(zhǔn)MPEG聲音標(biāo)準(zhǔn)規(guī)定其音頻采樣率可選擇為32kHz、44.1kHz或48kHz;音頻帶寬可選擇15kHz和20kHz,其中15kHz對應(yīng)的采樣頻率為32kHz,20kHz對應(yīng)的采樣頻率為44.1kHz和48kHz;壓縮碼率可選擇從32~320kb/s的一些特定比特率。它支持單聲道、雙聲道、立體聲和聯(lián)合立體聲四種聲音模式。表3.4-6為MPEG音頻編碼三個(gè)等級壓縮比和每層總編碼數(shù)據(jù)速率比較表。值得注意的是,MPEG聲音壓縮的方案是有損的,但是它們可達(dá)到感覺上的無損品質(zhì)。MPEG聲音標(biāo)準(zhǔn)規(guī)定其音頻采樣率可表3.4-6MPEG音頻編碼等級比較表表3.4-6MPEG音頻編碼等級比較表2.MPEG音頻Layer1MPEG音頻Layer1是MUSICAM的一個(gè)簡化版本,它允許構(gòu)建中等品質(zhì)的簡單的編碼器與解碼器,圖3.4-5給出了Layer1音頻編碼的數(shù)據(jù)幀結(jié)構(gòu)。其中,幀頭占用32bit,由同步和狀態(tài)信息組成,12bit的同步碼字全為1;幀校驗(yàn)占用16bit,用于檢測比特流中的差錯(cuò);音頻數(shù)據(jù)由比特分配信息、比例因子信息和子帶樣值組成,不同的層其音頻數(shù)據(jù)不同;輔助數(shù)據(jù)用于傳輸輔助信息。2.MPEG音頻Layer1圖3.4-5MPEG音頻Layer1數(shù)據(jù)幀結(jié)構(gòu)幀頭幀校驗(yàn)音頻數(shù)據(jù)輔助數(shù)據(jù)圖3.4-5MPEG音頻Layer1數(shù)據(jù)幀結(jié)構(gòu)幀頭3.MPEG音頻Layer2MPEG音頻Layer2與MUSICAM標(biāo)準(zhǔn)相同,在Layer1音頻編碼中,只能傳送左右兩個(gè)聲道。為此,MPEG音頻Layer2擴(kuò)展了低碼率多聲道編碼,將多聲道擴(kuò)展信息加到Layer1音頻數(shù)據(jù)幀結(jié)構(gòu)的輔助數(shù)據(jù)段(其長度沒有限制)中。這樣可將聲道數(shù)擴(kuò)展至5.1,即3個(gè)前聲道(左L、中C和右R)、2個(gè)環(huán)繞聲(左LS、右RS)和1個(gè)超低音聲道LFE(常稱之為0.1),由此形成了MPEGLayer2音頻編碼標(biāo)準(zhǔn)。3.MPEG音頻Layer2圖3.4-6給出了MPEGLayer2音頻編碼的數(shù)據(jù)幀結(jié)構(gòu),在MPEGLayer1音頻編碼的第一層,多聲道擴(kuò)展數(shù)據(jù)被分成三個(gè)部分,在連續(xù)3幀MPEGLayer1音頻數(shù)據(jù)幀的輔助數(shù)據(jù)段中傳送,而在第2、3層,多聲道擴(kuò)展數(shù)據(jù)在MPEGLayer1音頻數(shù)據(jù)幀的輔助數(shù)據(jù)段中傳送。MPEGLayer2音頻編碼能傳送多路聲音,并能確保比特流與MPEGLayer1前向和后向兼容。由于MPEGLayer1和MPEGLayer2音頻編碼的核心主要是采用MUSICAM音頻編碼方案,因此,后面專門介紹一些有關(guān)MUSICAM編碼的知識(shí)。圖3.4-6給出了MPEGLayer2音頻編碼的圖3.4-6MPEGLayer2數(shù)據(jù)幀結(jié)構(gòu)圖3.4-6MPEGLayer2數(shù)據(jù)幀結(jié)構(gòu)4.MPEG音頻Layer3(MP3)MPEGLayer3(通常簡稱為MP3)是MPEG音頻系列性能最好的方案,它是MUSICAM方案和ASPEG的組合。MP3的好處在于大幅度降低數(shù)字聲音文件的容量,而不會(huì)破壞原來的音質(zhì)。以CD音質(zhì)的Wave文件來說,如抽樣分辨率為16bit,抽樣頻率為44.1kHz,聲音模式為立體聲,那么存儲(chǔ)1秒鐘CD音質(zhì)的Wave文件,必須要用16bit×44100Hz×2(Stereo)=1411200bit,也就是相當(dāng)于1411.2kbit的存儲(chǔ)容量,存儲(chǔ)介質(zhì)的負(fù)擔(dān)相當(dāng)大。不過通過MP3格式壓縮后,文件便可壓縮為原來的1/10到1/12,每1秒鐘的MP3只需大約112~128kbit就可以了。4.MPEG音頻Layer3(MPMP3相對于MPEG音頻Layer1和Layer2在速率較低情況下還能保持較好音質(zhì),其原因主要在于:MPEG音頻Layer1是為了DCC(數(shù)字錄音帶)而設(shè)計(jì)的,使用了384kb/s的速率。MPEG音頻Layer2是為在復(fù)雜性和性能之間的一個(gè)平衡而設(shè)計(jì)的,它在低于192kb/s的比特率下還保持了很好的聲音質(zhì)量,如果再低的話,聲音質(zhì)量就變差。MP3相對于MPEG音頻Laye而MPEG音頻Layer3從一開始就是為了低比特率而設(shè)計(jì)的,它在MPEG音頻Layer2之上加入了一些“高級特性”:采用MDCT(改進(jìn)型DCT)變換增強(qiáng)頻率的分辨率,使頻率分辨率提高了18倍,從而使得Layer3的播放器能更好地適應(yīng)量化噪聲;只有Layer3使用了熵編碼(像MPEG視頻)進(jìn)一步地減少了冗余;Layer3還可以使用更高級的聯(lián)合立體聲編碼機(jī)制。MP3編碼原理框圖如圖3.4-7所示。而MPEG音頻Layer3從一開始就是為了低比特率圖3.4-7MP3編碼原理框圖圖3.4-7MP3編碼原理框圖5.MUSICAM算法原理MUSICAM(MaskingPatternUniversalSub-bandIntegratedCodingAndMultiplexing,自適應(yīng)掩蔽模型的通用子帶綜合編碼和復(fù)用)算法是基于兩種機(jī)理來減少音頻信號(hào)碼率的:一是利用統(tǒng)計(jì)相關(guān)性來去除音頻信號(hào)的冗余度;另一種是不相干壓縮,它是考慮人耳的心理學(xué)現(xiàn)象,如頻譜掩蔽和時(shí)間掩蔽。MUSICAM算法使用了以下技術(shù):將數(shù)字音頻信號(hào)分為32個(gè)子帶、使用人耳的聽覺特性、比例因子、自適應(yīng)比特分配等。圖3.4-8給出了MUSICAM編碼器原理框圖。5.MUSICAM算法原理圖3.4-8MUSICAM編碼器原理框圖圖3.4-8MUSICAM編碼器原理框圖如圖3.4-8所示,子帶濾波器先將輸入的數(shù)字音頻信號(hào)分成32個(gè)子帶,在每個(gè)子帶(750Hz)中確定一段信號(hào)(8ms)中的最大電平,由此得到比例因子的相對變化很小,因此采用差分熵編碼方法。根據(jù)人耳的掩蔽效應(yīng)確定掩蔽門限,在這個(gè)過程中必須首先將輸入信號(hào)作FFT運(yùn)算,實(shí)現(xiàn)時(shí)域到頻域的轉(zhuǎn)換,然后根據(jù)一定規(guī)則來確定掩蔽門限。根據(jù)確定的掩蔽門限自適應(yīng)地分配比特,以達(dá)到高效壓縮音頻數(shù)據(jù)。最后將音頻壓縮數(shù)據(jù)、比例因子和比特分配信息按幀結(jié)構(gòu)組合在一起,形成音頻比特流。如圖3.4-8所示,子帶濾波器先將圖3.4-9給出了MUSICAM編碼器輸出的幀格式。MUSICAM算法的解碼相對于編碼要簡單得多,其中最主要的是不需要?jiǎng)討B(tài)比特分配,主要的計(jì)算量在于合成子帶濾波,解碼原理框圖如圖3.4-10所示。圖3.4-9給出了MUSICAM編碼器輸出的幀格式圖3.4-9MUSICAM幀格式圖3.4-9MUSICAM幀格式圖3.4-10MUSICAM解碼原理框圖圖3.4-10MUSICAM解碼原理框圖3.4.3AAC在提到MPEG音頻的時(shí)候,還應(yīng)該提到AAC。因此,本節(jié)主要介紹AAC的相關(guān)知識(shí)。實(shí)質(zhì)上,MPEG-2標(biāo)準(zhǔn)中,其音頻編碼技術(shù)可分為BC和AAC兩種。BC(BackwardCompatible)為向下兼容格式,其基本內(nèi)容與前面介紹的MPEG音頻格式相同,在數(shù)字編碼單聲道和雙聲道以及分三個(gè)層面的基礎(chǔ)上,加上了三聲道以上的多聲道和對低取樣率音源編碼的能力。其最大特點(diǎn)是可以在MPEG音頻格式的解碼器中解碼(即能向下兼容),但由于兼容性的制約,在較低比特率時(shí)無法取得較高的音質(zhì),重建音質(zhì)達(dá)不到ITU-R和歐廣聯(lián)(EBU)關(guān)于無線廣播的要求(即重建音質(zhì)與CD音質(zhì)相當(dāng)),3.4.3AAC所以在1994年MPEG-2通過的同時(shí),MPEG組織決定研究和制定新的音頻編碼,新的音頻編碼必須達(dá)到ITU-R和EBU的要求,并且不要求向下兼容,這就是AAC(AdvancedAudioCoding:先進(jìn)音頻編碼)。有許多著名公司和大學(xué)參加了AAC標(biāo)準(zhǔn)的制定,其中有美國的DolbyLab,LucentBellLab,AT&TLab,德國的FraunhoferIIS,UniversityofHanover,日本的SonyCo,NEC等。所以在1994年MPEG-2通過的同時(shí),MPEG組AAC為了追求低比特率數(shù)據(jù)的高音質(zhì),放棄了向下兼容能力,采用了更高壓縮率的先進(jìn)編碼技術(shù)。此標(biāo)準(zhǔn)于1997年制定完善,同年公布。AAC可以把48kHz、16bit格式取樣的數(shù)據(jù)壓縮到64kb/s,而且音質(zhì)與原來相同。另外,用MPEG音頻或MPEG-2的BC第三層面壓縮的MP3數(shù)字音頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論