數(shù)字化后的視頻和音頻等媒體信息具有海量性_第1頁
數(shù)字化后的視頻和音頻等媒體信息具有海量性_第2頁
數(shù)字化后的視頻和音頻等媒體信息具有海量性_第3頁
數(shù)字化后的視頻和音頻等媒體信息具有海量性_第4頁
數(shù)字化后的視頻和音頻等媒體信息具有海量性_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、數(shù)字化后的視頻和音頻等媒體信息具有海量性,與當前計算機所提供的計算機存儲資源和網(wǎng)絡帶寬之間有很大差距,這樣對多媒體信息的存儲造成很大困難。因此,多媒體信息以壓縮的形式進行存儲和傳播成為必要,同時因為多媒體數(shù)據(jù)之間存在大量冗余現(xiàn)象,如空間冗余、時間冗余、結(jié)構(gòu)冗余、知識冗余、視覺冗余、圖像區(qū)域的相同性冗余和紋理統(tǒng)計冗余,使得多媒體數(shù)據(jù)壓縮成為可能。本章主要介紹了數(shù)據(jù)壓縮的基本原理和方法,以及數(shù)據(jù)壓縮的編碼原理和壓縮標準。 第 7 章 多媒體壓縮技術(shù) 17.1 數(shù)據(jù)壓縮的基本原理和方法 根據(jù)多媒體不同的表現(xiàn)形式和不同場合以及質(zhì)量方面的應用需求,必須有針對性地進行設計。而各種壓縮方法應該符合一定范圍內(nèi)

2、的性能指標,以滿足實際應用的領域的需要。 27.1.1 數(shù)據(jù)壓縮方法的分類 數(shù)據(jù)壓縮技術(shù)自從1948年提出以來,經(jīng)過50多年的發(fā)展。 根據(jù)解碼后的數(shù)據(jù)與壓縮之前的原始數(shù)據(jù)是否完全一致,可以分為無損壓縮編碼和有損壓縮編碼。無損壓縮編碼具有可恢復性和可逆性。該編碼在壓縮時不丟失任何數(shù)據(jù),即把所有的數(shù)據(jù)都作為比特序列,解壓后的數(shù)據(jù)與原始數(shù)據(jù)完全一致。 有損壓縮編碼不具有可恢復性和可逆性,該編碼在壓縮時舍棄冗余的數(shù)據(jù),例如人眼較難分辨的顏色或人耳難以分辨的方向源信號,實際取決于初始信號的類型、信號的相關(guān)性以及語義等內(nèi)容。這些被舍去的信息值是無法再找回的,所以還原后的數(shù)據(jù)與原始數(shù)據(jù)存在差異。 3統(tǒng)計編碼

3、:屬于無失真編碼。根據(jù)信源符號出現(xiàn)概率的分布特性進行編碼,讓概率大的信源符號用短碼字表示,讓概率小的信源符號用長碼字表示,從而去除數(shù)據(jù)之間的冗余而達到壓縮的目的。預測編碼:根據(jù)離散信號之間存在一定的相關(guān)性特點,利用前面的一個或多個信號對下一個信號進行預測,然后對實際值和預測值的差值進行編碼。 如果所有的信源符號出現(xiàn)的概率相同,則說明平均信息量最大,也就不存在信源的冗余。根據(jù)數(shù)據(jù)壓縮的原理可以分為:統(tǒng)計編碼、預測編碼、變換編碼、分析-合成編碼和其他編碼。 4變換編碼:屬于有失真的編碼。變換編碼是將原始數(shù)據(jù)從初始空間或時間域進行數(shù)學變換,變換為更適合于壓縮的抽象域。關(guān)鍵的是要尋找一個最佳變換,使信

4、息中最重要的部分易于識別。變換本身是可逆的無損的,為了取得更好的效果,忽略了一些編碼位數(shù)較長的系數(shù)而成為了有損編碼。變換編碼一般經(jīng)過變換、變換域采樣和量化三個步驟分析/合成編碼:是基于某種模型的編碼方法,這些模型可以是聲道模型、語音模型、人體模型等。通過分析模型的具體特征,確定與之匹配的編碼。 5其他編碼方法常見的有:混合編碼(Hybrid Coding)、矢量量化(Vector Quantize,VQ)、LZW算法等。還有近年來新出現(xiàn)的編碼方法:人工神經(jīng)元網(wǎng)絡(Artificial Neural Network,ANN)算法、分形(Fractal)算法、小波(Wavelet)算法、基于對象(

5、Object-Based)的算法、基于模型(Model-Based)的算法等。 67.1.2 數(shù)據(jù)壓縮的性能指標 衡量一種數(shù)據(jù)壓縮技術(shù)的重要性能指標有壓縮比、壓縮速度、壓縮質(zhì)量和計算量。 壓縮比 壓縮比是指原始數(shù)據(jù)量和壓縮后數(shù)據(jù)量的比值。有損壓縮有很高的壓縮比采用不同的壓縮編碼可得到不同的壓縮比。無損壓縮能實現(xiàn)的壓縮比,一般只有數(shù)倍,而且與被壓縮的對象有關(guān)。文字、圖像普遍采用無損壓縮。 例如,MPGE是一種包含音頻和圖像在內(nèi)的壓縮技術(shù),利用MPEG-1、MPEG-2、MPEG-4三個方案,對音頻的感知編碼中,MPEG-1方案的音頻壓縮比是1:4,MPEG-2方案的音頻壓縮比是1:61:8 ,M

6、PEG-4方案的音頻壓縮比是1:101:12 。但是MPEG對圖像的壓縮算法,所提供的壓縮比可以高達200:1。利用JPEG也可以有多種圖像的壓縮比,甚至可以減小到原圖像的百分之一(壓縮比100:1)。 7壓縮速度壓縮速度指編碼或解碼的快慢程度。不同的應用場合,對壓縮速度要求是不同的。對于一個壓縮系統(tǒng)而言,有對稱壓縮和非對稱壓縮之分。 所謂對稱壓縮,就是壓縮和解壓縮都需要實時進行的。例如:電視會議的圖形傳輸。 非對稱壓縮常常在解壓縮方面要求是實時的,但壓縮可以不是實時的。例如,多媒體CD-ROM的制作過程可以不是實時的,但解壓縮必須是實時的,否則用戶看到的就不是連續(xù)的圖像。 8壓縮質(zhì)量 壓縮質(zhì)

7、量是指壓縮以后對媒體的感知效果。有損壓縮才可能影響人對媒體的感知效果。壓縮質(zhì)量的好壞與壓縮算法、數(shù)據(jù)內(nèi)容和壓縮比有密切的關(guān)系。 例如,使用JPEG編碼時,當壓縮比為20:1時,能看到圖像稍微有點變化,當壓縮比大于20:1時,一般圖像質(zhì)量開始變壞。但使用MPEG編碼時,可以得到很好的數(shù)據(jù)壓縮而依然保持CD聲音質(zhì)量的原樣。在較高的壓縮比下,也能獲得較好的圖像質(zhì)量。 9計算量 圖像數(shù)據(jù)壓縮需要進行大量計算,從目前的技術(shù)來看,壓縮的計算量比解壓縮計算量要大,例如動態(tài)圖象的壓縮編碼計算量約為解壓縮的計算量的4倍。 107.2 統(tǒng)計編碼 統(tǒng)計編碼屬于一種無失真的編碼,具體實現(xiàn)的方法有多種,包括行程編碼、

8、LZW編碼、Huffman編碼、算術(shù)編碼。本節(jié)在介紹了統(tǒng)計編碼的基本思想之后,為讀者引見LZW編碼、Huffman編碼、算術(shù)編碼等幾種實現(xiàn)方法。 統(tǒng)計編碼又稱熵編碼。根據(jù)信息論的原理,我們可以找到最佳的壓縮編碼方法,數(shù)據(jù)壓縮的理論極限是信息熵。也就是說,信息中可能存在著冗余信息,要去除信息的冗余部分,使編碼后單位數(shù)據(jù)量等于其信息源的熵,就達到了壓縮極限。 11信息論指出,如果一個事件(例如收到一個信號)有n個等可能性的結(jié)局,那么結(jié)局未出現(xiàn)前的不確定程度H與n的自然對數(shù)成正比,即有: H=Cln n (C為常數(shù)) 如果一個消息有10個可能的結(jié)果,不確定程度就是Cln10。當人們收到這個消息后,就

9、消除了這種“不確定”性。這樣,一個消息中所含有的信息量,就用表示有多少個不確定程度的H來定義,申農(nóng)(香農(nóng))把這個不確定程度 H 稱為信息熵。信息論認為信源中存在的冗余度來自于信源本身的相關(guān)性和信源概率分布的不均勻性。熵編碼要解決的問題,是如何利用信息熵理論減少數(shù)據(jù)在存儲和傳輸中的冗余度。也就是要找到去除信源的相關(guān)性和概率分布的不均勻性的方法。 12事件間的統(tǒng)計特性與熵有這樣的關(guān)系。事件發(fā)生的概率越小,則其熵值越大,表示信息量越大,而發(fā)生的概率越大,則其熵值越小。統(tǒng)計編碼就是根據(jù)信源符號出現(xiàn)概率的分布特性而進行工作的。統(tǒng)計編碼需要在信源符號和碼字之間確定嚴格的一一對應關(guān)系,以便準確無誤地在先原來

10、信源,同時使平均碼長盡量小。統(tǒng)計編碼對于出現(xiàn)概率比較高的數(shù)據(jù)分配短碼,而對那些出現(xiàn)概率比較低的數(shù)據(jù)則分配長碼。該方法使總數(shù)據(jù)量降低,達到數(shù)據(jù)壓縮的目的。常用的統(tǒng)計編碼有LZW編碼、Huffman編碼和算術(shù)編碼。137.2.2 LZW編碼 LZW( Lempel Ziv Welch)壓縮編碼是一種壓縮效率較高的無損數(shù)據(jù)壓縮技術(shù)。1977年,兩位以色列教授Lempel和Ziv提出了查找冗余字符和用較短的符號標記替代冗余字符的概念,稱為Lempel-Ziv壓縮技術(shù)。1985年,美國人Welch將Lempel-Ziv壓縮技術(shù)從概念發(fā)展到實際運用階段,因而被命名為“Lempel Ziv Welch”壓縮

11、技術(shù),簡稱“LZW”技術(shù)。LZW被廣泛用于圖像壓縮領域。 14LZW壓縮基本原理 LZW壓縮的基本原理是:LZW壓縮把每一個第一次出現(xiàn)的字符串用一個數(shù)值來編碼,在還原程序中再將這個數(shù)值還成原來的字符串。 轉(zhuǎn)換表是在壓縮或解壓縮過程中動態(tài)生成的表,該轉(zhuǎn)換表只在進行壓縮或解壓縮過程中需要,一旦壓縮或解壓縮結(jié)束,該表將不再起任何作用。壓縮過程生成的轉(zhuǎn)換表,記錄了代碼和數(shù)據(jù)的對應關(guān)系,并且只用于壓縮過程。在解壓縮過程中,LZW壓縮編碼會生成另一個用于解壓縮的轉(zhuǎn)換表,該表與壓縮時產(chǎn)生的轉(zhuǎn)換表完全相同,數(shù)據(jù)以嚴格對應的無損方式被還原。 例如用數(shù)值0 x100代替字符串“abccddeee”這樣每當出現(xiàn)該字

12、符串時,都用0 x100代替。把數(shù)據(jù)流中復雜的數(shù)據(jù)用簡單的代碼來表示,就起到了壓縮的作用。并把代碼和數(shù)據(jù)的對應關(guān)系建立一個轉(zhuǎn)換表,又叫“字符串表”或“編碼對照表”。 15LZW壓縮的特點 LZW壓縮技術(shù)的處理過程比其他壓縮過程復雜,但過程完全可逆。對于簡單圖像和平滑且噪音小的信號源具有較高的壓縮比,并且有較高的壓縮和解壓縮速度。對機器硬件條件要求不高。 LZW壓縮技術(shù)可壓縮任何類型和格式的數(shù)據(jù)。對于任意寬度和像素位長度的圖像,都具有穩(wěn)定的壓縮過程。常用于GIF格式的圖像壓縮,其平均壓縮比在2:1以上,最高壓縮比可達到3:1。LZW壓縮技術(shù)還可以被用于文本程序等數(shù)據(jù)壓縮領域,對于數(shù)據(jù)流中連續(xù)重復

13、出現(xiàn)的字節(jié)和字串,LZW壓縮技術(shù)具有很高的壓縮比。值得注意的是,規(guī)則數(shù)據(jù)具有可預測性,即從一個數(shù)據(jù)可預測到下一個將可能是什么數(shù)據(jù)。但LZW壓縮技術(shù)對于可預測性不大的數(shù)據(jù)具有較好的處理效果 167.2.3 Huffman編碼 Huffman(哈夫曼)編碼是統(tǒng)計編碼的一種,屬于無損壓縮編碼。該編碼是在1952年為文本文件建立的,編碼方法簡單且有效,因而得到廣泛的應用?,F(xiàn)在已經(jīng)派生出很多變體。 Huffman編碼基本原理 Huffman編碼的基本原理是用較短的代碼代替出現(xiàn)概率較高的數(shù)據(jù),用較長的代碼代替出現(xiàn)概率較低的數(shù)據(jù),所有代碼都采用二進制碼,其碼的長度是可變的,且每個數(shù)據(jù)的代碼各不相同。 例如,

14、對于原始數(shù)據(jù)序列A、B、C、E、D這五個字母,假定對應于每個字母出現(xiàn)的概率分別為0.30、0.25、0.22、0.15、和0.08,則可以編碼為A(00)、B(01)、C(10)、(D110)、 (D111),壓縮后為1。由此產(chǎn)生的全部信息的總碼長將小于實際信息的符號長度,從而達到壓縮的目的。 17整個編碼過程實際上建立二叉樹的過程,所以編碼時需要對原始數(shù)據(jù)掃描兩遍,第一遍掃描要精確地統(tǒng)計出原始數(shù)據(jù)中的每個值出現(xiàn)的頻率,第二遍是通過合并最小概率來建立霍夫曼樹,同時還要進行編碼。由于需要對多層次的二叉樹節(jié)點進行編碼,因此數(shù)據(jù)壓縮和還原速度都較慢。 18編碼過程 根據(jù)以上編碼原理,Huffman編

15、碼的實際編碼過程如下: 1.將信源符號按照出現(xiàn)概率遞減的順序排列。 2.將最小的兩個概率進行相加合并,得到的結(jié)果作為新符號的出現(xiàn)的概率。 3.重復進行1和2,直到概率的和值等于1。 4.在進行消息概率合并運算時,可以對概率大的符號用編碼0表示,概率小的符號用編碼1表示。也可以相反表示,可以對概率大的符號用編碼1表示,概率小的符號用編碼0表示。 5.最后,記錄下從概率為1處開始到當前信源符號之間的0、1序列,從而得到每個符號的編碼。 19設信號源為:x=x1,x2,x3,x4,x5對應的概率為:p=0.30,0.25,0.22,0.15,0.08 則編碼過程如圖7-2所示,其中第一次將0.15和

16、0.08概率進行合并,結(jié)果為0.23。繼續(xù)此過程,歷遍所有信號,直到概率和為1.0。 20當前信號源 X1 X2 X3 X4 X5 概率 0.30 0.25 0.22 0.15 0.080.230.450.551.0000001111 碼字 00 01 10 110 111 字長 2 2 2 3 321課后習題:設輸入圖像的灰度級a1,a2,a3,a4,a5,a6出現(xiàn)的概率分別是0.4、0.2、0.12、0.15、0.1、0.03。試進行哈夫曼編碼,并計算平均碼長、編碼效率。 22Avg= =0.302+0.252+0.222+0.153+0.083=2.08 計算該編碼的平均字長為2.08,

17、信息熵H(5)為1.6(假如常數(shù)C為1),那么編碼效率約為77%。可見霍夫曼編碼是一種效率較高的編碼方案。但要指出的是,由于“0”和“1”的指定可以是任意的,所以上面所得到的編碼不是唯一的。 Huffman提出的這種編碼也稱為最佳變長碼,其優(yōu)點是編碼的效率高,但這種編碼依賴于源的統(tǒng)計特性,同時我們看到,Huffman編碼只能通過查表的方法建立消息和碼字之間的關(guān)系,所以如果消息數(shù)很大,需要存儲的碼表也需很大,從而會影響存儲量、編碼以及譯碼速度等各個方面的性能。 237.2.4 算術(shù)編碼 算術(shù)編碼屬于無損壓縮的統(tǒng)計編碼,常用于圖像數(shù)據(jù)壓縮標準(如JPEG,JBIG)中。 算術(shù)編碼基本原理 算術(shù)編碼

18、的基本原理是將出現(xiàn)概率較多的“事件”(可以是字符或字符串),用盡可能少的位或字節(jié)來表示。算術(shù)編碼是一種變長碼,主要針對出現(xiàn)的概率高的事件序列標識的信息進行壓縮。 在算術(shù)編碼中,將信源符號表示成實數(shù)軸上0和1之間的間隔,例如一個信源符號“10 ”可表示成0.5, 0.7。信息越長,這個間隔就越小,例如一個較長的信源符號可表示成0.514384, 0.51442,顯然表示這一間隔所需的二進制位數(shù)就越多。也就是說,算術(shù)編碼用到兩個基本的參數(shù)是符號的概率和它的編碼間隔。信源符號的概率決定壓縮編碼的效率,也決定編碼過程中信源符號的間隔,間隔則決定了符號壓縮后的輸出。 算術(shù)編碼區(qū)別于霍夫曼編碼的是,它是根

19、據(jù)信源符號估計出各個元素的概率,然后進行迭代計算。而不象霍夫曼編碼必須預先得知信源的出現(xiàn)概率。 247.3 預測編碼 預測編碼是一種有失真的編碼,DPCM編碼和ADPCM編碼是兩種較典型的預測編碼,它們比較適用于聲音和圖像數(shù)據(jù)的壓縮,下面我們就來了解一下預測的基本概念,以及DPCM編碼、ADPCM編碼基本原理。 7.3.1 預測編碼 預測編碼是根據(jù)離散信號之間存在一定的相關(guān)性的特點,利用前面的一個或多個信號對下一個信號進行預測,然后對實際值和預測值的差值進行編碼。預測編碼根據(jù)預測器的設計分為線性預測和非線性預測。但為了預測的效率,大多采用線性預測。 25預測編碼非常適用于聲音和圖像方面的壓縮。

20、對于聲音來講,預測的對象是聲波的下一個幅度、下一個音色。對于圖像而言,預測的對象是下一個像點、下一條線或下一幀。聲音和圖像中通常都存在冗余的信號,而且在相鄰的音色或相鄰像點之間的相關(guān)性比較強,它們的差值比較小,這樣任何音色或像點都可以通過已知樣本值進行預測。對于連續(xù)的多幀圖像,上下幀通常具有一些相同的部分內(nèi)容,如背景和靜止的物體,可以預計在一定的時間內(nèi)將不會發(fā)生變化。主要對其差值進行編碼,可以達到壓縮的目的。 預測編碼時首先要存儲的是當前內(nèi)容,接著以把當前內(nèi)容作為樣板,預測下一個信號,將預測所得的不同內(nèi)容進行存儲或傳輸,如內(nèi)容相同則是數(shù)據(jù)冗余,予以剔除。這樣數(shù)據(jù)量將會大幅度減少,達到壓縮效果。

21、 26預測編碼常見的方法有DPCM、ADPCM、M、M調(diào)制編碼。預測編碼主要采用壓縮圖像數(shù)據(jù)的空間冗余和時間冗余的方法,簡捷且易于實現(xiàn),但要求數(shù)據(jù)傳輸速度很高。另外,預測編碼方法的壓縮能力有限。為了進一步提高數(shù)據(jù)壓縮的能力,可采用其它編碼方法,例如變換編碼。 7.3.2 DPCM編碼 PCM是脈沖編碼調(diào)制,它首先對原始的模擬數(shù)據(jù)進行采樣、量化,然后作為數(shù)字信號傳輸。DPCM(Differential Pulse Code Modulation)是差分脈沖編碼調(diào)制算法。 27差分脈沖編碼的抽樣速率通常是與PCM相同,因此在編碼器中的帶限濾波器和解碼器中的平滑濾波器基本上與PCM系統(tǒng)中的濾波器是一

22、樣的,但是它不是對每個采樣值進行量化的,而是根據(jù)前一個樣值預測下一個樣值,并量化實際值和預測值之間的差值。差分脈沖編碼的基本原理如圖7-3所示,在發(fā)送端輸入的采樣信號,經(jīng)量化器后傳送到編碼器, DPCM編碼器將產(chǎn)生不同抽樣值,簡單的抽樣方法就是將前一個輸入抽樣直接存儲在抽樣保持電路中,并使用模擬減法器來測試抽樣有無變化。如果信號有變化,則差值被量化、被編碼和傳輸。 差分脈沖編碼的基本原理 28其中有關(guān)的參數(shù)含義如下:Xn輸入信號,為每個即時時刻的樣本值; 預測值,根據(jù)時刻之前的采樣值x1,x2,xn-1得到Enxn-EnEn經(jīng)過量化器量化后的輸入信號Qn量化器的量化誤差產(chǎn)生的誤差為:Xn- X

23、n =Xn-( + En) = (Xn- )- En= En - En=qn 量化器預測器XnEnEnXnXnXnXn Xn Xn29qn恰好就是發(fā)送端的量化誤差。所以,DCPM系統(tǒng)中,量化器和預測器的設計是關(guān)鍵,好的預測器編碼應能根據(jù)信號的局部特性,調(diào)整量化器的步長和預測器的參數(shù),使得許多預測值和實際值之間差值為最小。在接收端,經(jīng)過和發(fā)信端的預測完全相同的操作,可以得到量化的原信號,然后再通過低通濾波便可恢復與原信號近似的波形。這里就不再給出原理圖了。 307.3.3 ADPCM編碼 ADPCM(Adaptive Differential Pulse Code Modulation)自適應差

24、分編碼,它具有自適應編碼的特性,該編碼包括自適應量化和自適應預測兩種形式。ADPCM編碼的方法是針對輸入樣值進行自適應預測,然后對預測誤差進行量化編碼。 綜合了APCM的自適應特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心想法是:利用自適應的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值,使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。它的編碼簡化框圖如圖3-10所示。 31ADPCM主要用于對中等質(zhì)量的音頻信號進行高效率壓縮。例如語音的壓縮、調(diào)幅廣播音質(zhì)的信號壓縮等。CCITT的

25、32kbits語音編碼標準G.721采用ADPCM編碼方式,每個語音樣值相當于用4個二進制位進行編碼。 327.4 變換編碼 變換編碼是一種有失真編碼,所謂變換主要是將原始數(shù)據(jù)的原來的時間或空間域進行數(shù)學變換,使得通過變換后能夠突出原始數(shù)據(jù)中的重要部分,以便重點處理。變換編碼中的較為典型的是最佳變換(K-L變換)編碼和離散余弦變換(DCT)編碼,其中K-L變換是在均方誤差最小意義下導出的,其基向量是輸入數(shù)據(jù)向量協(xié)方差矩陣的特征向量,這種變換矩陣將隨著輸入數(shù)據(jù)的不同而不同,因此難于實現(xiàn)。 而離散余弦變換(DCT)編碼可對某個固定的像素塊進行變換,變換以后的數(shù)據(jù)稱為DCT系數(shù),由于離散余弦變換的變

26、換核心可固定,使得變換容易實現(xiàn),而且變換的性能近次于K-L變換,目前已廣泛用于多媒體壓縮標準JPEG、MPEG、H.261、H.263等算法中。 337.4.1 變換編碼 變換編碼是一種重要的編碼類型,屬于有失真的編碼,變換編碼技術(shù)起源比較早,理論上和技術(shù)上都比較成熟,被廣泛應用于單色圖像、彩色圖像、靜止圖像、運動圖像,以及多媒體計算機技術(shù)中的電視幀內(nèi)圖像壓縮和幀間圖像壓縮中。 變換編碼是指將給定的圖像變換到另一個數(shù)據(jù)域(變換域或頻域)上,使得大量的信息能用較少的數(shù)據(jù)來表示。 34變換編碼原理如圖7-4所示。圖中,輸入信號經(jīng)過適當?shù)恼蛔儞Q到另一個頻域空間,相關(guān)性就會明顯減少,能量集中在頻域的

27、少數(shù)低頻系數(shù)上,這樣就達到了數(shù)據(jù)壓縮的效果。如果保留頻域中系數(shù)大的元素,忽略小的系數(shù),然后輔以非線性量化來提高壓縮程度,最后進行編碼,可獲得很高的壓縮比。 也就是說,它不是直接對空間域圖像信號編碼,而是首先將當前所表達的空間域圖像信號經(jīng)過變換映射到另一個正交矢量空間,將得到一系列變換系數(shù),然后對這些變換系數(shù)進行編碼處理。結(jié)果是重要的系數(shù)在變換到其他空間域后,其編碼的精確度高于次重要的系數(shù)。變換本身是一種無損且可逆的技術(shù),為了能獲得更好的編碼效果,忽略了一些不重要的系數(shù),由此成為了有損的技術(shù)。 357.5 音頻數(shù)據(jù)壓縮標準 音頻信號可分為電話質(zhì)量的語音、調(diào)幅廣播質(zhì)量的音頻、高保真立體聲信號,它們

28、分別對應著不同的頻率范圍。音頻中的聲波文件所占有大量的空間容量,極大地影響著數(shù)字音頻的存儲和傳輸,因此,壓縮音頻極其重要。考慮到聲波中分有語音和一般聲音,又考慮到不同應用場合的不同要求,壓縮音頻可以采用不同方式的編碼。 音頻編碼常采用有損的編碼,主要分為波形編碼、參數(shù)編碼和混合編碼: 36波形編碼方式是能夠忠實地表現(xiàn)波形的編碼方式。語音信號的波形編碼力圖使重建的語音波形保持原語音信號的波形狀態(tài)。這類編碼器通常是將語音信號作為一般的波形信號來處理,比如:脈沖編碼調(diào)制(PCM)、自適應增量調(diào)制(ADM或M編碼)、自適應差分編碼(ADPCM)、自適應預測編碼(APC)、自適應子帶編碼(ASBC)、自

29、適應變換編碼(ATC)等都屬于這類編碼器。以上幾種波形編碼方式分別在64kb/s16kb/s的速率上能給出高的編碼質(zhì)量。當速率進一步降低時,其性能會下降較快。由于這類編碼器通常將語音信號作為一般的波形信號來處理,所以它具有適應能力強、話音質(zhì)量好、抗噪抗誤碼的能力強等特點,但所需的編碼速率高,其中64kb/s PCM的語音質(zhì)量成為一個編碼質(zhì)量的參照標準。37參數(shù)編碼是根據(jù)聲音的形成模型,把聲音變換成參數(shù)的編碼方式。其基本方法是通過對語音信號特征參數(shù)的提取及編碼,力圖使重建語音信號具有盡可能的可懂性,即保持原語音的語義。而重建的信號的波形同原語音信號的波形可能會有相當大的差別。參數(shù)編碼的優(yōu)點是:編

30、碼速率低,編碼速率通常小于4.8kb/s,可以低至600b/s至2.4kb/s。缺點是:合成語音質(zhì)量差,特別是自然度較低,連熟人之間都不一定能聽出講話人是誰;另外,這類編碼器對講話環(huán)境噪聲較敏感,需要安靜的講話環(huán)境才能給出較高的可懂度,且時延大 參數(shù)編碼的典型例子語音信號的線性預測編碼(LPC)已被公認為是目前參數(shù)編碼中最有效的方法,它能夠在2.4kb/s的低比特速率下獲得清晰、可懂的合成音。并且易于硬件實現(xiàn)。這種方法的優(yōu)點是不但能極為精確地估計參數(shù),還在于它的計算速度比較快。另外多帶激勵(MBE)編碼,余弦變換編碼(STC)均屬參數(shù)編碼。由于參數(shù)編碼是保護語聲模型,重建清晰可識別的語聲,而不

31、注重波形的擬合,所以這類編碼技術(shù)實現(xiàn)的是合成語聲質(zhì)量下的低速或極低速的編碼。38混合編碼是將波形編碼與參數(shù)編碼結(jié)合而產(chǎn)生的一種編碼方式。使語音編碼技術(shù)有了突破性的進展。其中提出了一些非常有效的處理方法,產(chǎn)生了新一代的參數(shù)編碼算法,構(gòu)成了新一代的聲碼器。混合編碼克服了原有波形編碼器與聲碼器的弱點,而結(jié)合了它們的優(yōu)點,在416kb/s速率上能夠得到高質(zhì)量合成語音。在本質(zhì)上具有波形編碼的優(yōu)點,有一定抗噪和抗誤碼的性能,但時延較大。混合編碼結(jié)合了以上兩種編碼方式的優(yōu)點,采用線性技術(shù)構(gòu)成聲道模型,不只傳輸預測參數(shù)和清濁音信息,而是將預測誤差信息和預測參數(shù)同時傳輸,在接收端構(gòu)成新的激勵參數(shù)去激勵預測參數(shù)構(gòu)

32、成的合成濾波器,使得合成濾波器輸出的信號波形與原始語聲信號的波形最大程度的擬合,從而獲得自然度較高的語聲。這種編碼技術(shù)的關(guān)鍵是:如何高效地傳輸預測誤差信息。依據(jù)對激勵信息的不同處理,這類編碼主要有:多脈沖線性預測編碼(MPLPC)、規(guī)則脈沖激勵線性預測編碼(RPELPC)、碼激勵線性預測編碼(CELPC)、低時延的碼激勵線性預測編碼(LD-CELPC)。397.5.1 電話語音壓縮標準 信號頻率規(guī)定在300Hz3.4kHz,采用標準的脈沖編碼調(diào)制(PCM),當采樣頻率為8kHz,進行8bit量化時,所得數(shù)據(jù)速率為64kb/s,即一個數(shù)字電話。1972年CCITT為電話質(zhì)量和語音壓縮制定了PCM

33、標準G.711,其速率為64Kbs,使用非線性量化技術(shù),主要用于公共電話網(wǎng)中。 在ISO公布的ITU-T一系列音頻編碼標準中,用于電話語音壓縮的有G.711、G.721、G.723、G.728、G.729和G.729A等標準。在選擇語音壓縮標準時,應綜合考慮帶寬、時延、算法復雜度等各種因素。40標準編碼類型比特率(kbps)MOS復雜性時延(ms)G.711PCM 644.3 10.125 G.721ADPCM 324.010 0.125 G.728LD-CELP 164.050 0.625 GSMRPE_LPT 133.7520G.729 G.729A CSA-CELP 84.030、15

34、15 G.723.1 ACPLP 6.33.825 37.5 G.723.1 MP-MLQ 5.3US Dod LPC-10 2.4合成語音 10 22.5 表7-2給出了幾個語音編碼標準的比特率、MOS(長話質(zhì)量的語音平均意見得分)、復雜性(以G.711為基準)和時延(幀大小,即語音流量的時間長度及前視時間)。 表7-2中的GSM編碼標準是1983年歐洲數(shù)字移動特別工作組(GSM)制定的一種移動電話的壓縮標準,它壓縮的音質(zhì)不如G.711系統(tǒng)。在GSM-6.10標準中,采用RPL-LTP算法,壓縮后的一路話音數(shù)碼率為13Kbps。 41G.723協(xié)議G.723協(xié)議是一個雙速率語音編碼建議,其兩

35、種速率分別是5.3kb/s和6.3kb/s。此協(xié)議是一個數(shù)字傳輸系統(tǒng)概況協(xié)議,適用于低速率多媒體服務中語音或音頻信號的壓縮算法。它作為完整的H.324系列標準的一部分,是其中語音編碼建議,主要配合低速率圖像編碼H.263標準。在IP電話網(wǎng)中,G.723協(xié)議被用來實現(xiàn)實時語音編碼解碼處理。G.723.1協(xié)議的編解碼算法中兩種速率的編解碼基本原理是一樣的,只是激勵信號的量化方法有差別。對高速率(6.3kbit/s)編碼器,其激勵信號采用多脈沖最大似然量化(MP-MLQ)法進行量化,對低速率(5.3kbit/s)編碼器,其激勵信號采用代數(shù)碼激碼線性預測(ACELP)法量化。422調(diào)幅廣播質(zhì)量的音頻壓

36、縮編碼技術(shù)標準 頻率在50Hz一7kHz范圍。 ITU于1986年通過G.722標準。 G.722標準是采用16kHz采樣,16bit量化,信號數(shù)據(jù)速率為224kbits,采用子帶編碼方法,將輸入音頻信號經(jīng)濾波器分成高子帶和低子帶兩個部分,分別進行ADPCM編碼,再混合形成輸出碼流,224kbits可以被壓縮成64kbits,最后進行數(shù)據(jù)插入(最高插入速率達16kbits),因此利用G.722標準可以在窄帶綜合服務數(shù)據(jù)網(wǎng)N-ISDN中的一個B信道上傳送調(diào)幅廣播質(zhì)量的音頻信號。 43G.722.1標準中,采樣率為16kHz和16bit量化時,能夠在24或32kbps速率下提供7kHz的音頻帶寬,

37、是普通電話呼叫質(zhì)量的兩倍多,所用速率僅為先前標準的一半,并可提供了近于FM廣播的音頻質(zhì)量。適合于一些重要應用領域包括:IP電話、第三代移動通信、PSTN高品質(zhì)電話會議和商務應用(包括點到點和多點)、語音流、ISDN寬帶技術(shù)、ISDN可視電話和會議電視等。 G.722.2主要采用代數(shù)編碼激勵線性預測技術(shù),符合此標準的編解碼器也被稱為AMR-WB編解碼器,已被3GPP采用,作為應用于GSM和第三代無線W-CDMA的寬帶編解碼器。這標志著無線與有線業(yè)務首次得以采用同一編解碼器。AMR-WB編解碼器在語音質(zhì)量方面取得了突破性進展,意味著3G與IP固定網(wǎng)絡之間的互通更加容易。 447.5.3 高保真立體

38、聲音頻壓縮標準 高保真立體聲音頻范圍是50Hz20kHz。由ISO和ITU-T聯(lián)合制訂的標準被稱為MPEG-音頻,它是動態(tài)圖像編碼的國際標準MPEG中的一個部分。MPEG音頻和視頻已廣泛用于VCD、CD-I、多媒體、PC中。 MPEG音頻標準基于人的聽覺心理模型,它利用編碼技術(shù)對源文件重新進行編碼壓縮,編碼時刪除了聽覺中不敏感的部分,從而縮減了文件的大小,由此會造成一些失真。 45MPEG-1音頻技術(shù) MPEG-1音頻的壓縮原理如圖7-5所示。采用的方案是子帶壓縮技術(shù)(見7.5.2),采用多相正交分解濾波器組將數(shù)字化的寬帶音頻信號分成32個子帶,同時對信號進行頻譜分析。通過子帶信號與頻譜同步計

39、算,得出對各子帶的掩蔽特性,然后分配不同的量化比特數(shù)。加上CRC校驗碼,得到標準的MPEG碼流。解碼端的過程是:解幀、子帶樣值解碼、映射還原和輸出標準PCM碼流。 46MP1壓縮比為1:4,典型的位率為每通道192Kbit/s。是VCD的音頻壓縮的方案。 MP2壓縮比為1:61:8,典型的位率為每通道128 Kbit/s,即稱掩蔽模式通用子帶集成編碼與多路復用,廣泛應用于數(shù)字音頻廣播、數(shù)字演播室等數(shù)字音頻專業(yè)的制作、交流、存儲和傳送。 MP3壓縮比率可以達到1:101:12。典型位率為64 Kbit/s,它綜合了MP2和ASPEC的優(yōu)點,可以48kHz、44.1kHz、32kHz取樣,每聲道的

40、數(shù)碼率32Kbps448Kbps。適合CD-DA。由于MP3格式的復雜度相對較高,因而不適合進行實時編碼,只有在數(shù)碼率較低的情況下才具有較高品質(zhì)的音質(zhì)。 根據(jù)需要的不同,人們又定義了不同的壓縮比率。MPEG-1壓縮格式分為3層,分別是MPEG Audio Layer-1、Layer-2和Layer-3(簡寫為MP1、MP2、MP3)。 47MPEG-2音頻技術(shù) MPEG-2音頻和MPEG-2視頻標準并行開發(fā),于1994年11月完成。實質(zhì)上是在MPEG-1音頻基礎上增加了多通道MC和多語音ML編碼。 MPEG-2音頻增加了5.1通道的多通道功能MC,即可以支持最多5個主音頻通道(左,中,右,左環(huán)

41、繞,右環(huán)繞),其中C(中置)、LS(左環(huán)繞)和RS(右環(huán)繞)三個通道是在立體聲的基礎上增加的。同時附加一個額外的“低頻增強(Low Frequency Extension)”通道,專供傳送低音信號。 MPEG-2音頻還增加的多語音ML技術(shù),多語音是獨立于5個通道的解說(輔助聲音)通道,最多允許包括高達7個以上的音頻通道。 48為了適應于非常低的比特率和有限帶寬需要的應用,MPEG-2標準進行了“低采樣率擴展”,新的LSF(低采樣頻率)增加了24kHz、22.05kHz、16kHz的采樣頻率三種,由此可以提高數(shù)據(jù)的壓縮率,使數(shù)據(jù)比特率更加低,可以低到8Kbps。 MPEG2音頻的最大特征是“向后

42、兼容性”。MPEG-2解碼器必須接受任何MPEG-1音頻流。一種用MCML編碼的數(shù)據(jù),即使使用了不具有MCML功能的MPEG音頻解碼器,這種數(shù)據(jù)也可以作為2通道的立體聲進行重放。 另一方面,MPEG-1解碼器可以解碼MPEG-2音頻流主數(shù)據(jù)區(qū)中的音頻信號,這被稱為“向前兼容性”。所以,MPEG-2音頻與MPEG-1音頻具有很好的互換性,并與MPEG-2視頻廣泛用于數(shù)字視頻、高清晰電視HDTV和高質(zhì)量數(shù)字音頻廣播。 497.6 圖像數(shù)據(jù)壓縮標準 在國際標準化協(xié)會ISO批準制定的多媒體國際標準中,用于圖像數(shù)據(jù)壓縮的重要標準有JPEG、MPEG和H(H.261 H.263)系列三種。從圖像壓縮編碼的

43、發(fā)展過程來說,可以分成三個階段:第一階段著重于圖像信息冗余度的壓縮方法,第二階段著重于圖像視覺冗余信息的壓縮方法,第三階段基于模型的圖像壓縮方法。 7.6.1 靜態(tài)圖像數(shù)據(jù)壓縮標準 靜態(tài)圖像數(shù)據(jù)壓縮標準主要指JPEG(Joint Photographic Expert Group)標準,它是由聯(lián)合圖形專家組開發(fā)的,該專家小組由國際標準化組織(ISO)和國際電報電話咨詢委員會(CCITT)兩家聯(lián)合成立的。該小組一直致力于建立研究適用于彩色和單色的,多灰度連續(xù)色調(diào)的,靜態(tài)數(shù)字圖像壓縮的國際標準。該標準是于1991年提出的,并在1992年后被廣泛采納后成為國際標準。 501.JPEG標準 JPEG是

44、一個適用范圍很廣的靜態(tài)圖像數(shù)據(jù)壓縮標準,不僅適用于靜止圖像的壓縮,也常常被用于電視圖像序列的幀內(nèi)圖像壓縮編碼。目前JPEG專家組開發(fā)了兩種基本的壓縮算法: 一種是采用以離散余弦變換DCT為基礎的有損壓縮算法;另一種是采用以預測技術(shù)為基礎的無損壓縮算法。 使用有損壓縮算法時,在壓縮比為25:1的情況下,壓縮后還原得到的圖像和原始圖像相比較,非圖像專家難以找到它們之間的區(qū)別,因此得到了廣泛的應用。例如在V-CD和DVD-Video電視圖像壓縮技術(shù)中,就使用JPEG的有損壓縮算法來取消空間方向上的冗余數(shù)據(jù)。 51JPEG標準它的具體目標是: 1).用戶可以對壓縮比、質(zhì)量效果進行選擇。 2).算法能適

45、應不同的數(shù)字圖像參數(shù)、大小、圖像內(nèi)容、彩色空間、統(tǒng)計特性等,但二值圖像除外。3).壓縮比高,圖像質(zhì)量保真程度好。4).算法的復雜程度應能夠滿足硬、軟件實現(xiàn)的計算需求。5).支持多種操作方式。 52JPEG壓縮是有損壓縮,它利用了人的視角系統(tǒng)的特性,使用量化和無損壓縮編碼相結(jié)合來去掉視角的冗余信息和數(shù)據(jù)本身的冗余信息。JPEG算法框圖如圖4-9所示,壓縮編碼大致分成三個步驟:(1)使用正向離散余弦變換(Forward Discrete Cosine Transform,F(xiàn)DCT)把空間域表示的圖變換成頻率域表示的圖。 (2)使用加權(quán)函數(shù)對DCT系數(shù)進行量化,這個加權(quán)函數(shù)對于人的視覺系統(tǒng)是最佳的。

46、 (3)使用哈夫曼可變字長編碼器對量化系數(shù)進行編碼。JPEG編碼的壓縮過程 53譯碼或者叫做解壓縮的過程與壓縮編碼過程正好相反。JPEG算法與彩色空間無關(guān),因此“RGB到Y(jié)UV變換”和“YUV到RGB變換”不包含在JPEG算法中。JPEG算法處理的彩色圖像是單獨的彩色分量圖像,因此它可以壓縮來自不同彩色空間的數(shù)據(jù),如RGB、YCbCr和CMYK。54為了能用單一的壓縮碼流提供多種性能、滿足范圍更為廣泛的應用,JPEG工作組于1996年開始探索一種新的靜止圖像壓縮編碼標準,并且稱它為JPEG 2000。 JPEG 2000是JPEG工作組制定的并于2000年底陸續(xù)公布的基于JPEG標準的最新的靜

47、止圖像壓縮編碼的國際標準,它之所以比JPEG標準優(yōu)越,主要是不再采用離散傅立葉變換DCT算法為主的編碼方法,改用以DWT(Discrete Wavelet Transformation,離散小波變換算法)為主的多解析編碼方法。 2.JPEG2000標準 55JPEG-2000(ISO15444)標準技術(shù)的目標是“高壓縮、低比特速率”。它基于小波變換的靜止圖像壓縮標準,不僅有更優(yōu)秀的壓縮性能,而且有更豐富的處理功能。JPEG-2000可提供更高的解像度(相當于圖像分辨率,如:解像度為852480,41萬像素),其伸縮能力可以為一個文件提供從無損到有損的多種畫質(zhì)和解像選擇。因此,它被認為是互聯(lián)網(wǎng)和

48、無線接入應用的理想影像編碼解決方案。 56JPEG-2000特點 它與JPEG的基本系統(tǒng)相比有以下的優(yōu)點:(1)既支持有損壓縮,也支持無損壓縮方式。(2)在壓縮時,可指定圖片感興趣的區(qū)域,并指定壓縮質(zhì)量;在解壓縮時,對這些區(qū)域指定解壓縮順序及解壓縮質(zhì)量。(3)在高壓縮比下,仍能保持較高的圖像質(zhì)量。在類似質(zhì)量的前提下,JPEG 2000的壓縮比比JPEG高10%30%。(4)支持漸進式傳輸,即開始時顯示一個模糊、不清晰且質(zhì)量低的圖像,隨著數(shù)據(jù)進一步被接收,圖像清晰度和質(zhì)量逐步提高,最后顯示出一個高清晰度且高質(zhì)量的圖像。JPEG 2000在節(jié)約和充分利用有限帶寬方面顯得更加優(yōu)越。(5)在有限帶寬上

49、進行文件傳輸時,有很強的糾錯能力,在用戶指定文件尺寸時,能保證較高的再現(xiàn)圖像質(zhì)量,以致在無線領域得到廣泛應用。(6)可對編碼流進行隨機訪問和處理,因為它的塊編碼是獨立的,且編碼流具有包裹式結(jié)構(gòu)。 (7)使用Alpha通道,以滿足圖形藝術(shù)和Internet的發(fā)展和需求;(8)在彩色圖像處理方面,JPEG 2000可處理256個通道的信息。57JPEG-2000的重點技術(shù) 在編碼算法上,JPEG-2000采用以小波變換為主的多解析編碼方式,包括離散小波變換(DWT)和bit plain位簡易算術(shù)編碼(MQ coder)。 JPEG-2000在技術(shù)上之所以主要采用新的小波變換,原因是因為余弦變換考察

50、的是全局特征。即考察整個時域過程的頻域特征或整個頻域過程的時域特征,因此比較適合于平穩(wěn)過程,但不適合于非平穩(wěn)過程。在JPEG中是靠丟棄頻率信息來實現(xiàn)壓縮的,因而圖像的壓縮率越高,頻率信息被丟棄的越多。在極端情況下,JPEG只保留了反映圖像輪廓的基本信息,而損失精細全部的圖像細節(jié)。而小波變換考察的是局部特征。既能考察局部時域過程的頻域特征,又能考察局部頻域過程的時域特征,因此也適合于非平穩(wěn)過程。它能將圖像變換為一系列小波系數(shù),這些系數(shù)可以被高效壓縮和存儲,此外,小波的粗略邊緣可以更好地表現(xiàn)圖像,因為它消除了DCT壓縮普遍具有的方塊效應。 587.6.2 動態(tài)圖像數(shù)據(jù)壓縮標準 動態(tài)圖像數(shù)據(jù)壓縮標準

51、主要包括MPEG、H(H.261 H.263)、DVI。 MPEG(Moving Picture Exports Group)是活動圖像專家組,由ISO與IEC于1988年成立,致力于運動圖像(MPEG視頻)及其伴音編碼(MPEG音頻)標準化工作。MPEG組織制定的各個標準都有不同的目標和應用,目前已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21標準。 59H系列是由CCITT(國際電報電話咨詢委員會)通過的標準,這種標準與JPEG及MPEG標準間有明顯的相似性,但關(guān)鍵區(qū)別是它是為動態(tài)使用設計的,并提供完全包含的組織和高水平的交互控制。 DVI(Digital Vi

52、deo Interactive)是一種工業(yè)標準,其視頻圖像的壓縮算法的性能與MPEG-1相當,即圖像質(zhì)量可達到VHS的水平,壓縮后的圖像數(shù)據(jù)率約為1.5Mb/s。為了擴大DVI技術(shù)的應用,Intel公司又推出了DVI算法的軟件解碼算法,稱為Indeo技術(shù),它能將為壓縮的數(shù)字視頻文件壓縮為五分之一到十分之一。 60下面將主要介紹MPEG和H標準。 MPEG-1 MPEG-1標準(ISO/IEC11172)于制定于1992年,1993年8月公布,用于多媒體和廣播電視,這種編碼一般可以以1.5Mbps左右的數(shù)據(jù)傳輸率傳送數(shù)字存儲媒體運動圖像及其伴音。MPEG-1的壓縮率相當高,例如它可以把221Mb

53、it/秒的NTSC圖像壓縮到1.2Mbit/秒,壓縮率為200:1。 61由五個部分組成:(1)MPEG-1系統(tǒng): 規(guī)定了運動圖像數(shù)據(jù)、聲音數(shù)據(jù)及其他相關(guān)數(shù)據(jù)的同步。(2)MPEG-1視頻: 規(guī)定了視頻數(shù)據(jù)的編碼和解碼。(3)MPEG-1音頻: 規(guī)定了聲音數(shù)據(jù)的編碼和解碼 。(4)MPEG-1一致性測試:說明如何測試比特數(shù)據(jù)流和解碼器是否滿足MPEG-1前3個部分中所規(guī)定的要求。(5)MPEG-1軟件模擬:這部分內(nèi)容是一個技術(shù)報告,給出了用軟件執(zhí)行MPEG-1標準前3個部分的結(jié)果。MPEG-1標準簡介 62MPEG-1的應用領域包括:光盤、數(shù)字音頻磁帶(DAT)、磁帶設備以及通信網(wǎng)絡(如ISD

54、N和局域網(wǎng)等)。其典型的應用是VCD,99%的VCD都是用MPEG-1格式壓縮的,使用MPEG-1的壓縮算法,可以把一部120分鐘長的電影(未壓縮視頻文件)壓縮到1.2GB左右大小。為了支持多種應用,可由用戶來規(guī)定多種輸入?yún)?shù),包括靈活的圖像尺寸和幀頻。MPEG-1標準提供了一些錄像機的功能,包括正放、圖像凍結(jié)、快進、快倒和慢放,此外,還提供了隨機存取的功能。MPEG-1的應用領域63MPEG-2標準MPEG-2標準MPEG工作組制定的第二個國際標準,標準號是ISO/IEC 13818。它是一個直接與數(shù)字電視廣播有關(guān)的高質(zhì)量圖像和聲音編碼標準。特別適用于廣播級的數(shù)字電視的編碼和傳送,被認定為S

55、DTV和HDTV的編碼標準和MPEG-1相比增加了隔行掃描電視的編碼,提供了位速率的可變性能(scalability)功能。MPEG-2要達到的最基本目標是:位速率為4Mb/s9Mb/s,最高達15Mb/s。MPEG-2在系統(tǒng)和傳送方面作了更加詳細的規(guī)定和進一步的完善。MPEG-2是針對310Mbps的數(shù)據(jù)傳輸率制定的的運動圖像及其伴音編碼的國際標準。64MPEG-2包含9個部分:(1)MPEG-2系統(tǒng)(1994年)規(guī)定電視圖像數(shù)據(jù)、聲音數(shù)據(jù)及其他相關(guān)數(shù)據(jù)的同步。(2)MPEG-2視頻(1994年)規(guī)定了視頻數(shù)據(jù)的編碼和解碼算法。(3)MPEG-2音頻規(guī)定了聲音數(shù)據(jù)的編碼和解碼,是MPEG-1

56、 Audio的擴充,支持多個聲道。(4)MPEG-2一致性測試。(5)MPEG-2參考軟件。(6)MPEG-2數(shù)字存儲媒體命令和控制擴展協(xié)議。65(9)MPEG-2 DSM-CC一致性擴展測試。(7)MPEG-2高級音頻編碼是多聲道聲音編碼算法標準。(8)MPEG-2系統(tǒng)解碼器實時接口擴展標準。 這是與傳輸數(shù)據(jù)流的實時接口(Real-Time Interface,RTI)標準,它可以用來適應來自網(wǎng)絡的傳輸數(shù)據(jù)流,如圖。66與MPEG-1標準相比,MPEG-2的不同特性主要表現(xiàn)在:(1)MPEG-2有“按幀編碼”和“按場編碼”兩種模式。在MPEG-1中是沒有電視幀的概念,只支持逐行掃描,不支持隔

57、行掃描。在MPEG-2中,針對隔行掃描的常規(guī)電視圖像專門設置了“按幀編碼”模式,相應的運動補償算法也有擴充,分為“按幀運動補償”和“按場運動補償”,其編碼效率顯著提高。674個等級由低到高為低等級(Low Level)、主等級(Main Level)、1440等級(High 1440Level)和高等級(High Level)。配置和等級之間可能的組合如表。(2)MPEG-2的類與等級。MPEG-2提出了類與等級的概念。類是按視頻編碼技術(shù)的簡單還是復雜而確定的;對每個類,根據(jù)編碼參數(shù)的不同,即圖像格式的簡單還是復雜,進一步劃分為不同的等級。MPEG-2標準中規(guī)定了5種類4個等級。5個類依次為簡

58、單類、主類(Main Profile)、信噪比可伸縮類(SNR Profile)、空間分辨率可伸縮類(Simple Profile)、高級類(High Profile)。68(3)MPEG-2增加了分層編碼。MPEG-2可伸縮性體現(xiàn)在:空間分層編碼:提供空間分辨率不同的圖像。時間分層編碼:提供空間分辨率相同,但幀速率不同的視頻信號。信噪比分層編碼:提供具有相同空間分辨率,但編碼質(zhì)量不同的視頻比特流。數(shù)據(jù)分割編碼:將編碼比特流分成兩個優(yōu)先級不同的部分。(4)MPEG-2擴充了系統(tǒng)層語法。MPEG-2對系統(tǒng)層語法有了較大的擴充,包含了兩類數(shù)據(jù)碼流:傳輸碼流( TS)和節(jié)目碼流(PS)。MPEG-2

59、的應用領域很廣,它不僅支持面向存儲媒介的應用,而且還支持各種通信環(huán)境下數(shù)字視頻信號的編碼和傳輸。如數(shù)字電視、TV機頂盒和DVD(數(shù)字視頻光盤),此外還可以應用于信息存儲、Internet、衛(wèi)星通信、視頻會議和多媒體郵件等,其典型的應用是DVD和HDTV(高清晰度電視)。為了適應不同的應用環(huán)境,MPEG-2中有很多可以選擇的參數(shù)和選項,改變這些參數(shù)和選項可以得到不同的圖像質(zhì)量,滿足不同的需求。69 MPEG-4是針對低速率(64kb/s)的視頻壓縮編碼標準,同時還注重基于視頻和音頻對象的交互性。 主要應用于視像電話(Video Phone),視像電子郵件(Video Email)和電子新聞(El

60、ectronic News)等,其傳輸速率要求較低,在4800-64000bits/sec之間,分辨率為176X144。MPEG-4利用很窄的帶寬,通過幀重建技術(shù),壓縮和傳輸數(shù)據(jù),以求以最少的數(shù)據(jù)獲得最佳的圖像質(zhì)量。 與MPEG-1和MPEG-2相比,MPEG-4的特點是其更適于交互AV服務以及遠程監(jiān)控。MPEG-4是一個使你由被動變?yōu)橹鲃?不再只是觀看,允許你加入其中,即有交互性)的動態(tài)圖像標準;它的另一個特點是其綜合性;從根源上說,MPEG-4試圖將自然物體與人造物體相溶合(視覺效果意義上的)。MPEG-4的設計目標還有更廣的適應性和可擴展性。MPEG4 試圖達到兩個目標: 1. 低比特率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論