版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、MPEG-4標(biāo)準(zhǔn)視頻壓縮算法研究摘要隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的發(fā)展,多媒體壓縮技術(shù)有了廣泛的應(yīng)用。本課題的目的是對(duì)多媒體壓縮技術(shù)中的視頻的壓縮問題進(jìn)行研究。論文首先介紹了MPEG-1/2標(biāo)準(zhǔn)視頻壓縮和解壓的理論基礎(chǔ),主要包括幀內(nèi)編碼開發(fā)同一幀內(nèi)存在的空間相關(guān)性;幀間編碼開發(fā)相鄰幀之間存在的時(shí)間相關(guān)性:以及與之有關(guān)的I,P,B幀和運(yùn)動(dòng)圖像序列、幀、宏塊、塊等概念。其次介紹了MPEG-4標(biāo)準(zhǔn)對(duì)于MPEG-1/2標(biāo)準(zhǔn)的兼容性:視頻對(duì)象VOP的概念;VOP編碼的主要組成部分;MPEG-4每個(gè)VOP編碼使用的壓縮算法是在MPEG-1/2標(biāo)準(zhǔn)的基礎(chǔ)上開發(fā)的。再次,在VC環(huán)境下對(duì)XVID進(jìn)行編譯,并實(shí)現(xiàn)編碼
2、和解碼。最后文章針對(duì)XVID部分源碼對(duì)MPEG-4的視頻壓縮編碼部分主要源碼進(jìn)行重點(diǎn)的分析。關(guān)鍵詞: 幀;MPEG -4;VOP;XVID;壓縮;解壓目 錄第一章緒論11.1課題的背景和意義11.2課題完成的工作1第二章數(shù)字圖像壓縮理論基礎(chǔ)22.1數(shù)字圖像壓縮的必要性22.2數(shù)字化信息壓縮的可能性22.3圖像壓縮的基礎(chǔ)22.3.1無損壓縮32.3.2有損壓縮32.4圖像壓縮的關(guān)鍵技術(shù)52.4.1圖像分塊62.4.2DCT變換62.4.3量化62.4.4熵編碼72.4.5運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償82.4.6解碼過程92.4.7混合編碼92.4.8I,P,B幀編碼模式112.5常用圖像的數(shù)據(jù)結(jié)構(gòu)12第三
3、章MPEG-4標(biāo)準(zhǔn)143.1MPEG-4標(biāo)準(zhǔn)簡(jiǎn)述143.1.1MPEG-4標(biāo)準(zhǔn)的特點(diǎn)143.1.2MPEG-4標(biāo)準(zhǔn)的構(gòu)成153.1.3MPEG-4的框架和級(jí)別153.2視頻編碼的基本內(nèi)容163.2.1從矩形幀到VOP,視頻編碼的基本結(jié)構(gòu)163.2.2MPEG-4的數(shù)據(jù)結(jié)構(gòu)183.3VOP編碼實(shí)現(xiàn)183.3.1形狀編碼193.3.2運(yùn)動(dòng)信息編碼203.3.3紋理編碼213.4VOP分割223.5Sprite技術(shù)背景全景圖編碼223.6分級(jí)編碼22第四章基于XVID的主要視頻算法分析244.1XVID的技術(shù)特性244.1.1多種編碼模式244.1.2XVID的量化方式254.1.3運(yùn)動(dòng)偵測(cè)(Mot
4、ion Search)和曲線平衡分配284.1.4動(dòng)態(tài)關(guān)鍵幀距(I-frame interval)294.1.5全局運(yùn)動(dòng)補(bǔ)償304.2XVID中B幀技術(shù)的實(shí)現(xiàn)30第五章XVID編譯、編碼、解碼的實(shí)現(xiàn)365.1XVID源碼的編譯環(huán)境365.2編碼,解碼的實(shí)現(xiàn)375.2.1編碼實(shí)現(xiàn)375.2.2解碼實(shí)現(xiàn)39第六章總結(jié)與展望42謝 辭43參考文獻(xiàn)4444第一章 緒論1.1 課題的背景和意義近年來,多媒體技術(shù)飛速發(fā)展,在工商企業(yè)、公共場(chǎng)所和社會(huì)生活中的應(yīng)用也越來越廣泛,己經(jīng)成為當(dāng)今社會(huì)密不可分的組成部份。到現(xiàn)在為止已經(jīng)發(fā)布的幾個(gè)通用的壓縮編碼標(biāo)準(zhǔn)有:用于64K會(huì)議電視及可視電話的H.261,用于靜止圖
5、像壓縮的JPEG,面向1.5M數(shù)字視頻和音頻傳輸和存儲(chǔ)的MPEG-1,面向高清晰度數(shù)字電視和音頻傳輸和存儲(chǔ)的MPEG-2和適用于低碼率視頻編碼的H.263。這些標(biāo)準(zhǔn)越來越成熟,覆蓋的應(yīng)用領(lǐng)域越來越廣。但是這些標(biāo)準(zhǔn)應(yīng)用單一,主要目標(biāo)是提高壓縮比,并改善音頻、視頻質(zhì)量,采用的技術(shù)是傳統(tǒng)的波形編碼理論。與以上標(biāo)準(zhǔn)不同,MPEG-4并不僅僅著眼于定義不同碼流下的壓縮編碼標(biāo)準(zhǔn),而是更多的強(qiáng)調(diào)多媒體通信的交互性和靈活性。MPEG-4是一個(gè)包括了未來編碼技術(shù)發(fā)展的開放式標(biāo)準(zhǔn),它能夠與H.263和MPEG-1/2標(biāo)準(zhǔn)兼容,并提出了新的基于內(nèi)容的存取概念。它提供的碼率,低端可低于64Kbps,高端可高于8Mbp
6、s。MPEG-4標(biāo)準(zhǔn)提供對(duì)多種圖像分辨率的支持,不但可以對(duì)自然視頻進(jìn)行高效率的編碼,還具有對(duì)合成音視頻對(duì)象、臉部模型、網(wǎng)絡(luò)對(duì)象的編碼能力;增加了對(duì)網(wǎng)絡(luò)交互環(huán)境的支持,與計(jì)算機(jī)信息處理6的結(jié)合更加密切。在編碼方式上的重大改進(jìn)是提出對(duì)象的概念,強(qiáng)調(diào)人與媒體對(duì)象的交互能力。及時(shí)跟蹤MPEG-4發(fā)展動(dòng)態(tài),掌握其核心技術(shù),并結(jié)合實(shí)際應(yīng)用在某些關(guān)鍵方向上有所創(chuàng)新和發(fā)展,這是一項(xiàng)很有意義的工作。本課題介紹了MPEG-1/2標(biāo)準(zhǔn)的主要壓縮方法,然后討論了MPEG-4引入的新的壓縮方法。進(jìn)一步結(jié)合基于MPEG-4標(biāo)準(zhǔn)的XVID技術(shù)的實(shí)現(xiàn)代碼,對(duì)MPEG-4壓縮編碼的關(guān)鍵技術(shù)進(jìn)行了分析和研究。并在此基礎(chǔ)上,對(duì)PG
7、M格式的視頻文件進(jìn)行了壓縮和解壓,初步掌握了MPEG-4標(biāo)準(zhǔn)的理論基礎(chǔ)和開發(fā)應(yīng)用。1.2 課題完成的工作課題主要完成了以下幾方面的工作:了解多媒體視頻壓縮的理論基礎(chǔ)、視頻壓縮技術(shù)的發(fā)展歷史,以及多媒體視頻壓縮的主要技術(shù)。了解MPEG-4標(biāo)準(zhǔn)的主要內(nèi)容,并對(duì)不同于以往的新技術(shù)進(jìn)行深入分析。對(duì)XVID源碼的部分視頻壓縮算法進(jìn)行深入分析。在WINDOWS XP SP2 環(huán)境下使用Visual C+6.0對(duì)XVID源碼進(jìn)行編譯,調(diào)試;對(duì)PGM格式的視頻文件進(jìn)行壓縮和解壓工作,初步了解XVID源碼對(duì)視頻文件的壓縮解壓原理。第二章 數(shù)字圖像壓縮理論基礎(chǔ)2.1 數(shù)字圖像壓縮的必要性數(shù)字圖像具有很多優(yōu)點(diǎn),但也
8、存在著數(shù)據(jù)量太大的問題。一幅640×480像素中等分辨率的彩色圖像(24bit/像素),其數(shù)據(jù)量約為1.31Mbit/s,播放一秒鐘運(yùn)動(dòng)圖像通常要30幀,則視頻信號(hào)傳輸速率為220Mbit/s,一張650M的光盤只能播放20多秒鐘,可見對(duì)數(shù)字化信息進(jìn)行壓縮非常必要。要用盡可能少的數(shù)據(jù)來表達(dá)信息,節(jié)省傳輸和存儲(chǔ)的開銷。2.2 數(shù)字化信息壓縮的可能性能對(duì)數(shù)字化信息進(jìn)行壓縮,主要存在以下兩點(diǎn)原因:第一、圖像信號(hào)存在大量的冗余度并且可在編解碼后無失真的恢復(fù)。第二、可以利用人的視覺特性,在圖像變化不被覺察的條件下以一定的失真換取數(shù)據(jù)壓縮。圖像信號(hào)的冗余度,主要表現(xiàn)為空間(幀內(nèi))和時(shí)間(幀間)相
9、關(guān)性。所謂相關(guān)性,就是能夠根據(jù)給出的一部分?jǐn)?shù)據(jù)判斷出其相鄰的數(shù)據(jù)。一幀圖像內(nèi)的任何一個(gè)場(chǎng)景都是又若干像素點(diǎn)構(gòu)成的,因此一個(gè)像素通常與它周圍的某些像素在亮度和色度上存在一定的關(guān)系,這種關(guān)系即空間相關(guān)性;一個(gè)節(jié)目中的一個(gè)情節(jié)常常由若干幀連續(xù)圖像組成的圖像序列構(gòu)成,一個(gè)圖像序列中前后幀圖像間也存在一定的關(guān)系,這種關(guān)系即時(shí)間相關(guān)性。這兩種相關(guān)性使得圖像中存在大量的冗余信息。如果出去冗余信息,而只保留少量非相關(guān)信息進(jìn)行傳輸,就可以大大降低信息存儲(chǔ)容量和傳輸速率。與此同時(shí),由于人眼對(duì)圖像的細(xì)節(jié)分辨率、運(yùn)動(dòng)分辨率和對(duì)比度分辨率的感覺有一定的界限,只要在圖像處理時(shí)引入的失真不是很大,就不易察覺,仍會(huì)認(rèn)為圖像時(shí)
10、完好的或是足夠好的。因此可以在滿足對(duì)圖像質(zhì)量一定要求的前提下,通過壓縮編碼方法,實(shí)現(xiàn)數(shù)據(jù)壓縮。上述思想既是MPEG-1/2的主要理論基礎(chǔ),也是MPEG-4的理論基礎(chǔ)。2.3 圖像壓縮的基礎(chǔ)壓縮機(jī)制通常分為兩種無損壓縮和有損壓縮。無損壓縮是指可以精確重建數(shù)據(jù),沒有信息丟失;有損壓縮是指數(shù)據(jù)不能無失真的重建,有一定的信息丟失。對(duì)于有損壓縮,我們?cè)试S壓縮后產(chǎn)生質(zhì)量上的誤差,可以讓壓縮后的數(shù)據(jù)代替原始數(shù)據(jù)。任何壓縮機(jī)制的根本思想都是去除數(shù)據(jù)中存在的相關(guān)性。一個(gè)好的壓縮編碼方案,要能夠最大限度地去除圖像中的冗余信息。對(duì)空間相關(guān)性,可以根據(jù)圖像中某一點(diǎn)的像素值推斷出其相鄰點(diǎn)的像素值;對(duì)時(shí)間相關(guān)性,通過運(yùn)動(dòng)
11、預(yù)測(cè),參考前一幀圖像與這一幀圖像的相似情況,去掉與前一幀相似的冗余數(shù)據(jù),而只記錄這一幀與上一幀不同的數(shù)據(jù)。以下介紹圖像壓縮編碼中的基本編碼方法。2.3.1 無損壓縮常用無損壓縮編碼技術(shù)有以下幾種:行程編碼技術(shù)行程編碼(Run-length Coding)是一種相對(duì)簡(jiǎn)單的編碼技術(shù),主要思想是將一個(gè)相同值的連續(xù)串用一個(gè)代表串長(zhǎng)和值的組合碼字(Run,Level)來代替。其中行程(Run)表示系數(shù)系列中連零系數(shù)的長(zhǎng)度;量化電平(Level)表示連零系數(shù)之后第一個(gè)非零系數(shù)的值。行程編碼適用于二值圖像。行程編碼的效率不如Huffman編碼方法高,但它的碼字結(jié)構(gòu)相對(duì)簡(jiǎn)單,故在許多情況下也被采用。為達(dá)到較好
12、的壓縮效果,行程編碼經(jīng)常和其他一些編碼方法混合使用。Huffman編碼壓縮變字長(zhǎng)編碼的最佳編碼定理:在變字長(zhǎng)編碼中,對(duì)于出現(xiàn)概率大的信息符號(hào)編以短字長(zhǎng)的碼,對(duì)于概率小的符號(hào)編以長(zhǎng)字長(zhǎng)的碼。Huffman編碼是根據(jù)可變長(zhǎng)度最佳編碼定理,應(yīng)用Huffman算法得到的一種編碼方法。它是整數(shù)編碼的一種最佳碼,即它的平均碼長(zhǎng)在具有相同輸入概率的前提下,比其它任何一種唯一譯碼都短,是圖像壓縮中的重要編碼方法。算術(shù)編碼算術(shù)編碼是另一種利用信源編碼概率分布特性,能夠趨近熵極限的編碼方法。盡管它也是對(duì)出現(xiàn)概率大的符號(hào)采用短碼,對(duì)出現(xiàn)概率小的符號(hào)采用長(zhǎng)碼,但其編碼原理與Huffman編碼并不相同,它和Huffma
13、n編碼的最大區(qū)別在于它不是使用整數(shù)碼。算術(shù)編碼的方法是將被編碼的每一個(gè)信源消息按其概率大小表示成實(shí)數(shù)軸01之間的一個(gè)區(qū)域(或稱之區(qū)間),概率越大,所占間隔越大,表示這一間隔所需的二進(jìn)制分?jǐn)?shù)值位數(shù)就越?。环粗驮酱?。算術(shù)編碼所產(chǎn)生的碼字實(shí)際上就是一個(gè)二進(jìn)制分?jǐn)?shù)值的指針,該指針指向所編符號(hào)對(duì)應(yīng)的概率區(qū)間,該區(qū)間為半開區(qū)間,包括左端點(diǎn),不包括右端點(diǎn)。2.3.2 有損壓縮率失真理論指出,在給定信號(hào)允許失真度的條件下,為了減少圖像傳輸?shù)谋忍芈?,?yīng)盡量減小傳輸信號(hào)的方差。預(yù)測(cè)編碼和變換編碼正是根據(jù)這一理論對(duì)原始圖像進(jìn)行壓縮,使處理后的圖像信號(hào)的方差減小,最終達(dá)到壓縮編碼的目的。常用有損壓縮編碼方法有:預(yù)測(cè)
14、編碼方法對(duì)于絕大多數(shù)圖像來說,在局部空間和時(shí)間上是高度相關(guān)的,因而可以在己知像素的基礎(chǔ)上,通過對(duì)當(dāng)前像素預(yù)測(cè)來減少圖像的數(shù)據(jù)量。即可以利用xi-1,xi-2xi-m來預(yù)測(cè)xi,的值,由于差值di的方差比原始圖像系列的方差要小,因此,傳輸其差值只需比較少的比特?cái)?shù)。幀內(nèi)預(yù)測(cè)編碼二維圖像中像素間存在很強(qiáng)的相關(guān)性,因此可用已知的前面幾個(gè)像素值來預(yù)測(cè)當(dāng)前像素值。這些像素可以是前幾行的或前幾幀的,分別稱為一維、二維和三維預(yù)測(cè),然后對(duì)實(shí)際值與預(yù)測(cè)值的差值(預(yù)測(cè)誤差)進(jìn)行量化和編碼。幀間預(yù)測(cè)編碼視頻信號(hào)的相鄰核間存在極強(qiáng)的相關(guān)性,利用這種時(shí)間相關(guān)性進(jìn)行幀間編碼,可獲得比幀內(nèi)DPCM高得多的壓縮比。采用的預(yù)測(cè)方
15、法有:幀重復(fù)、閉值法、幀內(nèi)插、運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)。幀重復(fù),對(duì)于靜止或活動(dòng)很慢的視頻信號(hào),可以少傳一些幀;閾值法,即只傳送像素亮度的幀間差值超過某一閾值的像素;幀內(nèi)插,對(duì)活動(dòng)緩慢的圖像,可以使用前后兩幀圖像進(jìn)行內(nèi)插以得到實(shí)際圖像的預(yù)測(cè)圖像,然后對(duì)實(shí)際幀與預(yù)測(cè)的差值信號(hào)進(jìn)行編碼。正交變換編碼圖像經(jīng)過正交變換后能夠?qū)崿F(xiàn)圖像數(shù)據(jù)壓縮的物理本質(zhì)在于:經(jīng)過多維坐標(biāo)系中的適當(dāng)?shù)淖鴺?biāo)旋轉(zhuǎn)和變換,能夠把散布在各個(gè)坐標(biāo)軸上的原始圖像數(shù)據(jù),在新的適當(dāng)?shù)淖鴺?biāo)系中集中到少數(shù)坐標(biāo)軸上,因而有可能用較少的編碼比特?cái)?shù)來表示一幅圖像,實(shí)現(xiàn)圖像的壓縮編碼。絕大部分圖像信號(hào)在空間域中像素之間的相關(guān)性是很大的。它們經(jīng)過正交變換后,其能量主
16、要集中在低頻部分,而且經(jīng)過正交變換后相關(guān)性大大降低。變換編碼的基本思路就是利用上述特點(diǎn),在編碼時(shí)略去某些能量很小的高頻分量,或在量化時(shí)對(duì)方差較小的分量分配以較少的比特?cái)?shù)。另外,變換編碼還可以根據(jù)人眼對(duì)不同頻率分量的敏感程度而對(duì)不同系數(shù)采用不同的量化臺(tái)階,以進(jìn)一步提高壓縮比。經(jīng)過變換其頻譜系數(shù)將被量化(可采用標(biāo)量或矢量量化)。量化過程將在重建圖像中引入量化噪聲而導(dǎo)致圖像的損傷。接下來要對(duì)量化的結(jié)果進(jìn)行無損熵編碼,此時(shí)可采用哈夫曼碼或算術(shù)碼。熵編碼的目的是進(jìn)一步去除符號(hào)的冗余度。在圖像壓縮中,最常用的變換方法是DCT。DCT變換矩陣的大小可以從去除相關(guān)程度和實(shí)現(xiàn)難易程度等方面來綜合考慮,8
17、5;8通常被認(rèn)為是一種較好的選擇。其二維DCT及IDCT變換如下: (2-1) (2-2)其中:f(i,j)表示輸入圖像的樣點(diǎn)值F(u,v)表示DCT變換后的變換系數(shù)在各種圖像編碼標(biāo)準(zhǔn)(H.261/263,MPEG)中均使用了8×8DCT變換編碼。二維DCT及IDCT的實(shí)現(xiàn)有多種算法,其快速算法的基本思想一般是先將二維DCT轉(zhuǎn)化為一維DCT,利用DCT與DFT的聯(lián)系,使用蝶形結(jié)構(gòu)的DFT計(jì)算。變換編碼在當(dāng)前的軟件水平上易于實(shí)現(xiàn),且具有良好的壓縮性能,通常在10倍壓縮比的情況下提供優(yōu)良的圖像質(zhì)量。但另一方面,變換編碼也有其固有的缺點(diǎn):變換編碼是一種塊結(jié)構(gòu)編碼方法,因此若處理不當(dāng),很容易
18、出現(xiàn)所謂的“塊效應(yīng)”,即塊與塊之間的不連續(xù)性。圖像中的邊界、紋理處理出現(xiàn)較明顯的損傷。因?yàn)閳D像的邊界、紋理部分有較豐富的高頻成分,在高壓縮比條件下,高頻系數(shù)常常被粗糙的量化,甚至被丟棄,導(dǎo)致高頻信息的損失,這使得在這些區(qū)域的圖像變得模糊,影像圖像質(zhì)量。子帶編碼子帶編碼先將原圖像用若干數(shù)字濾波器(分解濾波器)分解成不同頻率成分的分量,再對(duì)這些分量進(jìn)行亞抽樣,形成子帶圖像,最后對(duì)不同的子帶圖像分別用與其相匹配的方法進(jìn)行編碼,在接收端,將解碼后的子帶圖像補(bǔ)零、放大,并經(jīng)合成濾波器的內(nèi)插,將各子帶信號(hào)相加,進(jìn)行圖像復(fù)原。與DCT編碼相比,子帶編碼的最大優(yōu)點(diǎn)是復(fù)原圖像無方塊效應(yīng),因此得到廣泛的研究,是一
19、種有潛力的圖像編碼方法。2.4 圖像壓縮的關(guān)鍵技術(shù)基于DCT的圖像壓縮主要包括以下幾個(gè)步驟:圖像分塊、DCT變換、量化、熵編碼、運(yùn)動(dòng)估計(jì)與運(yùn)動(dòng)補(bǔ)償以及速率控制等主要幾個(gè)步驟。2.4.1 圖像分塊在基于DCT的壓縮編碼過程中,變換是對(duì)一個(gè)一個(gè)的圖像塊進(jìn)行的,所以在進(jìn)行DCT變換之前需要將圖像分為互不重疊的圖像塊。假設(shè)一幀圖像的大小為M×N,我們將其分為尺寸為L(zhǎng)×L要求彼此沒有重疊的子圖像。M、N必須為L(zhǎng)的整數(shù)倍。2.4.2 DCT變換對(duì)于8×8的二維圖像塊,離散余弦變換的定義見(2-1)、(2-2)在對(duì)圖像進(jìn)行二維DCT時(shí),處理對(duì)象為N×N且不與其他子塊重
20、疊的方形子圖像。一般說來,尺寸越大越能利用圖像的空間相關(guān)性,壓縮效果會(huì)好一些。但研究表明,當(dāng)尺寸大到一定程度時(shí),由于圖像像素之間的相關(guān)性減弱,使得壓縮效果的改善不明顯,而且導(dǎo)致運(yùn)算復(fù)雜性增加。實(shí)驗(yàn)表明,在具有相同圖像質(zhì)量的情況下,壓縮比與選取的尺寸有如下圖2.1關(guān)系:圖2.1壓縮比與圖像塊尺寸的關(guān)系由圖可知,當(dāng)子塊尺寸超過8×8時(shí),壓縮效果的改善不是很大,所以一般選擇8×8的尺寸為DCT的處理單元?,F(xiàn)在的VLSI(very large scale integrated circuits,超大規(guī)模集成電路)技術(shù)很容易地實(shí)現(xiàn)8×8的DCT運(yùn)算功能。需要說明:DCT變換
21、是無損變換,即對(duì)得到的變換系數(shù)進(jìn)行反變換,從理論上應(yīng)該得到原始的輸入圖像塊。但由于在計(jì)算機(jī)中進(jìn)行DCT變換需要進(jìn)行浮點(diǎn)計(jì)算存在字長(zhǎng)效應(yīng),因此反變換得到的信號(hào)與原始信號(hào)會(huì)有很小的差別。2.4.3 量化DCT變換將時(shí)間域圖像變換到頻率域,其中有關(guān)系數(shù)分別對(duì)應(yīng)于圖像的低頻信息和高頻信息。由于人的眼睛對(duì)圖像低頻特性(如物體的總體亮度)之類的信息敏感,而對(duì)圖像中高頻信息不敏感,因此在傳送過程中可以少傳或不傳送高頻信息,而只傳送低頻的信息。圖像壓縮編碼正是利用人眼的這種特性來進(jìn)行圖像壓縮的。基于DCT的圖像壓縮編碼算法通過量化過程來判斷是否要傳送某一個(gè)頻率分量。量化的目的是去除人眼視覺不敏感的信息,從而降
22、低信息傳送速率。量化的過程用以下公式表示: (2-3)其中:FQ(u,v)表示經(jīng)過量化后的DCT系數(shù)F(u,v)表示量化前的DCT系數(shù)Q(u,v)表示量化加權(quán)矩陣q表示量化步長(zhǎng)round表示歸整,即將輸出的值取為與之最接近的整數(shù)值。類似地可以寫出反量化的表達(dá)式:F'(u,v)=FQ(u,v)Q(u,v)q (2-4)由于量化過程是一個(gè)非線性過程,信號(hào)F(u,v)經(jīng)過量化和反量化后得到的值F'(u,v)與F(u,v)本身是不同的,即存在一定的誤差。由于人眼對(duì)不同的頻率分量具有不同敏感度,因此在量化過程中可以對(duì)不同的系數(shù)采用不同的加權(quán)系數(shù),使得在量化步長(zhǎng)為9時(shí),不同的系數(shù)具有不同的
23、誤差。量化加權(quán)矩陣是很多的國(guó)際性組織和研究者經(jīng)過對(duì)多種圖像綜合統(tǒng)計(jì)后給出的。在實(shí)際應(yīng)用中的量化方法還要復(fù)雜一些,并且可能有多個(gè)量化加權(quán)矩陣,但最終的目的是相同的,那就是更好地利用人眼的特性,以最低的信息速率獲得最好的圖像質(zhì)量。量化過程的另一個(gè)重要參數(shù)是量化步長(zhǎng)9。它的作用是控制量化誤差的大小。調(diào)整9的值可以改變編碼后所需要的比特?cái)?shù)目,實(shí)際上是犧牲圖像質(zhì)量來?yè)Q取較低的傳送速率或用寬的帶寬來?yè)Q取較高的圖像質(zhì)量。事實(shí)上目前的圖像編碼器的輸出速率之所以能在較大的范圍內(nèi)變化,最主要的原因就是它可以調(diào)節(jié)量化器的量化步長(zhǎng)。2.4.4 熵編碼在圖像壓縮編碼中經(jīng)常采用的熵編碼有行程編碼(RLC)及變字長(zhǎng)編碼(V
24、LC)等,這兩個(gè)編碼方法常結(jié)合使用。行程編碼一般用于在數(shù)字信號(hào)中經(jīng)常有相同碼字連續(xù)出現(xiàn)的場(chǎng)合。在圖像壓縮編碼時(shí),數(shù)據(jù)經(jīng)DCT等變換編碼后,其系數(shù)按照一定的方式排列后,高頻系數(shù)經(jīng)常會(huì)出現(xiàn)連0的情況。此時(shí)如果對(duì)0的長(zhǎng)度(游程)進(jìn)行編碼,則可以有效地對(duì)這些系數(shù)進(jìn)行壓縮。行程編碼與變字長(zhǎng)編碼相結(jié)合,可獲得更高的壓縮比。當(dāng)對(duì)M個(gè)字長(zhǎng)為B比特的碼字進(jìn)行編碼時(shí),如果碼字出現(xiàn)的概率不是均勻分布,則由信息論的理論可知,一定存在一種編碼方法,能夠以每樣值的平均碼長(zhǎng)少于B比特的碼字對(duì)該數(shù)據(jù)進(jìn)行編碼。在變字長(zhǎng)編碼中,Huffman編碼方法得到的碼字平均碼長(zhǎng)最短。由以上討論可得出如下結(jié)論:對(duì)于圖像序列的壓縮,不僅要考慮
25、到圖像空間方向的相關(guān)性,而且還要考慮序列在時(shí)間軸上的相關(guān)性,同時(shí)還要利用無損編碼來達(dá)到可觀的壓縮性能。這三者結(jié)合起來能更有效地對(duì)圖像數(shù)據(jù)進(jìn)行壓縮。2.4.5 運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)估計(jì)與補(bǔ)償是活動(dòng)圖像壓縮的關(guān)鍵技術(shù)之一。目前己成為重要的圖像壓縮算法,從H.261,H.263,MPEG-1,MPEG-2到MPEG-4等國(guó)際標(biāo)準(zhǔn),都使用了運(yùn)動(dòng)補(bǔ)償(簡(jiǎn)稱MC)技術(shù)。運(yùn)動(dòng)補(bǔ)償?shù)幕驹砗?jiǎn)述如下,當(dāng)編碼器對(duì)圖像序列中的第N幀進(jìn)行處理時(shí),利用運(yùn)動(dòng)估值技術(shù)得到第N幀的預(yù)測(cè)幀N'。在實(shí)際編碼傳輸時(shí),并不總是傳輸?shù)贜幀,而是第N幀和其預(yù)測(cè)幀N'的差值。如果運(yùn)動(dòng)估計(jì)十分有效,中的概率基本上分布在零
26、的附近,從而導(dǎo)致比原始圖像第N幀的能量小的多,編碼傳輸所需的比特?cái)?shù)也就少的多,這就是運(yùn)動(dòng)補(bǔ)償技術(shù)能夠去除信源中時(shí)間冗余度的本質(zhì)所在。圖 2.2 運(yùn)動(dòng)估值原理運(yùn)動(dòng)補(bǔ)償(MC)是消除圖像序列時(shí)間方向冗余度的有效手段,它常常和各種其它技術(shù)組合在一起實(shí)現(xiàn)完整的編碼器。運(yùn)動(dòng)估值技術(shù)(如上圖2.2所示)一般將輸入圖像分割成若干彼此不相重疊的方塊(通常為16×16大小的塊),然后為每一個(gè)塊尋找一個(gè)運(yùn)動(dòng)矢量,尋找運(yùn)動(dòng)矢量的過程是一個(gè)優(yōu)化過程,即按照某種匹配準(zhǔn)則(如MSE,最小均方誤差準(zhǔn)則)為當(dāng)前塊在參考圖像中尋找一個(gè)誤差最小的塊,圖像塊這兩個(gè)圖像塊的相對(duì)位移便是運(yùn)動(dòng)矢量。運(yùn)動(dòng)補(bǔ)償是將運(yùn)動(dòng)矢量所指的“
27、粘貼”到當(dāng)前塊所在位置,作為當(dāng)前塊的預(yù)測(cè)值,如圖2.3所示。圖 2.3 運(yùn)動(dòng)補(bǔ)償原理圖像分割是運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)的基礎(chǔ),但實(shí)際上要把圖像分割成不同運(yùn)動(dòng)的物體是比較困難的。通常采用兩種比較簡(jiǎn)單的方法:一是把圖像劃分成矩形子塊,適當(dāng)選擇子塊大小,把子塊分為靜止和運(yùn)動(dòng)兩類,估計(jì)出運(yùn)動(dòng)子塊的位移,進(jìn)行預(yù)測(cè)編碼,這種方法稱之為塊匹配法(BMA)。另一種方法是對(duì)每個(gè)像素的位移都進(jìn)行遞歸估計(jì),因此稱之為像素遞歸法(PRA)。這兩種算法各有其特點(diǎn),通常像素遞歸法較塊匹配法精度商,對(duì)運(yùn)動(dòng)畫面的適應(yīng)能力也強(qiáng),但只能跟蹤較小的位移,且實(shí)現(xiàn)復(fù)雜。塊匹配法雖然精度低于像素遞歸法,但由于其位移跟蹤能力強(qiáng),且實(shí)現(xiàn)簡(jiǎn)單,因此在實(shí)際
28、中得到了廣泛的應(yīng)用。得到運(yùn)動(dòng)物體的位移估計(jì)值后,即可送入MC預(yù)測(cè)器和一切預(yù)測(cè)編碼一樣,輸入到預(yù)測(cè)器的數(shù)據(jù)都要用圖像恢復(fù)數(shù)據(jù),即原始輸入為N,預(yù)測(cè)值為N',二者之差經(jīng)過量化后為',圖像恢復(fù)數(shù)據(jù)為S0=N'+',與原始數(shù)據(jù)S0相比含有量化誤差q0='。把恢復(fù)數(shù)存進(jìn)幀存儲(chǔ)器存儲(chǔ)后,即為前一幀的數(shù)據(jù),把前一數(shù)據(jù)和當(dāng)前數(shù)據(jù)送進(jìn)運(yùn)動(dòng)參數(shù)估值器后就得到運(yùn)動(dòng)位移的估值,有了運(yùn)動(dòng)位移參數(shù)和前幀復(fù)原數(shù)據(jù),就可以做出當(dāng)前像素的預(yù)測(cè)值。2.4.6 解碼過程接收端首先要根據(jù)接收到的碼流解出不同的二維事件,然后根據(jù)事件中的游程和數(shù)據(jù)值恢復(fù)出量化后的系數(shù)矩陣。接下來進(jìn)行反量化,即用與
29、量化過程相反的計(jì)算公式來推算DCT系數(shù)。在DCT系數(shù)矩陣的基礎(chǔ)上可以進(jìn)行IDCT變換,最終得到原始的在時(shí)間域圖像的像素值。2.4.7 混合編碼現(xiàn)在的國(guó)際標(biāo)準(zhǔn)(H.261/263,MPEG1/2和MPEG-4)都同時(shí)采用上面敘述的編碼算法,即變換編碼+運(yùn)動(dòng)補(bǔ)償+熵編碼的混合編碼方案來實(shí)現(xiàn)圖像序列(圖像)的壓縮。即用DCT變換消除圖像幀內(nèi)相關(guān)性,用運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償去除圖像的幀間相關(guān)性,用熵編碼進(jìn)一步提高壓縮的效率等。圖2.4給出了混合編碼的模型。圖2.4 基于DCT的圖像壓縮編碼系統(tǒng)由圖可看出,對(duì)當(dāng)前輸入的圖像首先要進(jìn)行分塊。分塊得到的小圖像再與經(jīng)過運(yùn)動(dòng)補(bǔ)償?shù)念A(yù)測(cè)圖像塊相減得到差值圖像塊X(m,
30、n),然后對(duì)該差值圖像塊進(jìn)行DCT變換和量化。量化的輸出有兩個(gè)不同應(yīng)用:一是送給熵編碼器進(jìn)行編碼,編碼后的比特流輸出到一個(gè)緩沖器中保存,等待信號(hào)的傳輸部分將其讀出送到線路上去;另一應(yīng)用是進(jìn)行反量化和反變換后得到信號(hào)x'(m,n),該信號(hào)將與運(yùn)動(dòng)補(bǔ)償輸出的圖像塊相加得到新的預(yù)測(cè)圖像信號(hào),并將新的預(yù)測(cè)圖像塊送幀存儲(chǔ)器。幀存儲(chǔ)器的作用是保存前面一幀圖像的值以便用于運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償。從圖中可以看到每輸入一個(gè)圖像塊,運(yùn)動(dòng)估計(jì)均要根據(jù)當(dāng)前輸入的圖像塊和保存在幀存儲(chǔ)器中的參考圖像來確定運(yùn)動(dòng)矢量,輸入的運(yùn)動(dòng)矢量要送給運(yùn)動(dòng)補(bǔ)償模塊,運(yùn)動(dòng)補(bǔ)償將根據(jù)運(yùn)動(dòng)矢量從幀存儲(chǔ)器中保存的參考圖像中取出一個(gè)小塊的圖像作
31、為當(dāng)前輸入圖像塊的預(yù)測(cè)值,并將該值送給減法器以便得到X(m,n)。另外還可看出:信息經(jīng)過熵編碼送入緩沖器。通常情況下緩沖器的大小是固定的,如果某個(gè)時(shí)刻輸入圖像很復(fù)雜,編碼后輸出的比特?cái)?shù)比較多,而此時(shí)后續(xù)的電路還沒有將緩沖器中已經(jīng)編碼的圖像數(shù)據(jù)取出,那么當(dāng)前編碼的數(shù)據(jù)就沒有地方可以保存,從而造成緩沖器的上溢出;相反,如果當(dāng)前編碼的圖像很簡(jiǎn)單,編碼后輸出的比特?cái)?shù)很少,而此時(shí)后續(xù)電路讀取信息的速率很快,那么就可能出現(xiàn)緩沖器中無數(shù)據(jù)可讀的狀態(tài),即緩沖器出現(xiàn)下溢出。為了避免這兩種情況,通常從緩沖器到量化器上會(huì)有一條反饋通路,用以控制編碼器輸出的比特?cái)?shù)。當(dāng)發(fā)現(xiàn)緩沖器快出現(xiàn)上溢出時(shí),控制電路會(huì)要求量化器提高
32、量化步長(zhǎng),更多的DCT系數(shù)在量化后變成了0,這樣經(jīng)過熵編碼后輸出的比特?cái)?shù)就很少,從而使緩沖器不會(huì)出現(xiàn)上溢出的現(xiàn)象。反之,如果發(fā)現(xiàn)緩沖器快出現(xiàn)下溢出時(shí),控制電路會(huì)要求量化器減小量化步長(zhǎng),更多的DCT系數(shù)在量化后不為0,這樣經(jīng)過熵編碼后輸出的比特?cái)?shù)就比較多,從而使緩沖器不會(huì)出現(xiàn)下溢出的現(xiàn)象,即速率控制,它使得同樣一個(gè)編碼器能在多種不同輸出速率的環(huán)境中正常工作。解碼的過程比編碼的過程相對(duì)要簡(jiǎn)單。圖2.5給出了解碼的系統(tǒng)框圖。接收端接收到的信息首先要經(jīng)過熵解碼,還原為量化系數(shù),然后送給量化器進(jìn)行反量化,得到DCT系數(shù),最后通過DCT的反變換恢復(fù)原始的圖像數(shù)據(jù)。由于在編碼端編碼的只是當(dāng)前圖像和參考圖像的
33、差值,所以在接收端必須要將解碼獲得的差值圖像和參考圖像相加,以恢復(fù)最原始圖像。在解碼過程中需要利用運(yùn)動(dòng)矢量等邊信息以確定參考圖像塊在前面圖像中的位置。圖2.5解碼系統(tǒng)框圖2.4.8 I,P,B幀編碼模式在基于DCT的圖像壓縮編碼中常常采用I,B,P幀的編碼模式。在編碼過程中,編碼算法將輸入到編碼器的每一幀圖像分為I(Intra)幀、B(Bi-direction prediction)和P(Prediction)幀三種不同的類型,并且具有一定的排列順序。如圖2.6所示的I,B,P幀的組織結(jié)構(gòu)是一種典型的組織結(jié)構(gòu)。圖2.6 典型的I,B,P幀結(jié)構(gòu)順序不同類型的幀在編碼過程中有不同的處理方法。對(duì)于I
34、圖像(幀內(nèi)圖像)來說,它利用圖像自身的相關(guān)性進(jìn)行壓縮,提供壓縮數(shù)據(jù)流中的隨機(jī)存取的點(diǎn),采用基于DCT的編碼技術(shù),編碼不需要其它幀的圖像作參考,這些幀圖像為譯碼器提供隨機(jī)存取的點(diǎn),是預(yù)測(cè)圖像(P)幀和雙向預(yù)測(cè)圖像(B)幀的參考圖像,所以壓縮率不高。P圖像(預(yù)測(cè)圖像)是參考過去的幀內(nèi)圖像或者過去預(yù)測(cè)得到的圖像用運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)技術(shù)進(jìn)行編碼,編碼實(shí)際上是對(duì)當(dāng)前圖像與運(yùn)動(dòng)補(bǔ)償圖像的差值進(jìn)行編碼。這些預(yù)測(cè)圖像通常作為進(jìn)一步預(yù)測(cè)的參考,預(yù)測(cè)圖像的編碼效率較高。B圖像(差補(bǔ)圖或雙向預(yù)測(cè)圖像)的編碼方式與P圖像相似,唯一不同的地方是在編碼過程中它要利用在當(dāng)前位置前面的I或P圖像和后面的I或P圖像進(jìn)行預(yù)測(cè),并從中選
35、出一個(gè)最佳的運(yùn)動(dòng)矢量,它的編碼效率最高,但它不能作為預(yù)測(cè)的參考圖像。圖2.7給出了I,B,P幀圖像在編碼時(shí)使用參考圖像的情況。從圖中可以看出在對(duì)第4幀的P圖像進(jìn)行編碼時(shí)需要使用第1幀的I圖像作為預(yù)測(cè)幀,而對(duì)位于第2幀的B圖像進(jìn)行編碼時(shí)需要使用位于第1幀的I圖像和位于第4幀的P圖像作為參考幀。圖2.7 B、P幀編碼時(shí)使用的參考幀從圖中可以看出編碼端在進(jìn)行圖像編碼時(shí)需要對(duì)圖像編碼的順序進(jìn)行調(diào)整,通常需要在編碼器中有一個(gè)大的輸入緩沖器將當(dāng)前輸入的圖像進(jìn)行緩存。解碼過程與編碼過程相似。解碼后的圖像也要先寫入緩沖器,然后再按照顯示順序從緩沖器中讀出要顯示的圖像幀,利用這樣的方法就可以保證輸入圖像和輸出圖
36、像在時(shí)間順序上的一致性。在解碼過程中只有I幀圖像才能獨(dú)立的解碼,B和P圖像均需要利用參考圖像并結(jié)合運(yùn)動(dòng)矢量完成解碼過程。2.5 常用圖像的數(shù)據(jù)結(jié)構(gòu)視頻序列:編碼比特流中最高語法結(jié)構(gòu)是視頻序列。一個(gè)視頻序列以一個(gè)序列頭開始,后面可選地跟著一組圖像的頭和一個(gè)或更多的編碼幀。圖:有三種圖:內(nèi)部編碼圖(I)、預(yù)測(cè)編碼圖(P)和雙向編碼圖(B)。一個(gè)編碼圖由一個(gè)圖像頭、緊跟后面的可選擴(kuò)展項(xiàng)以及數(shù)據(jù)組成。組塊:一個(gè)組塊是一系列任意數(shù)目的宏塊。一個(gè)組塊至少要包含一個(gè)宏塊。組塊之間不能重疊。宏塊:宏塊包含一部分亮度分量和相關(guān)色差分量。一個(gè)宏塊可以有幾種色差格式。對(duì)于每種不同的色差格式,宏塊中的塊的順序會(huì)有不同
37、。塊:術(shù)語“塊”既可以指源圖像數(shù)據(jù)和重構(gòu)數(shù)據(jù),也可以指DCT系數(shù)或相應(yīng)的編碼數(shù)據(jù)單元。當(dāng)“塊”指源圖像數(shù)據(jù)或重構(gòu)數(shù)據(jù)時(shí),它指的時(shí)亮度分量或色差分量的正交部分。在塊中有8行,每行8個(gè)樣點(diǎn)。第三章 MPEG-4標(biāo)準(zhǔn)本章將討論MPEG-4標(biāo)準(zhǔn)的主要內(nèi)容。3.1 MPEG-4標(biāo)準(zhǔn)簡(jiǎn)述MPEG-4標(biāo)準(zhǔn)的制定有兩個(gè)目標(biāo):低比特率的多媒體通信和多工業(yè)的多媒體通信的綜合。MPEG-4遵循靈活的編碼工具框架體系,設(shè)計(jì)了一個(gè)開放的編碼系統(tǒng),對(duì)于不同的應(yīng)用采用不同的編碼算法,以達(dá)到低比特率通信的目標(biāo)。3.1.1 MPEG-4標(biāo)準(zhǔn)的特點(diǎn)MPEG-4解碼器是可編程的,相應(yīng)的解碼信息可與內(nèi)容本身一起傳輸下載。采用了基于對(duì)
38、象(object-based)的編碼是MPEG-4的主要特征,所謂的對(duì)象是在一個(gè)場(chǎng)景中能夠訪問和操縱的實(shí)體。與現(xiàn)有的MPEG-1和MPEG-2視頻壓縮相比,MPEG-4視頻有一些重要改進(jìn):基于內(nèi)容的交互功能。MPEG-4提供了全新的交互方式,可實(shí)現(xiàn)對(duì)多媒體視頻對(duì)象(VO)的時(shí)域隨機(jī)存取,改變場(chǎng)景的視角,改變場(chǎng)景中物體的位置、大小和形狀,或?qū)υ搶?duì)象進(jìn)行置換甚至清除。支持自然及合成信息的混合編碼(NHC:Synthetic and Natural Hybrid Coding)??蓪?duì)合成的VO及其活動(dòng)信息進(jìn)行參數(shù)化描述。高效編碼。包括VO的高效編碼和多個(gè)并發(fā)數(shù)據(jù)的有效同步編碼?;趦?nèi)容的伸縮性。是指
39、分級(jí)編碼后,紋理、圖像和視頻基于內(nèi)容的伸縮性,視頻序列中時(shí)域、空間及質(zhì)量的伸縮性,表現(xiàn)為時(shí)域?qū)崟r(shí)或非實(shí)時(shí)、數(shù)據(jù)率大小及重建的圖像質(zhì)量上。可變的最終輸出。不同的碼率意味著支持不同的功能集。功能集的底層是VLBV(VLBV:Very Low Bit Rate Video)核心,它為564kbits/s視頻操作與應(yīng)用提供算法與工具,支持較低的空間分辨率(低于352×288像素)和較低的幀頻(低于15Hz)。VLBV核心功能包括:矩形圖像序列的有效編碼、多媒體數(shù)據(jù)庫(kù)的搜索和隨機(jī)存取。MPEG-4的HBV(HBV:High Bit Rate Video,范圍在64kbits/s-4Mbits/
40、s之間)同樣支持上述功能,但它同時(shí)還支持較高的空間與時(shí)間分辨率。其輸入可以是ITU-R601的標(biāo)準(zhǔn)信號(hào),因此其典型應(yīng)用為數(shù)字電視廣播與交互式檢索。MPEG-4應(yīng)用領(lǐng)域主要有:因特網(wǎng)應(yīng)用、交互式視頻游戲、實(shí)時(shí)可視通信、廣播電視、虛擬會(huì)議、移動(dòng)通信條件下的多媒體應(yīng)用、遠(yuǎn)程視頻監(jiān)控等。3.1.2 MPEG-4標(biāo)準(zhǔn)的構(gòu)成MPEG-4標(biāo)準(zhǔn)包括以下部分。DMIF(Delivery Multimedia Integration Framework)。多媒體傳送整體框架協(xié)議。MPEG-4標(biāo)準(zhǔn)將眾多多媒體應(yīng)用集成于一個(gè)完整的框架內(nèi),旨在為多媒體通信及應(yīng)用環(huán)境提供靈活的算法及工具,用于實(shí)現(xiàn)音視頻數(shù)據(jù)的有效編碼及更
41、為靈活的存取。它重點(diǎn)解決了多領(lǐng)域中多媒體應(yīng)用個(gè)性化交互操作的問題。解碼器。定義了MPEG-4系統(tǒng)特殊的解碼模式,要求特殊的緩沖區(qū)和實(shí)時(shí)模式。音頻編碼。支持自然聲音和合成聲音,支持音頻的對(duì)象特征。視頻編碼。支持自然和合成的視覺對(duì)象,合成的視覺對(duì)象包括2D,3D動(dòng)畫和人面部表情動(dòng)畫等。場(chǎng)景描述BIFS(Binary Format for Scene description)。關(guān)于一組VO的時(shí)空結(jié)構(gòu)關(guān)系的參數(shù)信息,主要描述了各VO在具體背景下的相互關(guān)系與同步等問題,以及VO及其背景的知識(shí)產(chǎn)權(quán)保護(hù)等問題。BIFS與VO對(duì)象特征信息的編碼、傳輸是相對(duì)獨(dú)立的。場(chǎng)景描述信息編碼及其的獨(dú)立傳輸是實(shí)現(xiàn)用戶端編輯
42、操作的關(guān)鍵:在解碼之后和場(chǎng)景合成之前,用戶可以通過對(duì)BIFS參數(shù)的重新設(shè)置來對(duì)VO進(jìn)行多種編輯操作,如增減、縮放、平移,甚至一些特技效果。3.1.3 MPEG-4的框架和級(jí)別MPEG-4提供了大量的音視頻對(duì)象的編碼工具,能夠滿足多種需要。對(duì)于某一特定需要,只有一部分系統(tǒng)、視頻和音頻對(duì)象的編碼工具被采用??蚣?profile)就是針對(duì)特定的應(yīng)用確定要采用的編碼工具,它是MPEG-4提供的工具集的一個(gè)子集。每一個(gè)框架又有一個(gè)或多個(gè)級(jí)別(level)來限制計(jì)算的復(fù)雜度。MPEG-4共有四類框架:視頻框架、音頻框架、圖形框架和場(chǎng)景描述框架。其中視頻框架又有5個(gè)級(jí)別,分別如下:Simple Visual
43、 Profile。提供矩形視頻對(duì)象高效有容錯(cuò)能力的編碼工具,適合應(yīng)用于移動(dòng)網(wǎng)絡(luò)。Simple Scalable Visual Profile。在Simple Profile基礎(chǔ)上增加了對(duì)象時(shí)域和空域擴(kuò)展編碼功能,應(yīng)用于提供多級(jí)服務(wù)質(zhì)量的應(yīng)用,如internet。Core Visual Profile。在Simple Profile基礎(chǔ)上增加了任意形狀對(duì)象編碼和時(shí)域擴(kuò)展功能,適用于相對(duì)簡(jiǎn)單的內(nèi)容交互應(yīng)用,如internet應(yīng)用。Main Visual Profile。在Core Profile基礎(chǔ)上增加了Sprite對(duì)象編碼功能,適用于DVD應(yīng)用等。N-Bit Visual Profile。在C
44、ore Profile基礎(chǔ)上增加了具有不同像素深度視頻對(duì)象編碼功能,適用于監(jiān)控應(yīng)用。3.2 視頻編碼的基本內(nèi)容3.2.1 從矩形幀到VOP,視頻編碼的基本結(jié)構(gòu)傳統(tǒng)圖像編碼方法依據(jù)信源編碼理論的框架,將圖像作為隨機(jī)信號(hào),利用其隨機(jī)特性來達(dá)到壓縮的目的。無論是JPEG還是MPEG-1/2,都是以DCT矩形變換塊為變換編碼單元,對(duì)DCT塊內(nèi)圖像的亮度和色度進(jìn)行特征取樣和提取像素;采用幀間編碼、運(yùn)動(dòng)估測(cè)技術(shù),在參考幀幀內(nèi)DCT編碼的基礎(chǔ)上,對(duì)DCT塊內(nèi)圖像的像素特征進(jìn)行差值預(yù)測(cè)編碼?;诰匦蜠CT編碼的視頻編碼,在設(shè)計(jì)思想上只考慮到對(duì)信號(hào)數(shù)據(jù)進(jìn)行處理的需要(比如小的比特率以利于傳輸、高的比特率以保證質(zhì)
45、量),但未考慮視頻信息即圖像內(nèi)容本身的含義和重要性,以及視頻信息應(yīng)用者的主觀需求(比如部分內(nèi)容的提取功能)。另外,這種基于塊的壓縮算法在低碼率時(shí)容易產(chǎn)生“方塊效應(yīng)”,大大縮小了視頻信息的應(yīng)用領(lǐng)域。但正是由于信源編碼理論的限定,使傳統(tǒng)的編碼具有較高的概括性和綜合性,基于矩形幀編碼的傳統(tǒng)編碼標(biāo)準(zhǔn)如H.261、MPEG-1/2在實(shí)際應(yīng)用中也獲得了巨大成功。而MPEG-4采用現(xiàn)代圖像編碼方法,利用人眼的視覺特性,抓住圖像信息傳輸?shù)谋举|(zhì),從輪廓紋理的思路出發(fā),支持基于視覺內(nèi)容的交互功能。實(shí)現(xiàn)居于內(nèi)容交互功能的關(guān)鍵在于基于視頻對(duì)象的編碼,為此MPEG-4引入了視頻對(duì)象平面VOP(Video Object
46、Plane)的概念。在這一概念中,根據(jù)人眼感興趣的一些特性如形狀、運(yùn)動(dòng)、紋理等,將圖像序列中每一幀中的場(chǎng)景,看成是有不同視頻對(duì)象平面VOP所組成,而同一對(duì)象連續(xù)的VOP稱為視頻對(duì)象VO(Video Object),VOP是VO在某個(gè)時(shí)間的存在。VO可以是視頻序列中的人物或具體的景物,例如電視新聞中的播音員;也可以是計(jì)算機(jī)圖形技術(shù)生成的二維或三維圖形。圖3.1表示MPEG-4對(duì)電視圖像序列進(jìn)行編碼的一個(gè)例子。左上角的圖是全景圖,右上角的圖是一個(gè)沒有背景的子圖像,可以把網(wǎng)球運(yùn)動(dòng)員當(dāng)作是一個(gè)視頻對(duì)象。在編碼之前把這個(gè)視頻對(duì)象從全景圖序列中抽出來,然后分別對(duì)它們進(jìn)行編碼、傳送和解碼,最后再合成。圖3.
47、1 MPEG-4電視圖像編碼舉例MPEG-4采用基于內(nèi)容編碼方法的一個(gè)重要優(yōu)點(diǎn)是:使用合適的和專門的對(duì)象基于移動(dòng)預(yù)測(cè)工具可以明顯提高場(chǎng)景中某些視頻對(duì)象的壓縮效率。圖3.2為MPEG-4基于內(nèi)容圖像編碼方法的簡(jiǎn)化原理圖。InputVOP定義VOP0編碼VOP1編碼VOP2編碼復(fù)合Bitstream圖3.2 MPEG-4基于內(nèi)容圖像編碼方法的簡(jiǎn)化原理圖第一步是VO的形成,先要從原始視頻流中分割出VO,之后由編碼控制機(jī)制為不同的VO以及各個(gè)VO的三類信息分配碼率。之后對(duì)各個(gè)VO分別獨(dú)立編碼,最后將各個(gè)VO的碼流復(fù)合成一個(gè)位流。其中,在編碼控制機(jī)制和復(fù)合階段可以加入用戶的交互控制或由智能化的算法進(jìn)行控
48、制。解碼則相反。3.2.2 MPEG-4的數(shù)據(jù)結(jié)構(gòu)MPEG-4可以認(rèn)為有四個(gè)層次的數(shù)據(jù)結(jié)構(gòu),他們都以類的形式定義。數(shù)據(jù)結(jié)構(gòu)類分級(jí)圖的形象描述見圖3.3。VS(Video Session):是包含其他三個(gè)類的一個(gè)類,一個(gè)完整的視頻序列可以由幾個(gè)VS組成。VO(Video Object):是場(chǎng)景中的某個(gè)物體,它由時(shí)間連續(xù)的多個(gè)幀構(gòu)成。VOL(Video Object Layer):VO的三種屬性信息編碼于這個(gè)類中,這個(gè)類的引入主要用來擴(kuò)展VO的時(shí)域或空域分辨率。VOP:可以看作是VO在某一時(shí)刻的表象,即某一幀VO。圖3.3 MPEG-4中的數(shù)據(jù)結(jié)構(gòu)類分級(jí)圖總之,每個(gè)VS(即一段完整的視頻)由一個(gè)或
49、多個(gè)VO構(gòu)成,而每個(gè)VO可能由一個(gè)或多個(gè)VOL層次,如基本層、增強(qiáng)層。每個(gè)層就是VO的某一分辨率的表示。在每個(gè)層中,都有時(shí)間上連續(xù)的一系列VOP。3.3 VOP編碼實(shí)現(xiàn)視頻編碼器包括形狀編碼(對(duì)于任意形狀)、運(yùn)動(dòng)信息編碼和紋理編碼?;揪幋a方法為:首先對(duì)輸入的原圖像序列進(jìn)行場(chǎng)景分析和對(duì)象分割,以劃分不同的VOP,得到各個(gè)VOP的形狀和位置信息,它可以用平面來表示。對(duì)平面進(jìn)行壓縮編碼和傳送,在接收端就可以恢復(fù)平面。提取的形狀和位置信息又用來控制VOP的運(yùn)動(dòng)和紋理編碼。對(duì)運(yùn)動(dòng)和紋理信息編碼仍然采用經(jīng)典的運(yùn)動(dòng)預(yù)測(cè)補(bǔ)償法。輸入第N幀的VOP與幀存儲(chǔ)器中存儲(chǔ)的第N-1幀的VOP進(jìn)行比較,找到運(yùn)動(dòng)矢量,然
50、后對(duì)兩幀VOP的差值進(jìn)行量化、編碼。編碼后得到的紋理信息,與運(yùn)動(dòng)編碼器和形狀編碼器輸出的運(yùn)動(dòng)信息和形狀信息復(fù)合形成改VOP的比特流層。不同視頻對(duì)象的VOP序列分別進(jìn)行編碼,形成各自的比特流層,經(jīng)過復(fù)合后在信道上傳送。傳送的順序依次為形狀信息、運(yùn)動(dòng)信息和紋理信息。圖3.4是MPEG-4 Video編碼的基本框圖,可對(duì)任意形狀的輸入圖像序列進(jìn)行編碼。圖3.4 MPEG-4視頻編碼器的算法框圖在某一時(shí)刻,VO以VOP的形式出現(xiàn),編碼也主要針對(duì)這個(gè)時(shí)刻該VO的形狀、運(yùn)動(dòng)、紋理這三類信息來進(jìn)行。3.3.1 形狀編碼圖3.5 MPEG-4中的VOP形狀編碼VOP形狀編碼見圖3.5。VO的形狀信息有兩類:二
51、值形狀信息和灰度形狀信息。二值形狀信息用0、1表示VOP的形狀,0表示非VOP區(qū)域,1表示VOP區(qū)域。二值形狀信息的編碼采用基于運(yùn)動(dòng)補(bǔ)償塊的技術(shù),可以是無損或有損編碼?;叶刃螤钚畔⒂?255之間的數(shù)值來表示VOP的透明度,其中0表示完全透明(相當(dāng)于二值形狀信息中的0),255表示完全不透明(相當(dāng)于二值形狀信息中的1)。灰度形狀信息是二值形狀信息的擴(kuò)展,它可以用來表示透視的物體,并降低混迭的現(xiàn)象?;叶刃螤钚畔⒕幋a采用基于塊的運(yùn)動(dòng)補(bǔ)償DCT方法(同紋理編碼相似),屬于有損編碼。目前標(biāo)準(zhǔn)中采用矩陣的形式來表示二值或灰度形狀信息,稱之為位圖(或平面)。對(duì)于模糊邊緣部分,可將其視為灰度信息從周圍已知VO
52、P區(qū)域的灰度值向0值的過渡區(qū)域,采用內(nèi)插法確定其形狀信息。MPEG-4中采用位圖法來表示這兩類形狀信息。VOP被限定在一個(gè)矩形窗口內(nèi),稱之為VOP窗口,窗口的長(zhǎng)、寬均為16的整數(shù)倍,同時(shí)保證VOP窗口中非VOP的宏塊數(shù)目最少。位圖法實(shí)際上是一個(gè)邊框矩陣,取值為0255(后0、1),編碼變?yōu)閷?duì)這個(gè)矩陣的編碼。矩陣被分成16×16的“形狀塊”,允許進(jìn)行有損編碼,這通過對(duì)邊界信息進(jìn)行子采樣實(shí)現(xiàn),同時(shí)允許使用宏塊的運(yùn)動(dòng)向量來做形狀塊的運(yùn)動(dòng)補(bǔ)償。實(shí)驗(yàn)表明,位圖表示法具有較高的編碼效率和較低的運(yùn)算復(fù)雜度。形狀編碼在輸入VOP是一個(gè)矩形幀時(shí)倍屏蔽掉,以便與現(xiàn)有編碼系統(tǒng)相兼容,如圖3.6所示。其中的
53、上圖表示在MPEG-4中,矩形幀被認(rèn)為是VOP的一個(gè)特例,這時(shí)編碼系統(tǒng)不用處理形狀信息,退化為類似于MPEG-1/2的傳統(tǒng)編碼系統(tǒng),實(shí)現(xiàn)了與現(xiàn)有標(biāo)準(zhǔn)的兼容。其中的下圖表示MPEG-4的甚低速率圖像的核心編碼器。Video ObjectPlaneMotion(MV)Texture(DCT)Generic MPEG-4 CoderbitstreamMPEG-4 VLBV Core CoderVideo ObjectPlaneShapeMotion(MV)Texture(DCT)Bitstream圖3.6 普通MPEG-4編碼器和MPEG-4 VLBV核心編碼器3.3.2 運(yùn)動(dòng)信息編碼類似于現(xiàn)有的視
54、頻編碼標(biāo)準(zhǔn),MPEG-4采用運(yùn)動(dòng)預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償技術(shù)來去除圖像信息中的時(shí)間冗余成分,而這些運(yùn)動(dòng)信息的編碼技術(shù)可視為現(xiàn)有標(biāo)準(zhǔn)向任意形狀的VOP的延伸。VOP的編碼有三種模式,即幀內(nèi)(Intra-frame)編碼模式(I-VOP),幀間(Inter-frame)預(yù)測(cè)編碼模式(P-VOP),幀間雙向(Bidirectionally)預(yù)測(cè)編碼模式(B-VOP)。VOP如形狀編碼一樣,外加了邊框,邊框分成16×16的宏塊,宏塊內(nèi)是8×8的塊。在MPEG-4中運(yùn)動(dòng)預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償可以是基于16×16像素宏塊的,也可以是基于8×8像素宏塊的。為了適應(yīng)任意形狀的VOP,MP
55、EG-4引入了圖像填充技術(shù)和多邊形匹配技術(shù)。圖像填充技術(shù)利用VOP內(nèi)部的像素值來外推VOP外的像素值,以此獲得運(yùn)動(dòng)預(yù)測(cè)的參考值。多邊形匹配技術(shù)則將VOP的輪廓宏塊的活躍部分包含在多邊形之內(nèi),以此來增加運(yùn)動(dòng)估值的有效性。3.3.3 紋理編碼紋理信息有兩種??赡苁莾?nèi)部編碼的I-VOP的像素值,也可能是幀間編碼的P-VOP、B-VOP的運(yùn)動(dòng)估計(jì)殘差值。為了達(dá)到簡(jiǎn)單、高性能、容錯(cuò)性好的目的,仍采用基于分塊的紋理編碼。VOP邊框仍被分成16×16的宏塊。圖3.7 MPEG-4中任意形狀VOP的基于宏塊的紋理編碼在已得到實(shí)際應(yīng)用的MPEG-4中,VOP的紋理編碼基本上仍采用基于8×8像
56、素塊的DCT方法,有3種情況,如圖3.7所示。一是VOP外、邊框內(nèi)的塊,不編碼;二是VOP內(nèi)的塊,采用經(jīng)典的DCT方法;三是部分在VOP內(nèi),部分在VOP外的塊則首先采用圖像填充技術(shù)來獲取VOP之外的像素值,之后再進(jìn)行DCT編碼。這是為了增加塊內(nèi)數(shù)據(jù)的空域相關(guān)性,從而有利于DCT變換和量化去塊內(nèi)的空域冗余。DCT系數(shù)要經(jīng)量化、Z掃描、行程及哈夫曼熵編碼。量化有兩種類型:類似于H.263那樣用一個(gè)量化參數(shù)針對(duì)塊內(nèi)所有AC系數(shù),這個(gè)值可以根據(jù)要求質(zhì)量和目標(biāo)碼率變化;或類似于MPEG-2那樣使用量化矩陣。紋理編碼主要采用傳統(tǒng)算法,MPEG-4中只是有一些改進(jìn)。在intra方式下主要為DCT變換,由于在
57、VOP邊緣處宏塊內(nèi)有些點(diǎn)不是VOP內(nèi)的點(diǎn),為了減少編碼系數(shù),對(duì)于非VOP內(nèi)的點(diǎn)不必變換編碼,MPEG-4中提出形狀自適應(yīng)DCT(SA-DCT)變換,主要步驟為:首先進(jìn)行一維的列變換(不等長(zhǎng)),然后進(jìn)行一維的行變換。對(duì)于intra方式編碼的DC和AC系數(shù)進(jìn)行預(yù)測(cè)。DC系數(shù)用鄰近塊DC系數(shù)預(yù)測(cè),AC系數(shù)用同塊內(nèi)臨近的其它AC系數(shù)來預(yù)測(cè)。紋理編碼最重要,它將在最大程度上決定圖像質(zhì)量和壓縮比。對(duì)于甚低碼率(<6.4kbits/s)下的應(yīng)用,由于方塊效應(yīng)較明顯,所以需用除方塊濾波器進(jìn)行相應(yīng)處理,3.4 VOP分割基于紋理的分割基于紋理的分割主要是應(yīng)用模式識(shí)別的技術(shù)來聚類,但要注意分割結(jié)果適度。分割的太粗,不能有效的壓縮;而分割的太細(xì),就有可能是物體的各個(gè)部分,這樣對(duì)于壓縮和基于內(nèi)容的操作都不利?;谶\(yùn)動(dòng)的分割將具有同一運(yùn)動(dòng)參數(shù)模型的區(qū)域聚類,從而達(dá)到分割的目的。這種方法可以分割出運(yùn)動(dòng)的物體,但會(huì)使得基于運(yùn)動(dòng)一致性的分割實(shí)現(xiàn)起來非常困難,效果也不太理想。紋理和運(yùn)動(dòng)結(jié)合的分割在運(yùn)動(dòng)一致性表現(xiàn)的非常明顯的區(qū)域用運(yùn)動(dòng)分割,在一些細(xì)節(jié)或運(yùn)動(dòng)復(fù)雜區(qū)域仍采用紋理分割。或者采用由粗到細(xì)的分層次分割策略
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- BOD自動(dòng)在線監(jiān)測(cè)儀相關(guān)項(xiàng)目投資計(jì)劃書
- 2025版跨境電商虛擬貨幣交易合作協(xié)議3篇
- 2024年設(shè)備場(chǎng)地搭配租賃合同參考文本版
- 2025年度硅澡泥施工項(xiàng)目風(fēng)險(xiǎn)評(píng)估與安全管理合同2篇
- 質(zhì)量管理工具與應(yīng)用作業(yè)指導(dǎo)書
- 2024年裝修行業(yè)標(biāo)準(zhǔn)化協(xié)議模板匯編版B版
- 小學(xué)生必讀童話故事解讀
- 2024年建筑工程安全合作協(xié)議樣本3篇
- 2025年度物業(yè)管理有限公司合作經(jīng)營(yíng)合同2篇
- 2025年度智能穿戴設(shè)備小額貸款擔(dān)保服務(wù)協(xié)議3篇
- 剝皮芝煤礦消防安全自檢方案及自查報(bào)告
- GB/T 22740-2008地理標(biāo)志產(chǎn)品靈寶蘋果
- 《人力資源情緒管理問題研究開題報(bào)告(含提綱)》
- 哮喘吸入裝置的正確使用方法課件
- 2023年成都東部集團(tuán)有限公司招聘筆試題庫(kù)及答案解析
- 角點(diǎn)網(wǎng)格一.角點(diǎn)網(wǎng)格定義
- 自動(dòng)控制原理全套課件
- 視頻監(jiān)控室值班記錄表
- 歌曲《梁?!泛?jiǎn)譜完整版
- 小學(xué)語文教研組期末考試質(zhì)量分析
- 校園安全存在問題及對(duì)策
評(píng)論
0/150
提交評(píng)論