格式參考論文(按照該論文的格式修改)

上傳人：0*** IP屬地：湖北上傳時(shí)間：2022-03-07 格式：DOC 頁(yè)數(shù)：47 大?。?.27MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩42頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、MPEG-4標(biāo)準(zhǔn)視頻壓縮算法研究摘要隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的發(fā)展，多媒體壓縮技術(shù)有了廣泛的應(yīng)用。本課題的目的是對(duì)多媒體壓縮技術(shù)中的視頻的壓縮問題進(jìn)行研究。論文首先介紹了MPEG-1/2標(biāo)準(zhǔn)視頻壓縮和解壓的理論基礎(chǔ)，主要包括幀內(nèi)編碼開發(fā)同一幀內(nèi)存在的空間相關(guān)性；幀間編碼開發(fā)相鄰幀之間存在的時(shí)間相關(guān)性：以及與之有關(guān)的I，P，B幀和運(yùn)動(dòng)圖像序列、幀、宏塊、塊等概念。其次介紹了MPEG-4標(biāo)準(zhǔn)對(duì)于MPEG-1/2標(biāo)準(zhǔn)的兼容性：視頻對(duì)象VOP的概念；VOP編碼的主要組成部分；MPEG-4每個(gè)VOP編碼使用的壓縮算法是在MPEG-1/2標(biāo)準(zhǔn)的基礎(chǔ)上開發(fā)的。再次，在VC環(huán)境下對(duì)XVID進(jìn)行編譯，并實(shí)現(xiàn)編碼

2、和解碼。最后文章針對(duì)XVID部分源碼對(duì)MPEG-4的視頻壓縮編碼部分主要源碼進(jìn)行重點(diǎn)的分析。關(guān)鍵詞：幀；MPEG -4；VOP；XVID；壓縮；解壓目錄第一章緒論11.1課題的背景和意義11.2課題完成的工作1第二章數(shù)字圖像壓縮理論基礎(chǔ)22.1數(shù)字圖像壓縮的必要性22.2數(shù)字化信息壓縮的可能性22.3圖像壓縮的基礎(chǔ)22.3.1無損壓縮32.3.2有損壓縮32.4圖像壓縮的關(guān)鍵技術(shù)52.4.1圖像分塊62.4.2DCT變換62.4.3量化62.4.4熵編碼72.4.5運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償82.4.6解碼過程92.4.7混合編碼92.4.8I，P，B幀編碼模式112.5常用圖像的數(shù)據(jù)結(jié)構(gòu)12第三

3、章MPEG-4標(biāo)準(zhǔn)143.1MPEG-4標(biāo)準(zhǔn)簡(jiǎn)述143.1.1MPEG-4標(biāo)準(zhǔn)的特點(diǎn)143.1.2MPEG-4標(biāo)準(zhǔn)的構(gòu)成153.1.3MPEG-4的框架和級(jí)別153.2視頻編碼的基本內(nèi)容163.2.1從矩形幀到VOP，視頻編碼的基本結(jié)構(gòu)163.2.2MPEG-4的數(shù)據(jù)結(jié)構(gòu)183.3VOP編碼實(shí)現(xiàn)183.3.1形狀編碼193.3.2運(yùn)動(dòng)信息編碼203.3.3紋理編碼213.4VOP分割223.5Sprite技術(shù)背景全景圖編碼223.6分級(jí)編碼22第四章基于XVID的主要視頻算法分析244.1XVID的技術(shù)特性244.1.1多種編碼模式244.1.2XVID的量化方式254.1.3運(yùn)動(dòng)偵測(cè)（Mot

4、ion Search）和曲線平衡分配284.1.4動(dòng)態(tài)關(guān)鍵幀距（I-frame interval）294.1.5全局運(yùn)動(dòng)補(bǔ)償304.2XVID中B幀技術(shù)的實(shí)現(xiàn)30第五章XVID編譯、編碼、解碼的實(shí)現(xiàn)365.1XVID源碼的編譯環(huán)境365.2編碼，解碼的實(shí)現(xiàn)375.2.1編碼實(shí)現(xiàn)375.2.2解碼實(shí)現(xiàn)39第六章總結(jié)與展望42謝辭43參考文獻(xiàn)4444第一章緒論1.1 課題的背景和意義近年來，多媒體技術(shù)飛速發(fā)展，在工商企業(yè)、公共場(chǎng)所和社會(huì)生活中的應(yīng)用也越來越廣泛，己經(jīng)成為當(dāng)今社會(huì)密不可分的組成部份。到現(xiàn)在為止已經(jīng)發(fā)布的幾個(gè)通用的壓縮編碼標(biāo)準(zhǔn)有：用于64K會(huì)議電視及可視電話的H.261，用于靜止圖

5、像壓縮的JPEG，面向1.5M數(shù)字視頻和音頻傳輸和存儲(chǔ)的MPEG-1，面向高清晰度數(shù)字電視和音頻傳輸和存儲(chǔ)的MPEG-2和適用于低碼率視頻編碼的H.263。這些標(biāo)準(zhǔn)越來越成熟，覆蓋的應(yīng)用領(lǐng)域越來越廣。但是這些標(biāo)準(zhǔn)應(yīng)用單一，主要目標(biāo)是提高壓縮比，并改善音頻、視頻質(zhì)量，采用的技術(shù)是傳統(tǒng)的波形編碼理論。與以上標(biāo)準(zhǔn)不同，MPEG-4并不僅僅著眼于定義不同碼流下的壓縮編碼標(biāo)準(zhǔn)，而是更多的強(qiáng)調(diào)多媒體通信的交互性和靈活性。MPEG-4是一個(gè)包括了未來編碼技術(shù)發(fā)展的開放式標(biāo)準(zhǔn)，它能夠與H.263和MPEG-1/2標(biāo)準(zhǔn)兼容，并提出了新的基于內(nèi)容的存取概念。它提供的碼率，低端可低于64Kbps，高端可高于8Mbp

6、s。MPEG-4標(biāo)準(zhǔn)提供對(duì)多種圖像分辨率的支持，不但可以對(duì)自然視頻進(jìn)行高效率的編碼，還具有對(duì)合成音視頻對(duì)象、臉部模型、網(wǎng)絡(luò)對(duì)象的編碼能力；增加了對(duì)網(wǎng)絡(luò)交互環(huán)境的支持，與計(jì)算機(jī)信息處理6的結(jié)合更加密切。在編碼方式上的重大改進(jìn)是提出對(duì)象的概念，強(qiáng)調(diào)人與媒體對(duì)象的交互能力。及時(shí)跟蹤MPEG-4發(fā)展動(dòng)態(tài)，掌握其核心技術(shù)，并結(jié)合實(shí)際應(yīng)用在某些關(guān)鍵方向上有所創(chuàng)新和發(fā)展，這是一項(xiàng)很有意義的工作。本課題介紹了MPEG-1/2標(biāo)準(zhǔn)的主要壓縮方法，然后討論了MPEG-4引入的新的壓縮方法。進(jìn)一步結(jié)合基于MPEG-4標(biāo)準(zhǔn)的XVID技術(shù)的實(shí)現(xiàn)代碼，對(duì)MPEG-4壓縮編碼的關(guān)鍵技術(shù)進(jìn)行了分析和研究。并在此基礎(chǔ)上，對(duì)PG

7、M格式的視頻文件進(jìn)行了壓縮和解壓，初步掌握了MPEG-4標(biāo)準(zhǔn)的理論基礎(chǔ)和開發(fā)應(yīng)用。1.2 課題完成的工作課題主要完成了以下幾方面的工作：了解多媒體視頻壓縮的理論基礎(chǔ)、視頻壓縮技術(shù)的發(fā)展歷史，以及多媒體視頻壓縮的主要技術(shù)。了解MPEG-4標(biāo)準(zhǔn)的主要內(nèi)容，并對(duì)不同于以往的新技術(shù)進(jìn)行深入分析。對(duì)XVID源碼的部分視頻壓縮算法進(jìn)行深入分析。在WINDOWS XP SP2 環(huán)境下使用Visual C+6.0對(duì)XVID源碼進(jìn)行編譯，調(diào)試；對(duì)PGM格式的視頻文件進(jìn)行壓縮和解壓工作，初步了解XVID源碼對(duì)視頻文件的壓縮解壓原理。第二章數(shù)字圖像壓縮理論基礎(chǔ)2.1 數(shù)字圖像壓縮的必要性數(shù)字圖像具有很多優(yōu)點(diǎn)，但也

8、存在著數(shù)據(jù)量太大的問題。一幅640×480像素中等分辨率的彩色圖像（24bit/像素），其數(shù)據(jù)量約為1.31Mbit/s，播放一秒鐘運(yùn)動(dòng)圖像通常要30幀，則視頻信號(hào)傳輸速率為220Mbit/s，一張650M的光盤只能播放20多秒鐘，可見對(duì)數(shù)字化信息進(jìn)行壓縮非常必要。要用盡可能少的數(shù)據(jù)來表達(dá)信息，節(jié)省傳輸和存儲(chǔ)的開銷。2.2 數(shù)字化信息壓縮的可能性能對(duì)數(shù)字化信息進(jìn)行壓縮，主要存在以下兩點(diǎn)原因：第一、圖像信號(hào)存在大量的冗余度并且可在編解碼后無失真的恢復(fù)。第二、可以利用人的視覺特性，在圖像變化不被覺察的條件下以一定的失真換取數(shù)據(jù)壓縮。圖像信號(hào)的冗余度，主要表現(xiàn)為空間（幀內(nèi)）和時(shí)間（幀間）相

9、關(guān)性。所謂相關(guān)性，就是能夠根據(jù)給出的一部分?jǐn)?shù)據(jù)判斷出其相鄰的數(shù)據(jù)。一幀圖像內(nèi)的任何一個(gè)場(chǎng)景都是又若干像素點(diǎn)構(gòu)成的，因此一個(gè)像素通常與它周圍的某些像素在亮度和色度上存在一定的關(guān)系，這種關(guān)系即空間相關(guān)性；一個(gè)節(jié)目中的一個(gè)情節(jié)常常由若干幀連續(xù)圖像組成的圖像序列構(gòu)成，一個(gè)圖像序列中前后幀圖像間也存在一定的關(guān)系，這種關(guān)系即時(shí)間相關(guān)性。這兩種相關(guān)性使得圖像中存在大量的冗余信息。如果出去冗余信息，而只保留少量非相關(guān)信息進(jìn)行傳輸，就可以大大降低信息存儲(chǔ)容量和傳輸速率。與此同時(shí)，由于人眼對(duì)圖像的細(xì)節(jié)分辨率、運(yùn)動(dòng)分辨率和對(duì)比度分辨率的感覺有一定的界限，只要在圖像處理時(shí)引入的失真不是很大，就不易察覺，仍會(huì)認(rèn)為圖像時(shí)

10、完好的或是足夠好的。因此可以在滿足對(duì)圖像質(zhì)量一定要求的前提下，通過壓縮編碼方法，實(shí)現(xiàn)數(shù)據(jù)壓縮。上述思想既是MPEG-1/2的主要理論基礎(chǔ)，也是MPEG-4的理論基礎(chǔ)。2.3 圖像壓縮的基礎(chǔ)壓縮機(jī)制通常分為兩種無損壓縮和有損壓縮。無損壓縮是指可以精確重建數(shù)據(jù)，沒有信息丟失；有損壓縮是指數(shù)據(jù)不能無失真的重建，有一定的信息丟失。對(duì)于有損壓縮，我們?cè)试S壓縮后產(chǎn)生質(zhì)量上的誤差，可以讓壓縮后的數(shù)據(jù)代替原始數(shù)據(jù)。任何壓縮機(jī)制的根本思想都是去除數(shù)據(jù)中存在的相關(guān)性。一個(gè)好的壓縮編碼方案，要能夠最大限度地去除圖像中的冗余信息。對(duì)空間相關(guān)性，可以根據(jù)圖像中某一點(diǎn)的像素值推斷出其相鄰點(diǎn)的像素值；對(duì)時(shí)間相關(guān)性，通過運(yùn)動(dòng)

11、預(yù)測(cè)，參考前一幀圖像與這一幀圖像的相似情況，去掉與前一幀相似的冗余數(shù)據(jù)，而只記錄這一幀與上一幀不同的數(shù)據(jù)。以下介紹圖像壓縮編碼中的基本編碼方法。2.3.1 無損壓縮常用無損壓縮編碼技術(shù)有以下幾種：行程編碼技術(shù)行程編碼(Run-length Coding)是一種相對(duì)簡(jiǎn)單的編碼技術(shù)，主要思想是將一個(gè)相同值的連續(xù)串用一個(gè)代表串長(zhǎng)和值的組合碼字(Run,Level)來代替。其中行程(Run)表示系數(shù)系列中連零系數(shù)的長(zhǎng)度；量化電平(Level)表示連零系數(shù)之后第一個(gè)非零系數(shù)的值。行程編碼適用于二值圖像。行程編碼的效率不如Huffman編碼方法高，但它的碼字結(jié)構(gòu)相對(duì)簡(jiǎn)單，故在許多情況下也被采用。為達(dá)到較好

12、的壓縮效果，行程編碼經(jīng)常和其他一些編碼方法混合使用。Huffman編碼壓縮變字長(zhǎng)編碼的最佳編碼定理：在變字長(zhǎng)編碼中，對(duì)于出現(xiàn)概率大的信息符號(hào)編以短字長(zhǎng)的碼，對(duì)于概率小的符號(hào)編以長(zhǎng)字長(zhǎng)的碼。Huffman編碼是根據(jù)可變長(zhǎng)度最佳編碼定理，應(yīng)用Huffman算法得到的一種編碼方法。它是整數(shù)編碼的一種最佳碼，即它的平均碼長(zhǎng)在具有相同輸入概率的前提下，比其它任何一種唯一譯碼都短，是圖像壓縮中的重要編碼方法。算術(shù)編碼算術(shù)編碼是另一種利用信源編碼概率分布特性，能夠趨近熵極限的編碼方法。盡管它也是對(duì)出現(xiàn)概率大的符號(hào)采用短碼，對(duì)出現(xiàn)概率小的符號(hào)采用長(zhǎng)碼，但其編碼原理與Huffman編碼并不相同，它和Huffma

13、n編碼的最大區(qū)別在于它不是使用整數(shù)碼。算術(shù)編碼的方法是將被編碼的每一個(gè)信源消息按其概率大小表示成實(shí)數(shù)軸01之間的一個(gè)區(qū)域(或稱之區(qū)間)，概率越大，所占間隔越大，表示這一間隔所需的二進(jìn)制分?jǐn)?shù)值位數(shù)就越?。环粗驮酱?。算術(shù)編碼所產(chǎn)生的碼字實(shí)際上就是一個(gè)二進(jìn)制分?jǐn)?shù)值的指針，該指針指向所編符號(hào)對(duì)應(yīng)的概率區(qū)間，該區(qū)間為半開區(qū)間，包括左端點(diǎn)，不包括右端點(diǎn)。2.3.2 有損壓縮率失真理論指出，在給定信號(hào)允許失真度的條件下，為了減少圖像傳輸?shù)谋忍芈?，?yīng)盡量減小傳輸信號(hào)的方差。預(yù)測(cè)編碼和變換編碼正是根據(jù)這一理論對(duì)原始圖像進(jìn)行壓縮，使處理后的圖像信號(hào)的方差減小，最終達(dá)到壓縮編碼的目的。常用有損壓縮編碼方法有：預(yù)測(cè)

14、編碼方法對(duì)于絕大多數(shù)圖像來說，在局部空間和時(shí)間上是高度相關(guān)的，因而可以在己知像素的基礎(chǔ)上，通過對(duì)當(dāng)前像素預(yù)測(cè)來減少圖像的數(shù)據(jù)量。即可以利用xi-1，xi-2xi-m來預(yù)測(cè)xi，的值，由于差值di的方差比原始圖像系列的方差要小，因此，傳輸其差值只需比較少的比特?cái)?shù)。幀內(nèi)預(yù)測(cè)編碼二維圖像中像素間存在很強(qiáng)的相關(guān)性，因此可用已知的前面幾個(gè)像素值來預(yù)測(cè)當(dāng)前像素值。這些像素可以是前幾行的或前幾幀的，分別稱為一維、二維和三維預(yù)測(cè)，然后對(duì)實(shí)際值與預(yù)測(cè)值的差值(預(yù)測(cè)誤差)進(jìn)行量化和編碼。幀間預(yù)測(cè)編碼視頻信號(hào)的相鄰核間存在極強(qiáng)的相關(guān)性，利用這種時(shí)間相關(guān)性進(jìn)行幀間編碼，可獲得比幀內(nèi)DPCM高得多的壓縮比。采用的預(yù)測(cè)方

15、法有：幀重復(fù)、閉值法、幀內(nèi)插、運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)。幀重復(fù)，對(duì)于靜止或活動(dòng)很慢的視頻信號(hào)，可以少傳一些幀；閾值法，即只傳送像素亮度的幀間差值超過某一閾值的像素；幀內(nèi)插，對(duì)活動(dòng)緩慢的圖像，可以使用前后兩幀圖像進(jìn)行內(nèi)插以得到實(shí)際圖像的預(yù)測(cè)圖像，然后對(duì)實(shí)際幀與預(yù)測(cè)的差值信號(hào)進(jìn)行編碼。正交變換編碼圖像經(jīng)過正交變換后能夠?qū)崿F(xiàn)圖像數(shù)據(jù)壓縮的物理本質(zhì)在于：經(jīng)過多維坐標(biāo)系中的適當(dāng)?shù)淖鴺?biāo)旋轉(zhuǎn)和變換，能夠把散布在各個(gè)坐標(biāo)軸上的原始圖像數(shù)據(jù)，在新的適當(dāng)?shù)淖鴺?biāo)系中集中到少數(shù)坐標(biāo)軸上，因而有可能用較少的編碼比特?cái)?shù)來表示一幅圖像，實(shí)現(xiàn)圖像的壓縮編碼。絕大部分圖像信號(hào)在空間域中像素之間的相關(guān)性是很大的。它們經(jīng)過正交變換后，其能量主

16、要集中在低頻部分，而且經(jīng)過正交變換后相關(guān)性大大降低。變換編碼的基本思路就是利用上述特點(diǎn)，在編碼時(shí)略去某些能量很小的高頻分量，或在量化時(shí)對(duì)方差較小的分量分配以較少的比特?cái)?shù)。另外，變換編碼還可以根據(jù)人眼對(duì)不同頻率分量的敏感程度而對(duì)不同系數(shù)采用不同的量化臺(tái)階，以進(jìn)一步提高壓縮比。經(jīng)過變換其頻譜系數(shù)將被量化(可采用標(biāo)量或矢量量化)。量化過程將在重建圖像中引入量化噪聲而導(dǎo)致圖像的損傷。接下來要對(duì)量化的結(jié)果進(jìn)行無損熵編碼，此時(shí)可采用哈夫曼碼或算術(shù)碼。熵編碼的目的是進(jìn)一步去除符號(hào)的冗余度。在圖像壓縮中，最常用的變換方法是DCT。DCT變換矩陣的大小可以從去除相關(guān)程度和實(shí)現(xiàn)難易程度等方面來綜合考慮，8

17、5;8通常被認(rèn)為是一種較好的選擇。其二維DCT及IDCT變換如下： (2-1) (2-2)其中：f(i,j)表示輸入圖像的樣點(diǎn)值F(u,v)表示DCT變換后的變換系數(shù)在各種圖像編碼標(biāo)準(zhǔn)(H.261/263，MPEG)中均使用了8×8DCT變換編碼。二維DCT及IDCT的實(shí)現(xiàn)有多種算法，其快速算法的基本思想一般是先將二維DCT轉(zhuǎn)化為一維DCT，利用DCT與DFT的聯(lián)系，使用蝶形結(jié)構(gòu)的DFT計(jì)算。變換編碼在當(dāng)前的軟件水平上易于實(shí)現(xiàn)，且具有良好的壓縮性能，通常在10倍壓縮比的情況下提供優(yōu)良的圖像質(zhì)量。但另一方面，變換編碼也有其固有的缺點(diǎn)：變換編碼是一種塊結(jié)構(gòu)編碼方法，因此若處理不當(dāng)，很容易

18、出現(xiàn)所謂的“塊效應(yīng)”，即塊與塊之間的不連續(xù)性。圖像中的邊界、紋理處理出現(xiàn)較明顯的損傷。因?yàn)閳D像的邊界、紋理部分有較豐富的高頻成分，在高壓縮比條件下，高頻系數(shù)常常被粗糙的量化，甚至被丟棄，導(dǎo)致高頻信息的損失，這使得在這些區(qū)域的圖像變得模糊，影像圖像質(zhì)量。子帶編碼子帶編碼先將原圖像用若干數(shù)字濾波器（分解濾波器）分解成不同頻率成分的分量，再對(duì)這些分量進(jìn)行亞抽樣，形成子帶圖像，最后對(duì)不同的子帶圖像分別用與其相匹配的方法進(jìn)行編碼，在接收端，將解碼后的子帶圖像補(bǔ)零、放大，并經(jīng)合成濾波器的內(nèi)插，將各子帶信號(hào)相加，進(jìn)行圖像復(fù)原。與DCT編碼相比，子帶編碼的最大優(yōu)點(diǎn)是復(fù)原圖像無方塊效應(yīng)，因此得到廣泛的研究，是一

19、種有潛力的圖像編碼方法。2.4 圖像壓縮的關(guān)鍵技術(shù)基于DCT的圖像壓縮主要包括以下幾個(gè)步驟：圖像分塊、DCT變換、量化、熵編碼、運(yùn)動(dòng)估計(jì)與運(yùn)動(dòng)補(bǔ)償以及速率控制等主要幾個(gè)步驟。2.4.1 圖像分塊在基于DCT的壓縮編碼過程中，變換是對(duì)一個(gè)一個(gè)的圖像塊進(jìn)行的，所以在進(jìn)行DCT變換之前需要將圖像分為互不重疊的圖像塊。假設(shè)一幀圖像的大小為M×N，我們將其分為尺寸為L(zhǎng)×L要求彼此沒有重疊的子圖像。M、N必須為L(zhǎng)的整數(shù)倍。2.4.2 DCT變換對(duì)于8×8的二維圖像塊，離散余弦變換的定義見(2-1)、(2-2)在對(duì)圖像進(jìn)行二維DCT時(shí)，處理對(duì)象為N×N且不與其他子塊重

20、疊的方形子圖像。一般說來，尺寸越大越能利用圖像的空間相關(guān)性，壓縮效果會(huì)好一些。但研究表明，當(dāng)尺寸大到一定程度時(shí)，由于圖像像素之間的相關(guān)性減弱，使得壓縮效果的改善不明顯，而且導(dǎo)致運(yùn)算復(fù)雜性增加。實(shí)驗(yàn)表明，在具有相同圖像質(zhì)量的情況下，壓縮比與選取的尺寸有如下圖2.1關(guān)系：圖2.1壓縮比與圖像塊尺寸的關(guān)系由圖可知，當(dāng)子塊尺寸超過8×8時(shí)，壓縮效果的改善不是很大，所以一般選擇8×8的尺寸為DCT的處理單元?，F(xiàn)在的VLSI（very large scale integrated circuits，超大規(guī)模集成電路）技術(shù)很容易地實(shí)現(xiàn)8×8的DCT運(yùn)算功能。需要說明：DCT變換

21、是無損變換，即對(duì)得到的變換系數(shù)進(jìn)行反變換，從理論上應(yīng)該得到原始的輸入圖像塊。但由于在計(jì)算機(jī)中進(jìn)行DCT變換需要進(jìn)行浮點(diǎn)計(jì)算存在字長(zhǎng)效應(yīng)，因此反變換得到的信號(hào)與原始信號(hào)會(huì)有很小的差別。2.4.3 量化DCT變換將時(shí)間域圖像變換到頻率域，其中有關(guān)系數(shù)分別對(duì)應(yīng)于圖像的低頻信息和高頻信息。由于人的眼睛對(duì)圖像低頻特性(如物體的總體亮度)之類的信息敏感，而對(duì)圖像中高頻信息不敏感，因此在傳送過程中可以少傳或不傳送高頻信息，而只傳送低頻的信息。圖像壓縮編碼正是利用人眼的這種特性來進(jìn)行圖像壓縮的。基于DCT的圖像壓縮編碼算法通過量化過程來判斷是否要傳送某一個(gè)頻率分量。量化的目的是去除人眼視覺不敏感的信息，從而降

22、低信息傳送速率。量化的過程用以下公式表示： (2-3)其中：FQ(u,v)表示經(jīng)過量化后的DCT系數(shù)F(u,v)表示量化前的DCT系數(shù)Q(u,v)表示量化加權(quán)矩陣q表示量化步長(zhǎng)round表示歸整，即將輸出的值取為與之最接近的整數(shù)值。類似地可以寫出反量化的表達(dá)式：F'(u,v)=FQ(u,v)Q(u,v)q (2-4)由于量化過程是一個(gè)非線性過程，信號(hào)F(u,v)經(jīng)過量化和反量化后得到的值F'(u,v)與F(u,v)本身是不同的，即存在一定的誤差。由于人眼對(duì)不同的頻率分量具有不同敏感度，因此在量化過程中可以對(duì)不同的系數(shù)采用不同的加權(quán)系數(shù)，使得在量化步長(zhǎng)為9時(shí)，不同的系數(shù)具有不同的

23、誤差。量化加權(quán)矩陣是很多的國(guó)際性組織和研究者經(jīng)過對(duì)多種圖像綜合統(tǒng)計(jì)后給出的。在實(shí)際應(yīng)用中的量化方法還要復(fù)雜一些，并且可能有多個(gè)量化加權(quán)矩陣，但最終的目的是相同的，那就是更好地利用人眼的特性，以最低的信息速率獲得最好的圖像質(zhì)量。量化過程的另一個(gè)重要參數(shù)是量化步長(zhǎng)9。它的作用是控制量化誤差的大小。調(diào)整9的值可以改變編碼后所需要的比特?cái)?shù)目，實(shí)際上是犧牲圖像質(zhì)量來?yè)Q取較低的傳送速率或用寬的帶寬來?yè)Q取較高的圖像質(zhì)量。事實(shí)上目前的圖像編碼器的輸出速率之所以能在較大的范圍內(nèi)變化，最主要的原因就是它可以調(diào)節(jié)量化器的量化步長(zhǎng)。2.4.4 熵編碼在圖像壓縮編碼中經(jīng)常采用的熵編碼有行程編碼(RLC)及變字長(zhǎng)編碼(V

24、LC)等，這兩個(gè)編碼方法常結(jié)合使用。行程編碼一般用于在數(shù)字信號(hào)中經(jīng)常有相同碼字連續(xù)出現(xiàn)的場(chǎng)合。在圖像壓縮編碼時(shí)，數(shù)據(jù)經(jīng)DCT等變換編碼后，其系數(shù)按照一定的方式排列后，高頻系數(shù)經(jīng)常會(huì)出現(xiàn)連0的情況。此時(shí)如果對(duì)0的長(zhǎng)度(游程)進(jìn)行編碼，則可以有效地對(duì)這些系數(shù)進(jìn)行壓縮。行程編碼與變字長(zhǎng)編碼相結(jié)合，可獲得更高的壓縮比。當(dāng)對(duì)M個(gè)字長(zhǎng)為B比特的碼字進(jìn)行編碼時(shí)，如果碼字出現(xiàn)的概率不是均勻分布，則由信息論的理論可知，一定存在一種編碼方法，能夠以每樣值的平均碼長(zhǎng)少于B比特的碼字對(duì)該數(shù)據(jù)進(jìn)行編碼。在變字長(zhǎng)編碼中，Huffman編碼方法得到的碼字平均碼長(zhǎng)最短。由以上討論可得出如下結(jié)論：對(duì)于圖像序列的壓縮，不僅要考慮

25、到圖像空間方向的相關(guān)性，而且還要考慮序列在時(shí)間軸上的相關(guān)性，同時(shí)還要利用無損編碼來達(dá)到可觀的壓縮性能。這三者結(jié)合起來能更有效地對(duì)圖像數(shù)據(jù)進(jìn)行壓縮。2.4.5 運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償運(yùn)動(dòng)估計(jì)與補(bǔ)償是活動(dòng)圖像壓縮的關(guān)鍵技術(shù)之一。目前己成為重要的圖像壓縮算法，從H.261，H.263，MPEG-1，MPEG-2到MPEG-4等國(guó)際標(biāo)準(zhǔn)，都使用了運(yùn)動(dòng)補(bǔ)償(簡(jiǎn)稱MC)技術(shù)。運(yùn)動(dòng)補(bǔ)償?shù)幕驹砗?jiǎn)述如下，當(dāng)編碼器對(duì)圖像序列中的第N幀進(jìn)行處理時(shí)，利用運(yùn)動(dòng)估值技術(shù)得到第N幀的預(yù)測(cè)幀N'。在實(shí)際編碼傳輸時(shí)，并不總是傳輸?shù)贜幀，而是第N幀和其預(yù)測(cè)幀N'的差值。如果運(yùn)動(dòng)估計(jì)十分有效，中的概率基本上分布在零

26、的附近，從而導(dǎo)致比原始圖像第N幀的能量小的多，編碼傳輸所需的比特?cái)?shù)也就少的多，這就是運(yùn)動(dòng)補(bǔ)償技術(shù)能夠去除信源中時(shí)間冗余度的本質(zhì)所在。圖 2.2 運(yùn)動(dòng)估值原理運(yùn)動(dòng)補(bǔ)償(MC)是消除圖像序列時(shí)間方向冗余度的有效手段，它常常和各種其它技術(shù)組合在一起實(shí)現(xiàn)完整的編碼器。運(yùn)動(dòng)估值技術(shù)(如上圖2.2所示)一般將輸入圖像分割成若干彼此不相重疊的方塊(通常為16×16大小的塊)，然后為每一個(gè)塊尋找一個(gè)運(yùn)動(dòng)矢量，尋找運(yùn)動(dòng)矢量的過程是一個(gè)優(yōu)化過程，即按照某種匹配準(zhǔn)則(如MSE，最小均方誤差準(zhǔn)則)為當(dāng)前塊在參考圖像中尋找一個(gè)誤差最小的塊，圖像塊這兩個(gè)圖像塊的相對(duì)位移便是運(yùn)動(dòng)矢量。運(yùn)動(dòng)補(bǔ)償是將運(yùn)動(dòng)矢量所指的“

27、粘貼”到當(dāng)前塊所在位置，作為當(dāng)前塊的預(yù)測(cè)值，如圖2.3所示。圖 2.3 運(yùn)動(dòng)補(bǔ)償原理圖像分割是運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)的基礎(chǔ)，但實(shí)際上要把圖像分割成不同運(yùn)動(dòng)的物體是比較困難的。通常采用兩種比較簡(jiǎn)單的方法：一是把圖像劃分成矩形子塊，適當(dāng)選擇子塊大小，把子塊分為靜止和運(yùn)動(dòng)兩類，估計(jì)出運(yùn)動(dòng)子塊的位移，進(jìn)行預(yù)測(cè)編碼，這種方法稱之為塊匹配法(BMA)。另一種方法是對(duì)每個(gè)像素的位移都進(jìn)行遞歸估計(jì)，因此稱之為像素遞歸法(PRA)。這兩種算法各有其特點(diǎn)，通常像素遞歸法較塊匹配法精度商，對(duì)運(yùn)動(dòng)畫面的適應(yīng)能力也強(qiáng)，但只能跟蹤較小的位移，且實(shí)現(xiàn)復(fù)雜。塊匹配法雖然精度低于像素遞歸法，但由于其位移跟蹤能力強(qiáng)，且實(shí)現(xiàn)簡(jiǎn)單，因此在實(shí)際

28、中得到了廣泛的應(yīng)用。得到運(yùn)動(dòng)物體的位移估計(jì)值后，即可送入MC預(yù)測(cè)器和一切預(yù)測(cè)編碼一樣，輸入到預(yù)測(cè)器的數(shù)據(jù)都要用圖像恢復(fù)數(shù)據(jù)，即原始輸入為N，預(yù)測(cè)值為N'，二者之差經(jīng)過量化后為'，圖像恢復(fù)數(shù)據(jù)為S0=N'+'，與原始數(shù)據(jù)S0相比含有量化誤差q0='。把恢復(fù)數(shù)存進(jìn)幀存儲(chǔ)器存儲(chǔ)后，即為前一幀的數(shù)據(jù)，把前一數(shù)據(jù)和當(dāng)前數(shù)據(jù)送進(jìn)運(yùn)動(dòng)參數(shù)估值器后就得到運(yùn)動(dòng)位移的估值，有了運(yùn)動(dòng)位移參數(shù)和前幀復(fù)原數(shù)據(jù)，就可以做出當(dāng)前像素的預(yù)測(cè)值。2.4.6 解碼過程接收端首先要根據(jù)接收到的碼流解出不同的二維事件，然后根據(jù)事件中的游程和數(shù)據(jù)值恢復(fù)出量化后的系數(shù)矩陣。接下來進(jìn)行反量化，即用與

29、量化過程相反的計(jì)算公式來推算DCT系數(shù)。在DCT系數(shù)矩陣的基礎(chǔ)上可以進(jìn)行IDCT變換，最終得到原始的在時(shí)間域圖像的像素值。2.4.7 混合編碼現(xiàn)在的國(guó)際標(biāo)準(zhǔn)(H.261/263，MPEG1/2和MPEG-4)都同時(shí)采用上面敘述的編碼算法，即變換編碼+運(yùn)動(dòng)補(bǔ)償+熵編碼的混合編碼方案來實(shí)現(xiàn)圖像序列(圖像)的壓縮。即用DCT變換消除圖像幀內(nèi)相關(guān)性，用運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償去除圖像的幀間相關(guān)性，用熵編碼進(jìn)一步提高壓縮的效率等。圖2.4給出了混合編碼的模型。圖2.4 基于DCT的圖像壓縮編碼系統(tǒng)由圖可看出，對(duì)當(dāng)前輸入的圖像首先要進(jìn)行分塊。分塊得到的小圖像再與經(jīng)過運(yùn)動(dòng)補(bǔ)償?shù)念A(yù)測(cè)圖像塊相減得到差值圖像塊X(m,

30、n)，然后對(duì)該差值圖像塊進(jìn)行DCT變換和量化。量化的輸出有兩個(gè)不同應(yīng)用：一是送給熵編碼器進(jìn)行編碼，編碼后的比特流輸出到一個(gè)緩沖器中保存，等待信號(hào)的傳輸部分將其讀出送到線路上去；另一應(yīng)用是進(jìn)行反量化和反變換后得到信號(hào)x'(m,n)，該信號(hào)將與運(yùn)動(dòng)補(bǔ)償輸出的圖像塊相加得到新的預(yù)測(cè)圖像信號(hào)，并將新的預(yù)測(cè)圖像塊送幀存儲(chǔ)器。幀存儲(chǔ)器的作用是保存前面一幀圖像的值以便用于運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償。從圖中可以看到每輸入一個(gè)圖像塊，運(yùn)動(dòng)估計(jì)均要根據(jù)當(dāng)前輸入的圖像塊和保存在幀存儲(chǔ)器中的參考圖像來確定運(yùn)動(dòng)矢量，輸入的運(yùn)動(dòng)矢量要送給運(yùn)動(dòng)補(bǔ)償模塊，運(yùn)動(dòng)補(bǔ)償將根據(jù)運(yùn)動(dòng)矢量從幀存儲(chǔ)器中保存的參考圖像中取出一個(gè)小塊的圖像作

31、為當(dāng)前輸入圖像塊的預(yù)測(cè)值，并將該值送給減法器以便得到X(m,n)。另外還可看出：信息經(jīng)過熵編碼送入緩沖器。通常情況下緩沖器的大小是固定的，如果某個(gè)時(shí)刻輸入圖像很復(fù)雜，編碼后輸出的比特?cái)?shù)比較多，而此時(shí)后續(xù)的電路還沒有將緩沖器中已經(jīng)編碼的圖像數(shù)據(jù)取出，那么當(dāng)前編碼的數(shù)據(jù)就沒有地方可以保存，從而造成緩沖器的上溢出；相反，如果當(dāng)前編碼的圖像很簡(jiǎn)單，編碼后輸出的比特?cái)?shù)很少，而此時(shí)后續(xù)電路讀取信息的速率很快，那么就可能出現(xiàn)緩沖器中無數(shù)據(jù)可讀的狀態(tài)，即緩沖器出現(xiàn)下溢出。為了避免這兩種情況，通常從緩沖器到量化器上會(huì)有一條反饋通路，用以控制編碼器輸出的比特?cái)?shù)。當(dāng)發(fā)現(xiàn)緩沖器快出現(xiàn)上溢出時(shí)，控制電路會(huì)要求量化器提高

32、量化步長(zhǎng)，更多的DCT系數(shù)在量化后變成了0，這樣經(jīng)過熵編碼后輸出的比特?cái)?shù)就很少，從而使緩沖器不會(huì)出現(xiàn)上溢出的現(xiàn)象。反之，如果發(fā)現(xiàn)緩沖器快出現(xiàn)下溢出時(shí)，控制電路會(huì)要求量化器減小量化步長(zhǎng)，更多的DCT系數(shù)在量化后不為0，這樣經(jīng)過熵編碼后輸出的比特?cái)?shù)就比較多，從而使緩沖器不會(huì)出現(xiàn)下溢出的現(xiàn)象，即速率控制，它使得同樣一個(gè)編碼器能在多種不同輸出速率的環(huán)境中正常工作。解碼的過程比編碼的過程相對(duì)要簡(jiǎn)單。圖2.5給出了解碼的系統(tǒng)框圖。接收端接收到的信息首先要經(jīng)過熵解碼，還原為量化系數(shù)，然后送給量化器進(jìn)行反量化，得到DCT系數(shù)，最后通過DCT的反變換恢復(fù)原始的圖像數(shù)據(jù)。由于在編碼端編碼的只是當(dāng)前圖像和參考圖像的

33、差值，所以在接收端必須要將解碼獲得的差值圖像和參考圖像相加，以恢復(fù)最原始圖像。在解碼過程中需要利用運(yùn)動(dòng)矢量等邊信息以確定參考圖像塊在前面圖像中的位置。圖2.5解碼系統(tǒng)框圖2.4.8 I，P，B幀編碼模式在基于DCT的圖像壓縮編碼中常常采用I，B，P幀的編碼模式。在編碼過程中，編碼算法將輸入到編碼器的每一幀圖像分為I(Intra)幀、B(Bi-direction prediction)和P(Prediction)幀三種不同的類型，并且具有一定的排列順序。如圖2.6所示的I，B，P幀的組織結(jié)構(gòu)是一種典型的組織結(jié)構(gòu)。圖2.6 典型的I，B，P幀結(jié)構(gòu)順序不同類型的幀在編碼過程中有不同的處理方法。對(duì)于I

34、圖像(幀內(nèi)圖像)來說，它利用圖像自身的相關(guān)性進(jìn)行壓縮，提供壓縮數(shù)據(jù)流中的隨機(jī)存取的點(diǎn)，采用基于DCT的編碼技術(shù)，編碼不需要其它幀的圖像作參考，這些幀圖像為譯碼器提供隨機(jī)存取的點(diǎn)，是預(yù)測(cè)圖像(P)幀和雙向預(yù)測(cè)圖像(B)幀的參考圖像，所以壓縮率不高。P圖像(預(yù)測(cè)圖像)是參考過去的幀內(nèi)圖像或者過去預(yù)測(cè)得到的圖像用運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)技術(shù)進(jìn)行編碼，編碼實(shí)際上是對(duì)當(dāng)前圖像與運(yùn)動(dòng)補(bǔ)償圖像的差值進(jìn)行編碼。這些預(yù)測(cè)圖像通常作為進(jìn)一步預(yù)測(cè)的參考，預(yù)測(cè)圖像的編碼效率較高。B圖像(差補(bǔ)圖或雙向預(yù)測(cè)圖像)的編碼方式與P圖像相似，唯一不同的地方是在編碼過程中它要利用在當(dāng)前位置前面的I或P圖像和后面的I或P圖像進(jìn)行預(yù)測(cè)，并從中選

35、出一個(gè)最佳的運(yùn)動(dòng)矢量，它的編碼效率最高，但它不能作為預(yù)測(cè)的參考圖像。圖2.7給出了I，B，P幀圖像在編碼時(shí)使用參考圖像的情況。從圖中可以看出在對(duì)第4幀的P圖像進(jìn)行編碼時(shí)需要使用第1幀的I圖像作為預(yù)測(cè)幀，而對(duì)位于第2幀的B圖像進(jìn)行編碼時(shí)需要使用位于第1幀的I圖像和位于第4幀的P圖像作為參考幀。圖2.7 B、P幀編碼時(shí)使用的參考幀從圖中可以看出編碼端在進(jìn)行圖像編碼時(shí)需要對(duì)圖像編碼的順序進(jìn)行調(diào)整，通常需要在編碼器中有一個(gè)大的輸入緩沖器將當(dāng)前輸入的圖像進(jìn)行緩存。解碼過程與編碼過程相似。解碼后的圖像也要先寫入緩沖器，然后再按照顯示順序從緩沖器中讀出要顯示的圖像幀，利用這樣的方法就可以保證輸入圖像和輸出圖

36、像在時(shí)間順序上的一致性。在解碼過程中只有I幀圖像才能獨(dú)立的解碼，B和P圖像均需要利用參考圖像并結(jié)合運(yùn)動(dòng)矢量完成解碼過程。2.5 常用圖像的數(shù)據(jù)結(jié)構(gòu)視頻序列：編碼比特流中最高語法結(jié)構(gòu)是視頻序列。一個(gè)視頻序列以一個(gè)序列頭開始，后面可選地跟著一組圖像的頭和一個(gè)或更多的編碼幀。圖：有三種圖：內(nèi)部編碼圖(I)、預(yù)測(cè)編碼圖(P)和雙向編碼圖(B)。一個(gè)編碼圖由一個(gè)圖像頭、緊跟后面的可選擴(kuò)展項(xiàng)以及數(shù)據(jù)組成。組塊：一個(gè)組塊是一系列任意數(shù)目的宏塊。一個(gè)組塊至少要包含一個(gè)宏塊。組塊之間不能重疊。宏塊：宏塊包含一部分亮度分量和相關(guān)色差分量。一個(gè)宏塊可以有幾種色差格式。對(duì)于每種不同的色差格式，宏塊中的塊的順序會(huì)有不同

37、。塊：術(shù)語“塊”既可以指源圖像數(shù)據(jù)和重構(gòu)數(shù)據(jù)，也可以指DCT系數(shù)或相應(yīng)的編碼數(shù)據(jù)單元。當(dāng)“塊”指源圖像數(shù)據(jù)或重構(gòu)數(shù)據(jù)時(shí)，它指的時(shí)亮度分量或色差分量的正交部分。在塊中有8行，每行8個(gè)樣點(diǎn)。第三章 MPEG-4標(biāo)準(zhǔn)本章將討論MPEG-4標(biāo)準(zhǔn)的主要內(nèi)容。3.1 MPEG-4標(biāo)準(zhǔn)簡(jiǎn)述MPEG-4標(biāo)準(zhǔn)的制定有兩個(gè)目標(biāo)：低比特率的多媒體通信和多工業(yè)的多媒體通信的綜合。MPEG-4遵循靈活的編碼工具框架體系，設(shè)計(jì)了一個(gè)開放的編碼系統(tǒng)，對(duì)于不同的應(yīng)用采用不同的編碼算法，以達(dá)到低比特率通信的目標(biāo)。3.1.1 MPEG-4標(biāo)準(zhǔn)的特點(diǎn)MPEG-4解碼器是可編程的，相應(yīng)的解碼信息可與內(nèi)容本身一起傳輸下載。采用了基于對(duì)

38、象(object-based)的編碼是MPEG-4的主要特征，所謂的對(duì)象是在一個(gè)場(chǎng)景中能夠訪問和操縱的實(shí)體。與現(xiàn)有的MPEG-1和MPEG-2視頻壓縮相比，MPEG-4視頻有一些重要改進(jìn)：基于內(nèi)容的交互功能。MPEG-4提供了全新的交互方式，可實(shí)現(xiàn)對(duì)多媒體視頻對(duì)象（VO）的時(shí)域隨機(jī)存取，改變場(chǎng)景的視角，改變場(chǎng)景中物體的位置、大小和形狀，或?qū)υ搶?duì)象進(jìn)行置換甚至清除。支持自然及合成信息的混合編碼(NHC：Synthetic and Natural Hybrid Coding)?？蓪?duì)合成的VO及其活動(dòng)信息進(jìn)行參數(shù)化描述。高效編碼。包括VO的高效編碼和多個(gè)并發(fā)數(shù)據(jù)的有效同步編碼?；趦?nèi)容的伸縮性。是指

39、分級(jí)編碼后，紋理、圖像和視頻基于內(nèi)容的伸縮性，視頻序列中時(shí)域、空間及質(zhì)量的伸縮性，表現(xiàn)為時(shí)域?qū)崟r(shí)或非實(shí)時(shí)、數(shù)據(jù)率大小及重建的圖像質(zhì)量上。可變的最終輸出。不同的碼率意味著支持不同的功能集。功能集的底層是VLBV(VLBV：Very Low Bit Rate Video)核心，它為564kbits/s視頻操作與應(yīng)用提供算法與工具，支持較低的空間分辨率(低于352×288像素)和較低的幀頻(低于15Hz)。VLBV核心功能包括：矩形圖像序列的有效編碼、多媒體數(shù)據(jù)庫(kù)的搜索和隨機(jī)存取。MPEG-4的HBV(HBV：High Bit Rate Video，范圍在64kbits/s-4Mbits/

40、s之間)同樣支持上述功能，但它同時(shí)還支持較高的空間與時(shí)間分辨率。其輸入可以是ITU-R601的標(biāo)準(zhǔn)信號(hào)，因此其典型應(yīng)用為數(shù)字電視廣播與交互式檢索。MPEG-4應(yīng)用領(lǐng)域主要有：因特網(wǎng)應(yīng)用、交互式視頻游戲、實(shí)時(shí)可視通信、廣播電視、虛擬會(huì)議、移動(dòng)通信條件下的多媒體應(yīng)用、遠(yuǎn)程視頻監(jiān)控等。3.1.2 MPEG-4標(biāo)準(zhǔn)的構(gòu)成MPEG-4標(biāo)準(zhǔn)包括以下部分。DMIF（Delivery Multimedia Integration Framework）。多媒體傳送整體框架協(xié)議。MPEG-4標(biāo)準(zhǔn)將眾多多媒體應(yīng)用集成于一個(gè)完整的框架內(nèi)，旨在為多媒體通信及應(yīng)用環(huán)境提供靈活的算法及工具，用于實(shí)現(xiàn)音視頻數(shù)據(jù)的有效編碼及更

41、為靈活的存取。它重點(diǎn)解決了多領(lǐng)域中多媒體應(yīng)用個(gè)性化交互操作的問題。解碼器。定義了MPEG-4系統(tǒng)特殊的解碼模式，要求特殊的緩沖區(qū)和實(shí)時(shí)模式。音頻編碼。支持自然聲音和合成聲音，支持音頻的對(duì)象特征。視頻編碼。支持自然和合成的視覺對(duì)象，合成的視覺對(duì)象包括2D，3D動(dòng)畫和人面部表情動(dòng)畫等。場(chǎng)景描述BIFS(Binary Format for Scene description)。關(guān)于一組VO的時(shí)空結(jié)構(gòu)關(guān)系的參數(shù)信息，主要描述了各VO在具體背景下的相互關(guān)系與同步等問題，以及VO及其背景的知識(shí)產(chǎn)權(quán)保護(hù)等問題。BIFS與VO對(duì)象特征信息的編碼、傳輸是相對(duì)獨(dú)立的。場(chǎng)景描述信息編碼及其的獨(dú)立傳輸是實(shí)現(xiàn)用戶端編輯

42、操作的關(guān)鍵：在解碼之后和場(chǎng)景合成之前，用戶可以通過對(duì)BIFS參數(shù)的重新設(shè)置來對(duì)VO進(jìn)行多種編輯操作，如增減、縮放、平移，甚至一些特技效果。3.1.3 MPEG-4的框架和級(jí)別MPEG-4提供了大量的音視頻對(duì)象的編碼工具，能夠滿足多種需要。對(duì)于某一特定需要，只有一部分系統(tǒng)、視頻和音頻對(duì)象的編碼工具被采用?？蚣?profile)就是針對(duì)特定的應(yīng)用確定要采用的編碼工具，它是MPEG-4提供的工具集的一個(gè)子集。每一個(gè)框架又有一個(gè)或多個(gè)級(jí)別(level)來限制計(jì)算的復(fù)雜度。MPEG-4共有四類框架：視頻框架、音頻框架、圖形框架和場(chǎng)景描述框架。其中視頻框架又有5個(gè)級(jí)別，分別如下：Simple Visual

43、 Profile。提供矩形視頻對(duì)象高效有容錯(cuò)能力的編碼工具，適合應(yīng)用于移動(dòng)網(wǎng)絡(luò)。Simple Scalable Visual Profile。在Simple Profile基礎(chǔ)上增加了對(duì)象時(shí)域和空域擴(kuò)展編碼功能，應(yīng)用于提供多級(jí)服務(wù)質(zhì)量的應(yīng)用，如internet。Core Visual Profile。在Simple Profile基礎(chǔ)上增加了任意形狀對(duì)象編碼和時(shí)域擴(kuò)展功能，適用于相對(duì)簡(jiǎn)單的內(nèi)容交互應(yīng)用，如internet應(yīng)用。Main Visual Profile。在Core Profile基礎(chǔ)上增加了Sprite對(duì)象編碼功能，適用于DVD應(yīng)用等。N-Bit Visual Profile。在C

44、ore Profile基礎(chǔ)上增加了具有不同像素深度視頻對(duì)象編碼功能，適用于監(jiān)控應(yīng)用。3.2 視頻編碼的基本內(nèi)容3.2.1 從矩形幀到VOP，視頻編碼的基本結(jié)構(gòu)傳統(tǒng)圖像編碼方法依據(jù)信源編碼理論的框架，將圖像作為隨機(jī)信號(hào)，利用其隨機(jī)特性來達(dá)到壓縮的目的。無論是JPEG還是MPEG-1/2，都是以DCT矩形變換塊為變換編碼單元，對(duì)DCT塊內(nèi)圖像的亮度和色度進(jìn)行特征取樣和提取像素；采用幀間編碼、運(yùn)動(dòng)估測(cè)技術(shù)，在參考幀幀內(nèi)DCT編碼的基礎(chǔ)上，對(duì)DCT塊內(nèi)圖像的像素特征進(jìn)行差值預(yù)測(cè)編碼?；诰匦蜠CT編碼的視頻編碼，在設(shè)計(jì)思想上只考慮到對(duì)信號(hào)數(shù)據(jù)進(jìn)行處理的需要(比如小的比特率以利于傳輸、高的比特率以保證質(zhì)

45、量)，但未考慮視頻信息即圖像內(nèi)容本身的含義和重要性，以及視頻信息應(yīng)用者的主觀需求（比如部分內(nèi)容的提取功能）。另外，這種基于塊的壓縮算法在低碼率時(shí)容易產(chǎn)生“方塊效應(yīng)”，大大縮小了視頻信息的應(yīng)用領(lǐng)域。但正是由于信源編碼理論的限定，使傳統(tǒng)的編碼具有較高的概括性和綜合性，基于矩形幀編碼的傳統(tǒng)編碼標(biāo)準(zhǔn)如H.261、MPEG-1/2在實(shí)際應(yīng)用中也獲得了巨大成功。而MPEG-4采用現(xiàn)代圖像編碼方法，利用人眼的視覺特性，抓住圖像信息傳輸?shù)谋举|(zhì)，從輪廓紋理的思路出發(fā)，支持基于視覺內(nèi)容的交互功能。實(shí)現(xiàn)居于內(nèi)容交互功能的關(guān)鍵在于基于視頻對(duì)象的編碼，為此MPEG-4引入了視頻對(duì)象平面VOP(Video Object

46、Plane)的概念。在這一概念中，根據(jù)人眼感興趣的一些特性如形狀、運(yùn)動(dòng)、紋理等，將圖像序列中每一幀中的場(chǎng)景，看成是有不同視頻對(duì)象平面VOP所組成，而同一對(duì)象連續(xù)的VOP稱為視頻對(duì)象VO(Video Object)，VOP是VO在某個(gè)時(shí)間的存在。VO可以是視頻序列中的人物或具體的景物，例如電視新聞中的播音員；也可以是計(jì)算機(jī)圖形技術(shù)生成的二維或三維圖形。圖3.1表示MPEG-4對(duì)電視圖像序列進(jìn)行編碼的一個(gè)例子。左上角的圖是全景圖，右上角的圖是一個(gè)沒有背景的子圖像，可以把網(wǎng)球運(yùn)動(dòng)員當(dāng)作是一個(gè)視頻對(duì)象。在編碼之前把這個(gè)視頻對(duì)象從全景圖序列中抽出來，然后分別對(duì)它們進(jìn)行編碼、傳送和解碼，最后再合成。圖3.

47、1 MPEG-4電視圖像編碼舉例MPEG-4采用基于內(nèi)容編碼方法的一個(gè)重要優(yōu)點(diǎn)是：使用合適的和專門的對(duì)象基于移動(dòng)預(yù)測(cè)工具可以明顯提高場(chǎng)景中某些視頻對(duì)象的壓縮效率。圖3.2為MPEG-4基于內(nèi)容圖像編碼方法的簡(jiǎn)化原理圖。InputVOP定義VOP0編碼VOP1編碼VOP2編碼復(fù)合Bitstream圖3.2 MPEG-4基于內(nèi)容圖像編碼方法的簡(jiǎn)化原理圖第一步是VO的形成，先要從原始視頻流中分割出VO，之后由編碼控制機(jī)制為不同的VO以及各個(gè)VO的三類信息分配碼率。之后對(duì)各個(gè)VO分別獨(dú)立編碼，最后將各個(gè)VO的碼流復(fù)合成一個(gè)位流。其中，在編碼控制機(jī)制和復(fù)合階段可以加入用戶的交互控制或由智能化的算法進(jìn)行控

48、制。解碼則相反。3.2.2 MPEG-4的數(shù)據(jù)結(jié)構(gòu)MPEG-4可以認(rèn)為有四個(gè)層次的數(shù)據(jù)結(jié)構(gòu)，他們都以類的形式定義。數(shù)據(jù)結(jié)構(gòu)類分級(jí)圖的形象描述見圖3.3。VS(Video Session)：是包含其他三個(gè)類的一個(gè)類，一個(gè)完整的視頻序列可以由幾個(gè)VS組成。VO(Video Object)：是場(chǎng)景中的某個(gè)物體，它由時(shí)間連續(xù)的多個(gè)幀構(gòu)成。VOL(Video Object Layer)：VO的三種屬性信息編碼于這個(gè)類中，這個(gè)類的引入主要用來擴(kuò)展VO的時(shí)域或空域分辨率。VOP：可以看作是VO在某一時(shí)刻的表象，即某一幀VO。圖3.3 MPEG-4中的數(shù)據(jù)結(jié)構(gòu)類分級(jí)圖總之，每個(gè)VS（即一段完整的視頻）由一個(gè)或

49、多個(gè)VO構(gòu)成，而每個(gè)VO可能由一個(gè)或多個(gè)VOL層次，如基本層、增強(qiáng)層。每個(gè)層就是VO的某一分辨率的表示。在每個(gè)層中，都有時(shí)間上連續(xù)的一系列VOP。3.3 VOP編碼實(shí)現(xiàn)視頻編碼器包括形狀編碼（對(duì)于任意形狀）、運(yùn)動(dòng)信息編碼和紋理編碼?；揪幋a方法為：首先對(duì)輸入的原圖像序列進(jìn)行場(chǎng)景分析和對(duì)象分割，以劃分不同的VOP，得到各個(gè)VOP的形狀和位置信息，它可以用平面來表示。對(duì)平面進(jìn)行壓縮編碼和傳送，在接收端就可以恢復(fù)平面。提取的形狀和位置信息又用來控制VOP的運(yùn)動(dòng)和紋理編碼。對(duì)運(yùn)動(dòng)和紋理信息編碼仍然采用經(jīng)典的運(yùn)動(dòng)預(yù)測(cè)補(bǔ)償法。輸入第N幀的VOP與幀存儲(chǔ)器中存儲(chǔ)的第N-1幀的VOP進(jìn)行比較，找到運(yùn)動(dòng)矢量，然

50、后對(duì)兩幀VOP的差值進(jìn)行量化、編碼。編碼后得到的紋理信息，與運(yùn)動(dòng)編碼器和形狀編碼器輸出的運(yùn)動(dòng)信息和形狀信息復(fù)合形成改VOP的比特流層。不同視頻對(duì)象的VOP序列分別進(jìn)行編碼，形成各自的比特流層，經(jīng)過復(fù)合后在信道上傳送。傳送的順序依次為形狀信息、運(yùn)動(dòng)信息和紋理信息。圖3.4是MPEG-4 Video編碼的基本框圖，可對(duì)任意形狀的輸入圖像序列進(jìn)行編碼。圖3.4 MPEG-4視頻編碼器的算法框圖在某一時(shí)刻，VO以VOP的形式出現(xiàn)，編碼也主要針對(duì)這個(gè)時(shí)刻該VO的形狀、運(yùn)動(dòng)、紋理這三類信息來進(jìn)行。3.3.1 形狀編碼圖3.5 MPEG-4中的VOP形狀編碼VOP形狀編碼見圖3.5。VO的形狀信息有兩類：二

51、值形狀信息和灰度形狀信息。二值形狀信息用0、1表示VOP的形狀，0表示非VOP區(qū)域，1表示VOP區(qū)域。二值形狀信息的編碼采用基于運(yùn)動(dòng)補(bǔ)償塊的技術(shù)，可以是無損或有損編碼?；叶刃螤钚畔⒂?255之間的數(shù)值來表示VOP的透明度，其中0表示完全透明（相當(dāng)于二值形狀信息中的0），255表示完全不透明（相當(dāng)于二值形狀信息中的1）。灰度形狀信息是二值形狀信息的擴(kuò)展，它可以用來表示透視的物體，并降低混迭的現(xiàn)象?；叶刃螤钚畔⒕幋a采用基于塊的運(yùn)動(dòng)補(bǔ)償DCT方法（同紋理編碼相似），屬于有損編碼。目前標(biāo)準(zhǔn)中采用矩陣的形式來表示二值或灰度形狀信息，稱之為位圖（或平面）。對(duì)于模糊邊緣部分，可將其視為灰度信息從周圍已知VO

52、P區(qū)域的灰度值向0值的過渡區(qū)域，采用內(nèi)插法確定其形狀信息。MPEG-4中采用位圖法來表示這兩類形狀信息。VOP被限定在一個(gè)矩形窗口內(nèi)，稱之為VOP窗口，窗口的長(zhǎng)、寬均為16的整數(shù)倍，同時(shí)保證VOP窗口中非VOP的宏塊數(shù)目最少。位圖法實(shí)際上是一個(gè)邊框矩陣，取值為0255（后0、1），編碼變?yōu)閷?duì)這個(gè)矩陣的編碼。矩陣被分成16×16的“形狀塊”，允許進(jìn)行有損編碼，這通過對(duì)邊界信息進(jìn)行子采樣實(shí)現(xiàn)，同時(shí)允許使用宏塊的運(yùn)動(dòng)向量來做形狀塊的運(yùn)動(dòng)補(bǔ)償。實(shí)驗(yàn)表明，位圖表示法具有較高的編碼效率和較低的運(yùn)算復(fù)雜度。形狀編碼在輸入VOP是一個(gè)矩形幀時(shí)倍屏蔽掉，以便與現(xiàn)有編碼系統(tǒng)相兼容，如圖3.6所示。其中的

53、上圖表示在MPEG-4中，矩形幀被認(rèn)為是VOP的一個(gè)特例，這時(shí)編碼系統(tǒng)不用處理形狀信息，退化為類似于MPEG-1/2的傳統(tǒng)編碼系統(tǒng)，實(shí)現(xiàn)了與現(xiàn)有標(biāo)準(zhǔn)的兼容。其中的下圖表示MPEG-4的甚低速率圖像的核心編碼器。Video ObjectPlaneMotion(MV)Texture(DCT)Generic MPEG-4 CoderbitstreamMPEG-4 VLBV Core CoderVideo ObjectPlaneShapeMotion(MV)Texture(DCT)Bitstream圖3.6 普通MPEG-4編碼器和MPEG-4 VLBV核心編碼器3.3.2 運(yùn)動(dòng)信息編碼類似于現(xiàn)有的視

54、頻編碼標(biāo)準(zhǔn)，MPEG-4采用運(yùn)動(dòng)預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償技術(shù)來去除圖像信息中的時(shí)間冗余成分，而這些運(yùn)動(dòng)信息的編碼技術(shù)可視為現(xiàn)有標(biāo)準(zhǔn)向任意形狀的VOP的延伸。VOP的編碼有三種模式，即幀內(nèi)(Intra-frame)編碼模式(I-VOP)，幀間(Inter-frame)預(yù)測(cè)編碼模式(P-VOP)，幀間雙向(Bidirectionally)預(yù)測(cè)編碼模式(B-VOP)。VOP如形狀編碼一樣，外加了邊框，邊框分成16×16的宏塊，宏塊內(nèi)是8×8的塊。在MPEG-4中運(yùn)動(dòng)預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償可以是基于16×16像素宏塊的，也可以是基于8×8像素宏塊的。為了適應(yīng)任意形狀的VOP，MP

55、EG-4引入了圖像填充技術(shù)和多邊形匹配技術(shù)。圖像填充技術(shù)利用VOP內(nèi)部的像素值來外推VOP外的像素值，以此獲得運(yùn)動(dòng)預(yù)測(cè)的參考值。多邊形匹配技術(shù)則將VOP的輪廓宏塊的活躍部分包含在多邊形之內(nèi)，以此來增加運(yùn)動(dòng)估值的有效性。3.3.3 紋理編碼紋理信息有兩種?？赡苁莾?nèi)部編碼的I-VOP的像素值，也可能是幀間編碼的P-VOP、B-VOP的運(yùn)動(dòng)估計(jì)殘差值。為了達(dá)到簡(jiǎn)單、高性能、容錯(cuò)性好的目的，仍采用基于分塊的紋理編碼。VOP邊框仍被分成16×16的宏塊。圖3.7 MPEG-4中任意形狀VOP的基于宏塊的紋理編碼在已得到實(shí)際應(yīng)用的MPEG-4中，VOP的紋理編碼基本上仍采用基于8×8像

56、素塊的DCT方法，有3種情況，如圖3.7所示。一是VOP外、邊框內(nèi)的塊，不編碼；二是VOP內(nèi)的塊，采用經(jīng)典的DCT方法；三是部分在VOP內(nèi)，部分在VOP外的塊則首先采用圖像填充技術(shù)來獲取VOP之外的像素值，之后再進(jìn)行DCT編碼。這是為了增加塊內(nèi)數(shù)據(jù)的空域相關(guān)性，從而有利于DCT變換和量化去塊內(nèi)的空域冗余。DCT系數(shù)要經(jīng)量化、Z掃描、行程及哈夫曼熵編碼。量化有兩種類型：類似于H.263那樣用一個(gè)量化參數(shù)針對(duì)塊內(nèi)所有AC系數(shù)，這個(gè)值可以根據(jù)要求質(zhì)量和目標(biāo)碼率變化；或類似于MPEG-2那樣使用量化矩陣。紋理編碼主要采用傳統(tǒng)算法，MPEG-4中只是有一些改進(jìn)。在intra方式下主要為DCT變換，由于在

57、VOP邊緣處宏塊內(nèi)有些點(diǎn)不是VOP內(nèi)的點(diǎn)，為了減少編碼系數(shù)，對(duì)于非VOP內(nèi)的點(diǎn)不必變換編碼，MPEG-4中提出形狀自適應(yīng)DCT(SA-DCT)變換，主要步驟為：首先進(jìn)行一維的列變換(不等長(zhǎng))，然后進(jìn)行一維的行變換。對(duì)于intra方式編碼的DC和AC系數(shù)進(jìn)行預(yù)測(cè)。DC系數(shù)用鄰近塊DC系數(shù)預(yù)測(cè)，AC系數(shù)用同塊內(nèi)臨近的其它AC系數(shù)來預(yù)測(cè)。紋理編碼最重要，它將在最大程度上決定圖像質(zhì)量和壓縮比。對(duì)于甚低碼率(<6.4kbits/s)下的應(yīng)用，由于方塊效應(yīng)較明顯，所以需用除方塊濾波器進(jìn)行相應(yīng)處理，3.4 VOP分割基于紋理的分割基于紋理的分割主要是應(yīng)用模式識(shí)別的技術(shù)來聚類，但要注意分割結(jié)果適度。分割的太粗，不能有效的壓縮；而分割的太細(xì)，就有可能是物體的各個(gè)部分，這樣對(duì)于壓縮和基于內(nèi)容的操作都不利?；谶\(yùn)動(dòng)的分割將具有同一運(yùn)動(dòng)參數(shù)模型的區(qū)域聚類，從而達(dá)到分割的目的。這種方法可以分割出運(yùn)動(dòng)的物體，但會(huì)使得基于運(yùn)動(dòng)一致性的分割實(shí)現(xiàn)起來非常困難，效果也不太理想。紋理和運(yùn)動(dòng)結(jié)合的分割在運(yùn)動(dòng)一致性表現(xiàn)的非常明顯的區(qū)域用運(yùn)動(dòng)分割，在一些細(xì)節(jié)或運(yùn)動(dòng)復(fù)雜區(qū)域仍采用紋理分割。或者采用由粗到細(xì)的分層次分割策略

人人文庫(kù)> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

格式參考論文(按照該論文的格式修改)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

格式參考論文(按照該論文的格式修改)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔