第4章信源編碼原理new_第1頁(yè)
第4章信源編碼原理new_第2頁(yè)
第4章信源編碼原理new_第3頁(yè)
第4章信源編碼原理new_第4頁(yè)
第4章信源編碼原理new_第5頁(yè)
已閱讀5頁(yè),還剩137頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)字電視原理第4章信源編碼原理數(shù)字音頻編碼的基本原理4.1數(shù)字視頻編碼概述4.2預(yù)測(cè)編碼4.4變換編碼4.5熵編碼4.3第4章信源編碼原理4.1數(shù)字音頻編碼的基本原理4.1.1數(shù)字音頻壓縮的必要性和可能性4.1.2人耳的聽(tīng)覺(jué)感知特性4.1.3音頻感知編碼原理4.1.1數(shù)字音頻壓縮的必要性和可能性

必要性----音頻信號(hào)數(shù)字化后,可以避免模擬信號(hào)容易受噪聲和干擾的影響,可以擴(kuò)大音頻的動(dòng)態(tài)范圍,可以利用計(jì)算機(jī)進(jìn)行數(shù)據(jù)處理,可以不失真地遠(yuǎn)距離傳輸,可以與圖像、視頻等其他媒體信息進(jìn)行多路復(fù)用,以實(shí)現(xiàn)多媒體化與網(wǎng)絡(luò)化,所以,音頻信號(hào)的數(shù)字化是一種必不可少的技術(shù)手段。4.1.1數(shù)字音頻壓縮的必要性和可能性

----可能性----時(shí)間域冗余樣值幅度分布的非均勻性樣值間的相關(guān)性信號(hào)周期之間的相關(guān)性長(zhǎng)時(shí)自相關(guān)靜音4.1.1數(shù)字音頻壓縮的必要性和可能性頻率域冗余長(zhǎng)時(shí)功率譜密度的非均勻性

----功率譜的高頻成分能量較低。話音特有的短時(shí)功率譜密度能量最大的前三個(gè)共振峰頻率----決定了不同的語(yǔ)音特征;頻率越高,功率譜下降;整個(gè)功率譜是由基因頻率+高次諧波組成。4.1.1數(shù)字音頻壓縮的必要性和可能性聽(tīng)覺(jué)冗余因?yàn)槿硕鷮?duì)信號(hào)幅度、頻率的分辨能力是有限的,所以凡是人耳感覺(jué)不到的成分,即對(duì)人耳辨別聲音的強(qiáng)度、音調(diào)、方位沒(méi)有貢獻(xiàn)的成分,稱為與聽(tīng)覺(jué)無(wú)關(guān)的“不相關(guān)”部分,都可視為是冗余的,可以將它們壓縮掉。4.1.1數(shù)字音頻壓縮的必要性和可能性

數(shù)字音頻壓縮編碼的目的,是在保證重構(gòu)聲音質(zhì)量一定的前提下,以盡量少的比特?cái)?shù)來(lái)表征音頻信息,或者是在給定的數(shù)碼率下,使得解碼恢復(fù)出的重構(gòu)聲音的質(zhì)量盡可能的高。4.1數(shù)字音頻編碼的基本原理4.1.1數(shù)字音頻壓縮的必要性和可能性4.1.2人耳的聽(tīng)覺(jué)感知特性4.1.3音頻感知編碼原理4.1.2人耳的聽(tīng)覺(jué)感知特性可聽(tīng)域----

人耳對(duì)不同強(qiáng)度、不同頻率聲音的聽(tīng)覺(jué)范圍。在人耳的可聽(tīng)域范圍內(nèi),聲音聽(tīng)覺(jué)心理的主觀感受主要有響度、音調(diào)、音色等特征和掩蔽效應(yīng)、高頻定位等特性。聲音的“三要素”----響度、音調(diào)、音色分別與聲音的振幅、頻率、頻譜分布特性(包絡(luò)形狀)相對(duì)應(yīng),稱為聲音的“三要素”。人耳的掩蔽效應(yīng):一個(gè)較弱的聲音(被掩蔽音)的聽(tīng)覺(jué)感受被另一個(gè)較強(qiáng)的聲音(掩蔽音)影響的現(xiàn)象稱為人耳的“掩蔽效應(yīng)”。

掩蔽效應(yīng)----是心理聲學(xué)的基礎(chǔ),是感知音頻編碼的理論依據(jù)。4.1.2人耳的聽(tīng)覺(jué)感知特性4.1.2人耳的聽(tīng)覺(jué)感知特性響度聲壓

由聲波引起的交變壓強(qiáng)稱為聲壓,一般用P表示,單位是帕(Pa)。聲壓的大小反映了聲音振動(dòng)的強(qiáng)弱,同時(shí)也決定了聲波的幅度大小。在一定時(shí)間內(nèi),瞬時(shí)聲壓對(duì)時(shí)間取均方根值后稱為有效聲壓。4.1.2人耳的聽(tīng)覺(jué)感知特性聲壓級(jí)

用聲壓的相對(duì)大?。ǚQ聲壓級(jí)或聲強(qiáng))來(lái)表示聲壓的強(qiáng)弱。聲壓級(jí)用符號(hào)SPL表示,單位是分貝(dB):

式中,P為聲壓有效值;Pref為參考聲壓,一般取Pa,這個(gè)數(shù)值是人耳所能聽(tīng)到的1kHz聲音的最低聲壓,低于這一聲壓,人耳就無(wú)法覺(jué)察出聲波的存在了。4.1.2人耳的聽(tīng)覺(jué)感知特性響度

人耳對(duì)聲音強(qiáng)弱的主觀感覺(jué)稱為響度。響度與聲波的振幅并不完全一致。響度不僅取決于振幅的大小,還取決于頻率的高低。響度用符號(hào)N表示,單位是宋(sone)。國(guó)際上規(guī)定,頻率為1kHz的純音在聲壓級(jí)為40dB時(shí)的響度為1宋(sone)。4.1.2人耳的聽(tīng)覺(jué)感知特性響度級(jí)人耳對(duì)聲音強(qiáng)弱的主觀感覺(jué)還可以用響度級(jí)來(lái)表示。響度級(jí)的單位為方(phon)。規(guī)定1kHz純音聲壓級(jí)的分貝數(shù)定義為響度級(jí)的數(shù)值。響度/sone1248163264128256聲壓級(jí)/dB405060708090100110120響度級(jí)/phon4050607080901001101204.1.2人耳的聽(tīng)覺(jué)感知特性等響度曲線

4.1.2人耳的聽(tīng)覺(jué)感知特性聽(tīng)閾與痛閾

當(dāng)聲音減弱到人耳剛剛可以聽(tīng)見(jiàn)時(shí),此時(shí)的聲音強(qiáng)度稱為最小可聽(tīng)閾值,簡(jiǎn)稱為“聽(tīng)閾”。一般以1kHz純音為準(zhǔn)進(jìn)行測(cè)量,人耳剛能聽(tīng)到的聲壓級(jí)為0dB(通常大于0.3dB即有感受)。

當(dāng)聲音增強(qiáng)到使人耳感到疼痛時(shí),這個(gè)聽(tīng)覺(jué)閾值稱為“痛閾”。仍以1kHz純音為準(zhǔn)來(lái)進(jìn)行測(cè)量,使人耳感到疼痛時(shí)的聲壓級(jí)約達(dá)到140dB左右。4.1.2人耳的聽(tīng)覺(jué)感知特性音調(diào)

音調(diào)也稱音高,表示人耳對(duì)聲音調(diào)子高低的主觀感受。音調(diào)單位是“美(Mel)”。頻率為1kHz、聲壓級(jí)為40dB的純音所產(chǎn)生的音調(diào)就定義為1Mel。音調(diào)大體上與頻率的對(duì)數(shù)成正比。4.1.2人耳的聽(tīng)覺(jué)感知特性音色

按聲音的頻率成分組成,可分為:純音:振幅和周期均為常數(shù)的聲音復(fù)音:不同頻率和不同振幅的聲波組合基音:復(fù)音中的最低頻率稱為復(fù)音的基音,是決定聲音音調(diào)的基本因素,它通常是常數(shù)泛音:復(fù)音中的其他頻率稱為泛音(諧音)音色是人耳對(duì)各種頻率、各種強(qiáng)度的聲波的綜合反應(yīng)。主要由聲音的頻譜結(jié)構(gòu)決定的。4.1.2人耳的聽(tīng)覺(jué)感知特性人耳的聽(tīng)覺(jué)掩蔽效應(yīng)

一個(gè)較弱的聲音(被掩蔽音)的聽(tīng)覺(jué)感受被另一個(gè)較強(qiáng)的聲音(掩蔽音)影響的現(xiàn)象稱為人耳的聽(tīng)覺(jué)“掩蔽效應(yīng)”。

被掩蔽音單獨(dú)存在時(shí)的聽(tīng)閾分貝值,或者說(shuō)在安靜環(huán)境中能被人耳聽(tīng)到的純音的最小值稱為絕對(duì)聽(tīng)閾。

4.1.2人耳的聽(tīng)覺(jué)感知特性人耳的聽(tīng)覺(jué)掩蔽效應(yīng)

在掩蔽情況下,提高被掩蔽弱音的強(qiáng)度,使人耳能夠聽(tīng)見(jiàn)時(shí)的聽(tīng)閾稱為掩蔽聽(tīng)閾(或稱掩蔽門限),被掩蔽弱音必須提高的分貝值稱為掩蔽量(或稱閾移)。

4.1.2人耳的聽(tīng)覺(jué)感知特性掩蔽效應(yīng)純音間的掩蔽對(duì)處于中等強(qiáng)度時(shí)的純音最有效的掩蔽是出現(xiàn)在它的頻率附近。低頻的純音可以有效地掩蔽高頻的純音,而反過(guò)來(lái)則作用很小。4.1.2人耳的聽(tīng)覺(jué)感知特性掩蔽效應(yīng)噪音對(duì)純音的掩蔽掩蔽音為寬帶噪音,被掩蔽音為純音,則它產(chǎn)生的掩蔽門限在低頻段一般高于噪音功率譜密度17dB,且較平坦;當(dāng)頻率超過(guò)500Hz時(shí),大約每十倍頻程增大10dB。若掩蔽音為窄帶噪音,被掩蔽音為純音,其中位于被掩蔽音附近的由純音分量組成的窄帶噪音即臨界頻帶的掩蔽作用最明顯。4.1.2人耳的聽(tīng)覺(jué)感知特性掩蔽類型頻率域掩蔽所謂頻率域掩蔽是指掩蔽音與被掩蔽音同時(shí)作用時(shí)發(fā)生掩蔽效應(yīng),又稱同時(shí)掩蔽。這時(shí),掩蔽音在掩蔽效應(yīng)發(fā)生期間一直起作用,是一種較強(qiáng)的掩蔽效應(yīng)。

4.1.2人耳的聽(tīng)覺(jué)感知特性掩蔽類型頻率域掩蔽4.1.2人耳的聽(tīng)覺(jué)感知特性掩蔽類型時(shí)間域掩蔽在一個(gè)強(qiáng)音信號(hào)之前或之后的弱音信號(hào),也會(huì)被掩蔽掉,這種掩蔽效應(yīng)稱為時(shí)間域掩蔽,也稱異時(shí)掩蔽。

時(shí)間域掩蔽又分為前掩蔽和后掩蔽。

4.1數(shù)字音頻編碼的基本原理4.1.1數(shù)字音頻壓縮的必要性和可能性4.1.2人耳的聽(tīng)覺(jué)感知特性4.1.3音頻感知編碼原理4.1.3音頻感知編碼原理感知編碼是利用人耳聽(tīng)覺(jué)的心理聲學(xué)特性(頻譜掩蔽特性和時(shí)間掩蔽特性)、人耳對(duì)信號(hào)幅度、頻率、時(shí)間的有限分辨能力,凡是人耳感覺(jué)不到的成分不編碼,不傳送,即凡是對(duì)人耳辨別聲音信號(hào)的強(qiáng)度、音調(diào)、方位有貢獻(xiàn)的部分(稱為不相關(guān)部分或無(wú)關(guān)部分)都不編碼和傳送。對(duì)感覺(jué)到的部分進(jìn)行編碼時(shí),允許有較大的量化失真、并使其處于聽(tīng)閾以下,人耳仍然感覺(jué)不到。4.1.3音頻感知編碼原理感知編碼是利用人耳聽(tīng)覺(jué)的心理聲學(xué)特性,將凡是人耳感覺(jué)不到的成分不編碼不傳送的一種編碼技術(shù).簡(jiǎn)單的說(shuō)感知編碼是以人類聽(tīng)覺(jué)系統(tǒng)的心理聲學(xué)原理為基礎(chǔ),只記錄那些能被人的聽(tīng)覺(jué)所感知的聲音信號(hào),從而達(dá)到減少數(shù)據(jù)量而又不降低音質(zhì)的目的。4.1.3音頻感知編碼原理如何精確地計(jì)算出掩蔽閾值(即獲得“心理聲學(xué)模型”)如何從音頻信號(hào)中僅僅提取可聞信息而加以處理,將人耳不能感知的聲音成分去掉,只保留人耳能感知的聲音成分,在量化時(shí)也不一味追求最小的量化噪聲,只要量化噪聲不被人耳感知即可。4.1.3音頻感知編碼原理如何精確地計(jì)算出掩蔽閾值(即獲得“心理聲學(xué)模型”)如何從音頻信號(hào)中僅僅提取可聞信息而加以處理,將人耳不能感知的聲音成分去掉,只保留人耳能感知的聲音成分,在量化時(shí)也不一味追求最小的量化噪聲,只要量化噪聲不被人耳感知即可。4.1.3音頻感知編碼原理感知編碼是利用人耳聽(tīng)覺(jué)的心理聲學(xué)特性(頻譜掩蔽特性和時(shí)間掩蔽特性)、人耳對(duì)信號(hào)幅度、頻率、時(shí)間的有限分辨能力,凡是人耳感覺(jué)不到的成分不編碼,不傳送,即凡是對(duì)人耳辨別聲音信號(hào)的強(qiáng)度、音調(diào)、方位有貢獻(xiàn)的部分(稱為不相關(guān)部分或無(wú)關(guān)部分)都不編碼和傳送。對(duì)感覺(jué)到的部分進(jìn)行編碼時(shí),允許有較大的量化失真、并使其處于聽(tīng)閾以下,人耳仍然感覺(jué)不到。簡(jiǎn)單的說(shuō)感知編碼是建立在人類聽(tīng)覺(jué)系統(tǒng)的心理聲學(xué)原理為基礎(chǔ),只記錄那些能被人的聽(tīng)覺(jué)所感知的聲音信號(hào),從而達(dá)到減少數(shù)據(jù)量而又不降低音質(zhì)的目的。

在變換編碼中,利用正交變換,把時(shí)間域音頻信號(hào)變換到另一個(gè)域(如頻率域),由于去相關(guān)的結(jié)果,變換域系數(shù)的能量將集中在一個(gè)較小的范圍,所以對(duì)變換系數(shù)進(jìn)行量化編碼,就可以達(dá)到壓縮數(shù)碼率的目的。而在接收端,用逆變換便可獲得重構(gòu)的音頻信號(hào)。使變換域系數(shù)能夠進(jìn)行自適應(yīng)比特分配的變換編碼,稱為自適應(yīng)變換編碼(ATC)。4.1.3音頻感知編碼原理在音頻編碼中,正交變換主要使用離散余弦變換(DCT)和改進(jìn)的離散余弦變換(MDCT)

在DCT之前應(yīng)先進(jìn)行分組----加窗處理經(jīng)DCT之后,頻率域能量主要集中在低中頻的變換系數(shù)上。4.1.3音頻感知編碼原理?1:變換長(zhǎng)度(即窗長(zhǎng)度)的選擇

一方面,變換長(zhǎng)度越長(zhǎng),編碼壓縮比越高。但對(duì)于單一字組中幅度急劇變化的信號(hào)(如鼓聲),在上升部分若采用長(zhǎng)的分組,會(huì)使得時(shí)間域分辨率下降,導(dǎo)致嚴(yán)重的所謂“前反射”。消除“前反射”的辦法是用短的分組,提高時(shí)間域的分辨率,使之限制在一個(gè)較短的時(shí)間內(nèi)。自適應(yīng)譜感知熵編碼(AdaptiveSpectralPerceptualEntropyCoding,ASPEC)采用動(dòng)態(tài)長(zhǎng)度的重疊窗函數(shù)。4.1.3音頻感知編碼原理?2:字組失真

字組編碼的原則是,無(wú)論字組邊界相鄰的采樣在時(shí)間軸上是否連續(xù),都應(yīng)按屬于不同字組而進(jìn)行不同精度的量化,因此人們會(huì)容易感覺(jué)到字組邊界附近量化噪聲的不連續(xù)性,這就是加窗變換造成的邊界效應(yīng)。為了消除這種邊界效應(yīng),往往采用具有部分重疊的變換窗,而這樣又會(huì)帶來(lái)時(shí)間域混疊,降低了編碼性能。4.1.3音頻感知編碼原理子帶編碼

子帶編碼(Sub-BandCoding,SBC)不對(duì)信號(hào)直接進(jìn)行變換,而是首先用一組帶通濾波器將輸入信號(hào)分成若干個(gè)在不同頻段上的子帶信號(hào),然后將這些子帶信號(hào)經(jīng)過(guò)頻率搬移轉(zhuǎn)變成基帶信號(hào),再對(duì)它們?cè)谀慰固厮俾噬戏謩e重新采樣。采樣后的信號(hào)經(jīng)過(guò)量化編碼,并合并成一個(gè)總的碼流傳送給接收端。在接收端,首先把碼流分成與原來(lái)的各子帶信號(hào)相對(duì)應(yīng)的子帶碼流,然后解碼、將頻譜搬移至原來(lái)的位置,最后經(jīng)帶通濾波、相加,得到重建的信號(hào)。4.1.3音頻感知編碼原理子帶編碼的優(yōu)點(diǎn):可根據(jù)每個(gè)子帶信號(hào)在感知上的重要性,即利用人對(duì)聲音信號(hào)的感知模型(心理聲學(xué)模型),對(duì)每個(gè)子帶內(nèi)的采樣值分配不同的比特?cái)?shù)。由于分割為子帶后,減少了各子帶內(nèi)信號(hào)能量分布不均勻的程度,減少了動(dòng)態(tài)范圍,從而可以按照每個(gè)子帶內(nèi)信號(hào)能量來(lái)分配量化比特?cái)?shù),對(duì)每個(gè)子帶信號(hào)分別進(jìn)行自適應(yīng)控制。通過(guò)頻帶分割,各個(gè)子帶的采樣頻率可以成倍下降。4.1.3音頻感知編碼原理

1976年子帶編碼技術(shù)首次被美國(guó)貝爾實(shí)驗(yàn)室的R.E.Crochiere等人應(yīng)用于話音編碼。

掩蔽型自適應(yīng)通用子帶綜合編碼和復(fù)用(MaskingpatternadaptedUniversalSubbandIntegratedCodingAndMultiplexing,MUSICAM)編碼方案,已被MPEG采納作為寬帶、高質(zhì)量的音頻壓縮編碼標(biāo)準(zhǔn)。第4章信源編碼原理4.1數(shù)字音頻編碼的基本原理4.2數(shù)字視頻編碼概述4.3熵編碼4.4預(yù)測(cè)編碼4.5變換編碼4.2數(shù)字視頻編碼概述4.2.1數(shù)字視頻壓縮的必要性和可能性4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展4.2.3數(shù)據(jù)壓縮分類4.2.1數(shù)字視頻壓縮的必要性和可能性數(shù)據(jù)壓縮的理論基礎(chǔ)是信息論。從信息論的角度來(lái)看,壓縮就是去掉數(shù)據(jù)中的冗余,即保留不確定的信息,去掉確定的信息(可推知的),也就是用一種更接近信息本質(zhì)的描述來(lái)代替原有冗余的描述。圖像/視頻壓縮編碼

利用空間冗余度進(jìn)行壓縮編碼利用時(shí)間冗余度進(jìn)行壓縮編碼利用視覺(jué)冗余度進(jìn)行壓縮編碼利用統(tǒng)計(jì)冗余度進(jìn)行壓縮編碼4.2.1數(shù)字視頻壓縮的必要性和可能性空間冗余空間冗余也稱為空域冗余,是一種與像素間相關(guān)性直接聯(lián)系的數(shù)據(jù)冗余。如果先去除冗余數(shù)據(jù)再進(jìn)行編碼,則使表示每個(gè)像素的平均比特?cái)?shù)下降,這就是通常所說(shuō)的圖像的幀內(nèi)編碼,即以減少空間冗余進(jìn)行數(shù)據(jù)壓縮。

4.2.1數(shù)字視頻壓縮的必要性和可能性時(shí)間冗余時(shí)間冗余也稱為時(shí)域冗余,它是針對(duì)視頻序列圖像而言的。視頻序列每秒有25~30幀圖像,相鄰幀之間的時(shí)間間隔很??;同時(shí)實(shí)際生活中的運(yùn)動(dòng)物體具有運(yùn)動(dòng)一致性,使得視頻序列圖像之間有很強(qiáng)的相關(guān)性。4.2.1數(shù)字視頻壓縮的必要性和可能性時(shí)間冗余

對(duì)于視頻壓縮而言,通常采用運(yùn)動(dòng)估值和運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)技術(shù)來(lái)消除時(shí)間冗余,也稱為幀間編碼。

4.2.1數(shù)字視頻壓縮的必要性和可能性統(tǒng)計(jì)冗余統(tǒng)計(jì)冗余也稱編碼表示冗余或符號(hào)冗余。

采用可變長(zhǎng)編碼技術(shù),對(duì)出現(xiàn)概率大的符號(hào)用短碼字表示,對(duì)出現(xiàn)概率小的符號(hào)用長(zhǎng)碼字表示,則可去除符號(hào)冗余,從而節(jié)約碼字,這就是熵編碼的思想。4.2.1數(shù)字視頻壓縮的必要性和可能性結(jié)構(gòu)冗余在有些圖像的部分區(qū)域內(nèi)有著很相似的紋理結(jié)構(gòu),或是圖像的各個(gè)部分之間存在著某種關(guān)系,例如自相似性等,這些都是結(jié)構(gòu)冗余的表現(xiàn)。

分形圖像編碼的基本思想就是利用了結(jié)構(gòu)冗余。4.2.1數(shù)字視頻壓縮的必要性和可能性知識(shí)冗余

在某些特定的應(yīng)用場(chǎng)合,編碼對(duì)象中包含的信息與某些先驗(yàn)的基本知識(shí)有關(guān)??梢岳眠@些先驗(yàn)知識(shí)為編碼對(duì)象建立模型。通過(guò)提取模型參數(shù),對(duì)參數(shù)進(jìn)行編碼而不是對(duì)圖像像素值直接進(jìn)行編碼,可以達(dá)到非常高的壓縮比。這是模型基編碼(或稱知識(shí)基編碼、語(yǔ)義基編碼)的基本思想。4.2.1數(shù)字視頻壓縮的必要性和可能性人眼的視覺(jué)冗余視覺(jué)冗余度是相對(duì)于人眼的視覺(jué)特性而言的。壓縮視覺(jué)冗余的核心思想是去掉那些相對(duì)人眼而言是看不到的或可有可無(wú)的圖像數(shù)據(jù)。對(duì)視覺(jué)冗余的壓縮通常反映在各種具體的壓縮編碼過(guò)程中。4.2.1數(shù)字視頻壓縮的必要性和可能性人眼的視覺(jué)冗余

人眼的敏感性:亮度>色度低頻(大面積)>高頻(邊沿細(xì)節(jié))靜止圖像>運(yùn)動(dòng)圖像4.2.1數(shù)字視頻壓縮的必要性和可能性圖像與視頻壓縮編碼

方法:

盡可能去除各種冗余信息,以減少用于表示圖像與視頻信息所需的數(shù)據(jù)量。

目的:在保證重建圖像質(zhì)量的前提下,以盡量少的比特?cái)?shù)目來(lái)表征圖像與視頻信息。4.2數(shù)字視頻編碼概述4.2.1數(shù)字視頻壓縮的必要性和可能性4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展4.2.3數(shù)據(jù)壓縮分類4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展1948年電視信號(hào)數(shù)字化的提出,人們開(kāi)始了對(duì)圖像壓縮編碼的研究工作1952年哈夫曼給出最優(yōu)變長(zhǎng)碼的構(gòu)造方法4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展預(yù)測(cè)編碼1952貝爾實(shí)驗(yàn)室的奧利弗等人開(kāi)始研究線性預(yù)測(cè)編碼理論1958年格雷哈姆用計(jì)算機(jī)模擬法研究圖像的DPCM方法1966年奧尼爾通過(guò)理論分析和計(jì)算模擬比較了PCM和DPCM對(duì)電視信號(hào)進(jìn)行編碼傳輸?shù)男阅?0世紀(jì)70年代開(kāi)始進(jìn)行了幀間預(yù)測(cè)編碼的研究20世紀(jì)80年代初開(kāi)始對(duì)作運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)所用的運(yùn)動(dòng)估值進(jìn)行研究4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展變換編碼首先討論了包括K-L(Karhunen-Loeve)變換、傅立葉變換等正交變換1968年安德魯斯等人采用二維離散傅立葉變換(2D-DFT)提出了變換編碼此后相繼出現(xiàn)了沃爾什-哈達(dá)瑪(Walsh-Hadamard)變換、斜(Slant)變換、K-L變換、離散余弦變換(DCT)等4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展子帶編碼1976年美國(guó)貝爾系統(tǒng)的克勞切等人提出了話音的子帶編碼1985年奧尼爾將子帶編碼引入到圖像編碼4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展算術(shù)編碼1960年,P.Elias提出了算術(shù)編碼的概念1976年,R.Pasco和J.Rissanen分別用定長(zhǎng)的寄存器實(shí)現(xiàn)了有限精度的算術(shù)編碼1979年Rissanen和G.G.Langdon一起將算術(shù)編碼系統(tǒng)化,并于1981年實(shí)現(xiàn)了二進(jìn)制編碼1987年Witten等人發(fā)表了一個(gè)實(shí)用的算術(shù)編碼程序,即CACM87(后被ITU-T的H.263視頻壓縮標(biāo)準(zhǔn)采用)同期,IBM公司發(fā)表了著名的Q-編碼器(后被JPEG建議的擴(kuò)展系統(tǒng)和JBIG二值圖像壓縮標(biāo)準(zhǔn)采用)4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展基于模型編碼1983年瑞典的Forchheimer

和Fahlander提出了基于模型編碼(Model-BasedCoding)的思想4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展小波變換編碼1986年,Meyer在理論上證明了一維小波函數(shù)的存在1987年Mallat提出了多尺度分析的思想及多分辨率分析的概念,提出了相應(yīng)的快速小波算法——Mallat算法,并把它有效地應(yīng)用于圖像分解和重構(gòu)1989年,小波變換開(kāi)始用于多分辨率圖像描述4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展分層可分級(jí)編碼20世紀(jì)90年代中后期,Internet迅猛發(fā)展,移動(dòng)通信也迅速在全球普及,因此人們開(kāi)始有了在網(wǎng)絡(luò)上傳輸視頻和圖像的愿望。在網(wǎng)絡(luò)上傳輸視頻和圖像等多媒體信息除了要解決誤碼問(wèn)題之外,最大的挑戰(zhàn)在于用戶可以獲得的帶寬在不停地變化。為了適應(yīng)網(wǎng)絡(luò)帶寬的變化,提出了分層(layered)、可分級(jí)(scalable)編碼的思想。4.2數(shù)字視頻編碼概述4.2.1數(shù)字視頻壓縮的必要性和可能性4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展4.2.3數(shù)據(jù)壓縮分類4.2.3數(shù)據(jù)壓縮分類哈夫曼(Huffman)編碼算術(shù)編碼游程編碼(RLE)預(yù)測(cè)編碼變換編碼矢量編碼基于模型的編碼無(wú)失真編碼(無(wú)損編碼)(熵編碼)限失真編碼(有損編碼)(壓縮熵編碼)數(shù)據(jù)壓縮編碼主要的視頻圖像壓縮編碼算法

4.2.3數(shù)據(jù)壓縮分類無(wú)失真編碼

無(wú)失真編碼(熵編碼)是純粹基于信號(hào)統(tǒng)計(jì)特性的一種編碼方法,它利用信源概率分布的不均勻性,通過(guò)變長(zhǎng)編碼來(lái)減少信源數(shù)據(jù)冗余,解碼后還原的數(shù)據(jù)與壓縮編碼前的原始數(shù)據(jù)完全相同而不引入任何失真。無(wú)失真編碼的壓縮比較低,可達(dá)到的最高壓縮比受到信源熵的理論限制,一般為2∶1到5∶1。無(wú)失真編碼(無(wú)損編碼)包含:哈夫曼(Huffman)編碼算術(shù)編碼游程編碼(RLE)4.2.3數(shù)據(jù)壓縮分類限失真編碼

限失真編碼(有損編碼、熵壓縮編碼)利用了人類視覺(jué)的感知特性,允許壓縮過(guò)程中損失一部分信息,雖然在解碼時(shí)不能完全恢復(fù)原始數(shù)據(jù),但是如果把失真控制在視覺(jué)閾值以下或控制在可容忍的限度內(nèi),則不影響人們對(duì)圖像的理解,卻換來(lái)了高壓縮比。

在限失真編碼中,允許的失真愈大,則可達(dá)到的壓縮比愈高。

限失真編碼(有損編碼)分類:預(yù)測(cè)編碼變換編碼矢量編碼基于模型的編碼第4章信源編碼原理4.1數(shù)字音頻編碼的基本原理4.2數(shù)字視頻編碼概述4.3熵編碼4.4預(yù)測(cè)編碼4.5變換編碼4.3熵編碼根據(jù)信息論基礎(chǔ)知識(shí)可知,信息冗余是由信源本身的相關(guān)性和信源概率分布的不均勻性引起的。

熵編碼的基本原理就是去除圖像信源在空間和時(shí)間上的相關(guān)性,去除圖像信源像素值的概率分布不均勻性,使編碼碼字的平均碼長(zhǎng)接近信源的熵而不產(chǎn)生失真。由于這種編碼完全基于圖像的統(tǒng)計(jì)特性,因此,有時(shí)也稱其為統(tǒng)計(jì)編碼。4.3.1哈夫曼編碼

哈夫曼于1952年提出一種編碼方法,完全依據(jù)符號(hào)出現(xiàn)概率來(lái)構(gòu)造異字頭(前綴)的平均長(zhǎng)度最短的碼字,有時(shí)稱之為最佳編碼。哈夫曼編碼是一種可變長(zhǎng)度編碼(VariableLengthCoding,VLC),各符號(hào)與碼字一一對(duì)應(yīng),是一種分組碼。4.3.1哈夫曼編碼huffman編碼方法1)初始化,根究符號(hào)概率大小排序;2)概率最小兩個(gè)符號(hào)均分剩余概率;3)重復(fù)步驟2),直到最后1個(gè)符號(hào),所有符號(hào)概率和為1;4)碼樹(shù)結(jié)構(gòu)中,每個(gè)下分支為1,上分支為0;5)編碼:從根節(jié)點(diǎn)直到葉節(jié)點(diǎn)的碼元值順序列組合。4.3.1哈夫曼編碼編碼方法4.3.1哈夫曼編碼哈夫曼編碼的特點(diǎn)哈夫曼編碼的算法是確定的,但編出的碼并非是唯一的。由于哈夫曼編碼的依據(jù)是信源符號(hào)的概率分布,故其編碼效率取決于信源的統(tǒng)計(jì)特性。哈夫曼碼沒(méi)有錯(cuò)誤保護(hù)功能。哈夫曼碼是可變長(zhǎng)度碼,碼字字長(zhǎng)參差不齊,因此硬件實(shí)現(xiàn)起來(lái)不大方便。對(duì)信源進(jìn)行哈夫曼編碼后,形成了一個(gè)哈夫曼編碼表,解碼時(shí),必須參照這一哈夫編碼表才能正確解碼。4.3.2算術(shù)編碼

算術(shù)編碼是一種非分組編碼,它用一個(gè)浮點(diǎn)數(shù)值表示整個(gè)信源符號(hào)序列。算術(shù)編碼將被編碼的信源符號(hào)序列表示成實(shí)數(shù)半開(kāi)區(qū)間[0,1)中的一個(gè)數(shù)值間隔。這個(gè)間隔隨著信源符號(hào)序列中每一個(gè)信源符號(hào)的加入逐步減小,每次減小的程度取決于當(dāng)前加入的信源符號(hào)的先驗(yàn)概率。算術(shù)編碼步驟:(1)編碼器在開(kāi)始時(shí)將“當(dāng)前間隔”[L,H)設(shè)置為[0,1)。(2)對(duì)每一事件,編碼器如下進(jìn)行處理:(a)編碼器將“當(dāng)前間隔”分為子間隔,每一個(gè)事件一個(gè)。(b)一個(gè)子間隔的大小與下一個(gè)將出現(xiàn)的事件的概率成比例,編碼器選擇對(duì)應(yīng)于下一個(gè)確切發(fā)生的事件相對(duì)應(yīng)的子間隔,并使它成為新的“當(dāng)前間隔”。(3)最后輸出的“當(dāng)前間隔”的下邊界就是該給定事件序列的算術(shù)編碼。4.3.2算術(shù)編碼4.3.3游程編碼

游程編碼(RLE),也稱行程編碼或游程(行程)長(zhǎng)度編碼,其基本思想是將具有相同數(shù)值的、連續(xù)出現(xiàn)的信源符號(hào)構(gòu)成的符號(hào)序列用其數(shù)值及串的長(zhǎng)度表示。以圖像編碼為例,灰度值相同的相鄰像素的延續(xù)長(zhǎng)度(像素?cái)?shù)目)稱為延續(xù)的游程,又稱游程長(zhǎng)度,簡(jiǎn)稱游程。游程編碼游程編碼又稱“運(yùn)行長(zhǎng)度編碼”或“行程編碼”,是一種統(tǒng)計(jì)編碼,該編碼屬于無(wú)損壓縮編碼。行程編碼的基本原理是:用一個(gè)符號(hào)值或串長(zhǎng)代替具有相同值的連續(xù)符號(hào)(連續(xù)符號(hào)構(gòu)成了一段連續(xù)的“行程”。行程編碼因此而得名),使符號(hào)長(zhǎng)度少于原始數(shù)據(jù)的長(zhǎng)度。只在各行或者各列數(shù)據(jù)的代碼發(fā)生變化時(shí),一次記錄該代碼及相同代碼重復(fù)的個(gè)數(shù),從而實(shí)現(xiàn)數(shù)據(jù)的壓縮。游程編碼舉例例如:5555557777733322221111111游程編碼為:(5,6)(7,5)(3,3)(2,4)(1,7)??梢?jiàn),游程編碼的位數(shù)遠(yuǎn)遠(yuǎn)少于原始字符串的位數(shù)。并不是所有的游程編碼都遠(yuǎn)遠(yuǎn)少于原始字符串的位數(shù),但行程編碼也成為了一種壓縮工具。游程編碼是連續(xù)精確的編碼,在傳輸過(guò)程中,如果其中一位符號(hào)發(fā)生錯(cuò)誤,即可影響整個(gè)編碼序列,使行程編碼無(wú)法還原回原始數(shù)據(jù)。第4章信源編碼原理4.1數(shù)字音頻編碼的基本原理4.2數(shù)字視頻編碼概述4.3熵編碼4.4預(yù)測(cè)編碼4.5變換編碼4.4預(yù)測(cè)編碼

預(yù)測(cè)編碼的基本原理:一般視頻圖像的上下左右相鄰像素及前后幀同位置像素都有很大的相鄰相似性。

利用圖像數(shù)據(jù)的相關(guān)性,利用已傳輸?shù)南袼刂祵?duì)當(dāng)前需要傳輸?shù)南袼刂颠M(jìn)行預(yù)測(cè),然后對(duì)當(dāng)前像素的實(shí)際值與預(yù)測(cè)值的差值(即預(yù)測(cè)誤差)進(jìn)行編碼傳輸,而不是對(duì)當(dāng)前像素值本身進(jìn)行編碼傳輸,以去除圖像數(shù)據(jù)中的空間相關(guān)冗余或時(shí)間相關(guān)冗余。

在接收端,將收到的預(yù)測(cè)誤差的碼字解碼后再與預(yù)測(cè)值相加,就可以恢復(fù)當(dāng)前像素值。

預(yù)測(cè)編碼幀內(nèi)預(yù)測(cè)----同一幀幀間預(yù)測(cè)----相鄰幀4.4.1幀內(nèi)預(yù)測(cè)編碼DPCM系統(tǒng)的基本原理DPCM(DifferentialPulseCodeModulation,差分脈沖編碼調(diào)制)4.4.1幀內(nèi)預(yù)測(cè)編碼DPCM系統(tǒng)的基本原理

接收端恢復(fù)的輸出信號(hào)和發(fā)送端輸入的信號(hào)的誤差是可見(jiàn),輸入輸出信號(hào)之間的誤差主要是由量化器引起的。4.4.1幀內(nèi)預(yù)測(cè)編碼預(yù)測(cè)模型

設(shè)時(shí)刻之前的樣本值,,…,與預(yù)測(cè)值之間的關(guān)系呈現(xiàn)某種函數(shù)形式線性預(yù)測(cè)編碼器非線性預(yù)測(cè)編碼器4.4.1幀內(nèi)預(yù)測(cè)編碼

在圖像數(shù)據(jù)壓縮中,常用如下幾種線性預(yù)測(cè)方案:前值預(yù)測(cè),即一維預(yù)測(cè),即采用同一掃描行中前面已知的若干個(gè)樣值來(lái)預(yù)測(cè)二維預(yù)測(cè),即不但用同一掃描行中的前面幾個(gè)樣值,而且還要用以前幾行掃描行中樣值來(lái)預(yù)測(cè)

4.4.2幀間預(yù)測(cè)編碼序列圖像在時(shí)間上的冗余情況可分為如下幾種:對(duì)于靜止不動(dòng)的場(chǎng)景,當(dāng)前幀和前一幀的圖像內(nèi)容是完全相同的。對(duì)于運(yùn)動(dòng)的物體,只要知道其運(yùn)動(dòng)規(guī)律,就可以從前一幀圖像推算出它在當(dāng)前幀中的位置。攝像頭對(duì)著場(chǎng)景的橫向移動(dòng)、焦距變化等操作會(huì)引起整個(gè)圖像的平移、放大或縮小。對(duì)于這種情況,只要攝像機(jī)的運(yùn)動(dòng)規(guī)律和鏡頭改變的參數(shù)已知,圖像隨時(shí)間所產(chǎn)生的變化也是可以推算出來(lái)的。對(duì)于靜止不動(dòng)的場(chǎng)景,當(dāng)前幀和前一幀的圖像內(nèi)容是完全相同的。對(duì)于運(yùn)動(dòng)的物體,只要知道其運(yùn)動(dòng)規(guī)律,就可以從前一幀圖像推算出它在當(dāng)前幀中的位置。攝像頭對(duì)著場(chǎng)景的橫向移動(dòng)、焦距變化等操作會(huì)引起整個(gè)圖像的平移、放大或縮小。對(duì)于這種情況,只要攝像機(jī)的運(yùn)動(dòng)規(guī)律和鏡頭改變的參數(shù)已知,圖像隨時(shí)間所產(chǎn)生變化也是可以推算出來(lái)的。4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)

4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)所謂運(yùn)動(dòng)估值,就是對(duì)運(yùn)動(dòng)物體的位移作出估計(jì),即對(duì)運(yùn)動(dòng)物體從前一幀到當(dāng)前幀位移的方向和像素?cái)?shù)作出估計(jì),也就是求出運(yùn)動(dòng)矢量。

運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)就是根據(jù)求出的運(yùn)動(dòng)矢量,找到當(dāng)前幀的像素(或像素塊)是從前一幀的哪個(gè)位置移動(dòng)過(guò)來(lái)的,從而得到當(dāng)前幀像素(或像素塊)的預(yù)測(cè)值。

4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)估值分類1.

像素遞歸法+塊匹配算法;像素遞歸法:根據(jù)像素間亮度的變化和梯度,通過(guò)遞歸修正的方法來(lái)估計(jì)每個(gè)像素的運(yùn)動(dòng)矢量。讓接收端在與發(fā)送端同樣的條件下,用與發(fā)送端相同的方法進(jìn)行運(yùn)動(dòng)估值。

4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)估值分類2.塊匹配算法:塊匹配算法對(duì)當(dāng)前幀圖像的每一子塊,在前一幀(第K-1幀)的一定范圍內(nèi)搜索最優(yōu)匹配,并認(rèn)為本圖像子塊就是從前一幀最優(yōu)匹配塊位置處平移過(guò)來(lái)的。

4.4.2幀間預(yù)測(cè)編碼塊匹配算法:

4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)估值像素遞歸法估計(jì)精度高,可以滿足運(yùn)動(dòng)補(bǔ)償幀內(nèi)插的要求。但接收端較復(fù)雜,不利于一發(fā)多收(如數(shù)字電視廣播等)的應(yīng)用。塊匹配算法雖然作了一定假設(shè)(假設(shè)位于同一圖像子塊內(nèi)的所有像素都作相同的運(yùn)動(dòng),且只作平移運(yùn)動(dòng)),但滿足了計(jì)算復(fù)雜度和實(shí)時(shí)實(shí)現(xiàn)的要求。4.4.2幀間預(yù)測(cè)編碼塊匹配算法方塊大小的選取 塊大時(shí),一個(gè)方塊可能包含多個(gè)作不同運(yùn)動(dòng)的物體,塊內(nèi)各像素作相同平移運(yùn)動(dòng)的假設(shè)難以成立,影響估計(jì)精度。 若塊太小,則估計(jì)精度容易受噪聲干擾的影響,不夠可靠,而且傳送運(yùn)動(dòng)矢量所需的附加比特?cái)?shù)過(guò)多,不利于數(shù)據(jù)壓縮。

一般都用16×16大小塊作為匹配單元。4.4.2幀間預(yù)測(cè)編碼塊匹配算法最優(yōu)匹配準(zhǔn)則

絕對(duì)差均值(MAD,MeanAbsoluteDifference)最小準(zhǔn)則另有:均方誤差(MSE,MeanSquaredError)最小準(zhǔn)則和歸一化互相關(guān)函數(shù)最大準(zhǔn)則。

4.4.2幀間預(yù)測(cè)編碼塊匹配算法最優(yōu)匹配點(diǎn)的搜索方法窮盡搜索(fullsearch,也稱全搜索)搜索范圍內(nèi)每一點(diǎn)都計(jì)算MAD值,找出最小MAD值所對(duì)應(yīng)位移量即為所求的運(yùn)動(dòng)矢量。---運(yùn)算量大,算法簡(jiǎn)單,算出的匹配點(diǎn)是全局最優(yōu),適合于ASIC硬件實(shí)現(xiàn)。快速搜索:其算法共同之處在于它們把使準(zhǔn)則函數(shù)(例如,MAD)趨于極小的方向視同為最小失真方向,并假定準(zhǔn)則函數(shù)在偏離最小失真方向時(shí)是單調(diào)遞增的,即認(rèn)為它在整個(gè)搜索區(qū)內(nèi)是(i,j)的單極點(diǎn)函數(shù),有唯一的極小值,而快速搜索是從任一猜測(cè)點(diǎn)開(kāi)始沿最小失真方向進(jìn)行的。4.4.2幀間預(yù)測(cè)編碼塊匹配算法最優(yōu)匹配點(diǎn)的搜索方法分級(jí)搜索:先通過(guò)對(duì)原始圖像濾波和亞采樣得到一個(gè)圖像序列的低分辨率表示,再對(duì)所得低分辨率圖像進(jìn)行全搜索。由于分辨率降低,使得搜索次數(shù)成倍減少,這一步可以稱為粗搜索。然后,再以低分辨率圖像搜索的結(jié)果作為下一步細(xì)搜索的起始點(diǎn)。經(jīng)過(guò)粗、細(xì)兩級(jí)搜索,便得到了最終的運(yùn)動(dòng)矢量估值。4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)估值應(yīng)用運(yùn)動(dòng)補(bǔ)償幀間預(yù)測(cè)編碼運(yùn)動(dòng)補(bǔ)償幀間預(yù)測(cè)編碼主要利用了視頻幀序列中相鄰幀之間的時(shí)間相關(guān)性,適用于所有的幀間編碼。

4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)補(bǔ)償幀間預(yù)測(cè)編碼過(guò)程在視頻幀序列中設(shè)置參照幀,且第1幀總是參照幀。對(duì)于當(dāng)前的編碼幀,首先在該幀的前一幀和/或后一幀(參照幀)中尋找與該幀的一個(gè)圖像方塊最優(yōu)匹配的圖像方塊。

4.4.2幀間預(yù)測(cè)編碼如果找到這樣的最優(yōu)匹配塊,則進(jìn)行下列計(jì)算:計(jì)算當(dāng)前塊的像素值與參照幀中最優(yōu)匹配塊(稱參照塊)的像素值之間的差值,即預(yù)測(cè)誤差;計(jì)算當(dāng)前塊相對(duì)于參照塊在水平(x)和垂直(y)兩個(gè)方向上的位移,即運(yùn)動(dòng)矢量。如果找不到最優(yōu)匹配塊,則必須進(jìn)行幀內(nèi)編碼,即對(duì)當(dāng)前塊的像素樣本值進(jìn)行編碼傳輸。4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)補(bǔ)償幀間預(yù)測(cè)類型單向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè):只使用前參照幀或后參照幀中的一個(gè)來(lái)進(jìn)行預(yù)測(cè)。雙向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè):使用前、后兩個(gè)幀作為參照幀來(lái)計(jì)算各塊的運(yùn)動(dòng)矢量,最后只選用與具有最小匹配誤差的參照幀相關(guān)的運(yùn)動(dòng)矢量值。插值運(yùn)動(dòng)補(bǔ)償預(yù)測(cè):取前參照幀預(yù)測(cè)值與后參照幀預(yù)測(cè)值的平均值。這時(shí),需要對(duì)兩個(gè)運(yùn)動(dòng)矢量分別進(jìn)行編碼傳輸。4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)估值應(yīng)用運(yùn)動(dòng)自適應(yīng)幀內(nèi)插在低數(shù)碼率視頻編碼中對(duì)提高圖像質(zhì)量起著重要作用,通過(guò)降低發(fā)送端傳送的幀頻來(lái)降低數(shù)碼率,未傳輸?shù)膱D像幀在接收端則由已傳輸?shù)奶幱谠搸昂驮搸蟮膬蓚€(gè)圖像幀的內(nèi)插來(lái)恢復(fù)。

4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)自適應(yīng)幀內(nèi)插4.4.2幀間預(yù)測(cè)編碼運(yùn)動(dòng)自適應(yīng)幀內(nèi)插

運(yùn)動(dòng)自適應(yīng)幀內(nèi)插對(duì)運(yùn)動(dòng)位移估值提出了比運(yùn)動(dòng)補(bǔ)償幀間預(yù)測(cè)更高的要求,它希望得到的位移估值應(yīng)盡量接近物體的真實(shí)運(yùn)動(dòng),而不只是在某種準(zhǔn)則函數(shù)值最?。ɑ蜃畲螅┮饬x上的最優(yōu)。4.4預(yù)測(cè)編碼預(yù)測(cè)編碼還可應(yīng)用于對(duì)其他參量的編碼中對(duì)運(yùn)動(dòng)矢量進(jìn)行預(yù)測(cè)(把相鄰圖像塊的運(yùn)動(dòng)矢量作為本塊運(yùn)動(dòng)矢量的預(yù)測(cè)值),然后對(duì)運(yùn)動(dòng)矢量的預(yù)測(cè)誤差進(jìn)行編碼傳輸。在模型基編碼中,對(duì)模型參數(shù)進(jìn)行預(yù)測(cè)編碼。對(duì)各圖像塊離散余弦變換系數(shù)的直流分量(DC)進(jìn)行預(yù)測(cè)編碼。第4章信源編碼原理4.1數(shù)字音頻編碼的基本原理4.2數(shù)字視頻編碼概述4.3熵編碼4.4預(yù)測(cè)編碼4.5變換編碼4.5.1變換編碼的基本原理基本原理 變換編碼不直接對(duì)空間域圖像數(shù)據(jù)進(jìn)行編碼,而是首先將空間域圖像數(shù)據(jù)映射變換到另一個(gè)正交向量空間(變換域),得到一組變換系數(shù),然后對(duì)這些變換系數(shù)進(jìn)行量化和編碼。變換編碼系統(tǒng)通常包括正交變換、變換系數(shù)選擇和量化編碼3個(gè)模塊。變換編碼:利用映射變換來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的建模表示的建模表示,也就是說(shuō),將原始數(shù)據(jù)“變換”到另一個(gè)更為緊湊的表示空間。映射的關(guān)鍵:在于能夠產(chǎn)生一系列更加有效的系數(shù),對(duì)這些系數(shù)進(jìn)行編碼所需的總比特?cái)?shù),要比對(duì)原始數(shù)據(jù)直接編碼所需的總比特?cái)?shù)要少得多,從而使數(shù)碼率得以降低。映射的方法:一般指函數(shù)變換法常用的是正交變換法4.5.1變換編碼的基本原理基本原理 為了保證平穩(wěn)性和相關(guān)性,同時(shí)也為了減少運(yùn)算量,在變換編碼中,一般在發(fā)送端的編碼器中,先將一幀圖像劃分成若干個(gè)N×N像素的圖像塊,然后對(duì)每個(gè)圖像塊逐一進(jìn)行變換編碼,最后將各個(gè)圖像塊的編碼比特流復(fù)合后再傳輸。在接收端,對(duì)收到的變換系數(shù)進(jìn)行相應(yīng)的逆變換,再恢復(fù)成圖像數(shù)據(jù)。4.5.1變換編碼的基本原理正交變換

正交變換本身并不能壓縮數(shù)據(jù),它只把信號(hào)映射到另一個(gè)域,但由于變換后系數(shù)之間的相關(guān)性明顯降低,為在變換域里進(jìn)行有效的壓縮創(chuàng)造了有利條件。各坐標(biāo)軸上方差的不均勻分布正是正交變換編碼實(shí)現(xiàn)圖像數(shù)據(jù)壓縮的理論基礎(chǔ)。 4.5.1變換編碼的基本原理正交變換設(shè)一個(gè)圖像塊由1×2個(gè)像素組成,每個(gè)像素的值取8個(gè)灰度等級(jí)中的任一個(gè),xl代表其中第一個(gè)像素的值,x2代表第二個(gè)像素的值。

4.5.1變換編碼的基本原理正交變換 圖像經(jīng)過(guò)正交變換能夠?qū)崿F(xiàn)數(shù)據(jù)壓縮的物理本質(zhì)在于:經(jīng)過(guò)多維坐標(biāo)系中適當(dāng)?shù)淖鴺?biāo)旋轉(zhuǎn)和變換,散布在各個(gè)坐標(biāo)軸上的原始圖像數(shù)據(jù)在選擇適當(dāng)?shù)男伦鴺?biāo)系中集中到了少數(shù)坐標(biāo)軸上,因而有可能用較少的編碼比特來(lái)表示一個(gè)圖像塊,從而實(shí)現(xiàn)圖像數(shù)據(jù)壓縮。4.5.2DCT圖像編碼各正交變換比較

選擇不同的正交基向量,可以得到不同的正交變換,比如離散傅里葉變換(DFT)、離散余弦變換(DCT)、沃爾什-哈達(dá)瑪變換(WHT)、斜變換、K-L變換等。從數(shù)學(xué)上可以證明,各種正交變換都能在不同程度上減小隨機(jī)向量的相關(guān)性,而且信號(hào)經(jīng)過(guò)大多數(shù)正交變換后,能量會(huì)相對(duì)集中在少數(shù)變換系數(shù)上,刪去對(duì)信號(hào)貢獻(xiàn)較?。ǚ讲钚。┑南禂?shù),只利用保留下來(lái)的系數(shù)恢復(fù)信號(hào)時(shí),不會(huì)引起明顯的失真。4.5.2DCT圖像編碼各正交變換比較在理論上,K-L變換是在均方誤差(MSE)準(zhǔn)則下的最佳變換,它是建立在統(tǒng)計(jì)特性基礎(chǔ)上的一種變換。由于K-L變換是取原圖像各子塊的協(xié)方差矩陣的特征向量作為變換基向量,因此K-L變換的變換基是不固定的,且與編碼對(duì)象的統(tǒng)計(jì)特性有關(guān)。對(duì)大多數(shù)圖像信源來(lái)說(shuō),DCT的性能最接近K-L變換,同時(shí)其變換基向量是固定的,且有快速算法4.5.2DCT圖像編碼DCT編碼和解碼原理4.5.2DCT圖像編碼DCT變換8×8

二維DCT變換8×8

二維DCT反變換當(dāng)時(shí),當(dāng)u、v為其他值時(shí)4.5.2DCT圖像編碼DCT變換

8×8二維DCT反變換的變換核函數(shù)為按u,v分別展開(kāi)后得到64個(gè)8×8像素的圖像塊組,稱為基圖像。4.5.2DCT圖像編碼DCT變換基圖像4.5.2DCT圖像編碼DCT變換補(bǔ)充:水平空間頻率:畫面寬帶范圍內(nèi)垂直黑白條的周期數(shù)。垂直空間頻率:畫面高帶范圍內(nèi)水平黑白條的周期數(shù)。隨著u,v的增加,相應(yīng)系數(shù)分別代表逐步增加的水平空間頻率和垂直空間頻率分量的大小。4.5.2DCT圖像編碼DCT變換

DCT變換過(guò)程看作是把一個(gè)圖像塊表示為基圖像的線性組合,這些基圖像是輸入圖像塊的組成“頻率”。DCT變換輸出64個(gè)基圖像的幅值即“DCT系數(shù)”,是輸入圖像塊的“頻譜”。64個(gè)變換系數(shù)中包括一個(gè)代表直流分量的“DC系數(shù)”和63個(gè)代表交流分量的“AC系數(shù)”。4.5.2DCT圖像編碼量化

量化處理是一個(gè)多到一的映射,它是造成DCT編解碼信息損失的根源。根據(jù)人眼的視覺(jué)特性,對(duì)不同的變換系數(shù)設(shè)置不同的量化步長(zhǎng)。4.5.2DCT圖像編碼量化

JPEG標(biāo)準(zhǔn)中每個(gè)亮度DCT系數(shù)的量化步長(zhǎng)16111016244051611212141926586055141316244057695614172229518780621822375668109103772435556481104113924964788710312112010172929598112100103994.5.2DCT圖像編碼量化

JPEG標(biāo)準(zhǔn)中每個(gè)色度DCT系數(shù)的量化步長(zhǎng)171824479999999918212666999999992426569999999999476699999999999999999999999999999999999999999999999999999999999999999999999999994.5.2DCT圖像編碼變換系數(shù)熵編碼

Zig-Zag(或稱“Z”字形,“之”字形)掃描

DC直流系數(shù)AC01交流系數(shù)掃描開(kāi)始交流系數(shù)掃描結(jié)束AC07AC70AC774.5.2DCT圖像編碼變換系數(shù)熵編碼直流分量(DC):相鄰圖像子塊的直流分量(圖像子塊的平均樣值)也存在著相關(guān)性,所以對(duì)DC的量化系數(shù)用DPCM編碼較合適,即對(duì)當(dāng)前塊和前一塊的DC系數(shù)的差值進(jìn)行編碼。交流分量(AC):把數(shù)值為0的連續(xù)長(zhǎng)度(即0的游長(zhǎng))和非0值結(jié)合起來(lái)構(gòu)成一個(gè)事件(Run,Level),然后再對(duì)事件(Run,Level)進(jìn)行熵編碼。

4.5.2DCT圖像編碼DCT編碼的示例139144149153155155155155144151153156159156156156150155160163158156156156159161162160160159159159159160161162162155155155161161161161160157157157162162161163162157157157162162161161163158158158(a)原始圖像塊的亮度樣值

4.5.2DCT圖像編碼DCT編碼的示例(b)對(duì)應(yīng)的DCT系數(shù)1259.6-1.0-12.1-5.22.1-1.7-2.7-1.3-22.6-17.5-6.2-3.2-2.9-0.10.4-1.2-10.9-9.3-1.61.50.2-0.9-0.6-0.1-7.1-1.90.21.50.9-0.10.00

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論