版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2章多媒體信息編碼2.1引言2.2基本編碼方法2.3圖像編碼標(biāo)準(zhǔn)2.4語音編碼標(biāo)準(zhǔn)第2章多媒體信息編碼2.1引言12.1引言表2.1連續(xù)媒體數(shù)據(jù)類型特征舉例媒體類型數(shù)據(jù)速率說明語音質(zhì)量音頻CD質(zhì)量音頻MPEG-2編碼視頻NTSC質(zhì)量視HDTV質(zhì)量視頻64kb/s1.4Mb/s3.36Mb/s216Mb/s648Mb/s1個(gè)信道,8kHz條樣速率,8位量化2個(gè)信道,44.1kHz條樣速率,16位量化640*480像素/幀,24位/像素,30幀/秒640*480像素/幀,24位/像素,30幀/秒1280*720像素/幀,24位/像素,30幀/秒2.1引言表2.1連續(xù)媒體數(shù)據(jù)類型特征舉例2數(shù)據(jù)壓縮處理一般由兩個(gè)過程組成:一是編碼過程,即對(duì)原始數(shù)據(jù)進(jìn)行編碼壓縮,以便存儲(chǔ)和傳輸;二是解碼過程,即對(duì)壓縮的數(shù)據(jù)進(jìn)行解壓,恢復(fù)成可用的數(shù)據(jù)。根據(jù)解壓后數(shù)據(jù)的保真度,數(shù)據(jù)壓縮技術(shù)可分為無損壓縮編碼和有損壓縮編碼兩大類。無損壓縮編碼是指解碼后的數(shù)據(jù)與原始數(shù)據(jù)完全相同,無任何偏差。這種編碼通?;谛畔㈧卦?常用的編碼有哈夫曼編碼、算術(shù)編碼、行程編碼等。它的壓縮能力與所處理數(shù)據(jù)的類型有關(guān),壓縮比通常比較低,一般在2∶1~5∶1。主要用于要求數(shù)據(jù)無損壓縮存儲(chǔ)和傳輸?shù)膱?chǎng)合,如傳真機(jī)、文本文件傳輸?shù)?。?shù)據(jù)壓縮處理一般由兩個(gè)過程組成:一是編碼過3有損壓縮編碼是指解碼后的數(shù)據(jù)與原始數(shù)據(jù)相比有一定的偏差,但仍可保持一定的視聽質(zhì)量和效果。它主要利用人的視、聽覺特性,在保持一定保真度下對(duì)數(shù)據(jù)進(jìn)行壓縮,其壓縮比可達(dá)100∶1。壓縮比愈高,其解壓縮后的視、音頻質(zhì)量就愈低。這種編碼方法有很多種,如基于線性預(yù)測(cè)原理的預(yù)測(cè)編碼、基于正交變換原理的正交變換編碼、基于向量量化原理的向量量化編碼、基于分層處理的分層編碼以及基于頻帶分割原理的子帶編碼等。主要用于對(duì)音頻和視頻數(shù)據(jù)的壓縮。有損壓縮編碼是指解碼后的數(shù)據(jù)與原始數(shù)據(jù)相比有4多媒體信息編碼技術(shù)主要側(cè)重于有損壓縮編碼的研究。經(jīng)過多年的研究與開發(fā),已經(jīng)出臺(tái)了一系列有關(guān)的國際標(biāo)準(zhǔn)。其中,最著名的是國際標(biāo)準(zhǔn)組織(ISO)制定的JPEG和MPEG。JPEG是靜止圖像的壓縮標(biāo)準(zhǔn),其壓縮比可達(dá)40∶1。MPEG(MPEG-1、MPEG-2及MPEG-4)是動(dòng)態(tài)圖像的壓縮標(biāo)準(zhǔn),采用MPEG-2標(biāo)準(zhǔn)對(duì)NTSC質(zhì)量視頻進(jìn)行壓縮后,網(wǎng)絡(luò)帶寬需求可降低到3.36Mb/s。其它的標(biāo)準(zhǔn)還有國際電信聯(lián)合會(huì)(ITU)制定的用于可視電話、會(huì)議電視的H.261和H.263;用于音頻的G.711、G.721、G.728等。多媒體信息編碼技術(shù)主要側(cè)重于有損壓縮編碼的研究52.2基本編碼方法2.2.1行程編碼行程編碼是一種簡(jiǎn)單的無損壓縮編碼方法,它通過壓縮原始數(shù)據(jù)中相同的字節(jié)序列實(shí)現(xiàn)數(shù)據(jù)壓縮。在圖像和聲音數(shù)據(jù)中可能包含大量的相同字節(jié)連續(xù)重復(fù)的序列,通過行程編碼可以將這些重復(fù)字節(jié)壓縮掉,取而代之的是一個(gè)更加緊密的字節(jié)序列。例如,一個(gè)原始數(shù)據(jù)字符串為RTTTTTTTTABBCDGHJK,采用行程編碼后的字符串為R#8TABBCDGHJK,這里用#8T替換掉8個(gè)T字符,符號(hào)“?!笔翘厥鈽?biāo)識(shí)符,用于表示行程編碼。如果原始數(shù)據(jù)字符串也包含了“?!狈?hào),則必須用兩個(gè)“?!狈?hào)替換掉原始數(shù)據(jù)字符串中的“#”符號(hào)。2.2基本編碼方法2.2.1行程編碼62.2.2哈夫曼編碼哈夫曼(Huffman)編碼是一種無損壓縮編碼方法,它根據(jù)信源符號(hào)出現(xiàn)的概率大小進(jìn)行排序,出現(xiàn)的概率大的符號(hào)分配短碼,反之分配長(zhǎng)碼。在分配代碼過程中,需要建立一個(gè)n階二叉樹,其編碼過程如下:①對(duì)信源符號(hào)按其出現(xiàn)的概率進(jìn)行遞減排序;②將兩個(gè)最小的概率相加,其和作為新符號(hào)的概率;③重復(fù)①和②,直到概率之和達(dá)到1為止;④每次合并消息時(shí),將被合并的消息賦予1和0或者0和1;⑤尋找從每個(gè)信源符號(hào)到概率為1處的路徑,記錄下路徑上的1和0;⑥從樹根節(jié)點(diǎn)到葉子節(jié)點(diǎn),對(duì)每個(gè)信源符號(hào)列出0、1序列。2.2.2哈夫曼編碼7例如,A、B、C、D四個(gè)字符出現(xiàn)的概率分別為:P(A)=3/4;P(B)=1/8;P(C)=1/16;P(D)=1/16,按照上述編碼過程將生成如圖2.1所示的二叉樹,獲得的編碼結(jié)果是:H(A)=1;H(B)=01;H(C)=001;H(D)=000,該結(jié)果存放在哈夫曼表中。圖2.1哈夫曼編碼生成的二叉樹例如,A、B、C、D四個(gè)字符出現(xiàn)的概率分別82.2.3離散余弦變換編碼變換編碼主要有離散傅立葉變換(DFT)編碼、離散余弦變換(DCT)編碼等。其中,DCT編碼方法被普遍使用,在JPEG、MPEG和H.261等標(biāo)準(zhǔn)中都采用了DCT編碼。由于聲音信號(hào)只有一個(gè)時(shí)間維,因此音頻信號(hào)壓縮采用一維DCT編碼,而圖像壓縮必須考慮水平和垂直兩個(gè)方向,因此圖像壓縮則采用二維DCT編碼。2.2.3離散余弦變換編碼變換編碼主要9DCT編碼方法是對(duì)一個(gè)8×8圖像塊灰度樣本數(shù)據(jù)流進(jìn)行壓縮,而彩色圖像壓縮可看成是壓縮圖像的多個(gè)分量。在編碼器中,首先將源圖像8×8樣本數(shù)據(jù)塊(像素塊)的取值范圍由[0,2p-1](無符號(hào))轉(zhuǎn)換成[-2p-1,2p-1-1](有符號(hào)),其中p為樣本定義的精度。然后對(duì)8×8樣本數(shù)據(jù)塊進(jìn)行正向離散余弦變換(FDCT)。在解碼器中,利用逆向離散余弦變換(IDCT)重建8×8樣本數(shù)據(jù)塊,恢復(fù)圖像。FDCT和IDCT的數(shù)學(xué)表達(dá)式如(1)式和(2)式所示:DCT編碼方法是對(duì)一個(gè)8×8圖像塊灰度樣10式中:u,v=00其它式中:u,v=011源圖像8×8樣本數(shù)據(jù)塊實(shí)質(zhì)上是64點(diǎn)離散信號(hào)(空間范圍x和y的函數(shù)),FDCT將其變換成64個(gè)正交基信號(hào),FDCT的輸出是64個(gè)DCT系數(shù)(即基信號(hào)振幅)。在x、y兩個(gè)方向頻率都為零的系數(shù)叫直流系數(shù)(DC),其余63個(gè)系數(shù)是交流系數(shù)(AC)。由于圖像幀上點(diǎn)與點(diǎn)之間的樣本值變化比較緩慢,大多數(shù)信號(hào)集中在低頻區(qū)。源圖像8×8樣本數(shù)據(jù)塊實(shí)質(zhì)上是64點(diǎn)離散信號(hào)(122.2.4差分脈沖編碼調(diào)制圖2.2DPCM編解碼器原理框圖(a)DPCM編碼器;(b)DPCM解碼器2.2.4差分脈沖編碼調(diào)制圖2.2DPCM編解碼132.2.5運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼是一種主要用于動(dòng)態(tài)圖像的壓縮的預(yù)測(cè)編碼。動(dòng)態(tài)圖像是由一系列視頻幀組成,幀與幀之間可能存在著瞬時(shí)冗余,這種瞬時(shí)冗余主要是由靜態(tài)背景前的運(yùn)動(dòng)物體或攝像機(jī)的移動(dòng)引起的。運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼主要通過幀間編碼來壓縮時(shí)間冗余信息。其基本原理如下:①在視頻幀序列中設(shè)置參照幀,且第1幀總是參照幀。②對(duì)于當(dāng)前的編碼幀,首先在該幀的前幀和/或后幀(參照幀)中尋找與該幀的一個(gè)圖像塊相匹配的圖像塊。2.2.5運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼運(yùn)動(dòng)補(bǔ)償預(yù)14③如果找到這樣的塊,則進(jìn)行下列計(jì)算:·當(dāng)前塊的塊亮度值與參照幀中對(duì)應(yīng)塊(稱參照塊)的塊亮度值之間的差值信號(hào)(DPCM碼);·當(dāng)前塊相對(duì)于參照塊在x和y兩個(gè)方向上的運(yùn)動(dòng)向量值,表示該塊在x和y方向上的平移。通過定義一個(gè)搜索域來限制x和y方向上的搜索范圍,以降低運(yùn)動(dòng)信息的開銷;·用差值信號(hào)和運(yùn)動(dòng)向量值來表示參照塊與所預(yù)測(cè)塊之間的誤差,稱為預(yù)測(cè)誤差。這時(shí),只需對(duì)當(dāng)前塊的運(yùn)動(dòng)向量值和預(yù)測(cè)誤差進(jìn)行編碼,不必對(duì)當(dāng)前塊的圖像進(jìn)行編碼,以壓縮時(shí)間冗余信息。③如果找到這樣的塊,則進(jìn)行下列計(jì)算:15④如果找不到這樣的塊,則必須進(jìn)行幀內(nèi)編碼,即對(duì)當(dāng)前塊的圖像進(jìn)行編碼。運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼可分成下列三種方式:①單向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè):只使用前參照幀或后參照幀之一進(jìn)行預(yù)測(cè)。②雙向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè):使用前、后兩個(gè)幀作為參照幀來計(jì)算各塊的運(yùn)動(dòng)向量,最后只選擇具有最小匹配誤差的參照幀相關(guān)的運(yùn)動(dòng)向量值。③插值運(yùn)動(dòng)補(bǔ)償預(yù)測(cè):使用前參照幀和后參照幀兩者預(yù)測(cè)值的平均值。這時(shí),必須分別存儲(chǔ)和傳輸這兩個(gè)運(yùn)動(dòng)向量。④如果找不到這樣的塊,則必須進(jìn)行幀內(nèi)編碼,即162.3圖像編碼標(biāo)準(zhǔn)2.3.1JPEG標(biāo)準(zhǔn)JPEG(JointPhotographicExpertsGroup)是ISO為制定有關(guān)靜態(tài)圖像壓縮標(biāo)準(zhǔn)而成立的一個(gè)專家組,現(xiàn)已公布了JPEG標(biāo)準(zhǔn),標(biāo)準(zhǔn)號(hào)為ISOCD10918。JPEG作為一種靜態(tài)圖像壓縮編碼的國際標(biāo)準(zhǔn),在實(shí)際中得到廣泛的應(yīng)用。JPEG圖像壓縮技術(shù)具有如下特點(diǎn):①能夠大范圍地調(diào)節(jié)圖像壓縮率及其相應(yīng)的圖像保真度,解碼器可參數(shù)化。使用戶在具體應(yīng)用時(shí)可以選擇所期望的壓縮率/質(zhì)量比。2.3圖像編碼標(biāo)準(zhǔn)2.3.1JPEG標(biāo)準(zhǔn)17②能夠應(yīng)用于任何連續(xù)色調(diào)數(shù)字源圖像(實(shí)際應(yīng)用中可能遇到的圖像有很多種,故不限制圖像的尺寸、色彩級(jí)差、像素長(zhǎng)寬比等條件),不限制圖像的景象內(nèi)容(如復(fù)雜性、色彩范圍或統(tǒng)計(jì)特性)。③能夠在具有一定能力的CPU上實(shí)現(xiàn)所要求的功能,以利于操縱復(fù)雜的計(jì)算軟件,并用可接受的硬件成本實(shí)現(xiàn)具有高性能要求的應(yīng)用。②能夠應(yīng)用于任何連續(xù)色調(diào)數(shù)字源圖像(實(shí)際應(yīng)用18④規(guī)定了4種運(yùn)行模式,以滿足各種需要:·順序編碼:按從左到右、從上到下的順序?qū)D像進(jìn)行掃描和編碼。這種模式是基準(zhǔn)模式,各種JPEG實(shí)現(xiàn)都要支持這種模式。·遞增編碼:對(duì)于變換時(shí)間較長(zhǎng)的掃描器,按由粗到細(xì)的過程,以復(fù)合掃描順序進(jìn)行圖像編碼?!o損編碼:保證準(zhǔn)確地恢復(fù)圖像所有樣本值的圖像編碼。與有損模式相比,其壓縮比低。·分層編碼:以多種分辨率進(jìn)行圖像編碼,可直接獲得低分辨率圖像,重建復(fù)原全圖。
④規(guī)定了4種運(yùn)行模式,以滿足各種需要:19
1.JPEG圖像模型JPEG標(biāo)準(zhǔn)采用一種通用的圖像模型,能夠適用大多數(shù)常用的二維圖像格式。這種圖像模型是從各種圖像格式和應(yīng)用中抽象出來的,而且只包括那些壓縮和重構(gòu)數(shù)字圖像所必需的數(shù)據(jù)。JPEG壓縮數(shù)據(jù)格式?jīng)]有提供關(guān)于表示完整圖像的編碼信息。例如,JPEG沒有定義和編碼任何有關(guān)像素尺寸比、色彩間隔和圖像獲取特點(diǎn)等信息。通常,JPEG的一幀源圖像包含有1~255個(gè)圖像成分,稱為顏色平面或組元。每個(gè)組元是一個(gè)樣本點(diǎn)矩陣,樣本定義的精度為p位,取值范圍是[0,2p-1],所有成分的所有樣本點(diǎn)精度都是同一個(gè)p。對(duì)基于DCT的Codec,p取8或12;對(duì)基于DPCM的Codec,p取2~16。1.JPEG圖像模型20每個(gè)平面沿水平和垂直方向的像素?cái)?shù)可能是不同的,但必須使用同樣多的位數(shù)對(duì)所有平面的所有像素進(jìn)行編碼。例如,顏色平面可以分配給RGB(紅、綠、藍(lán))三色,也可以分配給YUV(一個(gè)亮度和兩個(gè)色度),各種模型都定義自己的精度。灰度圖一般由一個(gè)組元構(gòu)成;GB彩圖有三個(gè)等分辨率的組元;YUV彩圖通常對(duì)圖的色度組元衰減采樣,以減少存儲(chǔ)量。例如,采用4∶1∶1形式,色度的水平和垂直分辨率組元只是亮度的一半。這主要基于如下事實(shí):人的視覺對(duì)亮度組元十分敏感,對(duì)色度組元的敏感性較低。每個(gè)平面沿水平和垂直方向的像素?cái)?shù)可能是不同的21圖2.3像素塊和“之”字形處理順序(a)8×8像素塊;(b)“之”字形順序圖2.3像素塊和“之”字形處理順序222.JPEG編碼方法圖2.4DCT編碼和解碼過程(a)DCT編碼過程;(b)DCT解碼過程2.JPEG編碼方法圖2.4DCT編碼和解碼過程23在編碼器中,首先由FDCT對(duì)源圖像8×8樣本數(shù)據(jù)塊進(jìn)行正向離散余弦變換,FDCT將輸出64個(gè)DCT系數(shù),其中1個(gè)是直流系數(shù)(DC),其余63個(gè)是交流系數(shù)(AC)。量化器對(duì)FDCT輸出的每個(gè)DCT系數(shù)進(jìn)行量化處理。量化的目的是去除那些無顯著視覺意義的高頻信息。在量化時(shí),每個(gè)DCT系數(shù)與量化表中的64個(gè)元素進(jìn)行舍取運(yùn)算。量化表是由開發(fā)者指定并輸入到編碼器中。量化計(jì)算公式如下:在編碼器中,首先由FDCT對(duì)源圖像8×8樣本24經(jīng)過量化處理后,DC系數(shù)從63個(gè)AC系數(shù)中分離出來進(jìn)行單獨(dú)處理,因?yàn)镈C系數(shù)代表了相當(dāng)一部分圖像信息。所有的量化系數(shù)按“之”字形順序排列,低頻系數(shù)將排在高頻系數(shù)之前,以利于實(shí)現(xiàn)熵編碼。在熵編碼處理之前,先對(duì)DC系數(shù)進(jìn)行DPCM編碼,對(duì)AC系數(shù)進(jìn)行行程編碼。由于大多數(shù)AC系數(shù)都為零,只有少數(shù)不為零,行程編碼將壓縮AC系數(shù)中零值序列,對(duì)非零系數(shù)進(jìn)行有效編碼。行程編碼分為兩步處理:先將量化的DCT系數(shù)轉(zhuǎn)換成中間符號(hào)序列,再向符號(hào)分配可變長(zhǎng)代碼。經(jīng)過量化處理后,DC系數(shù)從63個(gè)AC系數(shù)中25中間符號(hào)序列是一種雙符號(hào)序列。對(duì)于AC系數(shù),符號(hào)1表示兩部分信息:行程和位長(zhǎng),行程取值為0~15,位長(zhǎng)取值0~10;符號(hào)2表示振幅信息,即非零系數(shù)大小。對(duì)于DC系數(shù),符號(hào)1表示位長(zhǎng)信息,符號(hào)2表示振幅信息。由于DC系數(shù)有別于AC系數(shù),故它的符號(hào)1取值范圍是1~11。為其分配的代碼是可變長(zhǎng)的,以便于使用熵編碼進(jìn)行壓縮處理。熵編碼是按DCT系數(shù)的統(tǒng)計(jì)特征對(duì)量化系數(shù)進(jìn)一步編碼,實(shí)現(xiàn)無損壓縮。JPEG規(guī)定了兩種熵編碼方法:哈夫曼編碼和算術(shù)編碼。對(duì)于哈夫曼編碼所需的哈夫曼表,JPEG標(biāo)準(zhǔn)沒有作具體規(guī)定,這由開發(fā)者根據(jù)應(yīng)用需要來決定。中間符號(hào)序列是一種雙符號(hào)序列。對(duì)于AC系數(shù),26JPEG還要對(duì)成分所用的表進(jìn)行控制,以保證將適當(dāng)?shù)谋碛糜谶m當(dāng)?shù)某煞?。?duì)一個(gè)成分中所有樣本進(jìn)行編碼時(shí),必須使用同一個(gè)量化表和同一套熵編碼表。JPEG解碼器同時(shí)存放4個(gè)不同的量化表和4套不同的熵編碼表(順序掃描解碼器例外,它只能存放2套熵編碼表),這對(duì)解碼時(shí)為多成分圖像切換不同的適用表來說是必要的。與上述編碼過程相反,在解碼處理過程中首先是熵解碼過程,然后是解量化過程,它是將量化函數(shù)值乘以步長(zhǎng),其結(jié)果作為IDCT的輸入量,最后執(zhí)行IDCT,重建8×8樣本數(shù)據(jù)塊,形成重建圖像。JPEG還要對(duì)成分所用的表進(jìn)行控制,以保證27JPEG標(biāo)準(zhǔn)對(duì)數(shù)據(jù)壓縮和圖像質(zhì)量的關(guān)系進(jìn)行了詳細(xì)說明。對(duì)于具有中度復(fù)雜景象的彩色圖像,所有DCT運(yùn)行模式都可生成以下幾種圖像質(zhì)量水平(按圖壓縮率表示):·0.25~0.5位/像素:圖像質(zhì)量中等,可滿足一般的應(yīng)用需求;·0.5~0.75位/像素:圖像質(zhì)量好,可滿足有一定圖像質(zhì)量要求的應(yīng)用需求;·0.75~1.5位/像素:圖像質(zhì)量很好,可滿足有較高圖像質(zhì)量要求的應(yīng)用需求;·1.5~2.0位/像素:圖像質(zhì)量極好,已難以分辨重建圖像與源圖像間的差別,可滿足有更高圖像質(zhì)量要求的應(yīng)用需求。JPEG標(biāo)準(zhǔn)對(duì)數(shù)據(jù)壓縮和圖像質(zhì)量的關(guān)系進(jìn)行了283.JPEG其它運(yùn)行模式(1)遞增運(yùn)行模式它也是由FDCT和量化過程構(gòu)成的。所不同的是,圖像分量是多次掃描編碼,第一次掃描編碼產(chǎn)生的圖像是粗糙的,然后可再組織后續(xù)的掃描,對(duì)圖像逐步求精,直到達(dá)到量化表所規(guī)定的圖像質(zhì)量水平。這種運(yùn)行模式的優(yōu)點(diǎn)是可生成預(yù)顯示的圖像,而無需對(duì)該圖像完全解碼,可以迅速地傳輸和顯示圖像。這里有兩種對(duì)量化DCT系數(shù)進(jìn)行編碼的方法:一是在一次掃描中,只對(duì)“之”字形順序中一個(gè)特定“波段”的系數(shù)進(jìn)行編碼,這一過程叫“頻譜選擇”;二是在當(dāng)前波段中,無需在一次掃描中對(duì)全部系數(shù)進(jìn)行準(zhǔn)確編碼,可首先指定N個(gè)最有意義的位先編碼,在后面的掃描中,再對(duì)其次有意義位進(jìn)行編碼,這個(gè)過程叫連續(xù)逼近。上述兩種方法可分別使用,也可靈活組合使用。3.JPEG其它運(yùn)行模式29(2)無損運(yùn)行模式它與源編碼過程不同,不是采用變換編碼和量化器相結(jié)合的方式進(jìn)行編碼,而是采用DPCM技術(shù)進(jìn)行無損壓縮編碼,但壓縮率較低。這種運(yùn)行模式主要用于無損地存儲(chǔ)和傳輸圖像(如X光照片)的場(chǎng)合。對(duì)基于DPCM的無損壓縮模式,JPEG沒有嚴(yán)格規(guī)定。對(duì)于中等復(fù)雜程序的彩圖,其壓縮比為2∶1。(2)無損運(yùn)行模式30(3)分層運(yùn)行模式它提供一種“金字塔”式分辨率圖像編碼,即相鄰兩次編碼,分辨率在水平或垂直、或者兩個(gè)方向上相差二倍。其過程是:先降低源圖的分辨率,對(duì)其采樣編碼,再復(fù)原重建;然后提高分辨率再采樣編碼,作為源圖的預(yù)測(cè)值,與低分辨率采樣值進(jìn)行比較,對(duì)其差值分別進(jìn)行編碼;重復(fù)上述步驟,直到實(shí)現(xiàn)圖像的全分辨率編碼。這種運(yùn)行模式很適合于用低分辨率設(shè)備處理高分辨率圖像的應(yīng)用。(3)分層運(yùn)行模式312.3.2H.261標(biāo)準(zhǔn)為了滿足在綜合數(shù)字網(wǎng)絡(luò)(ISDN)上開展可視通信業(yè)務(wù)的需要,ITU專門成立了一個(gè)可視電話編碼規(guī)范小組來制定有關(guān)視頻信號(hào)傳輸編碼標(biāo)準(zhǔn),并先后完成了H.261和H.263標(biāo)準(zhǔn)的制定工作。H.261是“p×64kb/s視頻編解碼器”標(biāo)準(zhǔn),其中p的取值范圍在1~30之間,代表ISDN的B通道數(shù)量,各個(gè)通道的數(shù)碼率為64kb/s。由于H.261主要是為可視電話和電視會(huì)議制定的,因此,標(biāo)準(zhǔn)中所建議的視頻編碼算法應(yīng)具有實(shí)時(shí)處理能力,延時(shí)應(yīng)控制到最小程度。當(dāng)p=1或2時(shí),由于數(shù)碼率較低,僅能用于桌面上進(jìn)行面對(duì)面直觀通信。而當(dāng)p≥6時(shí),由于提高了數(shù)碼率,能夠傳輸較復(fù)雜的圖像,圖像質(zhì)量也得到改善,因此更適合電視會(huì)議。2.3.2H.261標(biāo)準(zhǔn)為了滿足在綜合數(shù)32H.261的目標(biāo)是在世界范圍內(nèi)的數(shù)字電話通道上實(shí)現(xiàn)視頻和音頻信號(hào)的傳輸,具體的目標(biāo)是:·視頻源信號(hào)可以是525線或625線的電視信號(hào)。在實(shí)際應(yīng)用中必須將視頻源信號(hào)轉(zhuǎn)換成通用中間格式(CIF),使之不依賴于視頻源信號(hào)格式。這樣便允許各個(gè)地區(qū)之間不同電視格式設(shè)備通過標(biāo)準(zhǔn)的Codec進(jìn)行通信?!び蓸?biāo)準(zhǔn)編碼器產(chǎn)生的位流可以和其它信號(hào)(如音頻)一起傳輸。
·視頻傳輸速率在40kb/s~2Mb/s之間,與電視會(huì)議和可視電話的圖像質(zhì)量相對(duì)應(yīng)?!ぶС謫蜗蚧螂p向的可視通信。·支持多點(diǎn)通信。·是否糾錯(cuò)由編碼器決定。H.261的目標(biāo)是在世界范圍內(nèi)的數(shù)字電話通道上實(shí)現(xiàn)視頻331.視頻編碼格式圖2.5H.261的亮度和色度樣本分布1.視頻編碼格式圖2.5H.261的亮度和色度樣本34表2.2CIF和QCIF編碼格式參數(shù)舉例GIFQCIF行數(shù)/幀像素?cái)?shù)/行行數(shù)/幀像素?cái)?shù)亮度Y288360(352)144180(176)色度Cb144180(176)7290(88)色度Cr
144180(176)7290(88)表2.2CIF和QCIF編碼格式參數(shù)舉例GIFQCIF35以29.97幀/秒速率傳送CIF和QCIF,未壓縮數(shù)碼率分別為36.45Mb/s和9.113Mb/s。在使用ISDN通道(p×64kb/s,p=1,2,…,30)傳送視頻信號(hào)時(shí),必須大幅度地降低數(shù)碼率。至于選用CIF和QCIF中的哪一種,則取決于通道容量的大小。當(dāng)p=1或2時(shí),在桌面可視電話應(yīng)用中常選用QCIF。如果在10幀/秒速率下使用,即使選用QCIF也要將數(shù)碼率減少47.5倍才能使用64kb/s通道來傳送信號(hào),這是很難實(shí)現(xiàn)的。當(dāng)p≥6時(shí),可以使用CIF,因?yàn)樗泻芏嗫捎糜趯?duì)圖像編碼的信息。由于CIF的分辨率高,更適合于電視會(huì)議方面的應(yīng)用。以29.97幀/秒速率傳送CIF和QC36圖2.6CIF和QCIF視頻幀數(shù)據(jù)結(jié)構(gòu)圖2.6CIF和QCIF視頻幀數(shù)據(jù)結(jié)構(gòu)37它分為4個(gè)層次:畫面、塊組(GOB)、宏塊(MB)和塊。其中,每個(gè)CIF畫面有12個(gè)GOB,每個(gè)塊組由3×11個(gè)宏塊組成,每個(gè)宏塊由4個(gè)8×8亮度塊(Y)和兩個(gè)8×8色度塊(Cb和Cr各1個(gè))組成,一個(gè)塊由8×8像素點(diǎn)(DCT編碼單位)組成。一個(gè)QCIF圖像有3個(gè)GOB,是CIF的四分之一。這種以塊為單位的層次結(jié)構(gòu)對(duì)高壓縮比視頻編碼算法來說是至關(guān)重要的。每個(gè)畫面層的數(shù)據(jù)中都有一個(gè)圖像標(biāo)題,圖像標(biāo)題后是GOB的數(shù)據(jù)。圖像標(biāo)題包括一個(gè)20位的圖像起始碼以及其它信息。例如,視頻編碼格式(CIF或QCIF)、臨時(shí)標(biāo)記(幀編號(hào))等。GOB層有一個(gè)塊組標(biāo)題,緊隨其后的是宏塊數(shù)據(jù)。塊組標(biāo)題包括一個(gè)16位的GOB起始碼以及其它信息。例如,GOB的位置、GOB量化信息等。它分為4個(gè)層次:畫面、塊組(GOB)、宏塊(38宏塊層有一個(gè)宏塊標(biāo)題,宏塊標(biāo)題之后是塊的數(shù)據(jù)。宏塊標(biāo)題包括一個(gè)該宏塊類型變長(zhǎng)碼(VLC)。其后是一個(gè)宏塊變長(zhǎng)碼,標(biāo)明是幀內(nèi)編碼還是幀間編碼,是否附帶運(yùn)動(dòng)預(yù)測(cè)和循環(huán)濾波器。根據(jù)宏塊的具體類型,后面還可以跟有各種各樣的附加信息。當(dāng)運(yùn)動(dòng)預(yù)測(cè)精確到某一給定的指標(biāo)時(shí),無需傳送DCT系數(shù)的塊數(shù)據(jù)。另外,在一個(gè)GOB中,如果某一宏塊中沒有包含圖像,則相應(yīng)部分的信息就不必傳送。塊層含有塊的DCT系數(shù),其后是一個(gè)定長(zhǎng)碼EOB,用以標(biāo)識(shí)塊的結(jié)束。塊的DCT系數(shù)利用了二維VLC編碼。宏塊中并不是每一個(gè)塊都需要傳送。宏塊層有一個(gè)宏塊標(biāo)題,宏塊標(biāo)題之后是塊的數(shù)392.視頻編碼算法圖2.7H.261編碼與解碼處理過程(a)視頻編碼器;(b)視頻解碼器2.視頻編碼算法圖2.7H.261編碼與解碼處理過40①被傳輸圖像的第1幀總是按幀內(nèi)編碼方法編碼(該幀的所有宏塊):·整個(gè)圖像幀被分成互不重疊的8×8像素塊;·對(duì)這些塊進(jìn)行FDCT變換;·對(duì)所產(chǎn)生的64個(gè)DCT系數(shù)進(jìn)行線性量化,并按“之”字形重新排列;·為幀間編碼準(zhǔn)備參照幀,即使用逆向量化器和IDCT變換在編碼器內(nèi)對(duì)該幀進(jìn)行解碼來恢復(fù),生成與接收端解碼器完全一致的參照幀,并存放在圖像存儲(chǔ)器中供幀間編碼使用。①被傳輸圖像的第1幀總是按幀內(nèi)編碼方法編碼41②對(duì)后續(xù)需要編碼的幀,要根據(jù)最新的參照幀進(jìn)行運(yùn)動(dòng)補(bǔ)償預(yù)測(cè),以決定該幀的每個(gè)宏塊是否進(jìn)行幀內(nèi)編碼或幀間編碼。H.261采用單向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)算法,即:·每個(gè)宏塊只使用4個(gè)亮度塊,針對(duì)當(dāng)前被編碼的宏塊,在參照幀中尋找最接近的匹配。H.261通過檢查宏塊計(jì)算運(yùn)動(dòng)補(bǔ)償值,運(yùn)動(dòng)向量的搜索范圍在±15個(gè)像素內(nèi)?!と绻也坏揭粋€(gè)最接近的匹配,則在該宏塊中使用與幀內(nèi)編碼完全相同的編碼方法。對(duì)運(yùn)動(dòng)向量進(jìn)行差分編碼,并以從左邊宏塊的運(yùn)動(dòng)向量作為參考。標(biāo)準(zhǔn)規(guī)定,編碼器不能用來確定運(yùn)動(dòng)向量,H.261只考慮連續(xù)幀中同一位置上宏塊之間的差異?!と绻?dāng)前塊與所預(yù)測(cè)塊之間的誤差小于某一閾值,則該塊可以略過不編碼。②對(duì)后續(xù)需要編碼的幀,要根據(jù)最新的參照幀42③必要時(shí)可以在源編碼器和熵編碼器之間使用循環(huán)濾波器,以濾掉高頻干擾,改善圖像質(zhì)量。這種方法特別適用于低數(shù)碼率的情況。④H.261的量化器是一種線性量化器,并非JPEG和MPEG中所使用的量化矩陣。它只是對(duì)GOB使用了量化系數(shù),并不區(qū)分高頻DCT系數(shù)和低頻DCT系數(shù)。⑤H.261的熵編碼是可變長(zhǎng)的,并對(duì)所有用到的哈夫曼表按標(biāo)準(zhǔn)進(jìn)行預(yù)定義,同時(shí)還定義了運(yùn)動(dòng)向量表和量化編碼表等。③必要時(shí)可以在源編碼器和熵編碼器之間使用循432.3.3H.263標(biāo)準(zhǔn)H.263是一種低數(shù)碼率下的運(yùn)動(dòng)圖像編碼標(biāo)準(zhǔn),它在H.261的基礎(chǔ)上進(jìn)行適當(dāng)?shù)臄U(kuò)展,主要是用于支持低數(shù)碼率下的視聽信號(hào)傳輸服務(wù)的。典型的應(yīng)用有:在V.34Modem的連接上采用20kb/s速率傳輸視頻信號(hào);采用6.5kb/s速率傳輸音頻信號(hào)。H.263吸取了MPEG的經(jīng)驗(yàn)對(duì)H.261進(jìn)行改進(jìn),主要進(jìn)行如下方面的擴(kuò)展:將圖像格式由兩種增加到五種、對(duì)運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)進(jìn)行改進(jìn)和精化以及支持雙向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)等。2.3.3H.263標(biāo)準(zhǔn)442.3.4MPEG標(biāo)準(zhǔn)MPEG(MovingPictureExpertsGroup)是ISO為制定有關(guān)動(dòng)態(tài)圖像壓縮標(biāo)準(zhǔn)而成立的一個(gè)專家組,現(xiàn)已經(jīng)公布了多個(gè)版本的MPEG標(biāo)準(zhǔn):MPEG-1、MPEG-2和MPEG-4,其中MPEG-1是MPEG標(biāo)準(zhǔn)集的基礎(chǔ),MPEG-2和MPEG-4都是在MPEG-1基礎(chǔ)上所作的改進(jìn)和擴(kuò)展,以滿足不同的應(yīng)用要求和環(huán)境。MPEG標(biāo)準(zhǔn)是一個(gè)通用標(biāo)準(zhǔn),既考慮了應(yīng)用要求,又獨(dú)立于具體的應(yīng)用。MPEG標(biāo)準(zhǔn)可用于下列數(shù)字存儲(chǔ)媒體上:光盤(CD-ROM)、數(shù)字錄音帶(DAT)、磁盤、可寫光盤以及通信網(wǎng)絡(luò)(綜合業(yè)務(wù)數(shù)字網(wǎng)、分組交換網(wǎng)以及局域網(wǎng)等)。2.3.4MPEG標(biāo)準(zhǔn)45MPEG標(biāo)準(zhǔn)不僅考慮了視頻數(shù)據(jù)壓縮,而且還考慮了音頻數(shù)據(jù)壓縮以及二者之間的同步問題。作為MPEG視頻壓縮算法,必須具有與存儲(chǔ)相適應(yīng)的性質(zhì),即能夠隨機(jī)訪問、快進(jìn)/快退檢索、倒放、音像同步、容錯(cuò)能力、延時(shí)限制、可編輯性以及靈活的視頻窗口格式。實(shí)現(xiàn)這些特性對(duì)各種應(yīng)用都是十分重要的,因而也構(gòu)成了MPEG視頻壓縮算法的基本特征。MPEG標(biāo)準(zhǔn)不僅考慮了視頻數(shù)據(jù)壓縮,而且還462.3.4.1MPEG-1標(biāo)準(zhǔn)
1.MPEG-1圖像組織結(jié)構(gòu)MPEG-1視頻壓縮算法所面臨的一個(gè)矛盾是:在保證圖像質(zhì)量的前提下,僅靠幀內(nèi)編碼很難達(dá)到高壓縮比;而滿足隨機(jī)訪問條件的最好方法則是幀內(nèi)編碼。為使高壓縮比和隨機(jī)訪問這兩方面要求都能得到滿足,MPEG-1采取了預(yù)測(cè)和插值兩種幀間編碼技術(shù)。2.3.4.1MPEG-1標(biāo)準(zhǔn)1.47為此,MPEG-1將圖像編碼幀分成三類:·I幀(Introcodedframe,內(nèi)幀):它采用與JPEG相類似的編碼方法進(jìn)行編碼,并且在編碼時(shí)不必參照其它的幀,其壓縮比是比較低的。I幀可作為隨機(jī)訪問點(diǎn)以及其它圖像編碼幀的參照幀。·P幀(Predictivelycodedframe,預(yù)測(cè)幀):它需要利用前面的I幀或P幀信息進(jìn)行編碼和解碼,同時(shí)又是后續(xù)P幀的參照幀。它利用了瞬時(shí)冗余特性,可獲得較高的壓縮比。然而只有對(duì)所參照的I幀和P幀完成解碼后才能訪問P幀?!幀(Bidirectionallypredictivelycodedframe,雙向預(yù)測(cè)幀):它需要利用前面和后面的I幀、P幀信息進(jìn)行編碼和解碼,但它本身不可作為參照幀。由于B幀使用了雙向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)技術(shù),故它的壓縮比是最高的。為此,MPEG-1將圖像編碼幀分成三類:48圖2.8MPEG-1視頻幀編碼及關(guān)系圖2.8MPEG-1視頻幀編碼及關(guān)系49圖2.9MPEG視頻流的數(shù)據(jù)層次圖2.9MPEG視頻流的數(shù)據(jù)層次502.MPEG-1視頻壓縮算法MPEG-1視頻壓縮算法采用兩種基本技術(shù):一是基于塊的運(yùn)動(dòng)補(bǔ)償預(yù)測(cè),以縮減時(shí)間冗余;二是基于DCT的變換編碼,以縮減空間冗余。運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)技術(shù)采用純預(yù)測(cè)編碼和插值預(yù)測(cè)編碼兩種編碼方法。剩余信號(hào)(預(yù)測(cè)誤差)在縮減空間冗余時(shí)被進(jìn)一步壓縮。與運(yùn)動(dòng)有關(guān)的信息包含在16×16塊中,與空間信息一起進(jìn)行DCT變換。為獲得最大限度的編碼效率,使用可變長(zhǎng)熵編碼器來壓縮運(yùn)動(dòng)信息。2.MPEG-1視頻壓縮算法51MPEG-1視頻的編碼與解碼處理過程如下:①每個(gè)GOP的第1幀總是I幀,它是按塊順序編碼的,即使用DCT變換、量化過程和熵編碼方法進(jìn)行中度壓縮,并作為參照幀和隨機(jī)訪問點(diǎn)。②當(dāng)GOP中出現(xiàn)B幀或P幀時(shí),將啟動(dòng)運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)過程,以獲取最佳的壓縮比。③對(duì)于P幀的編碼,運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)算法使用最近一個(gè)I幀或P幀作為參照幀。如果在當(dāng)前幀的宏塊與參照幀的宏塊之間找到一個(gè)較好的匹配,則對(duì)當(dāng)前幀的宏塊的運(yùn)動(dòng)向量和所得到的預(yù)測(cè)誤差進(jìn)行編碼;否則,只對(duì)該宏塊進(jìn)行幀內(nèi)編碼。MPEG-1視頻的編碼與解碼處理過程如下:52④對(duì)于B幀的編碼,其處理過程比較復(fù)雜,因?yàn)楸仨毧紤]四種可能性:正向預(yù)測(cè)、反向預(yù)測(cè)、插值和宏塊中的幀內(nèi)編碼(在前三者均不合適的情況下)。如果使用插值方法,則必須使用前、后兩個(gè)最近的I幀或P幀作為參照幀,并產(chǎn)生兩個(gè)運(yùn)動(dòng)向量和一個(gè)預(yù)測(cè)誤差塊,并且應(yīng)當(dāng)首先傳輸P幀和B幀的參照幀。④對(duì)于B幀的編碼,其處理過程比較復(fù)雜,53⑤MPEG-1標(biāo)準(zhǔn)采用了兩種結(jié)構(gòu)的量化器,根據(jù)幀內(nèi)編碼和幀間編碼不同的DCT系數(shù)性質(zhì)采用不同的量化矩陣,通過Q系數(shù)來控制編碼,以適應(yīng)編碼器的輸出數(shù)碼率。由于預(yù)測(cè)誤差塊主要是高頻信號(hào),可以采用粗粒度的量化器,以降低數(shù)碼率;幀內(nèi)編碼塊的信號(hào)頻率范圍較寬,則應(yīng)當(dāng)采用細(xì)粒度的量化器進(jìn)行精確編碼;否則,對(duì)于那些光滑邊界的塊,很小的誤差都會(huì)產(chǎn)生可察覺的塊邊界(即塊效應(yīng)現(xiàn)象)。因此,為了適應(yīng)人的視覺特性,必須對(duì)量化器進(jìn)行修正,重點(diǎn)對(duì)圖像中視覺效應(yīng)敏感部分進(jìn)行精確編碼,以消除塊效應(yīng)現(xiàn)象。這樣,既可滿足圖像數(shù)碼率的要求,又能改善圖像質(zhì)量。⑤MPEG-1標(biāo)準(zhǔn)采用了兩種結(jié)構(gòu)的量化器,54⑥MPEG-1的熵編碼過程可分成兩步:首先,進(jìn)行可變長(zhǎng)行程編碼(對(duì)出現(xiàn)概率較小的代碼)和定長(zhǎng)行程編碼(對(duì)出現(xiàn)概率最大的代碼);然后,使用帶有預(yù)定義表的哈夫曼編碼。通過熵編碼進(jìn)一步提高了DCT的壓縮比,同時(shí)減少運(yùn)動(dòng)信息對(duì)總數(shù)碼率的影響。MPEG-1的DCT系數(shù)的變長(zhǎng)碼是H.261標(biāo)準(zhǔn)中所使用變長(zhǎng)碼的一個(gè)超集。如果在一個(gè)處理器上同時(shí)實(shí)現(xiàn)這兩個(gè)標(biāo)準(zhǔn),則使用一個(gè)變長(zhǎng)碼即可,以減小開銷。在參照幀之間增加一定數(shù)量的B幀,既可降低B幀與參照幀之間相關(guān)性,也可降低參照幀之間的相關(guān)性。B幀的數(shù)量是隨視頻內(nèi)容而變化的,但對(duì)大多數(shù)視頻內(nèi)容而言,以1/10秒鐘的間隔將B幀插入到參照幀中是合適的。圖像的組合形式是:IBBPBBPBB…IBBPBB。⑥MPEG-1的熵編碼過程可分成兩步:首553.MPEG-1視頻約束參數(shù)集表2.3MPEG-1視頻約束參數(shù)集中的若干參數(shù)水平尺寸≤720pel(像素)垂直尺寸≤576pel(像素)微塊總數(shù)/圖像≤396微塊總數(shù)/秒≤396×25=330×30幀速率≤30幀/秒數(shù)碼率≤1.86Mb/s解碼緩沖區(qū)≤376832位3.MPEG-1視頻約束參數(shù)集表2.3MPEG-1562.3.4.2MPEG-2標(biāo)準(zhǔn)·支持2~100Mb/s速率的數(shù)字視頻傳輸?!た捎糜谥С指咔逦入娨暎℉DTV)格式?!ざx一種層次可伸縮的規(guī)范,用于支持全球范圍的TV/HDTV、視頻傳輸系統(tǒng)以及其它需要高級(jí)編碼的應(yīng)用?!は蛳录嫒莠F(xiàn)存的MPEG-1和H.261標(biāo)準(zhǔn)?!U(kuò)展了MPEG-1的運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)方法,并且允許其它的DCT系數(shù)。·定義了可伸縮的、層次化的編碼算法,使普通TV和HDTV系統(tǒng)可以使用相同的數(shù)據(jù)流。2.3.4.2MPEG-2標(biāo)準(zhǔn)·支持57MPEG-2標(biāo)準(zhǔn)主要由四部分組成:MPEG-2視頻、MPEG-2音頻、MPEG-2系統(tǒng)和MPEG-2一致性測(cè)試規(guī)范。從概念上講,MPEG-2和MPEG-1很相似,只是MPEG-2標(biāo)準(zhǔn)所覆蓋的應(yīng)用領(lǐng)域更加廣泛。最初制定MPEG-2標(biāo)準(zhǔn)的目標(biāo)是為了傳輸廣播電視質(zhì)量級(jí)的全數(shù)字視頻信號(hào)。后來MPEG-2標(biāo)準(zhǔn)被擴(kuò)展到其它領(lǐng)域,并得到很好的應(yīng)用,如傳輸速率更高的HDTV系統(tǒng)。MPEG-2標(biāo)準(zhǔn)主要由四部分組成:MP581.MPEG-2視頻MPEG-2視頻標(biāo)準(zhǔn)主要為傳輸電視質(zhì)量級(jí)的數(shù)字視頻信號(hào)而制定的,同時(shí)作為一種基于MPEG-1的擴(kuò)展標(biāo)準(zhǔn)完全兼容MPEG-1視頻標(biāo)準(zhǔn),并且還提供了隔行掃描視頻編碼格式和一些其它高級(jí)特性,支持HDTV的視頻傳輸。為了MPEG-2標(biāo)準(zhǔn)適用于更廣的應(yīng)用領(lǐng)域,使之具有較高可伸縮性,MPEG-2視頻標(biāo)準(zhǔn)定義了四種配置(Profile)和四種級(jí)別(Level)。Profile有Simple、Main、Main+和Next,主要定義了編碼的語法和算法;Level有Low、Main、High1440和High,主要定義了編碼的參數(shù),如采樣速率、圖像幀尺寸、編碼速率等。Profile和Level的組合構(gòu)成了處理不同位流的解碼器模式。其中,MainProfile和MainLevel組合起來可以解決90%的應(yīng)用問題。1.MPEG-2視頻592.MPEG-2音頻MPEG-2音頻標(biāo)準(zhǔn)用于支持低數(shù)碼率多通道音頻信號(hào)的編碼,它可以支持5路全帶寬的音頻通道(左、右聲道,中置和兩路環(huán)繞聲道),還可以有一個(gè)低頻增強(qiáng)信道,或者支持7路解說/多國語言通道。MPEG-2音頻標(biāo)準(zhǔn)中的立體聲和單聲道的編碼采樣速率為16kHz、22.05kHz和24kHz,只是MPEG-1音頻采樣速率的二分之一,目的是使每個(gè)聲音通道能夠在低于64kb/s的速率下傳送。MPEG-2音頻標(biāo)準(zhǔn)除了保持左、右聲道與MPEG-1標(biāo)準(zhǔn)相兼容外,還增加了幾個(gè)離散聲道(一個(gè)中置和兩路環(huán)繞聲道),明顯地改善了聲音效果。對(duì)于新增加的聲道,MPEG-2音頻標(biāo)準(zhǔn)采用了新的編碼方法。2.MPEG-2音頻603.MPEG-2系統(tǒng)MPEG-2系統(tǒng)標(biāo)準(zhǔn)定義MPEG-2視頻和音頻流的傳輸或存儲(chǔ)格式,以便于兩者的同步。它定義了兩種信息流格式:傳送流和程序流。傳送流格式適合在數(shù)據(jù)易丟失的的應(yīng)用場(chǎng)合,如在各種網(wǎng)絡(luò)環(huán)境下進(jìn)行數(shù)字電視和可視電話信號(hào)的傳輸,以及在各種存儲(chǔ)介質(zhì)上存儲(chǔ)視頻和音頻數(shù)據(jù)。程序流格式保持與MPEG-1相兼容,并且針對(duì)多媒體應(yīng)用領(lǐng)域進(jìn)行了優(yōu)化,包括對(duì)支持新的應(yīng)用的擴(kuò)展。傳送流和程序流都是建立在一種公共的分組結(jié)構(gòu)之上的,以便于視頻和音頻解碼的實(shí)現(xiàn)和類型轉(zhuǎn)換。在這種分組結(jié)構(gòu)中,每個(gè)傳送流分組的長(zhǎng)度是固定的,共188個(gè)字節(jié),包括4個(gè)字節(jié)的分組頭。這恰好是ATM信元體長(zhǎng)度(48個(gè)字節(jié))的4倍,因此,這種分組結(jié)構(gòu)特別適合在ATM網(wǎng)絡(luò)上傳輸。當(dāng)然,它也適合在其它網(wǎng)絡(luò)環(huán)境和存儲(chǔ)系統(tǒng)。3.MPEG-2系統(tǒng)612.3.4.3MPEG-4標(biāo)準(zhǔn)MPEG-4標(biāo)準(zhǔn)是數(shù)字超低數(shù)碼率的視頻編碼標(biāo)準(zhǔn)。主要適用于移動(dòng)多媒體通信的場(chǎng)合,特別是64kb/s速率下的視頻通信。MPEG-4視頻編碼方法采用與H.263標(biāo)準(zhǔn)相同的方法,并已經(jīng)開發(fā)出增強(qiáng)型的H.263,在不降低清晰度的前提下消除塊效應(yīng),以提高低數(shù)碼率下的視覺質(zhì)量。2.3.4.3MPEG-4標(biāo)準(zhǔn)622.3.5圖像質(zhì)量評(píng)價(jià)1.主觀評(píng)價(jià)表2.4圖像質(zhì)量主觀評(píng)價(jià)質(zhì)量分?jǐn)?shù)妨礙尺度質(zhì)量尺度54321絲毫看不出圖像質(zhì)量變壞可看出圖像質(zhì)量變化但不妨礙觀看明顯地看出圖像質(zhì)量變壞圖像質(zhì)量對(duì)觀看有妨礙圖像質(zhì)量對(duì)觀看有嚴(yán)重妨礙很好好一般差很差2.3.5圖像質(zhì)量評(píng)價(jià)1.主觀評(píng)價(jià)表2.463為了保證圖像質(zhì)量主觀評(píng)價(jià)的客觀性和準(zhǔn)確性,可用一定數(shù)量觀察者的質(zhì)量分?jǐn)?shù)的平均值作為最終主觀評(píng)價(jià)結(jié)果,其平均分?jǐn)?shù)定義為:其中,Ci為屬于第i類圖像的質(zhì)量分?jǐn)?shù),Ki為判斷該圖像屬于第i類圖像的人數(shù)。觀察者中應(yīng)包括兩類人員:一般人員和專業(yè)人員,人數(shù)應(yīng)多于20,這樣,得出的主觀評(píng)價(jià)結(jié)果才具有統(tǒng)計(jì)意義。為了保證圖像質(zhì)量主觀評(píng)價(jià)的客觀性和準(zhǔn)確性,642.客觀評(píng)價(jià)圖像客觀評(píng)價(jià)是用數(shù)學(xué)計(jì)算方法得到的。通常,采用計(jì)算圖像逼真度和可懂度來評(píng)價(jià)。所謂圖像逼真度,是指重建圖像與原始圖像之間的偏差程度;所謂圖像可懂度,是表示人或機(jī)器能從圖像中抽取有關(guān)信息的程度。下面主要討論圖像逼真度。通常,圖像逼真度用峰值信噪比PSNR來度量。對(duì)于黑白圖像,PSNR計(jì)算公式為2.客觀評(píng)價(jià)65式中,f(i,j)為原始圖像,f′(i,j)為重建圖像,圖像尺寸為N×M,A為f(i,j)中的最大值,通常取255。此外,也可使用均方差方法來計(jì)算圖像誤差,其數(shù)學(xué)表達(dá)式為:式中,f(i,j)為原始圖像,f′(i,j)為重建662.4語音編碼標(biāo)準(zhǔn)音頻編碼技術(shù)可分成兩大類:一類是波形編碼或稱真跡編碼;另一類是參量編碼或稱變換域編碼。前者是將時(shí)間域信號(hào)直接變換成數(shù)字代碼進(jìn)行傳輸。其特點(diǎn)是重建信號(hào)的質(zhì)量較高,即信號(hào)的信噪比高。傳輸數(shù)碼率為16~64kb/s,依所采用的編碼方法而異。后者是在信號(hào)源信號(hào)的頻率域或其它正交域抽取其特征參數(shù)變換成數(shù)字代碼進(jìn)行傳輸,接收端則從數(shù)字代碼中恢復(fù)特征參數(shù),然后根據(jù)這些特征參數(shù)重建語音信號(hào)。其特點(diǎn)是重建信號(hào)的質(zhì)量較低,但數(shù)碼率也比較低,一般為幾百b/s~9600b/s,多用于窄帶信道傳輸。各種音頻編碼技術(shù)比較參見表2.5。2.4語音編碼標(biāo)準(zhǔn)音頻編碼技術(shù)可分成兩67表2.5各種音頻編碼技術(shù)比較編碼類型數(shù)碼率/(Kb/s)復(fù)雜度/(MI/s)復(fù)雜度/(MI/s)波形編碼:PCMADPCM自適應(yīng)子頻帶6432160.010.110025參量編碼:多脈沖線性預(yù)測(cè)隨機(jī)激勵(lì)線性預(yù)測(cè)線性預(yù)測(cè)聲碼器842101001353535表2.5各種音頻編碼技術(shù)比較編碼類型數(shù)碼率/682.4.1PCM編碼脈沖編碼調(diào)制(PulseCodeModulation,PCM)是一種在現(xiàn)代通信系統(tǒng)中被廣泛應(yīng)用的語音編碼技術(shù),也是數(shù)字傳輸中的標(biāo)準(zhǔn)接口信號(hào)。ITU在G.711建議書中定義了PCM編碼方法及其標(biāo)準(zhǔn)。PCM編碼的主要優(yōu)點(diǎn)是:①編碼方法簡(jiǎn)單,不需要用復(fù)雜的信號(hào)處理技術(shù)就可實(shí)現(xiàn)數(shù)據(jù)壓縮,而無任何信號(hào)延遲;②基于對(duì)話音信號(hào)波形采樣的瞬時(shí)處理,具有較高的信噪比。2.4.1PCM編碼69圖2.10PCM組成原理框圖圖2.10PCM組成原理框圖70對(duì)于電話信號(hào)編碼,由于其信號(hào)帶寬為300~3400Hz,通常采用8kHz頻率進(jìn)行采樣,而每一個(gè)采樣脈沖用8位二進(jìn)制碼表示。這樣,每個(gè)話音通道的數(shù)碼率為:f=8000×8=64kb/s對(duì)于采用8位編碼的正弦波信號(hào),其最大信噪比按下式計(jì)算:SNR(dB)=6.02×L+1.76=6.02×8+1.76=49.92dB式中,L為二進(jìn)制編碼位數(shù)。對(duì)于電話信號(hào)編碼,由于其信號(hào)帶寬為300~71如果要求信噪比至少保持在34dB以上,則信號(hào)的動(dòng)態(tài)范圍應(yīng)當(dāng)為49.92-34=15.92dB,顯然這一動(dòng)態(tài)范圍遠(yuǎn)不能滿足要求。為了擴(kuò)大信號(hào)的動(dòng)態(tài)范圍,通常采用瞬時(shí)壓擴(kuò)特性。瞬時(shí)壓擴(kuò)的目的是使信號(hào)在大的動(dòng)態(tài)范圍內(nèi)具有均勻一致的信噪比。瞬時(shí)壓擴(kuò)的方法主要采用對(duì)數(shù)壓擴(kuò)特性,即用一條通過原點(diǎn)正負(fù)對(duì)稱的曲線逼近對(duì)數(shù)函數(shù),以實(shí)現(xiàn)對(duì)正負(fù)對(duì)稱信號(hào)的對(duì)數(shù)壓縮。在ITUG.711建議中,定義了兩種對(duì)數(shù)壓擴(kuò)特性,一種是15段折線近似是μ律;另一種是以13段折線近似是A律,美國、日本等國家在數(shù)字通信中采用μ律壓擴(kuò)特性,中國和歐洲一些國家采用A律壓擴(kuò)特性。如果要求信噪比至少保持在34dB以上,則72PCM編碼/解碼器通常采用單片集成電路(IC)芯片實(shí)現(xiàn),它將濾波、放大、量化、壓擴(kuò)、編碼以及解碼等功能集成一體,具有處理速度快、體積小、成本低、便于開發(fā)等特點(diǎn)。例如,美國Motorola公司的MC14403就是這種單片PCM編碼/解碼器。PCM編碼/解碼器通常采用單片集成電路(IC732.4.2ADPCM編碼通常,把低于64kb/s數(shù)碼率的的語音編碼方法稱為語音壓縮編碼,其中自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)是語音壓縮編碼中復(fù)雜度較低的一種方法。ADPCM能在32kb/s數(shù)碼率上達(dá)到符合64kb/s數(shù)碼率的語音質(zhì)量要求,即符合長(zhǎng)途電話的語音質(zhì)量要求。ADPCM編碼的國家標(biāo)準(zhǔn)是ITUG.721。在電話通信網(wǎng)中,32kb/sADPCM主要用于擴(kuò)充現(xiàn)有的PCM信道傳輸容量,把兩個(gè)30路PCM信號(hào)合并成一個(gè)2Mb/s的60路ADPCM信號(hào)。通常,在信道所傳輸?shù)男盘?hào)中,既有話音信號(hào),又有Modem信號(hào)或音頻信令信號(hào)。對(duì)于話音信號(hào),其信號(hào)電平動(dòng)態(tài)范圍比較大;對(duì)于Modem信號(hào)或音頻信令信號(hào),其信號(hào)電平變化的范圍遠(yuǎn)小于話音信號(hào)。因此,對(duì)這兩類不同的信號(hào),要求自適應(yīng)量化器能夠自動(dòng)調(diào)節(jié)自適應(yīng)的速度。2.4.2ADPCM編碼74圖2.11一種簡(jiǎn)化的ADPCM編解碼器原理框圖(a)ADPCM編碼器;(b)ADPCM解碼器圖2.11一種簡(jiǎn)化的ADPCM編解碼器原理框圖75第2章多媒體信息編碼2.1引言2.2基本編碼方法2.3圖像編碼標(biāo)準(zhǔn)2.4語音編碼標(biāo)準(zhǔn)第2章多媒體信息編碼2.1引言762.1引言表2.1連續(xù)媒體數(shù)據(jù)類型特征舉例媒體類型數(shù)據(jù)速率說明語音質(zhì)量音頻CD質(zhì)量音頻MPEG-2編碼視頻NTSC質(zhì)量視HDTV質(zhì)量視頻64kb/s1.4Mb/s3.36Mb/s216Mb/s648Mb/s1個(gè)信道,8kHz條樣速率,8位量化2個(gè)信道,44.1kHz條樣速率,16位量化640*480像素/幀,24位/像素,30幀/秒640*480像素/幀,24位/像素,30幀/秒1280*720像素/幀,24位/像素,30幀/秒2.1引言表2.1連續(xù)媒體數(shù)據(jù)類型特征舉例77數(shù)據(jù)壓縮處理一般由兩個(gè)過程組成:一是編碼過程,即對(duì)原始數(shù)據(jù)進(jìn)行編碼壓縮,以便存儲(chǔ)和傳輸;二是解碼過程,即對(duì)壓縮的數(shù)據(jù)進(jìn)行解壓,恢復(fù)成可用的數(shù)據(jù)。根據(jù)解壓后數(shù)據(jù)的保真度,數(shù)據(jù)壓縮技術(shù)可分為無損壓縮編碼和有損壓縮編碼兩大類。無損壓縮編碼是指解碼后的數(shù)據(jù)與原始數(shù)據(jù)完全相同,無任何偏差。這種編碼通?;谛畔㈧卦?常用的編碼有哈夫曼編碼、算術(shù)編碼、行程編碼等。它的壓縮能力與所處理數(shù)據(jù)的類型有關(guān),壓縮比通常比較低,一般在2∶1~5∶1。主要用于要求數(shù)據(jù)無損壓縮存儲(chǔ)和傳輸?shù)膱?chǎng)合,如傳真機(jī)、文本文件傳輸?shù)?。?shù)據(jù)壓縮處理一般由兩個(gè)過程組成:一是編碼過78有損壓縮編碼是指解碼后的數(shù)據(jù)與原始數(shù)據(jù)相比有一定的偏差,但仍可保持一定的視聽質(zhì)量和效果。它主要利用人的視、聽覺特性,在保持一定保真度下對(duì)數(shù)據(jù)進(jìn)行壓縮,其壓縮比可達(dá)100∶1。壓縮比愈高,其解壓縮后的視、音頻質(zhì)量就愈低。這種編碼方法有很多種,如基于線性預(yù)測(cè)原理的預(yù)測(cè)編碼、基于正交變換原理的正交變換編碼、基于向量量化原理的向量量化編碼、基于分層處理的分層編碼以及基于頻帶分割原理的子帶編碼等。主要用于對(duì)音頻和視頻數(shù)據(jù)的壓縮。有損壓縮編碼是指解碼后的數(shù)據(jù)與原始數(shù)據(jù)相比有79多媒體信息編碼技術(shù)主要側(cè)重于有損壓縮編碼的研究。經(jīng)過多年的研究與開發(fā),已經(jīng)出臺(tái)了一系列有關(guān)的國際標(biāo)準(zhǔn)。其中,最著名的是國際標(biāo)準(zhǔn)組織(ISO)制定的JPEG和MPEG。JPEG是靜止圖像的壓縮標(biāo)準(zhǔn),其壓縮比可達(dá)40∶1。MPEG(MPEG-1、MPEG-2及MPEG-4)是動(dòng)態(tài)圖像的壓縮標(biāo)準(zhǔn),采用MPEG-2標(biāo)準(zhǔn)對(duì)NTSC質(zhì)量視頻進(jìn)行壓縮后,網(wǎng)絡(luò)帶寬需求可降低到3.36Mb/s。其它的標(biāo)準(zhǔn)還有國際電信聯(lián)合會(huì)(ITU)制定的用于可視電話、會(huì)議電視的H.261和H.263;用于音頻的G.711、G.721、G.728等。多媒體信息編碼技術(shù)主要側(cè)重于有損壓縮編碼的研究802.2基本編碼方法2.2.1行程編碼行程編碼是一種簡(jiǎn)單的無損壓縮編碼方法,它通過壓縮原始數(shù)據(jù)中相同的字節(jié)序列實(shí)現(xiàn)數(shù)據(jù)壓縮。在圖像和聲音數(shù)據(jù)中可能包含大量的相同字節(jié)連續(xù)重復(fù)的序列,通過行程編碼可以將這些重復(fù)字節(jié)壓縮掉,取而代之的是一個(gè)更加緊密的字節(jié)序列。例如,一個(gè)原始數(shù)據(jù)字符串為RTTTTTTTTABBCDGHJK,采用行程編碼后的字符串為R#8TABBCDGHJK,這里用#8T替換掉8個(gè)T字符,符號(hào)“?!笔翘厥鈽?biāo)識(shí)符,用于表示行程編碼。如果原始數(shù)據(jù)字符串也包含了“#”符號(hào),則必須用兩個(gè)“?!狈?hào)替換掉原始數(shù)據(jù)字符串中的“?!狈?hào)。2.2基本編碼方法2.2.1行程編碼812.2.2哈夫曼編碼哈夫曼(Huffman)編碼是一種無損壓縮編碼方法,它根據(jù)信源符號(hào)出現(xiàn)的概率大小進(jìn)行排序,出現(xiàn)的概率大的符號(hào)分配短碼,反之分配長(zhǎng)碼。在分配代碼過程中,需要建立一個(gè)n階二叉樹,其編碼過程如下:①對(duì)信源符號(hào)按其出現(xiàn)的概率進(jìn)行遞減排序;②將兩個(gè)最小的概率相加,其和作為新符號(hào)的概率;③重復(fù)①和②,直到概率之和達(dá)到1為止;④每次合并消息時(shí),將被合并的消息賦予1和0或者0和1;⑤尋找從每個(gè)信源符號(hào)到概率為1處的路徑,記錄下路徑上的1和0;⑥從樹根節(jié)點(diǎn)到葉子節(jié)點(diǎn),對(duì)每個(gè)信源符號(hào)列出0、1序列。2.2.2哈夫曼編碼82例如,A、B、C、D四個(gè)字符出現(xiàn)的概率分別為:P(A)=3/4;P(B)=1/8;P(C)=1/16;P(D)=1/16,按照上述編碼過程將生成如圖2.1所示的二叉樹,獲得的編碼結(jié)果是:H(A)=1;H(B)=01;H(C)=001;H(D)=000,該結(jié)果存放在哈夫曼表中。圖2.1哈夫曼編碼生成的二叉樹例如,A、B、C、D四個(gè)字符出現(xiàn)的概率分別832.2.3離散余弦變換編碼變換編碼主要有離散傅立葉變換(DFT)編碼、離散余弦變換(DCT)編碼等。其中,DCT編碼方法被普遍使用,在JPEG、MPEG和H.261等標(biāo)準(zhǔn)中都采用了DCT編碼。由于聲音信號(hào)只有一個(gè)時(shí)間維,因此音頻信號(hào)壓縮采用一維DCT編碼,而圖像壓縮必須考慮水平和垂直兩個(gè)方向,因此圖像壓縮則采用二維DCT編碼。2.2.3離散余弦變換編碼變換編碼主要84DCT編碼方法是對(duì)一個(gè)8×8圖像塊灰度樣本數(shù)據(jù)流進(jìn)行壓縮,而彩色圖像壓縮可看成是壓縮圖像的多個(gè)分量。在編碼器中,首先將源圖像8×8樣本數(shù)據(jù)塊(像素塊)的取值范圍由[0,2p-1](無符號(hào))轉(zhuǎn)換成[-2p-1,2p-1-1](有符號(hào)),其中p為樣本定義的精度。然后對(duì)8×8樣本數(shù)據(jù)塊進(jìn)行正向離散余弦變換(FDCT)。在解碼器中,利用逆向離散余弦變換(IDCT)重建8×8樣本數(shù)據(jù)塊,恢復(fù)圖像。FDCT和IDCT的數(shù)學(xué)表達(dá)式如(1)式和(2)式所示:DCT編碼方法是對(duì)一個(gè)8×8圖像塊灰度樣85式中:u,v=00其它式中:u,v=086源圖像8×8樣本數(shù)據(jù)塊實(shí)質(zhì)上是64點(diǎn)離散信號(hào)(空間范圍x和y的函數(shù)),FDCT將其變換成64個(gè)正交基信號(hào),FDCT的輸出是64個(gè)DCT系數(shù)(即基信號(hào)振幅)。在x、y兩個(gè)方向頻率都為零的系數(shù)叫直流系數(shù)(DC),其余63個(gè)系數(shù)是交流系數(shù)(AC)。由于圖像幀上點(diǎn)與點(diǎn)之間的樣本值變化比較緩慢,大多數(shù)信號(hào)集中在低頻區(qū)。源圖像8×8樣本數(shù)據(jù)塊實(shí)質(zhì)上是64點(diǎn)離散信號(hào)(872.2.4差分脈沖編碼調(diào)制圖2.2DPCM編解碼器原理框圖(a)DPCM編碼器;(b)DPCM解碼器2.2.4差分脈沖編碼調(diào)制圖2.2DPCM編解碼882.2.5運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼是一種主要用于動(dòng)態(tài)圖像的壓縮的預(yù)測(cè)編碼。動(dòng)態(tài)圖像是由一系列視頻幀組成,幀與幀之間可能存在著瞬時(shí)冗余,這種瞬時(shí)冗余主要是由靜態(tài)背景前的運(yùn)動(dòng)物體或攝像機(jī)的移動(dòng)引起的。運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼主要通過幀間編碼來壓縮時(shí)間冗余信息。其基本原理如下:①在視頻幀序列中設(shè)置參照幀,且第1幀總是參照幀。②對(duì)于當(dāng)前的編碼幀,首先在該幀的前幀和/或后幀(參照幀)中尋找與該幀的一個(gè)圖像塊相匹配的圖像塊。2.2.5運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼運(yùn)動(dòng)補(bǔ)償預(yù)89③如果找到這樣的塊,則進(jìn)行下列計(jì)算:·當(dāng)前塊的塊亮度值與參照幀中對(duì)應(yīng)塊(稱參照塊)的塊亮度值之間的差值信號(hào)(DPCM碼);·當(dāng)前塊相對(duì)于參照塊在x和y兩個(gè)方向上的運(yùn)動(dòng)向量值,表示該塊在x和y方向上的平移。通過定義一個(gè)搜索域來限制x和y方向上的搜索范圍,以降低運(yùn)動(dòng)信息的開銷;·用差值信號(hào)和運(yùn)動(dòng)向量值來表示參照塊與所預(yù)測(cè)塊之間的誤差,稱為預(yù)測(cè)誤差。這時(shí),只需對(duì)當(dāng)前塊的運(yùn)動(dòng)向量值和預(yù)測(cè)誤差進(jìn)行編碼,不必對(duì)當(dāng)前塊的圖像進(jìn)行編碼,以壓縮時(shí)間冗余信息。③如果找到這樣的塊,則進(jìn)行下列計(jì)算:90④如果找不到這樣的塊,則必須進(jìn)行幀內(nèi)編碼,即對(duì)當(dāng)前塊的圖像進(jìn)行編碼。運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)編碼可分成下列三種方式:①單向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè):只使用前參照幀或后參照幀之一進(jìn)行預(yù)測(cè)。②雙向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè):使用前、后兩個(gè)幀作為參照幀來計(jì)算各塊的運(yùn)動(dòng)向量,最后只選擇具有最小匹配誤差的參照幀相關(guān)的運(yùn)動(dòng)向量值。③插值運(yùn)動(dòng)補(bǔ)償預(yù)測(cè):使用前參照幀和后參照幀兩者預(yù)測(cè)值的平均值。這時(shí),必須分別存儲(chǔ)和傳輸這兩個(gè)運(yùn)動(dòng)向量。④如果找不到這樣的塊,則必須進(jìn)行幀內(nèi)編碼,即912.3圖像編碼標(biāo)準(zhǔn)2.3.1JPEG標(biāo)準(zhǔn)JPEG(JointPhotographicExpertsGroup)是ISO為制定有關(guān)靜態(tài)圖像壓縮標(biāo)準(zhǔn)而成立的一個(gè)專家組,現(xiàn)已公布了JPEG標(biāo)準(zhǔn),標(biāo)準(zhǔn)號(hào)為ISOCD10918。JPEG作為一種靜態(tài)圖像壓縮編碼的國際標(biāo)準(zhǔn),在實(shí)際中得到廣泛的應(yīng)用。JPEG圖像壓縮技術(shù)具有如下特點(diǎn):①能夠大范圍地調(diào)節(jié)圖像壓縮率及其相應(yīng)的圖像保真度,解碼器可參數(shù)化。使用戶在具體應(yīng)用時(shí)可以選擇所期望的壓縮率/質(zhì)量比。2.3圖像編碼標(biāo)準(zhǔn)2.3.1JPEG標(biāo)準(zhǔn)92②能夠應(yīng)用于任何連續(xù)色調(diào)數(shù)字源圖像(實(shí)際應(yīng)用中可能遇到的圖像有很多種,故不限制圖像的尺寸、色彩級(jí)差、像素長(zhǎng)寬比等條件),不限制圖像的景象內(nèi)容(如復(fù)雜性、色彩范圍或統(tǒng)計(jì)特性)。③能夠在具有一定能力的CPU上實(shí)現(xiàn)所要求的功能,以利于操縱復(fù)雜的計(jì)算軟件,并用可接受的硬件成本實(shí)現(xiàn)具有高性能要求的應(yīng)用。②能夠應(yīng)用于任何連續(xù)色調(diào)數(shù)字源圖像(實(shí)際應(yīng)用93④規(guī)定了4種運(yùn)行模式,以滿足各種需要:·順序編碼:按從左到右、從上到下的順序?qū)D像進(jìn)行掃描和編碼。這種模式是基準(zhǔn)模式,各種JPEG實(shí)現(xiàn)都要支持這種模式?!みf增編碼:對(duì)于變換時(shí)間較長(zhǎng)的掃描器,按由粗到細(xì)的過程,以復(fù)合掃描順序進(jìn)行圖像編碼?!o損編碼:保證準(zhǔn)確地恢復(fù)圖像所有樣本值的圖像編碼。與有損模式相比,其壓縮比低。·分層編碼:以多種分辨率進(jìn)行圖像編碼,可直接獲得低分辨率圖像,重建復(fù)原全圖。
④規(guī)定了4種運(yùn)行模式,以滿足各種需要:94
1.JPEG圖像模型JPEG標(biāo)準(zhǔn)采用一種通用的圖像模型,能夠適用大多數(shù)常用的二維圖像格式。這種圖像模型是從各種圖像格式和應(yīng)用中抽象出來的,而且只包括那些壓縮和重構(gòu)數(shù)字圖像所必需的數(shù)據(jù)。JPEG壓縮數(shù)據(jù)格式?jīng)]有提供關(guān)于表示完整圖像的編碼信息。例如,JPEG沒有定義和編碼任何有關(guān)像素尺寸比、色彩間隔和圖像獲取特點(diǎn)等信息。通常,JPEG的一幀源圖像包含有1~255個(gè)圖像成分,稱為顏色平面或組元。每個(gè)組元是一個(gè)樣本點(diǎn)矩陣,樣本定義的精度為p位,取值范圍是[0,2p-1],所有成分的所有樣本點(diǎn)精度都是同一個(gè)p。對(duì)基于DCT的Codec,p取8或12;對(duì)基于DPCM的Codec,p取2~16。1.JPEG圖像模型95每個(gè)平面沿水平和垂直方向的像素?cái)?shù)可能是不同的,但必須使用同樣多的位數(shù)對(duì)所有平面的所有像素進(jìn)行編碼。例如,顏色平面可以分配給RGB(紅、綠、藍(lán))三色,也可以分配給YUV(一個(gè)亮度和兩個(gè)色度),各種模型都定義自己的精度?;叶葓D一般由一個(gè)組元構(gòu)成;GB彩圖有三個(gè)等分辨率的組元;YUV彩圖通常對(duì)圖的色度組元衰減采樣,以減少存儲(chǔ)量。例如,采用4∶1∶1形式,色度的水平和垂直分辨率組元只是亮度的一半。這主要基于如下事實(shí):人的視覺對(duì)亮度組元十分敏感,對(duì)色度組元的敏感性較低。每個(gè)平面沿水平和垂直方向的像素?cái)?shù)可能是不同的96圖2.3像素塊和“之”字形處理順序(a)8×8像素塊;(b)“之”字形順序圖2.3像素塊和“之”字形處理順序972.JPEG編碼方法圖2.4DCT編碼和解碼過程(a)DCT編碼過程;(b)DCT解碼過程2.JPEG編碼方法圖2.4DCT編碼和解碼過程98在編碼器中,首先由FDCT對(duì)源圖像8×8樣本數(shù)據(jù)塊進(jìn)行正向離散余弦變換,FDCT將輸出64個(gè)DCT系數(shù),其中1個(gè)是直流系數(shù)(DC),其余63個(gè)是交流系數(shù)(AC)。量化器對(duì)FDCT輸出的每個(gè)DCT系數(shù)進(jìn)行量化處理。量化的目的是去除那些無顯著視覺意義的高頻信息。在量化時(shí),每個(gè)DCT系數(shù)與量化表中的64個(gè)元素進(jìn)行舍取運(yùn)算。量化表是由開發(fā)者指定并輸入到編碼器中。量化計(jì)算公式如下:在編碼器中,首先由FDCT對(duì)源圖像8×8樣本99經(jīng)過量化處理后,DC系數(shù)從63個(gè)AC系數(shù)中分離出來進(jìn)行單獨(dú)處理,因?yàn)镈C系數(shù)代表了相當(dāng)一部分圖像信息。所有的量化系數(shù)按“之”字形順序排列,低頻系數(shù)將排在高頻系數(shù)之前,以利于實(shí)現(xiàn)熵編碼。在熵編碼處理之前,先對(duì)DC系數(shù)進(jìn)行DPCM編碼,對(duì)AC系數(shù)進(jìn)行行程編碼。由于大多數(shù)AC系數(shù)都為零,只有少數(shù)不為零,行程編碼將壓縮AC系數(shù)中零值序列,對(duì)非零系數(shù)進(jìn)行有效編碼。行程編碼分為兩步處理:先將量化的DCT系數(shù)轉(zhuǎn)換成中間符號(hào)序列,再向符號(hào)分配可變長(zhǎng)代碼。經(jīng)過量化處理后,DC系數(shù)從63個(gè)AC系數(shù)中100中間符號(hào)序列是一種雙符號(hào)序列。對(duì)于AC系數(shù),符號(hào)1表示兩部分信息:行程和位長(zhǎng),行程取值為0~15,位長(zhǎng)取值0~10;符號(hào)2表示振幅信息,即非零系數(shù)大小。對(duì)于DC系數(shù),符號(hào)1表示位長(zhǎng)信息,符號(hào)2表示振幅信息。由于DC系數(shù)有別于AC系數(shù),故它的符號(hào)1取值范圍是1~11。為其分配的代碼是可變長(zhǎng)的,以便于使用熵編碼進(jìn)行壓縮處理。熵編碼是按DCT系數(shù)的統(tǒng)計(jì)特征對(duì)量化系數(shù)進(jìn)一步編碼,實(shí)現(xiàn)無損壓縮。JPEG規(guī)定了兩種熵編碼方法:哈夫曼編碼和算術(shù)編碼。對(duì)于哈夫曼編碼所需的哈夫曼表,JPEG標(biāo)準(zhǔn)沒有作具體規(guī)定,這由開發(fā)者根據(jù)應(yīng)用需要來決定。中間符號(hào)序列是一種雙符號(hào)序列。對(duì)于AC系數(shù),101JPEG還要對(duì)成分所用的表進(jìn)行控制,以保證將適當(dāng)?shù)谋碛糜谶m當(dāng)?shù)某煞?。?duì)一個(gè)成分中所有樣本進(jìn)行編碼時(shí),必須使用同一個(gè)量化表和同一套熵編碼表。JPEG解碼器同時(shí)存放4個(gè)不同的量化表和4套不同的熵編碼表(順序掃描解碼器例外,它只能存放2套熵編碼表),這對(duì)解碼時(shí)為多成分圖像切換不同的適用表來說是必要的。與上述編碼過程相反,在解碼處理過程中首先是熵解碼過程,然后是解量化過程,它是將量化函數(shù)值乘以步長(zhǎng),其結(jié)果作為IDCT的輸入量,最后執(zhí)行IDCT,重建8×8樣本數(shù)據(jù)塊,形成重建圖像。JPEG還要對(duì)成分所用的表進(jìn)行控制,以保證102JPEG標(biāo)準(zhǔn)對(duì)數(shù)據(jù)壓縮和圖像質(zhì)量的關(guān)系進(jìn)行了詳細(xì)說明。對(duì)于具有中度復(fù)雜景象的彩色圖像,所有DCT運(yùn)行模式都可生成以下幾種圖像質(zhì)量水平(按圖壓縮率表示):·0.25~0.5位/像素:圖像質(zhì)量中等,可滿足一般的應(yīng)用需求;·0.5~0.75位/像素:圖像質(zhì)量好,可滿足有一定圖像質(zhì)量要求的應(yīng)用需求;·0.75~1.5位/像素:圖像質(zhì)量很好,可滿足有較高圖像質(zhì)量要求的應(yīng)用需求;·1.5~2.0位/像素:圖像質(zhì)量極好,已難以分辨重建圖像與源圖像間的差別,可滿足有更高圖像質(zhì)量要求的應(yīng)用需求。JPEG標(biāo)準(zhǔn)對(duì)數(shù)據(jù)壓縮和圖像質(zhì)量的關(guān)系進(jìn)行了1033.JPEG其它運(yùn)行模式(1)遞增運(yùn)行模式它也是由FDCT和量化過程構(gòu)成的。所不同的是,圖像分量是多次掃描編碼,第一次掃描編碼產(chǎn)生的圖像是粗糙的,然后可再組織后續(xù)的掃描,對(duì)圖像逐步求精,直到達(dá)到量化表所規(guī)定的圖像質(zhì)量水平。這種運(yùn)行模式的優(yōu)點(diǎn)是可生成預(yù)顯示的圖像,而無需對(duì)該圖像完全解碼,可以迅速地傳輸和顯示圖像。這里有兩種對(duì)量化DCT系數(shù)進(jìn)行編碼的方法:一是在一次掃描中,只對(duì)“之”字形順序中一個(gè)特定“波段”的系數(shù)進(jìn)行編碼,這一過程叫“頻譜選擇”;二是在當(dāng)前波段中,無需在一次掃描中對(duì)全部系數(shù)進(jìn)行準(zhǔn)確編碼,可首先指定N個(gè)最有意義的位先編碼,在后面的掃描中,再對(duì)其次有意義位進(jìn)行編碼,這個(gè)過程叫連續(xù)逼近。上述兩種方法可分別使用,也可靈活組合使用。3.JPEG其它運(yùn)行模式104(2)無損運(yùn)行模式它與源編碼過程不同,不是采用變換編碼和量化器相結(jié)合的方式進(jìn)行編碼,而是采用DPCM技術(shù)進(jìn)行無損壓縮編碼,但壓縮率較低。這種運(yùn)行模式主要用于無損地存儲(chǔ)和傳輸圖像(如X光照片)的場(chǎng)合。對(duì)基于DPCM的無損壓縮模式,JPEG沒有嚴(yán)格規(guī)定。對(duì)于中等復(fù)雜程序的彩圖,其壓縮比為2∶1。(2)無損運(yùn)行模式105(3)分層運(yùn)行模式它提供一種“金字塔”式分辨率圖像編碼,即相鄰兩次編碼,分辨率在水平或垂直、或者兩個(gè)方向上相差二倍。其過程是:先降低源圖的分辨率,對(duì)其采樣編碼,再復(fù)原重建;然后提高分辨率再采樣編碼,作為源圖的預(yù)測(cè)值,與低分辨率采樣值進(jìn)行比較,對(duì)其差值分別進(jìn)行編碼;重復(fù)上述步驟,直到實(shí)現(xiàn)圖像的全分辨率編碼。這種運(yùn)行模式很適合于用低分辨率設(shè)備處理高分辨率圖像的應(yīng)用。(3)分層運(yùn)行模式1062.3.2H.261標(biāo)準(zhǔn)為了滿足在綜合數(shù)字網(wǎng)絡(luò)(ISDN)上開展可視通信業(yè)務(wù)的需要,ITU專門成立了一個(gè)可視電話編碼規(guī)范小組來制定有關(guān)視頻信號(hào)傳輸編碼標(biāo)準(zhǔn),并先后完成了H.261和H.263標(biāo)準(zhǔn)的制定工作。H.261是“p×64kb/s視頻編解碼器”標(biāo)準(zhǔn),其中p的取值范圍在1~30之間,代表ISDN的B通道數(shù)量,各個(gè)通道的數(shù)碼率為64kb/s。由于H.261主要是為可視電話和電視會(huì)議制定的,因此,標(biāo)準(zhǔn)中所建議的視頻編碼算法應(yīng)具有實(shí)時(shí)處理能力,延時(shí)應(yīng)控制到最小程度。當(dāng)p=1或2時(shí),由于數(shù)碼率較低,僅能用于桌面上進(jìn)行面對(duì)面直觀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025便利店智能支付系統(tǒng)引入合同3篇
- 二零二五版游泳教學(xué)服務(wù)合同模板
- 2025年度消防演練場(chǎng)地租賃與組織服務(wù)合同3篇
- 二零二五年度水電設(shè)備調(diào)試與性能檢測(cè)合同3篇
- 專業(yè)化電力工程服務(wù)協(xié)議模板2024版
- 二零二五年電子商務(wù)平臺(tái)數(shù)據(jù)加密與傳輸安全合同3篇
- 2024消防系統(tǒng)安裝及消防安全培訓(xùn)與演練合同3篇
- 濰坊環(huán)境工程職業(yè)學(xué)院《美術(shù)學(xué)科發(fā)展前沿專題》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024版信用卡貸款服務(wù)合同范本3篇
- 二零二五年度數(shù)據(jù)中心承包協(xié)議及范本2篇
- 產(chǎn)業(yè)鏈治理協(xié)同性
- 閘站監(jiān)理實(shí)施細(xì)則
- 高三課題研究報(bào)告范文
- 2024年初三數(shù)學(xué)競(jìng)賽考試試題
- 竇性心動(dòng)過速的危害
- 深基坑工程基坑土方開挖及支護(hù)降水施工方案
- 2024年江西生物科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫帶解析答案
- 醫(yī)藥制造企業(yè)資本結(jié)構(gòu)優(yōu)化研究以貴州百靈為例
- GB 31335-2024鐵礦開采和選礦單位產(chǎn)品能源消耗限額
- 醫(yī)院高風(fēng)險(xiǎn)意外事件應(yīng)急措施和救護(hù)機(jī)制
- 橋本甲狀腺炎-90天治療方案
評(píng)論
0/150
提交評(píng)論