版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
圖像與視頻壓縮技術(shù)講義
汪國有
圖像識別與人工智能研究所
目錄
第一章圖像與視頻壓縮技術(shù)概述.....................................................5
1.1圖像與視頻壓縮技術(shù)概述..................................................5
1.1.1圖像與視頻定義.....................................................5
1.2.2圖像與視頻壓縮的必要性和可能性.................................5
1.2圖像與視頻壓縮技術(shù)的發(fā)展過程及應用...................................6
1.2.1圖像與視頻壓縮技術(shù)的發(fā)展過程....................................6
1.2.1.1初期的發(fā)展階段..................................................6
1.2.1.2技術(shù)標準化階段.................................................6
1.2.1.3最新動向........................................................6
1.2.2圖像與視頻壓縮的技術(shù)標準.........................................7
1.2.2.1ISO制定的國際標準..............................................7
1.2.2.2ITU指定的國際標準..............................................9
1.2.2.3圖像與視頻壓縮標準的新技術(shù)....................................11
1.3參考文獻.................................................................14
第二章圖像與視頻信息的獲取與表示................................................15
2.1圖像與視頻表示.............................................................15
2.1.1圖像數(shù)據(jù)表示.........................................................15
2.1.2視頻采樣格式........................................................15
2.1.2視頻信號制式.........................................................16
2.2視頻傳輸格式(數(shù)字視頻信號標準)............................................17
2.2.1CCIR-601視頻信號標準............................................17
2.2.2CCIR-656視頻信號標準...........................................20
2.2.3ITU-656與ITU-60標準關系.......................................22
2.3MPEG-4標準視頻格式...................................................27
2.3.1MPEG-4視頻采樣結(jié)構(gòu)................................................27
2.3.2MPEG-4視頻傳輸結(jié)構(gòu)................................................28
第三章圖像與視頻數(shù)據(jù)壓縮編碼技術(shù)................................................30
3.1圖像與視頻壓縮概述.....................................................30
3.1.1圖像與視頻壓縮基礎...............................................30
3.1.2數(shù)字壓縮技術(shù)三個重要指標........................................30
3.2圖像與視頻壓縮基本技術(shù)................................................31
3.2.1統(tǒng)計編碼...........................................................31
3.2.1.1信息量和信息端.................................................31
3.2.1.2Huffman編碼...................................................31
3.2.1.3算術(shù)編碼.......................................................32
3.2.1.4行程編碼(RLC)...................................................................................................35
3.2.2預測編碼...........................................................36
3.2.2.1預測編碼基本原理...............................................36
3.2.2.2DPCM編碼原理.................................................36
3.223最佳線性預測................................................36
3.2.2A自適應預測編碼.................................................36
3.2.2.5自適應幀間預測.................................................36
3.2.3變換編碼.................................................36
3.2.3.1變換編碼的基本原理............................................36
3.2.3.2最佳正交變換--KLT變換........................................37
3.2.3.3次最佳正交變換--DCT變換.....................................38
3.2.3.4DWT變換......................................................41
3.2.4量化編碼.................................................43
3.2.5掃描變換.................................................44
3.2.5模型編碼.................................................44
第四章圖像與視頻數(shù)據(jù)壓縮編碼標準...............................................45
4.1JPEG靜態(tài)圖像壓縮編碼標準.....................................45
4.1.1JPEG文件段格式和段標記.............................................45
4.1.2JPEG壓縮原理............................................50
4.1.2.1離散余弦變換快速算法..........................................51
4.1.2.2DCT系數(shù)的ZigZag重排列.......................................51
4.1.2.3JPEG的變換系數(shù)量化...........................................51
4.1.2.4變換系數(shù)編碼方法..............................................52
4.1.2.5變換系數(shù)霍夫曼編碼方法........................................53
4.2小波圖像壓縮算法..............................................57
4.2.1EZW圖像壓縮算法........................................57
4.2.1.1離散小波變換(DWT)與圖像壓縮...............................57
4.2.1.2嵌入式編碼(EmbeddedCoding)..................................................................59
4.2.1.3小波系數(shù)零樹編碼..............................................60
4.2.1.4逐次逼近量化..................................................61
4.2.1.5EZW算法編碼例子..............................................64
4.2.2SPIHT圖像壓縮算法.......................................66
4.2.2.1SPIHT算法中一些符合定義......................................67
4.2.2.2漸進式圖像傳輸................................................67
4.2.2.3顯著系數(shù)傳輸...................................................68
4.2.2A集合分裂分類算法.............................................69
4.2.2.5SPIHT編碼算法................................................70
4.2.2.6SPIHT算法編碼的例子..........................................72
4.2.2.7SPIHT算法改進措施............................................74
4.3動態(tài)圖像壓縮編碼標準..........................................75
4.3.1MPEG-1標準.............................................75
4.3.2MPEG-2標準.............................................75
4.3.3MPEG-4標準/H.264........................................................................................75
4.3.3.1視頻數(shù)據(jù)語法...................................................75
4.3.3.2視頻數(shù)據(jù)流的句法..............................................102
4.3.3.3視頻解碼過程..................................................102
4.3.4AVS視頻標準............................................105
第五章壓縮編碼硬件及軟件系統(tǒng)結(jié)構(gòu)...............................................106
5.1計算與處理硬件系統(tǒng).......................................................106
5.2圖像與視頻捕獲硬件.......................................................106
5.3圖像與視頻輸出硬件.......................................................106
5.4計算機操作系統(tǒng)軟件.......................................................106
5.5圖像與視頻壓縮軟件.......................................................106
第一章圖像與視頻壓縮技術(shù)概述
1.1圖像與視頻壓縮技術(shù)概述1.1.1圖像與視頻定義
圖像是客觀世界能量或狀態(tài)以可視化形式在二維平面上的投影。
視頻是沿時間軸連續(xù)采樣得到的圖像的有序序列。
1.2.2圖像與視頻壓縮的必要性和可能性
必要性:數(shù)據(jù)量大引起了存儲容量和傳輸帶寬存在瓶頸->需要壓縮
數(shù)字電視信號:
(1)SIF格式NTSC制彩色4:4:4采樣視頻信號
每幀數(shù)據(jù)量:352X240X3=253KB
每秒數(shù)據(jù)量:253X30=7.603MB/S
一張CD-ROM存節(jié)目時間:650/7.603/60=1.42分
(2)CCR格式PAL制彩色4:4:4采樣視頻信號
每幀數(shù)據(jù)量:720X576X3=1.24MB
每秒數(shù)據(jù)量:1.24X25=31.3MB/s
一張CD-ROM存節(jié)目時間:650/31.3/60=20.9秒
陸地衛(wèi)星Landsat-3
一幅圖數(shù)據(jù)量:2340行X3240列X7位X4波段=212MB
每天圖數(shù)據(jù)量:212MBX30幅/天=6.36Gb
可能性:信源數(shù)據(jù)存在極強的相關性
多媒體信息存在自然冗余,例如,幀與幀之間的象素具有極大的相關性->能夠壓縮
(1)編碼的烯冗余
適用范圍是信源碼字概率分布具有很強的不均勻性
典型的方法:Huffman編碼、算術(shù)編碼、行程編碼
(2)空域灰度冗余
適用范圍是空域相鄰像素灰度分布具有很強的相關性
典型的方法:預測編碼、變換編碼(3)時域灰度冗余
適用范圍是時域相鄰像素灰度分布具有很強的相關性
典型的方法:運動補償編碼(4)視覺敏感冗余
適用范圍是像素灰度的變化不被視覺所察覺
典型的方法:系數(shù)量化
3)圖像與視頻壓縮技術(shù)的分類與評價(1)方法分類
無損壓縮:能無失真恢復原始數(shù)據(jù)
有損壓縮:能視覺近無失真恢復原始圖像
(2)評價指標衡量數(shù)據(jù)壓縮技術(shù)優(yōu)劣的指標:
壓縮比Cr:原始數(shù)據(jù)比特數(shù)/壓縮后數(shù)據(jù)比特數(shù)
恢復效果:PSNR、主觀質(zhì)量
處理速度:每秒能完成編解碼處理的幀數(shù)
是否可實現(xiàn):
在限定的體積、功耗、成本和工藝條件下,是否可行
1.2圖像與視頻壓縮技術(shù)的發(fā)展過程及應用
1.2.1圖像與視頻壓縮技術(shù)的發(fā)展過程
1.2.1.1初期的發(fā)展階段
信息端保持編碼:無失真,但壓縮比低(幾倍)
視覺保持的編碼:有失真,但壓縮比高(幾~幾十倍)
1.2.1.2技術(shù)標準化階段
數(shù)字視頻和圖像壓縮編碼技術(shù)的研究,已歷經(jīng)半個世紀,在理論和工程上都取得了很多成
果。進入20世紀90年代,在ISO和ITU等國際組織的協(xié)調(diào)下,對視頻和圖像編碼的成果進行
了收集、整理、綜合和加工,制定了幾個通用的壓縮編碼標準,包括適用于二值圖像的JBIG、
用于連續(xù)灰度和彩色靜止圖像的JPEG、用于64K視頻傳輸?shù)腍.261、面向1.5M數(shù)字視頻和音
頻傳輸及存儲的MPEG-1、面向高品質(zhì)數(shù)字視頻和音頻傳輸及存儲的MPEG-2以及適于低碼率
視頻編碼的H.263。這些標準的算法主要由四類技術(shù)混合構(gòu)成,即運動補償、正交變換、量化
和嫡編碼,代表了20世紀90年代中前期視頻和圖像編碼的研究水平。
ISO和ITU組織對視頻和圖像編碼技術(shù)研究的成果進行了收集、整理、綜合和加工,形成
了面向存儲和傳輸?shù)膬纱髧H標準系列:
ISO:JBIG(10:1)、JPEG
MPEG-1,MPEG-2
1.5Mbps2-15Mbps
ITU:H.261、H.263
64Kbps低碼率這些標準的算法主要由四類技術(shù)混合構(gòu)成,即運動補償、正交變換、
量化和嫡編碼,代表了20世紀90年代中前期視頻和圖像編碼的研究水平。
1.2.1.3最新動向
20世紀90年代中后期,Internet迅猛發(fā)展,無線通信也迅速在全球普及,因此人們開始
有了在網(wǎng)絡上傳輸視頻和圖像的愿望,于是視頻和圖像編碼的目標也就從傳統(tǒng)的面向存儲變?yōu)?/p>
現(xiàn)在的面向傳輸。在網(wǎng)絡上傳輸視頻和圖像等多媒體信息除了要解決誤碼問題之外,最大的挑
戰(zhàn)在于用戶可以獲得的帶寬在不停地變化。這主要是因為網(wǎng)絡的異構(gòu)性,即各子網(wǎng)的網(wǎng)絡資源,
包括處理能力、帶寬、存儲和擁塞控制策略等分布得很不平均,用戶通過不同的通信子網(wǎng)傳輸
數(shù)據(jù)會體驗到非常不同的實際傳輸吞吐量、數(shù)據(jù)丟失率、傳輸延遲;另外由于現(xiàn)在的網(wǎng)絡沒有
提供資源預留一類的協(xié)議保障,當網(wǎng)絡擁塞發(fā)生時,多媒體數(shù)據(jù)流的有效傳輸帶寬會突然降低,
影響用戶接收多媒體信息的質(zhì)量和速度,甚至造成無法觀看。
為了適應網(wǎng)絡帶寬的變化,可擴展性編碼的思想被提了出來??蓴U展性編碼就是將多媒體
數(shù)據(jù)壓縮編碼成多個流,其中一個可以獨立解碼,它稱為基本層碼流;其它的碼流稱為增強層,
它們不可以單獨解碼,而只能與基本層和它以前的增強層聯(lián)合在一起解碼,用來提高觀看效果。
可擴展性編碼主要分為時域可擴展性編碼、空域可擴展性編碼和質(zhì)量可擴展性編碼。在這些策
略中,編好的碼流可以按層為單位截斷,具有一定的網(wǎng)絡帶寬適應能力。
新一代的視聽對象編碼的國際標準MPEG-4中的精細可擴展性(FineGranularScalable,
FGS)視頻編碼更提供了完全可擴展的增強層碼流,它可以在任何地點截斷,具有極強的網(wǎng)絡帶
寬適應能力。后來又提出了漸進的精細可擴展性(ProgressiveFineGranularScalable,PFGS)
的編碼方案,它保留了FGS的所有優(yōu)良性能,并且把編碼效率提高了將近IdB。
最新的靜止圖像編碼國際標準JPEG2000,它利用小波變換、位平面編碼和基于上下文的算
術(shù)編碼等一系列新技術(shù),將圖像編碼的效率提高了一大步(同等質(zhì)量下,JPEG2000的碼流尺寸
只有JPEG的一半),并且提供可擴展性的碼流。
在當前的網(wǎng)絡時代,視頻和圖像編碼的目標從產(chǎn)生適合存儲的固定尺寸的碼流發(fā)展到產(chǎn)生
適合一定的傳輸碼率范圍的可擴展性碼流,因此,今后的多媒體數(shù)據(jù)編碼必然要支持可擴展性。
當然,可擴展性編碼現(xiàn)在還是一個很不成熟的領域,與不具有可擴展性的單層編碼相比,它的
編碼效率還是比較低的(例如FGS的編碼效率比MPEG-4非可擴展性編碼低2?3dB)。如何將可
擴展性編碼的效率盡可能地逼近非可擴展性編碼,是一個值得繼續(xù)研究的問題??偟膩碚f,20
世紀90年代中后期,Internet迅猛發(fā)展,無線通信也迅速在全球普及。
(1)標準的發(fā)展
JPEG2000(R0I)、MJPEG
MPEG-4(對象編碼)低帶寬,主要應用于視頻會議
H.264+MPEG-4AVC=>JVT,AVS
(2)應用的發(fā)展
視頻和圖像編碼的目標從傳統(tǒng)的面向存儲變?yōu)楝F(xiàn)在的面向傳輸,面臨的問題是誤碼問題和
帶寬變化問題。
可擴展性編碼的方法就是將視頻和圖像數(shù)據(jù)壓縮編碼成多個流,其中一個可以獨立解碼,
它稱為基本層碼流;其它的碼流稱為增強層,它們不可以單獨解碼,而只能與基本層和它以前
的增強層聯(lián)合在一起解碼,用來提高觀看效果。
可擴展性編碼主要分為時域可擴展性編碼、空域可擴展性編碼和質(zhì)量可擴展性編碼。在這些策
略中,編好的碼流可以按層為單位截斷,具有一定的網(wǎng)絡帶寬適應能力。
1.2.2圖像與視頻壓縮的技術(shù)標準
1.2.2.1ISO制定的國際標準
.JPEG標準
JPEG(JointPhotographicExpertGroup)小組1991年3月提出了ISOCD10918號建議草案:
“多灰度靜止圖象的數(shù)據(jù)壓縮編碼”,用于連續(xù)色調(diào)灰度級或彩色圖象的壓縮標準,采用離散余
弦變換、量化、行程與哈夫曼編碼等技術(shù),支持幾種操作模式,包括無損(壓縮比2:1)與各種
類型的有損模式(壓縮比可達30:1且沒有明顯的品質(zhì)退化).
MotionJPEG—>MotionVideo
.JBIG標準
JBIG(JointBi-levelImageGroup)是一種無損的二值圖象壓縮標準。JBIG可以支持很高的
圖象分辨率,常用的文件格式為1728X2376或2304X2896,壓縮比可達10:1。
雖然JBIG是二值圖象的編碼標準,但是它也可以對含灰度值的圖象或彩色圖象進行無失真
壓縮,在這種情況下,JBIG是對圖象的每個比特面作壓縮變換。
.MPEG系列標準
ISO于1992年制定了運動圖象數(shù)據(jù)壓縮編碼的標準ISOCD11172,簡稱MPEG(Motion
PictureExperlGroup)標準,它是視頻圖象壓縮的一個重要標準。MEPG編碼技術(shù)的發(fā)展十分迅
速,從MPEG-1、MPEG-2到MPEG-4,不僅圖象質(zhì)量得到了很大的提高,而且在編碼的可伸縮
性方面,也有了很大的靈活性。
MPEG-1
是以1.5Mbps的速率傳輸電視質(zhì)量的視頻信號,其亮度信號的分辨率為352X240,色度信
號的分辨率為180X120,每秒25或30幀。MPEG-1標準有三個部分組成:MPEG視頻(速率
小于1.5Mbps)、MPEG音頻(速率為64.2Kbps和19.2Kbps)和MPEG系統(tǒng)(視頻和音頻的同
步)。因此,MPEG-1涉及的問題是視頻/音頻壓縮和多種壓縮數(shù)據(jù)流的復合和同步問題。
采用兩個基本技術(shù):
1)一是基于16X16子塊的運動補償,可以減少幀序列的時域冗余度;
2)二是基于DCT的壓縮技術(shù),可以減少空域冗余度。
設計MPEG算法本身面臨著一個矛盾:為了滿足隨機訪問的需要,最好對其使用幀內(nèi)編碼,
但是,僅靠幀內(nèi)編碼是無法達到在保證畫面質(zhì)量的前提下而滿足高壓縮比的需要的。因此,
MPEG采取了預測和插值兩種幀編碼技術(shù)。MPEG中的DCT技術(shù)不僅用于幀內(nèi)壓縮,而且對于
幀間預測誤差也作了DCT變換,大大減少了空間域的冗余,達到了進一步壓縮的目的。
I幀(I-Frame)(IntracodedFrame):基準幀(referenceframe)。
P幀(P-Frame)(PredictedFrame):只能根據(jù)I幀重建,同時作為重建B幀的基準幀之一。
B幀(B-Frame)(BidirectionalFrame):根據(jù)I幀與P幀重建。
MPEG-1是為中等分辨率視頻圖象制定的一個標準,特別適合于VCD的性能要求。
MPEG-2
1993年ISO/IEC/JTC/SC29/WG11推出的ISO/IEC13818標準,是一種高帶寬的視頻數(shù)據(jù)流
標準。MPEG-2既可以工作在隔行掃描模式下,也可以工作在逐行掃描模式下,最多支持5個
音頻聲道,可以實現(xiàn)立體聲環(huán)繞。MPEG-2提供了較為廣泛的應用,典型的應用有HDTV。
MPEG-2標準主要包括四個部分:
1)MPEG-2視頻:主要定義了視頻數(shù)據(jù)的編碼表示和圖象再現(xiàn)的解碼方法及過程;
2)MPEG-2音頻:主要定義了音頻數(shù)據(jù)的編碼表示和音頻編碼信息的解碼方法及過程;
3)MPEG-2系統(tǒng):該部分定義了包含視頻/音頻的復合結(jié)構(gòu),以及實時播放視頻/音頻所需
的時間同步信息;
4)MPEG-2的一致性測試規(guī)范。
MPEG-3:
表2.6MPEG-2的級別
是為1920x1080x
級別最大的分辨率每秒的點數(shù)傳輸率30Hz的HDTV制定的。
Low352x240x303.05M4Mb/s后來,人們又發(fā)現(xiàn)
Main720x480x3010.40M15Mb/sMPEG-2標準也能夠很好
地支持這種應用,所以
High14401440x1152x3043.00M60Mb/s
后來成為
High1920x1080x3062.70M80Mb/sMPEG-3
MPEG-2標準的一部分,
稱為MPEG-2High-1440。
MPEG-4
是一種低帶寬的視頻標準,主要用于視頻會議,其視頻速率只有64Kbps,分辨率為176x144
xlOHzo極低比特率(VeryLowBitRateTransfer)
雙向子再則
向解融
1.2.2.2ITU指定的國際標準
T.120
有關電視會議的國際標準T.120,但不太成功,沒有被廣泛使用。
標準功能及定義
T.121應用程序開發(fā)指南,一般應用程序范本
T.122流向控制及編址,數(shù)據(jù)及應用程序共用的多點通訊協(xié)定
T.1230SI傳送界面,一般電話系統(tǒng)及區(qū)域性網(wǎng)絡的互聯(lián)和協(xié)定
T.124會議建立,一般會議控制設定和管理,包括加入或刪除參與者
T.125協(xié)定服務的形式,多點通信服務協(xié)定規(guī)范
T.126批注及應用程序支持,多點固定圖象檢測及固定圖象批注協(xié)定
T.127將文檔傳給一方或多方,多點二進制文檔傳送
T.128實時音頻/圖象管理,多點系統(tǒng)的控制
H.320
H.320(其原名為NarrowBandISDNvisualtelephonesystemsandterminalequipment),但是
H.320標準還是只適合在ISDN、EkT1等高速率的數(shù)字網(wǎng)上運行,而并不適合于象在電話線
這種窄帶網(wǎng)上使用。因此,ITU從1993年開始著手制定一套新的標準H.324。
標準功能定義
H.261圖象數(shù)據(jù)編碼標準,PX64Kbps數(shù)字化圖象的編碼器
G.711音頻編碼壓縮標準,使用PCM語音頻率,需要專用的64Kbps
G.722音頻編碼壓縮標準,在64Kbps以內(nèi)的7KHz音頻編碼
G.728音頻編碼壓縮標準,以64Kbps的速度使用CELP的語音編碼
H.221幀結(jié)構(gòu)定義,定義傳送音頻和圖象的頻道的結(jié)構(gòu)
H.230系統(tǒng)控制規(guī)程的監(jiān)控與顯示標準,音頻及圖象的同步化控制
H.242多點橋接的控制標準,可視電話連接及切斷標準操作程序
H.233數(shù)據(jù)加密
H.231多點電視會議控制標準,多點控制單元連接規(guī)范
H.243多點電視會議控制標準,多點控制單元協(xié)議標準
H.261圖象編碼器已成為互動式圖象壓縮的實際標準。它描述幀內(nèi)和幀間的壓縮算法,使
用PX64數(shù)字通道(64Kbps到2.048Mbps,即P=l-30)。圖象將會及時壓縮及解壓,這樣就將發(fā)
出方和接收方之間的等待時間減至最低。H.261唯一的缺點是圖象的質(zhì)量低,后面介紹的H.263
標準將取代H.261規(guī)范。
H.324標準
H.324是通過一般電話線傳送音頻及視頻信息,并對音頻及視頻信息進行編碼及解碼的國
際標準。一般電話系統(tǒng)獲得廣泛采用的原因是使用方便,而且有數(shù)量龐大的用戶。H.324標準
可以將電視會議帶給數(shù)以百萬計的、沒有加入ISDN的用戶。
H.324是為與V.34調(diào)制解調(diào)器一起使用而設計的。這種調(diào)制解調(diào)器的總頻寬為28.8Kbps,
系統(tǒng)設計者可能會選擇質(zhì)量較低的音頻,使圖象信號能夠有較大的頻寬。這項標準亦包括動態(tài)
頻寬分配模式,這樣音頻頻寬就能夠在沒有音頻需要傳送時給其他數(shù)據(jù)使用。
H.324的視頻編碼器規(guī)范比起H.320規(guī)范有很大的改進。H.263在圖象質(zhì)量方面可能會較
H.261高百分之二十至百分之百。
標準功能及定義
H.263圖象數(shù)據(jù)壓縮標準,以低于64Kbps的速度給數(shù)字化圖象使用的編碼器
G.723音頻數(shù)據(jù)壓縮標準,以5.3Kbps或6.3Kbps的速度進行語音編碼
H.245同步及系統(tǒng)控制
H.223多用戶的多方協(xié)定
雖然H.324示準是針對電話線路這種低速率的通信網(wǎng)絡制定的,但是由于它采用了很多最
新的技術(shù),所以,它肯定也將會取代舊的H.320標準而應用到高速數(shù)據(jù)網(wǎng)中去,其速率最高可
允許2.048Mbps,它的整體框圖如圖2.13所示。
視頻輸入輸出?電視編碼解碼器多路復用
H.264H.223
11----X---1
音頻輸入輸出一?音頻編碼解碼器.接收傳輸
延時
G.723___1____
用戶應用數(shù)據(jù).數(shù)據(jù)協(xié)議調(diào)器
_T.120MODEM公共
V34/V.8網(wǎng)絡
MODEM
系統(tǒng)控制-控制協(xié)議SRP/LAPM控制
1H.245處理V.25
圖2.13H.324多媒體系統(tǒng)框圖
從總體上來看,H.324和H.320的一個重大區(qū)別就在于它增加了一個數(shù)據(jù)通信接口。這是
因為H.320主要用在會議電視,H.324則是主要用在多媒體通信,在多媒體通信中,不但要傳
送電視信號和語音信號,而且還要傳送各種計算機數(shù)據(jù),尤其是電子通信公告欄的各種數(shù)據(jù)。
具體地說,數(shù)據(jù)通信接口主要支持多媒體通信的應用,例如電子公告欄,靜止圖象傳輸,文件
交換,數(shù)據(jù)庫的存取,音頻圖形會議,設備(如攝像機)的遠程控制,網(wǎng)絡協(xié)議等。所以,它們
的最大區(qū)別在于H.324不但有視頻和音頻編碼解碼器,而且它還有文件會議系統(tǒng)。H.324與H.320
之間的另一個區(qū)別在于,H.324把數(shù)據(jù)Modem及其控制也包括了進去。這是因為本來電話網(wǎng)只
是一個模擬信號通信網(wǎng),只有通過數(shù)據(jù)調(diào)制解調(diào)器才能把數(shù)據(jù)信號經(jīng)過模擬網(wǎng)絡來傳輸。正因
為如此,它的多路復用部分H.223,要比過去的H.221復雜(H.221主要是視頻和音頻信號的多
路復用)。其中視頻編碼解碼器H.263實際上是電視信號的壓縮和解壓縮技術(shù)。如果說H.261吸
取了MPEG-1的一些優(yōu)點,則可以認為H.263吸取了MPEG-2的一些優(yōu)點。
音頻編碼解碼器G723主要是用來作為語音信號的壓縮和解壓縮,本來采用G723編號,
但因為后來發(fā)現(xiàn)G.723己經(jīng)作為ADPCM的標準,所以最近可能會改為G.723.1,
標準的數(shù)據(jù)通信應用包括應用于實時語音圖形會議的T.120、用于簡單的點對點靜止傳輸?shù)?/p>
T.84、用于簡單的點對點文件傳輸?shù)腡.434、用于遠程設備控制的H.224/H.281,以及包括PPP
和IP在內(nèi)的ISO/IECTR9577網(wǎng)絡協(xié)議,用戶數(shù)據(jù)緩存的V.14或LAPM/V42也包括在內(nèi)。最
近ITU又對最新標準V.34做了修訂,使得它的最高傳輸速率從28.8Kbps又提高到了31.2Kbps
和33.6Kbps。正因為有了這個改進,使得電視電話的傳輸變得更加方便和現(xiàn)實。
H264標準
1.2.2.3圖像與視頻壓縮標準的新技術(shù)
1)分層可擴展性編碼(LayeredScalableCoding)
關于分層可擴展性編碼的研究可以追溯到10年前,目前,它已經(jīng)被許多現(xiàn)行的國際壓
縮標準接納,例如H.263+和MPEG-4。分層可擴展編碼主要有三種:時域可擴展性、空域
可擴展性和質(zhì)量可擴展性。其中質(zhì)量可擴展性也稱為PSNR可擴展性,原因是視頻質(zhì)量通
常用峰值信噪比(PSNR)來衡量。
(1)時域可擴展性(TemporalScalability)
時域可擴展性編碼通常是通過在碼流中添加B幀來實現(xiàn)的。B幀是使用與它在時間上
最近鄰的前后兩個I幀或P幀來預測的,而自己并不作為任何其它幀的參考圖像,因此在
傳輸中丟棄B幀并不影響其它幀的質(zhì)量,而僅僅降低幀率。圖1是MPEG-4的時域可擴展
性編碼的示意圖。
圖1MPEG-4中的時域可擴展性編碼
(2)空域可擴展性(SpatialScalability)
空域可擴展性編碼是通過為視頻中的每一幀都創(chuàng)建多分辨率的表示來實現(xiàn)的。當進行
空域可擴展性編碼時,原始視頻首先通過下采樣得到低分辨率的視頻,編碼得到基本層碼
流;然后編碼原始視頻和基本層視頻的差生成增強層碼流。不過空域可擴展性編碼在視頻
傳輸中應用較少,因為任何一個用戶都不能接收在前一個GOP中觀看高分辨率視頻,而到
下一個GOP只能獲得低分辨率視頻。因此即使增強層在傳輸中被丟棄,客戶端的解碼器也
要對低分辨率的圖像進行插值,這實際上是一種質(zhì)量可擴展性的特殊情形。圖2為空域可
擴展性編碼的示意圖。
圖2空域可擴展性編碼
(3)質(zhì)量可擴展性(PSNRScalability)
質(zhì)量可擴展性編碼的思想和空域可擴展性編碼很類似,只不過這里不需對原始視頻進
行下采樣,而是進行一次很粗的量化形成基本層碼流。然后對原始視頻和基本層視頻的差
再進行一次量化,生成增強層碼流;如果有多個增強層碼流則重復上面的過程。圖3是質(zhì)
量可擴展性編碼的示意圖。
圖3質(zhì)量可擴展性編碼
2)適合網(wǎng)絡傳輸?shù)木幋a方案
從以上可以看出,傳統(tǒng)的視頻編碼方法不適合網(wǎng)絡傳輸,其根本原因是它們的目標是將視
頻壓縮成為適合一個或幾個固定碼率的碼流,也就是說傳統(tǒng)的視頻編碼是面向存儲的。而由于
網(wǎng)絡的異構(gòu)性和缺乏QoS保證,帶寬在一個很大的范圍內(nèi)變化,因此面向網(wǎng)絡傳輸?shù)囊曨l編碼
的目標是將視頻壓縮成為適合一個碼率的范圍。
MPEG組織看到了網(wǎng)絡傳輸對視頻編碼的新要求,于是開始征集精細的可擴展性視頻編碼方
案。它的基本思想是將視頻編碼成一個可以單獨解碼的基本層碼流和一個可以在任何地點截斷
的增強層碼流,其中基本層碼流適應最低的網(wǎng)絡帶寬,而增強層碼流用來覆蓋網(wǎng)絡帶寬變化的
動態(tài)范圍。世界各地的學者提出了許多解決方案,主要分為三類,分別使用DCT變換技術(shù)、小
波變換技術(shù)和MatchingPursuit技術(shù)。最終從編碼效率和復雜性兩方面的考慮,精細可擴展性
編碼(FGSC)及漸進的精細可擴展性編碼(PFGSC)被MPEG組織采納。
(1)精細的可擴展性編碼
MPEG-4的FGS主要有以下一些特性:第一,基本層使用基于分塊運動補償和DCT變換的編
碼方式達到網(wǎng)絡傳輸?shù)淖畹鸵?;第二,增強層使用位平面編碼技術(shù)對DCT殘差進行編碼來覆
蓋網(wǎng)絡帶寬的變化范圍;第三,每一幀的增強層碼流可以在任何地點截斷:第四,解碼器重建
的視頻質(zhì)量和收到并解碼的比特數(shù)成正比。
FGS的基本層編碼和普通的MPEG-4非可擴展性編碼相同,都是由運動估計、運動補償、DCT
變換、標量量化和變長編碼(VariableLengthCoding)組成。而在增強層編碼時,從原始的
DCT系數(shù)中減去基本層逆量化后重建的DCT系數(shù)值獲得DCT殘差,然后對每一個8X8的塊按從
上到下從左到右的順序使用位平面進行編碼。
使用位平面編碼的好處就是使得每一個系數(shù)的重要部分(較高的位)優(yōu)先編碼,這樣在碼
流截斷時就保證了解碼器仍可以獲得有關視頻的重要信息,從而提供了精細可擴展的特性。
一般的FGS只考慮了要編碼系數(shù)的值,實際上FGS的應用是非常靈活的。例如我們可以對
圖像中比較感興趣的前景部分優(yōu)先編碼,具體作法就是將圖像中的某些塊上移若干個位平面,
就實現(xiàn)了對圖像中感興趣部分的優(yōu)先傳輸。我們還可以對不同頻率的DCT系數(shù)加以不同的權(quán)重,
也就是對不同的DCT系數(shù)上移不同的位平面,從而滿足人眼對不同頻率成分的敏感程度。
FGS還可以和時域可擴展性編碼相結(jié)合(FGST),即對B幀中的DCT系數(shù)都使用位平面技
術(shù)編碼,這樣FGST不僅保持了FGS的精細可擴展的特性,而且支持幀率的變化。
FGS雖然具有優(yōu)良的可擴展特性,但它也有致命的弱點,即效率太低。在同等碼率下,F(xiàn)GS
的質(zhì)量要比MPEG-4中的非可擴展性編碼低2?3dB(3個dB意味著碼率翻一番),這是人們難
以接受的。因此要想提高FGS的編碼率,必須改善它用作運動預測和補償?shù)膮⒖紙D像的質(zhì)量。
(2)漸進的精細可擴展性編碼
可以看出,質(zhì)量可擴展性編碼(我們對它的增強層使用位平面編碼)和FGS編碼分別走了
兩個級端,質(zhì)量可擴展性編碼保證了編碼效率,因為它用同層的解碼圖像作參考,獲得了較為
準確的運動預測和補償,但它對錯誤極為敏感,一旦某個增強層出現(xiàn)了錯誤,它后面的增強層
都將無法解碼,直到遇到下一個1幀為止;而FGS保證了對錯誤的恢復能力,它可以從前--幀
增強層的任何錯誤恢復出來,但是由于參考圖像質(zhì)量低,因而效率不高。為了在編碼效率和錯
誤恢復能力之間取得一個權(quán)衡,后來有人提出了一種被稱為漸進的精細可擴展性(Progressive
FineGranularScalable,PFGS)的視頻編碼方案,在保持了FGS所具有的網(wǎng)絡帶寬自適應和錯
誤恢復能力的同時,提高了編碼效率將近IdBo
但是,PFG$的編碼效率和非可擴展性編碼相比,還有1?2dB的差距。如何進一步提高它
的性能,還是一個值得研究的問題。
3)取得的最新研窕成果
目前,正在研究視頻和圖像的可擴展性編碼,其主要成果有:
(D.根據(jù)PFGS增強層各幀之間碼率的不平衡性,研究了PFGS增強層的碼率分配問題。首先提
出了一個PFGS增強層多幀聯(lián)合的率失真(Rate-Distortion,R-D)函數(shù),然后我們根據(jù)這個率
失真函數(shù)提出了一個局部最優(yōu)的PFGS增強層碼率分配算法。
實驗結(jié)果顯示,和FGS中使用的碼率平均分配算法相比,該算法不僅使視頻解碼質(zhì)量更加
平滑,而且將視頻質(zhì)量提高了0.3?0.5dB。另外,算法的復雜性很低,使得它非常適合于視頻
服務器使用。
(2).為了進一步壓縮FGS和FPGS的基本層碼流,將位平面編碼技術(shù)和空域可擴展性視頻編碼
相結(jié)合,提出了一種稱為精細的空域可擴展性(Fine-GranularitySpatiallyScalable,FGSS)
的視頻編碼算法。這個方案具有質(zhì)量精細變化的特性,即低分辨率和高分辨率的增強層碼流都
可以在任何地點截斷,具有極強的網(wǎng)絡帶寬適應能力。
此外,該算法還具有錯誤恢復功能,同時保持了空域可擴展性編碼的多分辨率特性,它可
以滿足擁有不同網(wǎng)絡帶寬和不同分辨率接收設備的許多用戶的需求。實驗表明,在大多數(shù)碼率
條件下,F(xiàn)GSS的性能優(yōu)于傳統(tǒng)的空域可擴展性編碼。
(3).提出了一種基于塊的細粒度可擴展(B-FGS)編碼方法,這種編碼方法比MPEG-4FGS具
有更多的靈活性,它能夠支持區(qū)域級的動態(tài)碼率分配,它是MPEG-4FGS的一種改進。在基于塊
的FGS編碼系統(tǒng)中,在視頻流化傳輸服務器端,通過給屬于感興趣區(qū)域的空塊分配更多的碼率
就可以實現(xiàn)選擇性區(qū)域增強,而增強區(qū)域的選擇是由傳輸策略決定的,由于B-FGS編碼將區(qū)域
增強從編碼中分離出來,所以可以很好地支持區(qū)域級動態(tài)碼率分配。
同時,還較好地解決了B-FGS中均勻碼率分配所造成的編碼效率下降問題,實現(xiàn)了B-FGS
編碼中的快速最優(yōu)碼率分配,使其可以用于實時流媒體服務器中。
上述編碼方法可以和MPEG-7內(nèi)容描述相結(jié)合,在低傳輸帶寬時,實現(xiàn)重要區(qū)域的選擇性增
強,從而提高接收端視覺質(zhì)量。
1.3參考文獻
[1]鐘玉琢、王琪、賀玉文編著,《基于對象的多媒體數(shù)據(jù)壓縮編碼國際標準》,科學出版社
[2][美]JerryD.Gibson著,李煜暉等譯,《多媒體數(shù)字壓縮原理與標準》,電子工業(yè)出版社
[3]吳玲楊,老松楊,魏迎梅編著,《多媒體技術(shù)》,電子工業(yè)出版社
第二章圖像與視頻信息的獲取與表示
2.1圖像與視頻表示
2.1.1圖像數(shù)據(jù)表示
1)位圖
又稱點陣圖,利用每個位置象素的顏色表示圖像的方法
2)矢量圖
矢量圖(圖形)是指利用參數(shù)表示的直線、圓、圓弧、任意曲線和圖表等畫面
3)矢量圖與位圖的比較
(1)概念上:
矢量圖(圖形)一般指計算機繪制的畫面,如直線、圓、圓弧、任意曲線和圖表等
圖像是指由輸入設備捕捉的實際場景畫面或以數(shù)字化形式存儲的任意畫面。
(2)存儲容量大小
圖像是由一些排成行列的像素組成的,在計算機中的存儲格式有BMP、TIF、GIFD等。一般
數(shù)據(jù)量比較大。除了可以表達真實的相片,也可以表現(xiàn)復雜繪畫的某些細節(jié),具有靈活和富于
創(chuàng)造力等特點。在打印輸出和放大時,容易發(fā)生失真。
圖形也稱矢量圖文件中只記錄生成圖的算法和圖上的某些特征點,容易進行移動、縮放、
旋轉(zhuǎn)和扭曲等變換,主要用于表示線框型的圖畫、工程制圖、美術(shù)字等。常用的矢量圖文件有
3DS(用于3D造型)、DXF(用于CAD)、WMF(用于桌面出版)等。圖形只保存算法和特征點,
相對于位圖的大數(shù)據(jù)量來說,它占用的存儲空間也比較小。但是顯示速度沒有圖像快,打印輸
出和放大時,質(zhì)量較高不會發(fā)生很大失真。
2.1.2視頻采樣格式
數(shù)字視頻信號由許多幀圖像按照時間順序組合成的圖像序列組成,其中,每一幀圖像又由
許多像素點按規(guī)定的行列大小排列組成,每一幀圖像中每一個像素點由一個亮度Y分量和兩個
色度分量Cb與Cr表示。如下圖所示,YUV(YCrCb)的4:2:2、4:1:1、4:2:0是指亮度信號Y和
紅/藍色差信號的抽樣格式。注意,4:2:0并非藍色差信號采樣為0,而是和4:1:1相比,在水平
方向上提高1倍色差采樣頻率,在垂直方向上以Cr/Cb間隔的方式減小一半色差采樣。
YUV4:2:2采樣格式Y(jié)UV4:1:1采樣格式
YUV4:2:0采樣格式
2.1.2視頻信號制式
1)視頻信號制式:
PAL制信號:625行/幀,25幀/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度環(huán)保型離婚協(xié)議書格式與實施指南2篇
- 二零二五年度城市綠化工程設計承包合同3篇
- 二零二五年度個人電子競技賽事參賽協(xié)議4篇
- 稅務工作新思路探討
- 2025版汽車零部件退貨及換貨服務協(xié)議書3篇
- 二零二五年度個人住房公積金貸款合同爭議解決流程合同模板4篇
- 二零二五年度個人自用房屋全屋定制裝修服務合同
- 二零二五年度企業(yè)銷售合同發(fā)票管理標準化臺賬
- 二零二五年度個人反擔保債務清償協(xié)議3篇
- 生產(chǎn)與運作管理-第5版 課件全套 陳志祥 第1-14章 生產(chǎn)系統(tǒng)與生產(chǎn)運作管理概述 -豐田生產(chǎn)方式與精益生產(chǎn)
- Unit 1 Cultural Heritage單元整體教學設計 人教版必修第二冊單元整體教學設計
- 養(yǎng)老護理員試題及答案
- 2024年山東省高中學業(yè)水平合格考生物試卷試題(含答案詳解)
- 2025年中考英語復習熱點話題作文范文
- 小學數(shù)學教學工作交流數(shù)學教學中的體會總結(jié)經(jīng)驗交流會課件
- 2024年美國智能馬桶和馬桶蓋市場現(xiàn)狀及上下游分析報告
- 中國成人暴發(fā)性心肌炎診斷和治療指南(2023版)解讀
- 復產(chǎn)復工六個一
- 《鋼鐵是怎樣煉成的》練習題(含答案)
- 急診酒精中毒護理查房
- 碳纖維加固定額B013
評論
0/150
提交評論