Logo2MPEG-1視頻編碼和解碼習題若在一個有6幀圖像的GOP中課件_第1頁
Logo2MPEG-1視頻編碼和解碼習題若在一個有6幀圖像的GOP中課件_第2頁
Logo2MPEG-1視頻編碼和解碼習題若在一個有6幀圖像的GOP中課件_第3頁
Logo2MPEG-1視頻編碼和解碼習題若在一個有6幀圖像的GOP中課件_第4頁
Logo2MPEG-1視頻編碼和解碼習題若在一個有6幀圖像的GOP中課件_第5頁
已閱讀5頁,還剩151頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)字視頻技術第六章視頻編碼國際標準數(shù)字視頻技術第六章主要內容視頻圖像編碼標準MPEG-1視頻編碼和解碼MPEG-2視頻編碼和解碼MPEG-4視頻編碼和解碼H.263視頻編碼和解碼H.264/AVC視頻編碼和解碼主要內容視頻圖像編碼標準§6.1視頻圖像編碼標準§6.1視頻圖像編碼標準§6.1視頻圖像編碼標準一、H.261H.261是用于視頻會議和可視電話業(yè)務的以p×64kbps,p=1,…,30的速率在綜合業(yè)務數(shù)字網(wǎng)(ISDN)上傳送視頻信號的壓縮標準。64kbps(p=1)

用于低端的可視電話業(yè)務,其中視頻信號傳輸占用48kbps的帶寬,剩下的16kbps用于音頻信號;384kbps(p=6)或更高的速率用于高端的視頻會議業(yè)務;在ISDN信道上最高傳輸率為19.2Mbps(p=30),足以傳送VHS質量的視頻信號。H.261頒布于1990年,主要用于雙向視頻通信,允許的最大編碼延遲為150ms。它的輸入圖象格式為通用(同時適用于625線和525線的視頻標準)中間格式CIF(352x288),低端可用其四分之一大小的QCIF(176x144)格式,楨率為30,15,10,6.5四種,隔行(interlaced)視頻,寬高比4:3?!?.1視頻圖像編碼標準一、H.261§6.1視頻圖像編碼標準H.261的編碼方案是基于DCT和DPCM的預測編碼算法,運動每幀圖象分成8x8的子塊,再組成宏塊、塊組,宏塊由4個8x8的亮度塊和2個8x8的色度塊組成,每個塊組由3x11個宏塊組成。每幅QCIF圖象有3個塊組;每幅CIF圖象有12個塊組,形成一個多層次的塊結構。二、H.263H.263是在H.261的基礎上針對低碼率(低于64kbp)視頻壓縮提出的標準,與之不同的是采用半象素精度運動補償算法和變長編碼,并引進了16種可協(xié)商的編碼選項用于提高壓縮性能和支持新增加的功能?!?.1視頻圖像編碼標準H.261的編碼方案是基于DCT§6.1視頻圖像編碼標準三、MPEG-1

MPEG-1是1992年通過的視頻壓縮標準,用于CIF格式的視頻在速率約1.5Mbps的各種數(shù)字存儲介質(如CD-ROM,DAT,硬盤及光驅等)上的編碼表示,主要應用在交互式多媒體系統(tǒng)中;MPEG-1算法與H.261算法相似,它在1.2Mbps(視頻信號)速率下壓縮和解壓縮CIF格式的視頻質量與VHS記錄的模擬視頻質量相當;它是一種通用標準,規(guī)定了編碼位流的表示語法和解碼方法,提供的支持操作有運動估計、運動補償預測、DCT、量化和變長編碼。MPEG-1的特點有:(1)隨機存取,(2)支持快速雙向搜索,(3)允許大約1秒的編碼/解碼延遲,比H.261的150ms內的嚴格限制松得多?!?.1視頻圖像編碼標準三、MPEG-1§6.1視頻圖像編碼標準四、MPEG-2/H.262MPEG-2是1993年通過的視頻壓縮標準,用于高清晰度視頻和音頻的編碼,也包含用于可視電話中的超低碼率(8-32kbps)的壓縮編碼;MPEG-2是MPEG-1的兼容擴展,廣泛應用于各種速率(2-20Mbps)和各種分辨率情況下的場合;MPEG-2不僅接受逐行掃描視頻,也可以接受隔行掃描視頻,高清晰度視頻,提供可伸縮調節(jié)的位流,提供改進的量化和編碼選項?!?.1視頻圖像編碼標準四、MPEG-2/H.262§6.1視頻圖像編碼標準五、MPEG-4

低于64kbps甚低數(shù)據(jù)率,交互式多媒體應用標準;

MPEG-4利用了人眼視覺特性,抓住了圖像信息傳輸?shù)谋举|,從輪廓、紋理思路出發(fā),基于對內容的訪問;AV對象(AVO,AudioVisualObject)是MPEG-4為支持基于內容編碼而提出的重要概念;視音頻已不再是圖像幀的概念,而是一個個視聽場景;把編碼對象從圖像幀到任意形狀的視頻對象,實現(xiàn)從基于像素的傳統(tǒng)編碼到基于對象和內容的現(xiàn)代編碼。

采用開放的編碼系統(tǒng),可隨時加入新的編碼算法模塊,同時也可根據(jù)不同應用需求現(xiàn)場配置解碼器,以支持多種多媒體應用;§6.1視頻圖像編碼標準五、MPEG-4§6.1視頻圖像編碼標準MPEG-7:多媒體內容描述標準,支持對多媒體資源的組織管理、搜索、過濾和檢索;MPEG-21:多媒體框架和綜合應用方面的框架。目標是建立一個交互的多媒體框架該標準致力于在大范圍的網(wǎng)絡上實現(xiàn)透明的傳輸和對多媒體資源的充分利用。六、H.264/AVC面向電視電話、電視會議和Internet多媒體的新一代國際視頻編碼標準;具有較強的抗誤碼特性,可適應丟包率高、干擾嚴重的信道中的視頻傳輸;支持不同網(wǎng)絡資源下的分級編碼傳輸,在圖像主觀質量和碼率方面有大幅改進,是目前綜合性能最優(yōu)、應用前景最廣泛的編碼標準?!?.1視頻圖像編碼標準MPEG-7:多媒體內容描述標準§6.1視頻圖像編碼標準對象形成及跟蹤基于語義基于對象基于像素對象特征提取MPEG-7MPEG-4MPEG-1MPEG-2§6.1視頻圖像編碼標準對象形成及跟蹤基于語義基于對象基§6.1視頻圖像編碼標準編碼標準全稱傳輸碼率主要應用H.261P×64kbps的音/視頻服務的編/解碼P×64kbpsP=1~30ISDN視頻會議MPEG-1面向數(shù)字存儲的運動圖像及伴音編碼1.5MbpsVCD,CD-ROMMPEG-2運動圖像及伴音的通用編碼4~100MbpsDVD,HDTV,VOD,DABH.263低比特率通信的視頻編碼低于64kbps遠程視頻監(jiān)控,可視電話,電視會議MPEG-4音/視頻對象的通用編碼小于64kbps64~384kbps384kbps~4MbpsInternet通信,無線通信,2D/3D計算機圖像交互式視頻MPEG-7多媒體內容描述接口任意多媒體檢索H.264/AVC高級視頻編碼算法任意未來視頻編碼工業(yè)標準§6.1視頻圖像編碼標準編碼標準全稱傳輸碼率主要應§6.2MPEG-1視頻編碼和解碼一、標準簡介編號為ISO/IEC11172;規(guī)定視頻信息與伴音信息經(jīng)壓縮之后的數(shù)據(jù)速率上限為1.5Mbps(其中視頻約為1.2Mbps,音頻約為0.3Mbps);可以在CD-ROM、硬盤、可寫光盤、數(shù)字音頻磁帶等介質上進行存儲,也可在局域網(wǎng)、ISDN上進行視頻與伴音信息的傳輸;應用:目前市場上用的MP3和VCD以及數(shù)字電話網(wǎng)絡上的視頻傳輸為MPEG-1。§6.2MPEG-1視頻編碼和解碼一、標準簡介§6.2MPEG-1視頻編碼和解碼二、標準組成MPEG-1系統(tǒng)—這部分是有關同步和多路復合的技術,用來把數(shù)字視頻和聲音復合成單一的數(shù)據(jù)位流。標準名是ISO/IEC11172-1。MPEG-1視頻—這部分是有關電視圖像的壓縮技術,標準名是ISO/IEC11172-2。MPEG-1音頻—這部分是關于聲音的壓縮編碼技術。標準名是ISO/IEC11172-3。MPEG-1一致性測試—這個標準詳細說明了如何測試比特數(shù)據(jù)流和解碼器是否滿足MPEG-1前3個部分中所規(guī)定的要求。這些測試可由廠商和用戶實施。標準名是ISO/IEC11172-4。MPEG-1軟件模擬—這部分內容不是標準,而是一個技術報告,給出了用軟件執(zhí)行前3個部分的結果。標準名是ISO/IEC11172-5?!?.2MPEG-1視頻編碼和解碼二、標準組成§6.2MPEG-1視頻編碼和解碼三、輸入圖像格式

MPEG-1輸入視頻信號采用源輸入格式(SIF,SourceInputFormat),采用YCrCb色空間;采樣格式4:2:0;

MPEG-1最大的圖像尺寸只能是352×288(對應25Hz幀頻)?!?.2MPEG-1視頻編碼和解碼三、輸入圖像格式§6.2MPEG-1視頻編碼和解碼四、視頻幀類型幀內圖(intrapicture,I幀)——對I幀的編碼類似于JPEG,支持隨機存取,壓縮比低;預測圖(predictedpicture,P幀)——是運動主體在與I幀相隔一定時間,在同一背景上已有明顯變化的畫面。以前面I幀為參考,相同信息不發(fā)送只發(fā)送主體變化差值,進行具有運動補償?shù)那跋蝾A測;雙向預測圖(bidirectionalpicture,B幀)——傳送I、P幀間的畫面,只反映運動主體變化情況,重放時即參考I也參考P,本身不做參考幀使用,不能用作預測參考;§6.2MPEG-1視頻編碼和解碼四、視頻幀類型§6.2MPEG-1視頻編碼和解碼§6.2MPEG-1視頻編碼和解碼§6.2MPEG-1視頻編碼和解碼§6.2MPEG-1視頻編碼和解碼§6.2MPEG-1視頻編碼和解碼有損1量化從10bits降為8bits無損2省略水平和垂直空白間隔有損3降低垂直方向色度分辨率(4:2:0)無損4活動圖像的DPCM有損5DCT和量化無損6Z掃描和零序列的游程編碼無損7Huffman編碼§6.2MPEG-1視頻編碼和解碼有損1量化從10bi§6.2MPEG-1視頻編碼和解碼-20%量化10bits到8bits270Mbit/s216Mbit/s-25%忽略水平和垂直空白間隔166Mbit/s-25%降低垂直色度分辨率(4:2:0)124.5Mbit/s進一步數(shù)據(jù)壓縮步驟2~6Mbit/s§6.2MPEG-1視頻編碼和解碼-20%量化10bi§6.2MPEG-1視頻編碼和解碼DPCMZ掃描+VLCHuffman編碼進一步數(shù)據(jù)壓縮DCT+量化§6.2MPEG-1視頻編碼和解碼DPCMZ掃描+VL§6.2MPEG-1視頻編碼和解碼五、MPEG-1視頻編碼器1、MPEG標準并沒有定義特定的編碼過程,只是定義了編碼比特流的語法和解碼過程。§6.2MPEG-1視頻編碼和解碼五、MPEG-1視頻§6.2MPEG-1視頻編碼和解碼2、關鍵技術(1)幀序重排在編碼器端需要對輸入圖像重新排序,對按顯示順序輸入的序列,經(jīng)過幀序重排后成為按編碼順序排列,然后按I、B、P幀分別進行編碼;(2)運動估計和補償(3)比特流緩沖器§6.2MPEG-1視頻編碼和解碼2、關鍵技術§6.2MPEG-1視頻編碼和解碼圖像壓縮首先處理I幀圖像,然后是P幀,最后在兩者的基礎上才處理B幀;MPEG編碼器算法允許選擇I圖像頻率(指每秒鐘出現(xiàn)I圖像的次數(shù))和位置(時間方向上幀所在的位置);一個典型的I、P、B圖像排列如下:I的距離為15;P的距離為3;§6.2MPEG-1視頻編碼和解碼圖像壓縮首先處理I幀§6.2MPEG-1視頻編碼和解碼“開放性”的視頻碼流:I

幀在碼流中出現(xiàn)的位置和頻率,可根據(jù)圖像序列中隨機存取和景物切換的需要進行選擇。相鄰最近的I與P幀或P幀之間的B幀數(shù)目可以選擇。I,P,B三種圖象的數(shù)據(jù)壓縮比:2~5:1,5~10:1,20~30:1

圖象的編碼順序和顯示順序不相同?!?.2MPEG-1視頻編碼和解碼“開放性”的視頻碼流§6.2MPEG-1視頻編碼和解碼§6.2MPEG-1視頻編碼和解碼§6.2MPEG-1視頻編碼和解碼習題:MPEG-1中編碼器、解碼器為什么會造成延時?如何減少延時? 解答:MPEG-1圖像編、解碼的顯示順序和編碼順序并不相同;顯示順序如下: IBBPBBPBBPBBIBBP 0123456789101112131415根據(jù)前向預測和雙向預測的關系,編碼順序如下: IPBBPBBPBBIBBPBB 0123456789101112131415§6.2MPEG-1視頻編碼和解碼習題:§6.2MPEG-1視頻編碼和解碼顯示順序上在前的B幀圖像,由于預測時參照靠后的P幀圖像,在傳輸存儲和解碼是必須先處理P幀圖像,因此在編碼順序上P幀圖像反而在B幀圖像之前;由于編碼順序和顯示順序之間的差異,帶來編、解碼總延時達0.8~1s;這種延時對廣播性質的圖像傳輸不會帶來任何影響,因為用戶并不能發(fā)現(xiàn)發(fā)射端與接收端信號起始時間的差異;對于交互性質的圖像傳輸,如數(shù)字會議電視會帶來不便,如甲方向乙方提問,由于雙向延時則會1.8~2s以后得到回答;§6.2MPEG-1視頻編碼和解碼顯示順序上在前的B幀§6.2MPEG-1視頻編碼和解碼為減小延時采用方法:通過減少B幀使兩個I幀之間的幀數(shù)減少,則編、解碼總延時下降;為進一步減小延時,可以把B幀、P幀全部去掉。這樣可得零延時,此方式稱M-JPEG方式;此時壓縮比降到5:1~7:1,所以延時與壓縮倍數(shù)是互相矛盾的。§6.2MPEG-1視頻編碼和解碼為減小延時采用方法:§6.2MPEG-1視頻編碼和解碼習題:若在一個有6幀圖像的GOP中,I、P、B各幀的比例為1:2:3,請構造出該GOP序列,并給出各幀的編碼順序。解答:構造GOP序列為:I1B2P3B4P5B6I7

各幀編碼順序為:I1P3B2P5B4I7B6

§6.2MPEG-1視頻編碼和解碼習題:§6.2MPEG-1視頻編碼和解碼I幀編碼算法§6.2MPEG-1視頻編碼和解碼I幀編碼算法§6.2MPEG-1視頻編碼和解碼P幀編碼算法§6.2MPEG-1視頻編碼和解碼P幀編碼算法§6.2MPEG-1視頻編碼和解碼B幀編碼算法§6.2MPEG-1視頻編碼和解碼B幀編碼算法§6.2MPEG-1視頻編碼和解碼六、MPEG-1視頻解碼器輸入緩沖解碼VLDIQIDCT前向運動補償緩沖器內插運動補償后向運動補償前面幀存后面幀存輸出輸入

量化表重建幀輸入速率固定,但畫面數(shù)據(jù)量大,必須設置緩沖輸出為I、B、P畫面的預測畫面預測畫面+差分畫面=重建畫面§6.2MPEG-1視頻編碼和解碼六、MPEG-1視頻§6.2MPEG-1視頻編碼和解碼VLD解碼器先解出圖像頭信息,確定圖像類型,提供預測方式和運動矢量等信息,解出量化的DCT系數(shù);反量化還原DCT系數(shù);反DCT還原出像塊的預測差值;經(jīng)過運動補償,得到相應的預測值;預測差值再與當前的預測值相加,恢復像素值;還原的圖像數(shù)據(jù)存儲在緩沖器里,經(jīng)重新排序后,按圖像顯示順序輸出?!?.2MPEG-1視頻編碼和解碼VLD解碼器先解出圖§6.2MPEG-1視頻編碼和解碼討論:編碼過程I幀:DCT

量化編碼P、B幀:預測求幀差DCT

量化編碼DCT變換幀內編碼模式下,采樣為8位無符號數(shù);幀間編碼模式下,采樣為9位有符號數(shù),因為差值有可能為負數(shù);經(jīng)過DCT變換后,用一個12位有符號整數(shù)表示?!?.2MPEG-1視頻編碼和解碼討論:§6.2MPEG-1視頻編碼和解碼量化MPEG規(guī)定了默認的量化表,也可以應用自定義的量化表;幀內編碼取整通常是取最近的整數(shù);幀間編碼是截斷非整數(shù)到最接近的小于其值的整數(shù);量化不是簡單的DCT系數(shù)除以一個量化系數(shù),還牽扯一個稱為量化階(quantizer_scale)的比例因子;量化階(quantizer_scale):整數(shù),取值范圍1~31,影響量化結果和壓縮性能,編碼器隨時可以改變該值,在壓縮碼流中必須插入一個特殊碼字來表示它?!?.2MPEG-1視頻編碼和解碼量化§6.2MPEG-1視頻編碼和解碼幀內量化公式

幀間量化公式§6.2MPEG-1視頻編碼和解碼幀內量化公式§6.2MPEG-1視頻編碼和解碼七、MPEG-1視頻語法MPEG視頻圖像數(shù)據(jù)流是一個分層結構,目的是把位流中邏輯上獨立的實體分開,防止語意模糊,并減輕解碼過程的負擔。MPEG視頻位流分層結構共包括六層:每一層支持一個確定的函數(shù);或是一個信號處理函數(shù)(DCT,運動補償);或是一個邏輯函數(shù)(同步,隨機存取點)等;每一個層的開始有一個頭,作為說明參數(shù)?!?.2MPEG-1視頻編碼和解碼七、MPEG-1視頻§6.2MPEG-1視頻編碼和解碼圖像序列層——由連續(xù)圖像組成,用序列終止符結束;圖像組層——圖像組(GOP)由幾幀連續(xù)圖像組成,是隨機存取單元,其第一幀總是I幀;圖像層——圖像(幀)編碼的基本單元,獨立的顯示單元;條帶層——由一幀圖像中的幾個宏塊組成,主要用于誤差恢復;宏塊層——一個宏塊由四個8×8的亮度塊和兩個8×8的色差塊組成;塊層——一個8×8的像素區(qū)域稱為一個塊,是最小的DCT單位?!?.2MPEG-1視頻編碼和解碼圖像序列層——由連續(xù)§6.2MPEG-1視頻編碼和解碼

層次名稱功能圖像序列層隨機存取單元:上下文圖像組層隨機存取單元:視頻編碼圖像層基本編碼單元宏塊片層重同步單元宏塊層運動補償單元塊層DCT單元§6.2MPEG-1視頻編碼和解碼§6.2MPEG-1視頻編碼和解碼圖像組

圖像組

圖像組圖像圖像序列宏塊條宏塊8×8塊§6.2MPEG-1視頻編碼和解碼圖像組圖§6.2MPEG-1視頻編碼和解碼GOP1GOPSCGOP頭圖像1圖像2圖像3…圖像N圖像SC圖像頭條

1條

2條

3…條m條

SC條頭宏塊

1宏塊

2宏塊

3…宏塊

nY1宏塊編碼信息Y2Y3Y4C1C28×8系數(shù)塊序列層GOP層圖像層宏塊層像塊層序列SC序列擴展序列頭GOP2…序列EC0x000001B3像條層§6.2MPEG-1視頻編碼和解碼GOP1GOPS§6.3MPEG-2視頻編碼和解碼一、標準簡介“運動圖象和相關聲音信息的一般編碼方法”,ISO/IEC13818,94年11月公布;用于DVB,HDTV,DVD。是針對標準數(shù)字電視和高清晰度電視在各種應用下的壓縮方案和系統(tǒng)層的詳細規(guī)定,也是國際主流的SDTV和HDTV的編碼標準。在ITU-T的協(xié)議系列中,被稱為H.262;MPEG-2和MPEG-1的圖像結構相同;MPEG-2通用性較強,滿足對圖像質量和傳輸速率的多層次要求,技術成熟;圖像格式:704×576(PAL)和704×480(NTSC),碼率為3~15Mbps,9Mbps模擬分量質量;能處理逐行掃描和隔行掃描圖像,包括16:9寬高比圖像格式?!?.3MPEG-2視頻編碼和解碼一、標準簡介§6.3MPEG-2視頻編碼和解碼MPEG-1定位在VHS質量,MPEG-2的目的是要達到廣播級的音視頻質量;MPEG-2編碼增加了場處理的方式;MPEG-2支持多種分辨率;MPEG-2的音頻編碼可與MPEG-1兼容(MPEG-2BC),并擴展支持16KHz、22.05KHz

和24KHz采樣頻率,音頻數(shù)據(jù)位率擴展到8—64Kbps,支持5.1和6.1聲道環(huán)繞立體聲;MPEG-2還支持線性PCM編碼和DolbyAC-3編碼?!?.3MPEG-2視頻編碼和解碼MPEG-1定位在V§6.3MPEG-2視頻編碼和解碼二、標準組成——共分9個部分,核心如下:13818-1系統(tǒng):定義規(guī)范的系統(tǒng)編碼,包括復合視頻和音頻數(shù)據(jù)的復用結構以及重放同步序列所需表示定時信息的方法;13818-2視頻:定義視頻數(shù)據(jù)的編碼方法和重建圖像所要求的解碼過程;13818-3音頻:定義音頻數(shù)據(jù)的編碼方法;13818-4兼容性:定義編碼碼流是否符合MPEG-2碼流的兼容性測試方法;13818-5軟件:描述MPEG-2標準的前3部分的軟件實現(xiàn)方法;13818-6數(shù)字存儲媒體-命令與控制:描述交互式多媒體網(wǎng)絡中服務器與用戶間的會話信令集。§6.3MPEG-2視頻編碼和解碼二、標準組成——共分§6.3MPEG-2視頻編碼和解碼三、檔次及等級MPEG-2視頻標準的技術規(guī)范集包括5個“檔次”(Profiles)和4個“等級”(Levels);檔次是MPEG-2標準定義的不同編碼算法的子集:較低的檔次在編碼時僅使用最為基本的編碼工具;較高的檔次則采用較多的編碼工具集;檔次之間具有向下兼容性;等級主要針對ITU-RCCIR601標準下的不同的圖像信源的分辨率:從低級到高級,對應信源的分辨率逐步增加。檔次與等級的若干組合構成MPEG-2視頻編碼標準在某種特定應用下的子集,對某一輸入格式的圖像,采用特定集合的壓縮編碼工具,可產(chǎn)生規(guī)定速率范圍內的編碼碼流?!?.3MPEG-2視頻編碼和解碼三、檔次及等級§6.3MPEG-2視頻編碼和解碼1、MPEG-2標準的檔次檔次(Profile)說明簡單檔次(SimpleProfile)使用最少的編碼工具集主檔次(MainProfile)

增加雙向預測方法信噪比可伸縮檔次(SNRScalableProfile)增加可伸縮特性空間可分伸縮檔次(SpatiallyScalableProfile)高級檔次(HighProfile)

用于圖像質量、比特率要求更高的場合§6.3MPEG-2視頻編碼和解碼1、MPEG-2標準§6.3MPEG-2視頻編碼和解碼2、MPEG-2標準的等級級別(Level)分辨率最大碼率低級(LowLevel)352×240×30,352×288×254Mbps主級(MainLevel)720×480×30,720×576×2515Mbps1440高級(High-1440Level)1440×1080×3060Mbps高級(HighLevel)1920×1080×30(16:9)80Mbps§6.3MPEG-2視頻編碼和解碼2、MPEG-2標準§6.3MPEG-2視頻編碼和解碼3、檔次與等級的組合選擇在實現(xiàn)MPEG-2標準時,可根據(jù)應用環(huán)境(數(shù)字存儲媒體、可視電話、數(shù)字電視、高清晰度電視及通信網(wǎng)絡)的需求,選擇適當?shù)臋n次與等級;在20種可能的組合中,為了保證與MPEG-1向下兼容及特定的數(shù)字廣播、通信和家用視聽設備的需求,目前11種是已獲通過的,成為MPEG-2適用點?!?.3MPEG-2視頻編碼和解碼3、檔次與等級的組合§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼以下4種技術規(guī)范最常使用:MP@ML:主級/主類,可應用于包括數(shù)字視頻廣播(DVB)、數(shù)字視盤(DVD)、數(shù)字有線電視和交互式電視等;SP@ML:簡單類/主級,用于數(shù)字有線電視和數(shù)字錄像機;MP@HL:主類/高級,用于全數(shù)字HDTV;SSP@HL1440:空域可伸縮類/1440高級,用于HDTV?!?.3MPEG-2視頻編碼和解碼以下4種技術規(guī)范最?!?.3MPEG-2視頻編碼和解碼四、系統(tǒng)層原理MPEG-2在概念上將編碼結構分為兩層:最外部為系統(tǒng)層(系統(tǒng)層作用是對多個壓縮層的碼流進行打包和復用);內層為壓縮層;為使壓縮碼流能夠在衛(wèi)星、電纜和地面頻道等信道的傳輸中兼容MPEG-1系統(tǒng)層碼流,MPEG-2系統(tǒng)部分還定義了兩種碼流結構:節(jié)目流(ProgramStream,PS);傳送流(TransportStream,TS)。MPEG-2為TS流和PS流都提供了相關的解碼方式和語法,能夠保證壓縮碼流的同步譯碼和音/視頻信號的重構;TS流和PS流的數(shù)據(jù)結構稱為PES數(shù)據(jù)包,包含編碼后的音/視頻信息和相關系統(tǒng)信息?!?.3MPEG-2視頻編碼和解碼四、系統(tǒng)層原理§6.3MPEG-2視頻編碼和解碼MPEG-2系統(tǒng)層結構圖打包器打包器PS復用TS碼流PS碼流視頻PES視頻音頻數(shù)據(jù)TS復用視頻編碼器音頻編碼器數(shù)據(jù)編碼器MPEG-2系統(tǒng)規(guī)范原始音/視頻等信息編碼后送到系統(tǒng)層系統(tǒng)層對壓縮碼流打包形成PES數(shù)據(jù)包復合成節(jié)目流和傳輸流送出I1B2B3P4B5B6P7B8B9I10I1P4B2B3P7B5B6I10B8B9§6.3MPEG-2視頻編碼和解碼MPEG-2系統(tǒng)層結§6.3MPEG-2視頻編碼和解碼1、節(jié)目流節(jié)目流能夠將一個或多個具有相同時間基點的數(shù)據(jù)流合成單個數(shù)據(jù)流;MPEG-2節(jié)目流解碼器能夠正確對MPEG-1系統(tǒng)流進行解碼,因此與MPEG-1系統(tǒng)流一樣,MPEG-2節(jié)目流適用于無誤碼影響的環(huán)境以及基于軟件的解碼處理;節(jié)目流的PES數(shù)據(jù)包通常比較長且長度不固定,典型長度在1~2KB之間;節(jié)目流支持MPEG-2標準一些特性:隨機訪問;特技模式等?!?.3MPEG-2視頻編碼和解碼1、節(jié)目流§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼2、傳送流傳送流面向通信傳輸信道定義,能夠有效提高傳送碼流對信道噪聲的魯棒性,傳送流中可以包含多個信道節(jié)目;傳送流將多個獨立時間基點的多信道節(jié)目合成為一個單獨的數(shù)據(jù)流,屬于同一節(jié)目的各個原始數(shù)據(jù)流具有相同時間基點,以便于劃分;傳送流由一系列的傳送流分組構成,每個傳送流分組是包括頭信息在內的188B的數(shù)據(jù)包;更利于使用嵌入式硬件進行處理,也適合在各種有線和無線信道中傳輸?!?.3MPEG-2視頻編碼和解碼2、傳送流§6.3MPEG-2視頻編碼和解碼(1)鏈接頭作用包同步:用于建立包同步;包識別PID:復用和解復用的識別信息,靠PID提取基本碼流;誤碼處理:發(fā)端對包作0~15的重復計數(shù),接收端發(fā)現(xiàn)連續(xù)計數(shù)中斷,就會判斷丟失數(shù)據(jù);有條件接收:傳輸格式允許包的數(shù)據(jù)作加擾處理,各基本流可獨立擾亂,傳輸包的連接投要說明是否擾亂,標志出解擾密鑰。頭部信息不允許擾亂。

鏈接頭可變長適配頭凈負荷數(shù)據(jù)

188字節(jié)

4字節(jié)§6.3MPEG-2視頻編碼和解碼(1)鏈接頭作用§6.3MPEG-2視頻編碼和解碼(2)適配的作用定時:一些包的適配頭傳時間信息,即在(PCR)字段傳27MHz時鐘,指出解碼器從碼流中讀完該字段的期望時間。解碼器的時鐘與PCR比較,調整本時鐘頻率,進行同步;可隨機進入壓縮碼流;在節(jié)目調節(jié)或更換時應該隨機進入音頻和視頻的I幀,在I幀前的視頻序列的頭部應該有一個隨機進入點;可插入本地節(jié)目?!?.3MPEG-2視頻編碼和解碼(2)適配的作用定時§6.3MPEG-2視頻編碼和解碼188字節(jié)包頭凈荷包頭凈荷…包頭凈荷適應字段81113包同步誤碼指示開始指示傳送優(yōu)先級PID加擾控制適應字段控制連續(xù)性計數(shù)器1224可變長可選字段8115適應字段長度不連續(xù)性指示隨機進入指示ES優(yōu)先級指示5個標志填充字節(jié)14848PCR拼接點倒計時傳送私有數(shù)據(jù)8OPCR適應字段擴展TS包格式§6.3MPEG-2視頻編碼和解碼188字節(jié)包頭凈荷包§6.3MPEG-2視頻編碼和解碼五、編/解碼原理1、編碼原理——經(jīng)典的基于DCT變換的混合編碼方案§6.3MPEG-2視頻編碼和解碼五、編/解碼原理§6.3MPEG-2視頻編碼和解碼在編碼器端,輸入圖像首先根據(jù)幀編碼模式來進行相應處理:幀內編碼——編碼圖像分塊后直接進行DCT變換,隨后使用量化矩陣進行量化處理,以縮小數(shù)值的動態(tài)區(qū)域。幀間編碼——視頻信號經(jīng)過運動估計和運動補償后,由運動矢量和參考幀生成當前幀的預測圖像,而后將當前幀與預測圖像的殘差圖像進行DCT變換、量化、VLC編碼,生成編碼比特流送入緩沖器?!?.3MPEG-2視頻編碼和解碼在編碼器端,輸入圖像§6.3MPEG-2視頻編碼和解碼2、解碼重建像塊差值每個GOP的頭部送一個量化矩陣用兩個碼表解碼運動矢量重建像塊數(shù)據(jù)提取各種參數(shù)§6.3MPEG-2視頻編碼和解碼2、解碼重建像塊差值§6.3MPEG-2視頻編碼和解碼六、關鍵技術1、離散余弦變換(DCT)考慮到視頻信號的隔行掃描特性,MPEG-2專門設置了兩種圖像結構:場模式(Field-pictures)和幀模式(Frame-pictures),因而DCT變換的基本單元也有所不同,即可以基于幀,也可以基于場;幀模式在進行DCT變換之前直接對宏塊進行劃分,每塊由兩場的交替行組成,最后分割為8×8像素的子塊即可;場模式是每幀先被劃分為16×16的宏塊,隨后對宏塊進行重新組合,按宏塊中每一行所在場的不同將宏塊劃分為16×8的2個子塊,最后對每個子塊中的2個8×8的數(shù)據(jù)塊做DCT變換?!?.3MPEG-2視頻編碼和解碼六、關鍵技術§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼2、量化器量化針對DCT變換系數(shù)進行,由于DCT變換系數(shù)對人類視覺系統(tǒng)感知的重要性不同,因此對一個8×8的DCT變換塊的64個DCT變換系數(shù)采用不同的量化精度,保證盡可能多的包含特定的DCT空間頻率信息,又使量化精度不超過需要;低頻系數(shù)對視覺感應的重要性較高,分配的量化步長較??;高頻系數(shù)對視覺感應的重要性較低,分配量化步長較大,通常情況下DCT變換塊中大多數(shù)高頻系數(shù)量化后會變?yōu)榱??!?.3MPEG-2視頻編碼和解碼2、量化器§6.3MPEG-2視頻編碼和解碼MPEG-2的量化公式為:fi,j為變換系數(shù);Fi,j為量化結果;Wi,j為量化矩陣;qp為由碼率控制器決定的量化因子?!?.3MPEG-2視頻編碼和解碼MPEG-2的量化公§6.3MPEG-2視頻編碼和解碼3、掃描方式DCT變換系數(shù)量化后大多數(shù)非零系數(shù)集中于8×8矩陣的左上角,即低頻分量區(qū),為使游程編碼和VLC編碼效率更高,必須將其轉換為一維序列的表達方式;掃描后,非零DCT系數(shù)集中于一維排列數(shù)組的前部,后面跟著長串的量化為0的DCT系數(shù),為后續(xù)編碼創(chuàng)造條件;MPEG-2使用了兩種掃描方法:Zigzag掃描和交替掃描;交替掃描是基于隔行掃描圖像的垂直相關性較逐行掃描圖像要小的特性得到的,在低比特率下具有更好的性能;§6.3MPEG-2視頻編碼和解碼3、掃描方式§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼4、游程編碼在游程編碼中,只有非零系數(shù)被編碼,當子塊的一維序列中剩余的DCT系數(shù)全部為零時,MPEG-2定義“塊結束”(EndOfBlock,EOB)標志位來指示,就可結束當前子塊編碼,從而進一步降低編碼的比特數(shù)。5、熵編碼MPEG-2視頻壓縮系統(tǒng)中采用Huffman編碼,對不同的語法元素制定了不同的VLC碼表?!?.3MPEG-2視頻編碼和解碼4、游程編碼§6.3MPEG-2視頻編碼和解碼6、信道緩存信道緩存是所有編解碼器都必須具有的核心部分;隨著視頻圖像統(tǒng)計特性的變化,編碼后的碼流碼率也是變化的,在大多數(shù)情況下傳輸帶寬是恒定的,因此需在編碼碼流進入信道前設置緩存器,以變比特率從熵編碼器讀入數(shù)據(jù),以傳輸系統(tǒng)標稱的恒定比特率向外讀出,輸入信道;緩存器大小固定,若編碼器瞬時輸出比特率明顯高于或低于傳輸系統(tǒng)的帶寬,可能造成緩存器的上溢或下溢,需要加碼率控制器,使緩存器的寫入與讀出數(shù)據(jù)速率趨于平衡;碼率控制器的調控主要通過調整量化器的量化參數(shù)實現(xiàn):將要上溢時增大量化步長以降低編碼數(shù)據(jù)速率;將要下溢時減小量化步長以提高編碼數(shù)據(jù)速率;§6.3MPEG-2視頻編碼和解碼6、信道緩存§6.3MPEG-2視頻編碼和解碼7、運動估計MPEG-2根據(jù)“幀模式”和“場模式”對運動估計和運動補償進行了相應的擴展;幀圖像的幀預測幀圖像的場預測場圖像的場預測雙基預測16×8預測對于幀圖像,合成圖像中相鄰行來自于不同場,圖像中物體運動時,垂直方向上相鄰像素間相關性會減少,MPEG-2使用新的運動估計方法,最高支持半像素精度?!?.3MPEG-2視頻編碼和解碼7、運動估計§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼§6.3MPEG-2視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼一、標準簡介“基于音視頻對象的通用編碼算法”,其目的是為多媒體信息壓縮提供統(tǒng)一和開放的平臺,ISO/IEC14496,99年2月公布第一版草案,2000年初正式成為國際標準;目前,在Internet視頻、流媒體、無線通信等領域中得到廣泛應用;作為開放標準,新內容和新算法不斷加入其中;可支持的比特速率低速率可低到5~64kb/s,高速率高達5Mb/s

;圖像格式:支持各種掃描標準和圖象格式;旨在將各種多媒體應用集成于一個完整的框架內?!?.4MPEG-4視頻編碼和解碼一、標準簡介§6.4MPEG-4視頻編碼和解碼二、標準提出的背景技術發(fā)展的趨勢與應用要求的提高音視頻內容越來越多,且很多是計算機合成的;視頻信息的傳送將擴展到所有網(wǎng)絡,無線通信不僅用于語音,而且將應用于數(shù)據(jù)和視頻;對音視頻信息交互處理和應用的要求不斷增長;電信、計算機、影視廣播領域正逐步融合,相互滲透;MPEG-1和MPEG-2存在不足基于像素和像素塊的編碼,不能對圖像的內容進行查詢、編輯和選擇播放等操作,交互性較差;無法在同一場景中集成自然媒體與人造(合成)媒體;不支持超鏈接;不提供對低碼率應用的支持,將圖像分成固定大小的塊,在高壓縮比情況下會有很嚴重的塊效應?!?.4MPEG-4視頻編碼和解碼二、標準提出的背景§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼三、標準組成由相互聯(lián)系的16個部分組成,核心部分如下:14496-1系統(tǒng):定義規(guī)范的系統(tǒng)編碼,主要是復合音/視頻數(shù)據(jù)的復用結構和實時應用中重放同步序列所需表示定時信息的方法。(編碼器端的音/視頻對象被分別編碼,與場景描述信息和其它同步控制信息合成比特流;接收端按場景描述信息合成場景)14496-2視頻:定義視頻數(shù)據(jù)的編碼表示和重建圖像所要求的解碼過程;14496-3音頻:定義音頻數(shù)據(jù)的編碼要求;14496-6多媒體集成傳輸框架(DMIF):對不同傳輸媒體提供共同的接口和服務。通過對編碼比特流進行打包,使壓縮碼流適合于在不同的信道傳輸。§6.4MPEG-4視頻編碼和解碼三、標準組成§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼四、標準新功能基于內容的交互性基于內容的操作與比特流編輯自然與合成數(shù)據(jù)的混合編碼增強的時間域隨機存?。嚎砂磶蛉我庑螤顚ο筮M行隨機存取高壓縮率提高了編碼效率:同等碼率下更好的圖像質量對多個并發(fā)數(shù)據(jù)流的編碼:提供對同一場景的有效多視角編碼、多伴音聲道編碼及有效視聽同步,足夠觀察視點下可有效描述三維自然景物靈活多樣的存取抗誤碼特性:多種抗誤碼技術基于內容的可伸縮性:圖像中各個對象具有不同優(yōu)先級§6.4MPEG-4視頻編碼和解碼四、標準新功能§6.4MPEG-4視頻編碼和解碼五、檔次與等級MPEG-4針對不同的媒體內容和場景描述定義了四各類:視頻類音頻類圖形類場景描述類不同分類在選用時是相互獨立的,與MPEG-2類似MPEG-4也采用了檔次和等級的形式,檔次就是針對特定的應用確定要采用的編碼工具,不同類的碼流句法結構不同,視頻、音頻和圖形類中支持的對象類型也各不相同;每個檔次包括一個或多個等級,用以限制計算復雜度。§6.4MPEG-4視頻編碼和解碼五、檔次與等級§6.4MPEG-4視頻編碼和解碼核心的視頻框架下主要包括如下6各檔次:SimpleVisualProfile:提供針對矩形視頻對象的編碼功能,具有最低的復雜度,適合于計算能力較差的移動網(wǎng)絡終端設備;AdvancedSimpleVisualProfile:提供針對矩形視頻對象的高效編碼功能,支持交織視頻方式,適合對質量要求較高的移動網(wǎng)絡;SimpleScalableVisualProfile:在SimpleProfile基礎上增加了對象的時域和空域可伸縮編碼功能,應用于提供多級服務質量,如Internet和軟件解碼;CoreVisualProfile:在SimpleProfile基礎上增加了任意形狀對象編碼和時域擴展編碼功能,適用于相對簡單的內容交互應用,如Internet多媒體應用;MainVisualProfile:在CoreProfile基礎上增加了Sprite對象編碼功能,適合于交互和娛樂質量廣播和DVD應用等;N-BitVisualProfile:在CoreProfile基礎上增加了具有不同像素深度(4~12bit)視頻對象編碼功能,適用于監(jiān)控應用;§6.4MPEG-4視頻編碼和解碼核心的視頻框架下主要包§6.4MPEG-4視頻編碼和解碼六、層次結構MPEG-4采用了基于對象的編碼方案。對象:一幅圖像中表征有含義的實體的一組區(qū)域;對象代替了像素,一幅圖像/視頻可以看作不能再分解的一組對象;一幅圖像可以包括一個或多個視頻對象,通過紋理、形狀、運動等方式來表征每一個視頻對象的時間、空間信息;基于對象的表征方法帶來了交互性;MPEG-4中所見的視音頻不再是圖像幀的概念,而是一個個視聽場景(AV場景),這些不同的AV場景由不同的AV對象組成;§6.4MPEG-4視頻編碼和解碼六、層次結構§6.4MPEG-4視頻編碼和解碼AV對象(Audio/VisualObjects)是聽覺、視覺、或者視聽內容的表式單元,其基本單位是原始AV對象,可以是自然的或合成的聲音、圖像,它們又可進一步組成復合AV對象;AV對象編碼是MPEG-4的核心編碼技術?!?.4MPEG-4視頻編碼和解碼AV對象(Audio/§6.4MPEG-4視頻編碼和解碼一個面向對象的電視情景Sportsresults:Portugal-Brazil

Sportsresults:Portugal-Brazil§6.4MPEG-4視頻編碼和解碼一個面向對象的電視情景§6.4MPEG-4視頻編碼和解碼MPEG-4視頻內容呈現(xiàn)層次結構,從高層到低層共5層結構;視頻對象序列(VisualObjectSequence,VS):是MPEG-4視頻流的最高語法結構,是一個完整的可以包括任何自然的或人工合成的對象的MPEG-4視頻場景。VS由視頻對象序列起始碼開始,后跟視頻對象,最后由視頻對象結束碼標注結束;視頻對象(VideoObject,VO):VO對應著場景中的一個特定對象,可以是任意形狀的對象,也可以是一個矩形幀。VO由視頻對象起始碼標注開始,后跟視頻對象層;視頻對象層(VideoObjectLayer,VOL):根據(jù)應用具體要求,每一個視頻對象都可以分級(空間或時間分級)或不分級的方式進行編碼,用視頻對象層來表征。VOL包括基本層和增強層,基本層有一個,增強層可有多個,每一層表示一種分辨率,分辨率可以從粗糙到精細;§6.4MPEG-4視頻編碼和解碼MPEG-4視頻內容呈§6.4MPEG-4視頻編碼和解碼視頻對象平面組(GroupofVideo

ObjectPlanes,GOV):可以提供對碼流的隨機訪問點,GOV是任意的;視頻對象平面(Video

ObjectPlane,VOP):一個VOP是對一個視頻對象的時間采樣,包括視頻對象的運動參數(shù),形狀信息和紋理數(shù)據(jù),對VOP編碼就是針對某一時刻該幀畫面VO的形狀、運動、紋理等信息進行編碼。一個普通的視頻幀可用矩形的VOP表征?!?.4MPEG-4視頻編碼和解碼視頻對象平面組(Gro§6.4MPEG-4視頻編碼和解碼MPEG-4視頻碼流邏輯結構圖§6.4MPEG-4視頻編碼和解碼MPEG-4視頻碼流邏§6.4MPEG-4視頻編碼和解碼說明:視頻對象(VO)為場景中的某個物體,有生命期,由時間上連續(xù)的許多幀構成;視頻對象平面(VOP)可看作VO在某一時刻的表示,即某一幀;視頻對象平面組(GOV)提供視頻流的標記點,標記VOP單獨解碼的時域位置,也就是對視頻流任意訪問的標記;視頻對象層(VOL)用于擴展VO的時域和空域分辨率,包含VO的3種屬性信息;幾個視頻場景(VS)組成一個完整的視頻序列?!?.4MPEG-4視頻編碼和解碼說明:P1P2PnP1P2Pn§6.4MPEG-4視頻編碼和解碼七、編/解碼原理在MPEG-4中,宏塊僅支持一種圖像采樣格式,即4:2:0格式。MPEG-4系統(tǒng)層編碼原理圖P1P2PnP1P2Pn§6.4MPEG-4視頻編碼和解§6.4MPEG-4視頻編碼和解碼視頻對象形成(分割):采用全自動、半自動、人工等方法分割出視頻對象,或直接采用傳統(tǒng)的矩形區(qū)域作為視頻對象,在時間軸上生成VOP;在MPEG-4中采用了3種VOP,即I-VOP幀、P-VOP幀和B-VOP幀。對于輸入的任意形狀的VOP序列,采用基于變換的混合編碼算法:首先對I-VOP進行編碼,然后是P-VOP和B-VOP,對不同視頻對象的形狀、運動、紋理信息應分配不同的碼字;將每個視頻對象(VOP)的形狀、運動、紋理信息在復合成VOL比特流輸出?!?.4MPEG-4視頻編碼和解碼視頻對象形成(分割):§6.4MPEG-4視頻編碼和解碼自然視覺對象編碼對于靜止圖像,采用零樹小波算法提供高壓縮比,同時提供多達11級的空間分辨率和質量的可伸縮性;對于運動視頻對象編碼,采用形狀編碼來支持對象編碼?!?.4MPEG-4視頻編碼和解碼自然視覺對象編碼§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼ShapeDecodingTextureDecodingShapeInformationDEMULTIPLEXERMotionCompensationBitstreamMotionDecodingVOPMemoryReconstructedVOPCompositorVideoOutCompositingscript§6.4MPEG-4視頻編碼和解碼ShapeTextur§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼場景描述——用BIFS描述語言描述場景的結構和視音頻對象的位置變化、尺寸、彩色、聲音響度等屬性;場景描述的核心是對多媒體對象的安排布置,用戶通過場景描述可以操作對象的顯示狀態(tài),實現(xiàn)交互操作;場景描述用單獨的數(shù)據(jù)流傳輸,單獨編解碼,可在壓縮的數(shù)據(jù)流域實現(xiàn)對象控制;場景描述結構例:顯示的圖像序列、聲音、音樂、語言,投影屏幕,背景墻,動畫合成女解說員,講由解說詞產(chǎn)生的語言,還有合成的繪圖—桌子和地球儀。§6.4MPEG-4視頻編碼和解碼場景描述——用BIFS§6.4MPEG-4視頻編碼和解碼BIFS場景描述例§6.4MPEG-4視頻編碼和解碼BIFS場景描述例§6.4MPEG-4視頻編碼和解碼八、關鍵技術1、形狀編碼使用一個尺寸為16的整數(shù)倍的最小邊框將VOP框住,框內分成獨立的16×16宏塊,這樣就可以將VOP用一個邊框矩陣表示,對VOP的形狀編碼變?yōu)閷吙蚓仃嚨木幋a;最終每個VOP的形狀與運動、紋理信息在宏塊內一起編碼。

§6.4MPEG-4視頻編碼和解碼八、關鍵技術§6.4MPEG-4視頻編碼和解碼VO的形狀信息有兩類:二值形狀信息和灰度形狀信息二值形狀信息的取值為0或1,值的選定依賴于像素是否位于視頻對象內部:1表示VOP形狀區(qū)域;0表示非VOP區(qū)域?;叶刃螤钚畔⑹嵌敌螤钚畔⒌臄U展,采用0~255之間的數(shù)值來表示VOP的透明程度,也稱做阿爾法平面(AlphaPlane)。0表示完全透明,1~254表示透明程度不同的VOP區(qū)域,255表示完全不透明?;叶燃壭螤钚畔⒌囊胂喈斢谧髁恕澳:碧幚?,使前景物體疊加到背景上時不會使邊界太明顯?!?.4MPEG-4視頻編碼和解碼VO的形狀信息有兩類:§6.4MPEG-4視頻編碼和解碼News一幀圖像

前景對象的二值形狀信息§6.4MPEG-4視頻編碼和解碼News一幀圖像§6.4MPEG-4視頻編碼和解碼形狀信息編碼采用基于塊的運動補償變換編碼方法,與VOP的紋理和運動信息一起編碼;編碼以二值阿爾法塊為單位,基本編碼工具是基于上下文的算術編碼算法,根據(jù)有無運動估計分為:幀間編碼,用于在幀間有運動補償?shù)膱龊?;幀內編碼,用于幀內無運動補償?shù)那闆r?!?.4MPEG-4視頻編碼和解碼形狀信息編碼采用基于塊§6.4MPEG-4視頻編碼和解碼編碼模式分為多種:VOP外部塊,標記為透明塊,這些塊的紋理無需編碼;VOP內部塊,標記為不透明塊,這些塊不做形狀編碼,但需要紋理編碼;幀內VOP,使用幀內形狀編碼,不使用參考信息;幀間VOP,運動矢量誤差為零,塊不更新;幀間VOP,運動矢量誤差為零,塊更新。用幀間形狀編碼對更新的塊編碼,宏塊的運動矢量可通過計算最佳匹配位置給出;§6.4MPEG-4視頻編碼和解碼編碼模式分為多種:§6.4MPEG-4視頻編碼和解碼八、關鍵技術2、運動信息編碼運動信息編碼可視為現(xiàn)有標準由矩形視頻幀向任意形狀VOP的延伸;三種模式:幀內編碼模式(I-VOP)、幀間預測編碼模式(P-VOP)和幀間雙向預測編碼模式(B-VOP);運動估計可以基于16×16的宏塊,同時也支持8×8子塊;為了能夠適應任意形狀的VOP編碼,還引入圖像填充技術和多邊形匹配技術?!?.4MPEG-4視頻編碼和解碼八、關鍵技術§6.4MPEG-4視頻編碼和解碼對于標準宏塊:采用標準的基于塊的運動估計和補償技術;對于位于VOP邊界的輪廓宏塊,形狀不規(guī)則,運動估計與補償步驟如下:圖像填充技術,使用VOP內部像素值來對外部像素值進行預測,用該灰度值填充輪廓宏塊中位于邊界以外的像素。水平填充,根據(jù)邊緣像素左端或右端最近鄰像素點有效灰度值填充,若左右都有合適的則取平均值,否則哪端合適取哪端像素點值;垂直填充,水平填充后剩下仍為透明的像素部分進行垂直填充,根據(jù)上下鄰近點灰度值填充。多邊形匹配,根據(jù)匹配準則在采用填充技術填充過的重構VOP中,為當前VOP的邊緣宏塊尋找最佳匹配宏塊?!岸噙呅巍倍x了輪廓宏塊中位于VOP以內的部分,以外的部分排除在外。運動估計只對多邊形定義的屬于VOP活動區(qū)域的像素進行?!?.4MPEG-4視頻編碼和解碼對于標準宏塊:采用標準§6.4MPEG-4視頻編碼和解碼水平填充垂直填充§6.4MPEG-4視頻編碼和解碼水平填充垂直填充§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼八、關鍵技術3、紋理信息編碼紋理:由許多相互接近、互相編織的元素構成的,并且具有一定程度的規(guī)律性或周期性;VOP的紋理信息包含在視頻信號的亮度分量和兩個色度分量中;VOP紋理編碼的對象可以是幀內編碼模式I-VOP,也可以是幀間編碼模式的P-VOP或B-VOP運動補償后的預測誤差。§6.4MPEG-4視頻編碼和解碼八、關鍵技術§6.4MPEG-4視頻編碼和解碼紋理編碼流程DCT量化系數(shù)預測系數(shù)掃描VLCVOP紋理碼流§6.4MPEG-4視頻編碼和解碼紋理編碼流程DCT量化§6.4MPEG-4視頻編碼和解碼DCT變換:幀內編碼——完全屬于VOP內的區(qū)域直接做,屬于VOP邊緣的宏塊區(qū)域首先填充再做變換;幀間編碼——將VOP形狀之外的塊填充后變換;量化:采用非線性方式量化;系數(shù)預測(幀內預測):DCT變換后不直接對系數(shù)進行編碼,根據(jù)已編碼子塊(上方或左方)的系數(shù)得到預測值,對當前塊DCT系數(shù)和預測系數(shù)的殘差進行量化和熵編碼;系數(shù)掃描:定義了3種掃描方式Zigzag掃描(如果沒有DC頻段系數(shù)預測)、水平交替掃描(如果DC系數(shù)進行水平方向預測)和垂直交替掃描(如果DC系數(shù)進行垂直方向預測);熵編碼:在MPEG-4中對于幀內編碼塊和幀間編碼塊,DC系數(shù)和AC系數(shù)分別采用不同的碼表;幀內編碼塊DC系數(shù)用8bit定長碼編碼,AC系數(shù)Huffman編碼;幀間編碼塊DC和AC系數(shù)都采用Huffman編碼?!?.4MPEG-4視頻編碼和解碼DCT變換:幀內編碼—§6.4MPEG-4視頻編碼和解碼九、編碼新技術1、視頻對象提取技術視頻編碼以任意形狀的VOP為單位進行的,編碼前要提取獨立的VOP信息,針對不同對象進行編碼;視頻對象提?。ǚ指睿┘夹g是MPEG-4的關鍵技術之一,是新一代編碼的研究熱點及難點,標準中沒有規(guī)定生成VOP的具體算法;VOP提取包括:全自動、半自動(人工輸入確定初始幀VOP的范圍通過算法獲得初始幀VOP,后繼幀中自動跟蹤此VOP的運動和變化)和人工提取(人工方法將視頻對象標記出來,對有意義的對象進行跟蹤提?。?;目前的編碼機制中大都以16×16的宏塊為基本單位,按基于矩形的塊編碼方案進行,可以與現(xiàn)有面向像素編碼標準兼容,又便于面向對象編碼技術擴展。§6.4MPEG-4視頻編碼和解碼九、編碼新技術§6.4MPEG-4視頻編碼和解碼九、編碼新技術2、可伸縮編碼技術支持兩種可伸縮方式:空域可伸縮和時域可伸縮;每一種可伸縮至少包括2層VOL,低層為基本層,高層為增強層;空域可伸縮通過增強層強化基本層的空間分辨率實現(xiàn),目前只支持矩形VOP;時域可伸縮既支持幀(矩形VOP)又支持任意形狀VOP。§6.4MPEG-4視頻編碼和解碼九、編碼新技術§6.4MPEG-4視頻編碼和解碼九、編碼新技術3、Sprite對象編碼視頻編碼中多數(shù)視頻序列中的背景本身靜止或變化緩慢的,可通過圖像匹配和拼接將整個視頻序列的背景圖像拼為一幅完整的全景圖像,該序列所有幀背景中出現(xiàn)過的像素點在該背景的全景圖中都能找到對應點——Sprite圖像;Sprite圖像本身不變,整個編碼中只需傳輸一次,接收端根據(jù)攝像機運動參數(shù)重建背景,避免重復傳送,減少傳輸數(shù)據(jù)量;§6.4MPEG-4視頻編碼和解碼九、編碼新技術§6.4MPEG-4視頻編碼和解碼Sprite全景圖生成過程全局運動估計仿射變換合成幀存形狀圖當前幀Sprite§6.4MPEG-4視頻編碼和解碼Sprite全景圖生成§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼§6.4MPEG-4視頻編碼和解碼Sprite編碼分3種:基本Sprite編碼低延時Sprite編碼可伸縮Sprite編碼Sprite的形狀和紋理信息都按照I-VOP進行編碼;低延時Sprite編碼:整個Sprite分為不同的片,先將必要的片傳送到接收端顯示,其余的片在必要時或者帶寬允許時在傳送;可伸縮Sprite編碼:先傳送低分辨率圖像,后不斷進行細化。§6.4MPEG-4視頻編碼和解碼Sprite編碼分3種§6.4MPEG-7簡介“多媒體內容描述接口”ISO/IEC15938;多媒體內容描述標準,定義了描述符、描述語言和描述方案,對多媒體信息進行標準化的描述,實現(xiàn)快速有效的搜索;MPEG-1,-2,-4是對信息進行有效的表示,MPEG-7則對信息表示方法進行描述,為各種表示法的適當部分提供索引。前三種編碼方法使得信息的內容變得容易獲取,MPEG-7則使在需要時能找到它。MPEG-7確立各種類型多媒體信息的標準描述方法,方法是描述符和描述方案的組合,并與所描述的內容緊密相關;描述形式與描述內容的編碼方法或存儲方式無關,描述可獨立于所描述的媒體而存在。也可將描述附加在媒體上,方便檢索和查詢。標準只規(guī)定媒體特征的描述語法和語義?!?.4MPEG-7簡介“多媒體內容描述接口”ISO/I§6.4MPEG-7標準的組成§6.4MPEG-7標準的組成§6.4MPEG-7中的描述定義語言描述定義語言DDL、描述方案和描述符是實現(xiàn)MPEG-7描述的主要工具,其中DDL是MPEG-7的核心部分;DDL——一種允許產(chǎn)生新的描述方案和描述符的語言,同時能夠對現(xiàn)有的描述方案進行擴展和修改;DDL必須滿足MPEG-7描述定義語言的需求:能夠表示描述方案或描述方案元素之間的復雜空間、時間、結構和概念關系;能提供豐富的模型來連接或索引一個或多個描述以及被描述的數(shù)據(jù);必須是一個與應用無關、人機可讀的平臺;§6.4MPEG-7中的描述定義語言描述定義語言DDL、§6.4MPEG-7工作范圍MPEG-7工作范圍:特征提取標準的信息描述(MPEG-7)搜索引擎視頻素材的低級描述符能夠描述象形狀、尺寸、紋理、顏色、運動(拋射)、位置等屬性;最高級的抽象描述等級可能會給出關于語義的信息。如,描述一個場景;中級描述,如一個場景中主、客體分類。§6.4MPEG-7工作范圍MPEG-7工作范圍:特征提§6.4MPEG-7與其它MPEG標準的區(qū)別MPEG-7可獨立于其他MPEG標準使用;MPEG其他標準著重研究視頻、音頻的高效壓縮編碼算法,MPEG-7對多媒體對象的存儲、編碼不進行專門討論,而將重點放在多媒體對象的特征提取、數(shù)據(jù)庫的層次劃分、不同數(shù)據(jù)類型之間的有機聯(lián)系等方面,它所處理的數(shù)據(jù)對象甚至包含模擬信號(電影和錄音剪輯);可利用MPEG-7的描述來增強其他MPEG標準的內容描述功能;MPEG-7與其他MPEG標準最大不同在于MPEG-7更注重于對人的自然本性的考慮;MPEG-7必須將許多相關領域的特點和技術結合起來,比如:計算機視覺、數(shù)據(jù)庫以及信號處理等。§6.4MPEG-7與其它MPEG標準的區(qū)別MPEG-7§6.4MPEG-7的潛在應用PULL(檢索/定位):多媒體素材的存儲與調用

PUSH

(過濾):個性化電視服務§6.4MPEG-7的潛在應用PULL(檢索/定位):§6.4MPEG-7基于內容檢索系統(tǒng)的簡單結構媒體庫特征庫特征抽取檢索引擎管理端用戶端數(shù)據(jù)庫數(shù)據(jù)庫生成子系統(tǒng)數(shù)據(jù)查詢子系統(tǒng)知識庫§6.4MPEG-7基于內容檢索系統(tǒng)的簡單結構媒體庫特征§6.4MPEG-7按MPEG-7描述標準建立的管理系統(tǒng)工作流程圖例讀入視頻資料鏡頭分割提取視頻資料及其關鍵幀的特征值將特征值按照MPEG-7標準進行描述將視頻資料及其描述信息存儲到視頻數(shù)據(jù)庫提取關鍵幀§6.4MPEG-7按MPEG-7描述標準建立的管理§6.4MPEG-21多媒體框架(ISO/IEC18034)標準的提出背景隨著互連網(wǎng)的飛速發(fā)展,越來越多的設備通過互聯(lián)網(wǎng)的主干線、本地的寬帶或窄帶網(wǎng)、高速局域網(wǎng)或家庭網(wǎng)以及正在發(fā)展的無線網(wǎng)互連到一起,共享和交換信息;多媒體內容的產(chǎn)生和消費不再是固定的,每個消費終端都是多媒體的制作者和消費者,多媒體數(shù)據(jù)將通過不同的用戶層和應用范圍漫游。在多媒體數(shù)據(jù)的交換過程中,要處理和組成各種所需內容,直到滿足各種消費要求的問題尚不能解決;怎樣能使這些無處不在的多媒體信息高效地、安全可靠地通過全球范圍的各種不同類型網(wǎng)絡和用戶設備漫游?是當前流媒體安全發(fā)展中的一個挑戰(zhàn)性的問題;解決這個問題需要綜合地利用不同層次的多媒體技術標準?,F(xiàn)在的標準是否能真正做到匹配銜接?在各個標準之間是否存在缺漏?是否還需要一個綜合性的標準來加以協(xié)調?§6.4MPEG-21多媒體框架(ISO/IEC1803§6.4MPEG-21面對這些問題,于1999年10月的墨爾本MPEG會議上提出了多媒體框架這一概念。1999年12月毛伊島會議上確定為MPEG-21。主要研究目標討論是否需要和如何將這些不同的組件(協(xié)議、標準、技術等)有機的結合起來;討論是否需要新的規(guī)范;討論如果具備前兩個條件,如何將不同的標準集成在一起?!?.4MPEG-21面對這些問題,于1999年10月的§6.4MPEG-21MPEG-21的范圍可描述成一些關鍵技術的集成,其功能包括:內容表示、內容創(chuàng)建、內容發(fā)布、內容消費、內容識別與描述、知識產(chǎn)權管理和保護、財政管理、用戶的隱私權、終端和網(wǎng)絡資源的內容提取、事件報告等;MPEG-21框架的基本要素數(shù)字項目的發(fā)布(DigitalItemDeclaration

)數(shù)字項目的識別與描述內容管理與使用知識產(chǎn)權管理與保護終端和網(wǎng)絡(TerminalsandNetworks)內容表示(ContentRepresentation)事件報告(EventReporting)§6.4MPEG-21MPEG-21的范圍可描述成一些關§6.4MPEG-21§6.4MPEG-21§6.4MPEG-21的應用和發(fā)展有關MPEG-21的應用主要參考MPEG會議產(chǎn)生的文檔N3549.doc,文中介紹了多方面應用及舉例:相冊管理;數(shù)字圖書館;醫(yī)學研究;旅游;家庭設計網(wǎng)絡視音頻的廣播和點播等。MPEG-21的制定從2000年5月開始,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論