數(shù)據(jù)壓縮技術(shù)_第1頁
數(shù)據(jù)壓縮技術(shù)_第2頁
數(shù)據(jù)壓縮技術(shù)_第3頁
數(shù)據(jù)壓縮技術(shù)_第4頁
數(shù)據(jù)壓縮技術(shù)_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)壓縮技術(shù)第1頁,共63頁,2023年,2月20日,星期五第3章數(shù)據(jù)壓縮技術(shù)多媒體技術(shù)的核心是計算機(jī)實時地綜合處理聲音、文字、圖形、圖像等信息,而為了使計算機(jī)能夠處理這些信息,就必須對它們進(jìn)行數(shù)字化,即把那些在時間和幅度上連續(xù)變化的聲音、圖形和圖像信號等,轉(zhuǎn)換成計算機(jī)能夠處理的、在時間和幅度上均為離散量的數(shù)字信號。這個過程,就稱為多媒體數(shù)據(jù)編碼。20世紀(jì)90年代以來,移動通信等無線接入和多媒體技術(shù)的大量引入,同時受到頻帶的限制,迫使人們采用壓縮編碼,如今,數(shù)據(jù)壓縮技術(shù)的應(yīng)用已經(jīng)有了一些封裝性很好的軟件工具和方法。第2頁,共63頁,2023年,2月20日,星期五3.1多媒體信息的計算機(jī)表示多媒體信息的主要類型有文本(text)、語音(voice)、音響(audio)、矢量圖(vectorgraphics)、位圖(bitmap)和視頻(video)等。通常,數(shù)字化的視頻和音頻信號其數(shù)據(jù)量是十分巨大的。例如,一幅640×480點陣的彩色圖像(16位色,即65536種顏色/像素)數(shù)據(jù)量約為4.92MB;BMP圖像通常保存的顏色深度有2(1位)、16(4位)、256(8位)、65536(16位)和1670萬(16777216)(24位)種顏色(其中位是表示每點所用的數(shù)據(jù)位)。對于電視信號,如果以每秒25幀圖像的速度進(jìn)行播放,則要求這種信號必須以不低于122.9Mb/s速度進(jìn)行數(shù)據(jù)傳輸,才不至于造成失真;而音頻信號,如果采樣頻率為44.1kHz,量化為16位雙聲道立體聲,則650MB的光盤只能存放l個小時的播放量,并且要求其傳輸速率不低于1.4Mb/s。第3頁,共63頁,2023年,2月20日,星期五2011-11-4第4頁,共63頁,2023年,2月20日,星期五3.1多媒體信息的計算機(jī)表示為了達(dá)到令人滿意的圖像、視頻畫面質(zhì)量和聽覺效果,多媒體系統(tǒng)必須解決視頻、音頻信號數(shù)據(jù)的大容量存儲和實時傳輸問題。而這些多媒體數(shù)據(jù)之間往往具有很大的相關(guān)性和冗余性,確實具有很大的壓縮潛力。第5頁,共63頁,2023年,2月20日,星期五3.1多媒體信息的計算機(jī)表示以位圖(BMP)圖像為例,圖像數(shù)據(jù)中像素與像素之間無論是在行方向還是在列方向都具有很大的相關(guān)性,因而整體上數(shù)據(jù)的冗余度很大。在允許一定限度失真的前提下,可以對圖像數(shù)據(jù)進(jìn)行很大程度的壓縮(例如轉(zhuǎn)換成JPG格式)。這里所說的失真一般都是在人眼允許的誤差范圍之內(nèi),壓縮前后的圖像如果不做非常細(xì)致的對比很難覺察出兩者之間的差別。見圖3-1。第6頁,共63頁,2023年,2月20日,星期五圖3-1bmp圖片與jpg圖片的比較a)bmp圖片,900KBb)jpg圖片,41.2KB第7頁,共63頁,2023年,2月20日,星期五3.2數(shù)據(jù)壓縮編碼技術(shù)為了解決存儲、處理和傳輸多媒體數(shù)據(jù)的問題,除了提高計算機(jī)本身的性能以及通信信道的帶寬外,更重要的則是對多媒體數(shù)據(jù)進(jìn)行高效實時的壓縮,壓縮的目的是要減少多媒體信息的存儲量和傳輸量,因此,數(shù)據(jù)壓縮編解碼自然成為了多媒體技術(shù)中的核心技術(shù)。第8頁,共63頁,2023年,2月20日,星期五3.2.1多媒體的數(shù)據(jù)量、信息量和冗余量數(shù)據(jù)是用來記錄和傳送信息的,或者說數(shù)據(jù)是信息的載體。對于人類用計算機(jī)推理與計算來說,真正有用的不是數(shù)據(jù)本身,而是數(shù)據(jù)所攜帶的信息。多媒體數(shù)據(jù),尤其是圖像、音頻和視頻,其數(shù)據(jù)量是相當(dāng)大的,但那么大的數(shù)據(jù)量并不完全等于它們所攜帶的信息量。在信息論中,這就稱為冗余。第9頁,共63頁,2023年,2月20日,星期五3.2.1多媒體的數(shù)據(jù)量、信息量和冗余量多媒體數(shù)據(jù)中存在的數(shù)據(jù)冗余主要有以下幾種類型。1)空間冗余:這是圖像數(shù)據(jù)中經(jīng)常存在的一種冗余。在同一幅圖像中,規(guī)則物體和規(guī)則背景(所謂規(guī)則是指表面是有序的而不是雜亂無章的排列)的表面物理特性具有相關(guān)性,這些相關(guān)性的光成像結(jié)果在數(shù)字化圖像中就表現(xiàn)為數(shù)據(jù)冗余。2)時間冗余:這是序列圖像(電視圖像、運動圖像)和語音數(shù)據(jù)中所經(jīng)常包含的冗余。圖像序列中的兩幅相鄰的圖像,后一幅圖像與前一幅圖像之間有較大的相關(guān),這反映為時間冗余。同理,在語音中,由于人在說話時其發(fā)音的音頻是一連續(xù)和漸變的過程,而不是一個完全時間上獨立的過程,因而存在著時間冗余??臻g冗余和時間冗余是當(dāng)我們將圖像信號看作是概率信號時所反應(yīng)出的統(tǒng)計特性,因此有時這兩種冗余也被稱為統(tǒng)計冗余。第10頁,共63頁,2023年,2月20日,星期五3.2.1多媒體的數(shù)據(jù)量、信息量和冗余量3)信息熵冗余(編碼冗余):信息熵冗余是指數(shù)據(jù)所攜帶的信息量少于數(shù)據(jù)本身而反映出來的數(shù)據(jù)冗余。4)結(jié)構(gòu)冗余:數(shù)字化圖像(例如草席圖像)中表面紋理存在著非常強(qiáng)的紋理結(jié)構(gòu),稱之為在結(jié)構(gòu)上存在冗余。5)知識冗余:有許多圖像的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。例如人臉的圖像有固定的結(jié)構(gòu)等。這類規(guī)律性的結(jié)構(gòu)可由先驗知識和背景知識得到,此類冗余為知識冗余。6)視覺冗余:人類的視覺系統(tǒng)由于受生理特性的限制,對于圖像場的變化并不是都能感知的。這些變化如果不被視覺所察覺的話,我們?nèi)哉J(rèn)為圖像是完好的或足夠好的。這樣的冗余,稱之為視覺冗余。第11頁,共63頁,2023年,2月20日,星期五3.2.2圖像壓縮預(yù)處理所謂圖像數(shù)據(jù)壓縮,就是要在不影響或少影響圖像質(zhì)量的前提下,盡量設(shè)法減少圖像數(shù)據(jù)中的數(shù)據(jù)量。首要任務(wù),就是去除各種圖像數(shù)據(jù)中的冗余數(shù)據(jù)。刪除冗余數(shù)據(jù)必然會給圖像質(zhì)量帶來一定的損失,這就需要進(jìn)行相應(yīng)的預(yù)處理,來保證將這種損失降至最低限度。為此,圖像壓縮技術(shù)使用一些通用的預(yù)處理工具,如濾波器、色差信息二次抽樣、量化、預(yù)測編碼、運動補(bǔ)償、變長編碼和圖像內(nèi)插等附加的能提供有效壓縮因子的圖像變換算法。第12頁,共63頁,2023年,2月20日,星期五3.2.3數(shù)據(jù)壓縮方法數(shù)據(jù)壓縮處理一般由兩個過程組成:一是編碼過程,即將原始數(shù)據(jù)經(jīng)過編碼進(jìn)行壓縮,以便于存儲與傳輸;二是解碼過程,即對編碼數(shù)據(jù)進(jìn)行解碼,還原為可以使用的數(shù)據(jù)。第13頁,共63頁,2023年,2月20日,星期五3.2.3數(shù)據(jù)壓縮方法按照出發(fā)點的不同,數(shù)據(jù)壓縮方法有幾種不同的分類結(jié)果。根據(jù)解碼后的數(shù)據(jù)與原始數(shù)據(jù)是否完全一致,數(shù)據(jù)壓縮方法可分為可逆(無失真)編碼方法和不可逆(有失真)編碼方法兩類。用可逆編碼方法壓縮的圖像,其解碼圖像與原始圖像嚴(yán)格相同,即壓縮是完全可恢復(fù)的或沒有偏差的。用不可逆編碼方法壓縮的圖像,其還原后的圖像較之原始圖像存在著一定的誤差,但這種誤差上限定在一定范圍內(nèi),就視覺效果而言一般是可接受的。因此,不可逆編碼方法大多被用在把人類視覺作為對象的場合下。第14頁,共63頁,2023年,2月20日,星期五3.2.3數(shù)據(jù)壓縮方法根據(jù)壓縮原理的不同,數(shù)據(jù)壓縮方法可分為預(yù)測編碼、變換編碼、量化與向量量化編碼、信息熵編碼、分頻帶編碼(又稱子帶編碼)、結(jié)構(gòu)編碼、基于知識的編碼等類別。此外,還有統(tǒng)計編碼、行程編碼和算術(shù)編碼等方法。第15頁,共63頁,2023年,2月20日,星期五3.2.4無損壓縮與有損壓縮常用的壓縮編碼可以分為兩大類:一類是無損壓縮法,也稱冗余壓縮法、熵編碼;另一類是有損壓縮法,也稱熵壓縮法。第16頁,共63頁,2023年,2月20日,星期五3.2.4無損壓縮與有損壓縮1.無損壓縮法無損壓縮法去掉或減少了數(shù)據(jù)中的冗余,但這些冗余值是可以重新插入到數(shù)據(jù)中的,因此,無損壓縮是可逆的過程。例如,需壓縮的數(shù)據(jù)長時間不發(fā)生變化,此時連續(xù)的多個數(shù)據(jù)值將會重復(fù);這時若只存儲不變樣值的重復(fù)數(shù)目,顯然會減少存儲數(shù)據(jù)量,且原來的數(shù)據(jù)可以從壓縮后的數(shù)據(jù)中重新構(gòu)造出來(或者叫做還原,解壓縮),信息沒有損失。因此,無損壓縮法也稱無失真壓縮。典型的無損壓縮法主要是基于統(tǒng)計的編碼方案,如霍夫曼(Huffman)編碼、Fano-Shannon編碼、算術(shù)編碼、游程編碼(Run-length)、LZ編碼等。第17頁,共63頁,2023年,2月20日,星期五3.2.4無損壓縮與有損壓縮無損壓縮法由于不會產(chǎn)生失真,因此在多媒體技術(shù)中一般用于文本數(shù)據(jù)的壓縮,它能保證完全地恢復(fù)原始數(shù)據(jù),如磁盤文件的壓縮。但這種方法壓縮比較低,如LZ編碼、游程編碼、霍夫曼編碼的壓縮比一般在2:1~5:1之間。第18頁,共63頁,2023年,2月20日,星期五3.2.4無損壓縮與有損壓縮2.有損壓縮法有損壓縮法壓縮了熵,會減少信息量。因為熵定義為平均信息量,而損失的信息是不能再恢復(fù)的,因此這種壓縮法是不可逆的。常用的有損壓縮方法有PCM(脈沖編碼調(diào)制)、預(yù)測編碼、變換編碼(離散余弦變換方法)、插值和外推法(空域亞采樣、時域亞采樣、自適應(yīng))等。新一代的數(shù)據(jù)壓縮方法,如矢量量化和子帶編碼、基于模型的壓縮、分形壓縮和小波變換壓縮等也已經(jīng)接近或達(dá)到實用水平。第19頁,共63頁,2023年,2月20日,星期五3.2.4無損壓縮與有損壓縮有損壓縮法由于允許一定程度的失真,適用于重構(gòu)信號不一定非要和原始信號完全相同的場合,可用于對圖像、聲音、動態(tài)視頻等數(shù)據(jù)的壓縮。第20頁,共63頁,2023年,2月20日,星期五3.2.5數(shù)據(jù)壓縮算法的綜合評價指標(biāo)數(shù)據(jù)壓縮方法的優(yōu)劣主要由所能達(dá)到的壓縮倍數(shù)、從壓縮后的數(shù)據(jù)所能恢復(fù)(或稱重建)的圖像(或聲音)的質(zhì)量、以及壓縮和解壓縮的速度等幾方面來評價。此外,算法的復(fù)雜性和延時等也是應(yīng)當(dāng)考慮的因素。衡量一種數(shù)據(jù)壓縮技術(shù)好壞的指標(biāo)綜合起來就是:一壓縮比要大;二實現(xiàn)壓縮的算法要簡單,壓縮、解壓速度快;三是恢復(fù)效果要好。第21頁,共63頁,2023年,2月20日,星期五3.3多媒體文件在大多數(shù)系統(tǒng)中,普通的文本文件由字節(jié)的線性序列組成,而對多媒體而言,情況就復(fù)雜多了。首先,視頻與音頻完全不同,它們由不同的設(shè)備捕獲(視頻為CCD芯片,音頻為麥克風(fēng)),具有不同的內(nèi)部結(jié)構(gòu)(視頻每秒有25~30幀,音頻每秒有44100個樣本),并且通過不同的設(shè)備來回放(視頻為顯示器,音頻為擴(kuò)音器)。第22頁,共63頁,2023年,2月20日,星期五3.3多媒體文件此外,大多數(shù)電影現(xiàn)在針對的是全世界的觀眾,而這些觀眾語言不同。這一情況有兩種處理方法。對于某些國家,需要產(chǎn)生一個額外的聲音軌跡,用當(dāng)?shù)卣Z言進(jìn)行配音,但是不包含音效。例如,在日本所有的電視都具有兩個聲道,電視觀眾看外國影片時可以聽原聲語言也可以聽日語,遙控器上有一個按鈕可以用來進(jìn)行語言選擇。在其他國家使用的是原始的聲音軌跡,配以當(dāng)?shù)卣Z言的字幕。除此之外,許多在電視中播放的電影現(xiàn)在也提供英文字幕,使講英語但是聽力較弱的人可以觀看。第23頁,共63頁,2023年,2月20日,星期五3.3多媒體文件數(shù)字電影實際上可能由多個文件組成:一個視頻文件、多個音頻文件以及多個包含各種語言字幕的文本文件。第24頁,共63頁,2023年,2月20日,星期五3.3多媒體文件因此,文件系統(tǒng)需要跟蹤每個文件的多個“子文件”。一種可能的方案是像傳統(tǒng)的文件一樣管理每個子文件,并且要有一個新的數(shù)據(jù)結(jié)構(gòu)列出每個多媒體文件的全部子文件。另一方法是創(chuàng)造一種二維的i節(jié)點,使每一列列出每個子文件的全部塊。一般而言,其組織必須能夠使觀眾觀看電影時可以動態(tài)地選擇使用哪個音頻及字幕軌跡。在各種情況下,還必須有保持子文件同步的某種方法,才能保證當(dāng)選中的音頻軌跡回放時與視頻保持同步。第25頁,共63頁,2023年,2月20日,星期五3.3.1視頻編碼人類的眼睛具有這樣的特性:當(dāng)一幅圖像閃現(xiàn)在視網(wǎng)膜上時,在它衰退之前將保持幾毫秒的時間。如果一個圖像序列以每秒50或更多張圖像閃現(xiàn),眼睛并不會注意到它。所有基于視頻或影片膠片的運動圖像系統(tǒng)都利用了這一原理產(chǎn)生活動的畫面。為了理解視頻系統(tǒng),可以從簡單的黑白電視開始。

為了將二維圖像表示為作為時間函數(shù)的一維電壓,攝像機(jī)用一個電子束對圖像進(jìn)行橫向掃描并緩慢地向下移動,記錄下電子束經(jīng)過處光的強(qiáng)度。在掃描的終點處,電子束折回,稱為一幀(frame)。這一作為時間函數(shù)的光的強(qiáng)度以廣播方式傳播出去,接收機(jī)則重復(fù)掃描過程以重構(gòu)圖像。第26頁,共63頁,2023年,2月20日,星期五3.3.1視頻編碼雖然每秒25幀足以捕獲平滑的運動,但是在這樣的幀率下,有許多人會感覺到圖像閃爍(因為新的圖像尚未出現(xiàn)以前舊的圖像就已經(jīng)在視網(wǎng)膜上消失)。增加幀率就會對稀缺的帶寬提出更多的要求。因此要采取不同的方法,即首先顯示所有的奇數(shù)掃描線,接著再顯示所有的偶數(shù)掃描線。此處的半幀稱為一個場(field)。實驗表明,盡管人們在每秒25幀時感覺到閃爍,但是在每秒50場時卻感覺不到,這一技術(shù)被稱為隔行掃描,否則就稱為逐行掃描。第27頁,共63頁,2023年,2月20日,星期五3.3.1視頻編碼彩色視頻采用與單色(黑白)視頻相同的掃描模式,只不過使用了三個同時運動的電子束而不是一個運動電子束來顯示圖像,對于紅、綠和藍(lán)(RGB)這三個加性原色中的每一顏色使用一個電子束。這一技術(shù)能夠工作是因為任何顏色都可以由紅、綠和藍(lán)以適當(dāng)?shù)膹?qiáng)度線性疊加而構(gòu)造出來。然而,為了在一個信道上進(jìn)行傳輸,三個彩色信號必須組合成一個復(fù)合信號。為了使黑白接收機(jī)可以顯示傳輸?shù)牟噬娨暪?jié)目,NTSC、PAL和SECAM三種制式都將RGB信號線性組合為一個亮度信號和兩個色度信號,并使用不同系數(shù)從RGB信號構(gòu)造信號。第28頁,共63頁,2023年,2月20日,星期五3.3.1視頻編碼由于人的眼睛對亮度信號比對色度信號敏感得多,所以色度信號不必非要精確地進(jìn)行傳輸。因此,亮度信號應(yīng)該用與舊的黑白信號相同的頻率進(jìn)行廣播,從而使其可以被黑白電視機(jī)接收。兩個色度信號則可以以更高的頻率用較窄的波段進(jìn)行廣播。某些電視機(jī)有標(biāo)著亮度、色調(diào)和飽和度(或者是亮度、色彩和顏色)字樣的旋鈕或調(diào)節(jié)裝置,可以分別控制這三個信號。理解亮度和色度對于理解視頻壓縮的工作原理是十分必要的。第29頁,共63頁,2023年,2月20日,星期五3.3.1視頻編碼數(shù)字視頻最簡單的表示方法是幀的序列,每一幀由呈矩形柵格的圖像要素即像素組成。對于彩色視頻,每一像素RGB三色中的每種顏色用8個二進(jìn)制位來表示,這樣可以表示224≈1600萬種不同的顏色,而人的眼睛沒有能力區(qū)分這么多顏色。要產(chǎn)生平滑的運動效果,數(shù)字視頻像模擬視頻一樣必須每秒至少顯示25幀。然而,由于高質(zhì)量的計算機(jī)顯示器通常用存放在視頻RAM中的圖像每秒鐘掃描屏幕75次或更多次,因此所有計算機(jī)顯示器都采用逐行掃描。僅僅連續(xù)刷新(也就是重繪)相同的幀三次就足以消除閃爍。第30頁,共63頁,2023年,2月20日,星期五3.3.1視頻編碼換言之,運動的平滑性是由每秒不同的圖像數(shù)決定的,而閃爍則是由每秒刷新屏幕的次數(shù)決定的。這兩個參數(shù)是不同的。一幅靜止的圖像以每秒20幀的頻率顯示不會表現(xiàn)出斷斷續(xù)續(xù)的運動,但是卻會出現(xiàn)閃爍,因為當(dāng)一幀畫面在視網(wǎng)膜上消退時下一幀還沒有出現(xiàn)。一部電影每秒有20個不同的幀,在80Hz的刷新率下每一幀將連續(xù)繪制4次,這樣不會出現(xiàn)閃爍,但是運動將是斷斷續(xù)續(xù)的。第31頁,共63頁,2023年,2月20日,星期五3.3.2音頻編碼音頻(聲音)波是一維的聲(壓)波。當(dāng)聲波進(jìn)入人耳的時候,鼓膜將振動,導(dǎo)致內(nèi)耳的小骨隨之振動,將神經(jīng)脈沖送入大腦,這些脈沖被收聽者感知為聲音。類似地,當(dāng)聲波沖擊麥克風(fēng)的時候,麥克風(fēng)將產(chǎn)生電信號,將聲音的振幅表示為時間的函數(shù)。第32頁,共63頁,2023年,2月20日,星期五3.3.2音頻編碼音頻波可以通過模數(shù)轉(zhuǎn)換器(ADC)轉(zhuǎn)換成數(shù)字形式。ADC以電壓作為輸入,并且生成二進(jìn)制數(shù)作為輸出。圖3-2a)中為一個正弦波的例子。為了數(shù)字化地表示該信號,我們可以每隔△T秒對其進(jìn)行采樣,如圖3-2b)中的條棒高度所示。如果一個聲波不是純粹的正弦波,而是正弦波的線性疊加,其中存在的最高頻率成分為f,那么以2f的頻率進(jìn)行采樣就足夠了。第33頁,共63頁,2023年,2月20日,星期五圖3-2音頻的采樣與量化第34頁,共63頁,2023年,2月20日,星期五3.3.2音頻編碼數(shù)字樣本是不準(zhǔn)確的。圖3-2c)中的樣本只允許9個值,從-1.00到1.00,步長為0.25,因此,需要4個二進(jìn)制位來表示它們。8位樣本可以有256個不同的值,16位樣本可以有65536個不同的值。由于每一樣本的位數(shù)有限而引入的誤差稱為量化噪聲。如果量化噪聲太大,耳朵就會感覺到。對聲音進(jìn)行采樣的兩個著名的例子是電話和音頻CD。數(shù)字化的聲音可以十分容易地在計算機(jī)上用軟件進(jìn)行處理。第35頁,共63頁,2023年,2月20日,星期五3.4視頻壓縮所有的壓縮系統(tǒng)都需要兩個算法:一個編碼算法:用于在源端對數(shù)據(jù)進(jìn)行壓縮,一個解碼算法:用于在目的端對數(shù)據(jù)進(jìn)行解壓縮。這些算法具有某些不對稱性,這對于理解數(shù)據(jù)壓縮是十分重要的。第36頁,共63頁,2023年,2月20日,星期五3.4視頻壓縮首先,對于許多應(yīng)用而言,一個多媒體文檔(比如說一部電影)只需要編碼一次(當(dāng)該文檔存儲在多媒體服務(wù)器上時),但是需要解碼數(shù)千次(當(dāng)該文檔被客戶觀看時)。這一不對稱性意味著,假若解碼算法速度快并且不需要昂貴的硬件,那么編碼算法速度慢并且需要昂貴的硬件也是可以接受的。從另一方面來說,對于諸如視頻會議這樣的實時多媒體而言,編碼速度慢是不可接受的,在這樣的場合,編碼必須即時完成。第37頁,共63頁,2023年,2月20日,星期五3.4視頻壓縮第二個不對稱性是編碼/解碼過程不必是100%可逆的。也就是說,當(dāng)對一個文件進(jìn)行壓縮并進(jìn)行傳輸,然后對其進(jìn)行解壓縮時,用戶可以期望取回原始的文件,準(zhǔn)確到最后一位。對于多媒體,這樣的要求是不存在的。視頻信號經(jīng)過編碼和解碼之后與原始信號只存在輕微的差異通常就是可以接受的。當(dāng)解碼輸出不與原始輸入嚴(yán)格相等時,系統(tǒng)被稱為是有損的。所有用于多媒體的壓縮系統(tǒng)都是有損的,因為這樣可以獲得更好的壓縮效果。第38頁,共63頁,2023年,2月20日,星期五3.4.1視聽業(yè)務(wù)視頻編譯碼標(biāo)準(zhǔn)(H.261/263)1980年,國際電報電話咨詢委員會CCITT所屬的視頻編碼專家組的H.261建議被通過,這是CCITT制定的國際上第一個視頻壓縮標(biāo)準(zhǔn),已成為可視電話和電話會議的國際標(biāo)準(zhǔn)。H.261名稱為“視聽業(yè)務(wù)視頻編譯碼標(biāo)準(zhǔn)”,它最初是針對在ISDN上實現(xiàn)電信會議應(yīng)用,特別是面對面的可視電話和視頻會議而設(shè)計的。第39頁,共63頁,2023年,2月20日,星期五3.4.1視聽業(yè)務(wù)視頻編譯碼標(biāo)準(zhǔn)(H.261/263)實際的編碼算法類似于MPEG算法,但不能與后者兼容。H.261在實時編碼時比MPEG所占用的CPU運算量少得多,此算法為了優(yōu)化帶寬占用量,引進(jìn)了在圖像質(zhì)量與運動幅度之間的平衡折中機(jī)制,也就是說,劇烈運動的圖像比相對靜止的圖像質(zhì)量要差。因此這種方法是屬于恒定碼流可變質(zhì)量編碼,而非恒定質(zhì)量可變碼流編碼。第40頁,共63頁,2023年,2月20日,星期五3.4.1視聽業(yè)務(wù)視頻編譯碼標(biāo)準(zhǔn)(H.261/263)由于H.261所針對的可視電話信號最初考慮是在一般電話網(wǎng)中傳輸?shù)?,帶寬和碼率是其考慮的核心問題。其每幀取樣點數(shù)比較低,且采取抽幀傳輸?shù)姆椒?,無法滿足數(shù)字電視壓縮編碼的要求,但H.261是此前壓縮編碼數(shù)十年研究的結(jié)果,成為以后JPEG和MPEG編碼方法的重要基礎(chǔ)。第41頁,共63頁,2023年,2月20日,星期五3.4.1視聽業(yè)務(wù)視頻編譯碼標(biāo)準(zhǔn)(H.261/263)H.263是關(guān)于低于64Kb/s比特率的窄帶通道視頻編碼建議,其目的是能在現(xiàn)有的電話網(wǎng)上傳輸活動圖像。H.263是在H.261建議的基礎(chǔ)上發(fā)展起來的,其信源編碼算法仍然是幀間預(yù)測和DCT混合編碼。在H.261建議的基礎(chǔ)上,H.263將運動矢量的搜索增加為半像素點搜索,同時又增加了無限制運動矢量、基于語法的算術(shù)編碼、高級預(yù)測技術(shù)和PB幀編碼等4個高級選項,從而達(dá)到了進(jìn)一步降低碼速率和提高編碼質(zhì)量的目的。第42頁,共63頁,2023年,2月20日,星期五3.4.1視聽業(yè)務(wù)視頻編譯碼標(biāo)準(zhǔn)(H.261/263)H.263采用運動視頻編碼中常見的編碼方法,將編碼過程分為幀內(nèi)編碼和幀間編碼兩個部分,相當(dāng)于MPEG編碼的I幀和P幀。幀內(nèi)用改進(jìn)的DCT變換并量化,在幀間采用1/2像素運動矢量預(yù)測補(bǔ)償技術(shù),使運動補(bǔ)償更加精確,量化后使用改進(jìn)的變長編碼表(VLC)對量化數(shù)據(jù)進(jìn)行嫡編碼,得到最終的編碼系數(shù)。第43頁,共63頁,2023年,2月20日,星期五3.4.2靜止圖像壓縮編碼標(biāo)準(zhǔn)(JPEG)在多媒體技術(shù)的發(fā)展過程中,靜止和活動視頻圖像壓縮標(biāo)準(zhǔn)的制定和推廣起到了十分重要的作用。國際標(biāo)準(zhǔn)化組織(ISO)和國際電報電話咨詢委員會(CCITT)聯(lián)合成立“聯(lián)合圖像專家組”JPEG(jointphotographicexpertsgroup),在ITU、ISO和IEC等其他標(biāo)準(zhǔn)組織的支持下,該小組致力于制定適用于連續(xù)色調(diào)、多極灰度、彩色或單色靜止圖像數(shù)據(jù)壓縮的國際標(biāo)準(zhǔn),經(jīng)過5年細(xì)致的工作,于1991年3月提出了JPEG標(biāo)準(zhǔn)“多灰度靜止圖像的數(shù)字壓縮編碼”,這是一個適用于彩色和單色多灰度或連續(xù)色調(diào)靜止數(shù)字圖像的壓縮標(biāo)準(zhǔn)。第44頁,共63頁,2023年,2月20日,星期五3.4.2靜止圖像壓縮編碼標(biāo)準(zhǔn)(JPEG)它包含兩部分:第一部分是無損壓縮,即基于空間線性預(yù)測技術(shù)的無失真壓縮算法,這種算法的壓縮比很低;第二部分是有損壓縮,這是基于離散余弦變換(DCT)和霍夫曼編碼的有損壓縮,也是目前主要應(yīng)用的一種算法。這后一種算法進(jìn)行圖像壓縮信息雖有損失,但壓縮比可以很大,例如壓縮比在20:1時,眼睛基本上看不出失真。JPEG標(biāo)準(zhǔn)對于多媒體而言是十分重要的,因為用于壓縮運動圖像的標(biāo)準(zhǔn)MPEG不過是分別對每一幀進(jìn)行JPEG編碼,再加上某些幀間壓縮和運動補(bǔ)償?shù)阮~外的特征。JPEG定義在國際標(biāo)準(zhǔn)ISO10918中,它具有4種模式和許多選項。第45頁,共63頁,2023年,2月20日,星期五3.4.2靜止圖像壓縮編碼標(biāo)準(zhǔn)(JPEG)JPEG確實很復(fù)雜,但由于它通??梢垣@得20:1或更好的壓縮效果,所以獲得廣泛的應(yīng)用。解碼一幅JPEG圖像需要反過來運行上述算法。JPEG大體上是對稱的:解碼一幅圖像花費的時間與編碼基本相同。第46頁,共63頁,2023年,2月20日,星期五3.4.3

MPEG標(biāo)準(zhǔn)MPEG(motionpictureexpertsgroup)標(biāo)準(zhǔn)是ISO/IEC委員會針對全活動視頻的壓縮標(biāo)準(zhǔn)系列,是用于壓縮視頻的主要算法,并于1993年成為國際標(biāo)準(zhǔn)。MPEG包含MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21等。該標(biāo)準(zhǔn)包括MPEG視頻、MPEG音頻和MPEG系統(tǒng)三大部分。MPEG視頻是面向位速率約為1.5Mbit/s的全屏幕運動圖像的數(shù)據(jù)壓縮;MPEG音頻是面向每通道位速率為64、128和192kbit/s的數(shù)字音頻信號的壓縮;MPEG系統(tǒng)則面向解決多道壓縮視頻、音頻碼流的同步和合成問題。第47頁,共63頁,2023年,2月20日,星期五3.4.3

MPEG標(biāo)準(zhǔn)1.數(shù)字聲像壓縮標(biāo)準(zhǔn)(MPEG-1)MPEG標(biāo)準(zhǔn)MPEG-1(ISO11172)設(shè)計用于視頻錄像機(jī)質(zhì)量的輸出(對NTSC制式為352×240),它使用的位率為1.2Mbps。MPEG-2(ISO13818)設(shè)計用于將廣播質(zhì)量的視頻壓縮至4Mbps到6Mbps,這樣就可以適應(yīng)NTSC或PAL制式的廣播頻道。第48頁,共63頁,2023年,2月20日,星期五3.4.3

MPEG標(biāo)準(zhǔn)2.通用視頻圖像壓縮編碼標(biāo)準(zhǔn)(MPEG-2)MPEG-2是一種既能兼容MPEG-1標(biāo)準(zhǔn),又能滿足高分辨率數(shù)字電視和高分辨率數(shù)字衛(wèi)星接收機(jī)等方面要求的技術(shù)標(biāo)準(zhǔn),它是由ISO的活動圖像專家組和ITU-TS第15研究組于1994年共同制定的,在ITU-TS的協(xié)議系列中,被稱為H.262。制定MPEG-2的初衷是得到一個針對廣播電視質(zhì)量(CCIR601格式)視頻信號的壓縮編碼標(biāo)準(zhǔn),但實際上最后得到了一個通用的標(biāo)準(zhǔn),它能在很寬的范圍內(nèi)對不同分辨率和不同輸出比特率的圖像信號有效地進(jìn)行編碼。第49頁,共63頁,2023年,2月20日,星期五3.4.3

MPEG標(biāo)準(zhǔn)3.低比特率音視頻壓縮編碼標(biāo)準(zhǔn)(MPEG-4)運動圖像專家組于1999年2月正式公布了MPEG-4(ISO/IEC14496)標(biāo)準(zhǔn)第一版,同年年底推出MPEG-4第二版,并于2000年年初正式成為國際標(biāo)準(zhǔn)。第50頁,共63頁,2023年,2月20日,星期五3.4.3

MPEG標(biāo)準(zhǔn)MPEG-4與MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具體壓縮算法,它是針對數(shù)字電視、交互式繪圖應(yīng)用(影音合成內(nèi)容)、交互式多媒體(WWW、資料收集與分散)等整合及壓縮技術(shù)的需求而制定的國際標(biāo)準(zhǔn)。第51頁,共63頁,2023年,2月20日,星期五3.4.3

MPEG標(biāo)準(zhǔn)4.多媒體內(nèi)容描述接口標(biāo)準(zhǔn)(MPEG-7)針對現(xiàn)有的國際標(biāo)準(zhǔn)中還沒有能夠解決多媒體信息定位問題的工具,運動圖像專家組決定發(fā)展一個新的國際標(biāo)準(zhǔn)——MPEG-7,旨在解決對多媒體信息描述的標(biāo)準(zhǔn)問題,并將該描述與所描述的內(nèi)容相聯(lián)系,以實現(xiàn)快速有效的搜索。只有首先解決了多媒體信息的規(guī)范化描述之后,才能更好地實現(xiàn)信息定位。該標(biāo)準(zhǔn)不包括對描述特征的自動提取。它的正式名稱是“多媒體內(nèi)容描述接口”,該標(biāo)準(zhǔn)于1998年10月提出,于2001年最終完成并公布。第52頁,共63頁,2023年,2月20日,星期五3.4.3

MPEG標(biāo)準(zhǔn)5.多媒體框架(MPEG-21)MPEG-21的正式名稱為MultimediaFramework(多媒體框架),其目的是建立一個規(guī)范且開放的多媒體傳輸平臺,讓所有的多媒體播放裝置都能透過此平臺接收多媒體資料,使用者可以利用各種裝置、透過各種網(wǎng)絡(luò)環(huán)境去取得多媒體內(nèi)容,而無須知道多媒體資料的壓縮方式及使用的網(wǎng)絡(luò)環(huán)境。同樣地,多媒體內(nèi)容提供者或服務(wù)業(yè)者也不會受限于使用者的裝置及網(wǎng)絡(luò)環(huán)境,針對多種不同壓縮方法來提供多媒體內(nèi)容。該標(biāo)準(zhǔn)正是致力于在大范圍的網(wǎng)絡(luò)上實現(xiàn)透明的傳輸和對多媒體資源的充分利用。第53頁,共63頁,2023年,2月20日,星期五3.5音頻壓縮CD品質(zhì)的音頻需要一個1.411Mbps帶寬的傳送,在因特網(wǎng)的實際傳送中需要進(jìn)行有效的壓縮。已經(jīng)發(fā)展出許多不同的音頻壓縮算法,最流行的算法是擁有三個層(變體)的MPEG音頻,其中MP3(MPEG音頻層3)功能最強(qiáng)大也最出名,它屬于MPEG視頻壓縮標(biāo)準(zhǔn)里的音頻部分。第54頁,共63頁,2023年,2月20日,星期五3.5.1音頻壓縮方法音頻壓縮可以用兩種方法完成。在波形編碼技術(shù)中,信號通過傅立葉變換變換成頻率分量。另一種方法是感知編碼,這種技術(shù)是在人類聽覺系統(tǒng)中尋找某種細(xì)紋,用來對信號編碼,這種信號聽起來與人的正常收聽相同,盡管在示波器上看起來卻大相徑庭。感知編碼是基于心理聲學(xué)的——人們?nèi)绾胃兄曇舻目茖W(xué)。MP3正是基于感知編碼。第55頁,共63頁,2023年,2月20日,星期五3.5.1音頻壓縮方法感知編碼的關(guān)鍵特性在于一些聲音可以掩蓋住其他聲音。想象一個進(jìn)行現(xiàn)場直播的長笛音樂會,突然間,附近的一群工人打開他們的風(fēng)鎬開始挖掘街道。這時沒有人可以再聽到笛子的聲音,因為它已經(jīng)被風(fēng)鎬的聲音給掩蓋了。從傳送角度看,只編碼風(fēng)鎬的頻段就足夠了,因為聽眾無論如何都聽不到笛子的聲音。這種技術(shù)就叫做頻段屏蔽——在一個頻段里響亮的聲音掩蓋住另一頻段中較柔和聲音的能力,這種較柔和聲音只有在沒有響亮聲音時才可以聽到。事實上,即使風(fēng)鎬停止工作,在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論