數字媒體壓縮技術_第1頁
數字媒體壓縮技術_第2頁
數字媒體壓縮技術_第3頁
數字媒體壓縮技術_第4頁
數字媒體壓縮技術_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數字媒體基礎第一頁,共六十二頁。數字媒體壓縮技術教學目標:(1)了解數字媒體數據壓縮的原因。(2)理解數字媒體數據壓縮技術的不同分類。(3)掌握通用的數據壓縮編碼算法。(4)了解各種數字媒體數據壓縮的標準。第二頁,共六十二頁。學習內容:1數據壓縮及分類2通用的數據壓縮技術3數字媒體壓縮標準第三頁,共六十二頁。1.1壓縮的可能性與信息冗余

經過數字化處理后的圖形、圖像、視頻和音頻等媒體信息的數據量非常大,如果不進行數據壓縮,計算機系統(tǒng)就無法對它進行存儲、交換和傳輸。1)數字圖像2)數字視頻3)數字音頻(數據量的計算)1數據壓縮及分類第四頁,共六十二頁。1.1壓縮的可能性與信息冗余

數據能夠被壓縮的主要原因在于媒體數據中存在數據的信息冗余。信息量包含在數據之中,一般的數據冗余主要體現在:

1)空間冗余

2)結構冗余

3)時間冗余

4)視覺冗余

5)知識冗余

6)信息熵冗余1數據壓縮及分類第五頁,共六十二頁。1.2數據壓縮分類第六頁,共六十二頁。按信息壓縮前后比較是否有損失進行劃分:無損壓縮指使用壓縮后的數據進行重構(還原或解壓縮),重構后的數據與原來的數據完全相同。常用的無損壓縮算法有霍夫曼(Huffman)算法和LZW算法。也稱為可逆編碼。有損壓縮指使用壓縮后的數據進行重構,重構后的數據與原來的數據有所不同,但不影響人對原始資料表達的信息造成誤解。也稱為不可逆編碼。第七頁,共六十二頁。按數據壓縮編碼的原理和方法進行劃分:統(tǒng)計編碼:主要針對無記憶信源,根據信息碼字出現概率的分布特征而進行壓縮編碼,尋找概率與碼字長度間的最優(yōu)匹配。預測編碼:是利用空間中相鄰數據的相關性來進行壓縮數據的。變換編碼:是將圖像時域信號轉換為頻域信號進行處理。分析–合成編碼:是指通過對源數據的分析,將其分解成一系列更適合于表示的“基元”或從中提取若干更為本質意義的參數,編碼僅對這些基本單元或特征參數進行。第八頁,共六十二頁。無記憶信源【無記憶信源】(1)存在一個或多個基本符號集;(2)將多個基本符號集做笛卡兒積,形成一定長度的聯合概率空間;(3)運用外力的功(電動勢)將單個符號或一定長度的符號序列從隨機事件轉化成必然事件,或者說,將一個隨機系統(tǒng)轉化成一個必然系統(tǒng);并且回退到原始空間中來,該原始空間的概率分布不因為事件的發(fā)生而改變。【有記憶信源】(1)存在一個或多個基本符號集;(2)將多個基本符號集做笛卡兒積,形成一定長度的聯合概率空間;(3)運用外力的功(電動勢)將單個符號或一定長度的符號序列從隨機事件轉化成必然事件,或者說,將一個隨機系統(tǒng)轉化成一個必然系統(tǒng);不能回退到原始空間中來,即原始空間的概率分布因為事件的發(fā)生而改變。第九頁,共六十二頁。按照媒體的類型進行壓縮劃分:圖像壓縮標準:JPEG等聲音壓縮標準:MP3運動圖像壓縮標準:MPEG、H.26x系列、AVS目錄第十頁,共六十二頁。2通用的數據壓縮技術行程編碼字典編碼熵編碼等PCMDMDPCM

通用的壓縮方法具有壓縮比低、通用性強等特點無損壓縮技術有損壓縮技術目錄第十一頁,共六十二頁。2.1編碼的理論基礎數據壓縮技術的理論基礎是信息論。根據信息論的原理,可以找到最佳數據壓縮編碼方法,數據壓縮的理論極限是信息熵。熵是信息量的度量方法,它表示某一事件出現的消息越多,事件發(fā)生的可能性就越小,數學上就是概率越小。第十二頁,共六十二頁。信息與信息量信息量是指信源中某種事件的信息度量或含量。一個事件出現的可能性愈小,其信息量愈多,反之亦然。若pi為第i個事件的概率為0≤pi≤1,則該事件的信息量為

一個信源包括的所有數據叫數據量,而數據量中包含有冗余信息。信息量=數據量-冗余量第十三頁,共六十二頁。信息熵信息熵就是將信源所有可能事件的信息量的平均。設從N個數中選定任一個數xj的概率為p(xj),假定選定任意一個數的概率都相等,即p(xj)=1/N,則I(xj)=log2N=-log21/N

=-log2p(xj)=I[p(xj)]

上式中,p(xj)是信源X發(fā)出xj的概率。I(xj)的含義是信源X發(fā)出xj這個消息(隨機事件)后,接收端收到信息量的量度。第十四頁,共六十二頁。信息熵(續(xù))信源X發(fā)出的xj(j=1,2,…,n)共n個隨機事件的信息量的統(tǒng)計平均,即H(X)=E{I(xj)}=

H(X)稱為信源X的“熵”,即信源X發(fā)出任意一個隨機變量的平均信息量。其中,等概率事件的熵最大,假設有N個事件,此時熵為:

H(X)==第十五頁,共六十二頁。信息熵(續(xù))當P(x1)=1時,P(x2)=P(x3)=…=P(xj)=0,此時熵為

H(X)=-P(x1)=0由上可得熵的范圍為:

0≤H(X)≤第十六頁,共六十二頁。信息熵(續(xù))在編碼中用熵值來衡量是否為最佳編碼。若以Lc表示編碼器輸出碼字的平均碼長,其計算公式為:

Lc=(j=1,2,…,n)其中:P(xj)是信源X發(fā)出xj的概率,L(xj)為xj的編碼長。第十七頁,共六十二頁。信息熵(續(xù))平均碼長與信息熵之間的關系為:Lc≥H(X)有冗余,不是最佳。Lc

<H(X)不可能。Lc

=H(X)最佳編碼(Lc稍大于H(X))熵值為平均碼長Lc的下限。第十八頁,共六十二頁。2.2霍夫曼編碼霍夫曼編碼(Huffman)是運用信息熵原理的一種無損編碼方法,這種編碼方法根據源數據各信號發(fā)生的概率進行編碼。在源數據中出現概率大的信號,分配的碼字越短;出現概率越小的信號,其碼字越長,從而達到用盡可能少的碼表示源數據。第十九頁,共六十二頁?;舴蚵幋a的算法:初始化,根據符號概率的大小順序對符號進行排序。把概率最小的兩個符號組成一個新符號(節(jié)點),即新符號的概率等于這兩個符號概率之和。重復第2步,直到形成一個符號為止(樹),其概率和等于1。分配碼字。碼字分配從最后一步開始反向進行,即從最后兩個概率開始逐漸向前進行編碼,對于每次相加的兩個概率,給概率大的賦“0”,概率小的賦“1”(也可以全部相反,如果兩個概率相等,則從中任選一個賦“0”,另一個賦“1”)。第二十頁,共六十二頁。霍夫曼編碼構造出來的編碼值不是唯一的。對不同信號源的編碼效率不同。由于編碼長度可變,因此譯碼時間較長;編碼長度的不統(tǒng)一,也使得硬件實現有難度?;舴蚵幋a的特點:第二十一頁,共六十二頁。2.3行程編碼行程編碼又稱行程長度編碼(RunLengthEncoding,RLE),是一種熵編碼。這種編碼方法廣泛地應用于各種圖像格式的數據壓縮處理中。行程編碼的原理是在給定的圖像數據中尋找連續(xù)重復的數值,然后用兩個字符取代這些連續(xù)值。即將具有相同值的連續(xù)串用其串長和一個代表值來代替,該連續(xù)串就稱為行程,串長稱為行程長度。第二十二頁,共六十二頁。2.3行程編碼假定一幅灰度圖像,第n行的像素值為:用RLE編碼方法得到的代碼為:4160841140。代碼斜黑體表示的數字是行程長度,黑體字后面的數字代表像素的顏色值。第二十三頁,共六十二頁。行程編碼分類:定長編碼定長編碼是指編碼的行程長度所用的二進制位數固定不定長編碼變長行程編碼是指對不同范圍的行程長度使用不同位數的二進制位數進行編碼。使用變長行程編碼需要增加標志位來表明所使用的二進制位數。第二十四頁,共六十二頁。2.4詞典編碼

詞典編碼(dictionaryencoding)技術屬于無損壓縮技術,主要是利用數據本身包含許多重復的字符串的特性??梢杂靡恍┖唵蔚拇柎孢@些字符串,就可以實現壓縮,實際上就是利用了信源符號之間的相關性。字符串與代號的對應表就是詞典。第二十五頁,共六十二頁。詞典編碼的種類:第一種方法的思想是查找目前正在壓縮的字符序列在以前輸入的數據中是否出現過,然后用出現過的字符串代替重復的部分,它的輸出僅僅是指向早期出現過的字符串“指針”。這里所指的詞典是指用以前處理過的數據表示編碼過程中遇到的重復部分。這類編碼的所有算法都是以LZ77算法為基礎的。第二十六頁,共六十二頁。詞典編碼的種類:第二種算法的思想是從輸入的數據中創(chuàng)建一個“短語詞典”,這類短語不一定有具體的含義,可以是任意字符的組合。在編碼過程中遇到在“短語詞典”中出現的短語是,編碼器就輸出這個詞典中的短語“索引號”,而不是短語本身。第二十七頁,共六十二頁。2.4.1LZ77算法LZ77是以以色列計算機專家AbrahamLempel和JakobZiv在1977年開發(fā)和發(fā)表的。此算法的一個改進算法是由Storer和Szymanski在1982年開發(fā)的,稱為LZSS算法。LZ77算法在某種意義上又可以稱為“滑動窗口壓縮”,該算法將一個虛擬的、可以跟隨壓縮進程滑動的窗口作為詞典,要壓縮的字符串如果在該窗口中出現,則輸出其出現位置和長度。第二十八頁,共六十二頁。LZ77算法中涉及的概念

輸入字符流(inputstream):要被壓縮的字符序列。字符(character):輸入數據流中的基本單元。編碼位置(codingposition):輸入數據流中當前要編碼的字符位置,指前向緩沖存儲器中的開始字符。前向緩沖存儲器(Lookaheadbuffer):存放從編碼位置到輸入數據流結束的字符序列的存儲器。窗口(window):指包含W個字符的窗口,字符是從編碼位置開始向后數也就是最后處理的字符數。指針(pointer):指向窗口中的匹配串且含長度的指針。第二十九頁,共六十二頁。LZ77算法具體步驟(1)把編碼位置設置到輸入數據流的開始位置。(2)找窗口中最長的匹配串(3)以“(Pointer,Length)Characters”的格式輸出,其中Pointer是指向窗口中匹配串的指針,Length表示匹配字符的長度,Characters是前向緩沖存儲器中的不匹配的第1個符。(4)如果前向緩沖存儲器不是空的,則把編碼位置和窗口向前移(Length+1)個字符,然后返回到步驟(2)。第三十頁,共六十二頁。2.4.2LZW算法LZW壓縮算法是一種新穎的壓縮方法,它采用了一種先進的串表壓縮,將每個第一次出現的串放在一個串表中,用一個數字來表示串,壓縮文件只存貯數字,則不存貯串,從而使圖像文件的壓縮效率得到較大的提高。LZW編碼是圍繞稱為詞典的轉換表來完成的。第三十一頁,共六十二頁。LZW算法中的術語和符號前綴(Prefix):在一個字符之前的字符序列。綴-符串(String):前綴+字符。碼字(Codeword):碼字流(Codestream):詞典(Dictionary):綴-符串表。當前前綴(Currentprefix):當前字符(Currentcharacter):當前碼字(Currentcodeword):第三十二頁,共六十二頁。LZW編碼算法執(zhí)行步驟開始時的詞典包含所有可能的根(Root),而當前前綴P是空的;當前字符(C):=字符流中的下一個字符;判斷綴-符串P+C是否在詞典中1)如果“是”:P:=P+C//(用C擴展P);2)如果“否”:①把代表當前前綴P的碼字輸出到碼字流;②把綴-符串P+C添加到詞典;③令P:=C//(現在的P僅包含一個字符C);判斷字符流中是否還有字符要編碼1)如果“是”,就返回到步驟2;2)如果“否”:①把代表當前前綴P的碼字輸出到碼字流;②結束。第三十三頁,共六十二頁。2.5脈沖編碼調制脈沖編碼調制(PCM)就是將模擬調制信號的采樣值變換為脈沖碼組。PCM編碼包括如下三個過程:采樣,將模擬信號轉換為時間離散的樣本脈沖序列。量化,將離散時間連續(xù)幅度的抽樣信號轉換成為離散時間離散幅度的數字信號。編碼,用一定位數的脈沖碼組表示量化采樣值。第三十四頁,共六十二頁。PCM系統(tǒng)原理圖第三十五頁,共六十二頁。PCM編碼的優(yōu)點有很強的抗干擾性能方便的利用計算機編程,實現各種智能化設計。第三十六頁,共六十二頁。2.6增量調制(DM)增量調制也稱△調制(DM),它是一種預測編碼技術,是PCM編碼的一種變形。DM是對實際的采樣信號與預測的采樣信號之差的極性進行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實際的采樣信號與預測的采樣信號之差的極性為“正”,則用“1”表示;相反則用“0”表示,或者相反。第三十七頁,共六十二頁。DM波形編碼的原理在開始階段增量調制器的輸出不能保持跟蹤輸入信號的快速變化,這種現象就稱為增量調制器的“斜率過載”。在輸入信號緩慢變化部分,即輸入信號與預測信號的差值接近零的區(qū)域,增量調制器的輸出出現隨機交變的“0”和“1”。這種現象稱為增量調制器的粒狀噪聲。第三十八頁,共六十二頁。2.7差分脈沖編碼調制差分脈沖編碼調制(DPCM)是利用樣本與樣本之間存在的信息冗余度來進行編碼的一種數據壓縮技術。差值脈沖編碼調制是利用信號的相關性找出可以反映信號變化特征的一個差值量進行編碼。第三十九頁,共六十二頁。DPCM的基本工作原理根據過去的樣本去估算(estimate)下一個樣本信號的幅度大小,這個值稱為預測值,然后對實際信號值與預測值之差進行量化編碼,從而就減少了表示每個樣本信號的位數。它與脈沖編碼調制(PCM)不同處在于,PCM是直接對采樣信號進行量化編碼,而DPCM是對實際信號值與預測值之差進行量化編碼。第四十頁,共六十二頁。DPCM的原理圖量化器S(k)+逆量化器預測器d(k)I(k)Se(k-1)8比特PCM樣本kPCM樣本k-1Se(k-1)dq(k)Sr(k)++-目錄第四十一頁,共六十二頁。3數字媒體壓縮標準

3.1聲音壓縮標準

MP3是MPEG-1的標準草案中音頻編碼的Layer3。

MP3最大特點是能以較小的比特率、較大壓縮比達到近乎完美的CD音質,制作簡單,交流方便。

MP3壓縮編碼是一個國際性全開放的編碼方案,其編碼算法流程大致分為時頻映射、心理聲學模型、量化編碼三大功能模塊,這三個功能模塊是實現MP3編碼的關鍵。第四十二頁,共六十二頁。MP3編碼框圖第四十三頁,共六十二頁。MP4MP4是MPEG-2AAC(ISO/IEC13818-7)技術(AdvancedAudioCoding)。MP4的特點是音質更加完美而壓縮比更大。它增加了諸如對立體聲的完美再現、比特流效果音掃描、多媒體控制、降噪等MP3沒有的特性,使得在音頻壓縮后仍能完美的再現CD的音質。第四十四頁,共六十二頁。3.2圖像壓縮標準JPEG是國際標準組織(ISO)和國際電工委員會(IEC)制定出的第一套國際靜態(tài)圖像壓縮標準:ISO/IEC10918-1號標準“多灰度連續(xù)色調靜態(tài)圖像壓縮編碼”俗稱為JPEG,以其優(yōu)異的性能,該標準一直到當前仍被因特網、數碼相機等很多領域廣泛應用。JPEG包含兩種基本的壓縮算法:無損壓縮算法(基于差分脈沖調制)和有損壓縮算法(基于離散余弦變換)。

可達到15~20的壓縮比。第四十五頁,共六十二頁。JPEG算法框圖第四十六頁,共六十二頁。JPEG算法壓縮編碼步驟(1)使用正向離散余弦變換(FDCT)把信息從空間域變換成頻率域的數據,并利用數據的頻率特性進行處理;(2)使用加權函數對DCT系數進行量化,這個加權函數對于人的視覺系統(tǒng)是最佳的;(3)使用霍夫曼可變字長熵編碼器對量化系數進行編碼。第四十七頁,共六十二頁。JPEG壓縮編碼算法的主要計算步驟(1)正向離散余弦變換(FDCT)。(2)量化(quantization)。(3)Z字形編碼(zigzagscan)。(4)使用差分脈沖編碼調制(DPCM)對直流系數(DC)進行編碼。(5)使用行程長度編碼(RLE)對交流系數(AC)進行編碼。(6)熵編碼(entropycoding)。第四十八頁,共六十二頁。JPEG2000JPEG2000彌補了傳統(tǒng)JPEG壓縮技術缺陷,有以下優(yōu)點:高壓縮率支持無損壓縮和有損壓縮漸進傳輸對感興趣區(qū)域壓縮第四十九頁,共六十二頁。3.3運動圖像壓縮標準1、MPEG標準運動圖像專家組MPEG是由國際標準化組織ISO和國際電工委員會IEC聯合成立的,負責開發(fā)電視圖像數據和聲音數據的編碼、解碼和它們的同步標準。這個專家組開發(fā)的標準稱為MPEG標準。第五十頁,共六十二頁。MPEG-1標準MPEG-1標準于1993年公布,用于傳輸1.5Mbps數據傳輸率的數字存儲媒體運動圖像及其伴音的編碼。該標準包括五個部分,分別為:系統(tǒng)、電視圖像、音頻、一致性測試和軟件模擬。MPEG-1的數據流包含:圖像流、伴音流和系統(tǒng)流三種成分。第五十一頁,共六十二頁。MPEG-1譯碼器方框圖圖像流包含畫面信息,伴音流包含聲音信息,系統(tǒng)流實現圖像和伴音的同步,所有播放MPEG圖像和伴音數據所需的時鐘信息都包含在系統(tǒng)流中。第五十二頁,共六十二頁。MPEG-2標準MPEG-2標準包括了系統(tǒng)、電視圖像、音頻、一致性測試、軟件模擬、數字存儲媒體命令和控制擴展協議、先進聲音編碼、編碼器實時接口擴展標準、DSM-CC一致性擴展測試等。MPEG-2的主要特點是:1)MPEG-2解碼器兼容MPEG-1和MPEG-2標準。2)其視頻數據速率為3Mb/s~15Mb/s,基本分辨率為720×576像素,每秒可播放30幀畫面。3)可以30∶1或更低的壓縮比提供具有廣播級質量的視頻圖像。4)允許在畫面質量、存儲容量和帶寬之間選擇,在一定范圍內改變壓縮比。第五十三頁,共六十二頁。MPEG-2的系統(tǒng)模型第五十四頁,共六十二頁。MPEG-4標準MPEG-4標準于1998年11月公布,是各種音頻/視頻對象的編碼,包括了系統(tǒng)、電視圖像、音頻、一致性測試和參考軟件、傳輸多媒體集成框架等。MPEG-4為多媒體數據壓縮編碼提供的是一種格式、一種框架,而不是具體算法,以建立一種更自由的通信與開發(fā)環(huán)境。MPEG-4的目標是支持多種多媒體的應用,特別是多媒體信息基于內容的檢索和訪問,可以根據不同的應用需求現場配置解碼器。其編碼系統(tǒng)也是開放的,可以隨時加入新的有效的算法模塊。第五十五頁,共六十二頁。MPEG-4系統(tǒng)示意圖第五十六頁,共六十二頁。MPEG-7標準MPEG-7標準于2001年公布,稱為多媒體內容描述接口,包括系統(tǒng)、描述定義語言、電視圖像、音頻、多媒體描述框架、參考軟件以及一致性測試七個部分。MPEG-7標準的目的是產生一個描述多媒體內容的標準,支持對多媒體信息在不同程度層面上的解釋和理解,從而使其可以根據用戶的需要進行傳遞和存取。MPEG-7注重的是提供視聽信息內容的描述方案,并不包括針對不同應用的特征提取方法和搜索引擎。第五十七頁,共六十二頁。MPEG-21標準MPEG-21基于兩個基本概念:分布和處理基本單元(DigitalItem,DI)以及DI與用戶間的互操作。MPEG-21可表述為以一種高效、透明和可以互操作的方式支持用戶交換、接入、使用甚至操作DI的技術。DI是MPEG-21框架中一個具有標準表示、身份認證和相關元數據的數字對象。這個實體是框架中分布和處理的基本單元。用戶是指與MPEG-21進行環(huán)境交互或者使用DI的任何實體。MPEG-21可以被看成是提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論