現代通信系統(tǒng)課件:信源數字編碼技術_第1頁
現代通信系統(tǒng)課件:信源數字編碼技術_第2頁
現代通信系統(tǒng)課件:信源數字編碼技術_第3頁
現代通信系統(tǒng)課件:信源數字編碼技術_第4頁
現代通信系統(tǒng)課件:信源數字編碼技術_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信源數字編碼技術2.1概述一個完整的數字通信系統(tǒng)可由圖2.1所示的框圖表示。在該系統(tǒng)中,有兩個編碼功能塊:信源編碼和信道編碼。信源編碼的基本目的是對信源的信號進行變換,將其變換成適合數字傳輸系統(tǒng)的形式,進而提高傳輸的有效性。信道編碼是圍繞數字調制方式和信道選擇設置的,其目的是通過信道編碼將數字信號變換成與調制方式和傳輸信道匹配的形式,從而降低傳輸誤碼率,提高傳輸的可靠性。2.2模擬信號時域離散化與抽樣定理信號數字化的第一步是對模擬信號實施時域離散化。通常,信號時域離散化是用一個周期為T的脈沖信號控制抽樣電路對模擬信號實施抽樣的過程。如圖2.2所示。2.3語言數字編碼技術2.3.1波形編碼技術波形編碼是對離散化后的話音信號樣值近行編碼,其編碼可以在時域或變換域進行。

時域編碼主要有脈沖編碼、差值脈沖編碼和子帶編碼等方式。1.脈沖編碼

脈沖編碼是在時域按照某種方法將離散的話音信號樣值變換成一個一定位數的二進制碼組的過程。由量化和編碼兩部分構成。如l圖2.3所示。量化是將樣值幅度離散化的過程,也就是按某種規(guī)律將一個無窮集合的值壓縮到一個有限集合中去。量化有兩類:標量量化和矢量量化。在脈沖編碼中主要采用標量量化。標量量化又有均勻量化和非均勻量化之分。與其對應,脈沖編碼也可分成兩類:線性編碼和非線性編碼。采用脈沖編碼對信號數字化并傳輸的方式稱為脈沖編碼調制(PulseCodeModulation,PCM)。1)線性編碼

如上所述,線性編碼是先對樣值進行均勻量化,再對量化值進行簡單的二進制編碼,即可獲得相應碼組。

所謂均勻量化,是以等間隔對任意信號值來量化,亦即將信號樣值幅度的動態(tài)(變化)范圍(-U~U)等分成N個量化級(間隔)。根據量化的原則,樣值幅度落在某一量化級內,則由該級的中心值一個值來量化。如圖2.4(a)所示,量化器輸入u與輸出v之間的關系是一個均勻階梯波關系。由于u在一個量化級內變化時,v值不變,因此量化器輸入與輸出間的差值稱為量化誤差。

2)非線性編碼

線性編碼簡單,實現容易,但是線性編碼采用均勻量化,它在量化時對大、小信號采用相同的量化級量化。這樣對小信號而言,量化的相對誤差將比大信號大,即均勻量化的小信號量化信噪比小,大信號量化信噪比大,這對小信號是很不利的。從統(tǒng)計角度來看,語音信號中小信號是大概率事件,因此,如何改善小信號的量化信噪比是語音信號量化編碼所需要研究的問題。解決的方法是采用非均勻量化,使得量化器對小信號的量化誤差小,對大信號的量化誤差大,進而使量化器對大、小信號的量化信噪比基本相同。

(1)非均勻量化。目前在語音信號中常用的非均勻量化方法是壓擴量化。實現壓擴量化編碼的原理框圖如圖2.5(a)所示。壓擴原理可用圖2.5(b)解釋。從框圖中看到,信號經過一個具有壓擴特性的放大系統(tǒng)后,再進行均勻量化。壓擴系統(tǒng)對小信號的放大增益大,對大信號的放大增益小。這樣可使小信號的量化信噪比大為提高,使信號在編碼動態(tài)范圍內,大、小信號的量化信噪比大體一致。與發(fā)端對應,在收端解碼后,要進行對應的反變換,還原成原始的樣值信號。(3)非線性PCM編碼技術。如前所述,根據語音信號的特點,為了提高語音信號源編碼的編碼效率,通常采用非線性PCM編碼方式。實現非線性PCM編碼的方法有多種。本節(jié)首先討論非線性PCM碼字的基本特性,再重點介紹兩種編碼方法:代碼變換法和直接編碼法??紤]到我國采用歐洲制式,故在下面的討論中均以A律13折線特性為例。μ律15折線編碼的實現方法也相類似。碼字安排。基于增強傳輸抗干擾能力和電路易實現的考慮,非線性PCM碼字采用二進制折疊碼。從語音質量、頻帶利用率和實現難度等方面綜合考慮,用8位碼表示一個語音樣值。碼位的具體安排是:用1位碼表示信號的極性(正信號為“1”,反之為“0”),稱為極性碼;用3位碼表示13折線的8段,同時表示8種相應的段落起點電平,稱為段落碼;用4位碼表示折線段內的16個小段,稱為段內碼。由于各折線段長度不一,故各段內的小段所表示的量化值大小也不一樣,如第1、2段的長度為1/128,等分后每小段為1/2048。8位碼安排如下:

極性碼段落碼段內碼A1A2A3A4A5A6A7A8折線段序號12345678段落長度/Δ161632641282565121024各段量化級/Δ11248163264表2.3各段段落長度和段內量化級

段落碼

段落起點段內碼對應電平/Δ

段落序號

電平/Δ

段落長度/Δ

A2A3A4

A5

A6

A7

A8

100

0

0842

11620

011684211630

10

32168423240

116432168464510

0

1286432168128610

1

2561286432162567

1

10

512256128643251281111024512256128641024

表2.4段落與電平關系編碼方法。常用的非線性PCM編碼方法有兩種。一種稱做代碼變換法,它先進行12位線性編碼,然后再利用數字邏輯電路或只讀存儲器按折線的規(guī)律實現數字壓擴,將12位線性代碼變換成8位非線性代碼,其編碼步驟為:

①將樣值編成12位線性代碼;

②將11位線性幅度碼按照線性與非線性代碼轉換關系轉換成7位非線性代碼,線性與非線性代碼電平轉換關系見表2.5。表2.5線性與非線性代碼電平關系表

段落

非線性代碼

線性代碼

起點電平/ΔA2A3A4A5A6A7A8B1B2B3B4B5B6B7B8B9B10B11M2M3M4M5M6M7M8102451225612864321684211000084210000000M5M6M7M821600184210000001M5M6M7M833201016842000001M5M6M7M8046401132168400001M5M6M7M800512810064321680001M5M6M7M80006256101128643216001M5M6M7M800007512110256128643201M5M6M7M80000081024111512256128641M5M6M7M80000002.差值脈沖編碼

差值脈沖編碼是對抽樣信號當前樣值的真值與估值的幅度差值進行量化編碼調制。在實際差值編碼系統(tǒng)中,對當前時刻的信號樣值與以過去樣值為基礎得到的估值信號樣值之間的差值進行量化編碼。由分析知,語音、圖像等信號在時域有較大的相關性。因此,抽樣后的相鄰樣值之間有明顯的相關性,即前后樣值的幅度值間有較大的關聯性。對這樣的樣值進行脈沖編碼就會產生一些對信息傳輸并非絕對必要的編碼。它們是由于信號的相關性使取樣信號中包含有一定的冗余信息所產生。如能在編碼前消除或減小這種冗余性,就可得到較高效率的編碼。差值編碼就是考慮利用信號的相關性找出一個可以反映信號變化特征的差值量進行編碼。根據相關性原理,這一差值的幅度范圍一定小于原信號的幅度范圍。因此,對差值進行編碼可以壓縮編碼速率,即提高編碼效率。差值脈沖編碼的原理框圖如圖2.10所示。在發(fā)送端,輸入樣值與由以前時刻樣值通過預測器估計出的當前時刻信號估值相減,求得差值,再把差值信號量化編碼后傳輸。接收端解碼后所得的信號僅是差值信號,因此在接收端還需加上發(fā)送端減去的估值信號才能恢復發(fā)送端原來的輸入樣值信號。在接收端同樣需要一個預測估值的預測器求出當前時刻樣值的估值,最后將解碼所得的差值信號與估值信號相加獲得原來的輸入樣值信號。

常用的差值脈沖編碼主要有增量調制(DeltaModulation,DM)、差值脈沖編碼調制(DifferentialPulseCodeModulation,DPCM)和自適應差值脈沖編碼調制(AdaptiveDifferentialPulseCodeModulation,ADPCM)等,下面分別介紹它們的原理。1)增量調制

輸入語音信號的當前樣值與按前一時刻信號樣值的編碼經本地解碼器得出的預測值之差,即對前一輸入信號樣值的增量(增加量或減少量)用一位二進碼進行編碼傳輸的方法稱做增量調制,簡稱為DM。它是差值編碼調制的一種特例。

通常在話音PCM傳輸中采用8kHz的取樣頻率。每個樣值用8位二進碼來表示。若使用遠大于8kHz的取樣頻率對話音取樣,則相鄰樣值之差(即增量)將隨著取樣率的提高而變小,以致可用一位二進碼米表示增量。例如,當增量大于0時,用“1”碼表示;當增量小于0時,用“0”碼表示,從而實現增量信號的數字表示。將這種增量編碼進行傳輸,接收端解碼后利用這個增量可以很好地逼近前一時刻樣值,并獲得當前時刻樣值,進而恢復發(fā)送端原始模擬信號。

圖2.11(a)給出了DM的構成原理框圖,它主要由減法電路、判決、碼形成和本地解碼電路組成。與PCM相比,DM在語音質量、頻率響應、抗干擾性能等方面有其自身的特點。(1)當碼率低于40kb/s時,DM的信噪比高于PCM;當碼率高于40kb/s時,PCM的信噪比高于DM。(2)DM編碼動態(tài)范圍隨碼位增加的速率比PCM慢,PCM每增加一位碼,動態(tài)范圍擴大6dB,而DM當碼速率增加一倍時,動態(tài)范圍才擴大6dB。

(3)DM系統(tǒng)頻帶與輸入信號電平有關,電平升高,通帶變窄,而PCM系統(tǒng)頻帶較為平坦。

(4)DM的抗信道誤碼性能好于PCM。

(5)DM設備簡單,容易實現;PCM設備比較復雜。2)差值脈沖編碼調制DM調制用一位二進碼表示信號樣值差。若將該差值量化、編碼成n位二進碼,則這種方式稱為差值脈沖編碼調制CDPCM)。DM可看做DPCM的一個特例。

基本的DPCM系統(tǒng)原理框圖如圖2.12所示。DPCM的基本特性有:(1)DPCM碼速率為nfs,fs為取樣率。(2)DPCM信噪比有以下特點:

①信噪比是n、fs、信號頻率f、信號頻帶最高頻率分量fm的函數;②信噪比優(yōu)于DM系統(tǒng),而且n越大,信噪比越大;

③n=1時信噪比與DM相同,即DM可看做DPCM的特例;

④當呻手較大時,信噪比優(yōu)于PCM系統(tǒng)。

(3)DPCM系統(tǒng)的抗誤碼能力不如DM,但卻優(yōu)于PCM系統(tǒng)。DPCM編碼方式在數字圖像通信中有廣泛的應用。3)自適應差值脈沖編碼調制如前所述,DPCM利用差值編碼可以降低信號傳輸速率,但其重建語音的質量卻不如PCM,究其原因,主要有:量化是均勻的,即量化階是固定不變的;預測信號波形是階梯波或近似階梯波,與輸入信號的逼近較差。

上述改進的DPCM系統(tǒng)稱做自適應差值脈沖編碼調制(ADPCM)系統(tǒng)。ADPCM系統(tǒng)的原理框圖如圖2.13所示。下面主要通過介紹自適應量化和自適應預測原理來討論ADPCM系統(tǒng)的基本原理。

(1)自適應量化。自適應量化的基本思想是讓量化階距Δ(t)隨輸入信號的能量(方差)變化而變化。常用的自適應量化實現方案有兩類:一類是直接用輸入信號的方差來控制Δ(t)的變化,稱為前饋自適應量化(其實現原理由圖2.13中雙虛線描述);另一類是通過編碼器的輸出碼流來估算出輸入信號的方差,控制階距自適應調整,稱為反饋自適應量化(其實現原理由圖2.13中單虛線描述)。

圖2.13ADPCM系統(tǒng)原理框圖

(a)編碼器;(b)解碼器自適應量化的兩類實現方案的階距調整算法是類似的。反饋型控制的主要優(yōu)點是量化階距信息由碼字提供,所以無需額外存儲和傳輸階距信息,由于控制信息在傳輸的ADPCM碼流中,因而該方案中系統(tǒng)的傳輸誤碼對接收端信號重建的質量影響較大。前饋型控制除了傳輸信號碼流外,還要傳輸階距信息.增加了傳輸帶寬和復雜度,但是這種方案可以通過選用優(yōu)良的附加信道或采用差錯控制使得階距信息的傳輸誤碼盡可能少,從而可以大大改善ADPCM碼流高誤碼率傳輸時接收端重建信號的質量。(2)自適應預測。從前面的討論可知,自適應量化使量化階距適應信號的變化,可以大大提高系統(tǒng)性能,由此可直觀地聯想,若輸入信號的預測值也能匹配于信號的變化,使差值動態(tài)范圍更小,則在一定的量化電平數條件下,可以更精確地描述差值,肯定能進一步改善系統(tǒng)的傳輸質量和性能。實現這種想法的方法就是自適應預測。圖2.13給出了自適應預測在ADPCM系統(tǒng)中的位置。與自適應量化類似,自適應預測也存在前饋型和反饋型兩類實現方案(雙虛線表示前饋型,單虛線表示反饋型),它們的優(yōu)缺點不難仿照討論自適應量化的思路得到。ADPCM是語音波形壓縮編碼傳輸廣泛采用的一種方式,一般來說,32kb/sADPCM可以做到與64kb/sPCM相媲美的質量。ITU-TG.721協議提出了與現有PCM數字電話網兼容的32kb/sADPCM的算法。其主要技術指標滿足ITU-T對PCM64kb/s的語音質量要求(G.712),電路組成和原理如圖2.14所示。圖2.14G.721ADPCM編/解碼器(a)編碼器;(b)解碼器3.子帶編碼將語音信號頻帶分割成若干個帶寬較窄的子帶,分別對這些子帶信號進行獨立編碼的方式,稱為子帶編碼(SubBandCoding,SBC),1)SBC基本原理

子帶編碼首先通過一組帶通濾波器把輸入信號頻帶分拆成若干個子帶信號,每個子帶信號經過調制后,被變換成低通信號,然后進行單獨的編碼(通常采用自適應PCM編碼,以提高編碼度)。為了傳輸,需再將各路子帶碼流用合路器復接起來。在接收端,采用完全類似的逆過程得到恢復的語音信號,其原理方框圖如圖2.15所示。

圖2.15子帶編碼原理框圖子帶編碼的主要特點是:首先,利用量化噪聲在不同語音頻帶上具有不同的可檢測性的特點,將量化噪聲限制在各子帶內,從而阻止了一個子帶的量化噪聲引入到整個語音頻帶,控制了量化噪聲失真;其次,在每個子帶中可以使用獨立的量化階距,使低能量的子帶用較小的量化階距,產生較小的量化噪聲,對具有較高能量的子帶,可以用較大的量化階距,從而使量化噪聲的頻譜與信號的短時頻譜相匹配,這樣,就能避免能量較小的頻帶內的信號被其他頻段的量化噪聲遮蓋;另外,根據感性判斷來分配各子帶的編碼比特數,例如,在必須精確保持音調和元音音帶的共振峰結構的較低頻率的子帶中,將每個樣值用較多的比特數來編碼.而在語音中出現摩擦音和類似摩擦噪聲的較高頻率的子帶中,每個樣值用較少的比特數來編碼。由此,在相同的信號質量下,子帶編碼可以用明顯低于整帶編碼的比特速率來編碼傳輸。亦即,在保證語音質量的前提下,子帶編碼的傳輸速率可以降低。實驗證明,16kb/s的SBC系統(tǒng)的語音質量與26.5kb/s的ADPCM系統(tǒng)相當。2)子帶的劃分語音信號通常分成4~6個子帶,各子帶的帶寬應考慮到各頻段對主觀聽覺貢獻相等的原則做合理的分配,子帶間允許有小的隙,如圖2.16所示。實用的SBC系統(tǒng)通常采用正交鏡像濾波器(QuadratureMirrorFilter,QMF)實現帶通濾波,并用樹形分配法劃分子帶。表2.6給出了一個16kb/s子帶編碼器的典型參數,其輸入信號取樣率為6400Hz,由于100Hz以下已無多少話音信息,因此該系統(tǒng)僅分成了5個子帶。子帶序號12345頻率范圍/Hz3200~16001600~800800~400400~200200~100構成QMF的濾波器階數321616168編碼比特/樣值224553)自適應變換編碼(ATC)實現原理實現自適應變換域編碼的系統(tǒng)稱為自適應變換編碼(AdaptiveTransformCoding,ATC)系統(tǒng)。ATC系統(tǒng)的實現原理是:利用正交變換把時域信號變換到另一域,通過變換將變換域信號的能量相對集中在一個較小的范圍內;對變換域信號迸行最佳量化后,可以實現編碼傳輸碼率的壓縮;在接收端,用逆變換便可獲得重構的發(fā)送端信源信號。

ATC系統(tǒng)的實現原理框圖如圖2.17所示。時域信號經變換后,將表征信號譜的邊帶信息提取出來,邊帶信息一方而用來估計信號譜,從而控制量化間隔和編碼比特分配。圖2.17ATC系統(tǒng)原理框圖2.3.2參數編碼技術

對人發(fā)音生理機理的研究表明,語音信號可用一些描述語音特征的參數表征。分析提取語音的這些參數,對它們量化編碼傳輸,收端解碼后用這些參數去激勵一定的發(fā)聲模型即可重構發(fā)端語音,這種通過對語音參數編碼來傳輸語音的方式稱為語音參數編碼。一般而言,參數編碼可以用比波形編碼小得多的碼速率傳輸語音。用參數編碼技術實現的語音傳輸系統(tǒng)稱為聲碼器(Vocoder)。本節(jié)在介紹了語音產生模型和主要語音特征參數后,將對聲碼器,特別是應用較多的線性預測編碼(LinearPredictionCode,LPC)聲碼器進行簡介。

1.語音產生模型及特征參數1)語音信號模型經過幾十年的理論和實驗研究,現已建立起一個近似的語音信號模型,并被廣泛地應用于語音信號處理中。

從聲學的觀點來說,不同的語音是由于發(fā)音器官中的聲音激勵源和口腔聲道形狀的不同引起的。根據激勵源與聲道模型的不同,語音可以被粗略地分成濁音和清音。

(1)濁音。濁音又稱有聲音。發(fā)濁音時聲帶在氣流的作用下準周期地開啟和閉合,從而在聲道中激勵起準周期的聲波,如圖2.18所示。圖2.18濁音聲波波形圖(2)清音。清音又稱無聲音。由聲學和流體力學知,當氣流速度達到某一臨界速度時,就會引起揣流,此時聲帶不振動,聲道相當于被噪聲狀隨機波激勵,產生較小幅度的聲波,其波形與噪聲很像,這就是清音,如圖2.20所示。顯然,清音信號沒有準周期性。圖2.20(3)共振峰及聲道參數。由流體力學分析知,聲道頻率特性(唇口聲速u出與聲門聲速u入之比)與諧振曲線類似,如圖2.22所示。圖2.22頻率特性對應的諧振點叫做共振峰頻率。共振峰出現在濁音頻譜中,如圖2.19(b)所示,頻譜包絡(虛線表示)中峰值所對應的頻率就是共振峰頻率。清音頻譜中沒有共振峰存在。聲道頻率特性曲線反映了該段語音發(fā)聲時,聲道振動的規(guī)律,將該段語音信號用適當的分析方法可以獲得一組描述發(fā)聲時聲道特性的聲道參數{αi},由這組參數即可控制一個時變線性系統(tǒng)仿真聲道發(fā)聲。(4)語音信號產生模型。根據上面對實際的發(fā)音器官和發(fā)音過程的分析,可將語音信號發(fā)生過程抽象為圖2.23所示的物理模型。圖中,周期信號源表示濁音激勵源,隨機噪聲信號源表示清音激勵源。根據語音信號的種類,由清/濁音判決開關決定接入哪一種激勵源。聲道特性可以用一個由聲道參數{αi}控制的時變線性系統(tǒng)來實現。增益控制用來控制語音的強度。圖2.232)語音特征參數及提取方法

由前面的討論知,要用參數編碼技術傳輸語音信號,首先需要對語音信號樣值進行分析,以獲得諸如基音周期、共振峰頻率、清/濁音判決和語音強度等語音信號的特征參數,才有可能對這些參數進行編碼和傳輸。在接收端再根據所恢復的這些參數通過語音信號產生模型合成(恢復)語音。所以,在參數編碼中,語音參數的提取是重要和基本的。

語音信號是非平穩(wěn)隨機信號,但由于受發(fā)音器官的慣性限制,其統(tǒng)計特性不可能隨時間變化很快,所以,在大約10~30ms的時間內可以近似認為是不變的,因而可以將語音信號分成約10~30ms一幀,用短時傅氏分析方法分析處理?;糁芷诤颓澹鸵襞袥Q可以同時獲得,其方法主要有三大類:(1)時域法,指直接用語音信號波形來估計的方法。主要有自相關法(AUTO)、平均幅度差值函數法(AMDF)、并行處理法(PPROC)、數據減少法(DARD)等。(2)頻域法,指將語音信號變換到頻域來估計的方法。如倒譜法(CEP)等。其主要特點是較充分地利用了濁音信號頻譜所具有的尖峰狀特性,盡管算法較復雜,但效果較好。(3)混合法,指綜合利用語音信號的頻域和時域特性米估計的方法。如簡化逆濾波法(SIFT)、線性預測法(LPC)等。其主要做法是:先用語音信號提取聲道參數,然后再利用它做逆濾波,得到音源序列,最后再用白相關法或AMDF法求得基音周期。

2.LPC聲碼器以前述的語音信號模型為基礎.在發(fā)端分析提取表征音、源和聲道的相關特征參數,通過適當的量化編碼方式將這些參數傳輸到收端,在收端再利用這些參數重新合成發(fā)端語音信號的過程,稱為語音信號的分析合成。實現這一過程的系統(tǒng)稱為聲碼器(Vocoder)。LPC聲碼器是建立在前述的二元語音信號模型(圖2.23)基礎上的。圖2.24是LPC聲碼器的基本原理框罔。在發(fā)端,對話音信號樣值S(n)逐幀進行線性預測分析,并做相應的清/濁音判決和基音周期提取。圖2.24分析前預加重是為了加強語音頻譜中的高頻共振峰,使語音短時譜及線性預測分析中的余數譜變得更為平坦,從而提高信號預測參數{αi}估值的精確度。線性預測大多采用自相關法,為了減少信號截斷(分幀)對參數估計的影響,一般要對信號加適當的窗函數,例如漢明(Hamming)窗。在收端,按假定的語音生成模型組成語音合成器,由從發(fā)端傳輸來的特征參數來控制合成語音。合成器如圖2.25所示。圖2.252.3.3混合編碼技術如前所述,在語音編碼技術中,波形編碼語音質量高,但一般所需編碼速率較高,參數編碼可以實現較低編碼速率的傳輸,但其音質較差。由此,人們提出綜合兩者的優(yōu)點,在滿足一定語音質量的前提下,實現較低碼率的傳輸。混合編碼技術就是在這一思想基礎上產生的另一類編碼技術?;旌暇幋a技術在參數編碼的基礎上引入了一些波形編碼的特性,在編碼率增加不多的情況下,較大幅度地提高了語音傳輸質量。

1.LPC聲碼器的主要缺陷及改進方法LPC聲碼器利用了語音信號模型,能夠在保證可懂度的情況下,大幅度地降低傳輸碼率,然而也帶來了一些缺點:

(1)損失了語音自然度。

(2)降低了方案的可靠性。(3)易引起共振峰位置失真。(4)帶寬估值誤差大。盡管LPC方法有一些缺點,但由于LPC具有合成簡單,可自動進行參數分析等優(yōu)點,使其仍具有較大的吸引力。人們在實踐中針對它的缺點提出了一些改善方案,使它更趨于實用化。波形自適應預測編碼CAPC)在壓縮數碼率(約32kb/s)的同時,又獲得了較高質量的重構語音。而從線性預測的角度來看,APC與LPC聲碼器同屬一族,它們的主要區(qū)別在于:前者是波形編碼,后者是參數編碼。將APC作為質量準繩與LPC聲碼器相比較,不難看出LPC聲碼器大幅度降低數碼率和導致合成語音質量下降的原因,從中可以找到改善LPC聲碼器語音質量的方向。圖2.26給出了APC與LPC方案的比較。圖2.26要改善LPC聲碼器的質量,就必須從改善收端IIR的激勵信號入手。具體地說,就是要拋棄簡單的二元清/濁音語音信號激勵模型的假定。通常改善的途徑有兩條:一是采用較為復雜的語音信號激勵模型,如濁音聲門波激勵模型或多脈沖激勵模型等;二是利用一部分余數信號,例如將余數信號和語音譜中的一小部分傳送到收端,并由它們與其他LPC參數一同產生出IIR濾波器的激勵信號。改善收端激勵信號的結果是既提高了語音的自然度,又增大了系統(tǒng)的可靠性,但也付出了增大傳輸速率的代價。通常為了獲得較為自然的語音質量約需十幾kb/s的傳輸數碼率。2.余數激勵線性預測編碼聲碼器(RELPC)余數激勵聲碼器用語音余數信號低頻譜中的一部分(基帶余數信號)替代清/濁音判決和基音周期,傳送到收端作為激勵信號,其基本方案如圖2.27所示。對余數激勵聲碼器而言,基帶余數信號的獲取以及收端再生出全帶余數信號是關鍵,它們的性能決定了重構語音的質量。圖2.273.多脈沖激勵線性預測編碼聲碼器(MPC)通過研究語音模型的激勵形式可以發(fā)現:(1)將語音信號簡單地分成單一的清、濁音兩大類是不全面的。在一些語音場合中,幀內語音激勵既非白隨機噪聲型又非周期脈沖型,而是介于二者之間的淚合型,或是交替型。(2)當語音為濁音時,在聲門開、閉間隔內以及當聲門閉合后,有時會出現若干種激勵脈沖。也就是說,即使對于典型的濁音語音,其激勵也常常不是單個脈沖的周期序列。

考慮到以上事實,B.S.Atal和J.R.Ramde于1982年最先提出多脈沖激勵LPC聲碼器的原理和算法。在這個方案中,無論是合成清音還是濁音,都采用一個數目有限、幅度和位置可以調整的脈沖序列作為激勵源,因而稱為多脈沖激勵LPC(MutiPulseLPC,MPC)聲碼器。

MPC避免了普通LPC聲碼器中硬性的二元清油音判決,從而改善了合成語音的自然度和系統(tǒng)可靠性。然而,由于一般多脈沖激勵每10ms需要8個脈沖代表,因此,需要增加傳輸數碼率2×800b/s。圖2.28MPC算法框圖MPC聲碼器能保證較好的自然度和l可靠性,它的工作速率一般在9.6kb/s左右。它的最大缺點是分析多脈沖信息時的運算量很龐大,使它較難實時實現,并因此妨礙了它的推廣應用。盡管如此,由于靈活的多脈沖激勵使MPC聲碼器能比較自然地適應各種語音過渡情況,這一優(yōu)越性促使人們研究更有效的簡化算法。近年來,隨著相當多高速有效算法的出現和數字信號處理實現水平的不斷提高,MPC聲碼器已能有效地實現,并得到了較廣泛的應用。4.規(guī)則激勵長時預測(RPE-LTP)編碼方案規(guī)則激勵長時預測語音編碼方案是歐洲數字移動通信特別工作組(GSM)提出的供數字移動通信用的語音編碼方案。它是余數激勵LPC和多脈沖激勵LPC兩種算法的綜合,RPE-LTP編碼方案編碼凈比特率為13kb/s,加上22.8kb/s的信道抗干擾編碼,再加上其他管理信息等冗余碼,其信道傳送速率為24.7kb/s。

RPE-LTP方案用一組由余數信號獲得的間距相等、相位與幅度優(yōu)化的規(guī)則脈沖代替余數信號,從而使合成語音波形盡量逼近原始語音信號,而運算量卻比多脈沖激勵方式小得多。在GSM推薦的RPE-LTP方案中,直接用余數信號的3:1抽取序列作為規(guī)則激勵信號,并且認為可能的幾種3:1抽取序列中能量最大的一個對原語音波形的產生貢獻最大,其他序列樣點的作用較小,可以忽略。因此就采用能量最大的余數抽取序列作為規(guī)則碼激勵信號,這樣,就使所要傳送的余數信號樣點相對余數激勵LPC壓縮了2/3,大大降低了編碼速率。同時,由于這種算法相對簡單,與多脈沖激勵LPC相比計算量大大減少,容易實現。下面通過GSM給出的13kb/sRPE-LTP編碼器原理框圖來簡要說明RPE-LTP方案的基本原理。如圖2.29所示,RPE-LTP方案主要由預處理、LPC分析、短時分析濾波、長時預測和規(guī)則激勵碼編碼五大部分構成。圖2.29表2.7LAR參數量化編碼比特分配LAR參數序號1、23、45、67、8量化編碼比特數6543參

數量化編碼比特數8個LPC參數LAR(i)36

4個LTP系數b84個L丁P最佳時延N284個碼激勵序列編號Mc84個子幀段大樣值Xmaxc244×13個RPE碼激勵序列樣值XM156總計260表2.8GSMRPE-LTP方案參數編碼分配表5.矢量和激勵線性預測(VSELP)編碼方案在混合編碼技術的基礎上引入矢量量化技術,既可保證語音的合成質量,又可進一步壓縮編碼速率。矢量和激勵線性預測編碼就是矢量量化技術應用于余數LPC的結果,它是碼本激勵線性預測編碼(CELP)方式中的一種。VSELP是美國電子工業(yè)協會(EIA)下屬的電信工業(yè)協會(TIA)提出的用于北美數字移動通信的、編碼速率為8kb/s的語音編碼方案。

VSELP算法對余數信號進行矢量量化,從事先確定了的一組脈沖序列(稱為激勵矢量碼本)中挑選出一個最佳序列(激勵矢量)代替余數信號,使由其合成的語音波形與原始語音破形的加權均方誤差最小。VSELP只需將選中的激勵矢量在碼本中的序號和其他邊帶信息傳輸到收端,收端解碼器就能恢復合成Hl高質量的語音信號。因此,它的編碼效率很高,是8kb/s以下高質量語音壓縮編碼的優(yōu)選方法之一。VSELP與傳統(tǒng)的CELP相比還在搜尋最佳激勵矢量等方面大大降低了運算量,使算法實現變得更容易。圖2.31EIA/TIAVSELP方案的原理框圖框

(a)編碼器(b)解碼器VSELP方案仍采用分幀處理,20ms一幀.共160個樣點.一幀進行一次LPC參數提取,用迭代法求出10階反射系數,并按表2.9的比特分配方案雖化編碼傳送到收端,供本端相關濾波器使用。反射系數階號12345678910量化比特數6554433342表2.9LPC反射參數量化比特分配表

EIA/TIA提出的VSELP方案是一種比較理想的CELP實現方案。它不僅保留了CELP高效編碼的優(yōu)點,而且使它的運算量比通常的CELP方案降低了許多。另外,由于VSELP采用了長時預測和對增益因子用矢量量化等措施,使該方案能在8kb/s編碼速率上獲得相當滿意的語音質量。編碼方案標準編碼速率

MOS評分PCMG.71164kb/s1.3ADPCMG.72132kb/s4.1RPE-LTPGSM13kb/s3.47VSELPIS-548kb/s3.45LD-CELPG.72816kb/s4.0IMBEINMARSAT-M4.15kb/s3.4CELPFS-10164.8kb/s3.2LPC-10eFS

-10152.4kb/s2.3表2.11一些語音編碼方案的MOS評分6.低時延碼激勵線性預測(LD-CELP)編碼方案該方案是ITU-T關于進入長話網的16kb/s聲碼器的標準算法,已作為ITU-TG.728協議推薦。該方案的語音質量與G.72132kb/sADPCM相當而編碼速率只有16kb/s,編碼時延僅2ms,同時做到了高質量、低碼率和低時延是該方案的突出特點。

圖2.32LD-CELP原理框圖

(a)編碼器部分,(b)解碼器部分在發(fā)端,為了提高計算精度,需要將非線性PCM碼恢復成壓擴前的線性碼,即將輸入的64kb/s的PCM碼流經過非線性/線性轉換,變換成均勻量化的PCM信號。在收端,用發(fā)端傳送來的碼字編號在與發(fā)端相同的碼本中取出用來激勵矢量。增益控制用來調整碼本輸出矢量脈沖的幅度。增益自適應調節(jié)用來計算、調整增益預測值,每個矢量調整一次。根據增益控制以前的值計算:當前所需值,并采用混合窗技術以充分利用以前的數據。7.多帶激勵線性預測(MBE)編碼方案MBE編碼算法首先由美國MIT大學林肯實驗室的P.W.Griffin和J.S.Lim于1984年提出。這種算法的關鍵是提出了一種基于頻域的、新的話音信號產生模型多帶激勵模型,進而提高了合成語音的自然度。圖2.33給出了MBE語音信號產生模型,這是一個頻域模型,也就是說,它致力于對原始語音語結構的分析和擬合。在這個模型中,并不是簡單地將一幀語音判定為濁音或是清音,而是按基音各諧波頻率,將一幀語音的頻譜分成若干個諧波帶,再將幾個諧波帶為一組進行分帶,分別對各帶進行清/濁音判決。對于濁音帶,用以基音周期為周期的脈沖序列譜作為激勵信號譜;對于清音帶,則使用自噪聲譜作為激勵信號譜,本幀總的激勵信號由各帶激勵信號相加構成。激勵信號譜與原始語音中提取的譜包絡相乘以確定激勵譜在各諧波帶的相對幅度和l相位(在該模型中,認為每一諧波帶內譜包絡為常數),起到了將這種混合激勵信號譜映射成語音譜的作用。這種模型使得合成語音譜同原語音譜在細致結構上能夠擬合得很好,更符合實際語音的特性,所以其收端合成的話音質量必然就高。圖2.33MBE語音信號產生模型MBE算法發(fā)端語音分析原理框圖可如圖2.34所示。此算法采用了合成分析法和感覺加權兩項行之有效的提高參數分析精確度的技術來提取基音周期Tp和譜包絡參數。利用平滑技術對初估出的基音周期進行基音跟蹤,提高基音周期的精度。圖2.34MBE算法對收端語音合成采用時頻域混合合成法,分別在時域和頻域進行濁音和清音的合成,再將它們相加得到最后的合成語音,如圖2.35所示。圖2.352.4數字音頻編碼標準2.4.1話音音頻編碼標準1.G.711標準

CCITT于1972年對話音頻譜的模擬信號用脈沖編碼調制(PCM)編碼時的特性進行了規(guī)范,其主要內容有:

(1)模擬信號的取樣率標稱值為每秒8000個樣值,容差為土50×10-6。

(2)推薦A律和μ律兩種編碼率,量化值的數目由編碼律決定,每個樣值編碼為8位二進制數碼。(3)A律(或μ律)的每一個“判決值”和“量化值”應當與一個“均勻的PCM值”相關聯。亦即要求采用13比特(或14比特)的均勻PCM碼。

(4)串行傳輸時在一個樣值編碼碼字中首先傳送極性比特,最后傳送最低有效位比特。

(5)標準對A律或μ律各規(guī)定了一個字符信號周期序列,當該周期序列加到PCM復用設備解碼器輸入端時,在設備的任一音頻輸出端應當出現一個標稱電平為0dBm0的1kHz正弦信號。

(6)理論負載容量:A律為+3.14dBm0,μ律為+3.17dBm02.G.721標準G.721標準是CCITT1988年為實現64kb/sA律或μ律PCM與32kb/s數字信道之間的相互轉換而制定的。G.721協議規(guī)定32kb/sADPCM算法的目的是傳輸,而對于32kb/s數字碼流在交換中的應用,CCITT將進一步研究。請求在國際網中使用32kb/sADPCM時,將需要雙邊和(或)多邊協議。G.721未對信令轉換和復用作出規(guī)定。3.G.722標準G.722標準是CCITT1988年制訂的,該標準規(guī)范了一種音頻(50~7000Hz)編碼系統(tǒng)的特性,該系統(tǒng)可用于各種質量比較高的語聲應用,例如視聽多媒體、會議電視等具有調幅廣播質量的音頻。該編碼系統(tǒng)使用比特率在64kb/s以內的子帶自適應差分脈沖編碼調制(SC-ADPCM),在此技術中將音頻頻帶分裂成高低兩個子帶,在每個子帶中信號用ADPCM編碼。按照7kHz音頻編碼所用的比特率,系統(tǒng)有三種基本的工作模式:64kb/s、56kb/s和48kb/s。后兩種模式借助于利用低子帶的比特,在64kb/s內分別可以提供8kb/s和16kb/s的輔助數據信道。圖2.36給出了64kb/s音頻編/解碼器的原理框圖。發(fā)端主要由發(fā)送語音處理、子帶編碼器和數據插入三部分組成。發(fā)送語音處理完成語音的數字化處理,主要由輸入濾波、取樣和量化編碼等功能模塊組成。收端解碼器完成發(fā)端編碼器的逆變換工作。ab圖2.36G.722編/解碼器原理框圖

(a)發(fā)端編碼器;(b)收端解碼器模式7kHz音頻編碼比特率輔助數據信道比特率備注164kb/s0kb/s

256kb/s8kb/頂替低子帶最低位348kb/s16kb/s頂替低子帶最低兩位表2.12G.722基本工作模式4.G.728標準

為了進一步降低語音壓縮的速率,1992年CCITT制訂了G.728標準,它使用低時延碼激勵線性預測(LD–CELP)編碼算法,其速率為16kb/s,質量與32kb/s的G.721標準相當,編碼時延僅2ms。高質量、低碼率和低時延是該方案的突出特點。

LD-CELP算法原理已在2.3.3節(jié)中進行了介紹,G.728標準對LD-CELP算法進行了概述,并分別介紹了發(fā)端編碼器和收端解碼器的實現原理和功能,而且對各種計算方法和參數進行了詳細規(guī)定。

5.G.729標準

G.729標準提出了一種采用共軛結構代數碼激勵線性預測(CS-ACELP)方法,這是以8kb/s速率對語音信號編碼的算法。它是由ITU-T于1995年制訂的,該算法在多媒體通信和IP電話等領域有較廣泛的應用。

圖2.37CS-ACELP編碼器原理2.4.2高保真立體聲音頻編碼標準目前的音頻信號大致可以分成三類:電話質量的話音信號、調幅廣播質量的音頻信號和高保真立體聲音頻信號。對于前兩種音頻信號的編碼技術,ITU-T已經制訂了一些國際標準,對于高保真立體聲音頻,ISO(InternationalStandardizationOrganization,國際標準化組織)和IEC(InternationalElectrotechnicalCommission,國際電工技術委員會)為世界范圍內的標準化工作組成了專門的機構,也制訂了一些國際化標準。例如,ISO的運動圖像專家組(MotionPictureExpertsGroup,MPEG)為運動圖像及其音頻制訂的MPEG標準等。1.MPEG-1音頻編碼標準MPEG-1音頻編碼標準(ISO/IEC11172-3)是國際上第一個高保真立體聲音頻編碼標準。通過對14種音頻編碼方案的比較測試,最后選定了以MUSICAM(MaskingPatternUniversalSubbandIntegratedCodingAndMultiplexing)為基礎的三層編碼結構,根據不同的應用要求,使用不同的層來構成其音頻編碼器。在MPEG-1中,音頻編碼的Ⅰ、Ⅱ層稱為MUSICAM,它采用了以下技術:將數字音頻信號分為32個子帶,使用聽覺特性(例如心理聲學模型的掩蔽效應、聲音的方向特性等),采用比例因子技術、自適應比特分配技術等。圖2.39給出了MUSICAM編碼器的原理框圖,濾波器組用多相濾波器組和MDCT(ModifiedDiscreteCosineTransform,修改的離散余弦變換)濾波器組構成。濾波器組對信號進行頻率變換并將信號分成32個子帶,在每個子帶(750Hz)中,確定一段信號(8ms)中的最大電平,由此得到比例因子這一編碼參數。由于比例因子的相對變化很小,因此采用差分熵編碼方式實現。根據人耳的掩蔽效應確定掩蔽門限,據此,比特分配模塊自適應地分配比特,以達到高效壓縮音頻數據的效果。最后,將音頻壓縮數據、比例因子和比特分配信息按幀結構組合在一起構成模塊,形成音頻編碼比特流。幀標志幀校驗音頻數據輔助數據圖2.39MUSICAM編碼器的原理框圖圖2.40MPEG-1音頻編碼比特流幀結構圖2.41說明了音頻解碼器的基本結構,幀分解進行分解和解碼,恢復出各種信息段。若在編碼時采用了CRC校驗,則在此模塊中還將進行差錯檢測。重建模塊用來重建一組變換樣點的量化形式,逆變換將這些變換樣點變換回均勻的PCM音頻樣點。圖2.41MPEG-1音頻解碼器基本結構2.MPEG-2音頻編碼標準MPEG-2音頻編碼方案中將多聲道擴展信息加到MPEG←l音頻數據幀結構的輔助數據段中,而且長度沒有限制。MPEG-2音頻編碼的數據幀結構如圖2.42所示。在MPEGI音頻編碼的第一層,多聲道擴展數據被分成三個部分,在連續(xù)3幀MPEG-1音頻數據幀的輔助數據段中傳送;而在第二、三層,多聲道擴展數據在一個MPEG-1音頻數據幀的輔助數據段中傳送。完整的MPEG2數據幀包含四種不同信息:前32位由幀標志碼構成;緊接著是可選的16位CRC循環(huán)冗余校驗碼:音頻數據由位分配、規(guī)格因子選擇信息、規(guī)格因子和l音頻子帶樣點組成;輔助數據根據不同的應用定義.其長度和使用未作規(guī)定。圖2.42

MPEG-2音頻數據幀結構3.MPEG4音頻編碼標準MPEG4標準是MPEG為了給利用窄帶ISDN(IntegratedServiceDigitalNetwork,綜合業(yè)務數字網)實現交互式多媒體應用提供支持所制訂的MPEG系列標準中的一個新標準,它于1993年開始啟動研究,于1998年11月以ISO/IEC14496號標準頒布。與隊在PEG-1、MPEG-2不同,MPEG4不僅僅著眼于定義不同碼流下具體的壓縮編碼標準,而是更多地強調多媒體通信的靈活性和交互性。一方面,MPEG4要求有高效的壓縮編碼方法;另一方面,MPEG4要求有獨立于網絡的基于視頻、音頻對象的交互性。MPEG4同時支持自然和合成音頻信息(如MIDI等)的編碼。MPEG-4對自然音頻的編碼速率從2kb/s到64kb/s,并以一組工具的方式規(guī)范了碼流語法和各種解碼過程。為了在上述速率范圍內獲得最好的音頻質量,同時提供各種額外的功能。MPEG-4定義了三種類型的編碼器:(1)低速率音頻編碼,對8kHz取樣的語音的2~4kb/s速率的編碼。

(2)中速率音頻編碼,對8kHz或16kHz取樣的語音的4~16kb/s速率的編碼。(3)高速率音頻編碼,對16kb/s以上速率的編碼。

2~16kb/s速率之間的編碼常采用參數編碼技術實現,16~24kb/s之間的語音編碼常采用碼激勵線性預測(CELP)編碼方案,16kb/s以上速率的編碼則多采用時頻(T/F)變換的編碼技術。4.AC-3系統(tǒng)AC-3系統(tǒng)是Dolby公司開發(fā)的新一代高保真立體聲音頻編碼系統(tǒng),目的是為美國的全數字式高清晰度電視(HDTV)提供高質量的伴音。1993年11月,美國高級電視系統(tǒng)委員會(ATSC)正式批準其大聯盟高清晰度電視(GA-HDTV)系統(tǒng)采用AC-3音頻編碼方案。由于MUSICAM方案由歐洲開發(fā),并作為ISO/IECMPEG的音頻標準,出于政治和經濟上的考慮,AC-3與MUSICAM在HDTV和數字聲音廣播(DAB)方面進行了十分激烈的競爭。在制訂MPEG2音頻編碼標準時,以美國為首的一些國家對MUSICAM投了反對票,這就使得ISO/MPEG-2不得不另外建立一種非后向兼容編碼(NBC)標準,即MPEG-2音頻部分可以有多個標準,AC-3系統(tǒng)就是其中之一。AC-3系統(tǒng)繼承了AC-2系統(tǒng)的許多優(yōu)點,例如,變換編碼、自適應量化和比特分配、人耳心理聽覺特性等,并采用了一些新技術,如指數編碼、混合前/后向自適應比特分配和稠合技術等。圖2.43示出了AC-3系統(tǒng)原理框圖。圖2.43

AC-3系統(tǒng)原理框圖分析濾波器組將音頻信號從時域轉換到頻域,以便在頻域實現基于心理聲學模型的音頻壓縮。頻域參數可粗糙量化,因為產生的量化噪聲將與音頻信號在同一頻率上,由于心理聲學的掩蔽效應,相對低的信噪比也是可以接受的?;谌说年坑X心理聲學模型,對于每個單獨的頻域參數,比特分配模塊來決定怎樣的信噪比可以接受。最后,頻域參數粗糙量化到所需精度,并編碼形成音頻基本碼流。音頻編碼碼流的基本單元是AC-3同步幀,其幀結構如圖2.44所示。每個AC-3同步幀由一個16bit同步信息(SI)字、碼流信息(BSI)、32ms的音頻編碼流和一個CRC差錯控制段(16bit)組成。每個同步幀大?。ū忍財担┫嗤?,均包含6個音頻編碼塊,它是一個完全獨立的編碼實體?;敬a流中包括了使解碼器實現與編碼器相同的比特分配信息,這樣,解碼器可根據它將基本碼流頻域參數進行分組拆卸和逆量化解碼,從而重建頻域參數。合成濾波器組實現發(fā)端分析濾波器組的逆過程,它將重建的頻域參數還原為時域音頻信號。圖2.44AC-3音頻編碼碼流幀結構2.5圖像編碼技術2.5.1概述數字圖像傳輸主要有如F優(yōu)點:(1)抗干擾能力強,由于數字傳輸再生中繼的特點,基本排除了噪聲和失真積累的影

響,提高了功率利用率。

(2)可將信源編碼與信道編碼結合設計,使用類似網格編碼調制(TrellisCodingModulation,TCM)等編碼技術,可大大提高信號功率/頻譜的綜合利用率。

(3)由于采用數字濾波與數字存儲.容易使用簡單的方法消除噪聲,改善閣像的信噪比,大大提高視頻圖像質量。

(4)大大提高了功率利用率,數字電視廣播的發(fā)射功率要比模擬傳輸低許多,可以開

辟使用禁用頻道來傳送電視節(jié)目,有利于緩解電視頻道緊缺的狀態(tài)。

(5)由于減少了AID、DIA變換等處理環(huán)節(jié),可減少罔像質量的惡化與損傷。

(6)利用數字處理容易實現加密,有利于視頻信號的保密傳輸。

(7)與B一ISDN(寬帶綜合業(yè)務數字網)傳輸匹配,適合于未來的多媒體通信。2.5.2圖像壓縮編碼的基本方法1.預測編碼預測編碼的基本方法是差分編碼調制(DPCM),其目的是去除圖像數據間的空域冗余度和時間冗余度,它既可在一幀圖像內進行幀內預測編碼,也可在多幀圖像間進行幀問預測編碼。圖2.45DPCM原理框圖a.編/解碼器b.一維預測與二維預測2.變換編碼變換編碼也是一種降低信源空間冗余度的壓縮方法.通常是采用某種正交變換,將圖像取樣值變換到變換域.達到去|徐視頻圖像信號相關性的目的。研究表明,各種正交變換,例如,卡南洛伊夫CKU變換、傅氏變換、余弦變換和沃什變換等,都能在不同程度上減少隨機向量的相關性。由于變換所產生的變換域系數之間的相關性很小,因此可以分別獨立地對其進行處理;經正交變換后,大都能將能量集中在少量變換域系數上。通過量化刪去對圖像信號貢獻小的系數,只用保留下的系數來恢復原始圖像,并不會引起明顯的失真。這就是利用正交變換進行數據壓縮的基本原理。大家熟悉的傅氏變換就是一種正交變換句如果把取樣后的圖像看做一個二維矩陣,對此矩陣做二維離散傅氏變換(DFT).所得到的變換域中的各元素對應著圖像中不同頻率成分的復振幅值。由于畫面在內容上的連續(xù)性,圖像矩陣中相鄰元素之間的相關性很強,而經變換后,變換域的變換系數反映不同頻率的復振幅值,顯然,它們之間的相關性要小得多。在最小均方誤差準則下,最佳的正交變換是卡南一洛伊夫(K-L)變換,其變換后的系數之間是互不相關的。但是由于計算的復雜性和實現上的困難,K-L變換的實際應用甚少。離散余弦變換(DCT)是一種性能接近K-L變換的正交變換,并具有多種快速算法,因而在數據壓縮中被廣泛地采用。

3.熵編碼熵編碼旨在去除信源的統(tǒng)計冗余,熵編碼不會引起信息的損失,因而又稱為元損編碼。下面主要簡介在視頻編碼中應用較多的游程長度編碼和霍夫曼編碼。

1)游程長度編碼

游程長度編碼最早用于二值圖像的壓縮編碼。二值圖像的每一掃描行總是由若干段連著的白像素和黑像素組成,即所謂的白長和黑長。對不同的白長和l黑長,按其出現的概率分配以不同的碼字,這種編碼方法稱之為游程長度編碼。

2)霍夫曼編碼

霍夫曼編碼是因像壓縮編碼中最重要的編碼方法之一,是1952年由霍夫曼(Huffman)提出的一種非等長最佳編碼方法。所謂最佳編碼,即在具有相同輸入概率集合的前提下,其平均碼長比其他任何一種唯一可譯碼都短。4.幀間預測編碼消除序列圖像在時間土的冗余,是視頻壓縮編碼的另一重要途徑。幀間預測編碼的理論依據是視頻信號的相鄰幀CBJ存在股強的相天性。利用過種時間相關性來;ill:行幀間編碼,可獲得比幀內預測編碼高得多的壓縮比,因此,幀間預測編碼廣泛應用于常規(guī)電視、會議電視和電視電話等視頻信號的壓縮編碼中。

1)幀間統(tǒng)計特性

對視頻信號來說,相鄰幀之間的時間間隔很小,例如,25幀/s的電視信號,其幀間間隔時間為0.04s,因此,相鄰幀間罔像細節(jié)的變化是很少的。比如,電視電話中相鄰兩幀平均像素變化小于4%(指幀間相應像素差值大于3(256級));對于NTSC廣播電視,相鄰兩幀的亮度信號平均只有7.5%的像素差值大于6(256級),而其色度信號僅有約0.65%的像素大于此值。

實驗表明,與幀內預測相比,幀間預測一般可獲得10dB左右的增益。但對不同情況要分別對待,在活動緩慢的區(qū)域,幀間預測性能較好;而在活動快速的區(qū)域,幀間預測性能較差。

2)幀重復對于景象靜止或活動很慢的視頻信號,可以少傳一些幀,例如,隔幀傳輸。未傳輸的幀利用接收端的幀存儲器中保存的前一幀數據作為該幀數據,這對視覺沒有什么影響。因為人眼對靜止圖像(或活動慢)部分,要求較高的空間分辨率,而對時間分辨率的要求可低些。在電視電話中多采用幀重復的方法。3)閾值法

所謂閾值法,即只對那些幀間亮度差值超過某一闊值的像素編碼傳送。例如,取閾值

為5,凡是幀間差值的絕對值大子5的像素就傳送。通常,閾值大小由實驗確定,也可根據緩沖存儲器的占有率確定。

4)幀內插

幀內插也是幀間預測的有效方法。對活動緩慢的圖像,可使用前后兩幀圖像進行內插,得到實際幀圖像的預測圖像,然后對實際幀與預測幀的差值信號進行編碼。

5)運動補償預測編碼運動補償預測編碼是一種十分有效的幀預測方法,對于運動的物體,只要知道其運動規(guī)律,就可從前一幀圖像推算出它在當前幀中的位置來。因此,編碼器只要將物體的運動信息(如運動規(guī)律、運動速度等)告知解碼器,解碼器就可根據此信息和前一幀圖像來更新當前圖像.這比傳送當前圖像所需的數據量要小得多。要這樣做,首先要解決的問題是如何從序列圖像中提取有關物體的運動信息,這通常稱為運動估值。運動估值的方法主要有兩類:塊匹配方法和像素遞歸法。2.6圖像壓縮編碼標準2.6.1靜止圖像壓縮標準1.JPEG標準JPEG是英文JointPhotographicExpertsGroup的縮寫,即聯合圖片專家組。JPEG是ISO/ITUT為研究制訂連續(xù)色調(灰度或影色)靜止圖像壓縮標準而于1986年底成立的一個聯合技術委員會。到1987年3月,JPEG共收到12種候選方案,1987年6月使用4幅電視測試圖像(720×576:Y:U:V=4:2:2;每像素16比特;寬高比4:3)進行了廣泛的客觀測試,從中選出了三種初選方案。其中,由ESPRITPICA組提出的自適應8×8DCT方案最佳,另兩種初選方案是基于DPCM的自適應算術編碼和遞增分層編碼。JPEG提供了四種算法模式:(1)基于DCT的順序模式,也稱基本模式,適用于有損圖像壓縮的大多數場合,它不僅可用于靜止圖像,而且可用于活動圖像。

(2)基于DCT的遞增模式,適用于對傳輸時間要求不嚴,用戶喜歡圖像由粗糙到清晰的場合。

(3)無損編碼模式,適用于要求無失真壓縮的場合。

(4)分層結碼模式,可按多種分辨率對圖像進行編碼,適用于要求不同分辨率或圖像質量的場合。

所有的JPEG編碼器和解碼器必須支持基本模式,基本模式基于DCT和可變長編碼(VLC)壓縮技術,能提供高達100:1的壓縮比,且能保證可接受的重建圖像質量。由于DCT編碼有失真,故其重建圖像不能精確地再現原始圖像。其圖像失真程度與壓縮比密切相關,典型壓縮情況如表2.16所示。例如,24比特的RGB(紅、綠、藍)彩色圖像能壓縮到1比特/像素(約為原始圖像數據量的5%),其重建圖像與原始圖像幾乎覺察不出差異。碼率(比特/像素)圖像質量及應用范閨o.25~o.50中等至好,滿足某些應用0.50~o.75好至很好,滿足多數應用0.75~1.5極好,滿足大多數應用1.5~2.0與原始圖像幾乎一樣表2.16JPEG基本模式壓縮舉例2.JPEG2000JPEG標準自1991年通過以來,由于其優(yōu)良的品質,使得它在短短的幾年內就獲得極大的成功。JPEG采用離散余弦變換將圖像壓縮為8×8的小塊,然后依次放入文件中,這種算法靠丟棄頻率信息實現壓縮,因而圖像的壓縮率越高,頻率信息被丟棄的越多。在極端情況下,JPEG圖像只保留了反映圖貌的基本信息,精細的圖像細節(jié)都損失了。隨著多媒體技術的不斷運用.罔像壓縮要求更高的性能和新的特征,為此,JPEG制定了新一代靜止圖像壓縮標準JPEG2000。JPEG2000作為一種新型圖像編碼系統(tǒng).跟它的前身JPEG相比.有哪些優(yōu)越性呢?實際上,JPEG2000的壓縮優(yōu)越性跟它的先進的編碼技術是密切相關的。大體說來分為六個方面:(1)漸進式傳輸。(2)支持有損壓縮和無損印縮方式。(3)特定區(qū)域進行特別的壓縮處理。(4)高壓縮率。

(5)在顏色處理上.具有更優(yōu)秀的內涵。

(6)JPEG2000能使基于WEB方式的多用途問像簡單比。2.6.2視頻壓縮標準視頻(活動圖像)是最重要的信源之一。一方面,視頻能給人以“百聞不如一見”的感受,給人們帶來高級的視覺享受;另一方面,由于視頻的信息量非常大(尤其是數字化后),例如,廣播質量的數字視頻(常規(guī)電視)的碼率約為216Mb/s.,高清晰度電視則在1.2Gb/s以上,如果沒有高效率的壓縮技術,是很難傳輸和存儲的。按質量分,視頻可大致分為三類:(1)低質量視頻,畫面較小,通常為QCIF(即CIF格式圖像像素的1/4)或CIF格式,幀速率低,通常為5~10幀/秒,既可為黑白視頓也可為影色視頻。其典型的應用包括電視電話和會議電視。

(2)中等質量視頻,中等大小的畫面.通常為CIF或CCIR601視頻格式。幀速為25~30幀/秒,多為彩色視頻。其典型應用有CD和數字磁帶等數字存儲媒體。

(3)高質量視頻,其畫面較大,通常為CCIR601視頻格式至高清晰度電視視頻格式。幀速大于25幀/秒,為高質量移色圖像。其典型應用包括廣播質量的普通數字電視和高清晰度電視等。針對上述三類視頻.國際上制訂了相應的視頻壓縮標準:H.261、MPEG-1、MPEG-2和MPEG-4。1.H.261標準H.261是CCITT制訂的國際上第一個視頻壓縮標準,主要用于電視電話和會議電視,以滿足ISDN日益發(fā)展的需要。H.261標準也稱為P×64kb/s標準CP二1,2,3,…,30),該標準于1990年12月完成并獲得批準。當P=l或2時,僅支持QCIF視頻格式,用于幀速率較低的電視電話;當P注6時,可支持CIF格式的會議電視。

H.261視頻壓縮算法的核心是運動估值預測和DCT編碼,另外,還采用了包括視頻數據結構、運動估算與補償、可變長度編碼和摘編碼等技術,這些技術都被后來的MPEG標準所借鑒和采用。

圖2.47H.261視頻編/解碼器原理框圖圖中上方為視頻編碼器,下方為視頻解碼器。左側為發(fā)端輸入和收端輸出的圖像信號,這里指的是CIF或QCIF格式的數字視頻信號。如果輸入信號是NTSC、PAL、SECAM制的模擬復合視頻信號,則應解碼成RGB三基色信號,經過模/數變換,變換為亮度、色度信號,再轉換成幀頻為30Hz的CIF或QCIF格式,經過幀存儲器緩沖后,進入輸入瑞。解碼器輔出幀頗為30Hz的CIF或QCIF格式的視頻信號,然后可以經過與上述變換相反的過程,還原成復合視頻信號。信源編碼器的主要任務是對視頻信號進行壓縮,先用DCT對信號進行變換,再將變換后的DCT系數量化,然后輸入圖像復用編碼器。圖像復用編碼器的任務是將每幀圖像數據編排成4個層次的數據結構,以便在各層次中插入必要的輔助數據,同時對交流DCT系數進行可變長度編碼(VLC),對直流DCT系數進行固定長度編碼(FLC),編碼碼流送入傳輸緩沖器。傳輸緩沖器的作用是將速變碼流變換為固定碼率碼流。由于圖像內容變化而使輸出碼率改變,故將傳輸緩沖器的信息傳給編碼控制器,由編碼控制器再去控制信源編碼器中量化器的量化步長,同時將步長輔助數據送到圖像復用編碼器中的相應層次,以供解碼器使用。這樣,可實現自動碼率控制(量化步長決定碼率)。傳輸編碼器的主要功能是對碼流進行BCH(循環(huán)碼的一類)編碼,以實現系統(tǒng)的前向糾錯,從而使解碼器可以檢測和糾正傳輸出錯的碼字。H.261標準規(guī)定,編碼器中應有BCH糾錯碼編碼,但在解碼器中可以任選。另外,在傳輸編碼器中還需插入同步碼,以便解碼器能正確工作。編碼控制器除控制量化步長外,還控制編碼模式,即控制幀內編碼或幀間編碼,該操作是在信源編碼器中進行的。2.MPEG-1視頻標準MPEG-1是1991年11月通過的關于碼率為1.5Mb/s,用于數字存儲媒體的運動圖像和音頻的編碼標準(ISO/IEC11172),其圖像質量與錄像機水平相當。MPEGI標準所要達到的基本目標是:

(1)在圖像質量方面應高于電視電話的質量,其質量與VHS錄像機的圖像質量和光盤CDROM的放像質量相當,這些圖像被認為在通常的計算機顯示屏幕上也是基本滿意的。

(2)在儲存媒體方面,可以應用于光盤、數字錄音帶DAT、溫盤(WinchesterDisk)和可寫磁光盤(WritableOpticalDisks)。

(3)在傳輸劇率方面,符合當時計算機網絡的傳輸碼率,即1~1.5Mb/s,其中以1.2Mb/s更適宜,因為這是CD-ROM和計算機網絡當時的傳輸速率。

(4)在通信方面,能夠適應多種網絡,如ISDN和LAN等。

(5)能滿足不對稱應用和對稱應用。所謂不對稱應用,就是編碼一次后,解碼可用無數次,如電視娛樂片、電子游戲機節(jié)目和電子圖像出版物等,只需要解碼器用于放像即可。所謂對稱應用,就是需要同時進行編碼和解碼.如雙向通信用的電視電話、圖像雙向郵遞、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論