音頻壓縮的成功者——感知編碼_第1頁
音頻壓縮的成功者——感知編碼_第2頁
音頻壓縮的成功者——感知編碼_第3頁
音頻壓縮的成功者——感知編碼_第4頁
音頻壓縮的成功者——感知編碼_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、音頻壓縮的成功者感知編碼    音頻壓縮的成功者感知編碼2004年中南地區(qū)省級電視臺技術年會論文二等獎     近年來,隨著現(xiàn)代通信的發(fā)展,數(shù)字化日益滲透人們的日常生活,人們對各種多媒體業(yè)務的需求日益增長,我們正享受著數(shù)字化帶來的方便和快捷,衛(wèi)星電視、數(shù)字電視、各種數(shù)碼音樂產品正改變著我們的生活。于是便要求得到更多更好的音頻產品和服務。數(shù)字聲音作為一種存儲、處理和傳輸高保真聲音的方法,在消費電子、專業(yè)聲音等眾多領域已得到廣泛應用。但是如果沒有通用有效的高質量音頻編解碼方案,數(shù)字存儲和傳輸技術的進一步發(fā)展將會受到嚴重

2、的束縛。在音頻數(shù)字壓縮技術中,當前比較成功的編碼方式被稱為“感知型編碼( Perceptual Coding )”,現(xiàn)在比較常用的 MP3 、 MD 等都是感知編碼原理。     一般來說,數(shù)據壓縮有兩種方法。一種方法是利用信號的統(tǒng)計性質,完全不丟失信息的高效率編碼法,稱為平均信息量編碼或熵編碼。第二種方法是利用接收信號的人的感覺特性,省略不必要的信息,壓縮信息量,這種方法稱為感覺編碼。     因為熵編碼可通過解碼完全再現(xiàn)編碼前的數(shù)據,故應用范圍廣泛 ,例如可用于磁盤壓縮、文件壓縮等,在保存信息方面,完全不用擔心

3、劣化。不過遺憾的是,僅依靠熵編碼不能將音頻信號進行大幅度的數(shù)據壓縮。這是因為在音頻信號中會有白噪聲信號,這種完全隨機的信號,根據信息論是決不能用熵編碼進行壓縮的。因此在音頻壓縮中,必須同時采用感知編碼 。     感知編碼是利用人耳聽覺的心理聲學特性(頻譜掩蔽特性和時間掩蔽特性)、人耳對信號幅度、頻率、時間的有限分辨能力,凡是人耳感覺不到的成分不編碼,不傳送,即凡是對人耳辨別聲音信號的強度、音調、方位有貢獻的部分(稱為不相關部分或無關部分)都不編碼和傳送。對感覺到的部分進行編碼時,允許有較大的量化失真、并使其處于聽閾以下,人耳仍然感覺不到。簡單的說感知編

4、碼是建立在人類聽覺系統(tǒng)的心理聲學原理為基礎,只記錄那些能被人的聽覺所感知的聲音信號,從而達到減少數(shù)據量而又不降低音質的目的。     目前音頻壓縮編碼已成為標準的是 MPEG-1 ( ISO/IEC11172-3 )、 MPEG-2 ( ISO/IEC13818-3 )和美國大聯(lián)盟的 AC-3 。他們都是感知編碼。     一、為什么壓縮     了解數(shù)字音頻首先要提到 脈沖編碼調制 PCM ( Pulse Code Modulation ),它 是概念上最簡單、理論上最完善

5、的編碼系統(tǒng),是最早研制成功、使用最為廣泛的編碼系統(tǒng),但也是數(shù)據量最大的編碼系統(tǒng)。 PCM 指模擬音頻信號只經過采樣、量化、編碼,模數(shù)轉換成 PCM 信號,得到標準的數(shù)字音頻碼流,而未經過任何編碼和壓縮處理。     根據奈奎斯特采樣定律,通常其采樣頻率至少應當是信號中的最高頻率分量的兩倍。對于高質量的音頻信號,其頻率范圍是從 20Hz 20kHz 。所以其采樣頻率必須在 40kHz 以上。在 CD 中采用了 44.1kHz 的采樣頻率。普通 CD 線性 PCM 的取樣頻率為 44.1kHz ,量化精度為 16bit ,動態(tài)范圍為 98db 。(在對模擬信

6、號采樣以后,還必須對其幅度上加以分層。在 CD 中,其分層以后的幅度信號用 16 bit 的二進制信號來表示,也就是把模擬的音頻信號在幅度上分為 65536 ( 2 16 )層。這樣,它的動態(tài)范圍就可以達到 96 分貝( 6 分貝 / 比特)。)     PCM 的編碼原理比較直觀和簡單,它的原理框圖如圖所示。     在這個編碼框圖中,它的輸入是模擬聲音信號,它的輸出是 PCM 樣本。圖中的“防失真濾波器”是一個低通濾波器,用來濾除聲音頻帶以外的信號;“波形編碼器”可暫時理解為“采樣器”,“量化器”可理解為“量化

7、階大小 (step-size) ”生成器或者稱為“量化間隔”生成器。     那么這種未經壓縮的 PCM 信號的數(shù)據量具體有多大呢?以 CD 音質的信號為例,它的單通道的采樣率是 44.1k Hz ,每個樣值是 16bit 的量化,而立體聲 CD 音質信號,有兩個通道,它每秒的碼流是 44.1K × 16 × 2 1.4Mbit/s 。(數(shù)字信號傳輸率 = 取樣頻率 × 量化比特 × 通道數(shù))一張 CD 唱片的容量約為 680MB ,可以容納約 1 小時的雙聲道 PCM 數(shù)字音頻節(jié)目,由于這種編碼方式所產生的數(shù)據量

8、太大,存儲和傳輸都既不方便也不>' target='_blank' class='infotextkey'>經濟,有時甚至是行不通的。對于電視廣播來說,數(shù)據傳輸速率越高,每套節(jié)目所需的頻寬就越大,在頻帶資源日趨緊張的今天,過寬的頻帶是不能允許的,同時對于有形載體(激光碟、磁帶等),每種載體的記錄密度都是有限的(受當時技術發(fā)展程度的制約),增大數(shù)據量就意味著縮短節(jié)目長度。因此需要開發(fā)一種新的編碼方式,它應該使用較少的數(shù)據量,而又不會導致音質的主觀聽感有明顯的下降。     二、 感知編碼原理  

9、   1 、理論基礎聞域和臨界頻段     音頻壓縮理論是建立在心理聲學模型基礎上,從研究人耳的聽感系統(tǒng)開始的。     人耳實際上可看成一個多頻段的聽感分析器,在接收端的最后,它對瞬間的頻譜功率進行了重新分配,這就為音頻的數(shù)據壓縮提供了依據。     眾所周知,聲源振動的能量通過聲波傳入人耳,使耳膜發(fā)生振動,人們就產生了聲音的感覺。但是人耳能聽到的振動頻率約在 20 Hz 到 20KHz 之間,低于 20 Hz 或高于 20K Hz 的振動,不

10、能引起人類聽覺器官的感覺。心理聲學模型中一個基本的概念就是聽覺系統(tǒng)中存在一個聽覺閾值電平,低于這個電平的聲音信號就聽不到,因此就可以把這部分信號去掉。聽覺閾值的大小隨聲音頻率的改變而改變,各個人的聽覺閾值也不同。大多數(shù)人的聽覺系統(tǒng)對 2kHz 5kHz 之間的聲音最敏感。一個人是否能聽到聲音取決于聲音的頻率,以及聲音的幅度是否高于這種頻率下的聽覺閾值。 這就是說在聽覺閾值以外的電平可以去掉,相當于壓縮了數(shù)據。另外, 聽覺閾值電平是自適應的,即聽覺閾值電平會隨聽到的不同頻率的聲音而發(fā)生變化。也許你有這樣的體驗,在一安靜房間里的普通談話可以聽得很清楚,但在播放搖滾樂的環(huán)境下同樣的普通談話就聽不清楚

11、了。聲音壓縮算法也同樣可以確立這種特性的模型來取消更多的冗余數(shù)據。     2 、 掩蔽 效應     心理聲學模型中的另一個概念是聽覺掩飾特性 掩蔽效應,即 一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象稱為掩蔽效應。前者稱為掩蔽聲音 (masking tone) ,后者稱為被掩蔽聲音 (masked tone) 。     掩蔽效應探討的基礎是 感知編碼中的一個重要的概念臨界頻段,即人耳對不同頻率段聲音信號的反應靈敏程度有所差別。 人耳中包含了約 3 萬個毛細胞,它

12、們能夠檢測到基膜的振動,通過生理脈沖將音頻信息傳到大腦,但這些細胞在不同頻率的敏感程度不同,在低頻區(qū)域對幾赫茲的差異都能分辨出來,而在高頻區(qū)域,必須要有幾百赫茲的差別才能分辨。所以,一般毛細胞會對其周圍的強刺激作出反應,這就是臨界頻段。實驗結果表明,在低頻區(qū)域臨界頻段比在高頻區(qū)域臨界頻段窄,在低頻段臨界頻段很窄,頻段寬度只有 100 Hz 到 200 Hz ,在高于 5000 Hz 以后的臨界頻段的寬度有 1000 Hz 至幾萬 Hz 的頻段寬度。 3/4 臨界頻段低于 5Khz ,人耳可以接收到的低頻信息高于高頻信息。     掩蔽可分成頻域掩蔽和時域

13、掩蔽。     所謂頻域掩蔽是指掩蔽聲與被掩蔽聲同時作用時發(fā)生掩蔽效應,即較強的聲音信號可以掩蔽臨近頻段中 同時發(fā)聲的 較弱的信號。 這種特性稱為頻域掩蔽,也稱同時掩蔽 (simultaneous masking) 。 這時,掩蔽聲在掩蔽效應發(fā)生期間一直起作用,是一種較強的掩蔽效應。換言之,如果在某一頻段中出現(xiàn)了一個較強的信號,那么該頻段中所有低于某一門檻值的信號都將被強信號掩蔽掉,成為人耳不可聞的信號。掩蔽特性與掩蔽音的強弱,掩蔽音的中心頻率,掩蔽音與被掩蔽音的頻率相對位置等有關。通常,頻域中的一個強音會掩蔽與之同時發(fā)聲的附近的弱音,弱音離強音越近,一

14、般越容易被掩蔽;反之,離強音較遠的弱音不容易被掩蔽。濾除這一弱信號將不會對音質產生不良影響,而且能減少編碼后的數(shù)據量,所以可以把它們作為噪聲信號來對待。     除了同時發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時間上相鄰的聲音之間也有掩蔽現(xiàn)象,并且稱為時域掩蔽。 所謂時域掩蔽是指掩蔽效應發(fā)生在掩蔽聲與被掩蔽聲不同時出現(xiàn)時,又稱異時掩蔽。 時域掩蔽又分為超前掩蔽 (pre-masking) 和滯后掩蔽 ( post-masking) , 若掩蔽聲音出現(xiàn)之前的一段時間內發(fā)生掩蔽效應,則稱為導前掩蔽;否則稱為滯后掩蔽。 產生時域掩蔽的主要原因是人的大腦處理信息需要花費

15、一定的時間。一般來說,超前掩蔽很短,只有大約 5 20 ms ,而滯后掩蔽可以持續(xù) 50 200 ms 。 異時掩蔽也隨著時間的推移很快會衰減,是一種弱掩蔽效應。     如上圖左圖所示,當有黑線所示的某頻率信號存在時,靠近它的本來可以聽見的噪聲 B就變得聽不見了,這種現(xiàn)象叫做頻率掩蔽效應。而如右圖所示,當某時刻有黑線所示的信號存在時,位于其后面的比它小一些的本來可聽見的噪聲E也變得聽不見了,這種現(xiàn)象稱為時間掩蔽效應。這些兩種效應合成的結果,就形成了實際的可聞閾。如下圖所示:     三、感知編碼器  &

16、#160;  1 、感知編碼器的特點     感知編碼器首先分析輸入信號的頻率和振幅,然后將其與人的聽覺感知模型進行比較。編碼器用這個模型去除音頻信號的不相干部分及統(tǒng)計冗余部分。盡管這個方法是有損的,但人耳卻感覺不到編碼信號質量的下降。感知編碼器可以將一個聲道的比特速率從 768kb/s 降至 128kb/s ,將字長從 16 比特 / 取樣減少至平均 2.67 比特 / 取樣,數(shù)據量減少了約 83% 。     感知編碼器的有效性部分源自采用了自適應的量化方法。在 PCM 中,所有的信號都分為

17、相同的字長,感知編碼器則是根據可聽度來分配所使用的字長。重要的聲音就分配多一些位數(shù)來確保可聽的完整性,而對于輕言細語的編碼位數(shù)就會少一些,不可聽的聲音就根本不進行編碼,從而降低了比特速率。編碼器的壓縮率是輸入的比特數(shù)與輸出的比特數(shù)之比。一般常見的壓縮率是 4 : 1 , 6 : 1 或 12 : 1 。     一般感知編碼采用兩種比特分配方案。一種是前向自適應分配方案,所有的分配都在編碼器中進行,這個編碼信息也包含在比特流中。前向自適應編碼的一個突出優(yōu)點是在編碼器中采用了心理聲學模型,它只是利用編碼數(shù)據完全地重建信號。當改進了編碼器中心理聲學模型時,可

18、利用現(xiàn)有的編碼器來重建信號。這種方法的一個缺點是需要占用一些比特位來傳遞分配信息。在后向自適應分配方案中,比特分配信息可以直接從編碼的音頻信號中推導出來,不需要編碼器中詳細的分配信息,分配信息也不占用比特位。然而在解碼器中的比特分配信息是根據有限的信息推導出來的,精度必然會降低。另外解碼器相應也比較復雜,而且不能輕易地改變心理聲學模型。     感知編碼有一定的抗噪性。在 PCM 中誤差引入了寬帶噪聲,而對于許多感知編碼器,根據預編碼信號的典型帶寬,噪聲被限定在窄帶內,因而限制了其強度。誤差僅僅引入了一個低電平的噪聲。感知編碼系統(tǒng)還對目標噪聲進行校正,例

19、如對于極弱的聲音、比較強的聲音給予更多的保護。象任何編碼系統(tǒng)一樣,感知編碼系統(tǒng)也是綜合存儲量、傳輸速率等因素來考慮的合適的誤差校正方案。     由于感知編碼器根據人耳的靈敏度來編碼,它也可以輸出放音系統(tǒng)所要求的響度。實況播送的音樂不通過放大器和揚聲器而直接進入耳朵但是錄制的音樂必須通過放音系統(tǒng)。由于感知編碼器去除了不可聽的信號成分,從邏輯上講,加強了放音系統(tǒng)傳送可聽音樂的能力。簡言之,感知編碼器很適合對需要經過音頻系統(tǒng)的音頻信號編碼。     2 、壓縮的實現(xiàn)子帶壓縮技術    &#

20、160;子帶壓縮技術是以子帶編碼理論為基礎的一種編碼方法。     子帶編碼理論的基本思想是將信號分解為若干子頻帶內的分量之和,然后對各子帶分量根據其不同的分布特性采取不同的壓縮策略以降低碼率。     子帶編碼是將一個短周期內的連續(xù)時間取樣信號送入濾波器中,濾波器組將信號分為多個(最多 32 個)限帶信號,以近似人耳的臨界頻段響應。對于這些子帶,利用 FFT 將信號變換到頻域分析其能量,利用心理聲學模型來分析這些數(shù)值,給出這組數(shù)據的合成掩蔽曲線。編碼器通過分析每個子帶的能量來判斷該子帶是否包含可聽信息。計算每個子

21、帶的平均功率,用來計算當前子帶及鄰接子帶的掩蔽級,最后根據最小聞域推導出各個子帶最后的掩蔽級。每個子帶的峰值功率與掩蔽級的比率由所作的運算來決定,并根據信號振幅高于可聽曲線的程度來分配量化所需的比特數(shù)。     由于在子帶壓縮技術中主要應用了心理聲學中的聲音掩蔽模型,因而在對信號進行壓縮時引入了大量的量化噪聲。 當重建信號時,每個子帶的量化噪聲被限制在該子帶內,由于每個子帶的信號會對噪聲進行掩蔽,所以子帶內的量化噪聲是可以容忍的。 因為根據人耳的聽覺掩蔽曲線,在解碼后,這些噪聲被有用的聲音信號掩蔽掉了,人耳無法察覺;同時由于子帶分析的運用,各頻帶內的噪聲

22、將被限制在頻帶內,不會對其它頻帶的信號產生影響。因而在編碼時各子帶的量化階數(shù)不同,采用了動態(tài)比特分配技術,這也正是此類技術壓縮效率高的主要原因。在一定的碼率條件下,此類技術可以達到“完全透明”的聲音質量( EBU 音質標準)。       3、子帶編碼的典型應用 MPEG-1 音頻壓縮     在音頻壓縮標準化方面取得巨大成功的是 MPEG-1 數(shù)字音頻壓縮方案。     在 MPEG-1 壓縮中,按復雜程度規(guī)定了三種模式即 MPEG Audio Layer-1 、

23、 Layer-2 和 Layer-3 。目前廣泛使用的 VCD 的音頻壓縮方案為 MPEG Audio Layer-1 ,它的典型的碼流為每通道 192Kbit/S 。 Layer-2 即稱掩蔽模式通用子帶集成編碼與多路復用,典型的碼流為每通道 128 Kbit/S ,廣泛應用于數(shù)字音頻廣播、數(shù)字演播室等數(shù)字音頻專業(yè)的制作、交流、存儲和傳送。我們最熟悉的是 Layer-3 ,也就是常說的 MP3 ,是綜合于層的優(yōu)點提出的混合壓縮技術, MP3 的壓縮比率更大,可以達到 1 10 1 12 的比例,而 MP1 和 MP2 分別只有 1 4 和 1 6 1 8 的壓縮比例。這也就決定了 MP3 格

24、式的文件尺寸更加適合存儲空間小的隨身聽使用。但 MP3 的復雜度相對較高,編碼不利于實時,典型碼流為 64 Kbit/S ,在低碼率下有高品質的音質,所以成為網上音源的寵兒。 MPEG-1 的壓縮技術方案是子帶壓縮,子帶分割的實現(xiàn)是通過時頻映射,采用多相正交分解濾波器組將數(shù)字化的寬帶音頻信號分成 32 個子帶;同時,信號通過 FFT 運算,對信號進行頻譜分析;子帶信號與頻譜同步計算,得出對各子帶的掩蔽特性,由于掩蔽特性的存在,減少了對量化比特率的要求,不同子帶分配不同的量化比特數(shù),但對于各子帶而言,是線性量化。另上 CRC 校驗碼,得到標準的 MPEG 碼流。在解碼端,只要解幀,子帶樣值解碼,最后進行頻時映射還原,最后輸出標準 PCM 碼流。其原理方框圖如圖 1 所示:   &#

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論