![第三講音頻壓縮編碼_圖文_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/a0d2f593-4592-4cb4-a2b1-f575477c12d8/a0d2f593-4592-4cb4-a2b1-f575477c12d81.gif)
![第三講音頻壓縮編碼_圖文_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/a0d2f593-4592-4cb4-a2b1-f575477c12d8/a0d2f593-4592-4cb4-a2b1-f575477c12d82.gif)
![第三講音頻壓縮編碼_圖文_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/a0d2f593-4592-4cb4-a2b1-f575477c12d8/a0d2f593-4592-4cb4-a2b1-f575477c12d83.gif)
![第三講音頻壓縮編碼_圖文_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/a0d2f593-4592-4cb4-a2b1-f575477c12d8/a0d2f593-4592-4cb4-a2b1-f575477c12d84.gif)
![第三講音頻壓縮編碼_圖文_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/14/a0d2f593-4592-4cb4-a2b1-f575477c12d8/a0d2f593-4592-4cb4-a2b1-f575477c12d85.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、 音頻壓縮編碼基本原理MPEG-1 音頻壓縮算法及標準MPEG-2 AudioMPEG-4 AudioAC-3音頻編碼第三講音頻壓縮編碼一、音頻壓縮編碼基本原理1、什么是音頻信號?通常將人耳可以聽到的頻率在20Hz 到20KHz 的聲波稱為聲音信號, 聲音振動被拾音器轉(zhuǎn)換成電信號稱為音頻信號。人的發(fā)音器官發(fā)出的聲音頻段在80Hz 到3400Hz 之間;人說話的信號頻率在300Hz 到3000Hz ,將該頻段的信號稱為語音信號。 一、音頻壓縮編碼基本原理2、音頻壓縮的可能性(1)聲音信號中的“冗余”頻域:非均勻功率密度譜, 低頻能量高, 高頻能量低。時域:信息冗余度主要表現(xiàn)在幅度非均勻分布,即不
2、同幅度的樣值出現(xiàn)的概率不同,小幅度的樣值比大幅度樣值出現(xiàn)的概率高。 一、音頻壓縮編碼基本原理2、音頻壓縮的可能性(2)人耳的聽覺特性,聲音中存在與聽覺無關的“不相關”部分。對于人耳感覺不到的不相關部分不編碼、不傳送,以達到數(shù)據(jù)壓縮的目的。利用了人耳聽覺的心理聲學特性。聲音主觀感受響度、音調(diào)、音色;聲音客觀特性振幅、頻率、頻譜特性; 二、人類聽覺系統(tǒng)的感知特性示例視頻 二、人類聽覺系統(tǒng)的感知特性聽閾頻率曲線兩個聲音響度級相同,但強度不一定相同,還與頻率有關;聲壓級越高,等響度曲線趨于平坦;人耳對34KHz的聲音感覺最靈敏; 人耳的掩蔽效應一個較弱的聲音的聽覺感受被另一個較強的聲音影響的現(xiàn)象稱為人
3、耳的聽覺掩蔽效應。聽不到叫被掩蔽聲,起掩蔽作用的叫掩蔽聲。被掩蔽音單獨存在時的聽閾分貝值,為絕對聽閾。即安靜環(huán)境中能被人耳聽到的純音最小值。也稱靜聽域。頻域掩蔽/時域掩蔽。 掩蔽效應演示Simultaneous masking.mp4 1、頻域掩蔽(純音間的掩蔽)一個強純音會掩蔽在其附近同時發(fā)聲的弱純音,這種特性稱為頻域掩蔽,也稱同時掩蔽。 Effect on threshold for 1 kHz masking toneLi & Drew10頻域掩蔽域隨頻率 變化曲線音調(diào)音的掩蔽閾的寬度隨頻率而變化;掩蔽曲線不對稱,高頻段一側(cè)的曲線斜率緩些; 低頻音容易對高頻音產(chǎn)生掩蔽。 頻域掩蔽
4、域隨聲壓級變化曲線 2、人耳模型How ear works視頻演示 2、人耳模型Cochelar animation演示 2、人耳模型 聲音頻率發(fā)生轉(zhuǎn)換聲波沖擊耳鼓(Eardrum 和連著的耳骨;耳鼓和耳骨將機械振動傳遞給耳蝸(Cochlea )耳蝸薄膜的橢圓窗沿基底膜長度方向引導行波;行波在薄膜的特定頻率感應位置產(chǎn)生峰值響應;薄膜的特定頻率感應位置為特定頻帶提供峰值響應;可以把耳蝸當成一組高度重疊的帶通濾波器 人耳相當于一個濾波器組人類聽覺系統(tǒng)大致等效于一個在0Hz 到20KHz 頻率范圍內(nèi)由25個重疊的帶通濾波器組成的濾波器組。人耳不能區(qū)分同一頻帶內(nèi)同時發(fā)生的不同聲音;人耳頻帶被稱為臨界頻
5、帶(critical band);500Hz 以下每個臨界頻帶的帶寬大約是100Hz ,從500Hz 起,臨界頻帶帶寬線性增加。一個臨界頻帶的帶寬單位為1巴克(bark 。0Hz500Hz20000Hz f 臨界頻帶單位巴克(Bark ) 對于任何掩蔽頻率,巴克被定義為一個臨界頻帶的寬度; 巴克單位的意義: 用巴克來衡量每個臨界頻帶的寬度大致都是相同的。 用巴克單位表示的聲音掩蔽效應 3、臨界頻帶噪聲對純音的掩蔽 3、臨界頻帶噪聲對純音的掩蔽臨界頻帶是指當某個純音被以它為中心頻率、且具有一定帶寬的連續(xù)噪聲所掩蔽時,如果該純音剛好被聽到時的功率等于這一頻帶內(nèi)的噪聲功率,這個帶寬為臨界頻帶寬度。掩
6、蔽效應在一定頻率范圍內(nèi)不隨帶寬增大而改變,直至超過某個頻率值。通常認為從20Hz 到16kHz 有25個臨界頻帶,單位為bark 。1bark =一個臨界頻帶的寬度f< 500Hz 時1bark 約為f/100;f >500Hz 時1bark 約為9+4log2(f/1000); 臨界頻帶(Hz )約為24.7×(4.37F+1F 為中心頻率(KHz )B 臨界頻率(Hz臨界頻率(Hz頻帶低端高端寬度頻帶低端高端寬度0010010013200023203201100200100142320270038022003001001527003150450330040010016
7、315037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280 在時間上相鄰的聲音之間也有掩蔽現(xiàn)象。時域掩蔽又分為超前掩蔽和滯后掩蔽。超前掩蔽很短,只有大約520 ms,而滯后掩蔽可以持續(xù)50200 ms。
8、4、時域掩蔽t后掩蔽前掩蔽同期掩蔽強音時間掩蔽利用基于時間掩蔽效應的編碼策略是,編碼時將時間上相繼的一些樣值歸并成塊,并計算每塊內(nèi)最大樣值的比例因子;據(jù)心理聲學的掩蔽模型,對同一子帶內(nèi)相鄰三個比例因子,可丟棄較小的因子,以減少傳輸比例因子的比特數(shù)。 Effect of temporal and frequency maskingdepending on both time and closeness in frequency.Li & Drew2324 正弦波幅度0值允許的最大正弦波峰值正弦波負峰值位置 圖6 16比特有效位編碼的二進制、十六進制編碼、量化級和相對滿度電平的對應關系基準
9、電平位置SMPTERP155標準基準電平位置數(shù)字峰值表顯示的是準峰值, 因此正弦波基準電平的實際峰值還將高3dB數(shù)字峰值表顯示的是準峰值, 因此如保證正弦波的峰值信號不過載, 儀表應保持不超過-3dBFS 時為宜音頻信號幅度與編碼的關系25 正弦波幅度0值允許的最大正弦波峰值正弦波負峰值位置 圖6 16比特有效位編碼的二進制、十六進制編碼、量化級和相對滿度電平的對應關系基準電平位置SMPTERP155標準基準電平位置數(shù)字峰值表顯示的是準峰值, 因此正弦波基準電平的實際峰值還將高3dB數(shù)字峰值表顯示的是準峰值, 因此如保證正弦波的峰值信號不過載, 儀表應保持不超過-3dBFS 時為宜得到音頻信號
10、幅度與編碼的關系音頻壓縮處理相關的術(shù)語信噪比(SNR=信號峰值噪聲有效值信號掩蔽比(SMR=信號峰值最小掩蔽閾值掩蔽噪聲比(MNR=最小掩蔽閾值量化噪聲MNR (dB =SNR(dBSMR(dB信噪比(SNR=20lgL/N信噪比(SNR=6.02n+1.76N:量化噪聲電平,n:量化比特數(shù)重要結(jié)論:量化比特數(shù)增加1,量化信噪比提高6dB。 5、感知編碼器原理放棄物理上的同一性得到感知上的同一性降低數(shù)據(jù)率 掩蔽的用途q 去除會被掩蔽的信號分量v 因為即使傳輸了也不會被聽見§同聽閾以下的信號部分不能被人耳聽到(稱不相關部分),不必傳送。(去除不相關部分)q 不理會可能被掩蔽的量化噪聲v
11、 因為會被信號淹沒§按同聽閾以上的信號值計算量化比特數(shù),對信號重新量化,使量化噪聲在同聽閾以下即可。Masking curveNoiseSignal Example mm-1m+1 6、音頻信號壓縮編碼方法(1 )波形編碼直接對時域或頻域波形編碼PCM , DPCM, ADPCM ,子帶編碼, 自適應變換編碼(2 )參數(shù)編譯碼器從語音波形信號中提取語音生成模型的參數(shù),使用這些參數(shù)通過語音生成模型重構(gòu)出語音。(3 )混合編碼(4 ) 子帶編碼(sub-band coding,SBC基本思想:使用一組帶通濾波器(band-pass filter,BPF 把輸入音頻信號的頻帶分成若干個連續(xù)
12、的頻段,每個頻段稱為子帶。對每個子帶中的音頻信號采用單獨的編碼方案去編碼。在信道上傳送時,將每個子帶的代碼復合起來。在接收端解碼時,將每個子帶的代碼單獨解碼,然后把它們組合起來,還原出原來的音頻信號。三、子帶編碼1、感知子帶壓縮算法以心理聲學模型為基礎,主要利用了聽覺閾值和聽覺掩蔽特性。 1、感知子帶壓縮算法Ø用多相濾波器組,將寬帶聲音信號分割為多個子頻帶,對各子帶的音頻樣值分別進行壓縮編碼。Ø理想的頻帶的分割應模仿臨界頻帶,各子帶的寬度不一致,隨著頻率的升高,子帶的帶寬也增加。Ø每個子帶內(nèi)根據(jù)信號掩蔽比確定樣值的量化級數(shù),量化噪聲的高度與帶內(nèi)同聽閾值越接近,數(shù)據(jù)
13、率壓縮越充分。Ø子帶越多(越窄),在相同音質(zhì)下編碼所得數(shù)據(jù)率越低;傳輸中的比特差錯僅限制在很窄的子頻帶內(nèi),影響越小。 窄子帶能改善聲音質(zhì)量 2、子帶編碼的好處第一,對每個子帶信號分別進行自適應控制,量化階的大小可以按照每個子帶的能量電平加以調(diào)節(jié)。第二,可根據(jù)每個子帶信號在感覺上的重要性,對每個子帶分配不同的位數(shù),用來表示每個樣本值。例如,在低頻子帶中,為了保護音調(diào)和共振峰的結(jié)構(gòu),就要求用較小的量化階、較多的量化級數(shù),即分配較多的位數(shù)來表示樣本值。而話音中的摩擦音和類似噪聲的聲音,通常出現(xiàn)在高頻子帶中,對它分配較少的位數(shù)。 3、MUSICAM 編碼ØMUSICAM (Mask
14、ing pattern adapted Universal Subband Integrated Coding And Multiplexing掩蔽型自適應通用子帶綜合編碼與復用。編碼將寬帶的音頻信號頻譜分為寬度為750Hz 的32個子帶,利用人耳聽覺的心理聲學現(xiàn)象和音頻信號統(tǒng)計的內(nèi)在聯(lián)系,確定音頻信號中的不相關部分和去除冗余,實現(xiàn)數(shù)據(jù)壓縮。Ø一套CD 立體聲數(shù)據(jù)率為1411.2kbps ,MUSICAM 編碼后數(shù)據(jù)率為2×96kbps ,重放仍有CD 質(zhì)量. 3、MUSICAM 編碼ØMUSICAM 與MPEG-1的Layer II一致;Layer I 是MUS
15、ICAM 的簡化版本;Layer III 是MUSICAM 與ASPEC (自適應譜感知熵編碼)變換編碼的結(jié)合,低比特率時質(zhì)量最好,時域到頻域的濾波器組提供了高頻譜分辨率。在低碼率(64 kbit/s時,ASPEC 表現(xiàn)出更為出色的音質(zhì),而MUSICAM 則在編碼解碼的復雜度和延時上略勝一籌。 MUSICAM編碼器 四、音頻壓縮的國際標準MPEG-1 ISO/IEC11172-31993年標準化MPEG-2 ISO/IEC13818-31994年11月標準化, 是對MPEG1的發(fā)展與擴展ISO/IEC MPEG-2 AAC(ISO/IEC 13818-7 1997年4月公布MPEG-4 ISO
16、/IEC 14496-31999年標準化美國Dolby 實驗室的Dolby (AC-3)1990年提出 MPEG-1 輸入、輸出指標:MPEG 音頻編碼器32kHz, 44.1kHz, 48kHz16位PCM 32kb/s384kb/s層次壓縮率數(shù)據(jù)速率kb/s延遲(ms )14 : 138419/5026:1 8:1192 25635/100310:1 12:1112 12859/150(一)、MPEG-1 音頻壓縮算法(一)、MPEG-1 音頻壓縮算法MPEG-1 Audio層1和層2編解碼器的結(jié)構(gòu) MPEG-1 Audio層11、濾波器組將時域信號變?yōu)?2個等寬子帶。f=(fs/2)/3
17、2=750Hz最低頻的子帶濾波器為低通濾波器,其它為帶通濾波器。窄的子帶能提高壓縮比,改善聲音質(zhì)量. MPEG-1 Audio層12、快速傅利葉變(FFT)作用:為滿足掩蔽閾計算所需的精確的頻譜分析,主要提高低頻率范圍的頻率分辨率,與聽覺特性相適應。FFT 的變換長度N 512,取樣頻率f s 48kHz 時,通過FFT 得到的頻率分辨率為f s/512=93.75Hz 模擬人耳聽覺掩蔽特性的數(shù)學模型。輸入量:FFT 的輸出X(K。任務:計算信號掩蔽比SMR (每8ms 計算1次)。目的:根據(jù)SMR 給各個子帶分配量化級數(shù)。3、心理聲學模型計算步驟:(1確定各子帶的最大聲級L(n(由12個連續(xù)
18、抽樣值的最大者確定 。(2 確定靜聽閾LTg 。(3 確定音頻信號中的音調(diào)(類似正弦信號)成分和非音調(diào)(類似噪聲)成分。(4 抽選掩蔽音,求出相關的掩蔽音。(5 計算相關掩蔽音各自的掩蔽閾(同聽閾 。(6 計算總的掩蔽閾(同聽閾)。(7 確定各子帶中的最小掩蔽閾值(最小同聽閾)LT min (n。(8 計算各子帶的信號掩蔽比SMR(n=L(n-LTmin (n。 信噪比(SNR=信號峰值-噪聲有效值(dB )Ø信號掩蔽比(SMR= 信噪比-掩蔽噪聲比(dB )NMR 4、比例因子(SCF為了提高小信號的量化精度,不丟失小信號,對濾波器組輸出的樣值先進行歸一化(如60dB ,大信號除以大于1的數(shù),小信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025公司與員工解除勞動合同范本
- 2024年春八年級生物下冊 23.1 生物的生存依賴一定的環(huán)境說課稿 (新版)北師大版
- 2025寫字樓租賃合同寫字樓租賃合同模板
- Unit 6 Jobs Lesson 6 story time.(說課稿)-2024-2025學年人教新起點版英語四年級上冊
- 7 《包身工》 說課稿 2024-2025學年統(tǒng)編版高中語文選擇性必修中冊
- Unit5 What do they do(說課稿)-2024-2025學年譯林版(三起)英語五年級上冊
- 西班牙瓦鋪貼施工方案
- 迎春燈飾施工方案
- 20美麗的小興安嶺說課稿-2024-2025學年三年級上冊語文統(tǒng)編版
- 12《富起來到強起來》(說課稿)統(tǒng)編版道德與法治五年級下冊
- 2024年泰州職業(yè)技術(shù)學院高職單招數(shù)學歷年參考題庫含答案解析
- 樓梯 欄桿 欄板(一)22J403-1
- 學生綜合素質(zhì)評定與職業(yè)規(guī)劃的關聯(lián)性分析
- 2025云南省貴金屬新材料控股集團限公司面向高校畢業(yè)生專項招聘144人高頻重點提升(共500題)附帶答案詳解
- 石家莊市長安區(qū)學年三年級數(shù)學第一學期期末檢測試題含解析
- 特殊家長課后溝通技巧培訓
- 【MOOC】數(shù)字攝影技術(shù)與藝術(shù)-西南石油大學 中國大學慕課MOOC答案
- 心內(nèi)科心衰一病一品護理成果匯報
- 2025檢驗檢測中心年度工作總結(jié)及工作計劃
- 2024年總經(jīng)理助理年終工作總結(jié)(3篇)
- 2024年考研英語(二)真題及參考答案
評論
0/150
提交評論