




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、語音與音頻編碼論文Huaqiaouniversity語音鳥音頻編鳴錦程曲題目:MP3編碼原理與實現(xiàn)院(系)信息科學(xué)與工程學(xué)院班級11級通信工程2班學(xué)號1115107007姓名指導(dǎo)老師目錄MP3編碼原理與實現(xiàn)錯誤!未定義書簽。1、摘要32、MP3簡介32.1MP3音頻格式32.2MP3壓縮編碼原理43、人體聽覺心理學(xué)模型53.1 最小聽覺門檻判定53.2 人耳的遮蔽效應(yīng)53.3 人耳的空間響應(yīng)54、VBR技術(shù)65、編碼器工作原理65.1 濾波器段65.2 人體聽覺心理模型75.3 量化與編碼86、總結(jié)與心得97、參考文獻(xiàn)101、摘要:在目前的信息社會,需要應(yīng)用和傳輸大量的語音信息,這些信息中存在
2、著大量的冗余,如果不去除掉這些冗余,在其傳輸和存儲的過程中,將會占用大量的資源,因此,語音壓縮技術(shù)受到了人們的普遍關(guān)注。在此基礎(chǔ)上,對MP3編碼器的基本原理和基本結(jié)構(gòu)進(jìn)行了研究,并對其中幾個關(guān)鍵模塊包括心理聲學(xué)模型,VBR技術(shù)等進(jìn)行了分析,結(jié)果表明MP3要具有良好的編碼質(zhì)量,需要對其算法進(jìn)行改進(jìn)和優(yōu)化。關(guān)鍵詞:MP3編碼器、音頻、算法2、MP3簡介MP3是今天一種常見的音樂格式,但恐怕除了工作要求之外,有興趣對此進(jìn)行研究的人恐怕不多。所以,當(dāng)我打算寫MP3編碼方面的論文時,在找資料時也頗費了一番周折,同時也覺得很有趣。MP3是MPEG-1AudioLayer3的簡稱,是當(dāng)今比較流行的一種數(shù)字音
3、頻編碼和有損壓縮格式(有Layer3,也必然有Layerl和Layer2,也就是MP1和MP2,但不在本文討論范圍之內(nèi))。MP3技術(shù)的應(yīng)該可以用來大幅度的降低音頻文件存儲所需要的空間。它丟掉脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù)中對人類聽覺不重要得數(shù)據(jù),從而達(dá)到了較高的壓縮比(高達(dá)12:1-10:l)o簡單地說,MP3在編碼時先對音頻文件進(jìn)行頻譜分析,然后用過濾器濾掉噪音電平,接著通過量化的方式將剩下的每一位打散排列,最后形成有較高壓縮比的MP3文件,并使壓縮后的文件在回放時也能夠達(dá)到比較接近原音源的效果。MP3的音頻質(zhì)量取決于它的Bitrate和Samplingfrequency,以及編碼器質(zhì)量。M
4、P3的典型速度介于每秒128到320kb之間。采樣頻率也有44.1,48和32kHz三種頻率,比較常見的是采用CD采樣頻率一44.1kHz。常用的編碼器是LAME,它完全遵循LGPL的MP3編碼器,有著良好的速度和音質(zhì)。2.1 MP3音頻格式MP3(MPEGAudioLayerDI)音頻格式誕生于20世紀(jì)80年代,是伴隨著MPEG”而開發(fā)的。在MPEG-1標(biāo)準(zhǔn)中,音頻壓縮標(biāo)準(zhǔn)按復(fù)雜性和壓縮質(zhì)量分為三個獨立層次:(l)MPEGAudioLayerI,它最為簡單,碼流為每通道384kb/s,主要用于數(shù)字卡座(DigitalCompactCassette,DCC)。(2)MPEGAudioLayer
5、D,它具有中等復(fù)雜度,碼流為每通道192kb/s,主要用于數(shù)字音頻廣播、數(shù)字演播室和VCD等方面數(shù)字音頻的制作、交流、存儲和傳送。(3)MPEGAudioLayerHI,它最為復(fù)雜,是綜合了MPEGAudioLayerII和ASPEC優(yōu)點的一種血合壓縮技術(shù),其音頻質(zhì)量最好,主要用于MP3音凝壓縮,碼流為每通道64kb/s0MP3編碼雖不適用于實時傳送,但能在低編碼速率下提供較高的音質(zhì),所以成為網(wǎng)上音樂的寵兒。2.2 MP3壓縮編碼原理音頻壓縮由編碼和解碼兩個部分組成。把波形文件里的數(shù)字音頻數(shù)據(jù)轉(zhuǎn)換為高度壓縮的形式(稱為比特流)即為編碼;要解碼則把比特流重建為波形文件。在MPEG”的音頻壓縮中,
6、采樣頻率可為32kHz、44.1kHz和48kHz,可支持單聲道(Monophonic)、雙單聲道(DualNIonophonic)、立體聲模式(StereoMode)、聯(lián)合立體聲(JohitStereo)等。常見的MP3大多采用聯(lián)合立體聲模式。音頻壓縮可以分為無損(lossless)壓縮和有損壓縮。無損壓縮就是盡量降低音頻數(shù)據(jù)的冗余度,以減小其體積音頻信號經(jīng)過編碼和解碼之后,必須要和原來的信號一致。無損壓縮的壓縮率是比較有限的;有損壓縮就是用盡一切手段,包括無損壓縮用到的方法,丟掉一切能丟掉的數(shù)據(jù),以減小體積。而音頻壓縮后解碼聽起來起碼是要跟原來差不多的,有損壓縮的壓縮比能大幅提高,MP3就
7、是屬于有損壓縮,壓縮比是12:l(128kbps)0實驗表明,人類能聽到的聲音頻率范圍(音頻)是20Hz20kHz,但人耳對整個音頻頻段聲音的反應(yīng)不是平直的,25kHz是人耳最靈敏的頻段。依其特性將整個音頻頻段分成多個臨界頻帶,因為人類聽覺系統(tǒng)是依據(jù)頻率來分辨聲音能量的,任何頻率的細(xì)小聲音都會因掩蔽效應(yīng)而被臨界頻帶內(nèi)音量較高的聲音所覆蓋。MP3對其不作量化處理,從而去掉那些人類聽覺系統(tǒng)所無法察覺的聲音,達(dá)到壓縮的目的。MP3文件是由幀(frame)構(gòu)成的,幀是MP3文件最小的組成單位。什么是幀?還記得最初的動畫是怎么做的嗎?不同的連續(xù)畫面切換以達(dá)到動態(tài)效果,每幅畫面就是一個“幀”,不同的是MP
8、3里面的幀記錄的是音頻數(shù)據(jù)而不是圖形數(shù)據(jù)。MP3的幀速度大概是30幀/秒。每個幀又由幀頭和幀數(shù)據(jù)組成,幀頭記錄著該幀的基本信息,包括位率索引和采樣率索引(這對理解ABR和VBR編碼方式很重要)。幀數(shù)據(jù),顧名思義就是記錄著主體音頻數(shù)據(jù)。上面說的都是MP3編碼的基礎(chǔ),但事實上,早期的編碼器都非常不完善,壓縮算法近于粗暴,音質(zhì)很不理想。MP3的音質(zhì)達(dá)到現(xiàn)在的水平有兩次飛躍:人體聽覺心理學(xué)模型(PerceptualModel)的導(dǎo)入和VBR技術(shù)的應(yīng)用。3、人體聽覺心理學(xué)模型下面將簡要介紹一下幾個重要原理:3.1最小聽覺門檻判定(Theminimalauditionthreshold)人耳的聽力范圍是2
9、0Hz-20kHz的頻率范圍,但是人耳對不同的頻率聲音的靈敏度是不同的,不同頻率的聲音要達(dá)到能被人耳聽到的水平所需要的強度是不一樣。那么通過計算,可以把音樂文件中存在但不能被人耳聽到的聲音去掉。通過這原理,我們還可以建立模型,把大部分?jǐn)?shù)據(jù)空間分配到人耳最靈敏的2kHz到5kHz范圍,其余頻率分配比較少的空間;3. 2人耳的遮蔽效應(yīng)(TheMaskingeffect)蔽效應(yīng)表現(xiàn)在強信號會遮蔽鄰近頻率的弱信號。用生活經(jīng)驗來說,在安靜的房間中,一根針掉到地上都能聽見,可到了大街上,就算手機音量調(diào)到最大,來電時也未必能聽見,而手機的聲音確確實實是存在的,原因就是被周圍更大的聲音遮蔽了。有了對遮蔽效應(yīng)的
10、研究成果,編碼器就能根據(jù)己建立的數(shù)學(xué)模型,計算強信號對附近弱信號的遮蔽,把能引起人們注意的聲音才保留。人耳還有前遮蔽效應(yīng)和后遮蔽效應(yīng):因為人需要一定的時間來處理聲音信號,在強信號之前或之后的弱信號,會被遮蔽掉。前遮蔽效應(yīng)的時間約只有2-5ms,而后遮蔽的時間比較長,大約有100ms。利用這,我們能減小強信號之前和之后的分辨率;3.3人耳的空間響應(yīng):人耳對某些高頻的聲音的空間感很差,辨別不了聲源的方向。聯(lián)合立體聲(JointStere。)應(yīng)運而生:在某些頻率上采用“單聲道”(事實上并非真正意義上的單聲道),以減小流量。4、VBR技術(shù)正如上面所說,MP3是由幀構(gòu)成的,MP3能象動畫那樣讀到哪放到哪
11、,播放器不必預(yù)讀整個文件的內(nèi)容,即使部分?jǐn)?shù)據(jù)損壞也不會對播放效果有太大影響(實際上這就是流媒體所具有的特性)。而每個幀的幀頭里都包含這該幀的碼率(bitrate,單位是kbps)等信息,所以,我們可以對每一段音樂甚至每一個幀定義獨立的碼率,這就是VBR(Variablebitrate,動態(tài)碼率)技術(shù)。與VBR向?qū)?yīng)的是CBR(Constantbitrate)。一支交響曲,合奏大動態(tài)部分的數(shù)據(jù)量顯然大于引子部分,如果用128kbps的CBR編碼方式來編碼,在引子部分可能有多余的數(shù)據(jù)流量,而在合奏部分卻又不夠,VBR就是解決這個問題的。把在不影響音質(zhì)的情況下,對流量需求小的部分分配較小的碼率,把冗
12、余字節(jié)緩存起來留給有需要的部分,在短時間內(nèi)提供更高的碼率,以保證音樂的質(zhì)量。所以說,VBR的作用是更合理的分配流量,在不增大文件體積的條件下提高聲音的質(zhì)量。不過VBR在應(yīng)用初期帶給過MP3隨生聽不少麻煩。因為早期大多數(shù)MP3播放器都是針對CBR設(shè)計的,其根據(jù)文件大小來獲得時長的算法對VBR失效了,因為VBRMP3的bitrate可能每時每刻都在變化。不過現(xiàn)在這個問題基本上不用擔(dān)心了,市場上的播放器基本上都解決這問題了。除了上面說的兩方面,MP3編碼還有很重要的一招:Huffman編碼(Huffman是個科學(xué)家的名字),Huffman編碼廣泛應(yīng)用于無損壓縮領(lǐng)域,比如我們常用的WINZIP,WIN
13、RAR等壓縮軟件就是以此為基礎(chǔ)的(只能說是基礎(chǔ),因為這些用到的編碼方法不只是Huffman編碼Huffman編碼用途就是降低數(shù)據(jù)的冗余度,可節(jié)省大約20%的空間。用WINZIP來再壓縮MP3文件每什么效果就因為MP3編碼的時候已經(jīng)應(yīng)用到采用Huffman編碼。5、編碼器工作原理5.1 濾波器段(filterbank)數(shù)字音頻信號以脈沖的形式送進(jìn)編碼器,首先會經(jīng)過一濾波器段(filterbank),它由兩個串聯(lián)的濾波器段組成:一個多相分析濾波器段和一個MDCT(ModifiedDiscreteCosineTransform,經(jīng)改良的離散余弦轉(zhuǎn)換),前者也應(yīng)用到layer-1和layer-2中,后
14、者是MP3獨有的。輸入的音頻信號在20Hz-20kHz的頻率范圍內(nèi),通過第一個濾波器段后,把信號按頻率分成32個小頻帶,稱為子帶(Subband)。20000Hz/32=625Hz,那么每個子帶的寬度就是625Hz。人耳對不同頻段的靈敏度是不同的,編碼器可對不同的子帶進(jìn)行不同的量化分層。不過等寬的子帶并沒有準(zhǔn)確反映人耳的聽覺特性,這樣進(jìn)行等寬劃分并沒有考慮到不同信號的臨界寬度,也就是該信號的影響范圍,以及不同信號的相互影響,所以這樣會產(chǎn)生大量的信號重疊。MDCT轉(zhuǎn)換就是為了解決這問題,它能對子帶進(jìn)行細(xì)分,清楚重疊部分,得到更高的頻譜解析度。5. 2人體聽覺心理學(xué)模型(PerceptualMod
15、el)上面已經(jīng)談到過人體聽覺心理學(xué)模型,心理學(xué)模型可以說是感受編碼的重中之中,它決定著編碼器的編碼質(zhì)量(后面談到的LAME就擁有著大量優(yōu)秀的人體精神聽覺模型和數(shù)學(xué)模型)。下面將深入分析兩個重要原理:最小聽覺門檻判定和遮蔽效應(yīng)。最小聽覺門檻判定聲音其實是傳播在介質(zhì)中的能量波,人耳對聲音能量強弱的直接感受就是聽到音量的大小,也就是響度,單位是分貝(dB)。下面是人耳可聽最小響度曲線:響族dB11310D9080706953403029100a。%4二,1.n/*.9ij0.020Q4C.10.20,412461020頻率(kHz)OdB是聽覺靈敏度的極限,而120dB是痛苦靈敏度的極限。人耳在20
16、00Hz到5000Hz范圍內(nèi)的靈敏度最高,兩端就迅速下降。所以人耳對中頻的靈敏度遠(yuǎn)高于高低頻。遮蔽效應(yīng)不同頻率的聲音有不同的遮蔽寬度,這叫臨界寬度??梢韵胂?,弱信號越接近強信號的中心,遮蔽效應(yīng)會越嚴(yán)重。臨界寬度跟聲音頻率成正比。下面是臨界寬度列表:頻率(Hz)臨界帶寬(Hz)頻率(Hz)臨界帶寬(Hz)5080185028015010021503203501002500380450110340055057012040007007001404800900840150580011001000160700013001170190850018001370210105002500160024013500
17、3500感受編碼機制可以分為兩個部分:知覺噪音成型(perceptualnoiseshaping)和知覺邊帶/變換編碼(perceptualsubband/transformcoding)o編碼器通過分析濾波器段(filterbank)分析音頻信號的頻譜組成并應(yīng)用聽覺心理學(xué)模型來估計僅僅可以注意得到的噪音電平。在后面的量化和編碼階段,編碼器會提高強信號附近的噪音電平,也就是減少量化位數(shù),這樣就能達(dá)到節(jié)省流量,壓縮數(shù)據(jù)的目的。如果所有量化噪音都能控制在屏蔽臨界曲線以下,那么處理后人耳就區(qū)別不出哪個才是原音。5. 3量化和編碼(QuantizationandCoding)當(dāng)PCM訊號被分成好幾個頻
18、段并經(jīng)過一系列的處理后,最后經(jīng)過MDCT,將波型轉(zhuǎn)換為一連串的系數(shù)。這些系數(shù)就由Huffman編碼器會選擇最合適的Huffman表來做最后的壓縮。Huffman編碼一般是雙路工作的,但是在某些需要精密編碼的情況下,它會進(jìn)行四路工作。編碼器一般會有很多的Huffman編碼表,很多時候為了更好的聲音質(zhì)量和更有效屏蔽量化噪音,編碼器甚至能為每一個頻段選擇最合適的Huffman編碼表。不過編碼不是一次就能成功的,要采取TryandError的方式循環(huán)進(jìn)行。因為編碼器一方面要削減量化噪音,讓它在人耳遮蔽曲線以下;另一方面要保證bitrate滿足要求。實際上這里就是要確定兩個數(shù)值:一個是確定bitrate
19、的步進(jìn)值(gainvalue),另一個是削減量化噪音的增益因子(ScaleFactor),這兩個系數(shù)會在正式編碼之前確定下來,確定過程由兩個嵌套的迭代回路完成:失真控制回路(DistortionControlLoop)和量化速率控制回路(NonuniformQuantizationRateControlLoop)內(nèi)部迭代回路(RateLoop)量化以后的數(shù)據(jù)送進(jìn)Huffman編碼器,當(dāng)發(fā)現(xiàn)比特數(shù)大于可用流量時,編碼器會返回信息,讓RateLoop調(diào)整步進(jìn)值以增大量化步長,從而讓數(shù)據(jù)流量減小。循環(huán)會一直進(jìn)行,嘗試不同的量化步長,直到Huffman編碼以后的數(shù)據(jù)流量足夠小。因為這個回路是用來控制碼率的,所以叫做RateLoopo外部迭代回路(noisecontrolloop)顯然,這個回路的作用就是控制量化噪音(quantizationnoise),讓其保持在聽覺心理學(xué)提供的屏蔽臨界線(maskingthreshold)以下。每一個頻段都會有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西安外事學(xué)院《文明對話與世界視野》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江省安吉縣上墅私立高級中學(xué)2025屆招生全國統(tǒng)一考試高考模擬調(diào)研卷歷史試題(三)含解析
- 2025年河南省洛陽市五校聯(lián)考初三第一次聯(lián)合階段檢測試題生物試題試卷含解析
- 2025年湖南省邵陽市五四中學(xué)初三下學(xué)期期末目標(biāo)檢測試題生物試題含解析
- 2024四川長虹民生物流股份有限公司招聘軟件開發(fā)工程師崗位擬錄用人員筆試參考題庫附帶答案詳解
- 陜西省西安市西電附中重點名校2024-2025學(xué)年初三下學(xué)期第三次考試英語試題試卷含答案
- 湖南中醫(yī)藥大學(xué)湘杏學(xué)院《幼兒心理輔導(dǎo)》2023-2024學(xué)年第二學(xué)期期末試卷
- 吉林工業(yè)職業(yè)技術(shù)學(xué)院《綜合英語IV》2023-2024學(xué)年第二學(xué)期期末試卷
- 云南省楚雄市古城中學(xué)2025年高三下學(xué)期第四次月考生物試題試卷含解析
- 長沙民政職業(yè)技術(shù)學(xué)院《高層建筑結(jié)構(gòu)4》2023-2024學(xué)年第二學(xué)期期末試卷
- 泰國落地簽證申請表
- 神經(jīng)內(nèi)科住院醫(yī)師規(guī)范化培訓(xùn)結(jié)業(yè)實踐技能考核指導(dǎo)標(biāo)準(zhǔn)
- GB/T 26081-2022排水工程用球墨鑄鐵管、管件和附件
- GB/T 36362-2018LED應(yīng)用產(chǎn)品可靠性試驗的點估計和區(qū)間估計(指數(shù)分布)
- GA/T 1356-2018國家標(biāo)準(zhǔn)GB/T 25724-2017符合性測試規(guī)范
- 2022年“科技素養(yǎng)提升行動”知識競賽考試題庫700題(含各題型)
- 2022郵儲銀行綜合柜員(中級)理論考試題庫大全-上(單選、多選題)
- 【經(jīng)典】銷售就是玩轉(zhuǎn)情商課件
- 如何進(jìn)行社會調(diào)查研究課件
- 運動特質(zhì)自信量表
- 兒童神經(jīng)系統(tǒng)結(jié)構(gòu)功能及發(fā)育和課件
評論
0/150
提交評論