第二講 音頻處理技術(shù)基礎(chǔ)_第1頁
第二講 音頻處理技術(shù)基礎(chǔ)_第2頁
第二講 音頻處理技術(shù)基礎(chǔ)_第3頁
第二講 音頻處理技術(shù)基礎(chǔ)_第4頁
第二講 音頻處理技術(shù)基礎(chǔ)_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

音頻處理技術(shù)1.2多媒體特性與關(guān)鍵技術(shù)聲學(xué)基本知識物理學(xué)意義上的聲音心理學(xué)與生理學(xué)意義上的聲音聲音信號的數(shù)字化過程采樣量化數(shù)據(jù)壓縮算法簡介相關(guān)標(biāo)準(zhǔn)簡介音頻文件格式音頻處理軟件1.1物理學(xué)意義上的聲音聲音的本質(zhì)聲音是由于物體的振動(dòng)產(chǎn)生的機(jī)械波1.1物理學(xué)意義上的聲音聲音的頻率20Hz——20kHz:聲波(人耳可聞)20kHz以上:超聲波20Hz以下:次聲波聲音的強(qiáng)度:與聲波的振幅成正比聲波在單位時(shí)間內(nèi)作用在與其傳遞方向垂直的單位面積上的能量聲音的種類純音:振幅和頻率均為常數(shù)的聲音復(fù)音:多種不同頻率和振幅的混合聲音基音:復(fù)印中頻率最低的聲音,復(fù)音的基調(diào)泛音、諧音:其他頻率聲音的統(tǒng)稱噪音:多頻率、多強(qiáng)度的無規(guī)律聲音頻率振幅頻率振幅純音復(fù)音基音泛音/諧音1.1物理學(xué)意義上的聲音聲音強(qiáng)度的計(jì)量聲強(qiáng)(物理學(xué)上常用)聲強(qiáng)是指單位時(shí)間(1秒鐘)內(nèi)聲音通過垂直于聲音傳播方向單位面積(cm2)的聲能量。聲壓(聽覺生理學(xué)上常用)聲音在空氣中傳播而改變了空氣原來的恒定靜壓力,導(dǎo)致了原有靜壓力的微小增加。1.1物理學(xué)意義上的聲音這兩種1.2生理及心理學(xué)意義上的聲音人耳聽到的聲音≠自然界的聲音聽域(AuditoryArea):人耳可聞的聲音范圍頻率范圍:20Hz-20kHz強(qiáng)度范圍:可用聲壓、聲壓級、聲強(qiáng)、聲強(qiáng)級表示聽閾(AuditoryThreshold):人耳可聞的最小強(qiáng)度痛閾:引起人耳疼痛的最小強(qiáng)度聲強(qiáng)與響度的關(guān)系聲強(qiáng):聲音強(qiáng)度的客觀度量(概念與度量前面已述)響度:聲音強(qiáng)度的主觀感受響度:聲音強(qiáng)度的主觀感受響度與聲強(qiáng)不是線性關(guān)系聲音能量(強(qiáng)度)增加近4倍,主觀感覺響度增加1倍響度與聲音能量是一種近似對數(shù)關(guān)系響度與頻率有關(guān):1000~4000Hz的聲音人耳聽起來最響響度的單位為宋(sone)頻率1000Hz,強(qiáng)度為聽閾以上40dB(感覺級)的純音所產(chǎn)生的響度為1sone。絕對聽覺閾限指一個(gè)人在沒有噪聲的環(huán)境下,能夠產(chǎn)生聽覺,感知到一個(gè)純音信號(某各頻率點(diǎn))的最小能量幅度。通常絕對聽覺門限用聲壓級表示(dB)人耳的等響度曲線音調(diào):聲音頻率的主觀感受音調(diào)的高低與頻率的高低一致頻率不變,強(qiáng)度的變化對音調(diào)稍有影響。強(qiáng)度增大時(shí),低頻率音調(diào)顯得更低,而高頻率音調(diào)顯得更高。音色:人耳對復(fù)合音中各種諧音成分總和的主觀印象人耳通過音色區(qū)分不同的樂器,如:基音為100Hz的鋼琴聲與基音100Hz的黑管聲音的

基音頻率相同鋼琴有15個(gè)泛音(諧音)黑管有10個(gè)泛音(諧音)聲音的掩蔽效應(yīng)當(dāng)兩個(gè)響度不等的聲音作用于人耳時(shí),響度較高的頻率成分的存在會影響到對響度較低的頻率成分的感知同時(shí)掩蔽(頻域掩蔽)掩蔽聲音與被掩蔽聲音同時(shí)出現(xiàn)當(dāng)兩個(gè)或更多的音頻信號到達(dá)人內(nèi)耳時(shí),掩蔽聲與被掩蔽聲同時(shí)作用發(fā)生掩蔽效應(yīng),就稱同時(shí)掩蔽。即在一個(gè)臨界頻帶內(nèi),一個(gè)大的信號可以掩蔽掉若干小的信號,無論這個(gè)信號是音調(diào)還是噪音。25個(gè)臨界頻帶臨界頻帶頻率(Hz)臨界頻帶頻率(Hz)低端高端寬度低端高端寬度0010010013200023203201100200100142320270038022003001001527003150450330040010016315037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280

異時(shí)掩蔽(時(shí)域掩蔽)掩蔽聲音與被掩蔽聲音不同時(shí)出現(xiàn)一個(gè)強(qiáng)音頻信號可以掩蔽到之前若干時(shí)間和之后若干時(shí)間的音頻信號的感知,即導(dǎo)前掩蔽或滯后掩蔽對之前音頻信號的掩蔽效應(yīng)衰減的很快,大概只能掩蔽到幾毫秒對之后音頻信號的掩蔽可以持續(xù)到最長200ms的時(shí)間。2.聲音信號的數(shù)字化過程從聲波到數(shù)字音頻文件的過程拾音放大A/D轉(zhuǎn)換(模數(shù)轉(zhuǎn)換)采樣量化編碼聲—電模擬信號模擬信號—數(shù)字信號—二進(jìn)制數(shù)據(jù)采樣與量化:模數(shù)轉(zhuǎn)換的核心采樣(Sampling)采樣:把模擬信號在時(shí)間域上以固定的時(shí)間間隔對波形的值進(jìn)行抽取,再用若干位二進(jìn)制數(shù)表示采樣周期:兩個(gè)取樣點(diǎn)之間的間隔稱為采樣頻率:采樣周期的倒數(shù)采樣定理:當(dāng)采樣頻率大于信號最高頻率的兩倍時(shí),在采樣過程中就不會丟失信息,能不失真地還原出原始的聲音信號

若超過此取樣頻率,就會包含冗余的信息

若低于此頻率,則將產(chǎn)生不同程度的失真對于音頻,最常用的采樣頻率有三種:44.1KHz22.05KHz11.025KHz哪種采樣頻率產(chǎn)生的數(shù)字音頻音質(zhì)最佳?Why?聲道數(shù):聲音通道的個(gè)數(shù),指一次采樣的聲音波形個(gè)數(shù)。

單聲道一次采樣一個(gè)聲音波形

雙聲道一次采樣兩個(gè)聲音波形,又稱為“立體聲”。量化(Quantity)量化的目的是將采樣后的信號波形的幅度值(樣本)進(jìn)行離散化處理,樣本從模擬量轉(zhuǎn)化成了數(shù)字量。量化位數(shù)(量化級):用于表示幅度值(樣本)的二進(jìn)制位數(shù)

量化位數(shù)越多,所得到的量化值越接近原始波形的采樣值。一個(gè)量化器就是將整個(gè)信號的幅度值分成若干個(gè)有限的區(qū)間,并且把落入同一個(gè)區(qū)間的樣本點(diǎn)都用同一個(gè)幅度值來表示,這個(gè)幅度值稱為量化值。均勻量化非均勻量化數(shù)據(jù)率的概念數(shù)據(jù)率(比特率):

一秒鐘的數(shù)字音頻信號所需的二進(jìn)制位數(shù)單位:bps(bitspersecond位每秒)計(jì)算公式:采樣率×采樣位數(shù)×聲道數(shù)例如:44.1KHz、16bit的立體聲數(shù)字音頻信號的數(shù)據(jù)率

44.1k*16b*2=1411.2kbps這就是CD音頻的數(shù)據(jù)率如果不進(jìn)行任何編碼和壓縮,

則產(chǎn)生的聲音文件體積會非常大,不利于存儲和傳輸減小音頻文件大小的思路1.降低采樣頻率和量化位數(shù)——降低音質(zhì)2.數(shù)據(jù)壓縮(編碼)無損壓縮算法減少數(shù)據(jù)量,但不減少信息量典型實(shí)例:哈夫曼編碼、Winrar有損壓縮算法原理:有選擇地舍棄一些信息,如人類不敏感信息典型實(shí)例:PCM編碼(WAV)、MPEG編碼(MP3)數(shù)據(jù)壓縮算法常用音頻編碼標(biāo)準(zhǔn)編碼方法算法名稱數(shù)據(jù)率標(biāo)準(zhǔn)應(yīng)用質(zhì)量波形編碼PCM均勻量化

公共網(wǎng)ISDN配音4.0~4.5μ(A)μ(A)64kbpsG.711APCM自適應(yīng)量化

DPCM差值量化ADPCM自適應(yīng)差值量化32kbpsG.721SB—

ADPCM子帶—自適應(yīng)差值量化64kbpsG.7225.3kbps6.3kbpsG.723參數(shù)編碼LPC線性預(yù)測編碼2.4kbps

保密話聲2.5~3.5混合編碼CELPC碼激勵(lì)LPC4.6kbps

移動(dòng)通信3.7~4.0VSELP矢量和激勵(lì)LPC8kbps

語音通信RPE-LTP長時(shí)預(yù)測規(guī)則碼激勵(lì)13.2kbps

ISDNLD-CELP低延時(shí)碼激勵(lì)LPC16kbpsG.728G.729

MPEG多自帶感知編碼128kbps

CD5.0

AC-3感知編碼

音響5.0編碼(壓縮)的效果CD音質(zhì)的音頻未編碼(壓縮):1411.2kbps經(jīng)MPEG-Layer3算法壓縮后(mp3格式):128kbps1分鐘的原始CD音頻文件大?。?0.34MB1分鐘的接近CD音質(zhì)的MP3文件:0.96MB衡量音質(zhì)的指標(biāo)采樣頻率量化位數(shù)(量化級)例如:CD音質(zhì):44.1kHz16bitDVD-Audio音質(zhì):192kHz24bit(目前最高音質(zhì))衡量編碼算法(壓縮效率)的指標(biāo)同等音質(zhì)(采樣頻率、量化位數(shù)、聲道數(shù))下的

數(shù)據(jù)率。典型音頻編碼簡介PCM(PulsePulseCodeModulation脈沖代碼調(diào)制編碼)原理:直接存儲采樣量化后的數(shù)據(jù)特點(diǎn):沒有編碼的編碼

數(shù)據(jù)量大、無失真代表文件格式:wav文件PCM的實(shí)際應(yīng)用形式:加入了壓縮算法A律PCM:我國和歐洲采用μ律PCM:日本和北美采用標(biāo)準(zhǔn)制定組織:CCITT(CommitteeConsultationInternationalTechnicandTelegraph)國際電報(bào)電話咨詢委員會標(biāo)準(zhǔn)名稱:G.711MPEG1(MovingPictureExpertsGroup)音頻編碼特點(diǎn):根據(jù)人的聽覺特性進(jìn)行編碼

有損壓縮

音質(zhì)較好,文件體積較小

三種層次的編碼系統(tǒng),可根據(jù)需要選用

層次越高,性能越好編碼層次MPEG-Layer1MPEG-Layer2MPEG-Layer3代表文件格式:mp3標(biāo)準(zhǔn)制定組織:ISO(InternationalStandardOrganization)

國際標(biāo)準(zhǔn)化組織IEC(InternationalElectroTechnicalCommission)

國際電工委員會標(biāo)準(zhǔn)名稱:ISO/IEC11172-3(MPEG-音頻)AC音頻編碼AC-1應(yīng)用的編碼技術(shù)是自適應(yīng)增量調(diào)制20kHz寬帶立體聲音頻信號編碼后的數(shù)據(jù)率為512kb/sAC-1曾在衛(wèi)星電視和調(diào)頻廣播上得到廣泛應(yīng)用。1990年DOLBY實(shí)驗(yàn)室推出了立體聲編碼標(biāo)準(zhǔn)AC-2比特率(數(shù)據(jù)率)降至256kb/s以下AC-2被應(yīng)用在PC聲卡和綜合業(yè)務(wù)數(shù)字網(wǎng)等方面。AC-3音頻編碼標(biāo)準(zhǔn)的起源是DOLBYAC-1。AC-31994年,日本先鋒公司宣布與美國杜比實(shí)驗(yàn)室合作研制成功一種嶄新的環(huán)繞聲制式,并命名為“杜比AC-3”(DolbySurroundAudioCoding-3)。1997年初,杜比實(shí)驗(yàn)室正式將“杜比AC-3環(huán)繞聲”改為“杜比數(shù)碼環(huán)繞聲”(DolbySurroundDigital),我們常稱為DolbyDigital。杜比AC-3提供的環(huán)繞聲系統(tǒng)由5個(gè)全頻域聲道和1個(gè)超低音聲道組成,被稱為5.1聲道。6個(gè)聲道的信息在制作和還原過程中全部數(shù)字化,信息損失很少,是一種高音質(zhì)音頻標(biāo)準(zhǔn)。DVD中的音頻編碼采用AC-3標(biāo)準(zhǔn)播放AC-3格式的音頻文件,需要安裝解碼插件

如:AC-3Filter3音頻文件格式波形格式WAVWAV是MicrosoftWindows本身提供的音頻格式,用.wav作為擴(kuò)展名,其文件格式稱為波形文件格式(WAVEFileFormat)WAV格式是一種文件格式,而非一種編碼文件格式:文件數(shù)據(jù)的組織結(jié)構(gòu)編碼:編碼(壓縮)算法比如:書信是一種文件格式,英語是一種編碼。WAV格式可以支持多種音頻編碼基于PCM編碼的WAV格式是應(yīng)用最廣泛的音頻文件格式,所有音頻播放、編輯軟件都支持。WAV是一種RIFF文件格式RIFF(ResourceInterchangeFileFormat)在Windows環(huán)境下,大部分多媒體文件都遵循RIFF結(jié)構(gòu)來存放信息,RIFF可以看做是一種樹狀結(jié)構(gòu),其基本構(gòu)成單位為Chunk,就像樹形結(jié)構(gòu)中的節(jié)點(diǎn),每個(gè)Chunk由辨別碼、數(shù)據(jù)長度及數(shù)據(jù)組成。記錄采樣頻率、

采樣位數(shù)等參數(shù)記錄聲音數(shù)據(jù)WAV格式的特點(diǎn)通用性極強(qiáng)(基于PCM編碼的)一般音質(zhì)較好(基于PCM編碼的)占用存儲空間較大音頻素材與中間處理結(jié)果的最佳格式MIDI格式MIDI(MusicalInstrumentDigitalInterface)的首寫字母組合詞,可譯成“電子樂器數(shù)字接口”。用于在音樂合成器(MusicSynthesizers)、樂器(MusicalInstruments)和計(jì)算機(jī)之間交換音樂信息、播放和錄制音樂的一種標(biāo)準(zhǔn)協(xié)議。MIDI標(biāo)準(zhǔn)確定了將計(jì)算機(jī)與電聲樂器、錄音設(shè)備連接起來所需的電纜線、硬件及通信協(xié)議。MIDI可用于基于計(jì)算機(jī)的作曲和電子音樂合成制作MP3格式MP3文件格式TAG_V2(ID3V2)+Frame+TAG_V1(ID3V1)ID3V1:存放歌曲的描述信息

歌名、作者、專輯名、年份、附注、音樂類別

位于文件尾

mp3播放器軟件廣泛支持ID3V2:對ID3V1的擴(kuò)展

可存放更多描述信息如專輯封面圖等

位于文件頭

軟件支持有限Frame:一系列的幀,存放音頻編碼信息Frame:一系列的幀,存放音頻編碼信息幀的個(gè)數(shù)由文件大小和幀長決定每個(gè)FRAME的長度可能不固定,也可能固定,

由數(shù)據(jù)率bitrate決定恒定數(shù)據(jù)率(CBR):96kbps、128kbps、192kbps變化數(shù)據(jù)率(VBR):針對歌曲不同的部分采用不同的數(shù)據(jù)率,用以節(jié)省存儲空間。數(shù)據(jù)率越高,音質(zhì)越好每個(gè)FRAME

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論