




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多媒體技術(shù)基礎(chǔ)與實(shí)驗(yàn)教程第一頁(yè),共四十三頁(yè),2022年,8月28日第三章目錄3.1數(shù)字音頻基本原理
3.1.1人類聽覺特性
3.1.2數(shù)字音頻
3.1.3聲音
3.1.4語音3.2常用音頻編碼算法和標(biāo)準(zhǔn)
3.2.1音頻信號(hào)編碼基礎(chǔ)
3.2.2常用音頻編碼標(biāo)準(zhǔn)
3.2.3國(guó)際音頻標(biāo)準(zhǔn)化組織簡(jiǎn)介3.3音頻文件格式
3.3.1波形格式
3.3.2MIDI格式
3.3.3MP3壓縮格式
3.3.4流式音頻格式3.4音頻處理工具Audition3.4.1功能概述
3.4.2編輯環(huán)境
3.4.3基本操作第二頁(yè),共四十三頁(yè),2022年,8月28日3.1數(shù)字音頻基本原理
3.1.1人類聽覺特性
聽閾與聽域
聲壓是聲音在空氣中傳播而改變了空氣原來的恒定靜壓力,導(dǎo)致了原有靜壓力的微小增加。聲壓級(jí)為某一點(diǎn)的聲壓與參考聲壓的比值取常用對(duì)數(shù)后再乘以20的值,單位是分貝,即dB,是反映聲音大小、強(qiáng)弱的最基本參量。聽閾(AuditoryThreshold)就是指人能聽到的最低聲壓級(jí)(SoundPowerLevel,SPL)。純音的聽閾與頻率有關(guān):1kHz純音的聽閾約為4dB,10kHz時(shí)聽閾約為15dB,到40kHz時(shí)達(dá)到50dB左右。聽域(AudibleArea)是指人能感知的聲音的范圍,正常人耳能夠感知的頻率范圍大致是20Hz~20kHz;正常人能感知聲音的聲壓級(jí)范圍是0~128dB,這里基準(zhǔn)聲壓級(jí)(0dBSPL)的定義是10-16W/cm2。聲強(qiáng)是指單位時(shí)間(1秒鐘)內(nèi)聲音通過垂直于聲音傳播方向單位面積(cm2)的聲能量。
第三頁(yè),共四十三頁(yè),2022年,8月28日聽域—頻率曲線在“聽閾-頻率”曲線和“痛閾-頻率”曲線之間的區(qū)域就是人耳的聽覺范圍。第四頁(yè),共四十三頁(yè),2022年,8月28日音調(diào)
音調(diào)(Pitch)是指人耳對(duì)不同頻率聲音的一種主觀感受。人們定義一個(gè)高于聽閾40dB、頻率為1kHz的純音的音調(diào)為1000Mel,這里Mel是音調(diào)的度量單位。
響度和響度級(jí)
響度(Loudness)是人耳感受聲音強(qiáng)弱的主觀感覺程度,這種感覺與音強(qiáng)、頻率和波形都有關(guān)系,其度量單位為Sone,定義一個(gè)高于聽閾40dB、頻率為1kHz的純音的響度為1Sone。響度級(jí)(LoudnessLevel)是指某響度與基準(zhǔn)響度相比的等級(jí),其度量單位為Phon,定義1kHz純音的聲強(qiáng)級(jí)為1Phon。響度和響度級(jí)L之間滿足以下轉(zhuǎn)換關(guān)系:第五頁(yè),共四十三頁(yè),2022年,8月28日第六頁(yè),共四十三頁(yè),2022年,8月28日絕對(duì)聽覺門限
絕對(duì)聽覺門限(AbsoluteThresholdofHearing,ATH)指一個(gè)人在沒有噪聲的環(huán)境下,能夠產(chǎn)生聽覺,感知到一個(gè)純音信號(hào)(某各頻率點(diǎn))的最小能量幅度。通常絕對(duì)聽覺門限用聲壓級(jí)表示(dB),靜音為0dB,痛閾為140dB。
絕對(duì)聽覺門限曲線橫坐標(biāo)是頻率,表示人所能聽到的聲音的頻率范圍
縱坐標(biāo)是聲壓級(jí),表示所有低于門限的聲音信號(hào)人類一般聽不到
第七頁(yè),共四十三頁(yè),2022年,8月28日臨界頻帶
臨界頻帶(CriticalBand)是指一個(gè)純音可以被以它為中心頻率,并且具有一定頻帶寬度的連續(xù)噪聲所掩蔽,在這一頻帶內(nèi)噪聲功率等于該純音的功率。這使該純音處于剛能被聽到的臨界狀態(tài),即稱這一帶寬為臨界頻帶寬度。臨界頻帶的單位叫Bark(巴克)。
頻率<500Hz的情況下,
頻率>500Hz的情況下,第八頁(yè),共四十三頁(yè),2022年,8月28日臨界頻帶頻率(Hz)臨界頻帶頻率(Hz)低端高端寬度低端高端寬度0010010013200023203201100200100142320270038022003001001527003150450330040010016315037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280
25個(gè)臨界頻帶第九頁(yè),共四十三頁(yè),2022年,8月28日同時(shí)掩蔽
同時(shí)掩蔽(SimultaneousMasking)又稱頻域掩蔽,分為噪聲掩蔽音調(diào)(NMT)、音調(diào)掩蔽噪聲(TMN)和噪聲掩蔽噪聲(NMN)。掩蔽效應(yīng)是指當(dāng)兩個(gè)響度不等的聲音作用于人耳時(shí),響度較高的頻率成分的存在會(huì)影響到對(duì)響度較低的頻率成分的感知。當(dāng)兩個(gè)或更多的音頻信號(hào)到達(dá)人內(nèi)耳時(shí),掩蔽聲與被掩蔽聲同時(shí)作用發(fā)生掩蔽效應(yīng),就稱同時(shí)掩蔽。即在一個(gè)臨界頻帶內(nèi),一個(gè)大的信號(hào)可以掩蔽掉若干小的信號(hào),無論這個(gè)信號(hào)是音調(diào)還是噪音。第十頁(yè),共四十三頁(yè),2022年,8月28日聲強(qiáng)為60dB、頻率為1000Hz純音的掩蔽效應(yīng)聲強(qiáng)為60dB、頻率不同的純音的掩蔽效應(yīng)第十一頁(yè),共四十三頁(yè),2022年,8月28日異時(shí)掩蔽
異時(shí)掩蔽(NonsimultaneousMasking)又稱時(shí)域掩蔽,是指掩蔽效應(yīng)發(fā)生在掩蔽聲與被掩蔽聲不同時(shí)出現(xiàn)的情況下。此時(shí)出現(xiàn)的一個(gè)強(qiáng)音頻信號(hào)可以掩蔽到之前若干時(shí)間和之后若干時(shí)間的音頻信號(hào)的感知,即導(dǎo)前掩蔽或滯后掩蔽。而對(duì)之前音頻信號(hào)的掩蔽效應(yīng)衰減的很快,大概只能掩蔽到幾毫秒,而對(duì)之后音頻信號(hào)的掩蔽可以持續(xù)到最長(zhǎng)200ms的時(shí)間。時(shí)域掩蔽第十二頁(yè),共四十三頁(yè),2022年,8月28日感知熵
感知熵(PerceptualEntropy)是指利用心理聲學(xué)的掩蔽現(xiàn)象和信號(hào)能量化原理來測(cè)量音頻信號(hào)中感知相關(guān)的信息。一般以位(bit)作為單位,實(shí)際上表示了音頻信號(hào)壓縮的理論極限。感知熵的計(jì)算原理是:
1)對(duì)原始信號(hào)加2048點(diǎn)漢明窗,然后進(jìn)行2048點(diǎn)的快速傅立葉變換,將時(shí)域音頻信號(hào)轉(zhuǎn)換成頻域信號(hào)。
2)通過臨界頻帶分析得到掩蔽閾值,然后對(duì)信號(hào)進(jìn)行噪音類和純音類判決,最后將絕對(duì)聽閾考慮進(jìn)來。
第十三頁(yè),共四十三頁(yè),2022年,8月28日3.1.2數(shù)字音頻音頻信號(hào)是時(shí)間和幅度都連續(xù)變化的一維模擬信號(hào),要想在計(jì)算機(jī)中對(duì)它進(jìn)行處理,就要將它變成時(shí)間和幅度都是離散的數(shù)字信號(hào),所以數(shù)字音頻是指音頻信號(hào)經(jīng)過離散化處理后再用一系列的數(shù)字來表示的信號(hào),其特點(diǎn)是保真度好,動(dòng)態(tài)范圍大。數(shù)字音頻可分為波形聲音、語音和音樂。波形聲音實(shí)際上包含了所有的聲音形式,因此數(shù)字音頻有時(shí)也泛稱為聲音。用計(jì)算機(jī)來處理音頻信號(hào)必須將模擬音頻信號(hào)轉(zhuǎn)換成有限個(gè)數(shù)字表示的離散序列,其間要經(jīng)歷:選擇采樣頻率,即進(jìn)行采樣;選擇分辨率,即進(jìn)行量化;最后編碼形成聲音文件。聲音的采樣與量化第十四頁(yè),共四十三頁(yè),2022年,8月28日采樣
采樣(Sampling)是把模擬信號(hào)在時(shí)間域上以固定的時(shí)間間隔對(duì)波形的值進(jìn)行抽取,再用若干位二進(jìn)制數(shù)表示。兩個(gè)取樣點(diǎn)之間的間隔稱為采樣周期,它的倒數(shù)稱為采樣頻率。根據(jù)采樣定理,當(dāng)采樣頻率大于信號(hào)最高頻率的兩倍時(shí),在采樣過程中就不會(huì)丟失信息,并且可以用采樣后的信號(hào)重構(gòu)原始信號(hào),就能不失真地還原出原始的聲音信號(hào)。若超過此取樣頻率,就會(huì)包含冗余的信息;若低于此頻率,則將產(chǎn)生不同程度的失真。對(duì)于音頻,最常用的采樣頻率有三種:44.1KHz、22.05KHz、11.025KHz,其中44.1KHz采樣頻率是最常用的頻率。聲道數(shù)是聲音通道的個(gè)數(shù),指一次采樣的聲音波形個(gè)數(shù)。單聲道一次采樣一個(gè)聲音波形,雙聲道一次采樣兩個(gè)聲音波形,又稱為“立體聲”。
第十五頁(yè),共四十三頁(yè),2022年,8月28日量化
量化(Quantity)的目的是將采樣后的信號(hào)波形的幅度值(樣本)進(jìn)行離散化處理,樣本從模擬量轉(zhuǎn)化成了數(shù)字量。量化位數(shù)越多,所得到的量化值越接近原始波形的采樣值。一個(gè)量化器就是將整個(gè)信號(hào)的幅度值分成若干個(gè)有限的區(qū)間,并且把落入同一個(gè)區(qū)間的樣本點(diǎn)都用同一個(gè)幅度值來表示,這個(gè)幅度值稱為量化值。量化方式有三種:零記憶量化、分組量化和序列量化。零記憶量化是每次量化一個(gè)模擬采樣值,并對(duì)所有采樣點(diǎn)都使用相同的量化器特性;分組量化是從可能輸出組的離散集合中選出一組輸出值,代表一組輸入的模擬采樣值;序列量化是在分組或非分組的基礎(chǔ)上,用一些鄰近采樣點(diǎn)的信息對(duì)采樣序列進(jìn)行量化。第十六頁(yè),共四十三頁(yè),2022年,8月28日3.1.3聲音聲學(xué)是研究聲音的學(xué)科,包括聲波的產(chǎn)生、傳播和接收。物體振動(dòng)在彈性體里的傳播叫做波,而在空氣中傳播的波就叫做聲波,能被人的聽覺器官所感覺到的聲波叫聲音,其頻率一般在20Hz~20KHz之間。聲音的傳播是將本地振動(dòng)向一個(gè)接一個(gè)的區(qū)域傳播的過程,因此聲音是縱向傳播的。聲音振動(dòng)所產(chǎn)生壓力的改變可以是周期性的,也可以是非周期性的。一系列周期性的振動(dòng)是一個(gè)周期,每秒經(jīng)過一個(gè)固定點(diǎn)的振動(dòng)周期的次數(shù)就是聲波的頻率,用Hz表示,人類聽力的大致范圍是20Hz~20KHz,因此音頻設(shè)備的響應(yīng)設(shè)計(jì)也是在這個(gè)頻率范圍內(nèi)。聲音的三要素是音調(diào)、音色和音強(qiáng)。就聽覺特性而言,聲音質(zhì)量的高低主要取決于這三要素。音強(qiáng)是指聲音的強(qiáng)度,也稱為聲音的響度。音強(qiáng)與聲波的振幅成正比,振幅越大,強(qiáng)度越大。聲音的質(zhì)量簡(jiǎn)稱音質(zhì)。音質(zhì)的好壞與音色和頻率范圍有關(guān)。另外影響音質(zhì)的因素還有:
1)與采樣頻率有關(guān)。
2)與音頻處理設(shè)備有關(guān)。
3)與信號(hào)噪聲比有關(guān)。
第十七頁(yè),共四十三頁(yè),2022年,8月28日3.1.4語音語音是一種特殊的媒體,但也是一種波形,在計(jì)算機(jī)中表示方式與波形聲音的文件格式相同。語音處理的研究已經(jīng)有一百多年的歷史。其研究范圍主要涉及:語音編碼、語音合成、語音識(shí)別的基本算法和應(yīng)用。說話的意向及概念語言語音知覺語義情感壓縮、存儲(chǔ)讀取、解壓語音合成語音編/解碼語音識(shí)別計(jì)算機(jī)處理語音過程第十八頁(yè),共四十三頁(yè),2022年,8月28日3.2常用音頻編碼算法和標(biāo)準(zhǔn)
在音頻編碼技術(shù)三十余年的發(fā)展過程中,國(guó)際電報(bào)電話咨詢委員會(huì)(CCITT)和國(guó)際標(biāo)準(zhǔn)化組織(ISO)先后提出了一系列有關(guān)音頻編碼的建議:
第十九頁(yè),共四十三頁(yè),2022年,8月28日方法算法名稱數(shù)據(jù)率標(biāo)準(zhǔn)應(yīng)用質(zhì)量波形編碼PCM均勻量化
公共網(wǎng)ISDN配音4.0~4.5μ(A)μ(A)64kbpsG.711APCM自適應(yīng)量化
DPCM差值量化ADPCM自適應(yīng)差值量化32kbpsG.721SB—
ADPCM子帶—自適應(yīng)差值量化64kbpsG.7225.3kbps6.3kbpsG.723參數(shù)編碼LPC線性預(yù)測(cè)編碼2.4kbps
保密話聲2.5~3.5混合編碼CELPC碼激勵(lì)LPC4.6kbps
移動(dòng)通信3.7~4.0VSELP矢量和激勵(lì)LPC8kbps
語音通信RPE-LTP長(zhǎng)時(shí)預(yù)測(cè)規(guī)則碼激勵(lì)13.2kbps
ISDNLD-CELP低延時(shí)碼激勵(lì)LPC16kbpsG.728G.729
MPEG多自帶感知編碼128kbps
CD5.0
AC-3感知編碼
音響5.0第二十頁(yè),共四十三頁(yè),2022年,8月28日3.2.1音頻信號(hào)編碼基礎(chǔ)數(shù)據(jù)壓縮條件
信號(hào)之所以能被壓縮和編碼,其原因主要是:
數(shù)據(jù)冗余度:音頻信號(hào)通常存在很多用處不大的空間,空間越多,數(shù)據(jù)的冗余度也越大。通過數(shù)據(jù)的壓縮,將這些不用的空間去掉。人類不敏感因素:一般而言,人類對(duì)某些頻率的音頻信號(hào)不敏感,有無這些頻率的音頻,在聽覺上影響不大,在數(shù)據(jù)壓縮時(shí),就可去掉這些不敏感的成分,以便減少數(shù)據(jù)量。信息傳輸與存儲(chǔ):信息承載在數(shù)據(jù)上進(jìn)行傳輸和存儲(chǔ),在傳輸和存儲(chǔ)前后需要對(duì)數(shù)據(jù)進(jìn)行壓縮處理,其原理如下圖所示。有損壓縮無損壓縮數(shù)據(jù)解壓縮數(shù)據(jù)解壓縮數(shù)據(jù)存儲(chǔ)數(shù)據(jù)傳輸?shù)诙豁?yè),共四十三頁(yè),2022年,8月28日數(shù)據(jù)冗余
冗余是指信息所具有的各種性質(zhì)中多余的無用空間,其多余的程度叫做冗余度。信息量、數(shù)據(jù)量和冗余量之間的關(guān)系如下:
其中,表示信息量表示數(shù)據(jù)量表示冗余量,冗余量應(yīng)在數(shù)據(jù)存儲(chǔ)和傳輸之前去掉。
冗余大致可分為:空間冗余、時(shí)間冗余、統(tǒng)計(jì)冗余、結(jié)構(gòu)冗余、信息熵冗余、知識(shí)冗余等
第二十二頁(yè),共四十三頁(yè),2022年,8月28日數(shù)據(jù)壓縮算法分類
數(shù)據(jù)壓縮算法可根據(jù)解碼后的數(shù)據(jù)與壓縮前的原始數(shù)據(jù)是否完全一致分為“無損壓縮編碼”和“有損壓縮編碼”兩大類。第二十三頁(yè),共四十三頁(yè),2022年,8月28日第二十四頁(yè),共四十三頁(yè),2022年,8月28日3.2.2常用音頻編碼標(biāo)準(zhǔn)G.71164kb/s脈沖編碼調(diào)制(PCM)
G.721、G.723自適應(yīng)差分脈碼調(diào)制(ADPCM)G.7227kHz聲音編碼器
G.72816kb/s低延遲碼激勵(lì)線性預(yù)測(cè)編碼(LD-CELP)
MPEG1的音頻編碼
AC音頻編碼
第二十五頁(yè),共四十三頁(yè),2022年,8月28日
G.71164kb/s脈沖編碼調(diào)制(PCM)
1972年,CCITT對(duì)一個(gè)64kb/s壓擴(kuò)型PCM編碼器做了標(biāo)準(zhǔn)化,稱為G.711。事實(shí)上,已經(jīng)有兩個(gè)標(biāo)準(zhǔn)。在北美和日本,使用μ律PCM。世界其他國(guó)家使用A律PCM。兩種編碼器的信號(hào)都用8位表示。有效信噪比大約為35dB,能夠把它們看成浮點(diǎn)表示值。
A律PCM對(duì)小信號(hào)有較大的分辨力,其動(dòng)態(tài)范圍等效于12位線性PCM。
μ律PCM等效于13位線性PCM,但是,對(duì)于小信號(hào)有更多的粒狀噪聲。兩種編碼器在總體性能上是等效的。很重要的一點(diǎn)是:當(dāng)這兩種編碼器級(jí)聯(lián)時(shí),可以考慮為省去了最低有效位,而降低為56kb/s的比特率。第二十六頁(yè),共四十三頁(yè),2022年,8月28日
G.721、G.723自適應(yīng)差分脈碼調(diào)制(ADPCM)
1984年,CCITT首先對(duì)32kbit/s自適應(yīng)差分脈碼調(diào)制(ADPCM)做了標(biāo)準(zhǔn)化,稱為G.721。它為兩個(gè)目的服務(wù):
第一,用于數(shù)字倍增器(DCME)上,能夠使系統(tǒng)容量有2:1的增加;第二,在有些線路上,經(jīng)常會(huì)遇到一端為μ律而另一端為A律的情況,G.721是為接收μ律或A律的任一種作為輸入而建立的。
G.723是在1988年標(biāo)準(zhǔn)化的。它試圖為DCME提供應(yīng)用,而且,是在ADPCM的基礎(chǔ)上,對(duì)兩種附加速率24kb/s和40kb/s進(jìn)一步標(biāo)準(zhǔn)化。
G.721是32kb/sADPCM,已經(jīng)被選中作為歐洲數(shù)字無繩電話(DECT)和無繩電話II(CT2)的標(biāo)準(zhǔn)。
第二十七頁(yè),共四十三頁(yè),2022年,8月28日
G.7227kHz聲音編碼器
G.722建議的音頻壓縮仍采用波形編碼技術(shù),為7kHz寬帶編碼器,主要用于電話會(huì)議和可視電話會(huì)議。人們?cè)噲D找到比電話(200~3200Hz)更大的帶寬,以減少使用者的疲勞。較大的帶寬增加了語音的可懂度,因?yàn)樵谑褂秒娫拵挼那闆r下,有些語音不易區(qū)分。這種編碼器是基于兩個(gè)子帶的編碼組合。一個(gè)24抽頭鏡面正交濾波器,用于有效地分開信號(hào),上頻帶使用16kb/sADPCM,類似如G.727編碼器。下頻帶使用48kb/sADPCM編碼,具有4和5個(gè)量化器嵌入到6位量化器。第二十八頁(yè),共四十三頁(yè),2022年,8月28日
G.72816kb/s低延遲碼激勵(lì)線性預(yù)測(cè)編碼(LD-CELP)
G.728的工作進(jìn)程是從1988年由CCITT開始的。它試圖建立通用的16kb/s長(zhǎng)話質(zhì)量的語音編碼標(biāo)準(zhǔn)。長(zhǎng)話質(zhì)量意味著它能匹配或超過G.72132kb/sADPCM的性能;通用則表示任何地方都能夠使用,所以引入了低延遲的要求。后來,CCITT限制它不能用在主干線的連接上,能夠用在點(diǎn)到點(diǎn)的終端設(shè)備和電路倍增設(shè)備中。G.728的第一項(xiàng)應(yīng)用是低比特率的視頻電話,由于它能使用幀擦除,故也能夠用在有衰減的無線電通道上。
G.728開始是按照浮點(diǎn)CELP編碼算法規(guī)定的,故要求嚴(yán)格的按照建議中規(guī)定的算法實(shí)現(xiàn)。為了驗(yàn)證是否已經(jīng)正確實(shí)現(xiàn),建立了一組試驗(yàn)矢量。后來,按照嚴(yán)格定點(diǎn)規(guī)定的算法也在1994年完成了。
第二十九頁(yè),共四十三頁(yè),2022年,8月28日
MPEG1的音頻編碼
國(guó)際標(biāo)準(zhǔn)化組織/國(guó)際電工委員會(huì)所屬的WG11工作組制定推薦了MPEG標(biāo)準(zhǔn)。已公布和正在討論的標(biāo)準(zhǔn)有MPEG1、MPEG2、MPEG4、MPEG7。這里僅介紹MPEG1標(biāo)準(zhǔn)的一部分,對(duì)應(yīng)于ISO/IEC11172-3(MPEG-音頻)。這部分規(guī)定了高質(zhì)量音頻編碼方法、存儲(chǔ)表示和解碼方法。編碼器的輸入和解碼器的輸出與現(xiàn)存的PCM標(biāo)準(zhǔn)兼容。ISO/IEC11172視頻、音頻的總比特率為1.5Mb/s。音頻使用的采樣率為32kHz、44.1kHz和48kHz。
編碼輸出的比特率有許多種,由相關(guān)的參數(shù)決定:
(1)編碼器(2)編碼層次(3)存儲(chǔ)(4)解碼第三十頁(yè),共四十三頁(yè),2022年,8月28日
AC音頻編碼
AC-1應(yīng)用的編碼技術(shù)是自適應(yīng)增量調(diào)制,它把20kHz的寬帶立體聲音頻信號(hào)編碼成512kb/s的數(shù)據(jù)流。AC-1曾在衛(wèi)星電視和調(diào)頻廣播上得到廣泛應(yīng)用。
1990年DOLBY實(shí)驗(yàn)室推出了立體聲編碼標(biāo)準(zhǔn)AC-2,它采用類似MDCT的重疊窗口的快速傅立葉變換編碼技術(shù),其比特率在256kb/s以下。AC-2被應(yīng)用在PC聲卡和綜合業(yè)務(wù)數(shù)字網(wǎng)等方面。
AC-3音頻編碼標(biāo)準(zhǔn)的起源是DOLBYAC-1。
第三十一頁(yè),共四十三頁(yè),2022年,8月28日3.2.3國(guó)際音頻標(biāo)準(zhǔn)化組織簡(jiǎn)介
國(guó)際電信聯(lián)盟(ITU)北美的標(biāo)準(zhǔn)化組織歐洲電信標(biāo)準(zhǔn)研究所日本的RCR中國(guó)的電信標(biāo)準(zhǔn)化組織
第三十二頁(yè),共四十三頁(yè),2022年,8月28日3.3音頻文件格式3.3.1波形格式
WAV是MicrosoftWindows本身提供的音頻格式,用.wav作為擴(kuò)展名,其文件格式稱為波形文件格式(WAVEFileFormat)。在Windows環(huán)境下,大部分多媒體文件都遵循RIFF結(jié)構(gòu)來存放信息,RIFF可以看做是一種樹狀結(jié)構(gòu),其基本構(gòu)成單位為Chunk,就像樹形結(jié)構(gòu)中的節(jié)點(diǎn),每個(gè)Chunk由辨別碼、數(shù)據(jù)長(zhǎng)度及數(shù)據(jù)組成。
RIFF的簡(jiǎn)化結(jié)構(gòu)圖第三十三頁(yè),共四十三頁(yè),2022年,8月28日3.3.2MIDI格式
MIDI是MusicalInstrumentDigitalInterface的首寫字母組合詞,可譯成“電子樂器數(shù)字接口”。用于在音樂合成器(MusicSynthesizers)、樂器(MusicalInstruments)和計(jì)算機(jī)之間交換音樂信息、播放和錄制音樂的一種標(biāo)準(zhǔn)協(xié)議。MIDI標(biāo)準(zhǔn)確定了將計(jì)算機(jī)與電聲樂器、錄音設(shè)備連接起來所需的電纜線、硬件及通信協(xié)議。
MIDI標(biāo)準(zhǔn)的優(yōu)點(diǎn):
生成的文件比較小,因?yàn)镸IDI文件存儲(chǔ)的是命令,而不是聲音波形。容易編輯,因?yàn)榫庉嬅畋染庉嬄曇舨ㄐ我菀椎枚???梢宰鞅尘耙魳?,因?yàn)镸IDI音樂可以和其它的媒體,如數(shù)字電視、圖形、動(dòng)畫、話音等一起播放,這樣可以加強(qiáng)演示效果。
第三十四頁(yè),共四十三頁(yè),2022年,8月28日
產(chǎn)生MIDI樂音的方法很多,現(xiàn)在用得較多的方法有兩種。
一種是(SynthesisFrequencyModulation,F(xiàn)M)合成法。FM發(fā)聲器的原理是先對(duì)音色本質(zhì)進(jìn)行研究計(jì)算之后再通過人工方式“模擬”(或合成)其頻率,使用調(diào)變波去調(diào)變載波,最終獲得不同的音色表現(xiàn)。
FM聲音合成器的基本原理第三十五頁(yè),共四十三頁(yè),2022年,8月28日
另一種是樂音樣本合成法,也稱為波形表(Wavetable)合成法。
樂音樣本合成器的工作原理第三十六頁(yè),共四十三頁(yè),2022年,8月28日
MIDI通信形式,是將電子樂器連接起來的一種手段,它是控制樂器所用的軟件和硬件的規(guī)范。大多數(shù)電子樂器內(nèi)部都有與計(jì)算機(jī)類似的用于控制的微處理器。
MIDI在各種設(shè)備之間傳送消息。當(dāng)在一個(gè)MIDI設(shè)備上演奏時(shí),其內(nèi)部的微處理器將樂曲的詳細(xì)信息包括演奏的音符,節(jié)奏的變化等發(fā)送出去,另外的MIDI設(shè)備接收這些消息并做出相應(yīng)的反應(yīng)。在每個(gè)MIDI樂器中使用三個(gè)連接器,一個(gè)向外發(fā)送數(shù)據(jù),一個(gè)接收數(shù)據(jù),另一個(gè)將收到的數(shù)據(jù)傳送給其他MIDI設(shè)備。
MIDI消息有兩種類型:狀態(tài)字節(jié)和數(shù)字字節(jié)。狀態(tài)字節(jié)描述發(fā)送的信息類別,數(shù)字字節(jié)總是跟在狀態(tài)字節(jié)后面,表示動(dòng)作的實(shí)際值。
第三十七頁(yè),共四十三頁(yè),2022年,8月28日
所有MIDI消息通過通道發(fā)送和接收。通道上能夠傳送不同樂器的聲音,音序器能夠讓不同的樂器演奏不同的聲部。
MIDI通道樂器MIDI通道樂器MIDI通道樂器MIDI通道樂器1Piano5Cellos9Harp13Bassoon2Harp6Violas10Trombone14Clarinet3Percussion7ViolinI11Trumpet15Oboe4Basses8ViolinII12French.Horn16Flute
MIDI用狀態(tài)字節(jié)中的低4位表示緊隨其后的數(shù)據(jù)所在的通道。4位可表示0~15這16個(gè)值,所以MIDI有16個(gè)可用通道。
第三十八頁(yè),共四十三頁(yè),2022年,8月28日3.3.3MP3壓縮格式
MP3是Fraunhofer-IIS研究所()的研究成果,它的全稱是MPEG1Layer3音頻文件,是MPEG1標(biāo)準(zhǔn)中的聲音部分,也叫MPEG音頻層。它根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度劃分為三層,即Layer1、Layer2、Layer3,分別對(duì)應(yīng)MP1、MP2、MP3這三種聲音文件。
MP3對(duì)音頻信號(hào)采用的是有損壓縮方式,為了降低聲音失真度,MP3采取了“感知音頻編碼技術(shù)”,即編碼時(shí)先對(duì)音頻文件進(jìn)行頻譜分析,然后用過濾器濾掉噪音電平,接著通過量化的方式將剩下的每一位打散排列,最后形成具有較高壓縮比的MP3文件,并使壓縮后的文件在回放時(shí)能夠達(dá)到比較接近原始音頻數(shù)據(jù)的聲音效果。
第三十九頁(yè),共四十三頁(yè),2022年,8月28
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐飲冷庫(kù)建造合同協(xié)議書
- 廚師長(zhǎng)合同協(xié)議書
- 2025年春外研版九年級(jí)下冊(cè)英語上課課件 M7 Unit 1
- 上市規(guī)則修訂建議諮詢
- 2025年金融街合作協(xié)議書
- 護(hù)理缺失文獻(xiàn)分享
- 電動(dòng)汽車換電站項(xiàng)目融資與投資合作合同
- 知識(shí)產(chǎn)權(quán)轉(zhuǎn)讓與聯(lián)合研發(fā)執(zhí)行補(bǔ)充協(xié)議
- 跨國(guó)藝術(shù)品拍賣合作保證金及結(jié)算流程合同
- 網(wǎng)絡(luò)直播平臺(tái)主播游戲直播與獨(dú)家經(jīng)紀(jì)管理協(xié)議
- 第七章-瀝青課件
- 全新版《大學(xué)英語》綜合教程-第一冊(cè)-教案
- 2024年01月青海大學(xué)附屬醫(yī)院招考聘用116人預(yù)選筆試近6年高頻考題難、易錯(cuò)點(diǎn)薈萃答案帶詳解附后
- 企業(yè)采購(gòu)管理手冊(cè)(大全)
- 課題研究成效公告模板
- 公司產(chǎn)品與服務(wù)的特點(diǎn)與優(yōu)勢(shì)
- 政協(xié)專項(xiàng)調(diào)研方案
- 基于數(shù)字孿生的產(chǎn)線設(shè)備實(shí)時(shí)監(jiān)控方法與實(shí)現(xiàn)
- 年產(chǎn)500噸IMD高端環(huán)保油墨研發(fā)生產(chǎn)項(xiàng)目環(huán)境信息公示
- 《行政監(jiān)督》課件
- 為什么你的學(xué)生不思考
評(píng)論
0/150
提交評(píng)論