多媒體圖像處理-聲音資料

上傳人：2*** IP屬地：湖北上傳時間：2022-08-26 格式：PPT 頁數(shù)：71 大小：3.52MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩66頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、音頻處理技術(shù)Audio Processing二音頻處理技術(shù)提綱音頻信號及其概念模擬音頻的數(shù)字化過程音頻信號的壓縮編碼與標(biāo)準(zhǔn)語音識別與合成技術(shù)Multimedia2.1音頻信號及其概念聲音處理技術(shù)的歷史2.1 聲音與聽覺聲音是通過空氣傳播的一種連續(xù)的波，這種連續(xù)性表現(xiàn)在兩個方面，一個是時間上的連續(xù)性，另一方面是指它在幅度上是連續(xù)的。音頻信號的形式：語音與非語音2.1音頻信號及其概念音頻場景分析模擬音頻信號的物理特性2.1音頻信號及其概念聲音由物體的振動產(chǎn)生，并通過介質(zhì)傳播的連續(xù)波聲波傳遞的是分子的運(yùn)動聲音傳播需要介質(zhì)空氣中的聲速約為 340 米/秒聲音的頻率：1秒鐘內(nèi)振動的次數(shù)人耳能聽到的聲音

2、： 20Hz20kHz超聲波 20kHz次聲波 20Hz聲音的幅度：聲音的強(qiáng)弱（能量）周期幅度與聲音有關(guān)的幾個術(shù)語（主觀心理量）2.1音頻信號及其概念音高、響度、音色為聲音的三要素。響度是人類主觀感覺到的聲音的強(qiáng)弱程度，取決于聲音的幅度。頻率和響度的關(guān)系：等響度曲線。音高取決于聲音的頻率。頻率越高，人耳聽到的聲音就越高，反之亦然，但非線性關(guān)系。美爾（Mel）音色是由混入基音的泛音所決定的，不同發(fā)音體所發(fā)出的音波都有自己的特異性，可分為純音和復(fù)合音。痛閾聞閾聲音信號的三個重要參數(shù):頻率（音調(diào)）帶寬（音色）振動幅度（音強(qiáng)）。聲音強(qiáng)弱體現(xiàn)在振幅大小，其音調(diào)高低體現(xiàn)在占主導(dǎo)地位的基本頻率，聲音的渾厚

3、、飽滿程度取決于帶寬，即疊加在基頻上的各種不同頻率信號。2.1音頻信號及其概念基頻與音調(diào)頻率是指信號每秒鐘變化的次數(shù)。人對聲音頻率的感覺表現(xiàn)為音調(diào)的高低，在音樂中稱為音高。音調(diào)是由基頻所決定的，音樂中音階的劃分是在頻率的對數(shù)坐標(biāo)（20log）上取等分而得的。2.1音頻信號及其概念基頻的高次諧波分量，也稱為泛音。音色是由混入基音的泛音的多少（帶寬）所決定的，高次諧波越豐富,音色就越有明亮感和穿透力。不同的諧波具有不同的幅值和相位偏移，由此產(chǎn)生各種音色效果。幅度與音強(qiáng)人耳對于聲音細(xì)節(jié)的分辨只有在強(qiáng)度適中時才最靈敏。人的聽覺響應(yīng)與強(qiáng)度成對數(shù)關(guān)系。一般的人只能察覺出3分貝的音強(qiáng)變化。諧波與音色2

4、.1音頻信號及其概念用音量來描述音強(qiáng)，在處理音頻信號時，一般用動態(tài)范圍來定義，以分貝（dB=20log）為單位。動態(tài)范圍20log(信號的最大強(qiáng)度/信號的最小強(qiáng)度)(dB)動態(tài)范圍越大，信號強(qiáng)度的相對變化范圍越大，音響效果越好。2.1音頻信號及其概念音頻頻率劃分：人的聽覺器官能感知的頻率范圍為2020kHz ,能感知的聲音幅度范圍在0120dB之間，而人的發(fā)音器官能夠發(fā)出的聲音頻率范圍為803.4kHz。 20kHz: 超聲波（ultrasonic）信號語音帶寬音頻(audio)帶寬 20 300 3K 20K f (Hz)超聲波次聲波2.1音頻信號及其概念聲音質(zhì)量的評價2.1音頻信號及其

5、概念客觀評價主觀評價評價值的測量聲源的測量音質(zhì)的測量信噪比(SNR, Signal to Noise Ratio) 平均判分（MOS, Mean Opinion Score）, 通常使用5分制。聲音質(zhì)量分級與帶寬聲音的質(zhì)量與聲音的帶寬有關(guān)，一般來說頻率范圍越寬，聲音質(zhì)量也就越好。聲音類型帶寬電話語音200Hz3.4kHz調(diào)幅廣播(AM)50Hz7kHz調(diào)頻廣播(FM)20Hz15kHzCD20Hz20kHz音頻信號的頻帶越寬，所包含的音頻信號分量越豐富，音質(zhì)越好。300Hz3.4kHz, 電話信號范圍50Hz7kHz，AM廣播信號范圍20Hz15kHz，F(xiàn)M廣播信號范圍20Hz20k

6、Hz，高保真聲音(high-fidelity audio)的頻率范圍，帶寬約20kHz電話CD-DA10 20 50 300 3.4K 7K 15K 22K f (Hz)AM廣播FM廣播音頻信號是一種連續(xù)變化的模擬信號,可用一條連續(xù)的曲線來表示，稱為聲波。它不僅在時間上是連續(xù)的，而且在幅度上也是連續(xù)的。這個模擬信號曲線無論多復(fù)雜，在任一時刻都可分解成一系列正弦波的線性疊加。2.2音頻的數(shù)字化0110101111002.2音頻的數(shù)字化聲音進(jìn)入計算機(jī)的第一步就是數(shù)字化（A/D轉(zhuǎn)換），數(shù)字化實際上就是采樣、量化和編碼。聲音數(shù)字化需要解決兩個問題：每秒鐘需要采集多少個聲音樣本，也就是采樣頻率（fs）

7、是多少；每個聲音樣本的位數(shù)（bit per sample, bps）應(yīng)該是多少，也就是量化精度。圖聲音的采樣和量化2.2音頻的數(shù)字化采樣（抽樣，sampling）：將聲音信號在時間上離散化，即每隔一段時間抽取一個信號樣本。采樣頻率(Sampling Rate) 奈奎斯特理論指出：采樣頻率不應(yīng)低于聲音信號最高頻率的兩倍，這樣就能把以數(shù)字表達(dá)的聲音還原成原來的聲音，稱為無損數(shù)字化。 fs = 2fmax * 電話話音信號最高頻率約為3.4kHz，所以采樣頻率取為8kHz。采樣頻率根據(jù)奈奎斯特理論（Nyquist theory），采樣頻率不應(yīng)低于聲音信號最高頻率的兩倍，這樣就能把以數(shù)字表達(dá)的聲

8、音還原成原來的聲音，即： fs2f 或者 TT/2可以這樣來理解奈奎斯特理論：聲音信號可以看成由許許多多正弦波組成的，一個振幅為、頻率為f的正弦波至少需要兩個采樣樣本表示。量化精度量化精度用每個聲音樣本的位數(shù)（bit/s）表示的，它反映度量聲音波形幅度的精度。例如，每個聲音樣本用16位表示，聲音樣本值是在065535的范圍里，它的精度就是輸入信號的1/65536。量化位數(shù)越多，聲音的質(zhì)量越高，需要的存儲空間也越多；位數(shù)越少，聲音的質(zhì)量越低，需要的存儲空間越少。2.2音頻的數(shù)字化量化（quantization）：將連續(xù)的信號幅度離散化。如果幅度的劃分是等間隔的，稱為線性量化，否則為非線性量化

9、。電壓范圍量化(dec) 編碼(bin) 0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0.3 -0.1 -1 111 -0.5 -0.3 -2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 100質(zhì)量采樣頻率（kHz）樣本精度單道聲/立體聲數(shù)據(jù)率（kb/s）頻率范圍（kHz）電話88單道聲642003400AM11.0258單道聲88507000FM22.05016立體聲705.62015000CD44.116立體聲1411.22020000DAT4816立體據(jù)率=采樣頻

10、率量化精度聲道數(shù)如果不壓縮，音頻采樣的數(shù)據(jù)量可由下式推算：數(shù)據(jù)量=（采樣頻率每個采樣位數(shù)聲道數(shù)）（kb/s）例如，一秒鐘CD高保真立體聲的數(shù)據(jù)量為：（44.1kHz16位2聲道） = 1411.2 kb/s = 1411200/8 字節(jié) = 176400字節(jié) = 172.26 KB量化精度的信噪比(signal-to-noise ratio, SNR )表示方法：如果用Vsignal 表示信號電壓，Vnoise表示噪聲電壓，則SNR（單位：分貝，dB）用下式計算：例2.1 假設(shè)Vnoise=1,量化精度為1位表示Vsignal=21，它的信噪比 SNR=6dB 例2.2 假設(shè)Vnoise=1

11、,量化精度為16位表示Vsignal=216 ，它的信噪比SNR=96dB 2.2音頻的數(shù)字化編碼（Coding）：是指按一定的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)（脈沖數(shù)字信號）記錄下來，并在有效的數(shù)據(jù)中加入一些用于糾錯、同步和控制的數(shù)據(jù)。脈沖編碼調(diào)制(PCM，Pulse Code Modulation) 把模擬信號轉(zhuǎn)換為數(shù)字信號的一種調(diào)制方式。量化誤差：模擬信號經(jīng)過采樣和量化，然后用有限個二進(jìn)制代碼代表量化后的幅度，在編碼時引入量化誤差，在解碼時無法消除，即引入了噪聲，降低了信噪比(SNR)。電話采用A率標(biāo)準(zhǔn)，SNR35dB。2.2音頻壓縮編碼與標(biāo)準(zhǔn)目的：減少存儲空間，盡量保證音質(zhì)。依據(jù)：

12、（a）冗余。通過識別和去除冗余，達(dá)到壓縮目的。（b）人耳特性。如掩蔽效應(yīng)，它是指一個強(qiáng)音能抑制一個同時存在的弱音。（c）相關(guān)性。對聲音波形采樣后，相鄰樣值間存在相關(guān)性。編碼方式： (a) 波形編碼：PCM、APCM、ADPCM (b) 參數(shù)編碼：語音參數(shù)基音周期、共振峰、語音譜，聲強(qiáng)等。LPC (c) 混合編碼：CELP, MELP2.2 語音編碼2.2.1 話音編碼概要2.2.2 波形編譯碼器2.2.3 音源編譯碼器2.2.4 混合編譯碼器2.2.1 語音編碼概要音頻壓縮編碼技術(shù)分類：有損編碼中的三種語音編譯碼器波形編譯碼器（waveform codec）：根據(jù)人耳聽覺特性進(jìn)行采樣

13、量化，達(dá)到壓縮數(shù)據(jù)的目的。如A律、律非均勻量化，將量化誤差留給出現(xiàn)概率小的采樣值。適用于高質(zhì)量音頻、音樂信號。聲音質(zhì)量高，但數(shù)據(jù)率也很高。音源（參數(shù)）編譯碼器（source codec）：將音頻信號看成某種模型，利用特征提取方法抽取必要的模型參數(shù)和激勵信號的信息，對這些信息進(jìn)行編碼。壓縮率很大，但計算量大，保真度不高，適合于語音編碼?；旌暇幾g碼器（hybrid codec）：數(shù)據(jù)率和音質(zhì)介于上述兩者之間。普通編譯碼器音質(zhì)與數(shù)據(jù)率數(shù)據(jù)壓縮的主要依據(jù)是人耳朵的聽覺特性，使用“心理聲學(xué)模型”來達(dá)到壓縮聲音數(shù)據(jù)的目的:聽覺系統(tǒng)中存在一個聽覺閾值電平聽覺掩飾特性2.2.2 波形編譯碼器波形編譯碼

14、的基本想法：不利用生成話音信號的任何知識來重構(gòu)，而是與原始話音波形盡可能一致。該編譯碼器的復(fù)雜程度較低，數(shù)據(jù)速率在 16kb/s以上，質(zhì)量相當(dāng)高；低于這個數(shù)據(jù)速率時，音質(zhì)急劇下降。最簡單的波形編碼是脈沖編碼調(diào)制（pulse code modulation, PCM），它僅對輸入信號進(jìn)行采樣和量化。 PCM PCM編碼是對連續(xù)語音信號進(jìn)行空間采樣、幅度量化及用適當(dāng)碼字將其編碼的總稱。 PCM量化：均勻、非均勻、自適應(yīng)。均勻量化與非均勻量化：均勻量化就是采用相同的“等分尺”來度量采樣得到的幅度；采用相同的量化間隔，幅度范圍N=2B(B為量化位數(shù))均勻量化脈沖編碼調(diào)制的不足：為滿足聽覺上的效果，要

15、使用較多的量化位數(shù)，因而數(shù)據(jù)量大,需要較多的存儲空間。均勻量化PCM非均勻量化PCM利用語音信號幅度的統(tǒng)計特性，量化區(qū)間在遇到大幅度信號時變大，在遇到小幅度信號時變小。根據(jù)語音抽樣非均勻分布的特點(diǎn)，設(shè)法讓量化階距隨信號的概率密度的減少而增大，或者說把大的量化誤差留給出現(xiàn)概率小的樣值，從而得到較大的信噪比，又保證了足夠大的動態(tài)范圍。人耳對語音信號能量感知呈現(xiàn)對數(shù)規(guī)律。量化前用對數(shù)函數(shù)將幅度壓縮，解碼后再用指數(shù)函數(shù)進(jìn)行幅度擴(kuò)張。均勻量化無論對大的輸入信號還是小的輸入信號一律都采用相同的量化間隔。為了適應(yīng)大幅度輸入信號，同時滿足精度要求，就需要增加樣本的位數(shù)。但是，對話音信號來說，大信號出現(xiàn)的機(jī)會并

16、不多，增加的樣本位數(shù)就沒有充分利用。為了克服這個不足，出現(xiàn)了非均勻量化的方法，也叫做非線性量化。非線性量化的基本思想：對輸入信號進(jìn)行量化時，大的輸入信號采用大的量化間隔，小的輸入信號采用小的量化間隔。例如，典型的窄帶話音帶寬限制在4kHz,采樣頻率是8kHz。如果要獲得高一點(diǎn)的音質(zhì)，樣本精度要用12 位，其數(shù)據(jù)率為96kb/s；若用非線性量化的對數(shù)量化器（logarithmic quantizer）, 它產(chǎn)生的樣本精度為8位，它的數(shù)據(jù)率為64kb/s時，重構(gòu)的話音信號幾乎與原始的話音信號沒有什么差別。這些波形編譯碼器是在時域里實現(xiàn)的，在時域里的編譯碼方法稱為時域法（time domain a

17、pproach）。m律(m -law)、A律（A-law）壓擴(kuò)（companding）m律壓擴(kuò)主要用于北美和日本地區(qū)數(shù)字電話通信，A律主要用于歐洲和中國地區(qū)；均為對數(shù)或近似對數(shù)非線性量化；對于采樣頻率為8KHz, 樣本精度為13位、14位或者16位的輸入信號，使用m律壓擴(kuò)編碼或者使用A律壓擴(kuò)編碼，經(jīng)過PCM編碼器之后每個樣本的精度為8位，輸出的數(shù)據(jù)率為64kb/s。這個就是CCITT推薦的G.711標(biāo)準(zhǔn)。其優(yōu)點(diǎn)是編譯碼器簡單，延延時間短，音質(zhì)高；不足之處是數(shù)據(jù)速率比較高，對傳輸通道的錯誤比較敏感。 2.3音頻壓縮編碼與標(biāo)準(zhǔn)A 律（A-law）歐洲標(biāo)準(zhǔn)律（-law）北美和日本標(biāo)準(zhǔn)律公式：其

18、中Xmax是信號x(n)得最大幅度，是控制壓縮程序的參數(shù)(最大量化間隔與最小量化間隔之比)，越大壓縮就越厲害。對數(shù)PCM（LOG-PCM）對數(shù):壓擴(kuò)特性 m律壓(縮)擴(kuò)(展)算法 m律壓擴(kuò)輸入輸出成對數(shù)關(guān)系按照下式確定量化輸入和輸出的關(guān)系：式中：x為輸入信號幅度，規(guī)格化成-1 x 1; sgn(x)為x的極性；m為確定壓縮量的參數(shù)，它反映最大量化間隔和最小量化間隔之比，取100 m 500。A律(A-Law)壓擴(kuò)按下面的式子確定量化輸入和輸出的關(guān)系：式中：x為輸入信號幅度，規(guī)格化成-1x1，sgn(x)為x的極性；A為確定壓縮量的參數(shù)，它反映最大量化間隔和最小量化間隔之比。 A律壓(縮)擴(kuò)

19、(展)算法差分脈沖編碼調(diào)制DPCM （differential pulse code modulation, DPCM）對預(yù)測的樣本值與原始的樣本值之差進(jìn)行編碼。預(yù)測技術(shù)：用過去的樣本去估算下一個樣本信號的幅度大小，這個值稱為預(yù)測值。根據(jù)是認(rèn)為在話音樣本之間存在相關(guān)性，如果樣本的預(yù)測值與樣本的實際值比較接近，它們之間的差值幅度的變化就比原始話音樣本幅度值的變化小，因此量化這種差值信號時就可以用較少的位數(shù)表示值；預(yù)測誤差自適應(yīng)差分脈沖編碼調(diào)制編碼（adaptive differential PCM, ADPCM）根據(jù)輸入信號幅度大小來改變量化步長，并用過去樣本值估算下一個輸入的預(yù)測值的一種編

20、碼技術(shù)。它用較小量化步長編碼小的差值，用大的步長編碼大的差值，以克服DPCM對幅度急劇變化的輸入信號會產(chǎn)生比較大的噪聲的缺陷。在20世紀(jì)80年代，國際電話與電報顧問委員會（CCITT），現(xiàn)改為國際電信聯(lián)盟（ITU-TSS），就制定了數(shù)據(jù)率為32kb/s的ADPCM標(biāo)準(zhǔn)，它的音質(zhì)非常接近64kb/s的PCM編譯碼器。頻域法(frequency domain approach) 子帶編碼(sub-band coding, SBC)輸入時話音信號被分成好幾個頻帶（子帶），變換到每個子帶中的話音信號都用ADPCM進(jìn)行獨(dú)立編碼。在接收端，每個子帶中的信號單獨(dú)解碼之后重新組合，然后產(chǎn)生重構(gòu)話音信號；優(yōu)點(diǎn)

21、是每個子帶中的噪聲信號僅僅與該子帶使用的編碼方法有關(guān)系。對聽覺感知比較重要的子帶信號，可分配比較多的位數(shù)，在這些頻率范圍里噪聲就比較低。對于其他的子帶，由于對聽覺感知的重要性比較低，允許比較高的噪聲，于是可以分配比較少的位數(shù)來表示。 2.2.3 音源編譯碼器音源編譯碼的思想是試圖從話音波形信號中提取生成話音的參數(shù)，使用這些參數(shù)通過話音生成模型重構(gòu)出話音。針對話音的音源編譯碼器稱做聲碼器（vocoder）。在話音生成模型中，聲道被等效成一個隨時間變化的濾波器，叫做時變?yōu)V波器（time-varying filter）,它由白噪聲無聲話音段激勵，或脈沖串有聲激勵構(gòu)成。需要傳送給解碼器的信息就是濾

22、波器的規(guī)格、發(fā)聲或者不發(fā)聲的標(biāo)志和有聲話音的音節(jié)周期，并且每隔1020ms更新一次。聲碼器的模型參數(shù)既可使用時域的方法也可用頻域的方法確定，這項任務(wù)由編碼器完成。聲碼器的數(shù)據(jù)率在 2.4kb/s 左右，產(chǎn)生的語音雖然可以聽懂，但其質(zhì)量遠(yuǎn)遠(yuǎn)低于自然話音。增加數(shù)據(jù)率對提高合成話音的質(zhì)量無濟(jì)于事，這是因為受到聲音生成模型的限制，但由于其保密性能好，因此這種編譯碼器一直用在軍事上。3.4 混合編譯碼器混合編譯碼的想法是企圖填補(bǔ)波形編譯碼和音源編譯碼之間的間隔。波形編譯碼器雖然可提供高話音的質(zhì)量，但數(shù)率低于16kb/s時，在技術(shù)上還沒有解決音質(zhì)的問題；聲碼器的數(shù)據(jù)率雖然可降到2.4kb/s 甚至更低，但

23、它的音質(zhì)根本不能與自然話音相比。目前最為成功并普遍使用的編譯碼器是時域合成-分析（analysis-by-synthesis, AbS）編譯碼器。包括：線性預(yù)測編碼（linear predictive coding, LPC，碼激勵線性預(yù)測（code excited linear predictive, CELP） AbS編譯碼器把輸入話音信號分成許多幀（frames），通常每幀的長度為20ms。合成濾波器的參數(shù)按幀計算，然后確定各項激勵參數(shù)。 AbS編碼器是一個負(fù)反饋系統(tǒng)，通過調(diào)節(jié)激勵信號使重構(gòu)的話音與實際的話音最接近，即編碼器通過“合成”許多不同的近似值來“分析”輸入話音信號。在表示每幀的

24、合成濾波器的參數(shù)和激勵信號確定之后，編碼器就把它們存儲起來或者傳送到譯碼器。在譯碼器端，激勵信號饋送給合成濾波器，合成濾波器產(chǎn)生重構(gòu)的話音信號。 CELP編譯碼器在話音通信中取得了很大的成功，話音的速率在4.816kb/s之間。數(shù)據(jù)率為2.464kb/s的部分編碼器MOS分?jǐn)?shù)如下：編碼器MOS64kb/s脈沖編碼碼調(diào)制(PCM)4.332kb/s自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)4.116kb/s低時延碼激勵線性預(yù)測編碼(LD-CELP)4.08kb/s碼激勵線性預(yù)測編碼(CELP)3.73.8kb/s碼激勵線性預(yù)測編碼(CELP)3.02.4kb/s線性預(yù)測編碼(LPC)2.5 IT

25、U-T G系列聲音壓縮標(biāo)準(zhǔn)G.7111972年CCITT為電話質(zhì)量和語音壓縮制定了PCM標(biāo)準(zhǔn)G.711。其速率為64kb/s，使用律或A律的非線性量化技術(shù)，主要用于公共電話網(wǎng)中。G.7221988年CCITT為調(diào)幅廣播質(zhì)量的音頻信號壓縮制定了G.722標(biāo)準(zhǔn)，它使用子帶編碼(SBC)方案，其濾波器組將輸入信號分成高低兩個子帶信號，然后分別使用ADPCM進(jìn)行編碼。G.722能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號壓縮為64kb/s，主要用于視聽多媒體和會議電視等。G.722的主要目標(biāo)是保持64kb/s的數(shù)據(jù)率，而音頻信號的質(zhì)量要明顯高于G.711的質(zhì)量。G.7231996年ITU-T通過了G.7

26、23標(biāo)準(zhǔn)“用于多媒體傳輸?shù)?.3kb/s或6.3kb/s雙速率話音編碼”。它采用多脈沖激勵最大似然量化(MP-MLQ)算法，此標(biāo)準(zhǔn)可應(yīng)用于可視電話及IP電話等系統(tǒng)中。G.728為了進(jìn)一步降低壓縮的速率，CCITT于1992年制定了G.728標(biāo)準(zhǔn)，使用基于低時延碼本激勵線性預(yù)測編碼(LD-CELP)算法，其速率為16kb/s，主要用于公共電話網(wǎng)中。G.729ITU-T于1996年3月通過了G.729標(biāo)準(zhǔn)，它使用8kb/s的共軛結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測(CS-ACELP)算法，此標(biāo)準(zhǔn)將在無線移動網(wǎng)、數(shù)字多路復(fù)用系統(tǒng)和計算機(jī)通信系統(tǒng)中應(yīng)用。部分聲音壓縮編碼方法比較2.3音頻壓縮編碼與標(biāo)準(zhǔn)自適應(yīng)PCM

27、量化APCM 自適應(yīng)PCM量化是指量化器的特性自適應(yīng)于輸入信號幅度的變化，即一個自適應(yīng)量化器的量化間隔自適應(yīng)的改變，并與輸入信號的幅度方差保持相匹配。也可在一個固定的量化器前加一個自適應(yīng)增益控制，使進(jìn)入量化器的輸入信號方差保持為固定的常數(shù)。兩種方法是等效的。APCM可進(jìn)一步提高信噪比（與LOG-PCM相比）。2.3音頻壓縮編碼與標(biāo)準(zhǔn)壓縮編碼標(biāo)準(zhǔn)： 1972年，ITU G.711標(biāo)準(zhǔn)，8kHz, 16bit，輸入信號經(jīng)律或A律PCM，64kb/s1984年，ITU G.721，采用ADPCM: 適用于3003400Hz窄帶語音信號，32kb/sITU G.722，507000Hz寬帶語音信號，數(shù)

28、據(jù)速率為64kb/s ，ISDN的B通道上傳輸音頻數(shù)據(jù)。1989年開始，ITU 16kb/s，歐洲為GSM制定的RPE-LTP (13kb/s)，美國CTLA標(biāo)準(zhǔn)ISO MPEG音頻分三個層次(Layer1,2,3MP1,2,3)音頻編碼算法和標(biāo)準(zhǔn)一覽 2.3音頻壓縮編碼與標(biāo)準(zhǔn)MPEG Audio Layer 3 MP3 “感官編碼技術(shù)”：實驗表明，人類能聽到的聲音頻率范圍是20Hz20kHz，但人耳對整個音頻頻段聲音的反應(yīng)不是平直的，25kHz是人耳最靈敏的頻段。依其特性將整個音頻頻段分成多個臨界頻帶，因為人類聽覺系統(tǒng)是依據(jù)頻率來分辨聲音能量的，任何頻率的細(xì)小聲音都會因掩蔽效應(yīng)而被臨界頻

29、帶內(nèi)音量較高的聲音所覆蓋（掩蔽效應(yīng)）。MP3對其不作量化處理，從而去掉那些人類聽覺系統(tǒng)所無法察覺的聲音，達(dá)到壓縮的目的。MP3：子帶編碼、輔助子帶編碼、非均勻量化、熵編碼有損壓縮方式，但它以極小的聲音失真換來較高的壓縮比 MP1壓縮率1：4 MP2壓縮率1：61：8 MP3壓縮率1：101：122.4常見音頻文件1) WAV 又稱為波形文件，微軟公司音頻文件，采用RIFF格式描述。該格式記錄了聲音的波形，它不對數(shù)據(jù)進(jìn)行壓縮，所以文件很大，但只要“拾音”設(shè)備足夠好，制作的聲音質(zhì)量可以達(dá)到專業(yè)級水平。文件大小計算公式：S=RD(r/8) N 2) VOC Creative公司用標(biāo)準(zhǔn)音頻格式，與W

30、AV格式類似，由文件頭和音頻數(shù)據(jù)組成。如：激光唱盤(CD)一分鐘音樂需要的存儲量為:44.110006016/82=10,584,000B(字節(jié))=10.1MB2.4常見音頻文件3) MP3 采用MPEG Audio 的Layer-3壓縮方案，壓縮比達(dá)到1：101：12，用一張MP3 CD可以容納大約10張激光唱片的歌曲，是目前網(wǎng)上常用的音樂格式。4) MP4 MPEG2 AAC (Advanced Audio Coding) MP4以MPEG2 AAC為基礎(chǔ)發(fā)展而來。它的特點(diǎn)是音質(zhì)更加完美而壓縮比更大(1:15-1:20)。與MP3一樣采用刪除人耳不能分辨頻率的方式減小數(shù)據(jù)量，但是MP4又增

31、加了諸如對立體聲的完美再現(xiàn)、比特流效果音掃描、多媒體控制、降噪等MP3沒有的特性，使得在音頻壓縮后仍能完美的再現(xiàn)CD的音質(zhì)。2.4常見音頻文件5) RA格式（.RA, .RM, .RAM） RealNetwork公司的RealAudio格式，它的壓縮比很大，非常適合在網(wǎng)上實時播放，是現(xiàn)在網(wǎng)絡(luò)實時播放的主要格式之一。7) AIFF Audio Interchange File Format, 音頻交換文件格式，是蘋果公司Macintosh平臺及其應(yīng)用程序支持。6) CDA 激光唱片的格式，記錄的是波形流，純正、HIFI。采樣位數(shù)多為16位，現(xiàn)在也經(jīng)?？吹?0位、24位、36位采樣錄音CDA。缺點(diǎn)

32、是無法編輯和文件長度太大。2.4常見音頻文件10) MIDI 作為音樂工業(yè)的數(shù)據(jù)通信標(biāo)準(zhǔn)，MIDI是一種專業(yè)性的語言，他的科學(xué)性、兼容性、復(fù)雜程度等各方面都是最高的。回放效果也是最好的。11) WMAudio 微軟開發(fā)中的WMT 4.0(Windows Media Technology)的一個組件。最受人矚目的是其著作權(quán)保護(hù)技術(shù)。在WMT 4.0中包括有“著作權(quán)管理”功能，通過它著作權(quán)人可以保護(hù)自己的著作權(quán)。在壓縮技術(shù)方面WMAudio著眼于使用28.8kbps的MODEM達(dá)到FM水準(zhǔn)的音質(zhì)，下載速度比MP3快兩倍左右，而存貯空間只有一半。無論從技術(shù)性能還是壓縮率上，WMA都比MP3好。附：

33、WAV文件頭格式Typedef struct DWORDrftype; /固定為字符串“RIFF” DWORDwbSize; /波形塊的大?。ㄎ募笮p8） DWORDwftype;/wav文件標(biāo)志，固定為字符串“WAVE” DWORDftype;/固定為字符串“fmt” DWORDBlockSize;/格式塊的大小 WORD wFormatTag;/記錄波形編碼格式。為WAVE_FORMAT_PCM WORDnChannels;/記錄波形文件數(shù)據(jù)中的通道數(shù) DWORDnSamplesPerSec; /記錄波形文件的采樣率 DWORDnAvgBytesPerSec; /平均每秒波形音頻數(shù)據(jù)所需

34、要的字節(jié)數(shù) DWORDnBlockAlign; /記錄一個采樣所需要的字節(jié)數(shù) WORDwBitsPerSample; /每個采樣的位數(shù) DWORDdataflag; /固定為字符串“data” DWORDfSize; /波形文件大小PCMWAVEFORMAT; WAV文件開始是46個字節(jié)的文件頭，之后是波形數(shù)據(jù)。文件頭如下：樂器數(shù)字接口（Musical Instrument Digital Interface, MIDI）是用于在音樂合成器（music synthesizers）、樂器（musical instruments）和計算機(jī)之間交換音樂信息的一種標(biāo)準(zhǔn)協(xié)議。MIDI是樂器和計算機(jī)使用的一套標(biāo)準(zhǔn)語言和指令。指示樂器（即MIDI設(shè)備）要做什么，怎么做，如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號，而是發(fā)給MIDI設(shè)備讓其產(chǎn)生聲音或執(zhí)行某個動作的指令。2.5 MIDI簡介MIDI標(biāo)準(zhǔn)的優(yōu)點(diǎn)：生成的文件比較小，容易編緝，可以作背影音樂。MIDI音樂合成方法有兩種：一種是頻率調(diào)制（frequency modulation, FM）合成法，另一

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多媒體圖像處理-聲音資料

文檔簡介

溫馨提示

最新文檔

評論

多媒體圖像處理-聲音資料

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔