第2章數(shù)字音頻基礎(chǔ)_第1頁
第2章數(shù)字音頻基礎(chǔ)_第2頁
第2章數(shù)字音頻基礎(chǔ)_第3頁
第2章數(shù)字音頻基礎(chǔ)_第4頁
第2章數(shù)字音頻基礎(chǔ)_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、學(xué)習(xí)要點(diǎn):學(xué)習(xí)要點(diǎn): 了解聲音信號的特征 掌握數(shù)字化音頻獲取方法和格式 了解MIDI的相關(guān)知識和設(shè)備 了解數(shù)字化編碼的分類及應(yīng)用 聲音是攜帶信息的極其重要的媒體,聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研究中的一個(gè)重要內(nèi)容。聲是多媒體技術(shù)研究中的一個(gè)重要內(nèi)容。聲音的種類繁多,如人的話音、樂器聲、動音的種類繁多,如人的話音、樂器聲、動物發(fā)出的聲音、機(jī)器產(chǎn)生的聲音以及自然物發(fā)出的聲音、機(jī)器產(chǎn)生的聲音以及自然界的雷聲、風(fēng)聲、雨聲等等。在用計(jì)算機(jī)界的雷聲、風(fēng)聲、雨聲等等。在用計(jì)算機(jī)處理這些聲音的時(shí)候,既要考慮這些聲音處理這些聲音的時(shí)候,既要考慮這些聲音的共性,又要利用它們的各自的特性。的共性,又要

2、利用它們的各自的特性。2.1 2.1 聲音數(shù)字化聲音數(shù)字化 聲音是人們傳遞信息的最方便、最快捷、最熟悉的方式。在多媒體系統(tǒng)中,聲音是人耳能直接能夠識別的音頻信息。人們通過計(jì)算機(jī)進(jìn)行聊天、錄音都是使用計(jì)算機(jī)來處理聲音信息,那么聲音的數(shù)字化也是多媒體所研究的重要范疇之一。2.1.1 2.1.1 聲音概述聲音概述 是一種波動現(xiàn)象是一種波動現(xiàn)象 是縱波,它也具有一般的波是縱波,它也具有一般的波的屬性和行為的屬性和行為 主要物理特性有聲音的強(qiáng)度主要物理特性有聲音的強(qiáng)度和頻率和頻率 1.1.聲音的強(qiáng)度聲音的強(qiáng)度信噪比信噪比 其中,Psignal為信號功率(Power of Signal),Pnoise為噪

3、聲功率(Power of Noise),Asignal為信號幅度(Amplitude of Signal),Anoise為噪聲幅度(Amplitude of Noise)。 2.2.聲音的頻率聲音的頻率 2.1.2 2.1.2 聲音數(shù)字化聲音數(shù)字化振幅時(shí)間 模擬信號非常復(fù)雜,通常需要經(jīng)過采樣、量化、編碼3個(gè)步驟將連續(xù)變化的模擬信號轉(zhuǎn)換為數(shù)字信號。 要把模擬信號轉(zhuǎn)換成數(shù)字信號,需要每隔一定的時(shí)間間要把模擬信號轉(zhuǎn)換成數(shù)字信號,需要每隔一定的時(shí)間間隔在模擬聲音波形上取一個(gè)電壓幅度值。把時(shí)間上連續(xù)的模隔在模擬聲音波形上取一個(gè)電壓幅度值。把時(shí)間上連續(xù)的模擬信號變成離散的有限個(gè)樣值的信號稱之為采樣。采樣頻

4、率擬信號變成離散的有限個(gè)樣值的信號稱之為采樣。采樣頻率的選取是根據(jù)奈奎斯特理論和聲音最高頻率決定的。的選取是根據(jù)奈奎斯特理論和聲音最高頻率決定的。常用的采樣頻率分別為:常用的采樣頻率分別為:44.1kHz、22.05kHz、11.025kHz和和8kHz。2.1.2 2.1.2 聲音數(shù)字化聲音數(shù)字化 由于采樣得到的表示聲音強(qiáng)弱的模擬電壓幅值是連續(xù)的,由于采樣得到的表示聲音強(qiáng)弱的模擬電壓幅值是連續(xù)的,把無窮多個(gè)電壓幅值用有限個(gè)數(shù)字表示,稱之為量化。在量把無窮多個(gè)電壓幅值用有限個(gè)數(shù)字表示,稱之為量化。在量化過程中可以選擇均勻量化和非均勻量化。量化精度是指每化過程中可以選擇均勻量化和非均勻量化。量化

5、精度是指每個(gè)采樣點(diǎn)所表示的數(shù)據(jù)位數(shù)。不同的位數(shù)決定了不同的音質(zhì),個(gè)采樣點(diǎn)所表示的數(shù)據(jù)位數(shù)。不同的位數(shù)決定了不同的音質(zhì),位數(shù)越多,精度越高,對原始波形的模擬就越細(xì)膩,失真度位數(shù)越多,精度越高,對原始波形的模擬就越細(xì)膩,失真度也就越小。也就越小。 2.1.2 2.1.2 聲音數(shù)字化聲音數(shù)字化 編碼是按一定的格式將離散的數(shù)字信號記錄下來,并在編碼是按一定的格式將離散的數(shù)字信號記錄下來,并在數(shù)據(jù)的前、后加上同步、糾錯(cuò)等控制信號的過程,即用二進(jìn)數(shù)據(jù)的前、后加上同步、糾錯(cuò)等控制信號的過程,即用二進(jìn)制數(shù)表示每個(gè)采樣的量化值,完成整個(gè)模數(shù)轉(zhuǎn)換過程。制數(shù)表示每個(gè)采樣的量化值,完成整個(gè)模數(shù)轉(zhuǎn)換過程。 音頻編碼有許

6、多標(biāo)準(zhǔn),分別用于不同的應(yīng)用環(huán)境。最常音頻編碼有許多標(biāo)準(zhǔn),分別用于不同的應(yīng)用環(huán)境。最常用的壓縮標(biāo)準(zhǔn)有脈沖編碼調(diào)制和自適應(yīng)差分脈沖編碼調(diào)制用的壓縮標(biāo)準(zhǔn)有脈沖編碼調(diào)制和自適應(yīng)差分脈沖編碼調(diào)制 。2.1.2 2.1.2 聲音數(shù)字化聲音數(shù)字化2.1.3 2.1.3 奈奎斯特采樣定理奈奎斯特采樣定理 奈奎斯特采樣定理即在進(jìn)行模擬/數(shù)字信號的轉(zhuǎn)換過程中,當(dāng)采樣頻率fs.max大于信號中最高頻率fmax的2倍時(shí)(fs.max=2fmax),采樣之后的數(shù)字信號完整地保留了原始信號中的信息,一般實(shí)際應(yīng)用中保證采樣頻率為信號最高頻率的510倍。 2.1.4 2.1.4 音頻質(zhì)量與數(shù)據(jù)量音頻質(zhì)量與數(shù)據(jù)量 音質(zhì)是指聲音

7、的質(zhì)量,與頻率的范圍成正比,一般來說,聲音中的諧波成分越多,其所占據(jù)的頻率范圍越寬,聲音質(zhì)量也就越好,當(dāng)然對應(yīng)的數(shù)據(jù)量也就越大。 音頻質(zhì)量音頻質(zhì)量 未經(jīng)壓縮的數(shù)字化的聲音的數(shù)據(jù)量大小取決于對聲音信號作數(shù)字化處理時(shí)的采樣頻率和量化精度,并正比于采用的聲道數(shù)。 聲音的數(shù)據(jù)量公式可按照以下公式計(jì)算: 聲音數(shù)據(jù)量=采樣頻率量化精度8聲道數(shù)音頻數(shù)據(jù)量音頻數(shù)據(jù)量2.1.5 2.1.5 常見的音頻文件格式常見的音頻文件格式無損壓縮 無損的音頻格式壓縮比大約是2:1,解壓時(shí)不會產(chǎn)生數(shù)據(jù)/質(zhì)量上的損失,解壓產(chǎn)生的數(shù)據(jù)與未壓縮的數(shù)據(jù)完全相同。如需要保證音樂的原始質(zhì)量,應(yīng)當(dāng)選擇無損音頻編解碼器。例如,用免費(fèi)的TTA

8、無損音頻編解碼器你可以在一張DVD-R碟上存儲相當(dāng)于20張CD的音樂。2.1.5 2.1.5 常見的音頻文件格式常見的音頻文件格式有損壓縮 有損文件格式是基于聲學(xué)心理學(xué)的模型,除去人類很難或根本聽不到的聲音,例如:一個(gè)音量很高的聲音后面緊跟著一個(gè)音量很低的聲音。MP3就屬于這一類文件。 有損壓縮應(yīng)用很多,但在專業(yè)領(lǐng)域使用不多,有損壓縮具有很大的壓縮比,提供相對不錯(cuò)的聲音質(zhì)量。WAV波形音頻文件波形音頻文件 MIDI音頻文件音頻文件 層層技術(shù)壓縮之后的數(shù)字音頻文技術(shù)壓縮之后的數(shù)字音頻文 件。件。 MP3壓縮音頻文件壓縮音頻文件 Microsoft研制的一種壓縮離散文件或流式文件,它提供了一個(gè)研制

9、的一種壓縮離散文件或流式文件,它提供了一個(gè)MP3 之外的選擇機(jī)會。之外的選擇機(jī)會。WMA流式音頻文件流式音頻文件 該文件由于壓縮率較高常常用于網(wǎng)絡(luò)廣播。該文件由于壓縮率較高常常用于網(wǎng)絡(luò)廣播。 RA流式音頻文件流式音頻文件 PCM數(shù)字音頻文件數(shù)字音頻文件 TTA音頻文件音頻文件 Ogg音頻文件音頻文件 AAC音頻文件音頻文件 2.2 MIDI 2.2 MIDI (樂器數(shù)字接口)(樂器數(shù)字接口) 如果在一些多媒體項(xiàng)目中,我們想對聲音做處理,只需要在主板的擴(kuò)展槽上增加一塊聲卡,使用樂器數(shù)碼接口(Musical Instrument Digital Interface, MIDI)簡單的腳本語言以及硬

10、件配置方案,就能夠通過連接在主板上的擴(kuò)音器處理輸出聲音,通過連接到計(jì)算機(jī)上的麥克風(fēng)來錄制聲音,還能處理存儲在磁盤上的音頻文件。2.2.1 MIDI2.2.1 MIDI的相關(guān)知識的相關(guān)知識 MIDI是一個(gè)工業(yè)標(biāo)準(zhǔn)的電子通信協(xié)定,為電子樂器等演奏裝置(如合成器)定義各種音符或彈奏碼,容許電子樂器、計(jì)算機(jī)或其他的演奏配備彼此連接,調(diào)節(jié)和同步,得即時(shí)交換演奏數(shù)據(jù)。 MIDI不傳送聲音,只傳送如音調(diào)和音樂強(qiáng)度等數(shù)碼數(shù)據(jù)、音量、抖音和panning(讓聲音交替地從左右聲道上發(fā)出,產(chǎn)生聲的立體效果)等參數(shù)的控制信號,還有設(shè)定節(jié)奏的時(shí)鐘信號。 現(xiàn)在,幾乎所有的音樂錄音將MIDI作為一項(xiàng)關(guān)鍵開放技術(shù)來記錄音樂。

11、除此之外,MIDI也用來控制包括錄音設(shè)備的硬件,如舞臺燈、效應(yīng)踏板等高性能的設(shè)備。最近,MIDI 已經(jīng)滲入移動電話領(lǐng)域。 2.2.2 MIDI2.2.2 MIDI設(shè)備設(shè)備1.MIDI合成器 調(diào)頻音樂合成器是用硬件芯片來實(shí)現(xiàn),使用波形發(fā)生器合成不同的聲音,具有聲音合成的任意性。即利用頻率調(diào)制原理產(chǎn)生出各種頻率的復(fù)合波形,以模擬各種樂器的聲音,比如單簧管、吉他、鼓等。 調(diào)頻音樂合成器調(diào)頻音樂合成器 波形表合成器事先把真實(shí)樂器發(fā)出的聲音經(jīng)過采樣、量化之后以數(shù)字形式記錄下來,固化在稱為聲波速查表的ROM區(qū)中,可以通過軟件來管理,并可以對聲音進(jìn)行混音、編輯和增強(qiáng)等處理。 波形表合成器波形表合成器2.2.

12、2 MIDI2.2.2 MIDI設(shè)備設(shè)備2.MIDI音序器 MIDI音序器(sequencer)是指一種用來以MIDI數(shù)據(jù)形式存儲和編輯一系列音樂事件的專用硬件。現(xiàn)在多指計(jì)算機(jī)上用于編輯音樂的軟件。3.MIDI鍵盤 MIDI鍵盤(keyboard)不會發(fā)出聲音,而是產(chǎn)生MIDI指令序列,這些指令序列稱為MIDI消息(MIDI messages)。 2.2.3 MIDI2.2.3 MIDI運(yùn)作運(yùn)作 計(jì)算機(jī)音樂也稱電子音樂,是由計(jì)算機(jī)音樂軟件創(chuàng)作、修改和編輯,再通過合成器把數(shù)字樂譜變換成聲音波形,再經(jīng)過混音后送到音箱播放的樂曲。 當(dāng)MIDI樂器演奏了一個(gè)音符的時(shí)候,它隨之將音符轉(zhuǎn)換成MIDI消息一

13、個(gè)典型的由鍵盤獲取的音符的MIDI消息的過程如下: 用戶以特定速率演奏中央C音符。此速率通常轉(zhuǎn)變成音符的音量,但也可以用合成器設(shè)定音符的音色。用戶改變按壓鍵盤按鍵的力度,這個(gè)技術(shù)稱為鍵后觸感。用戶釋放并停止演奏中央C音符。 2.3 2.3 數(shù)字音頻編碼數(shù)字音頻編碼 音頻信號數(shù)字化之后所面臨的一個(gè)問題是巨大音頻信號數(shù)字化之后所面臨的一個(gè)問題是巨大的數(shù)據(jù)量,這為存儲和傳輸帶來了壓力。例如,對的數(shù)據(jù)量,這為存儲和傳輸帶來了壓力。例如,對于于 C D 音 質(zhì) 的 數(shù) 字 音 頻 , 所 用 的 采 樣 頻 率 為音 質(zhì) 的 數(shù) 字 音 頻 , 所 用 的 采 樣 頻 率 為44.1kHz,量化精度為,

14、量化精度為16bit;采用雙聲道立體聲時(shí),;采用雙聲道立體聲時(shí),其數(shù)碼率約為其數(shù)碼率約為1.41 Mbit/s;1秒的秒的CD立體聲信號需立體聲信號需要約要約17KB的存儲空間。因此,為了降低傳輸或存的存儲空間。因此,為了降低傳輸或存儲的費(fèi)用,就必須對數(shù)字音頻信號進(jìn)行編碼壓縮。儲的費(fèi)用,就必須對數(shù)字音頻信號進(jìn)行編碼壓縮。 2.3.1 2.3.1 數(shù)字音頻編碼技術(shù)分類數(shù)字音頻編碼技術(shù)分類 波形編碼波形編碼 參數(shù)編碼參數(shù)編碼 將上述兩種編碼方法結(jié)合起來,采用混合編碼的方法,可以在較低的數(shù)碼率上得到較高的音質(zhì)。 混合編碼混合編碼 消費(fèi)電子類數(shù)字音響設(shè)備消費(fèi)電子類數(shù)字音響設(shè)備2.3.2 2.3.2 數(shù)

15、字音頻編碼的主要應(yīng)用數(shù)字音頻編碼的主要應(yīng)用 廣播節(jié)目制作系統(tǒng)廣播節(jié)目制作系統(tǒng) 多媒體應(yīng)用多媒體應(yīng)用 廣播電視數(shù)字化廣播電視數(shù)字化 通信系統(tǒng)通信系統(tǒng)2.3.32.3.3數(shù)字音頻編碼標(biāo)準(zhǔn)現(xiàn)狀和趨勢數(shù)字音頻編碼標(biāo)準(zhǔn)現(xiàn)狀和趨勢 國際電信聯(lián)盟(International Telecommunications Union,ITU)主要負(fù)責(zé)研究和制定與通信相關(guān)的標(biāo)準(zhǔn),作為主要通信業(yè)務(wù)的電話通信業(yè)務(wù)中使用的語音編碼標(biāo)準(zhǔn)均是由ITU負(fù)責(zé)完成的。其中用于固定網(wǎng)絡(luò)電話業(yè)務(wù)使用的語音編碼標(biāo)準(zhǔn)如ITU-T G.711等主要在光和其他傳送網(wǎng)組(ITU-T SG 15)完成,并廣泛應(yīng)用于全球的電話通信系統(tǒng)之中。 語音編碼標(biāo)準(zhǔn)發(fā)展及趨勢語音編碼標(biāo)準(zhǔn)發(fā)展及趨勢 2.3.32.3.3數(shù)字音頻編碼標(biāo)準(zhǔn)現(xiàn)狀和趨勢數(shù)字音頻編碼標(biāo)準(zhǔn)現(xiàn)狀和趨勢 音頻編碼標(biāo)準(zhǔn)主要由ISO的MPEG組來完成。MPEG1是世界上第一個(gè)高保真音頻數(shù)據(jù)壓縮標(biāo)準(zhǔn)。MPEG1是針對最多兩聲道的音頻而開發(fā)的。但隨著技術(shù)的不斷進(jìn)步和生活水準(zhǔn)的不斷提高,有的立體聲形式已經(jīng)不能滿足聽眾對聲音節(jié)目的欣賞要求,具有更強(qiáng)定位能力和空間效果的三維聲音技術(shù)得到蓬勃發(fā)展。 音頻編碼標(biāo)準(zhǔn)發(fā)展及趨勢音頻編碼標(biāo)準(zhǔn)發(fā)展

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論