版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二章多媒體音頻技術【教學目的與要求】理解:數(shù)字音頻采集和量化的基本原理掌握:數(shù)字音頻的文件格式了解:音頻編碼的原理、音樂合成和MIDI規(guī)范了解:多媒體計算機音頻技術的應用第二章多媒體音頻技術數(shù)字音頻的采集和量化、數(shù)據(jù)量計算公式;聲卡的構成、分類、主要性能指標;常用的壓縮編碼算法;【難重點】第二章多媒體音頻技術Samplingrate:采樣頻率AudioCompression:音頻壓縮MIDI(MusicalInstrumentDigitalInterface
):音樂設備數(shù)字接口【外語詞匯】第二章多媒體音頻技術§2.1數(shù)字音頻基礎§2.2聲卡的組成與工作原理§2.3音樂合成與MIDI規(guī)范§2.4音頻編碼基礎§2.5多媒體音頻技術的應用§2.1
數(shù)字音頻基礎一、聲音心理學二、音頻的數(shù)字化三、數(shù)字音頻的文件格式一、聲音心理學
1.聲音的量綱
聲音的振動是一種正弦波,聲音的變化必須確定三件事:頻率(變化的速度)、幅度(產生的壓力)、相位(何時開始)。
另外一方面,人們可以感覺到聲音的強弱,可以感覺到歌唱家音調的高低。因此,聲音的量綱分為聲音的物理量綱和心理量綱。一、聲音心理學
物理量綱可以用精確的值來描述,但對某一具體聲音得來的心理印象卻不容易說明白,因為心理印象要由被測者的經驗而定。聲音的心理屬性和物理屬性不可等同,首先,這些關系不是線性的;其次這些關系不是孤立的;第三這些關系不是不變的。一、聲音心理學2.聽覺特性
等響曲線描述的是響度與頻率和強度的關系。從聲音心理學考慮,對同一響度的聲音在頻率上和強度上可以有很大的差別,這對聲音表現(xiàn)有重要意義。等響曲線由于響度與頻率和強度有關,所以在不同頻率上的強度是不同的。先設一個音為標準音,給予固定的頻率、強度和持續(xù)時間,例如1000Hz、40分貝、持續(xù)0.5秒;再給一個音也持續(xù)0.5秒,但頻率不同,通過調整使其響度聽起來一樣,得到的這樣一組曲線稱之為等響曲線。一、聲音心理學掩蔽(masking)
聲音的響度不僅取決于自身的強度和頻率,而且也依賴于同時出現(xiàn)的其它聲音。各種聲音可以互相掩蔽,也就是說一種聲音的出現(xiàn)可能使得另一種聲音難于聽清。由于聲音的掩蔽效果,可以欺騙人的聽覺。例如,本來是多種頻率的聲音的復合,但聽眾以為是另一種聲音。一、聲音心理學相位從聲音的波形來看,聲音的起點和方向也要反映聲音的特性,這就是聲音的相位。當兩個聲音相同相位完全相反時,它們將相互抵消;當兩個聲音相同而且相位也相同時,聲音就會得到加強。相位的確定對于多聲道聲音系統(tǒng)的設計非常重要,其可以應用在回聲的消除、會議系統(tǒng)的聲音設計上。一、聲音心理學聽覺空間人耳可聽到來自各個方向的聲音,并用不同的因素來判定聲源的位置。聲源的位置不論對于增進人們的感受還是增進對聲音的理解,都是非常重要的。通過聲音的精確再現(xiàn),就可以構造出聽覺空間。方位的線索是各種聲音到達兩耳的精確時間和強度。一、聲音心理學聲音的心理模擬
通過人工真實的方法,可以對視覺空間的景物進行再造或虛構,同樣也可以對聽覺空間的聲音進行心理的模擬,這就是所謂的可聽化(audiolization)。利用聲音屬性可以表達出一些聲音的效果。如以虛擬的湍流為例,用聲音的高低可以表示流體的粘度,低音表示流體很粘,高音則不粘。二、音頻的數(shù)字化聲音的基本概念:
聲音是通過一定介質傳播的一種連續(xù)波。t振幅周期A聲波:二、音頻的數(shù)字化聲音按頻率分類:次聲波可聽聲波超聲波20Hz20kHzf(Hz)人類說話聲音頻率范圍:300Hz--3kHz1020502003.4k7k15k20kCD-DAFM廣播AM廣播電話f(Hz)頻帶(亞音信號)(音頻信號)(超音頻信號)聲音質量的頻率范圍:二、音頻的數(shù)字化聲音信號的類型模擬信號(自然界、物理)
數(shù)字信號(計算機)--模擬信號:在時間和幅度上都是連續(xù)的信號--數(shù)字信號:時間和幅度都用離散的數(shù)字表示的信號二、音頻的數(shù)字化采樣量化編碼模擬信號數(shù)字信號模擬信號數(shù)字信號A/DADCD/ADAC聲音信號的數(shù)字化過程二、音頻的數(shù)字化聲音數(shù)字化過程圖示:連續(xù)的模擬聲音信號聲音信號的采樣離散的音頻信號順序二、音頻的數(shù)字化聲音數(shù)字化的兩個步驟:采樣量化采樣是每隔一段時間讀一次聲音信號的幅度。量化是把采樣得到的聲音信號幅度轉換為數(shù)字值。
聲音的采樣以及量化圖二、音頻的數(shù)字化均勻采樣:
–每隔相等的一小段時間采樣一次線性量化:
–
如果對信號幅度的劃分是等間隔的,就稱為線性量化非線性量化
–基本思想是,對輸入信號量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔。二、音頻的數(shù)字化與音頻數(shù)字化相關的重要特性:采樣頻率
指每秒鐘所抽取聲波幅度樣本的次數(shù)。采樣頻率的計算單位是kHz。采樣頻率與聲音的質量關系最為緊密。采樣頻率越高,聲音質量越接近原始聲音,所需的存儲量便越多。標準的采樣頻率有三個:44.1KHz,22.05kHz,和11.025kHz。二、音頻的數(shù)字化奈奎斯特理論(Nyquisttheory):采樣頻率不應低于聲音信號最高頻率的兩倍,這樣就能把以數(shù)字表達的聲音還原成原來的聲音,這叫做無損數(shù)字化(losslessdigitization)fs≥2fmax電話話音的信號頻率約為3.4kHz,采樣頻率選為8kHz。
二、音頻的數(shù)字化采樣精度(采樣位數(shù))
—
(bitpersample,bps)
存放一個采樣點所需的比特數(shù)。它反映了每個采樣點能夠表示的數(shù)據(jù)范圍。一般的采樣位數(shù)為8位或16位,即把聲音采集為256等份或65536等分。量化位數(shù)越高音質越好,但數(shù)據(jù)量也大
二、
音頻的數(shù)字化聲道數(shù)
紀錄聲音時,如果每次生成1個聲波數(shù)據(jù),稱為單聲道;每次生成2個聲波數(shù)據(jù),稱為立體聲(雙聲道),立體聲更能反映人的聽覺感受。有單聲道、雙聲道和多聲道。如多種語言音頻混存時,需要多聲道。二、
音頻的數(shù)字化數(shù)據(jù)量可以用下面的公式估算聲音數(shù)字化后每秒所需的存儲量:
(采樣頻率×每點采樣位數(shù)×聲道數(shù))數(shù)據(jù)量=
8(字節(jié)/秒)二、
音頻的數(shù)字化例:數(shù)字激光唱盤(CD-DA,紅皮書標準)的標準采樣頻率為44.1kHz,量化位數(shù)為16位,立體聲(這就是所謂的CD音質),可以幾乎無失真地播出頻率高達22kHz的聲音,這也是人耳所能聽到的最高聲音頻率。1分鐘CD-DA音樂所需要的存儲量為多少?(44.1*1000*16*2*60)/8=10584000B二、
音頻的數(shù)字化聲音數(shù)字化三要素:采樣頻率量化位數(shù)聲道數(shù)每秒鐘抽取聲波幅度樣本的次數(shù)每個采樣點用多少二進制位表示數(shù)據(jù)范圍使用聲音通道的個數(shù)采樣頻率越高聲音質量越好數(shù)據(jù)量也越大量化位數(shù)越多音質越好數(shù)據(jù)量也越大立體聲比單聲道的表現(xiàn)力豐富,但數(shù)據(jù)量翻倍11.025kHz22.05kHz44.1kHz
8位=256個值16位=65536個值單聲道立體聲三、數(shù)字音頻的文件格式1、波形音頻
波形音頻是多媒體計算機獲得聲音最直接、最簡便的方式。在這種方式中,聲卡對輸入源聲音采樣、量化,完成A/D轉換,并以適當?shù)母袷酱嫒胗脖P。聲音重放時,聲卡再完成D/A轉換……波形文件是windows所使用的標準數(shù)字音頻文件,文件擴展名是.WAV三、數(shù)字音頻的文件格式
wav是Microsoft/IBM共同開發(fā)的PC波形文件。因未經壓縮,文件數(shù)據(jù)量很大。特點:聲音層次豐富,還原音質好缺點:文件太大,不適合長時間記錄。
2.
MP3文件
MP3(MPEGAudiolayer3)是一種按MPEG標準的音頻壓縮技術制作的音頻文件。特點:高壓縮比(11:1),優(yōu)美音質三、
數(shù)字音頻的文件格式
3.WMA文件
WMA(WindowsMediaAudio)是Windows
Media格式中的一個子集(音頻格式)。特點:壓縮到MP3一半
4.MID文件
MIDI(樂器數(shù)字接口)是由一組聲音或樂器符號的集合。特點:數(shù)據(jù)量很小,缺乏重現(xiàn)自然音四、音頻信號的特點
1、音頻信號是時間依賴的連續(xù)媒體。具有很強的連續(xù)性和時變性;
2、計算機模擬自然聲音時,理想的合成聲音應是立體聲。
3、語音信號的處理四、音頻信號的特點
從人與計算機交互的角度看,音頻信號的處理包括下述3點:計算機與人通信,也就是計算機輸出音頻。包括音樂合成、語音合成、聲音的定位以及音頻視頻的同步。人-計算機-人通信。人通過網(wǎng)絡與異地的人進行語音通信,相關的音頻處理有語音采集、音頻的編碼和解碼、音頻的存儲、音頻的傳輸、基于內容的檢索等。人與計算機通信,也就是計算機接收音頻信號。包括音頻獲取、語音的識別和理解?!?.2
聲卡與音箱一、聲卡的構成原理二、聲卡的性能指標三、音箱聲卡是負責錄音、播音和聲音合成的一種多媒體板卡。一、聲卡(又稱聲音卡、音頻卡)①錄制、編輯和回放數(shù)字音頻文件②控制和混合各聲源的音量③記錄和回放音頻時進行壓縮和解壓縮④語音合成技術(朗讀文本)⑤具有MIDI接口(樂器數(shù)字接口)1.聲卡的主要功能
2.聲卡的組成原理線性輸出總線接口芯片數(shù)字音頻處理芯片音樂合成器A/D和D/AMIDI接口混音器CD接口計算機總線話筒輸入線性輸入揚聲器輸出3.聲卡的性能指標
⑴采樣和量化能力
衡量音響器材音質好壞。
采樣頻率:11.025kHz(語音效果)22.05kHz(音樂效果)44.1kHz(高保真效果)
量化等級:8位/256級(語音質量)16位/65536級(高保真質量)
(2)FM合成與波形表
大多數(shù)普及型聲卡采用FM合成法(與家用電子琴類似),即通過正弦波相互調制來模擬真實的樂器聲音。較好的聲卡采用的是波形表合成技術來實現(xiàn)音樂合成(即所謂的波表卡)。波形表包含有真實樂器聲音波形的數(shù)字記錄,在演奏時將相應樂器的波形記錄播放出來。
(3)芯片類型
-CODEC芯片(依賴CPU,價格便宜)-數(shù)字信號處理器DSP(不依賴CPU)
(4)總線類型
-ISA總線、PCI總線、USB接口
(5)輸出聲道數(shù)
-2聲道(立體聲)、2.1/4.1/5.1聲道多通道聲卡(營造杜比環(huán)繞立體聲)
(6)信噪比(SNR)
-信噪比越高,聲音聽起來就越清晰4.聲卡的外部接口二
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 維權申訴管理制度
- 精準醫(yī)學研究倫理行為指南
- 施工過程安全控制方法和措施
- 初中英語教師集體備課心得體會
- 裝修施工協(xié)議
- 文明施工管理措施計劃
- 農村土地承包經營權轉包合同
- 關于設立分公司的申請書范文
- 體衛(wèi)藝活動方案范例(2篇)
- 2025年上半年學生會工作總結模版(2篇)
- 2024年工貿重點企業(yè)有限空間作業(yè)專家指導服務專題培訓
- 2024年注冊安全工程師考試題庫及參考答案【完整版】
- 第十二章 全等三角形 作業(yè)設計-2023-2024學年人教版八年級數(shù)學上冊
- 建筑結構荷載規(guī)范DBJ-T 15-101-2022
- 制藥專業(yè)畢業(yè)設計開題報告
- 普通心理學智慧樹知到期末考試答案2024年
- 青少年涉毒問題監(jiān)測制度
- 征兵眼科科普知識講座
- 人工智能在醫(yī)療健康領域的應用探索報告
- 高二上學期數(shù)學期末測試卷01-【好題匯編】備戰(zhàn)2023-2024學年高二數(shù)學上學期期末真題分類匯編(人教A版2019選擇性必修第一、二冊)(原卷版)
- 環(huán)評驗收方案
評論
0/150
提交評論