版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、DSP芯片原理與應用錢慧主要內容主要內容 McBSP的的u律和律和A律硬件壓擴律硬件壓擴PAGE 3音頻編碼基礎 音頻處理涉及的內容音頻信號壓縮技術 音頻編碼標準 聲音卡的組成和工作原理 語音識別技術及應用音頻信號處理音頻信號處理PAGE 4音頻傳播媒體特征,也即聲波的物理特性。音頻的記錄和產生方式,包括模/數(shù)、數(shù)/模轉換;數(shù)據(jù)壓縮和聲音合成。音頻數(shù)據(jù)的編輯處理音頻信號的處理方法大致可分為兩類:一種是數(shù)字音頻方式,另一種是分析合成的方式音頻處理涉及的內容音頻處理涉及的內容音頻編碼基礎音頻編碼基礎聲音是攜帶信息的極其重要的媒體,是多媒體技術研究中的一個重要內容。聲音的種類繁多,如人的話音、樂器聲
2、、動物發(fā)出的聲音、機器產生的聲音以及自然界的聲音等。這些聲音有許多共同的特性,也有它們各自的特性。在用計算機處理這些聲音時,既要考慮它們的共性,又要利用它們的各自的特性。我們將研究聲音的基礎知識,掌握聲音數(shù)字化的兩個最基本的概念;了解基本的音頻信號編碼技術。音頻編碼基礎聲音信號的特點音頻信息的分類 音頻信號處理的方法 音頻文件的存儲格式 聲音質量的度量頻帶寬度音頻信號的頻帶越寬,所包含的音頻信號分量越豐富,音質越好動態(tài)范圍動態(tài)范圍動態(tài)范圍越大,信號強度的相對變化范圍越大,音響效果越好信噪比信噪比信噪比SNR(Signal to Noise Ratio)是有用信號與噪聲之比的簡稱。噪音可分為環(huán)境
3、噪音和設備噪音。信噪比越大,聲音質量越好。主觀度量法主觀度量法人的感覺機理對聲音的度量最有決定意義。感覺上的、主觀上的測試是評價聲音質量不可缺少的部分。當然,可靠的主觀度量值是較難獲得的音頻信息的分類音頻信息的分類規(guī)則音頻規(guī)則音頻是一種連續(xù)變化的模擬信號,可用一條連續(xù)的曲線來表示,稱為聲波。模擬信號的曲線無論多復雜,在任一時刻t0都可分解成一系列正弦波的線性疊加: 聲音信號的特點聲音是通過空氣傳播的一種連續(xù)的波,這種連續(xù)性表現(xiàn)在兩個方面,一個是時間上的連續(xù)性,另一方面是指它在幅度上是連續(xù)的。 音頻信號的特征: 基頻與音調 諧波與音色 幅度與音強 音寬與頻帶聲音信號的特點人的聽覺器官能感知的頻率
4、范圍為2020000Hz ,能感知的聲音幅度范圍在0120dB之間,而人的發(fā)音器官能夠發(fā)出的聲音頻率范圍為803,400Hz。 聲音是一種彈性波,聲音信號可以分成周期信號與非周期信號兩類。 聲音的質量與聲音的頻率范圍有關?;l與音調頻率是指信號每秒鐘變化的次數(shù)。人對聲音頻率的感覺表現(xiàn)為音調的高低,在音樂中稱為音高。音調正是由頻率所決定的。音樂中音階的劃分是在頻率的對數(shù)坐標(20log)上取等分而得的:諧波與音色諧波與音色nO稱為O的高次諧波分量,也稱為泛音。音色是由混入基音的泛音所決定的,高次諧波越豐富,音色就越有明亮感和穿透力。不同的諧波具有不同的幅值An 和相位偏移n ,由此產生各種音色效
5、果。幅度與音強幅度與音強 人耳對于聲音細節(jié)的分辨只有在強度適中時才最靈敏。人的聽覺響應與強度成對數(shù)關系。一般的人只能察覺出3分貝的音強變化,再細分則沒有太多意義。我們常用音量來描述音強,以分貝(dB=20log)為單位。在處理音頻信號時,絕對強度可以放大,但其相對強度更有意義,一般用動態(tài)范圍定義:動態(tài)范圍20log(信號的最大強度/信號的最小強度)(dB)音寬與頻帶音寬與頻帶頻帶寬度或稱為帶寬,它是描述組成復合信號的頻率范圍 音頻信號處理的方法 首先對聲音進行在時間軸和幅度兩個方面進行離散化。 音頻文件的存儲格式 目前比較流行的主要包括以下幾種: 主要用在PC上的以.wav(wavwavefo
6、rm) 為擴展名的文件格式; 主要用在Unix工作站上的以.au(auaudio)為擴展名的文件格式; 主要用在蘋果機和美國視算科技有限公司的工作站上的以.aiff和snd為擴展名的文件格式 PC機上比較流行的以.rm和.mp3 波形文件格式 .wav為擴展名的文件格式稱為波形文件格式 由IBM和微軟公司于1991年8月聯(lián)合開發(fā)的 部分音頻文件的后綴 聲音質量的度量 聲音的質量可以用聲音信號的帶寬和動態(tài)范圍來衡量,等級由高到低依次是DAT,CD,F(xiàn)M,AM和數(shù)字電話。聲音質量的度量還有兩種基本的方法:一種是客觀質量度量,另一種是主觀質量度量。 聲音客觀質量的度量主要用信噪比SNR (s sig
7、nal to n niose r ratio)。主觀質量度量最常用的方法有平均意見得分(m mean o opinion s score,MOS)。 音頻信號壓縮技術 概述脈沖編碼調制 增量調制 自適應脈沖編碼調制 差分脈沖編碼調制 自適應差分脈沖編碼調制 子帶編碼 概述 數(shù)據(jù)壓縮的主要依據(jù)是人耳朵的聽覺特性,使用“心理聲學模型”來達到壓縮聲音數(shù)據(jù)的目的:聽覺系統(tǒng)中存在一個聽覺閾值電平聽覺掩飾特性 脈沖編碼調制脈沖編碼調制PCM(Pulse Code Modulation)是一種模數(shù)轉換的最基本編碼方法模數(shù)轉換有兩個步驟:第一步是采樣,就是每隔一段時間間隔讀一次聲音的幅度;第二步是量化,就是把
8、采樣得到的聲音信號幅度轉換成數(shù)字值。采樣頻率采樣頻率采樣頻率是指一秒鐘內采樣的次數(shù)。采樣頻率的選擇應該遵循奈奎斯特(Harry Nyquist)采樣理論:如果對某一模擬信號進行采樣,則采樣后可還原的最高信號頻率只有采樣頻率的一半,或者說只要采樣頻率高于輸入信號最高頻率的兩倍,就能從采樣信號系列重構原始信號量化量化 量化位是兩化中一個十分重要的參數(shù),它是對模擬音頻信號的幅度軸進行數(shù)字化,決定了模擬信號數(shù)字化以后的動態(tài)范圍。由于計算機按字節(jié)運算,一般的量化位數(shù)為8位和16位。量化位越高,信號的動態(tài)范圍越大,數(shù)字化后的音頻信號就越可能接近原始信號,但所需要的存貯空間也越大。 量化有好幾種方法,但可歸
9、納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。如果采用相等的量化間隔對采樣得到的信號作量化,那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化,如圖所示。這種方法稱為脈沖編碼調制,用PCM表示 非線性量化非線性量化的基本想法是,對輸入信號進行量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔。在非線性量化中,采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應關系,一種稱為m律壓(縮)擴(展)算法,另一種稱為A律壓(縮)擴(展)算法。 m律壓(縮)擴(展)算法m律壓擴用在北美和日本等地區(qū)的數(shù)字電話通信中,按下面的式子確定量化輸入和輸出
10、的關系:式中:x為輸入信號幅度,規(guī)格化成-1 x 1; sgn(x)為x的極性;m為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,取100m500。 )1ln(/|)|1)ln(sgn()(mmmxxxFA律壓(縮)擴(展)算法A律(A-Law)壓擴用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中,按下面的式子確定量化輸入和輸出的關系:式中:x為輸入信號幅度,規(guī)格化成-1x1,sgn(x)為x的極性;A為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比。 1|/1),ln1/(|)|ln1)(sgn(/1|0,ln1/()()sgn()(xAAxAxAxAxAxxFA增量調制增量調制D
11、M(Delta Modulation)是一種預測編碼技術。 DM是對實際的采樣信號與預測的采樣信號之差的極性進行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實際的采樣信號與預測的采樣信號之差的極性為“正”,則用“1”表示;相反則用“0”表示。 DM波形編碼的原理圖 其中xi表示在i點的編碼輸出,yi表示輸入信號的實際值。模擬信號輸入幅度斜率過載粒狀噪聲編碼輸出量化階增量調制的缺點 一是會出現(xiàn)斜率過載,即增量調制器的輸出不能保持跟蹤輸入信號的快速變化 二是會產生粒狀噪聲。反饋回路輸出信號的最大變化速率受到量化階大小的限制,因為量化階的大小是固定的。 自適應脈沖編碼調制根據(jù)輸入信號幅度
12、的均方根值的變化來改變量化增量的一種編碼技術。 改變量化階大小的方法有兩種:一種稱為前向自適應(forward adaptation),另一種稱為后向自適應(backward adaptation)。 差分脈沖編碼調制 利用樣本與樣本之間存在的信息冗余度來進行編碼的一種數(shù)據(jù)壓縮技術。差分脈沖編碼調制的思想是,根據(jù)過去的樣本去估算下一個樣本信號的幅度大小,這個值稱為預測值,然后對實際信號值與預測值之差進行量化編碼,從而就減少了表示每個樣本信號的位數(shù)。 自適應差分自適應差分脈沖編碼調制脈沖編碼調制 它的核心想法是:利用自適應的思想改變量化增量的大?。皇褂眠^去的樣本值估算下一個輸入樣本的預測值,使實
13、際樣本值和預測值之間的差值總是最小。 子帶編碼使用一組帶通濾波器(b band-p pass f filter,BPF)把輸入音頻信號的頻帶分成若干個連續(xù)的頻段,每個頻段稱為子帶。對每個子帶中的音頻信號采用單獨的編碼方案去編碼。在信道上傳送時,將每個子帶的代碼復合起來。在接收端譯碼時,將每個子帶的代碼單獨譯碼,然后把它們組合起來,還原成原來的音頻信號。 音頻編碼標準 ITU-T G系列聲音壓縮標準 MP3壓縮技術 MP4壓縮技術 樂器數(shù)字接口MIDI ITU-T G系列聲音壓縮標準G.711 G.722 G.723 G.728 G.729 音頻編碼標準比較 G.711 1972年CCITT為電
14、話質量和語音壓縮制定了PCM標準G.711。其速率為64kb/s,使用律或A律的非線性量化技術,主要用于公共電話網(wǎng)中。 G.7221988年CCITT為調幅廣播質量的音頻信號壓縮制定了G.722標準,它使用子帶編碼(SBC)方案,其濾波器組將輸入信號分成高低兩個子帶信號,然后分別使用ADPCM進行編碼。G.722能將224kb/s的調幅廣播質量的音頻信號壓縮為64kb/s,主要用于視聽多媒體和會議電視等。 G.722的主要目標是保持64kb/s的數(shù)據(jù)率,而音頻信號的質量要明顯高于G.711的質量。 G.7231996年ITU-T通過了G.723標準“用于多媒體傳輸?shù)?.3kb/s或6.3kb/
15、s雙速率話音編碼”。它采用多脈沖激勵最大似然量化(MP-MLQ)算法,此標準可應用于可視電話及IP電話等系統(tǒng)中。 G.728為了進一步降低壓縮的速率,CCITT于1992年制定了G.728標準,使用基于低時延碼本激勵線性預測編碼(LD-CELP)算法,其速率為16kb/s,主要用于公共電話網(wǎng)中。 G.729ITU-T于1996年3月通過了G.729標準,它使用8kb/s的共軛結構代數(shù)碼激勵線性預測(CS-ACELP)算法,此標準將在無線移動網(wǎng)、數(shù)字多路復用系統(tǒng)和計算機通信系統(tǒng)中應用。 音頻編碼標準比較 MP3壓縮技術 MP3(即Motion Picture Experts Group-1 au
16、dio layer 3)是近年來發(fā)展非常迅速的一種音頻文件格式,具有文件小、音質佳的特點,它利用MPEG Audio Layer 3的技術將WAV文件再加以壓縮成為標準音頻CD文件的十二分之一。 在一張存放16首歌曲的74分鐘的CD上,可以存儲大約160首歌曲而且能夠播放14個小時之多。 MPEG音頻編碼標準 MPEG音頻編碼標準具有可伸縮性,根據(jù)采用的壓縮因子的不同可以獲得不同的音質。 MPEG采用分層編碼方式,其層次與壓縮因子的關系如下表所示 MP3的一些主要性能 MP4壓縮技術 MP4采用的是美國電話電報公司(ATT)所研發(fā)的、以“知覺編碼”為關鍵技術的a2b音樂壓縮技術,可將壓縮比成功
17、地提高到15:1(最大可達到20:1)而不影響音樂的實際聽感。MP4在加密和授權方面也做了特別的設計。 MP4的特點每首MP4樂曲就是一個擴展名為.exe的可執(zhí)行文件 更小的體積和更好的音質 獨特的數(shù)字水印 支持版權保護 比較完善的功能 樂器數(shù)字接口MIDI MIDI是樂器數(shù)字接口(Musical Instrument Digital Interface)的英文縮寫,是數(shù)字音樂/電子合成樂器的統(tǒng)一國際標準。 MIDI規(guī)范不僅定義了電腦音樂程序、音樂合成器及其它電子音樂設備交換音樂信號的方式,而且還規(guī)定了不同廠家的電子樂器與電腦連接的電纜和硬件及設備間數(shù)據(jù)傳輸?shù)膮f(xié)議,可用于為不同樂器創(chuàng)建數(shù)字聲音
18、,能很容易地模擬鋼琴、小提琴等傳統(tǒng)樂器的聲音。 樂器數(shù)字接口MIDI 相對于保存真實采樣數(shù)據(jù)的聲音文件,MIDI文件顯得更加緊湊,其文件的大小要比WAV文件小得多 MIDI本身并不能發(fā)出聲音,它是一個協(xié)議,只包含用于產生特定聲音的指令,而這些指令則包括調用何種MIDI設備的音色、聲音的強弱及持續(xù)的時間等。電腦把這些指令交由聲卡去合成相應的聲音(如依指令發(fā)出鋼琴聲或小提琴聲等)。 電腦播放MIDI文件時,有兩種方法合成聲音:FM合成和波表合成。聲音卡的組成和工作原理 聲音卡的發(fā)展歷史 聲音卡的聲道 聲音卡的功能聲音卡的工作原理聲音卡的選擇及應用 聲音卡的發(fā)展歷史從PC喇叭到ADLIB音樂卡 So
19、und Blaster系列 SB AWE系列聲卡 PCI聲卡 聲音卡的聲道單聲道 立體聲 四聲道環(huán)繞 5.1聲道 聲音卡的功能錄制、編輯和回放數(shù)字聲音文件 控制各聲源的音量,并混合在一起,以便數(shù)字化 在記錄和回放數(shù)字文件時進行壓縮和解壓縮,以節(jié)省存儲空間 采用語音合成技術,能讓電腦朗讀文件MIDI接口 聲音卡的工作原理主機通過總線將數(shù)字化的聲音信號以PCM的方式送到數(shù)模轉換器(D/A),將數(shù)字信號變成模擬的音頻信號。同時又可以通過模數(shù)轉換器(A/D)將麥克風或CD的輸入信號轉換成數(shù)字信號,送到計算機進行處理。聲音處理芯片是聲卡中的核心芯片,是一個完整的音頻子系統(tǒng)電路,通過對音頻信號的轉換、控制、加工、處理,在個人計算機上實現(xiàn)聲卡的另一關鍵芯片是合成器芯片。多媒體計算機只有通過合成器才能播放MIDI文件。了較理想的音響效果。Sound
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇科版八年級物理上冊《2.3平面鏡》同步測試題及答案
- 自考財務報表分析重點教學總結
- 電子政務的前景
- 高一化學達標訓練:第一單元化石燃料與有機化合物
- 2024屆天一大聯(lián)考皖豫聯(lián)盟高考化學一模試卷含解析
- 2024高中地理第三章區(qū)域自然資源綜合開發(fā)利用章末整合學案新人教版必修3
- 2024高中物理第四章牛頓運動定律2實驗:探究加速度與力質量的關系課后作業(yè)含解析新人教版必修1
- 2024高中語文第一單元第3課邊城提升訓練含解析新人教版必修5
- 2024高中語文精讀課文一第2課2魯迅:深刻與偉大的另一面是平和二課堂練習含解析新人教版選修中外傳記蚜
- 2024高考化學二輪復習專題限時集訓11有機化學基礎含解析
- 新零售門店運營管理流程手冊
- 天津市2023-2024學年七年級上學期期末考試數(shù)學試題(含答案)
- 生命教育項目式學習:內涵、價值與實踐路徑
- 心理學專業(yè)知識考試參考題庫500題(含答案)(一)
- 四川省成都市青白江區(qū)2024-2025學年六年級數(shù)學第一學期期末教學質量檢測試題含解析
- 人教版體育三年級上冊立定跳遠 教案
- 「粉底」消費趨勢報告
- 診所的醫(yī)療廢物處置協(xié)議
- 2024年浙江高考技術試題(含答案)
- 醫(yī)院軟式內鏡清洗消毒技術規(guī)范
- 資管行業(yè)投研一體化建設
評論
0/150
提交評論