音頻處理技術(shù)與應(yīng)用_第1頁(yè)
音頻處理技術(shù)與應(yīng)用_第2頁(yè)
音頻處理技術(shù)與應(yīng)用_第3頁(yè)
音頻處理技術(shù)與應(yīng)用_第4頁(yè)
音頻處理技術(shù)與應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于音頻處理技術(shù)與應(yīng)用第1頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.1音頻處理基礎(chǔ)

2.1.1音頻信號(hào)概述

1.聲波

(1)聲波:由各種機(jī)械振動(dòng)或氣流的擾動(dòng)引起周圍的彈性媒質(zhì)發(fā)生波動(dòng)。

(2)聲源:產(chǎn)生聲波的物體,如人的聲帶和樂(lè)器等。

(3)聲音:人的聽(tīng)覺(jué)系統(tǒng)所能感知到的聲波。

音頻的頻率范圍:20Hz~20000Hz

語(yǔ)音的頻率范圍:300Hz~3000Hz

次聲波的頻率范圍:<20Hz

超聲波的頻率范圍:>20kHz(4)聲強(qiáng):對(duì)于一定頻率的聲音,要能引起聽(tīng)覺(jué),其聲強(qiáng)也有一定的范圍。

下限:是恰能引起人聽(tīng)覺(jué)的最小聲強(qiáng),叫做該頻率的可聞閾;

上限:是指人耳能聽(tīng)聞的最大聲強(qiáng),高于上限的聲強(qiáng),人耳感覺(jué)疼痛,所以叫做該頻率的疼痛閾。第2頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.聲音的基本特征(1)聲波信號(hào)的物理特征

周期(T):聲波的兩個(gè)波峰或波谷之間的相對(duì)時(shí)間。

頻率(f):周期的倒數(shù)(f=1/T),即每秒波峰或波谷出現(xiàn)的次數(shù)。聲波的幅度:從聲波信號(hào)的基線到波峰的距離,幅度越大聲波的強(qiáng)度也越大。通常也用聲壓、聲強(qiáng)或聲功率來(lái)表示聲音的強(qiáng)弱。

常見(jiàn)聲音的分貝量級(jí)分貝數(shù)低于2020~4040~6060~7070~90>90聽(tīng)覺(jué)效果能分辨輕聲正常交談聲吵鬧很吵聽(tīng)力受損第3頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月

(2)聲音信號(hào)的心理學(xué)特征

人們感知到的聲音特征稱為心理學(xué)特征。音調(diào):在音樂(lè)中又叫音高,是由發(fā)聲物體的振動(dòng)頻率決定,振動(dòng)越快(即頻率越大),音調(diào)越高,振動(dòng)越慢,音調(diào)越低。音調(diào)的高低與聲音基頻的對(duì)數(shù)(20*log)成線性關(guān)系?;l越低,給人的感覺(jué)是聲音越低沉,基頻頻率增加一倍,在音樂(lè)上就叫升高了一個(gè)八度。音色:這是一個(gè)主觀評(píng)價(jià)聲音的量,聲音的音色取決于聲音的頻譜結(jié)構(gòu),一般高次諧波越豐富,音色越明亮并具有穿透力。響度:人耳對(duì)聲音強(qiáng)弱的感覺(jué)程度,主要取決于振幅和聲壓。通常振幅越大聲音越響,其次人耳距離聲源越遠(yuǎn),聲音越小。第4頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月

(3)聲音質(zhì)量的評(píng)價(jià) 聲音質(zhì)量與帶寬有關(guān),頻率范圍越寬,聲音質(zhì)量越高。1)聲音質(zhì)量分級(jí):按照聲音信號(hào)的頻率范圍將聲音質(zhì)量分為5級(jí)。質(zhì)量頻率范圍采樣頻率(kHz)采樣精度(bits)聲道數(shù)數(shù)據(jù)率(非壓縮)(kB/s)電話200~3400Hz88單道聲8AM100~5500Hz11.0258單道聲11.0FM20~11000Hz22.05016立體聲88.2CD-DA5~20000Hz44.116立體聲176.4DVD0~96000Hz192246聲道12002)信噪比(SNR):即有用信號(hào)與噪音信號(hào)的強(qiáng)度之比,對(duì)于聲卡或音箱則是其產(chǎn)生的最大不失真聲音信號(hào)強(qiáng)度與同時(shí)發(fā)出的噪音強(qiáng)度之比,單位是分貝。3)聲音主觀質(zhì)量的度量:主觀度量就是大多數(shù)人對(duì)聲音質(zhì)量的感覺(jué)。第5頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月

3.音頻信號(hào)的表示聲音信號(hào)通過(guò)麥克風(fēng)等設(shè)備轉(zhuǎn)換成電信號(hào)以后稱之為音頻信號(hào)。

(1)規(guī)則音頻信號(hào)

規(guī)則音頻(Audio)是帶有語(yǔ)音、音樂(lè)和音效的有規(guī)律的音頻信號(hào),承載了一定的信息。

語(yǔ)音:是語(yǔ)言的載體,有豐富的語(yǔ)言內(nèi)涵,是人類交流的信息載體。

音樂(lè):是一種規(guī)范的符號(hào)化的聲音。

音效:是指自然界中的其他各種聲音效果,如掌聲、雷鳴聲,爆破聲等。

不規(guī)則聲音:不包含任何信息的聲音,比如噪聲。(2)音頻信號(hào)的表示

1)音頻信號(hào)的數(shù)學(xué)表示其中:ω0表示聲音的基音,決定了音調(diào)的高低,nω0是ω0的n次諧波分量,代表了聲音的泛音,決定了聲音的音色,An

是聲波的振幅,表示聲音的強(qiáng)弱。第6頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2)音頻信號(hào)的波形表示3)音頻信號(hào)的頻譜表示信號(hào)頻譜即信號(hào)頻率的分布曲線。復(fù)雜的聲音可以認(rèn)為是振幅不同和頻率不同的正弦聲波疊加而成的,這些正弦聲波的幅值按頻率排列的圖形就叫做頻譜。男聲的基頻較低,低頻分量更加豐富,因此聽(tīng)起來(lái)會(huì)更加低沉、渾厚。第7頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月

聲音信號(hào)是典型的連續(xù)信號(hào),不僅在時(shí)間上是連續(xù)的,而且在幅度上也是連續(xù)的,屬于模擬信號(hào)。

(1)采樣

聲音信號(hào)在時(shí)間軸上的離散化,即每隔相等的一段時(shí)間抽取一個(gè)信號(hào)樣本。采樣頻率:每秒采樣的次數(shù)。奈奎斯特理論(Nyquisttheory):采樣頻率不應(yīng)低于聲音信號(hào)最高頻率的兩倍,這樣就能把以數(shù)字聲音還原成原來(lái)的聲音,稱為無(wú)損數(shù)字化。

fs>=2fmax

電話話音信號(hào)的最高頻率約為3.4kHz,所以采樣頻率取為8kHz。2.1.2音頻信號(hào)的數(shù)字化1.音頻信號(hào)數(shù)字化第8頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月

(2)量化

將連續(xù)的聲音信號(hào)的幅度離散化。也就是采樣過(guò)程中對(duì)每一個(gè)采樣點(diǎn)的幅度值用數(shù)字量來(lái)表示。如果幅度的劃分是等間隔的,稱為線性量化,否則為非線性量化。采樣精度:即量化的位數(shù),位數(shù)越多量化等級(jí)數(shù)也越多,所能表示的聲波幅度的動(dòng)態(tài)范圍也越大,當(dāng)然需要的存儲(chǔ)空間也越大。

第9頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月

(3)編碼就是用一組二進(jìn)制碼組來(lái)表示每一個(gè)有固定電平的量化值,或者說(shuō)將量化值轉(zhuǎn)換成二進(jìn)制碼組。典型的音頻編碼方法:脈沖編碼調(diào)制法(PCM)。

(4)數(shù)字音頻的數(shù)據(jù)量

數(shù)據(jù)量=采樣頻率*采樣精度*采樣時(shí)間*聲道數(shù)/8(字節(jié)數(shù))

單聲道:一次只產(chǎn)生一組聲波數(shù)據(jù),

立體聲:一次產(chǎn)生兩組聲波數(shù)據(jù),分別送往左聲道和右聲道,根據(jù)聲音到達(dá)人耳的時(shí)間差產(chǎn)生空間立體效果,因此立體聲聲波數(shù)據(jù)所需存儲(chǔ)空間是單聲道的一倍。例2.1

計(jì)算一分鐘未壓縮的高保真立體聲數(shù)字聲音數(shù)據(jù)的大小。

60*(44100*16*2)/8=10.09MB

一首未經(jīng)壓縮的4分鐘的歌曲文件的大小約為40MB,那么一個(gè)容量為512MB的MP3播放器也只能播放12首這樣的歌曲。第10頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月(1)電話質(zhì)量的語(yǔ)音壓縮標(biāo)準(zhǔn)(2)調(diào)幅廣播語(yǔ)音壓縮標(biāo)準(zhǔn):G.722(3)高保真立體聲的寬帶音頻壓縮標(biāo)準(zhǔn)2.數(shù)字音頻壓縮標(biāo)準(zhǔn)標(biāo)準(zhǔn)編碼方法采樣頻率采樣精度數(shù)據(jù)傳輸率G.711PCM8kHz8位64kb/sG.721ADPCM8kHz8位32kb/sG.723ADPCM8kHz8位24kb/sG.728LD-CELP8kHz8位16kb/s電話質(zhì)量的語(yǔ)音壓縮標(biāo)準(zhǔn)

MPEG音頻:是第一個(gè)高保真立體聲音頻壓縮的國(guó)際標(biāo)準(zhǔn),MPEG音頻壓縮標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮層次:1)Layer1:編碼器簡(jiǎn)單,輸出數(shù)據(jù)率為384kb/s,主要用于小型數(shù)字盒式磁帶。2)Layer2:編碼器較復(fù)雜,輸出數(shù)據(jù)率為256kb/s~192kb/s,主要應(yīng)用于數(shù)字廣播聲音、數(shù)字音樂(lè)、CD-I和VCD等。3)Layer3:編碼器復(fù)雜,輸出數(shù)據(jù)率為64kb/s,主要用于ISDN上的聲音傳輸。第11頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月1.WAV文件:波形文件,微軟開(kāi)發(fā),需要的存儲(chǔ)量大,多用于存儲(chǔ)簡(jiǎn)短的聲音片段和旁白。2.MIDI文件:記錄的是生成音樂(lè)的指令,MIDI文件短小。由于MIDI記錄的并不是真正的聲音,所以不同的聲卡,不同軟波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的設(shè)備上播放也會(huì)有不同的效果。MIDI文件適合作為背景音樂(lè)來(lái)播放。3.MP3文件:是MPEG音頻第3層的簡(jiǎn)稱,有損壓縮,壓縮比達(dá)12:1。MP3利用人耳的掩蔽特性,削減音頻中人耳聽(tīng)不到的成分,同時(shí)盡可能地維持原來(lái)的聲音質(zhì)量。4.RA文件:屬于RealMedia的音頻部分,采用流式傳輸方式,可以在非常低的帶寬下提供足夠好的音質(zhì)讓用戶能在線聆聽(tīng)。5.WMA文件:WindowsMedia的音頻部分。無(wú)損壓縮,支持多聲道編碼。6.AC3文件:又叫杜比數(shù)碼環(huán)繞立體聲,壓縮比10:1,提供的環(huán)繞聲系統(tǒng)由5個(gè)全頻域聲道和1個(gè)超低音聲道組成,稱為5.1聲道,一般作為DVD的伴音。3.數(shù)字音頻文件的格式第12頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.1.3數(shù)字音頻處理技術(shù)

1.數(shù)字音頻技術(shù)

是一門(mén)結(jié)合數(shù)字技術(shù)和計(jì)算機(jī)技術(shù)而實(shí)現(xiàn)傳統(tǒng)音頻處理的技術(shù)。

(1)特點(diǎn)

1)處理長(zhǎng)樣本文件的能力,錄音時(shí)間只受硬盤(pán)本身大小的限制。

2)隨機(jī)存取編輯

3)無(wú)損編輯

(2)應(yīng)用1)聲音剪輯和CD刻錄。2)日常音樂(lè)錄制。3)大規(guī)模音樂(lè)錄音和混音。4)影視音樂(lè)的制作與合成。5)多媒體音樂(lè)制作與合成。數(shù)字音頻工作站

第13頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2)語(yǔ)音識(shí)別系統(tǒng)分類對(duì)說(shuō)話人說(shuō)話方式的要求孤立字(詞)語(yǔ)音識(shí)別系統(tǒng)連接字語(yǔ)音識(shí)別系統(tǒng)連續(xù)語(yǔ)音識(shí)別系統(tǒng)。對(duì)說(shuō)話人的依賴程度特定人語(yǔ)音識(shí)別系統(tǒng)非特定人語(yǔ)音識(shí)別系統(tǒng)詞匯量大小小詞匯量語(yǔ)音識(shí)別系統(tǒng)中等詞匯量語(yǔ)音識(shí)別系統(tǒng)大詞匯量語(yǔ)音識(shí)別系統(tǒng)無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。2.智能語(yǔ)音處理技術(shù)(1)語(yǔ)音識(shí)別技術(shù)1)語(yǔ)音識(shí)別的發(fā)展50年代:AT&TBell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)——Audry系統(tǒng)。60年代:提出動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP)。70年代:提出了動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW),矢量量化(VQ)和隱馬爾可夫模型(HMM)理論,實(shí)現(xiàn)了特定人孤立語(yǔ)音識(shí)別系統(tǒng)。90年代:開(kāi)始進(jìn)入實(shí)用階段。第14頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月語(yǔ)音合成技術(shù):指利用計(jì)算機(jī)合成語(yǔ)音信號(hào)的技術(shù),使計(jì)算機(jī)能夠產(chǎn)生高清晰度和高自然度的連續(xù)語(yǔ)音,能夠具有類似普通人的說(shuō)話能力。語(yǔ)音合成的三個(gè)層次從文字到語(yǔ)音從概念到語(yǔ)音從意向到語(yǔ)音語(yǔ)音合成技術(shù)的特點(diǎn)清晰度自然度表現(xiàn)力復(fù)雜度語(yǔ)音合成的應(yīng)用文語(yǔ)轉(zhuǎn)換語(yǔ)音查詢(2)語(yǔ)音合成技術(shù)第15頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.2音頻處理軟件AdobeAudition

單軌編輯界面2.2.3Audition界面及基本操作

第16頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月多軌編輯界面第17頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月第18頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.2.4音頻信號(hào)獲取直接讀取計(jì)算機(jī)磁盤(pán)上的音頻文件;提取視頻信息中的音頻信號(hào);直接錄音。Audition允許同時(shí)進(jìn)行多音軌錄音,當(dāng)然需要有相應(yīng)的硬件支持,比如多個(gè)音頻輸入接口、多個(gè)錄音源等。1.錄音前聲卡設(shè)置“選項(xiàng)|Windows錄音控制臺(tái)”2.建立錄音文件3.導(dǎo)入伴奏音樂(lè)4.控制錄音電平5.錄制聲音第19頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.2.5音頻編輯單軌編輯狀態(tài):可以進(jìn)行波形的各種編輯處理和效果的設(shè)置,還可以分別對(duì)左右聲道單獨(dú)進(jìn)行編輯處理。多軌編輯狀態(tài):適合對(duì)多個(gè)音頻軌道進(jìn)行編輯、錄制和合成處理。最多可以同時(shí)處理的軌道數(shù)為128個(gè)。按鈕“R”表示錄音、“S”表示獨(dú)奏、“M”表示靜音。1.常用編輯(1)裁剪音頻波形波形的選擇波形的刪除波形的移動(dòng)與復(fù)制

混合工具:拖曳左鍵選中波形,拖曳右鍵移動(dòng)波形。

時(shí)間選擇工具:拖曳左鍵選中波形。移動(dòng)/復(fù)制剪輯工具:拖曳左鍵移動(dòng)波形,拖曳右鍵移動(dòng)或復(fù)制。刷選工具:拖曳左鍵可以播放選中波形。第20頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月(2)切分和合并音頻

在多軌編輯狀態(tài)下,可以對(duì)活動(dòng)音軌上的波形進(jìn)行分割,使其變成多個(gè)波形片段,定位播放線,執(zhí)行“剪輯|分割”或右擊鼠標(biāo)點(diǎn)選“分割”。使兩段波形首尾相接,按住Ctrl鍵將兩段波形都選中,執(zhí)行“剪輯|合并”或右擊鼠標(biāo)點(diǎn)選“合并”即可完成。(3)鎖定音頻波形鎖定使音頻的絕對(duì)時(shí)間位置不變。(4)編組音頻波形編組則可以使多個(gè)音頻片段的相對(duì)位置固定,移動(dòng)時(shí)可整體移動(dòng)。第21頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.包絡(luò)編輯(1)音量包絡(luò)編輯

音量包絡(luò)是指音頻波形隨時(shí)間變化而產(chǎn)生的音量變化,也即是音量變化的走勢(shì)曲線。通過(guò)控制音量包絡(luò)曲線來(lái)改變某音軌上音頻信號(hào)的音量大小,是一個(gè)非常直觀和簡(jiǎn)單有效的方法。(2)聲相包絡(luò)編輯

聲相就是聲音在左右聲道中所處的位置。聲相包絡(luò)線處于中間時(shí)(0點(diǎn)),聲音在左右聲道中達(dá)到平衡的效果,聲相包絡(luò)線位于上半部,聲音偏向左聲道,聲相包絡(luò)線位于下半部,聲音偏向右聲道。第22頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月(3)音量淡化包絡(luò)編輯

Audition提供了簡(jiǎn)單快速的音量淡化包絡(luò)。在音樂(lè)制作領(lǐng)域,淡化(fade)指音量的逐漸變化,音量由小到大變化稱為淡入(fadein),音量由大到小變化稱為淡出(fadeout)。3.時(shí)間伸縮用于改變聲音播放的速度,且不影響音高?!安榭磡啟用剪輯時(shí)間伸展”

時(shí)間伸縮第23頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.2.6加載效果器

加載效果器按照使用方法可分為:

插入效果器:作用的聲音范圍是一整條音軌;

波形效果器:作用于音軌中的某一段音頻片段;

總線效果器:加載在總線通道上的效果器,它使所有的音軌加入相同的效果器;

1.插入效果器

多軌編輯下第24頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.波形效果器單軌編輯下,允許多個(gè)音頻片段分別進(jìn)行效果設(shè)置。第25頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月2.2.7效果器Audition的效果器按照功能分為:

振幅類效果器濾波類效果器延遲類效果器降噪類效果器波形發(fā)生類效果器聲碼器第26頁(yè),課件共33頁(yè),創(chuàng)作于2023年2月1.動(dòng)態(tài)處

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論