音頻信息處理_第1頁(yè)
音頻信息處理_第2頁(yè)
音頻信息處理_第3頁(yè)
音頻信息處理_第4頁(yè)
音頻信息處理_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第第2 2章章 音頻信息處理音頻信息處理2 21 1 音頻處理基礎(chǔ)音頻處理基礎(chǔ)2 22 2 音頻處理軟件音頻處理軟件Adobe AuditionAdobe Audition2 23 3 音頻處理綜合應(yīng)用案例音頻處理綜合應(yīng)用案例2.1 2.1 音頻處理基礎(chǔ)音頻處理基礎(chǔ) 1. 1. 聲波聲波 (1 1)聲波:)聲波:由各種機(jī)械振動(dòng)或氣流擾動(dòng)引起周圍的彈性媒質(zhì)發(fā)生波動(dòng)。由各種機(jī)械振動(dòng)或氣流擾動(dòng)引起周圍的彈性媒質(zhì)發(fā)生波動(dòng)。 (2 2)聲源:)聲源:產(chǎn)生聲波的物體,如人的聲帶和樂(lè)器等。產(chǎn)生聲波的物體,如人的聲帶和樂(lè)器等。 (3 3)聲音:)聲音:人的聽(tīng)覺(jué)系統(tǒng)所能感知到的聲波。人的聽(tīng)覺(jué)系統(tǒng)所能感知到的聲波

2、。 音頻的頻率范圍:音頻的頻率范圍:20 Hz 20 Hz 20000 Hz20000 Hz 語(yǔ)音的頻率范圍:語(yǔ)音的頻率范圍:300 Hz 300 Hz 3000 Hz3000 Hz 次聲波的頻率范圍:次聲波的頻率范圍: 20 Hz 20 kHz 20 kHz(4 4)聲強(qiáng):)聲強(qiáng):對(duì)于一定頻率的聲音,要能引起聽(tīng)覺(jué),其聲強(qiáng)也有一定的范對(duì)于一定頻率的聲音,要能引起聽(tīng)覺(jué),其聲強(qiáng)也有一定的范圍。圍。 下限:是恰能引起人聽(tīng)覺(jué)的最小聲強(qiáng),叫做該頻率的下限:是恰能引起人聽(tīng)覺(jué)的最小聲強(qiáng),叫做該頻率的可聞閾可聞閾; 上限:是指人耳能聽(tīng)聞的最大聲強(qiáng),高于上限的聲強(qiáng),人耳感覺(jué)疼上限:是指人耳能聽(tīng)聞的最大聲強(qiáng),高于

3、上限的聲強(qiáng),人耳感覺(jué)疼痛,所以叫做該頻率的痛,所以叫做該頻率的疼痛閾疼痛閾。常見(jiàn)聲音的分貝量級(jí)分貝數(shù)分貝數(shù)低于低于2020202040404040606060607070707090909090聽(tīng)覺(jué)效果聽(tīng)覺(jué)效果能分辨能分辨輕聲輕聲正常交談聲正常交談聲吵鬧吵鬧很吵很吵聽(tīng)力受損聽(tīng)力受損2聲音的基本特征聲音的基本特征(1)聲波信號(hào)的物理特征)聲波信號(hào)的物理特征 周期(周期(T T):):聲波的兩個(gè)波峰或波谷之間的相對(duì)時(shí)間。聲波的兩個(gè)波峰或波谷之間的相對(duì)時(shí)間。 頻率(頻率(f f):):周期的倒數(shù)周期的倒數(shù)(f=1/Tf=1/T),即每秒波峰或波谷出現(xiàn)的次數(shù)。,即每秒波峰或波谷出現(xiàn)的次數(shù)。 幅度幅度:

4、從聲波信號(hào)的基線到波峰的距離,幅度越大聲波的強(qiáng)度也越大。通:從聲波信號(hào)的基線到波峰的距離,幅度越大聲波的強(qiáng)度也越大。通常也用聲壓、聲強(qiáng)或聲功率來(lái)表示聲音的強(qiáng)弱。常也用聲壓、聲強(qiáng)或聲功率來(lái)表示聲音的強(qiáng)弱。 人們感知到的聲音特征稱為心理學(xué)特征人們感知到的聲音特征稱為心理學(xué)特征n音調(diào):音調(diào):在音樂(lè)中又叫在音樂(lè)中又叫音高音高,是由發(fā)聲物體的振動(dòng)頻率決定,振動(dòng)越快,是由發(fā)聲物體的振動(dòng)頻率決定,振動(dòng)越快(即頻率越大),音調(diào)越高,振動(dòng)越慢,音調(diào)越低。音調(diào)的高低與聲音基(即頻率越大),音調(diào)越高,振動(dòng)越慢,音調(diào)越低。音調(diào)的高低與聲音基頻的對(duì)數(shù)(頻的對(duì)數(shù)(2020* *loglog)成線性關(guān)系?;l越低,給人的感

5、覺(jué)是聲音越低沉,)成線性關(guān)系?;l越低,給人的感覺(jué)是聲音越低沉,基頻頻率增加一倍,在音樂(lè)上就叫升高了一個(gè)八度?;l頻率增加一倍,在音樂(lè)上就叫升高了一個(gè)八度。 n音色:音色:這是一個(gè)主觀評(píng)價(jià)聲音的量,聲音的音色取決于聲音的頻譜結(jié)構(gòu),這是一個(gè)主觀評(píng)價(jià)聲音的量,聲音的音色取決于聲音的頻譜結(jié)構(gòu),一般高次諧波越豐富,音色越明亮并具有穿透力。一般高次諧波越豐富,音色越明亮并具有穿透力。n響度:響度:人耳對(duì)聲音強(qiáng)弱的感覺(jué)程度,主要取決于振幅和聲壓。通常振幅人耳對(duì)聲音強(qiáng)弱的感覺(jué)程度,主要取決于振幅和聲壓。通常振幅越大聲音越響,其次人耳距離聲源越遠(yuǎn),聲音越小。越大聲音越響,其次人耳距離聲源越遠(yuǎn),聲音越小。(2

6、2)聲音信號(hào)的心理學(xué)特征)聲音信號(hào)的心理學(xué)特征(3 3)聲音質(zhì)量的評(píng)價(jià))聲音質(zhì)量的評(píng)價(jià)聲音質(zhì)量與帶寬有關(guān),頻率范圍越寬,聲音質(zhì)量越高。聲音質(zhì)量與帶寬有關(guān),頻率范圍越寬,聲音質(zhì)量越高。1 1)聲音質(zhì)量分級(jí):)聲音質(zhì)量分級(jí):按照聲音信號(hào)的頻率范圍將聲音質(zhì)量分為按照聲音信號(hào)的頻率范圍將聲音質(zhì)量分為5 5級(jí)。級(jí)。質(zhì)量質(zhì)量頻率范圍頻率范圍采樣頻率采樣頻率(kHzkHz)采樣精度采樣精度(bitsbits)聲道數(shù)聲道數(shù)數(shù)據(jù)率(非壓縮)數(shù)據(jù)率(非壓縮)(kB/skB/s)電話電話2002003400 Hz3400 Hz8 88 8單道聲單道聲8 8AMAM1001005500Hz5500Hz11.02511

7、.0258 8單道聲單道聲11.011.0FMFM202011000Hz11000Hz22.05022.0501616立體聲立體聲88.288.2CD-DACD-DA5 520000Hz20000Hz44.144.11616立體聲立體聲176.4176.4DVDDVD0 096000Hz96000Hz19219224246 6聲道聲道120012002 2)信噪比()信噪比(SNRSNR):即有用信號(hào)與噪音信號(hào)的強(qiáng)度之比,單位是分貝。:即有用信號(hào)與噪音信號(hào)的強(qiáng)度之比,單位是分貝。3) 3) 聲音主觀質(zhì)量的度量:聲音主觀質(zhì)量的度量:主觀度量就是大多數(shù)人對(duì)聲音質(zhì)量的感覺(jué)。主觀度量就是大多數(shù)人對(duì)聲音

8、質(zhì)量的感覺(jué)。00)sin()(nnntnAtf3音頻信號(hào)的表示音頻信號(hào)的表示(1 1)音頻信號(hào):)音頻信號(hào):通過(guò)麥克風(fēng)等設(shè)備轉(zhuǎn)換成的電信號(hào)。通過(guò)麥克風(fēng)等設(shè)備轉(zhuǎn)換成的電信號(hào)。n規(guī)則音頻信號(hào):規(guī)則音頻信號(hào):帶有語(yǔ)音、音樂(lè)和音效的有規(guī)律的音頻信號(hào),承載了一帶有語(yǔ)音、音樂(lè)和音效的有規(guī)律的音頻信號(hào),承載了一定的信息。定的信息。 語(yǔ)音:語(yǔ)音:語(yǔ)言的載體,有豐富的語(yǔ)言內(nèi)涵,是人類交流的信息載體。語(yǔ)言的載體,有豐富的語(yǔ)言內(nèi)涵,是人類交流的信息載體。 音樂(lè):音樂(lè):是一種規(guī)范的符號(hào)化的聲音。是一種規(guī)范的符號(hào)化的聲音。 音效:音效:自然界中各種聲音效果,如掌聲、雷鳴聲,爆破聲等。自然界中各種聲音效果,如掌聲、雷鳴聲

9、,爆破聲等。n不規(guī)則音頻信號(hào):不規(guī)則音頻信號(hào):不包含任何信息的聲音,比如噪聲。不包含任何信息的聲音,比如噪聲。(2 2)音頻信號(hào)的表示)音頻信號(hào)的表示 音頻信號(hào)的數(shù)學(xué)表示音頻信號(hào)的數(shù)學(xué)表示0: 聲音的基音,決定了音調(diào)的高低聲音的基音,決定了音調(diào)的高低n0: 聲音的泛音,決定了聲音的音色聲音的泛音,決定了聲音的音色An : 聲波的振幅,表示聲音的強(qiáng)弱聲波的振幅,表示聲音的強(qiáng)弱2 2)音頻信號(hào)的波形表示)音頻信號(hào)的波形表示3 3)音頻信號(hào)的頻譜表示)音頻信號(hào)的頻譜表示 聲音信號(hào)的頻率分布曲線。復(fù)雜的聲音是由振幅和頻率不同的正弦聲波疊聲音信號(hào)的頻率分布曲線。復(fù)雜的聲音是由振幅和頻率不同的正弦聲波疊加

10、而成的,這些正弦波的幅值按頻率排列的圖形就叫做頻譜。加而成的,這些正弦波的幅值按頻率排列的圖形就叫做頻譜。 男聲的基頻較低,低頻分量更加豐富,因此聽(tīng)起來(lái)會(huì)更加低沉、渾厚。男聲的基頻較低,低頻分量更加豐富,因此聽(tīng)起來(lái)會(huì)更加低沉、渾厚。1. 1. 音頻信號(hào)數(shù)字化音頻信號(hào)數(shù)字化 聲音信號(hào)在時(shí)間上是連續(xù)的,在幅度上也是連續(xù)的,屬于模擬信號(hào)。聲音信號(hào)在時(shí)間上是連續(xù)的,在幅度上也是連續(xù)的,屬于模擬信號(hào)。 (1 1)采樣)采樣 聲音信號(hào)在時(shí)間上的離散化,即每隔一段時(shí)間抽取一個(gè)信號(hào)樣本。聲音信號(hào)在時(shí)間上的離散化,即每隔一段時(shí)間抽取一個(gè)信號(hào)樣本。n采樣頻率:采樣頻率:每秒采樣的次數(shù)。每秒采樣的次數(shù)。n奈奎斯特理

11、論(奈奎斯特理論(Nyquist theoryNyquist theory):采樣頻率不低于聲音信號(hào)最高頻率:采樣頻率不低于聲音信號(hào)最高頻率的兩倍,這樣就能把數(shù)字聲音還原成原來(lái)的聲音,稱為無(wú)損數(shù)字化。的兩倍,這樣就能把數(shù)字聲音還原成原來(lái)的聲音,稱為無(wú)損數(shù)字化。 f s = 2 f maxf s = 2 f max 電話話音信號(hào)的最高頻率約為電話話音信號(hào)的最高頻率約為3.4kHz3.4kHz,所以采樣頻率取為,所以采樣頻率取為8kHz8kHz。2.1.2 2.1.2 音頻信號(hào)的數(shù)字化音頻信號(hào)的數(shù)字化 聲音信號(hào)在幅度上的離散化聲音信號(hào)在幅度上的離散化 也就是采樣過(guò)程中對(duì)每一個(gè)采樣點(diǎn)的幅度值用數(shù)字量

12、來(lái)表示。如果也就是采樣過(guò)程中對(duì)每一個(gè)采樣點(diǎn)的幅度值用數(shù)字量來(lái)表示。如果幅度的劃分是等間隔的,稱為線性量化,否則為非線性量化。幅度的劃分是等間隔的,稱為線性量化,否則為非線性量化。n采樣精度:采樣精度:即量化的位數(shù),位數(shù)越多量化等級(jí)數(shù)也越多,所能表即量化的位數(shù),位數(shù)越多量化等級(jí)數(shù)也越多,所能表示的聲波幅度的動(dòng)態(tài)范圍也越大,當(dāng)然需要的存儲(chǔ)空間也越大。示的聲波幅度的動(dòng)態(tài)范圍也越大,當(dāng)然需要的存儲(chǔ)空間也越大。 (2 2) 量化量化(3 3) 編碼編碼 就是用一組二進(jìn)制碼組來(lái)表示每一個(gè)有固定電平的量化值,或者說(shuō)將就是用一組二進(jìn)制碼組來(lái)表示每一個(gè)有固定電平的量化值,或者說(shuō)將量化值轉(zhuǎn)換成二進(jìn)制碼組。量化值轉(zhuǎn)

13、換成二進(jìn)制碼組。 典型的音頻編碼方法:脈沖編碼調(diào)制法(典型的音頻編碼方法:脈沖編碼調(diào)制法(PCMPCM)。)。(4 4)數(shù)字音頻的數(shù)據(jù)量)數(shù)字音頻的數(shù)據(jù)量 數(shù)據(jù)量數(shù)據(jù)量 = = 采樣頻率采樣頻率* * 采樣精度采樣精度* * 采樣時(shí)間采樣時(shí)間* * 聲道數(shù)聲道數(shù) / 8 / 8 (字節(jié)數(shù))(字節(jié)數(shù)) 單聲道:?jiǎn)温暤溃阂淮沃划a(chǎn)生一組聲波數(shù)據(jù), 立體聲:立體聲:一次產(chǎn)生兩組聲波數(shù)據(jù)。例例2.12.1 計(jì)算一分鐘未壓縮的高保真立體聲數(shù)字聲音數(shù)據(jù)的大小。 60 * ( 44100 * 16 * 2 ) / 8 = 10.09 MB 一首未經(jīng)壓縮的4分鐘的歌曲文件的大小約為40MB,那么一個(gè)容量為512

14、MB的MP3播放器也只能播放12首這樣的歌曲。 2. 數(shù)字音頻壓縮標(biāo)準(zhǔn)數(shù)字音頻壓縮標(biāo)準(zhǔn)(1 1)電話質(zhì)量的語(yǔ)音壓縮標(biāo)準(zhǔn))電話質(zhì)量的語(yǔ)音壓縮標(biāo)準(zhǔn)(2 2)調(diào)幅廣播語(yǔ)音壓縮標(biāo)準(zhǔn))調(diào)幅廣播語(yǔ)音壓縮標(biāo)準(zhǔn) G.722G.722(3)高保真立體聲的寬帶音頻壓縮標(biāo)準(zhǔn))高保真立體聲的寬帶音頻壓縮標(biāo)準(zhǔn)標(biāo)準(zhǔn)標(biāo)準(zhǔn)編碼方法編碼方法采樣頻率采樣頻率采樣精度采樣精度數(shù)據(jù)傳輸率數(shù)據(jù)傳輸率G.711G.711PCMPCM8kHz8kHz8 8位位64kb/s64kb/sG.721G.721ADPCMADPCM8kHz8kHz8 8位位32kb/s32kb/sG.723G.723ADPCMADPCM8kHz8kHz8 8位位2

15、4kb/s24kb/sG.728G.728LD-CELPLD-CELP8kHz8kHz8 8位位16kb/s16kb/s電話質(zhì)量的語(yǔ)音壓縮標(biāo)準(zhǔn)電話質(zhì)量的語(yǔ)音壓縮標(biāo)準(zhǔn) MPEG音頻:第一個(gè)高保真立體聲音頻壓縮的國(guó)際標(biāo)準(zhǔn) MPEG音頻壓縮標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮層次: 1)Layer 1:編碼器簡(jiǎn)單,輸出數(shù)據(jù)率為384 kb/s,主要用于小型數(shù)字盒式磁帶。 2)Layer 2:編碼器較復(fù)雜,輸出數(shù)據(jù)率為256 kb/s192kb/s,主要應(yīng)用于數(shù)字廣播聲音、數(shù)字音樂(lè)、CD-I和VCD等。3)Layer 3:編碼器復(fù)雜,輸出數(shù)據(jù)率為64kb/s,主要用于ISDN上的聲音傳輸。1 1WAVWAV文件:文

16、件:波形文件,微軟開(kāi)發(fā),需要的存儲(chǔ)量大,多用于存儲(chǔ)簡(jiǎn)短的聲音片段和旁白。波形文件,微軟開(kāi)發(fā),需要的存儲(chǔ)量大,多用于存儲(chǔ)簡(jiǎn)短的聲音片段和旁白。2 2MIDIMIDI文件:文件:記錄的是生成音樂(lè)的指令,記錄的是生成音樂(lè)的指令,MIDIMIDI文件短小。由于文件短小。由于MIDIMIDI記錄的并不是真正的聲記錄的并不是真正的聲音,所以不同的聲卡,不同軟波表,不同硬件音源的音色是不相同的,相同的音,所以不同的聲卡,不同軟波表,不同硬件音源的音色是不相同的,相同的MIDIMIDI文件在不同文件在不同的設(shè)備上播放也會(huì)有不同的效果。的設(shè)備上播放也會(huì)有不同的效果。MIDIMIDI文件適合作為背景音樂(lè)來(lái)播放。文

17、件適合作為背景音樂(lè)來(lái)播放。3 3MP3MP3文件:文件:是是MPEGMPEG音頻第音頻第3 3層的簡(jiǎn)稱,有損壓縮,壓縮比達(dá)層的簡(jiǎn)稱,有損壓縮,壓縮比達(dá)12:112:1。MP3MP3利用人耳的掩蔽特性,利用人耳的掩蔽特性,削減音頻中人耳聽(tīng)不到的成分,同時(shí)盡可能地維持原來(lái)的聲音質(zhì)量。削減音頻中人耳聽(tīng)不到的成分,同時(shí)盡可能地維持原來(lái)的聲音質(zhì)量。4 4RARA文件:文件:屬于屬于Real MediaReal Media的音頻部分,采用流式傳輸方式,可以在非常低的帶寬下提供的音頻部分,采用流式傳輸方式,可以在非常低的帶寬下提供足夠好的音質(zhì)讓用戶能在線聆聽(tīng)。足夠好的音質(zhì)讓用戶能在線聆聽(tīng)。5 5WMA WM

18、A 文件文件:Windows MediaWindows Media的音頻部分。無(wú)損壓縮,支持多聲道編碼。的音頻部分。無(wú)損壓縮,支持多聲道編碼。6 6AC3AC3文件:文件:又叫杜比數(shù)碼環(huán)繞立體聲,壓縮比又叫杜比數(shù)碼環(huán)繞立體聲,壓縮比10:110:1,提供的環(huán)繞聲系統(tǒng)由,提供的環(huán)繞聲系統(tǒng)由5 5個(gè)全頻域聲道個(gè)全頻域聲道和和1 1個(gè)超低音聲道組成,稱為個(gè)超低音聲道組成,稱為5.15.1聲道,一般作為聲道,一般作為DVDDVD的伴音。的伴音。 3. 數(shù)字音頻文件的格式數(shù)字音頻文件的格式1. 1. 數(shù)字音頻技術(shù)數(shù)字音頻技術(shù) 結(jié)合數(shù)字技術(shù)和計(jì)算機(jī)技術(shù)而實(shí)現(xiàn)傳統(tǒng)音頻處理的技術(shù) (1 1) 特點(diǎn)特點(diǎn)1 1)

19、處理長(zhǎng)樣本文件的能力,錄音時(shí)間只受硬盤(pán)本身大小的限制。)處理長(zhǎng)樣本文件的能力,錄音時(shí)間只受硬盤(pán)本身大小的限制。2 2)隨機(jī)存取編輯)隨機(jī)存取編輯3 3)無(wú)損編輯)無(wú)損編輯 (2 2)應(yīng)用)應(yīng)用1 1)聲音剪輯和)聲音剪輯和CDCD刻錄。刻錄。 2 2)日常音樂(lè)錄制。)日常音樂(lè)錄制。 3 3)大規(guī)模音樂(lè)錄音和混音。)大規(guī)模音樂(lè)錄音和混音。 4 4)影視音樂(lè)的制作與合成。)影視音樂(lè)的制作與合成。 5 5)多媒體音樂(lè)制作與合成。)多媒體音樂(lè)制作與合成。 數(shù)字音頻工作站 2.1.3 數(shù)字音頻處理技術(shù)數(shù)字音頻處理技術(shù)2 2)語(yǔ)音識(shí)別系統(tǒng)分類)語(yǔ)音識(shí)別系統(tǒng)分類n對(duì)說(shuō)話人說(shuō)話方式的要求對(duì)說(shuō)話人說(shuō)話方式的要求

20、n孤立字(詞)語(yǔ)音識(shí)別系統(tǒng)孤立字(詞)語(yǔ)音識(shí)別系統(tǒng)n連接字語(yǔ)音識(shí)別系統(tǒng)連接字語(yǔ)音識(shí)別系統(tǒng)n連續(xù)語(yǔ)音識(shí)別系統(tǒng)。連續(xù)語(yǔ)音識(shí)別系統(tǒng)。n對(duì)說(shuō)話人的依賴程度對(duì)說(shuō)話人的依賴程度n特定人語(yǔ)音識(shí)別系統(tǒng)特定人語(yǔ)音識(shí)別系統(tǒng)n非特定人語(yǔ)音識(shí)別系統(tǒng)非特定人語(yǔ)音識(shí)別系統(tǒng)n詞匯量大小詞匯量大小n小詞匯量語(yǔ)音識(shí)別系統(tǒng)小詞匯量語(yǔ)音識(shí)別系統(tǒng)n中等詞匯量語(yǔ)音識(shí)別系統(tǒng)中等詞匯量語(yǔ)音識(shí)別系統(tǒng)n大詞匯量語(yǔ)音識(shí)別系統(tǒng)大詞匯量語(yǔ)音識(shí)別系統(tǒng)n無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。(1)語(yǔ)音識(shí)別技術(shù))語(yǔ)音識(shí)別技術(shù)1 1)語(yǔ)音識(shí)別的發(fā)展)語(yǔ)音識(shí)別的發(fā)展n 5050年代年代:AT&T Bell:AT&T Bell實(shí)驗(yàn)室實(shí)

21、現(xiàn)了第一個(gè)可實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)AudryAudry系統(tǒng)。系統(tǒng)。n 6060年代:提出動(dòng)態(tài)規(guī)劃(年代:提出動(dòng)態(tài)規(guī)劃(DPDP)和線性預(yù)測(cè)分)和線性預(yù)測(cè)分析技術(shù)(析技術(shù)(LPLP)。)。n 7070年代:提出了動(dòng)態(tài)時(shí)間歸正技術(shù)(年代:提出了動(dòng)態(tài)時(shí)間歸正技術(shù)(DTWDTW),),矢量量化(矢量量化(VQVQ)和隱馬爾可夫模型()和隱馬爾可夫模型(HMMHMM)理論,實(shí)現(xiàn)了特定人孤立語(yǔ)音識(shí)別系統(tǒng)。理論,實(shí)現(xiàn)了特定人孤立語(yǔ)音識(shí)別系統(tǒng)。n 9090年代:開(kāi)始進(jìn)入實(shí)用階段年代:開(kāi)始進(jìn)入實(shí)用階段。2. 智能語(yǔ)音處理技術(shù)智能語(yǔ)音處理技術(shù) 利用計(jì)算機(jī)合

22、成語(yǔ)音的技術(shù),使計(jì)算機(jī)具有類似人的說(shuō)話能力。利用計(jì)算機(jī)合成語(yǔ)音的技術(shù),使計(jì)算機(jī)具有類似人的說(shuō)話能力。n語(yǔ)音合成的三個(gè)層次語(yǔ)音合成的三個(gè)層次n從文字到語(yǔ)音從文字到語(yǔ)音n從概念到語(yǔ)音從概念到語(yǔ)音n從意向到語(yǔ)音從意向到語(yǔ)音n語(yǔ)音合成技術(shù)的特點(diǎn)語(yǔ)音合成技術(shù)的特點(diǎn)n清晰度清晰度n自然度自然度n表現(xiàn)力表現(xiàn)力n復(fù)雜度復(fù)雜度n語(yǔ)音合成的應(yīng)用語(yǔ)音合成的應(yīng)用n文語(yǔ)轉(zhuǎn)換文語(yǔ)轉(zhuǎn)換n語(yǔ)音查詢語(yǔ)音查詢(2) 語(yǔ)音合成技術(shù)語(yǔ)音合成技術(shù)2.2 2.2 音頻處理軟件音頻處理軟件 Adobe AuditionAdobe Audition 單軌編輯界面單軌編輯界面2.2.3 Audition2.2.3 Audition界面及基本操

23、作界面及基本操作 多軌編輯界面2.2.4 2.2.4 音頻信號(hào)獲取音頻信號(hào)獲取 直接讀取計(jì)算機(jī)磁盤(pán)上的音頻文件; 提取視頻信息中的音頻信號(hào); 直接錄音。Audition允許同時(shí)進(jìn)行多音軌錄音,當(dāng)然需要有相應(yīng)的硬件支持,比如多個(gè)音頻輸入接口、多個(gè)錄音源等。 1 1錄音前聲卡設(shè)置錄音前聲卡設(shè)置 “選項(xiàng) | Windows 錄音控制臺(tái) ”2 2建立錄音文件建立錄音文件3 3導(dǎo)入伴奏音樂(lè)導(dǎo)入伴奏音樂(lè)4 4控制錄音電平控制錄音電平5 5錄制聲音錄制聲音2.2.5 2.2.5 音頻編輯音頻編輯n單軌編輯狀態(tài):?jiǎn)诬壘庉嫚顟B(tài):可以進(jìn)行波形的各種編輯處理和效果的設(shè)置,還可以分別對(duì)左右聲道單獨(dú)進(jìn)行編輯處理。n多軌

24、編輯狀態(tài)多軌編輯狀態(tài):適合對(duì)多個(gè)音頻軌道進(jìn)行編輯、錄制和合成處理。最多可以同時(shí)處理的軌道數(shù)為128個(gè)。按鈕“R”R”表示錄音、表示錄音、“S”S”表示獨(dú)奏、表示獨(dú)奏、“M”M”表示靜音表示靜音。 1 1常用編輯常用編輯(1 1)裁剪音頻波形)裁剪音頻波形n 波形的選擇波形的選擇n 波形的刪除波形的刪除n 波形的移動(dòng)與復(fù)制波形的移動(dòng)與復(fù)制n 混合工具混合工具:拖曳左鍵選中波形,拖曳右鍵移動(dòng)波形。n 時(shí)間選擇工具時(shí)間選擇工具:拖曳左鍵選中波形。n 移動(dòng)移動(dòng)/復(fù)制剪輯工具復(fù)制剪輯工具:拖曳左鍵移動(dòng)波形,拖曳右鍵移動(dòng)或復(fù)制。n 刷選工具刷選工具:拖曳左鍵可以播放選中波形。(2 2)切分和合并音頻)切分

25、和合并音頻 在多軌編輯狀態(tài)下,可以對(duì)活動(dòng)音軌上的波形進(jìn)行分割,使其變成多個(gè)波形片段,定位播放線,執(zhí)行“剪輯|分割”或右擊鼠標(biāo)點(diǎn)選“分割”。 使兩段波形首尾相接,按住Ctrl鍵將兩段波形都選中,執(zhí)行“剪輯|合并”或右擊鼠標(biāo)點(diǎn)選“合并”即可完成。(3 3)鎖定音頻波形)鎖定音頻波形 鎖定使音頻的絕對(duì)時(shí)間位置不變。(4 4)編組音頻波形)編組音頻波形 編組則可以使多個(gè)音頻片段的相對(duì)位置固定,移動(dòng)時(shí)可整體移動(dòng)。 2 2包絡(luò)編輯包絡(luò)編輯(1 1)音量包絡(luò)編輯)音量包絡(luò)編輯 音量包絡(luò)是指音頻波形隨時(shí)間變化而產(chǎn)生的音量變化,也即是音量變化的走勢(shì)曲線。通過(guò)控制音量包絡(luò)曲線來(lái)改變某音軌上音頻信號(hào)的音量大小,是一

26、個(gè)非常直觀和簡(jiǎn)單有效的方法。(2 2)聲相包絡(luò)編輯)聲相包絡(luò)編輯 聲相就是聲音在左右聲道中所處的位置。聲相包絡(luò)線處于中間時(shí)(0點(diǎn)),聲音在左右聲道中達(dá)到平衡的效果,聲相包絡(luò)線位于上半部,聲音偏向左聲道,聲相包絡(luò)線位于下半部,聲音偏向右聲道。 (3 3)音量淡化包絡(luò)編輯)音量淡化包絡(luò)編輯 Audition提供了簡(jiǎn)單快速的音量淡化包絡(luò)。在音樂(lè)制作領(lǐng)域,淡化(fade)指音量的逐漸變化,音量由小到大變化稱為淡入(fade in),音量由大到小變化稱為淡出(fade out)。3 3時(shí)間伸縮時(shí)間伸縮用于改變聲音播放的速度,且不影響音高。“查看|啟用剪輯時(shí)間伸展” 時(shí)間伸縮2.2.6 2.2.6 加載效

27、果器加載效果器 加載效果器按照使用方法可分為:n 插入效果器插入效果器:作用的聲音范圍是一整條音軌;n 波形效果器:波形效果器:作用于音軌中的某一段音頻片段;n 總線效果器:總線效果器:加載在總線通道上的效果器,它使所有的音軌加入相同的效果器; 1 1插入效果器插入效果器 多軌編輯下多軌編輯下2 2波形效果器波形效果器單軌編輯下,允許多個(gè)音頻片段分別進(jìn)行效果設(shè)置。 2.2.7 2.2.7 效果器效果器Audition的效果器按照功能分為:n 振幅類效果器振幅類效果器n 濾波類效果器濾波類效果器n 延遲類效果器延遲類效果器n 降噪類效果器降噪類效果器n 波形發(fā)生類效果器波形發(fā)生類效果器n 聲碼器聲碼器

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論