《多媒體音頻處理》PPT課件.ppt_第1頁
《多媒體音頻處理》PPT課件.ppt_第2頁
《多媒體音頻處理》PPT課件.ppt_第3頁
《多媒體音頻處理》PPT課件.ppt_第4頁
《多媒體音頻處理》PPT課件.ppt_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

3.1數(shù)字音頻的基本概念3.2音頻接口卡3.3數(shù)字音頻的壓縮編碼3.4音頻編碼標(biāo)準(zhǔn)3.5數(shù)字音頻處理軟件簡(jiǎn)介3.6數(shù)字音頻的獲取與文件格式轉(zhuǎn)換3.7語音識(shí)別技術(shù),第三章多媒體音頻技術(shù),學(xué)習(xí)目標(biāo),1.了解聲音信號(hào)的特點(diǎn)、存儲(chǔ)格式及質(zhì)量的度量方法2.了解音頻卡的功能、構(gòu)成、原理及其應(yīng)用3.理解音頻信號(hào)處理的方法4.了解音頻信號(hào)壓縮方法及音頻編碼標(biāo)準(zhǔn)5.掌握應(yīng)用常用的音頻處理軟件對(duì)聲音信號(hào)進(jìn)行處理的過程6.了解語音識(shí)別技術(shù)及其應(yīng)用,3.1數(shù)字音頻的基本概念,聲音,聲音是因物體的振動(dòng)而產(chǎn)生的一種物理現(xiàn)象。振動(dòng)使物體周圍的空氣繞動(dòng)而形成聲波,聲波以空氣為媒介傳入人的耳朵,于是人們就聽到了聲音。,數(shù)字音頻的基本概念,音頻音頻(Audio)是用聲音的頻率界定的,指頻率在20Hz20kHz范圍內(nèi)的聲波。音頻所覆蓋的聲音頻率是人的耳朵所能聽到的聲音。,3.1.2模擬音頻和模擬音頻記錄技術(shù),就記錄技術(shù)而言,為了模擬聲音的波形形狀從而將聲波振動(dòng)轉(zhuǎn)變成唱片的波狀溝紋或磁帶的磁向排列的技術(shù)都可以稱為模擬音頻記錄技術(shù)。,模擬音頻即前面提到的模擬聲音,是指隨時(shí)間連續(xù)變動(dòng)的音頻聲音波的模擬記錄形式,通常采用電磁信號(hào)對(duì)聲音波形進(jìn)行模擬記錄。,數(shù)字音頻,數(shù)字音頻并非一種新的聲音,它不過是模擬音頻聲音進(jìn)入計(jì)算機(jī)后的一種記錄和存儲(chǔ)形式。計(jì)算機(jī)在處理聲音時(shí),除了輸出仍用波形形式外,記錄、存儲(chǔ)和傳送都不能使用波形形式,即聲音在進(jìn)入計(jì)算機(jī)時(shí),必須進(jìn)行數(shù)字化,使時(shí)間上連續(xù)變化的波形聲音變成一串0、1構(gòu)成的數(shù)據(jù)序列。,模擬音頻與數(shù)字音頻特點(diǎn)比較,模擬音頻是連續(xù)的波動(dòng)信號(hào),數(shù)字音頻是離散的數(shù)字信號(hào)。模擬音頻不便進(jìn)行編輯修改,數(shù)字音頻編輯、特效處理容易。模擬音頻用磁帶或唱片做記錄媒體,容易磨損、發(fā)霉和變形,不利長久保存;數(shù)字音頻主要用光盤存儲(chǔ),不易磨損,適宜長久保存。模擬音頻進(jìn)入計(jì)算機(jī)必須數(shù)字化為數(shù)字音頻,而數(shù)字音頻最終要轉(zhuǎn)換為模擬音頻才能輸出。,3.1.3音頻信號(hào)的數(shù)字化,音頻信號(hào)的數(shù)字化就是對(duì)時(shí)間上連續(xù)波動(dòng)的聲音信號(hào)進(jìn)行采樣和量化,對(duì)量化的結(jié)果選用某種音頻編碼算法進(jìn)行編碼,所得結(jié)果就是音頻信號(hào)的數(shù)字形式,即數(shù)字音頻。,3.1.4語音合成,1.發(fā)音器官參數(shù)語音合成,2.聲道模型參數(shù)語音合成,3.波形編輯語音合成,3.1.5音樂合成,音樂合成是聲音合成的另一分支,與語音合成的對(duì)象不同,音樂合成的對(duì)象是樂音,而不是人類的語音,音樂合成的原理和方法,音樂合成方法一是調(diào)頻合成法,又稱FM合成法;一是波形表(Wavetable)合成法,又稱波表合成法。,FM合成法,FM合成法正是從樂音的頻譜特性分布中得到啟示,通過使用調(diào)頻(FM)技術(shù),利用不同調(diào)制波頻率和調(diào)制指數(shù),對(duì)載波進(jìn)行調(diào)制,得到了具有不同頻譜分布的波形。,波表合成技術(shù),波表合成技術(shù)是先把音樂演奏家在各種不同樂器上演奏的不同音符、以適當(dāng)?shù)牟蓸勇?、量化位?shù)錄制下來,形成樂音的波形數(shù)據(jù)。然后將各種波形數(shù)據(jù)存儲(chǔ)在ROM中。發(fā)音時(shí),通過查找到所選預(yù)期的波形數(shù)據(jù),然后經(jīng)過調(diào)制、濾波、再合成等處理形成立體聲后發(fā)聲。,MIDI,MIDI(MusicalInstrumentDigitalInterface)是樂器數(shù)字接口英文首寫字母的縮寫,實(shí)際上,它是一套有關(guān)數(shù)字合成音樂的國際標(biāo)準(zhǔn)。,3.1.6聲音文件格式,4.midi格式,3.mp3格式,2.voc格式,1.wav格式,3.2.1聲卡的功能,文語轉(zhuǎn)換和語音識(shí)別,MIDI音樂錄制和合成,編輯與合成聲音文件,錄制與播放聲音文件,3.2.2聲卡的結(jié)構(gòu),聲卡的技術(shù)指標(biāo),音頻壓縮,DSP數(shù)字信號(hào)處理器,MIDI合成方式,采樣頻率和量化位數(shù),聲卡與外部設(shè)備的連接,3.3數(shù)字音頻的壓縮編碼,將量化后的數(shù)字聲音信息直接存入計(jì)算機(jī)將會(huì)占用大量的存儲(chǔ)空間。在多媒體音頻信號(hào)處理中,一般需要對(duì)數(shù)字化后的聲音信號(hào)進(jìn)行壓縮編碼,使其成為具有一定字長的二進(jìn)制數(shù)字序列,以減少音頻的數(shù)據(jù)量,并以這種形式在計(jì)算機(jī)內(nèi)傳輸和存儲(chǔ)。,聲音的壓縮編碼,混合型編碼,參數(shù)編碼,波形編碼,PCM編碼,編碼原理:PCM編碼調(diào)制是對(duì)連續(xù)語音信號(hào)進(jìn)行空間采樣、幅度值量化及用適當(dāng)碼字將其編碼的總稱,即它把連續(xù)輸入的模擬信號(hào)變換為在時(shí)域和振幅上都離散的量,然后將其轉(zhuǎn)化為代碼形式傳輸或存儲(chǔ)。,PCM編碼框圖,均勻量化,如果采用相等的量化間隔對(duì)采樣得到的信號(hào)進(jìn)行量化稱為均勻量化。,非均勻量化,非線性量化的基本想法是,對(duì)輸入信號(hào)進(jìn)行量化時(shí),大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小的量化間隔,3.4.2MP3壓縮技術(shù),MP3的全名是MPEGAudioLayer-3,簡(jiǎn)單地說就是一種聲音文件的壓縮格式MP3的好處在于大幅降低數(shù)字聲音文件的容量,而不會(huì)破壞原來的音質(zhì)。,3.4MP4壓縮技術(shù),MP4并不是MPEG-4或者M(jìn)PEG-1Layer4,它的出現(xiàn)是針對(duì)MP3的大眾化、無版權(quán)的一種保護(hù)格式,由美國網(wǎng)絡(luò)技術(shù)公司開發(fā),美國唱片行業(yè)聯(lián)合會(huì)倡導(dǎo)公布的一種新的網(wǎng)絡(luò)下載和音樂播放格式。,3.5數(shù)字音頻處理軟件,AdobeAudition2.0GoldWaveCakeWalk(音樂大師),3.5.1AdobeAudition2.0,Audition的前身是CoolEditPro,一個(gè)非常出色的數(shù)字音樂編輯器和MP3制作軟件。不少人把CoolEdit形容為音頻“繪畫”程序。你可以用聲音來“繪”制:音調(diào)、歌曲的一部分、聲音、弦樂、顫音、噪音或是調(diào)整靜音。而且它還提供有多種特效為你的作品增色:放大、降低噪音、壓縮、擴(kuò)展、回聲、失真、延遲等。,AdobeAudition2.0窗口,3.5.2GoldWave,GoldWave是一種相當(dāng)棒的數(shù)碼錄音及編輯軟件,除了附有許多的效果處理功能外,它還能將編輯好的文件存為WAV、AU、SND、RAW和AFC等格式,而且它可以不經(jīng)由聲卡直接抽取SCSI形式的CDROM中的音樂來錄制編輯。,GoldWave窗口,3.5.3CakeWalk(音樂大師),音序器軟件作為MIDI軟件的核心和基礎(chǔ),在電腦音樂中起著了舉足輕重的作用。它控制著MIDI信息的輸入輸出,指揮著與它連接的各種外設(shè)的正常工作.,CakeWalk窗口,語音識(shí)別技術(shù),語音識(shí)別技術(shù)在信息社會(huì)有著廣闊的應(yīng)用前景,除了上述的重要應(yīng)用領(lǐng)域外,它還可以應(yīng)用于殘疾人幫助,電話信息查詢,文本校對(duì),火車站、飛機(jī)場(chǎng)、醫(yī)院等公共場(chǎng)所的語音幫助和識(shí)別系統(tǒng)。,3.7.1語音識(shí)別系統(tǒng),語音識(shí)別以語音為研究對(duì)象,是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,其目的就是要讓機(jī)器具有人的聽覺功能,在人機(jī)語音通訊中“聽懂”人類口述的語言。根據(jù)不同的需求,語音識(shí)別的識(shí)別內(nèi)容可分為狹義的語音識(shí)別(SpeechRecognition)和說話人語音識(shí)別(SpeakerRecognition)。,語音識(shí)別系統(tǒng)基本原理框圖,處理的方法,識(shí)別判決,參數(shù)模板存儲(chǔ),特征參數(shù)提取,連續(xù)語音流的預(yù)處理,3.7.2語音識(shí)別系統(tǒng)的應(yīng)用,語音識(shí)別技術(shù)在信息處理領(lǐng)域的應(yīng)用教育與商務(wù)應(yīng)用消費(fèi)電子產(chǎn)品應(yīng)用,語音識(shí)別系統(tǒng)需要解決的問題,進(jìn)行動(dòng)力學(xué)建模,尋找更好的語音模型,增加系統(tǒng)的適應(yīng)性,增加系統(tǒng)的穩(wěn)定性,本章小結(jié),本章主要介紹了與音頻信號(hào)有關(guān)的基本概念、硬件設(shè)備及其應(yīng)用軟件,包括音頻信號(hào)的分類及其特點(diǎn)、音頻信號(hào)數(shù)字化過程、音頻卡簡(jiǎn)介、音頻信號(hào)的壓縮與編碼標(biāo)準(zhǔn)、數(shù)字音頻的獲取、語音識(shí)別技術(shù)等內(nèi)容。音頻是指頻率在2020kHz范圍內(nèi)的可聽聲音,多媒體中的聲音主要包括數(shù)字音頻和MIDI音樂兩種類型。聲音信號(hào)的基本處理包括采樣、量化、編碼壓縮、編輯、存儲(chǔ)、傳輸、解碼、播放等環(huán)節(jié)。,音頻接口卡是實(shí)現(xiàn)音頻信號(hào)數(shù)字化和音頻輸出(語音合成)的硬件設(shè)備,實(shí)現(xiàn)音頻信號(hào)的A/D、D/A轉(zhuǎn)換。同時(shí)也能和MIDI設(shè)備通信,實(shí)現(xiàn)MIDI的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論