




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
21:20Chapter1:AudioSpeechProcessing(ASP)IntroductionDanjvLv2010-321:20AudioSpeechProcessing(ASP)語音處理是對語音信號和這些信號的處理方法的研究。目前,信號通常是由數(shù)字表示處理。因此語音信號處理的處理便可以被視為一個特殊的數(shù)字信號處理的過程。語音信號的處理也是與自然語言處理(NLP)緊密聯(lián)系在一起的,它的應(yīng)用可以實(shí)現(xiàn)輸入/輸出的自然語言處理的應(yīng)用程序。例如文本到語音合成可以使輸入的文本文字,經(jīng)語法分析器輸出語音信息;也可以進(jìn)行信息提取技術(shù)的應(yīng)用等。21:20語音處理分類語音處理可分為以下幾類:語音識別,其中主要涉及的語言的語音信號的內(nèi)容分析。說話人識別,其目的是要認(rèn)識到揚(yáng)聲器的身份。增強(qiáng)的語音信號,例如音頻降噪。語音編碼,特殊形式的數(shù)據(jù)壓縮,在電信領(lǐng)域的重要。語音分析的醫(yī)療用途,例如聲帶負(fù)載和聲帶功能障礙的分析。語音合成:言論,這通常是指計算機(jī)生成的語音人工合成。語音增強(qiáng):加強(qiáng)消除噪音的破壞性影響,錄音設(shè)備的能力有限,損傷等的語音信號的感知質(zhì)量21:20課程內(nèi)容的重點(diǎn)
介紹語音信號處理(AudioSpeechProcessing)的基本原理。說明如何以MATLAB進(jìn)行音頻信號處理與辨識的程序代碼實(shí)作。以實(shí)際生活中的數(shù)據(jù)來說明音頻信號處理與辨識的各種相關(guān)應(yīng)用。21:20目標(biāo)希望達(dá)到下列目標(biāo):范例式的教學(xué):以簡單的范例來說明基本概念,然后再輔以正式的數(shù)學(xué)分析與推導(dǎo)。理論與實(shí)作并重:所有的算法都附有MATLAB的程序代碼,讓使用者能夠穩(wěn)扎穩(wěn)打、LearningbyDoing。應(yīng)用導(dǎo)向:所有的范例、理論與程序代碼,最后都會用在現(xiàn)實(shí)世界中的應(yīng)用,以讓讀者親自感受到各種算法的長處和短處,以及程序代碼實(shí)作方面可能遇到的困難。21:201.ASP與ASR與相關(guān)學(xué)科
數(shù)學(xué):線性代數(shù):矩陣,矩陣運(yùn)算(乘),矩陣變換(特征值,特征向量)概率論與數(shù)理統(tǒng)計(Gauss)——(HMM,GMM))信號與系統(tǒng)
-信號處理(SignalProcessingandSystem):Filter(加強(qiáng),去噪),FFT-IDCT(數(shù)據(jù)壓縮);convolution(卷積)-MFCC
等模式識別:PatternRecognition動態(tài)時間規(guī)整DynamicTimeWarping(DTW),隱馬爾可夫模型HiddenMarkovModels(HMM),高斯混合模型GaussMixtureModel(GMM)數(shù)據(jù)分類:DataClustering線性判別分析linearDiscriminativeAnalysis(LDA):對已分類的數(shù)據(jù)進(jìn)行降維:多維1維
(Fisher準(zhǔn)則)主分量分析法PrincipleComponentAnalysis(PCA)保留數(shù)據(jù)中最有效、最重要的成分(維數(shù)),也即:原始N維新M維(N>M)21:20基本語音信號處理過程21:20Chapter2:MATLAB第1-2次上機(jī)內(nèi)容:2.1 使用變數(shù)與基本運(yùn)算 2.2 向量與矩陣的處理 2.3 常用數(shù)學(xué)函數(shù)
2.4 程序流程控制
2.5 M檔案2.6 搜尋路徑 2.7 工作空間與變數(shù)的儲存及載入 2.8 離開MATLAB 21:20Chapter3:AudioSignals
音頻信號21:203-1音頻信號基本介紹1.AudioSignals音頻信號:簡稱「音信」,泛指由人耳聽到的各種聲音的信號。一般來說,發(fā)音體會產(chǎn)生震動,此震動會對空氣產(chǎn)生壓縮與伸張的效果,形成聲波,以每秒大約
340公尺的速度在空氣中傳播,當(dāng)此聲波傳遞到人耳,耳膜會感覺到一伸一壓的壓力信號,內(nèi)耳神經(jīng)再將此信號傳遞到大腦,并由大腦解析與判讀,來分辨該信號的意義。21:202.WaystoClassifyAudioSignals(1)AudioSignalSource聲源:音信可以有很多不同的分類方式,例如,若以發(fā)音的來源,可以大概分類如下:生物音:人聲、狗聲、貓聲humanvoices,dog'sbarking,cat'smewing,frog'scroaking等。非生物音:引擎聲、關(guān)門聲、打雷聲、樂器聲carengines,thunder,doorslamming,musicinstruments等。21:202.WaystoClassifyAudioSignals(2)SoundsPattern聲波形狀:若以信號的規(guī)律性,又可以分為以下兩類:準(zhǔn)周期音:波形具有規(guī)律性,可以看出周期的重復(fù)性,人耳可以感覺其穩(wěn)定音高的存在,例如單音弦樂器、人聲清唱monophonicalplaybackofmostmusicinstruments(suchaspianos,violins,guitars,etc)andhuman‘ssinging等。非周期音:波形不具規(guī)律性,看不出明顯的周期,人耳無法感覺出穩(wěn)定音高的存在,例如打雷聲、拍手聲、敲鑼打鼓聲、人聲中的氣音等thunderpounding,handclapping,unvoicedpartinahuman'sutterance,。21:203.TypesofHumanVoice
原則上講,以人聲而言,我們可以從每個短時信號(也就是語音框,其長度約為20ms)中,看其是否具有音高而分為兩類,如下:(1)Voicedsound:(vibrationofvocalcords)
由聲帶振動所發(fā)出的聲音,例如一般的元音等。由于聲帶振動,造成規(guī)律性的變化,所以我們可以感覺到音高的存在。(2)Unvoicedsound:
therapidflowofairthroughthemouse,thenose,ortheteeth.由嘴唇所發(fā)出的氣音,并不牽涉聲帶的震動。由于波形沒有規(guī)律性,所以我們通常無法感受到穩(wěn)定音高的存在。21:203.TypesofHumanVoiceHowtoclassifythetypesofhumanvoice?要分辨這兩種聲音,其實(shí)很簡單,你只要在發(fā)音時,將手按在喉嚨上,若有感到震動,就是voicedsound,如果沒有感到震動,那就是unvoicedsound。21:20Sunday.wav中的ay發(fā)音21:20EXAMPLE1figure;[y,fs,nbits]=wavReadInt('sunday.wav');subplot(2,1,1)time=(1:length(y))/fs;plot(time,y);axis([min(time),max(time),-2^nbits/2,2^nbits/2]);xlabel('Time(seconds)');ylabel('Amplitude');title('Waveformsof"sunday"');frameSize=512;index1=0.606*fs;index2=index1+frameSize-1;line(time(index1)*[1,1],2^nbits/2*[-11],'color','r');line(time(index2)*[1,1],2^nbits/2*[-11],'color','r');subplot(2,1,2);time2=time(index1:index2);y2=y(index1:index2);plot(time2,y2,'.-');axis([min(time2),max(time2),-2^nbits/2,2^nbits/2]);xlabel('Time(seconds)');ylabel('Amplitude');title('Waveformsofthevoiced"ay"in"sunday"');
21:20Sunday.wav中的s發(fā)音21:20Example2[y,fs,nbits]=wavReadInt('sunday.wav');subplot(2,1,1)time=(1:length(y))/fs;plot(time,y);axis([min(time),max(time),-2^nbits/2,2^nbits/2]);xlabel('Time(seconds)');ylabel('Amplitude');title('Waveformsof"sunday"');frameSize=512;index1=0.18*fs;index2=index1+frameSize-1;line(time(index1)*[1,1],2^nbits/2*[-11],'color','r');line(time(index2)*[1,1],2^nbits/2*[-11],'color','r');subplot(2,1,2);time2=time(index1:index2);y2=y(index1:index2);plot(time2,y2,'.-');axis([min(time2),max(time2),-infinf]);xlabel('Time(seconds)');ylabel('Amplitude');title('Waveformsoftheunvoiced"s"in"sunday"');21:204.DigitizeAudioSignals
聲音代表了空氣的密度隨時間的變化,基本上是一個連續(xù)的函數(shù),但是若要將此信號儲存在計算機(jī)里,就必須先將此信號數(shù)字化。一般而言,當(dāng)我們將聲音儲存到計算機(jī)時,有下列幾個參數(shù)需要考慮:(1)Samplerate:取樣頻率:每秒鐘所取得的聲音數(shù)據(jù)點(diǎn)數(shù),以Hertz(簡寫Hz)為單位。點(diǎn)數(shù)越高,聲音質(zhì)量越好,但是數(shù)據(jù)量越大,常用的取樣頻率如下:8kHz:電話的音質(zhì)、一般玩具內(nèi)語音IC的音質(zhì)16KHz:一般語音辨識所采用44.1KHz:CD音質(zhì)實(shí)際上,通過抽樣后,聲音信號在時間軸上由連續(xù)的變成了離散的信號。21:204.DigitizeAudioSignals2)Bitresolution取樣分辨率:每個聲音數(shù)據(jù)點(diǎn)所用的位數(shù),常用的數(shù)值如下:8-bit:可表示的數(shù)值范圍為0~255或-128~12716-bit:可表示的數(shù)值范圍為-32768~32767換句話說,每個取樣點(diǎn)的數(shù)值都是整數(shù),以方便儲存。但是在MATLAB的表示法,通常把音信的值正規(guī)化到[-1,1]范圍內(nèi)的浮點(diǎn)數(shù),因此若要轉(zhuǎn)回原先的整數(shù)值,就必須再乘上2^nbits/2,其中nbits是取樣分辨率。21:204.DigitizeAudioSignals(3)Channels:聲道:一般只分單聲道(Mono)或立體聲(Stereo),立體音即是雙聲道。以我所錄的「sunday」來說,這是單聲道的聲音,取樣頻率是16000(16KHz),分辨率是16Bits(2Byte),總共包含了15716點(diǎn)(等于15716/16000=0.98秒),所以檔案大小就是15716*2=31432bytes=31.4KB左右。由此可以看出聲音數(shù)據(jù)的龐大如果我以相同的參數(shù)來進(jìn)行錄音一分鐘,所得到的檔案大小大約就是60秒x16KHzx2Byte=1920KB或?qū)⒔?MB。以一般音樂CD來說,大部分是立體聲,取樣頻率是44.1KHz,分辨率是16Bits,所以一首三分鐘的音樂,數(shù)據(jù)量的大小就是180秒x44.1KHzx2Bytex2=31752KB=32MB。(由此可知,MP3的壓縮率大概是10倍左右。)21:203.2BasicAcousticFeatures
(基本聲學(xué)特征)
1.What’sBasicAcousticFeatures?
當(dāng)我們在分析聲音時,通常以「短時分析」(Short-termAnalysis)為主,因?yàn)檎Z音信號在短時間內(nèi)是相對穩(wěn)定的。我們通常將聲音先切成音框(Frame),每個音框長度大約在20ms左右,再根據(jù)音框內(nèi)的信號來進(jìn)行分析。在一個特定音框內(nèi),我們可以觀察到的三個主要聲音特征可說明如下:21:201.What’sBasicAcousticFeatures(1)Volume(音量):代表聲音的大小,可由聲語音信號號的震幅來模擬,又稱為能量(Energy)或強(qiáng)度(Intensity)等。(2)Pitch:音高
代表聲音的高低,可由基本頻率(FundamentalFrequency)來模擬,這是基本周期(FundamentalPeriod)的倒數(shù)。21:201.What’sBasicAcousticFeatures(3)Timbre:音色
代表聲音的內(nèi)容(例如英文的元音),可由每一個波形在一個基本周期的變化來模擬。21:202.AcousticFeaturescorrelatephysicalquantities物理意義
音量:compressionofyourlungs.Alargevolumeofaudiosignalscorrespondstoalargecompression.代表肺部壓縮力量的大小,力量越大,音量越大。音高:thevibrationfrequencyofyourvocalcord.Ahighpitchcorrespondstoahighvibrationfrequency.代表聲帶震動的快慢,震動越快,音高會越高。21:202.AcousticFeaturescorrelatephysicalquantities物理意義音色Timbre:thepositionsandshapesofyourlipsandtongue.Differenttimbrescorrespondtodifferentpositionsandshapesofyourlipsandtongue.代表嘴唇和舌頭的位置和形狀,不同的位置和形狀,就會產(chǎn)生不同的語音內(nèi)容。21:202.AcousticFeaturescorrelatephysicalquantities物理意義有關(guān)這些語音特征的抓取和分析,會在后續(xù)章節(jié)有詳細(xì)說明。特別要注意的是,這些特征都是代表「人耳的感覺」,并沒有一定的數(shù)學(xué)公式可尋,所以當(dāng)我們試著在「量化」這些特征時,只是根據(jù)一些數(shù)據(jù)和經(jīng)驗(yàn)來量化,來盡量逼近人耳的感覺,但并不代表這些「量化」后的數(shù)據(jù)或公式就可以完全代表聲音的特征。21:203.BasicApproachtotheExtractionofAcousticFeatures
語音信號特征抽取的基本方式1.Performframeblocking構(gòu)造語音框
將語音信號切成一個個音框,音框長度大約是20~30ms。若音框太大,就無法抓出語音信號隨時間變化的特性;反之,若音框太小,就無法抓出語音信號的特性。一般而言,音框必須能夠包含數(shù)個語音信號的基本周期。(另,音框長度通常是
2的整數(shù)次方,若不是,則在進(jìn)行「傅立葉轉(zhuǎn)換」時,需補(bǔ)零至2的整數(shù)次方,以便使用「快速傅立葉轉(zhuǎn)換」。)21:203.BasicApproachtotheExtractionofAcousticFeatures2.FrameOverlap音框重疊量
若是希望相鄰音框之間的變化不是太大,可以允許音框之間有重疊,重疊部分可以是音框長度的1/2到2/3不等。(重疊部分越多,對應(yīng)的計算量也就越大。)3.Stationaryframe:穩(wěn)定的語音框
假設(shè)在一個音框內(nèi)的語音信號是穩(wěn)定的,對此音框求取特征,如過零率、音量、音高、MFCC參數(shù)、LPC參數(shù)等。21:203.BasicApproachtotheExtractionofAcousticFeatures4.EndpointDetection:端點(diǎn)檢測
根據(jù)過零率、音量及音高等,進(jìn)行端點(diǎn)檢測(EndpointDetection),并保留端點(diǎn)內(nèi)的特征信息,以便進(jìn)行分析或辨識。
21:20常用名詞在進(jìn)行上述分析時,有幾個名詞常用到,說明如下:音框點(diǎn)數(shù)(FrameSize):每一個音框所含有的點(diǎn)數(shù)。音框重疊量(FrameOverlap):音框之間重疊的點(diǎn)數(shù)。音框跳距(FrameSteporHopSize):此音框起點(diǎn)和下一個音框起點(diǎn)的距離點(diǎn)數(shù),等于音框點(diǎn)數(shù)減去音框重疊。音框率(FrameRate):每秒出現(xiàn)的音框數(shù)目,等于取樣頻率除以音框跳距。21:20舉例取樣頻率fs=16000且每一個音框所對應(yīng)的時間是25ms,重疊15ms,那么Framesize=fs*25/1000=400點(diǎn)。Frameoverlap=fs*15/1000=240點(diǎn)。Framestep(orhopsize)=400-240=160點(diǎn)。Framerate=fs/160=100frames/sec。21:20Chap3-3HumanVoiceProduction人類聲音的產(chǎn)生DanjvLvswfc21:201.TheProcedureOfHumanVoice1.Rapidopenandcloseofyourvocalcords(orglottis)togeneratethevibrationinairflow.
聲門的快速打開與關(guān)閉,產(chǎn)生氣流振動2.Resonanceofthepharyngealcavity,nasalcavity,andoralcavity.喉腔、鼻腔、口腔的共振3.Thevibrationofair.空氣的波動
4.Thevibrationoftheeardrum(ortympanum).
接收者耳膜的振動
5.Thereceptionoftheinnerear.內(nèi)耳神經(jīng)的接收6.Therecognitionbythebrain.大腦的辨識21:20Theproductionmechanismofhumanvoices
人聲的發(fā)音機(jī)制21:20Duetothepressureoftheglottisandtheairpushedfromthelungs,thevocalcordscanopenandcloseveryquickly,whichgeneratesvibrationsintheair.Thevibrationismodulatedbytheresonancesofpharyngeal/nasal/oralcavities,formingdifferenttimbreofyourvoices.由于聲門(Glottis)的肌肉張力,加上由肺部壓迫出來的空氣,就會造成聲門的快速打開與關(guān)閉,這個一疏一密的空氣壓力,就是人聲的源頭,在經(jīng)由聲道、口腔、鼻腔的共振,就會產(chǎn)生不同的聲音(音色)。21:20Thecompressionfromyourlungsdeterminethe
loudness/volumeofthevoices.
肺部壓縮空氣的力量大小,決定音量大小。
Thevibrationfrequencyofthevocalcordsdeterminesthepitch
ofthevoices.
聲門震動的快,決定聲音的基本頻率(即音高)。
Thepositions/shapesofyourlips,tongue,andnosedeterminethetimbre.
口腔、鼻腔、舌頭的位置、嘴型等,決定聲音的內(nèi)容(即音色)。21:20Airflowvelocityaroundtheglottisandtheresultantvoicessignals
聲門附近的空氣流速,以及最后在嘴巴附近所量測到的聲波21:20Youcanobservethemovementofthevocalcordsfromthefollowinglink:通過下面這個連結(jié),可以看到聲門運(yùn)動的現(xiàn)象:
localYoucanobservethemovementofthevocalcordsfromthefollowinglink:通過下面這個連結(jié),可以看到聲門運(yùn)動的現(xiàn)象:
local21:20high-speedcamerasInfact,itisnoteasytocapturethemovementsofvocalcordsduetoitshighfrequencyinmovement.Soweneedtohavehigh-speedcamerasf
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- it行業(yè)服務(wù)合同范本
- 生產(chǎn)經(jīng)營租賃合同
- 個人房屋出讓合同范本
- 2025年科研機(jī)構(gòu)環(huán)境保護(hù)研究計劃
- 2025年xx銀行分行員工培訓(xùn)與發(fā)展計劃
- 員工銷售提成合同范本
- 硬件設(shè)備購銷合同范本
- 融資租賃合同特征
- AAA指紋鎖公司商業(yè)計劃書
- 中招試卷分析
- 2024年第三屆浙江技能大賽(電工賽項(xiàng))理論考試題庫(含答案)
- 2024年度-工程造價培訓(xùn)課件全新
- 高標(biāo)準(zhǔn)農(nóng)田跟蹤審計、工程中間計量、變更價格調(diào)整及竣工結(jié)算審核項(xiàng)目投標(biāo)方案(技術(shù)方案)
- 行政事務(wù)試題庫及答案
- 教師備課教案模板
- 2023中央空調(diào)智能化控制技術(shù)規(guī)范
- 第八章+機(jī)械能守恒定律+單元教學(xué)設(shè)計及案例分析+課件-+物理人教版(2019)必修第二冊
- 7《中華民族一家親》第一課時《中華民族大家庭》(說課教學(xué)設(shè)計)部編版道德與法治五年上冊
- 五年級科學(xué)實(shí)驗(yàn)?zāi)M訓(xùn)練(4)附有答案
- 施工企業(yè)生產(chǎn)安全事故應(yīng)急資源調(diào)查報告
- CJT233-2016 建筑小區(qū)排水用塑料檢查井
評論
0/150
提交評論