




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第5章 提取聲音的基本特征Lv Danju5.1 Volume 音量 The loudness of audio signals is the most prominent features for human aural perception. In general, there are several terms to describe the loudness of audio signals, including volume, Intensity energy. Here we use the term “volume” for further discussion. Volume
2、is a basic acoustic feature that is correlated to the sample amplitudes within each frame.一個(gè)音框內(nèi)的抽樣信號(hào)震幅大一個(gè)音框內(nèi)的抽樣信號(hào)震幅大小小Volume 的描述方法 two methods to compute the volume of each frame: sum of absolute samples: logorithm of the sum of sample squares: 1|niiv o l u m es2110 * log()niivolumes整數(shù)運(yùn)算整數(shù)運(yùn)算浮點(diǎn)數(shù)運(yùn)算浮點(diǎn)數(shù)
3、運(yùn)算單位:分貝單位:分貝音 量 音量特性:音量特性: 有聲音的音量大于氣音的音量,而氣音的音量又有聲音的音量大于氣音的音量,而氣音的音量又大于噪聲的音量。大于噪聲的音量。 音量是一個(gè)相對(duì)性的指標(biāo),受音量是一個(gè)相對(duì)性的指標(biāo),受到麥克風(fēng)設(shè)定的影響很大。到麥克風(fēng)設(shè)定的影響很大。 應(yīng)用:應(yīng)用: 通常用在端點(diǎn)檢測(cè),估測(cè)有聲的聲母或韻母的開通常用在端點(diǎn)檢測(cè),估測(cè)有聲的聲母或韻母的開始位置及結(jié)束位置。始位置及結(jié)束位置。 技巧:技巧: 在計(jì)算音量前最好是先減去音頻信號(hào)信號(hào)的平均在計(jì)算音量前最好是先減去音頻信號(hào)信號(hào)的平均值,以避免信號(hào)的直流偏移(值,以避免信號(hào)的直流偏移(DC Bias)所導(dǎo)致)所導(dǎo)致的誤差。的
4、誤差。舉例 volume01.m waveFile=my_sunday.wav;frameSize=256;overlap=128;y, fs, nbits=wavReadInt(waveFile);fprintf(Length of %s is %g sec.n, waveFile, length(y)/fs);frameMat=buffer(y, frameSize, overlap);frameNum=size(frameMat, 2);volume1=zeros(frameNum, 1);volume2=zeros(frameNum, 1);for i=1:frameNumframe=
5、frameMat(:,i);frame=frame-mean(frame);% zero-justifiedvolume1(i)=sum(abs(frame);% method 1volume2(i)=10*log10(sum(frame.2);% method 2end time=(1:length(y)/fs; frameTime=(0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs; subplot(3,1,1); plot(time, y); ylabel(waveFile); subplot(3,1,2); plot(frameTi
6、me, volume1, .-); ylabel(Volume (Abs. sum); subplot(3,1,3); plot(frameTime, volume2, .-); ylabel(Volume (Decibels); xlabel(Time (sec);計(jì)算音量與主觀音量 計(jì)算音量:計(jì)算音量: 使用音量來(lái)表示聲音的強(qiáng)弱,前述兩種計(jì)使用音量來(lái)表示聲音的強(qiáng)弱,前述兩種計(jì)算音量的方法,用數(shù)學(xué)的公式來(lái)逼近人耳算音量的方法,用數(shù)學(xué)的公式來(lái)逼近人耳的感覺;的感覺; 主觀音量:主觀音量: 和人耳的感覺有時(shí)候會(huì)有相當(dāng)大的落差,和人耳的感覺有時(shí)候會(huì)有相當(dāng)大的落差,為了區(qū)分,我們使用主觀音量來(lái)表示為
7、了區(qū)分,我們使用主觀音量來(lái)表示人耳所聽到的音量大小。人耳所聽到的音量大小。 例如,人耳對(duì)于同樣振福但不同頻率的聲例如,人耳對(duì)于同樣振福但不同頻率的聲音,所產(chǎn)生的主觀音量就會(huì)非常不一樣。音,所產(chǎn)生的主觀音量就會(huì)非常不一樣。 主觀音量曲線 以人耳為測(cè)試主體的等主觀音量曲線圖以人耳為測(cè)試主體的等主觀音量曲線圖(Curves of Equal Loudness) 頻率對(duì)主觀音量的影響 上面這一張圖,也代表人耳對(duì)于不同頻率上面這一張圖,也代表人耳對(duì)于不同頻率的聲音的靈敏程度,這也就是人耳的頻率的聲音的靈敏程度,這也就是人耳的頻率響應(yīng)(響應(yīng)(Frequency Response)。如果你)。如果你要測(cè)試你
8、自己的耳朵的頻率響應(yīng),可以到要測(cè)試你自己的耳朵的頻率響應(yīng),可以到這個(gè)網(wǎng)頁(yè)這個(gè)網(wǎng)頁(yè)Equal Loudness Tester試試試看:試看: g.html主觀音量測(cè)試音色對(duì)主觀音量的影響 the perceived loudness is also greatly influenced by the timbre. vowels using the same loudness level, plot the volume curves to see how they are related to the timbre or shapes/positions of lips/tougue舉例 vo
9、lume02.m waveFile=aeiou.wav; frameSize=512; overlap=0; y, fs, nbits=wavReadInt(waveFile); fprintf(Length of %s is %g sec.n, waveFile, length(y)/fs); frameMat=buffer(y, frameSize, overlap); frameNum=size(frameMat, 2); volume1=frame2volume(frameMat, 1);% method 1 volume2=frame2volume(frameMat, 2);% me
10、thod 2volume02.m time=(1:length(y)/fs; frameTime=(0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs; subplot(3,1,1); plot(time, y); ylabel(waveFile); subplot(3,1,2); plot(frameTime, volume1, .-); ylabel(Volume (Abs. sum); subplot(3,1,3); plot(frameTime, volume2, .-); ylabel(Volume (Decibels); xlab
11、el(Time (sec);a e i o u的音量 主觀音量容易受到頻率和音色的影響,因主觀音量容易受到頻率和音色的影響,因此我們?cè)谶M(jìn)行語(yǔ)音或歌聲合成時(shí),常常根此我們?cè)谶M(jìn)行語(yǔ)音或歌聲合成時(shí),常常根據(jù)聲音的頻率和內(nèi)容來(lái)對(duì)音頻信號(hào)的振幅據(jù)聲音的頻率和內(nèi)容來(lái)對(duì)音頻信號(hào)的振幅進(jìn)行校正,以免造成主觀音量忽大忽小的進(jìn)行校正,以免造成主觀音量忽大忽小的情況。情況。 Zero Crossing Rate (過(guò)零率) 定義:定義:ZCR is another basic acoustic features that can be computed easily. It is equal to the numb
12、er of zero-crossing of the waveform within a given frame音頻信號(hào)通過(guò)零點(diǎn)的音頻信號(hào)通過(guò)零點(diǎn)的次數(shù)次數(shù) . ZCR has the following characteristics: In general, ZCR of both unvoiced sounds and environment noise are larger than voiced sounds (which has observable fundamental periods). It is hard to distinguish unvoiced sounds fr
13、om environment noise by using ZCR alone since they have similar ZCR values. ZCR is often used in conjunction with the volume for end-point detection. In particular, ZCR is used for detecting the start and end positings of unvoiced sounds. Some people use ZCR for fundamental frequency estimation, but
14、 it is highly unreliable unless further refine procedure is taken into consideration. 計(jì)算過(guò)零率在計(jì)算過(guò)零率時(shí),需注意下列事項(xiàng):在計(jì)算過(guò)零率時(shí),需注意下列事項(xiàng): 由于有些信號(hào)若恰好位于零點(diǎn),此時(shí)過(guò)零由于有些信號(hào)若恰好位于零點(diǎn),此時(shí)過(guò)零率的計(jì)算就有兩種,出現(xiàn)的效果也會(huì)不同。率的計(jì)算就有兩種,出現(xiàn)的效果也會(huì)不同。因此必須多加觀察,才能選用最好的作法。因此必須多加觀察,才能選用最好的作法。 大部分都是使用音頻信號(hào)的原始整數(shù)值來(lái)大部分都是使用音頻信號(hào)的原始整數(shù)值來(lái)計(jì)算,才不會(huì)因?yàn)槭褂酶↑c(diǎn)數(shù)信號(hào),在減計(jì)算,才不會(huì)因?yàn)槭?/p>
15、用浮點(diǎn)數(shù)信號(hào),在減去直流偏移(去直流偏移(DC Bias)時(shí),造成過(guò)零率)時(shí),造成過(guò)零率的增加。的增加。 舉例 zcr01.m waveFile=csNthu8b_S.wav; frameSize=256; overlap=0; y, fs, nbits=wavReadInt(waveFile); frameMat=buffer(y, frameSize, overlap); for i=1:frameNumframeMat(:,i)=frameMat(:,i)-round(mean(frameMat(:,i); % Zero justification end zcr1=sum(frameM
16、at(1:end-1, :).*frameMat(2:end, :)0); % Method 1 zcr2=sum(frameMat(1:end-1, :).*frameMat(2:end, :)=0); % Method 2做圖部分 time=(1:length(y)/fs; frameNum=size(frameMat, 2); frameTime=(0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs; subplot(2,1,1); plot(time, y); ylabel(waveFile); subplot(2,1,2); plo
17、t(frameTime, zcr1, .-, frameTime, zcr2, .-); title(ZCR); xlabel(Time (sec); legend(Method 1, Method 2);From the above example, it is obvious that From the above example, it is obvious that these two methods generate different ZCR these two methods generate different ZCR curves. The first method does
18、 not count curves. The first method does not count zero positioning as zero crossing, there zero positioning as zero crossing, there the corresponding ZCR values are smaller. the corresponding ZCR values are smaller. Moreover, silence is likely to have low ZCR Moreover, silence is likely to have low ZCR of method 1 and high ZCR for method 2 of method 1 and high ZCR for method 2 since there are likely to have many zero since there are likely to have many zero positioning positioning 上述的范例中,我們使用了兩種方式來(lái)計(jì)上述的范例中,我們使用了兩種方式來(lái)計(jì)算過(guò)零率,得到的效果雖然不同,但趨勢(shì)算過(guò)零率,得到的效
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院科室合伙協(xié)議書
- 土地調(diào)整置換協(xié)議書
- 廠內(nèi)股份轉(zhuǎn)讓協(xié)議書
- 名人婚前簽署協(xié)議書
- 醫(yī)療保險(xiǎn)參保協(xié)議書
- 醫(yī)療專科聯(lián)盟協(xié)議書
- 合伙企業(yè)清算協(xié)議書
- 商用灶臺(tái)轉(zhuǎn)讓協(xié)議書
- 合伙辦廠股東協(xié)議書
- 商場(chǎng)多人合股協(xié)議書
- 安徽省1號(hào)卷A10聯(lián)盟2025屆高三5月最后一卷物理試題及答案
- 2025租賃合同續(xù)簽協(xié)議書
- 《聚碳酸酯合成》課件
- 3.2基因工程的基本操作程序課件 高二下學(xué)期生物人教版(2019)選擇性必修3
- 23.《海底世界》課件
- 2025年醫(yī)療行業(yè)反壟斷監(jiān)管政策變化與合規(guī)經(jīng)營(yíng)關(guān)鍵指引報(bào)告
- 礦產(chǎn)資源開采與銷售協(xié)議
- 《支氣管鏡檢查技術(shù)》課件
- 育肥豬考試試題及答案
- 寫作技巧知識(shí)培訓(xùn)課件
- 順豐公司外包協(xié)議合同書
評(píng)論
0/150
提交評(píng)論