實(shí)驗(yàn)3-2完成作品語音識(shí)別_第1頁
實(shí)驗(yàn)3-2完成作品語音識(shí)別_第2頁
實(shí)驗(yàn)3-2完成作品語音識(shí)別_第3頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1 語音信號(hào)預(yù)處 信號(hào)預(yù)濾波和A/D轉(zhuǎn) 信號(hào)預(yù)加 信號(hào)分幀和加 語音信號(hào)的短時(shí) 分幀和加 信號(hào)端點(diǎn)檢 常用時(shí)域聲學(xué)參 端點(diǎn)檢測(cè)方 實(shí)驗(yàn)仿真及分 小結(jié)與展 第2 語音特征參數(shù)提 語音特征參 .美爾倒譜系數(shù) LPCC和MFCC對(duì) 特征降維方 奇異值分解法 主成分分析法 獨(dú)立分量分析法 特征選擇方 小結(jié)與展 第1章語音信號(hào)預(yù)處§1.1A/D分析人聲頻譜規(guī)律可以發(fā)現(xiàn)語音信號(hào)中濁音的頻譜在4Hk以上會(huì)快速清音正好相反,4kHz8Hk頻段都會(huì)出現(xiàn)上升。而正常語音在一般情況下都包含有清音、濁音。所以在進(jìn)行信號(hào)分析時(shí)4kHz以上頻段仍屬于處理范圍。另一方面,現(xiàn)實(shí)環(huán)境中原始語音信號(hào)不可避100Hk3.4kHz的帶通濾波器。fsfm兩倍時(shí),原始信號(hào)中的信息一般得以較好保留。在實(shí)際應(yīng)5~10倍。采樣后對(duì)信號(hào)進(jìn)行離散化,這一過程中會(huì)給信號(hào)§1.2理特性,語音信號(hào)的平均功率在經(jīng)過聲門和口鼻輻射后,高頻部分大800Hz以上按6dB/倍§1.3 圖1- 1-21-2§1.4、目的是將語音段與非語音段區(qū)分開來方便后續(xù)的壓縮和分析提高系統(tǒng)效率研究表明,、 Energy幅度(Short-timeAverageMagnitude)及短時(shí)過零率(Short-timeZero-crossingRate)等均是時(shí)域音信號(hào),指信號(hào)波形通過時(shí)間軸;對(duì)于離散時(shí)間語音信號(hào),則相鄰兩個(gè)采樣點(diǎn)的代數(shù)符號(hào),x(n)ZnZn定義為: 清音由于聲帶不振動(dòng),僅靠空氣在口腔中摩擦,沖擊或來,能量較小。MtMn,En(法稱為雙門限算法。經(jīng)典雙門限算法的檢驗(yàn)步驟如圖1-3所示:1-3Mt,信號(hào)段落作為礎(chǔ)音段,然后設(shè)定一個(gè)短時(shí)過零率閾值Zt,以礎(chǔ)音段的端點(diǎn)為邊界,分別向Zt的交點(diǎn)對(duì)應(yīng)的語音幀作為語音段最終的端點(diǎn)。 實(shí)驗(yàn)在自然環(huán)境下利用Windows自帶“機(jī)”程序原始語音信號(hào)。對(duì)信號(hào)進(jìn)行分幀,20ms。由于短時(shí)能量和短時(shí)平均幅度的作用類似,在仿真實(shí)驗(yàn)中僅采用短時(shí)能10§1.5第2章語音特征參數(shù)提(MFCC§2.1 線性預(yù)測(cè)倒譜系數(shù)LPCC系數(shù)是線性預(yù)測(cè)系數(shù)(LPC)在倒譜中的表示,它主要反映了聲道發(fā)音模型。語音信預(yù)測(cè)當(dāng)前或未來的采樣值。即第k點(diǎn)或k+n點(diǎn)的采樣值通過之前的N個(gè)采樣值線性組合來近。 .美爾倒譜系數(shù)與線性倒系L反映模型同美e譜系數(shù)重于描人耳對(duì)音的非線知特性實(shí)驗(yàn)表,人耳不同頻的音感知能是不同。以100z為標(biāo),低于100Hz000Hzel刻度來記這種化。美倒譜系()就是建立在el刻度上的。的主要思路是通過種變換式把線頻譜轉(zhuǎn)為于el頻率的非性頻譜將結(jié)果射到倒域美爾倒譜系數(shù)() LPCCMFCC用于對(duì)實(shí)時(shí)性要求較高的語音信號(hào)處理系統(tǒng)。另外,LPCC參數(shù)假設(shè)模型為全極點(diǎn)模型,這對(duì)元音有較好的描述能力。但對(duì)于輔音,全極點(diǎn)模型假設(shè)并不貼切,故LPCC參數(shù)對(duì)輔音的描述效果不甚理想。另一方面,由于LPCC參數(shù)的線性特性,對(duì)語音信號(hào)高頻部分的噪音干擾抗性很LPCC參數(shù)的使用。MFCCMel頻標(biāo),這符合語音信號(hào)的特性,使得信號(hào)低頻部分得以力。并且,MFCCLPCC§2.2 奇異值分解法本個(gè)數(shù);降維之后是r250的特征矩陣,r為降維之后的每一個(gè)樣本的特征維度數(shù)。 主成分分析法主成分分析(principalcomponentysis,PCA)是將多個(gè)變量通過線性變換以選出較少個(gè)DN,所以減少計(jì)算量,第(1)X1N

XT

的特征值和特征向量。設(shè)該矩陣特征值i對(duì)應(yīng)的特征值為vi,可以證明i 獨(dú)立分量分析法PCA方法用到的統(tǒng)計(jì)信息僅有中值和方差,因此只能充分描述指數(shù)型概率分布模型,如分布。當(dāng)所的特征的概率分布不滿足分布或指數(shù)型概率分布時(shí),PCA將會(huì)失效。在非(ICAICAX,轉(zhuǎn)換成獨(dú)立分量sWxFa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論