基于動(dòng)態(tài)時(shí)間規(guī)整的孤立咳嗽聲識(shí)別_第1頁
基于動(dòng)態(tài)時(shí)間規(guī)整的孤立咳嗽聲識(shí)別_第2頁
基于動(dòng)態(tài)時(shí)間規(guī)整的孤立咳嗽聲識(shí)別_第3頁
基于動(dòng)態(tài)時(shí)間規(guī)整的孤立咳嗽聲識(shí)別_第4頁
基于動(dòng)態(tài)時(shí)間規(guī)整的孤立咳嗽聲識(shí)別_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于動(dòng)態(tài)時(shí)間規(guī)整的孤立咳嗽聲識(shí)別         摘  要 本文通過對(duì)咳嗽聲特性的分析,在對(duì)咳嗽聲進(jìn)行預(yù)處理后,提取咳嗽的Mel頻率倒譜系數(shù)作為特征參數(shù),建立咳嗽模板庫(kù)。采用基于動(dòng)態(tài)時(shí)間規(guī)整算法的模板匹配方法對(duì)特定人的孤立咳嗽進(jìn)行識(shí)別,實(shí)驗(yàn)證明,通過將咳嗽聲的特性和語音識(shí)別方法的結(jié)合,動(dòng)態(tài)時(shí)間規(guī)整算法在對(duì)孤立咳嗽聲識(shí)別中有很好的準(zhǔn)確性和可靠性。   關(guān)鍵詞 特征提?。籑el頻率倒譜系數(shù);動(dòng)態(tài)時(shí)間規(guī)整;咳嗽聲識(shí)別1  引言   咳嗽是機(jī)體的一種保護(hù)性動(dòng)作,以

2、消除呼吸道的分泌物、滲出物及侵入呼吸道的異物1。多數(shù)患者未能完整對(duì)自身的咳嗽特征進(jìn)行描述,比如咳嗽的癥狀、發(fā)作時(shí)間、頻率等,影響了咳嗽的及時(shí)診斷和合理治療。因此,有必要進(jìn)行咳嗽的實(shí)時(shí)監(jiān)測(cè)及其特征的識(shí)別。   至今這種對(duì)咳嗽嚴(yán)重性的評(píng)估,主要依靠主觀措施,如咳嗽反射敏感性、患者對(duì)自身癥狀的感覺、咳嗽可視模擬測(cè)評(píng)、生活質(zhì)量問卷、咳嗽癥狀描述和患者的日記等。 從而使大部分的咳嗽監(jiān)測(cè)器的診斷受到人為的影響較大。   利用可靠的咳嗽檢測(cè)算法可以減少大量需人工分析的數(shù)據(jù),甚至可以做到去除人工分析的過程,因此,要提高咳嗽聲識(shí)別系統(tǒng)的有效性,這就要求有一種算法能夠識(shí)別出

3、大部分在特定錄音中的咳嗽聲,同時(shí)又能夠?qū)⑺c其它的具有相似特性的聲音區(qū)分開來。文章在參考了國(guó)內(nèi)外關(guān)于咳嗽聲識(shí)別的研究現(xiàn)狀,并比較了咳嗽聲識(shí)別與語音識(shí)別的關(guān)系,提出使用動(dòng)態(tài)時(shí)間規(guī)整算法作為本文咳嗽聲識(shí)別的主要算法。2  基本定義2.1  咳嗽發(fā)生機(jī)制   咳嗽表現(xiàn)為深呼吸氣后,聲門關(guān)閉,繼而以突然劇烈的呼氣,沖出狹窄的聲門裂隙產(chǎn)生咳嗽動(dòng)作和發(fā)出聲音。2.2  Mel頻率倒譜系數(shù)12(MFCC)   頻率f與Mel頻率B之間的轉(zhuǎn)換公式為:       

4、0;(1)   MFCC的提取及計(jì)算過程如圖1所示。   (1)原始咳嗽聲信號(hào)y(n)通過預(yù)加重、分幀、加窗處理后,得到每幀的時(shí)域信號(hào)x(n)。   (2)將得到的每幀時(shí)域信號(hào)進(jìn)行離散傅立葉變換(DFT)。        (2)   其中,X(k)為線性頻譜,N為DFT的窗寬。   (3)線性頻譜經(jīng)過Mel頻率濾波器組處理后為M(t),然后對(duì)其進(jìn)行對(duì)數(shù)能量處理,得到結(jié)果為d(m)。圖1  Mel頻率倒譜系數(shù)(MFCC

5、)提取過程圖2  通過Mel頻率濾波器組得到Mel頻譜   其中Mel頻率濾波器組為在語音的頻譜范圍內(nèi)設(shè)置的若干個(gè)帶通濾波器,M為濾波器的個(gè)數(shù)。每個(gè)帶通濾波器的傳遞函數(shù)為:                                 &

6、#160;    (3)                                        f(m)可以用下面的方法定義:    (4)&

7、#160;  其中,Ss為采樣頻率,而B-1為B的逆函數(shù):,而濾波器的頻率應(yīng)用范圍的最低頻率為f=100Hz和最高頻率為f =4000Hz,在實(shí)驗(yàn)中為了減少甚至消除交流電的影響,濾波器的個(gè)數(shù)取M=26,即可以得到26維的MFCC倒譜系數(shù)??紤]到讓得到的結(jié)果對(duì)噪聲和譜估計(jì)誤差有更好的魯棒性,將經(jīng)過Mel濾波器組得到的Mel頻譜取對(duì)數(shù)能量,其傳遞函數(shù)為:                (5)   (4)將上述對(duì)數(shù)頻譜d(

8、m)經(jīng)過離散余弦變換(DCT)變換到倒頻譜域,得到Mel頻率倒譜系數(shù)(MFCC):   (6)   以上參數(shù)稱為靜態(tài)參數(shù),為了描述咳嗽聲幀之間的相關(guān)性,引入了動(dòng)態(tài)參數(shù)一階差分和二階差分。2.3  模版匹配技術(shù)12   模版匹配法是模式識(shí)別中最常用的一種相似度計(jì)算與匹配方法,把具有不同人的咳嗽聲信號(hào)經(jīng)過特征提取變換后作為不同的模版,構(gòu)建一個(gè)基于模版匹配的簡(jiǎn)單的咳嗽聲識(shí)別系統(tǒng),如圖3所示,是該咳嗽聲識(shí)別系統(tǒng)的原理框圖。圖3  基于模版匹配的咳嗽聲識(shí)別原理框圖2.3.1 相似度度量   在基

9、于模板匹配的咳嗽聲識(shí)別系統(tǒng)中,對(duì)原始的咳嗽聲信號(hào)進(jìn)行訓(xùn)練得到一系列的特征模板,將其存儲(chǔ)于模板庫(kù)中。而在識(shí)別過程中采用相似度度量來進(jìn)行模板匹配,將特征模板庫(kù)中的各個(gè)模板稱為參考模板,用R來表示;在模板庫(kù)建好后,又將待識(shí)別的輸入咳嗽聲信號(hào)通過預(yù)處理和特征提取得到特征矢量序列,稱為待檢測(cè)模板,用W表示12。   參考模板用RR(1)、R(2)、R(m)、R(M)表示,其中M為參考模板所包含的咳嗽幀的總數(shù),r為咳嗽幀的時(shí)序標(biāo)號(hào),R(r)為第m幀的咳嗽特征矢量。   待檢測(cè)模板用WW(1)、W(2)、W(n)、W(N)表示,其中N為參考模板所包含的咳嗽幀的總數(shù),w

10、為咳嗽幀的時(shí)序標(biāo)號(hào),W(w)為第n幀的咳嗽特征矢量。   待檢測(cè)模板和參考模板之間的總體相似度可以用它們之間的失真來度量,從W、R中的每個(gè)對(duì)應(yīng)幀之間的失真算起,假設(shè)r、w為W、R中的任意選擇幀號(hào),這兩幀之間的幀失真表示為DW(w),R(r)。2.3.2  動(dòng)態(tài)時(shí)間規(guī)整(DTW)   考慮到咳嗽聲識(shí)別的過程中,進(jìn)行訓(xùn)練或者識(shí)別時(shí),即使每次盡量以同樣的方式去錄制一個(gè)咳嗽,其持續(xù)時(shí)間的長(zhǎng)度也會(huì)隨機(jī)改變,而且不同病人的咳嗽相對(duì)時(shí)長(zhǎng)也時(shí)不可預(yù)測(cè)的。所以,需要對(duì)特征參數(shù)序列模式重新進(jìn)行時(shí)間的對(duì)準(zhǔn),為了有效的解決這個(gè)問題,采用動(dòng)態(tài)時(shí)間規(guī)整算法(DTW)。&#

11、160;  動(dòng)態(tài)時(shí)間規(guī)整算法是尋找一條通過各個(gè)交叉點(diǎn)的從起始點(diǎn)到終止點(diǎn)的幀失真度總和為最小的最佳路徑,其路徑搜索算法12:   (1)初始化:    在搜索的過程中路徑的選擇不是任意的,一般對(duì)路徑中各點(diǎn)處路徑的斜率的最大和最小做出了規(guī)定,最大斜率為2,最小斜率為0.5。設(shè)定路徑初始關(guān)系為(0,0),r=1,N,w=1,M。   (2)當(dāng)時(shí),求 :    求所有可能的wi,滿足限定條件:ri=i且 (ri,wi)R    遍歷所有wi,進(jìn)行下列各步計(jì)算: 

12、其中             (3)由dN,M即可得到路徑的總失真度;   (4)由i=N時(shí)點(diǎn)(N,M)向前回溯,得到最佳路徑:   若在回溯過程中出現(xiàn),那么終止算法。3  驗(yàn)過程   首先針對(duì)特定人,采取了63個(gè)咳嗽聲樣本,運(yùn)用多模板平均訓(xùn)練算法,其算法   (1)設(shè)定最大模板失真閾值:a。   (2)從采集的咳嗽聲樣本集中取出樣本,假設(shè)第一個(gè)咳嗽聲樣本形成的特征矢量序列為:

13、Sample1=S11,S12,S1n,另一個(gè)特征序列為:Sample2=S21,S22,S2n,通過DTW算法計(jì)算它們的失真度,如果小于a,那么則轉(zhuǎn)(3),否則轉(zhuǎn)(2)。   (3)通過回溯法得到DTW搜索的最優(yōu)路徑序列:(r1,w1),(r2,w2),(rt,wt)。   (4)新的模板取為Sample1、Sample2的時(shí)間規(guī)整后的平均,即:Sample Sample1,Sample2,SampleL,SampleT,其中SampleL0.5×(S1LS2L)(L1,2,T)。   通過上述的算法,實(shí)驗(yàn)中用63個(gè)樣本來

14、訓(xùn)練,獲得了7種類型的咳嗽聲樣本的模板。在采集特定人的咳嗽聲樣本時(shí),也采集了其孤立的語音樣本33個(gè),同樣運(yùn)用這個(gè)算法訓(xùn)練20個(gè)樣本,得到3個(gè)語音模板。在識(shí)別時(shí),待識(shí)別的咳嗽聲信號(hào)矢量序列用DTW算法分別求得與每個(gè)模板的總失真度,然后根據(jù)總失真度的大小來判斷待識(shí)別咳嗽聲接近哪個(gè)模板,即是屬于哪一類咳嗽聲或者是非咳嗽聲。4  實(shí)驗(yàn)結(jié)果   在實(shí)驗(yàn)中,采樣頻率為16000HZ,DFT的窗寬N=512,最大模板失真閾值a0.45。其中模板1模板7為咳嗽聲模板,模板8模板10是語音模板。如表1所示,輸入待識(shí)別的信號(hào)為咳嗽聲時(shí),經(jīng)過DTW算法后計(jì)算的得到失真度,選取最小的,即

15、最接近模板1,是屬于跟模板1類似的咳嗽。當(dāng)輸入的待識(shí)別信號(hào)為語音信號(hào)時(shí),如表2可以看到,運(yùn)用DTW算法進(jìn)行比較,得到結(jié)果是跟模板8比較接近,即是屬于語音類的信號(hào)。表1  待識(shí)別信號(hào)為咳嗽聲的識(shí)別結(jié)果模板 12345678910失真度1.31543.88264.26694.45244.41575.53854.90117.13924.90114.9011表2  待識(shí)別信號(hào)為非咳嗽聲的識(shí)別結(jié)果模板 12345678910失真度5.22753.83797.19477.81933.13957.92864.20152.144.20154.2015   &#

16、160;   在實(shí)驗(yàn)中,運(yùn)用動(dòng)態(tài)時(shí)間規(guī)整算法(DTW)對(duì)從醫(yī)院病房采集同一個(gè)病人的96個(gè)咳嗽聲和33說話聲音進(jìn)行訓(xùn)練和識(shí)別,其結(jié)果如表3所示。由于采集的咳嗽樣本存在比較嚴(yán)重背景音的影響,因而識(shí)別率受到了的影響。表3  DTW 算法識(shí)別結(jié)果模板類型 咳嗽聲類說話聲類識(shí)別率89.5890.95  探討   雖然咳嗽聲的識(shí)別可以參考語音識(shí)別技術(shù),但咳嗽聲的識(shí)別與語音識(shí)別又有著不同。   (1)根據(jù)語音產(chǎn)生的離散時(shí)域模型,語音識(shí)別主要區(qū)分清音與濁音。清音是氣流通過聲道中狹窄縫隙形成湍流,造成噪聲源;而濁音的聲源則是氣流通過聲門時(shí)所產(chǎn)生的周期脈沖。由咳嗽的醫(yī)學(xué)定義,咳嗽聲是否更接近濁音,因其由大量氣流通過聲門而產(chǎn)生聲音,因此是否可以通過引入其它生理特征信號(hào),如呼吸流量等,與咳嗽信號(hào)一起作為識(shí)別參數(shù),而得到更好的識(shí)別效果。   (2)在語音識(shí)別中,不同語音由不同的濁音表征,而不同的濁音又是以聲道的不同來表征的。而咳嗽的機(jī)理原因是為把呼吸道的分泌物、滲出物及侵入呼吸道的異物排出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論