版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于動態(tài)時間規(guī)整的孤立咳嗽聲識別 摘 要 本文通過對咳嗽聲特性的分析,在對咳嗽聲進行預處理后,提取咳嗽的Mel頻率倒譜系數(shù)作為特征參數(shù),建立咳嗽模板庫。采用基于動態(tài)時間規(guī)整算法的模板匹配方法對特定人的孤立咳嗽進行識別,實驗證明,通過將咳嗽聲的特性和語音識別方法的結(jié)合,動態(tài)時間規(guī)整算法在對孤立咳嗽聲識別中有很好的準確性和可靠性。 關(guān)鍵詞 特征提?。籑el頻率倒譜系數(shù);動態(tài)時間規(guī)整;咳嗽聲識別1 引言 咳嗽是機體的一種保護性動作,以消除呼吸道的分泌物、滲出物及侵入呼吸道的異物1。多數(shù)患者未能完整對自身的咳嗽特征進行描述,比如咳嗽的癥狀、發(fā)作時間、頻率等,影響了咳嗽的及時診斷和合理治療。因此,有必要
2、進行咳嗽的實時監(jiān)測及其特征的識別。 至今這種對咳嗽嚴重性的評估,主要依靠主觀措施,如咳嗽反射敏感性、患者對自身癥狀的感覺、咳嗽可視模擬測評、生活質(zhì)量問卷、咳嗽癥狀描述和患者的日記等。 從而使大部分的咳嗽監(jiān)測器的診斷受到人為的影響較大。 利用可靠的咳嗽檢測算法可以減少大量需人工分析的數(shù)據(jù),甚至可以做到去除人工分析的過程,因此,要提高咳嗽聲識別系統(tǒng)的有效性,這就要求有一種算法能夠識別出大部分在特定錄音中的咳嗽聲,同時又能夠?qū)⑺c其它的具有相似特性的聲音區(qū)分開來。文章在參考了國內(nèi)外關(guān)于咳嗽聲識別的研究現(xiàn)狀,并比較了咳嗽聲識別與語音識別的關(guān)系,提出使用動態(tài)時間規(guī)整算法作為本文咳嗽聲識別的主要算法。2
3、基本定義2.1 咳嗽發(fā)生機制 咳嗽表現(xiàn)為深呼吸氣后,聲門關(guān)閉,繼而以突然劇烈的呼氣,沖出狹窄的聲門裂隙產(chǎn)生咳嗽動作和發(fā)出聲音。2.2 Mel頻率倒譜系數(shù)12(MFCC) 頻率f與Mel頻率B之間的轉(zhuǎn)換公式為:(1) MFCC的提取及計算過程如圖1所示。 (1)原始咳嗽聲信號y(n)通過預加重、分幀、加窗處理后,得到每幀的時域信號x(n)。 (2)將得到的每幀時域信號進行離散傅立葉變換(DFT)。 (2) 其中,X(k)為線性頻譜,N為DFT的窗寬。 (3)線性頻譜經(jīng)過Mel頻率濾波器組處理后為M(t),然后對其進行對數(shù)能量處理,得到結(jié)果為d(m)。圖1 Mel頻率倒譜系數(shù)(MFCC)提取過程圖
4、2 通過Mel頻率濾波器組得到Mel頻譜 其中Mel頻率濾波器組為在語音的頻譜范圍內(nèi)設(shè)置的若干個帶通濾波器,M為濾波器的個數(shù)。每個帶通濾波器的傳遞函數(shù)為: (3) f(m)可以用下面的方法定義:(4) 其中,Ss為采樣頻率,而B-1為B的逆函數(shù):,而濾波器的頻率應用范圍的最低頻率為f=100Hz和最高頻率為f =4000Hz,在實驗中為了減少甚至消除交流電的影響,濾波器的個數(shù)取M=26,即可以得到26維的MFCC倒譜系數(shù)??紤]到讓得到的結(jié)果對噪聲和譜估計誤差有更好的魯棒性,將經(jīng)過Mel濾波器組得到的Mel頻譜取對數(shù)能量,其傳遞函數(shù)為: (5) (4)將上述對數(shù)頻譜d(m)經(jīng)過離散余弦變換(DC
5、T)變換到倒頻譜域,得到Mel頻率倒譜系數(shù)(MFCC):(6) 以上參數(shù)稱為靜態(tài)參數(shù),為了描述咳嗽聲幀之間的相關(guān)性,引入了動態(tài)參數(shù)一階差分和二階差分。2.3 模版匹配技術(shù)12 模版匹配法是模式識別中最常用的一種相似度計算與匹配方法,把具有不同人的咳嗽聲信號經(jīng)過特征提取變換后作為不同的模版,構(gòu)建一個基于模版匹配的簡單的咳嗽聲識別系統(tǒng),如圖3所示,是該咳嗽聲識別系統(tǒng)的原理框圖。圖3 基于模版匹配的咳嗽聲識別原理框圖 在基于模板匹配的咳嗽聲識別系統(tǒng)中,對原始的咳嗽聲信號進行訓練得到一系列的特征模板,將其存儲于模板庫中。而在識別過程中采用相似度度量來進行模板匹配,將特征模板庫中的各個模板稱為參考模板,
6、用R來表示;在模板庫建好后,又將待識別的輸入咳嗽聲信號通過預處理和特征提取得到特征矢量序列,稱為待檢測模板,用W表示12。 參考模板用RR(1)、R(2)、R(m)、R(M)表示,其中M為參考模板所包含的咳嗽幀的總數(shù),r為咳嗽幀的時序標號,R(r)為第m幀的咳嗽特征矢量。 待檢測模板用WW(1)、W(2)、W(n)、W(N)表示,其中N為參考模板所包含的咳嗽幀的總數(shù),w為咳嗽幀的時序標號,W(w)為第n幀的咳嗽特征矢量。 待檢測模板和參考模板之間的總體相似度可以用它們之間的失真來度量,從W、R中的每個對應幀之間的失真算起,假設(shè)r、w為W、R中的任意選擇幀號,這兩幀之間的幀失真表示為DW(w),
7、R(r)。 考慮到咳嗽聲識別的過程中,進行訓練或者識別時,即使每次盡量以同樣的方式去錄制一個咳嗽,其持續(xù)時間的長度也會隨機改變,而且不同病人的咳嗽相對時長也時不可預測的。所以,需要對特征參數(shù)序列模式重新進行時間的對準,為了有效的解決這個問題,采用動態(tài)時間規(guī)整算法(DTW)。 動態(tài)時間規(guī)整算法是尋找一條通過各個交叉點的從起始點到終止點的幀失真度總和為最小的最佳路徑,其路徑搜索算法12: (1)初始化: 在搜索的過程中路徑的選擇不是任意的,一般對路徑中各點處路徑的斜率的最大和最小做出了規(guī)定,最大斜率為2,最小斜率為0.5。設(shè)定路徑初始關(guān)系為(0,0),r=1,N,w=1,M。 (2)當時,求 :
8、求所有可能的wi,滿足限定條件:ri=i且 (ri,wi)R 遍歷所有wi,進行下列各步計算: 其中 (3)由dN,M即可得到路徑的總失真度; (4)由i=N時點(N,M)向前回溯,得到最佳路徑: 若在回溯過程中出現(xiàn),那么終止算法。3 驗過程 首先針對特定人,采取了63個咳嗽聲樣本,運用多模板平均訓練算法,其算法 (1)設(shè)定最大模板失真閾值:a。 (2)從采集的咳嗽聲樣本集中取出樣本,假設(shè)第一個咳嗽聲樣本形成的特征矢量序列為:Sample1=S11,S12,S1n,另一個特征序列為:Sample2=S21,S22,S2n,通過DTW算法計算它們的失真度,如果小于a,那么則轉(zhuǎn)(3),否則轉(zhuǎn)(2)
9、。 (3)通過回溯法得到DTW搜索的最優(yōu)路徑序列:(r1,w1),(r2,w2),(rt,wt)。 (4)新的模板取為Sample1、Sample2的時間規(guī)整后的平均,即:Sample Sample1,Sample2,SampleL,SampleT,其中SampleL0.5(S1LS2L)(L1,2,T)。 通過上述的算法,實驗中用63個樣本來訓練,獲得了7種類型的咳嗽聲樣本的模板。在采集特定人的咳嗽聲樣本時,也采集了其孤立的語音樣本33個,同樣運用這個算法訓練20個樣本,得到3個語音模板。在識別時,待識別的咳嗽聲信號矢量序列用DTW算法分別求得與每個模板的總失真度,然后根據(jù)總失真度的大小來判
10、斷待識別咳嗽聲接近哪個模板,即是屬于哪一類咳嗽聲或者是非咳嗽聲。4 實驗結(jié)果 在實驗中,采樣頻率為16000HZ,DFT的窗寬N=512,最大模板失真閾值a0.45。其中模板1模板7為咳嗽聲模板,模板8模板10是語音模板。如表1所示,輸入待識別的信號為咳嗽聲時,經(jīng)過DTW算法后計算的得到失真度,選取最小的,即最接近模板1,是屬于跟模板1類似的咳嗽。當輸入的待識別信號為語音信號時,如表2可以看到,運用DTW算法進行比較,得到結(jié)果是跟模板8比較接近,即是屬于語音類的信號。表1 待識別信號為咳嗽聲的識別結(jié)果模板 12345678910失真度1.31543.88264.26694.45244.4157
11、5.53854.90117.13924.90114.9011表2 待識別信號為非咳嗽聲的識別結(jié)果模板 12345678910失真度5.22753.83797.19477.81933.13957.92864.20152.144.20154.2015 在實驗中,運用動態(tài)時間規(guī)整算法(DTW)對從醫(yī)院病房采集同一個病人的96個咳嗽聲和33說話聲音進行訓練和識別,其結(jié)果如表3所示。由于采集的咳嗽樣本存在比較嚴重背景音的影響,因而識別率受到了的影響。表3 DTW 算法識別結(jié)果模板類型 咳嗽聲類說話聲類識別率89.5890.95 探討 雖然咳嗽聲的識別可以參考語音識別技術(shù),但咳嗽聲的識別與語音識別又有著不
12、同。 (1)根據(jù)語音產(chǎn)生的離散時域模型,語音識別主要區(qū)分清音與濁音。清音是氣流通過聲道中狹窄縫隙形成湍流,造成噪聲源;而濁音的聲源則是氣流通過聲門時所產(chǎn)生的周期脈沖。由咳嗽的醫(yī)學定義,咳嗽聲是否更接近濁音,因其由大量氣流通過聲門而產(chǎn)生聲音,因此是否可以通過引入其它生理特征信號,如呼吸流量等,與咳嗽信號一起作為識別參數(shù),而得到更好的識別效果。 (2)在語音識別中,不同語音由不同的濁音表征,而不同的濁音又是以聲道的不同來表征的。而咳嗽的機理原因是為把呼吸道的分泌物、滲出物及侵入呼吸道的異物排出,是否就可以判斷其聲道(即口腔)形狀也是應相對固定,以使氣流順暢通過,因此是否可以得出咳嗽的識別比語音的識別簡
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025教師公寓出租合同樣本
- 2025車輛承包合同范本
- 電信詐騙的分析與對策
- 科技節(jié)慶活動的多元策劃與實施經(jīng)驗
- 趣味數(shù)學課堂寓教于樂的秘密武器
- 2024年智慧物流投資申請報告
- 2024年農(nóng)業(yè)運輸機械項目資金籌措計劃書代可行性研究報告
- 二零二五年度酒店客房預訂取消退款合同4篇
- 二零二五年度創(chuàng)業(yè)型企業(yè)環(huán)保設(shè)施改造升級與合規(guī)審查合同4篇
- 2025年北師大版九年級生物上冊階段測試試卷
- 2025年上半年江蘇連云港灌云縣招聘“鄉(xiāng)村振興專干”16人易考易錯模擬試題(共500題)試卷后附參考答案
- DB3301T 0382-2022 公共資源交易開評標數(shù)字見證服務規(guī)范
- 人教版2024-2025學年八年級上學期數(shù)學期末壓軸題練習
- 江蘇省無錫市2023-2024學年八年級上學期期末數(shù)學試題(原卷版)
- 俄語版:中國文化概論之中國的傳統(tǒng)節(jié)日
- 2022年湖南省公務員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 婦科一病一品護理匯報
- 哪吒之魔童降世
- 2022年上海市各區(qū)中考一模語文試卷及答案
- 2024年全國統(tǒng)一高考數(shù)學試卷(新高考Ⅱ)含答案
- 我國無菌包裝行業(yè)消費量已超千億包-下游需求仍存擴容潛力
評論
0/150
提交評論