




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于語音識別系統(tǒng)性能影響的噪音場景分析摘要:噪音場景分析對提高語音識別系統(tǒng)在復雜環(huán)境下的魯棒性具有重要的意義。本文介紹了一種基于語音識別系統(tǒng)性能影響的噪音場景聚類分析方法,是采用數(shù)理統(tǒng)計學方法分析噪音場景對于語音識別系統(tǒng)性能的影響效應,依據(jù)效應分析來實現(xiàn)對噪音場景的聚類?;诜讲罘治龇ǖ慕y(tǒng)計模型能夠?qū)⒃胍魣鼍皩π阅艿挠绊懶纸鉃橛柧?、測試的單獨效應以及二者的交互效應這三個部分并準確地估計這三種效應,進而實現(xiàn)對噪音場景的聚類。最后通過識別實驗對聚類合理性進行驗證。關(guān)鍵字:語音識別;方差分析;析因設(shè)計;噪音聚類。analysis of background noise based on perf
2、ormance influence for speech recognition systemabstract: noise scenes analysis technique plays a very important role for improving the adaptation of speech recognition system in noise background. a new clustering analysis method based on performance influence for speech recognition system has been i
3、ntroduced. by means of statistical analysis methods, it analysis the influence of scene noises on system performance and get the similarity for clustering. a statistical model based on anova was proposed to decompose the effect on system performance into three parts: effect of training data, test da
4、ta and their interaction, and each path is considered dependent on scene noises. finally verify reasonableness of clustering by means of speech recognition experiments.keywords: speech recognition; anova; factorial design; noise clustering.1 引言目前關(guān)于提高語音識別系統(tǒng)在真實環(huán)境下的魯棒性問題已經(jīng)成為了語音識別技術(shù)的研究熱點123。目前的語音識別系統(tǒng)只能在
5、一定的限制條件下獲得滿意的性能,或者說只能應用于某些特定的場合。影響語音識別系統(tǒng)在復雜環(huán)境下性能的主要*基金項目:國家“863”計劃基金資助項目(2004aa114010)原因有兩個:一是背景噪音影響了語音信號的質(zhì)量;二是訓練數(shù)據(jù)與識別環(huán)境不匹配。針對影響系統(tǒng)性能的這兩個主要原因,研究者們采取的主要措施一個是研究抗噪算法,另一個就是進行加噪訓練。研究抗噪算法是為了消除背景噪音對話音的影響,提高語音信號的質(zhì)量。加噪訓練是為了使訓練數(shù)據(jù)和識別環(huán)境更加匹配。由于真實環(huán)境里噪音的種類繁多,對每一種噪音都去研究抗噪算法或者用每一種噪音來進行加噪訓練都是不合適的。因此我們有必要把各種噪音場景聚成有限的幾類
6、,用這幾個大類中的典型噪音去代表所有的噪音,從而可以更有針對性地研究抗噪算法,同時也可以更方便地進行加噪訓練。所以對噪音場景的分析對于語音識別來說是非常有意義的。通常的音頻場景分析大都是采用基于聲學特征的分析,需要先對音頻進行聲學特征的提取,將從不同場景中提取的音頻信號特征作為研究對象,通過不同的方法進行音頻場景分析。提取的特征通常有短時過零率和能量特征,頻域和倒譜域的特征45,以及線性譜頻率lsf6等等一些其他特征。目前用的最廣泛的特征是梅爾倒譜系數(shù)mfcc。本文提出了一種新穎的噪音場景聚類分析方法。區(qū)別于其他傳統(tǒng)的聚類方法78,它沒有聲學特征的提取,而是采用是數(shù)理統(tǒng)計學方法分析噪音場景對于
7、語音識別系統(tǒng)性能的影響效應,依據(jù)效應分析來實現(xiàn)對噪音場景的聚類。該方法對比于其他基于聲學特征的聚類方法,是完全從系統(tǒng)性能角度出發(fā),要將復雜繁多的噪音場景歸納為幾個典型大類,使得類內(nèi)場景對系統(tǒng)性能影響不顯著,類間場景對系統(tǒng)性能影響顯著。而基于聲學特征的聚類有可能不能完全反映噪音場景對系統(tǒng)性能的影響,因為可能存在聲學特征類似的噪音對系統(tǒng)性能影響顯著,而聲學特征不同的噪音卻對系統(tǒng)性能影響不顯著。具體步驟為:1.首先進行語音識別實驗,利用htk工具搭建的大詞匯連續(xù)語音識別系統(tǒng)lvcsr和國家863基礎(chǔ)語音庫完成加噪訓練并測試,得到分析數(shù)據(jù);2.然后利用統(tǒng)計學方法和試驗優(yōu)化方法分析實驗結(jié)果,研究各種噪音
8、場景對語音識別系統(tǒng)性能的影響效應;3.最后根據(jù)效應分析結(jié)果對噪音場景數(shù)據(jù)進行聚類分析。該方法的總體流程圖如圖1所示。另外需要說明的是,本文用的語音識別系統(tǒng)是由劍橋大學開發(fā)的htk工具搭建的。 htk是基于hmm的語音識別工具,是目前比較通用和公認的一個工具,大多數(shù)的語音識別系統(tǒng)都是在它基礎(chǔ)上搭建的。所以利用由它搭建而來的這個基線系統(tǒng)進行我們的研究是比較有代表性和通用性的。聚類有效性驗證效應分析噪音聚類n法水平分組系統(tǒng)聚類效應的顯著性驗證n法水平分組效應估計系統(tǒng)聚類噪音聚類圖1 方法總體流程圖2 數(shù)理統(tǒng)計學方法介紹2.1析因設(shè)計首先介紹幾個基本概念,將影響語音識別系統(tǒng)性能的語音數(shù)據(jù)屬性稱為因素。
9、如噪音場景、信噪比(snr)、說話人性別、說話人口音、語速等。因素的取值或分類稱為因素的水平,如“說話人性別”有兩個水平:“男”和“女”。析因設(shè)計也叫做全因子實驗設(shè)計,是根據(jù)因素的全組合安排試驗的試驗優(yōu)化設(shè)計方法。析因設(shè)計就是實驗中所涉及到的全部實驗因素的各個水平的全面組合形成不同的實驗條件,在每個實驗條件下進行兩次或兩次以上的獨立重復實驗。析因設(shè)計的最大優(yōu)點是所獲得的信息量很多,可以準確地估計各實驗因素的主效應的大小,還可估計因素之間各級交互作用效應的大小。本文采用析因設(shè)計方法來安排語音識別實驗。2.2方差分析方差分析(analysis of variance,簡稱anova)又稱變異數(shù)分析
10、或f檢驗,其目的是推斷兩組或多組資料的總體均數(shù)是否相同,檢驗兩個或多個樣本均數(shù)的差異是否有統(tǒng)計學意義,是進行假設(shè)檢驗的一種很有效的方法。方差分析在一個或多個因素的不同水平或水平組合下測量一個定量反應變量,將對這個反應變量的總效應分解為由各因素引起的效應或因素的組合產(chǎn)生的交互效應以及隨機誤差效應;同時將總自由度分解為對應各部分自由度之和。例如在單因素方差分析中,統(tǒng)計量為f值,在一定的顯著水平下如果f值大于f界值,說明該因素有統(tǒng)計學意義,即由它引起的效應是顯著的,這就是方差分析的基本思想。方差分析的基本應用條件是各樣本是相互獨立的,各樣本數(shù)據(jù)必須滿足正態(tài)性和方差齊性。雙因素方差分析的模型可以由如下
11、公式描述: (1)表示第一個因素的第個水平,表示第二個因素的第個水平,表示第k次實驗當?shù)谝粋€因素取水平,第二個因素取水平時的性能指標值。表示第一個因素取水平時對性能指標的效應。表示第二個因素取水平對性能指標的效應。表示兩個因素間交互作用的效應。表示第k次實驗的隨機實驗誤差。噪音場景對于系統(tǒng)性能的影響主要表現(xiàn)在訓練數(shù)據(jù)、測試數(shù)據(jù)和兩者交互作用(一致性)三個部分的效應。本文中將訓練當成第一個因素,測試當成第二個因素,應用方差分析模型進行如下假設(shè)檢驗考察三者的效應。對場景因素,檢驗:對信噪比因素,檢驗:對交互作用,檢驗:方差分析采用分離偏差平方和以及自由度的方法,采用f分布檢驗以上幾個原假設(shè)是否成立
12、。本文主要運用方差分析法對噪音場景進行效應分析。3 效應分析基于識別系統(tǒng)性能影響的噪音場景聚類分析方法,其原理是依據(jù)噪音場景對系統(tǒng)性能的影響效應來對噪音場景進行聚類分析。在語音識別訓練和測試數(shù)據(jù)上的分別加上不同的背景噪音形成不同的訓練集和測試集,然后進行語音識別實驗,得到的系統(tǒng)性能會有差異。這種差異主要是由于訓練和測試數(shù)據(jù)不同造成的,本質(zhì)上是由于所加的背景噪音不同造成的。我們運用統(tǒng)計學方法分析噪音場景對系統(tǒng)性能的影響效應。 首先要驗證效應的顯著性,即驗證由于噪音場景不同造成的系統(tǒng)性能的差異是顯著的,訓練和測試都存在影響系統(tǒng)性能的效應并且這兩種效應都是顯著的。并且通過分析我們會發(fā)現(xiàn):噪音場景因素
13、對性能的影響作用不僅表現(xiàn)在訓練和測試的效應上,還表現(xiàn)在訓練和測試的一致性對性能的影響,即訓練和測試還存在交互作用,交互效應同樣也是顯著的。其次作效應估計判別出效應的強弱。為了分析不同噪音間的訓練、測試的效應以及訓練與測試的交互效應,我們需要進行語音識別實驗,通過給原始無噪數(shù)據(jù)加上各種不同的噪音形成不同的訓練集和測試集,產(chǎn)生實驗結(jié)果來研究由于噪音數(shù)據(jù)的不同導致的訓練和測試的不同對于系統(tǒng)性能的影響效應。語音識別工具是利用劍橋大學開發(fā)的htk開源工具搭建的大詞匯連續(xù)語音識別系統(tǒng)lvcsr;聲學模型采用三音子的隱馬爾可夫模型,聲學特征采用mfcc特征。語言模型采用二元語法。由于我們要考察的是噪音場景對
14、于系統(tǒng)性能的影響,所以系統(tǒng)沒有采取如語音增強等噪音魯棒技術(shù),可以排除其他可能會對性能造成影響的因素。原始無噪音訓練數(shù)據(jù)是863基礎(chǔ)語音庫,原始無噪音測試數(shù)據(jù)是來自于北方音庫,都是標準普通話發(fā)音。具體信息如表1所示。語音數(shù)據(jù)按16khz采樣頻率數(shù)字化,各個采樣點用16位進行量化,都是pcm wav編碼格式。表1. 原始無噪音訓練和測試數(shù)據(jù)集說話人個數(shù)總時長單句個數(shù)男女訓練集100100100小時71639測試集10101小時1200噪音數(shù)據(jù):文章采集的噪音場景數(shù)據(jù)包括室內(nèi)、室外及交通工具各種場景,都是現(xiàn)場錄音。錄入設(shè)備采用ibm筆記本電腦外加sound blaster audigy 2 zs專業(yè)
15、聲卡,錄入軟件采用cool edit pro 2.0,按16khz采樣頻率數(shù)字化,各個采樣點用16位進行量化,存儲到計算機中。3.1 四種典型噪音場景的效應分析首先驗證效應的顯著性。運用析因設(shè)計方法安排語音識別實驗,選擇四種人耳感覺有明顯差異的噪音場景數(shù)據(jù)作為訓練和測試的四個水平(factory、restaurant、taxi、white)。把四個噪音數(shù)據(jù)按相同的信噪比(10db)線性疊加到原始無噪訓練集和測試集,得到四個訓練集和四個測試集。采用lvcsr系統(tǒng),分別用四個訓練集訓練,得到四個識別系統(tǒng),再用四個測試集對這四個識別系統(tǒng)分別進行測試,得到16組識別結(jié)果。每個測試集按不同說話人分成20
16、個子集,作為20次重復試驗統(tǒng)計字錯誤率。然后采用直觀分析法以及假設(shè)檢驗法對識別結(jié)果進行分析。圖2列出的是4種訓練與測試集兩兩交叉實驗統(tǒng)計出的總字錯誤率。圖2. 四種典型噪音場景的語音識別實驗測試結(jié)果直觀分析法:作圖,對測試的每一個水平分別作訓練因素和指標的關(guān)系圖,如圖3所示。從圖中可看出,四條折線不平行有交叉,說明訓練和測試有交互作用;并且每一條同色折線都與其他三條不同色折線有交點,說明訓練和測試對于任意兩種噪音之間都存在交互作用;并且每條折線的最低處總是在訓練與測試水平一致的時候,說明這種交互作用表現(xiàn)在當訓練和測試數(shù)據(jù)一致的時候,性能要好。圖3四場景的訓練和測試兩因素的關(guān)系圖假設(shè)檢驗法:利用
17、sas統(tǒng)計軟件9對16組測試結(jié)果(每組統(tǒng)計20個字錯誤率)進行假設(shè)檢驗,結(jié)果如圖4所示,三個因素的pr值都小于顯著性水平0.05,在統(tǒng)計學上通常認為當pr=20)個不同的噪音數(shù)據(jù)文件分別對原始無噪訓練數(shù)據(jù)和原始無噪測試數(shù)據(jù)作線性疊加。信噪比為10db,形成n個不同訓練集和測試集。對訓練和測試兩因素作析因設(shè)計,不同的場景類型看作訓練和測試的不同水平,訓練和測試都有n個水平,因而要用lvcsr系統(tǒng)作nn的實驗,并分別根據(jù)不同說話人統(tǒng)計字錯誤率。按表2方案選取實驗得到的數(shù)據(jù),兩兩考察噪音場景之間的訓練效應,取兩個不同的訓練場景,作為因素一來考察,它有兩水平(訓練場景a和訓練場景b),另一個因素是測試
18、因素(它有n個水平,對應n種不同測試場景)。雙因素方差分析法考察訓練因素的顯著性作用。測試訓練表2. 雙因素方差分析示例場景1場景2場景3場景n場景adataa1dataa2dataa3dataan場景bdatab1datab2datab3databndataij (i=a,b; j=1,2n)是用trai數(shù)據(jù)訓練tesj數(shù)據(jù)測試的在20個不同說話人情況下的20個分錯誤率,作為重復試驗結(jié)果。運用matlab或sas對數(shù)據(jù)進行雙因素方差分析,可以得出訓練場景兩兩之間的對系統(tǒng)性能的影響效應有些是顯著性的,有些是不顯著的。比如工廠和出租車內(nèi)兩種噪音場景對系統(tǒng)性能的影響是顯著的,如表3所示,訓練因素(
19、rows)的pr值為0.0006 顯著性水平0.05。我們用估計出的各訓練場景之間的非顯著性概率pr值作為不同場景兩兩之間的相似度。不同噪音場景兩兩之間的相似度越大,說明兩種噪音對系統(tǒng)性能的顯著性影響越小,從而兩個場景聚為同一類的可能性就越大。最后用系統(tǒng)聚類法可對不同場景進行聚類。表3 matlab雙因素方差分析表(工廠和出租車)sourcefprobfcolumns7.6560rows11.9270.000587interaction10.39270表4 matlab雙因素方差分析表(超市和食堂)sourcefprobfcolumns10.82950rows0.0764880.7822int
20、eraction0.0977414 基于訓練效應的聚類基于訓練效應的噪音場景聚類就是對依據(jù)噪音場景的訓練效應對噪音場景進行聚類。我們用了單因素方差分析和雙因素方差分析兩種方式進行訓練效應分析,進而分別運用n法和系統(tǒng)聚類法進行聚類。4.1 聚類方法(1)n法(水平分組)適用于單因素方差分析,其思想是首先將各水平均值按大小次序排列,計算相鄰兩水平均值之差;其次根據(jù)公式2計算t檢驗中的判別尺度,并與每個均值差進行比較,凡比大的地方就劃分為不同的兩個組;最后判斷在組內(nèi)離組內(nèi)均值距離最遠的那個水平均值是否該留在組內(nèi),如果留在組內(nèi),這組似乎不需要再分;如果最遠的均值不能留在組內(nèi),將它從該組剔出,對剩下的均
21、值繼續(xù)進行考察,直至沒有一個均值能剔出為止。判斷能否剔除的統(tǒng)計量為,如公式3所示。近于正態(tài)分布,用正態(tài)表的臨界值來進行判斷,如果就將該組中與總均值離的最遠的那個均值剔出這個組。 (2) (3)表示同一水平試驗的重復數(shù);表示試驗誤差的均方;表示試驗誤差的自由度;是顯著性水平通常取0.05;是查t表上的值。表示該組的水平個數(shù);表示該組個均值與總平均之差最大者。(2)系統(tǒng)聚類依據(jù)雙因素方差分析對訓練效應的估計值(相似度),采用自底向上的系統(tǒng)聚類方法對數(shù)據(jù)進行聚類,合并的過程為選擇相似度最大的兩類進行合并,直到任意類之間的相似度小于我們給定的顯著性水平為止。這個顯著性水平通常取0.01,這樣做可以降低
22、犯第一類錯誤的概率11。4.2 聚類結(jié)果表5. 聚類結(jié)果及各種不同場景訓練下相同測試集識別下得到的識別正確率對照表n法聚類結(jié)果加噪訓練的噪音場景系統(tǒng)聚類結(jié)果加噪訓練的噪音場景識別正確率類別1白噪聲類別1白噪聲7.26%類別2飛機場飛機場12.69%類別3工廠類別2工廠21.93%不加噪訓練不加噪訓練22.70%辦公室辦公室23.27%類別4商場類別3商場28.82%羽毛球場羽毛球場29.40%人群人群29.93%教室教室29.95%超市超市30.64%食堂食堂31.03%庭院庭院31.07%餐廳餐廳31.73%類別5大街上類別4大街上33.34%汽車內(nèi)汽車內(nèi)34.05%出租車內(nèi)出租車內(nèi)34.7
23、9%十字路口籃球場35.28%籃球場十字路口35.92%公交車站公交車站36.32%公交車內(nèi)公交車內(nèi)36.94%5 聚類合理性驗證從表6聚類結(jié)果與識別正確率的對照表中可以直觀看出類內(nèi)性能差別不大,而類間性能差別較大?,F(xiàn)通過識別實驗對噪音場景聚類結(jié)果合理性進行客觀驗證。從各類中隨機抽選1種場景,每種場景按固定比例對原始訓練數(shù)據(jù)進行疊加,形成一個訓練集。重復四次得到四個訓練集,分別進行語音識別訓練,得到四個訓練模型,再用同一個測試集(包含各種不同噪音場景)進行測試。測試結(jié)果如表6所示。運用方差分析法對測試結(jié)果進行假設(shè)檢驗,分析結(jié)果如表7所示。得到四個模型之間的非顯著性概率pr=0.814420.0
24、5,即四個模型的系統(tǒng)性能是不顯著的。從而驗證了類內(nèi)場景對于系統(tǒng)性能的影響是不顯著的。由于不同類間的任意兩個場景對于系統(tǒng)性能的影響都是顯著的(對應pr值都小于0.05),從而也驗證了類間場景對于系統(tǒng)性能的影響是顯著的。通過實驗,本文對于噪音場景的聚類分析方法的合理性和有效性得到了驗證。表6 測試結(jié)果訓練模型字錯誤率1:factorytaxirestaurantwhite60.08%2:factorybuseaterycockpit61.35%3:officevehicleyardwhite62.29%4:officetaxisupermarketcockpit60.81%表7 matlab單因素
25、方差分析表sourcessdfmsfprobfcolumns0.005656630.00188550.315090.81442error0.45479760.0059841total0.46045796 總結(jié)本文是基于噪音場景對于語音識別系統(tǒng)性能的影響,實現(xiàn)對于噪音場景的聚類分析。本文對基于語音識別系統(tǒng)性能影響的噪音場景分析方法進行了比較全面的介紹,包括如何運用數(shù)理統(tǒng)計學方法對噪音場景進行效應分析以及依據(jù)效應分析實現(xiàn)聚類。該方法對比于其他基于聲學特征的聚類方法,是完全從系統(tǒng)性能角度出發(fā),將復雜繁多的噪音場景歸納為幾個典型大類,使得類內(nèi)噪音場景對系統(tǒng)性能影響不顯著,類間噪音場景對系統(tǒng)性能影響顯著
26、。而基于聲學特征的聚類有可能不能完全反映噪音場景對系統(tǒng)性能的影響,并且基于聲學特征的聚類分析方法會根據(jù)選取不同的聲學特征而得到不同的聚類結(jié)果?;诒疚牡姆椒梢缘玫轿ㄒ坏木垲惤Y(jié)果。該方法同樣還可以用于分析其他影響系統(tǒng)性能的因素,如信噪比、口音等等。參考文獻1 劉加. 漢語大詞匯量連續(xù)語音識別系統(tǒng)的研究進展j. 電子學報, 2000,28(1):85-91.2 俞鐵城. 語音識別的發(fā)展現(xiàn)狀j. 通訊世界, 2006(2):56.3 楊大利, 徐明星, 吳文虎. 噪音環(huán)境下的語音識別研究j. 計算機工程與應用, 2003,39(20):1-4.4 魏宇虹, 韓紀慶, 張磊. 一種基于hmm模型的音頻場景分析技術(shù)j. 計算機工程與應用, 2003,39(20):85-86,191.5 韓紀慶, 徐希利. 一種基于矢量量化的音頻場景分析方法j. 電聲技術(shù), 2002(3):8-10.6 k. el-maleh, a. samouelian and p. kabal, frame level noise classification in mobile environmentsc. proceeding
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 主機租賃合同標準文本
- 個體工傷無責合同樣本
- 2025房屋租賃轉(zhuǎn)讓合同協(xié)議
- 學校美術(shù)館發(fā)展規(guī)劃計劃
- 2025年建筑工程勞務(wù)分包合同范本
- 農(nóng)村賣方合同樣本
- 借貸過橋合同標準文本
- 業(yè)主房子托管合同樣本
- 人社部員工勞動合同樣本
- 高管團隊建設(shè)與管理計劃
- 公共管理學方法論智慧樹知到期末考試答案章節(jié)答案2024年華南農(nóng)業(yè)大學
- 【采購管理優(yōu)化探究文獻綜述3000字】
- 流動兒童基本情況登記表
- CHT 9016-2012 三維地理信息模型生產(chǎn)規(guī)范(正式版)
- 2024年河南地礦職業(yè)學院單招職業(yè)適應性測試題庫附答案
- 經(jīng)濟學說史考試重點PDF
- MOOC 太極拳初級-浙江大學 中國大學慕課答案
- 2023-2024學年滬科版七年級數(shù)學下冊期中測試卷
- 內(nèi)蒙古機電職業(yè)技術(shù)學院單獨招生(機電類)考試題庫大全-上(單選題匯總)
- 寶寶舌系帶短疾病演示課件
- 三級醫(yī)院設(shè)備配置參考
評論
0/150
提交評論