自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用_第1頁
自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用_第2頁
自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用_第3頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用

自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用

自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用

基本功能

本文設(shè)計的基于自動語音分析技術(shù)的俄語單詞發(fā)音幫助學(xué)習(xí)系統(tǒng)包括了示范和評分反饋兩個主要功能:

(1)示范。系統(tǒng)顯示當前單詞、音標、中文意思及標準發(fā)音,學(xué)習(xí)者可以反復(fù)的收聽系統(tǒng)中存儲單詞的標準發(fā)音;

(2)評分反饋。學(xué)習(xí)者可以跟讀,將自己的發(fā)音和系統(tǒng)的中標準發(fā)音比較,系統(tǒng)自動給出評分反饋,并給出標準發(fā)音和學(xué)習(xí)者發(fā)音的波譜圖對比。

2系統(tǒng)框架

依據(jù)系統(tǒng)的基本功能,系統(tǒng)的基本框架設(shè)計如圖1所示:

系統(tǒng)預(yù)先在數(shù)據(jù)庫中存儲單詞的標準發(fā)音,并提取其特征,本文使用MFCC(Mel頻率倒譜系數(shù))作為語音特征。系統(tǒng)獵取學(xué)習(xí)者語音后,首先將其和數(shù)據(jù)庫中標準語音在時間上對齊,然后提取特征并計算和數(shù)據(jù)庫中標準發(fā)音的相像度,最終將相像度映射為學(xué)習(xí)者較易理解和接受的等級評分。

3與其他系統(tǒng)的不同

本文設(shè)計的系統(tǒng)和其他文獻中提到的基于語音分析技術(shù)的發(fā)音學(xué)習(xí)系統(tǒng)的不同主要體現(xiàn)在以下幾個方面:

(1)本系統(tǒng)使用的技術(shù)不是語音識別技術(shù),并不識別學(xué)習(xí)者發(fā)音的含義,而是采納語音分析技術(shù),分析推斷學(xué)習(xí)者發(fā)音和系統(tǒng)存儲的標準語音的相像度給出評分反饋;

(2)本系統(tǒng)的設(shè)計旨在指導(dǎo)學(xué)習(xí)者學(xué)習(xí)俄語單詞的發(fā)音,是屬于語音分析技術(shù)中的孤立詞分析,孤立詞分析技術(shù)相對于整句的分析的技術(shù)較為成熟,這增加了系統(tǒng)的可行性;

(3)本系統(tǒng)數(shù)據(jù)庫使用標準語音數(shù)據(jù)庫,并沒有進行語料庫的訓(xùn)練,直接依據(jù)相像度評價打分,降低了系統(tǒng)的簡單性,這是由于本系統(tǒng)僅僅面對于俄語單詞發(fā)音的幫助學(xué)習(xí)。

二系統(tǒng)關(guān)鍵技術(shù)

1端點檢測

端點檢測是指在有背景音的狀況下,找出實際語音的開頭點和結(jié)束點,是語音分析領(lǐng)域的一個基本問題。在孤立詞的分析識別中,尤為重要,正確的端點檢測不僅是正確語音分析的必要前提,同時也能提高系統(tǒng)的運行速度。

本系統(tǒng)旨在指導(dǎo)學(xué)習(xí)者學(xué)習(xí)俄語單詞發(fā)音,因此屬于孤立詞語音分析。這種狀況下,單詞的起始和結(jié)束位置較為明顯,因此本文使用較為簡潔的音量法和過零率檢測方法進行端點的檢測。音量檢測為主,過零率檢測為輔,過零率的引入能有效的消退對氣音的誤判。

2特征

自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用

選取

特征的選擇和提取是語音分析系統(tǒng)的一個重要部分,特征選取的合適與否將直接影響到整個系統(tǒng)的性能。在語音分析幫助俄語發(fā)音系統(tǒng)中,語音特征的選取還體現(xiàn)著評分的意圖和側(cè)重,這是由于所選取的特征將被用來比較作為評分依據(jù)。

在語音分析領(lǐng)域,常用的特征主要有短時幀平均能量、幅度、短時幀過零率,LPCC(線性猜測倒譜系數(shù))和MFCC(Mel到譜系數(shù))等。其中MFCC考慮了人耳的聽覺特性,具有良好的識別特性和抗噪特性,能較好的體現(xiàn)語音的內(nèi)容,因而本文選擇其作為語音特征。MFCC參數(shù)的提取流程過程如圖2所示:

3MFCC計算流程

首先對系統(tǒng)捕獲的原始語音信號S(n)進行預(yù)加重、分幀、加窗等預(yù)處理,得到每個語音幀的時域信號X(n)。然后對X(n)實施DFT(離散傅里葉變換)得到線性頻譜X(k)。接著計算X(k)的能量譜,使用一組Mel尺度的三角形濾波器在頻域?qū)δ芰孔V進行帶通濾波。求取每個濾波器組輸出的對數(shù)能量S(m),對S(m)進行DCT(離散余弦變換)最終得到MFCC參數(shù)。

4評分算法(相像度度量)

發(fā)音水平的衡量評分方法是俄語發(fā)音學(xué)習(xí)系統(tǒng)中使用到的另一項關(guān)鍵技術(shù),不合理的評分算法會對發(fā)音給出錯誤的評分,對學(xué)習(xí)者造成誤導(dǎo)。發(fā)音水平的計算機評分結(jié)果要牢靠,要求盡可能的和現(xiàn)實專家(老師)對發(fā)音的評分保持全都。

現(xiàn)有評估發(fā)音質(zhì)量的主要方法有:段分類評分、段時長評分等、HMM對數(shù)似然度評分和對數(shù)后驗概率評分。它們的原理都是以標準發(fā)音為模板,通過計算學(xué)習(xí)者發(fā)音和這些模板之間相像度進行的。本文中系統(tǒng)是對單詞發(fā)音的孤立詞語音分析,因此段分類評分和段時長評分不適用本系統(tǒng)。以往的討論結(jié)果表明,對數(shù)后驗概率評分具有最好的健壯性,因此本文選取其作為俄語發(fā)音學(xué)習(xí)系統(tǒng)的評分算法。

下面對后驗概率評分算法進行簡潔的介紹。

對于音素,給出與其相關(guān)的第i段語音的每一幀,計算基于幀的后驗概率得:

其中,為給定音素q下觀測到的的概率分布,在分母上,為音素q的先驗概率,M為當前語料中與文本無關(guān)的音素總數(shù)。

音素在第i段語音每一幀下的后驗概率取對數(shù),然后逐幀累加,就可以得到音素在第i段語音下的對數(shù)后驗概率得分:

其中

自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用

表示音素所對應(yīng)的第i段語音的起始時間。整個單詞的后驗概率打分,定義為單詞或句子中全部音素段的對數(shù)后驗概率按音素長度歸一化后的平均值,為:

其中,N為單詞的總音素數(shù),為第i個音素持續(xù)的幀數(shù)。

對數(shù)后驗概率評分具有很好健壯性,受學(xué)習(xí)者個體說話特征或聲音通道的變化影響較小,它能更好的反映學(xué)習(xí)者的發(fā)音與標準發(fā)音之間相像度,因此,它是目前使用最普遍的一種發(fā)音測度方法。

使用對數(shù)后驗概率評分得到的分數(shù)不夠直觀,不便于學(xué)習(xí)者理解和接受,因此需要將該得分映射為一個概略的得分。系統(tǒng)將對數(shù)后驗概率得分映射到A、B、C、D、E五個等級。為了鼓舞學(xué)習(xí)者學(xué)習(xí),評分最高的(和標準語音相像度)的35%都映射為等級A(特別標準),同時為了督促學(xué)習(xí)者更好的把握標準語音,評分最低后35%都被映射為等級E(特別不標準,建議學(xué)習(xí)重讀)。當用戶發(fā)音得分等級為D或E時,提示用戶發(fā)音不合格,建議跟隨標準發(fā)音重新學(xué)習(xí)。

論文聯(lián)盟*編輯。三系統(tǒng)實現(xiàn)

我們使用VC6.0實現(xiàn)了一個簡潔的基于語音分析的俄語單詞發(fā)音學(xué)習(xí)演示系統(tǒng),實現(xiàn)了文中提出的基本功能,系統(tǒng)界面截圖為圖3所示。

論文聯(lián)盟*系統(tǒng)界面主要分為兩個部分,左邊部分為單詞區(qū),顯示的是系統(tǒng)內(nèi)有標準發(fā)音的單詞列表(本演示系統(tǒng)使用的標準發(fā)音取自高等訓(xùn)練出版社出版的《高校俄語簡明教程》隨書攜帶的MP3)。單擊左邊窗口的單詞,系統(tǒng)將會讀出標準發(fā)音。

系統(tǒng)界面的右邊半部分為信息顯示區(qū)。當學(xué)習(xí)者選擇開啟跟讀學(xué)習(xí)模式時,在標準發(fā)音結(jié)束3秒鐘內(nèi),學(xué)習(xí)者跟讀,系統(tǒng)比較學(xué)習(xí)者發(fā)音和標準發(fā)音給出評分。系統(tǒng)同時給出了標準發(fā)音和學(xué)習(xí)者發(fā)音的波譜圖對比,直觀的顯示了學(xué)習(xí)者發(fā)音和標準發(fā)音的不同。

我們在小規(guī)模小范圍的狀況下對本演示系統(tǒng)進行了測試,測試結(jié)果顯示本系統(tǒng)對俄語單詞學(xué)習(xí)具有肯定的指導(dǎo)意義,并能夠關(guān)心學(xué)習(xí)者提高俄語單詞發(fā)音的精確?????性。

目前實現(xiàn)的僅僅是一個小規(guī)模的演示系統(tǒng),要將系統(tǒng)應(yīng)用于實際教學(xué)中,需要對系統(tǒng)注冊單詞的規(guī)模及對學(xué)習(xí)者友好交互性設(shè)計等方面加以改進。

四結(jié)束語

隨著計算機和語音處理技術(shù)的不斷進展,利用自動語音分析技術(shù)對學(xué)習(xí)者

自動語音分析技術(shù)在俄語發(fā)音學(xué)習(xí)中的應(yīng)用

在學(xué)習(xí)非母語時進行發(fā)音指導(dǎo)成為計算機幫助教學(xué)一個熱點

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論