基于分類回歸樹的漢語韻律短語識別方法_第1頁
基于分類回歸樹的漢語韻律短語識別方法_第2頁
基于分類回歸樹的漢語韻律短語識別方法_第3頁
基于分類回歸樹的漢語韻律短語識別方法_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于分類回歸樹的漢語韻律短語識別方法

1其他漢語領(lǐng)域的研究節(jié)奏結(jié)構(gòu)分析是文語轉(zhuǎn)換系統(tǒng)的重要組成部分。準(zhǔn)確地預(yù)測文本的韻律短語邊界位置及其等級,是語音合成中的重要環(huán)節(jié),它是合成自然、流暢的輸出語音的重要前提和保證。目前的研究主要是從語音合成的角度,基于漢語文本信息,應(yīng)用統(tǒng)計(jì)或者知識推理的方法進(jìn)行韻律結(jié)構(gòu)的預(yù)測。如:基于概率頻度的統(tǒng)計(jì)模型方法;基于SLM的二叉樹方法;最大熵模型方法;基于語法信息的方法;基于規(guī)則學(xué)習(xí)的方法等。這類研究往往需要基于較大規(guī)模的標(biāo)注了韻律結(jié)構(gòu)信息的漢語文本作為工作的前提和基礎(chǔ)。一般地,人們采用人工標(biāo)注的方法來獲取語料,由標(biāo)注人員直接對文本進(jìn)行韻律信息的標(biāo)注。但人工標(biāo)注費(fèi)時費(fèi)力,而且容易受到標(biāo)注者主觀語音學(xué)和語言學(xué)知識的影響,造成循環(huán)論證的危機(jī)。由于韻律首先是一個感知概念,所以依賴感知得到的韻律結(jié)構(gòu)才是最可靠和最客觀的。另一類從聲學(xué)語音學(xué)角度進(jìn)行的工作研究漢語韻律結(jié)構(gòu)邊界的聲學(xué)表現(xiàn),分析語流中的無聲停頓、語音拉長、基頻重設(shè)以及邊界音調(diào)等韻律特征,這些研究為本文的工作提供了理論基礎(chǔ)和支持。本文提出了一種基于CART的韻律短語識別方法,結(jié)合從自然語音中獲取的聲學(xué)特征和從文本中獲取的語言學(xué)特征,實(shí)現(xiàn)韻律短語的自動識別。2wi-1wi的韻律邊界一般認(rèn)為韻律結(jié)構(gòu)有三個層級,從小到大依次是韻律詞、韻律短語和語調(diào)短語。本文將韻律短語和語調(diào)短語統(tǒng)稱為韻律短語,而韻律詞不在本文考察范圍之內(nèi)。假設(shè)任意句子Sent=w1,w2,…,wn,wi(1≤i≤n)是句子中的第i個詞。本文認(rèn)為,每個詞對(wi-1wi)之間都是一個潛在的韻律短語邊界,它取值為0或1(0表示非韻律短語邊界;1表示韻律短語邊界)。所以,包含n個詞的句子Sent共有n-1個潛在韻律短語邊界,本文的任務(wù)和目標(biāo)就是基于這些潛在韻律短語邊界處的語境特征信息,利用分類回歸樹CART對它們做出判別,從而確定其邊界類型。2.1兩組文本分析及模型建立基于CART的韻律短語邊界識別系統(tǒng)的結(jié)構(gòu)以及數(shù)據(jù)處理流程如下圖1所示。依據(jù)圖1,CART識別系統(tǒng)由3個部分組成:(1)數(shù)據(jù)預(yù)處理:對語音語料作語音分析處理,提取音節(jié)時長、語音無聲段等語音學(xué)信息;對文本語料進(jìn)行文本分析,包括自動分詞和拼音自動標(biāo)注,獲取語法詞邊界并計(jì)算邊界在句中的位置及距離等語言學(xué)信息;然后,結(jié)合兩類信息,計(jì)算并提取特征屬性,形成CART的特征集。(2)CART建模:依據(jù)通過數(shù)據(jù)預(yù)處理從訓(xùn)練語料中提取的CART樣本特征集,以及訓(xùn)練集提供的韻律結(jié)構(gòu)信息,采用CART算法訓(xùn)練并建立韻律短語邊界的CART識別模型。(3)韻律短語邊界識別:利用建立的CART模型進(jìn)行決策,對待處理語料中的詞邊界進(jìn)行分類,自動識別并標(biāo)注出韻律短語邊界。2.2cart的算法流程CART是Breiman等人提出的一種基于二叉樹的統(tǒng)計(jì)模型,它采用二分遞歸分割的技術(shù),每次都會將當(dāng)前樣本集分割為兩個子樣本集,使得生成的決策樹中的每個非葉子結(jié)點(diǎn)都有兩個分枝。因此CART算法生成的決策樹是結(jié)構(gòu)簡單的二叉樹。假設(shè)包含n個樣本的訓(xùn)練樣本集Example={(vi,ci),i=1,…,n},其中:特征向量v=(a1,a2,…,am)且aj(j=1,…,m)為特征屬性,vi是訓(xùn)練樣本集中第i個樣本的特征向量,ci是該樣本的類別標(biāo)記。CART的訓(xùn)練過程就是構(gòu)造二叉樹的過程,其算法流程可描述如下:(1)創(chuàng)建初始的根節(jié)點(diǎn)Root,它包含所有的訓(xùn)練樣本。(2)對特征向量v中的每一個特征屬性aj(j=1,…,m),用aj構(gòu)成的問題對根結(jié)點(diǎn)進(jìn)行提問測試,按照問題回答將根結(jié)點(diǎn)的樣本集分裂為回答為“Yes”和回答為“No”的兩個子集,并分別復(fù)制到左、右結(jié)點(diǎn)。這樣,就能為當(dāng)前根結(jié)點(diǎn)生成了兩個子結(jié)點(diǎn)。(3)選擇最優(yōu)的那個提問將根結(jié)點(diǎn)分裂成兩個子結(jié)點(diǎn)。假設(shè)結(jié)點(diǎn)T的某種分裂方式split將其劃分為T1、T2,則該分裂方式split的GinimetricSplit(T)=S1/S*Giniscore(T1)+S2/S*Giniscore(T2),其中S是T中樣本的個數(shù),S1、S2分別為T1、T2中的樣本個數(shù)。Ginimetric用來評估某種分裂方式的優(yōu)劣,Ginimetric大的產(chǎn)生純度較高的子結(jié)點(diǎn),比較好。故選擇擁有最大Ginimetric的分裂方式進(jìn)行結(jié)點(diǎn)分裂。(4)使用貪婪算法,對每個新生成的子結(jié)點(diǎn)按照上述步驟不斷分裂,直到每個結(jié)點(diǎn)中的所有樣本都屬于同一類,或者所有的特征屬性都已被使用過為止,從而得到一棵最大的決策樹。然后對這棵決策樹進(jìn)行剪枝,使用獨(dú)立于訓(xùn)練樣本集的測試樣本集對子樹的分類錯誤進(jìn)行計(jì)算,找出分類錯誤最小的子樹作為最終的分類模型。(5)CART的決策過程簡單直觀。在測試新樣本時,從樹的根結(jié)點(diǎn)開始,根據(jù)其屬性值在已經(jīng)生成的二叉樹中查找,直到到達(dá)一個葉子結(jié)點(diǎn)為止。則該葉子結(jié)點(diǎn)的類別即作為測試樣本的CART預(yù)測結(jié)果。2.3類前音節(jié)待分類的樣本都是用由各個特征屬性構(gòu)成的向量表示的。對于分類器來說,特征的選擇是非常重要的。參照聲學(xué)語音學(xué)角度的研究成果,本文結(jié)合聲學(xué)特征和語言學(xué)特征共同構(gòu)造CART的特征集,特征屬性包括:(1):Shm表示當(dāng)前詞邊界前音節(jié)聲母的類型,分零聲母、塞音、擦音、塞擦音、鼻音、邊音6類。(2)Ym:表示當(dāng)前詞邊界前音節(jié)韻母的類型,分為單韻母、復(fù)韻母、鼻韻母3類。(3)Shd:表示當(dāng)前詞邊界前音節(jié)的聲調(diào),分為陰平、陽平、上聲、去聲、輕聲5類。(7)PLen:表示出現(xiàn)在當(dāng)前詞邊界處的語音無聲段的時長。(8)IsHead:表示當(dāng)前詞是否是句首詞,若是則為“Y”,否則為“N”。(9)IsEnd:表示當(dāng)前詞是否是句尾詞,若是則為“Y”,否則為“N”。(10)Dsn:表示當(dāng)前詞邊界與句首之間的音節(jié)個數(shù)。(11)Wx:表示當(dāng)前詞邊界的位置序號,包含n個詞的句子共有n-1個詞邊界,位置序號從左到右依次為1,2,…,n-1。3實(shí)驗(yàn)與分析3.1語音/文本語料庫本文的實(shí)驗(yàn)語料為770個不同類型的長句(共包含22226個詞邊界),覆蓋新聞、小說、散文等方面。實(shí)驗(yàn)語料庫分兩種類型:(1)語音語料庫:上述770個長句的錄音,由專業(yè)播音員(女)按照正常語速朗讀;(2)文本語料庫:770個長句的文字稿,本文對文本進(jìn)行了自動分詞,并人工校對了其中的分詞錯誤,然后由訓(xùn)練有素的標(biāo)注人員采用文本結(jié)合語音的方式標(biāo)注了韻律短語邊界。將實(shí)驗(yàn)語料庫按照1∶1的比例分為訓(xùn)練集和測試集兩部分,即:從中隨機(jī)抽取385個句子用于訓(xùn)練并生成CART模型,而將其余的385個句子用于開放測試。3.2效果評價指標(biāo)評測實(shí)驗(yàn)效果的標(biāo)準(zhǔn)有兩類:一類是主觀標(biāo)準(zhǔn),即對于每一個自動識別的結(jié)果,由專家為其打分,得分越高,表示效果越好;另一類是客觀標(biāo)準(zhǔn),即給出一個正確的標(biāo)注,將自動識別結(jié)果與其對比,通過計(jì)算召回率、準(zhǔn)確率等指標(biāo)來評測自動識別的效果。有實(shí)驗(yàn)研究表明,客觀標(biāo)準(zhǔn)的評測結(jié)果與主觀標(biāo)準(zhǔn)是一致的。而采用客觀標(biāo)準(zhǔn)不需要人工干預(yù),可以自動進(jìn)行,代價較小、效率較高,故本文選擇客觀標(biāo)準(zhǔn)來評測實(shí)驗(yàn)結(jié)果。3.3測試集和測量方法為了使得實(shí)驗(yàn)結(jié)果更具有一般性,本文由程序隨機(jī)生成10組實(shí)驗(yàn)語料,每組語料都包括385句的訓(xùn)練集和385句的測試集。利用上述10組語料分別建立CART模型并進(jìn)行測試,開放測試的結(jié)果如下表1所示(表中還列出了10組測試的平均值)。表1中4個測量指標(biāo)的意義分別為:(1)Ntrain:表示CART訓(xùn)練集中訓(xùn)練樣本的個數(shù)。(2)Ntest:表示CART測試集中測試樣本的個數(shù)。(3)P0:表示在測試集的樣本中,非韻律短語邊界所占的比例。(4)Pre:表示識別準(zhǔn)確率,且Pre=正確識別的樣本個數(shù)/測試集的樣本總數(shù)×100%。分析10組隨機(jī)測試結(jié)果可以看出,若假定測試集中的所有詞邊界都是非韻律短語邊界,則其平均準(zhǔn)確率為79.51%;也就是說,若將所有詞邊界都預(yù)測為韻律短語邊界,則其平均準(zhǔn)確率僅為20.49%。本文采用分類回歸樹CART來分類測試集的樣本,測試的平均識別準(zhǔn)確率可達(dá)95.91%。4實(shí)驗(yàn)結(jié)果與分析對于韻律這一感知概念而言,一套超音段的標(biāo)志節(jié)奏層次的韻律特征是話語組塊結(jié)構(gòu)的很好的說明物。因此,本文提出了基于聲學(xué)和語言學(xué)特征并采用分類回歸樹CART從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論