




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于說(shuō)話人聚類(lèi)的說(shuō)話人自適應(yīng)摘要本文提出一種改良的基于模型差異度量的說(shuō)話人聚類(lèi)(Speakerlustering)方法,并將該說(shuō)話人聚類(lèi)算法結(jié)合最大似然線性回歸算法(axiuLikelihdLinearRegressin,LLR)構(gòu)成整體的說(shuō)話人自適應(yīng)框架。將該方法應(yīng)用于以音素為識(shí)別基元的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,可可以進(jìn)步系統(tǒng)的識(shí)別率,較好的滿足快速性和漸進(jìn)性。實(shí)驗(yàn)結(jié)果說(shuō)明,該方法可以在僅有一句自適應(yīng)數(shù)據(jù)的情況下,使系統(tǒng)字正識(shí)率由40.43%進(jìn)步到50.86%。關(guān)鍵詞說(shuō)話人聚類(lèi);說(shuō)話人自適應(yīng)近年來(lái),語(yǔ)音識(shí)別1技術(shù)已經(jīng)日趨成熟,尤其對(duì)于特定人的語(yǔ)音識(shí)別非常準(zhǔn)確。大量實(shí)驗(yàn)結(jié)果說(shuō)明,在訓(xùn)練數(shù)據(jù)都很充
2、分而且各方面的條件都一樣時(shí),特定人(SpeakerDependent,SD)識(shí)別系統(tǒng)的性能通常好于非特定人(SpeakerIndependent,SI)系統(tǒng)。然而,當(dāng)某個(gè)特定人的訓(xùn)練數(shù)據(jù)受限時(shí),由于缺少可靠估計(jì)模型所需要的足夠多的數(shù)據(jù),SD系統(tǒng)的這種優(yōu)越性就不能得到保證。說(shuō)話人自適應(yīng)就是在一個(gè)針對(duì)原說(shuō)話人充分訓(xùn)練的SD系統(tǒng)中,或是一個(gè)對(duì)許多說(shuō)話者充分訓(xùn)練的SI系統(tǒng)中參加少量新說(shuō)話人的訓(xùn)練語(yǔ)音數(shù)據(jù),通過(guò)一定的算法使新老數(shù)據(jù)結(jié)合,從而使系統(tǒng)的識(shí)別率接近于對(duì)新說(shuō)話人經(jīng)過(guò)充分訓(xùn)練的SD系統(tǒng)的程度?;谡f(shuō)話人聚類(lèi)的說(shuō)話人自適應(yīng)是說(shuō)話人自適應(yīng)技術(shù)的一種2,就是將原有的訓(xùn)練數(shù)據(jù)按照一定的算法聚類(lèi),識(shí)別時(shí)選取
3、待識(shí)別語(yǔ)音所屬類(lèi)別的模板進(jìn)展匹配,可以擴(kuò)大適用人群,進(jìn)步系統(tǒng)性能。2主要自適應(yīng)算法說(shuō)話人聚類(lèi)是直接根據(jù)說(shuō)話人的某種特性或者根據(jù)某種度量,將訓(xùn)練集中的說(shuō)話人根據(jù)其語(yǔ)音特性分成假設(shè)干個(gè)子集,每一個(gè)子集內(nèi)的說(shuō)話人都具有某種度量意義下的相似性,然后專(zhuān)門(mén)為每個(gè)子集訓(xùn)練聲學(xué)模型,從而得到一組離散度和混疊度較小的說(shuō)話人聚類(lèi)Speakerlustering,S模型;測(cè)試時(shí),先判斷待測(cè)試的語(yǔ)音屬于哪一個(gè)說(shuō)話人子集,然后用這個(gè)子集的聲學(xué)模型來(lái)進(jìn)展測(cè)試3。應(yīng)用較為廣泛的是基于說(shuō)話人特性的和基于模型間隔 的聚類(lèi)方法:說(shuō)話人特性包括說(shuō)話人的性別、年齡、口音等。這種方法利用先驗(yàn)的說(shuō)話人的特性,在滿足模型訓(xùn)練量的條件下,將
4、說(shuō)話人分到更小的子集合中。一個(gè)最常用的例子就是按性別將說(shuō)話人進(jìn)展分類(lèi)。這種方法通常需要先驗(yàn)知識(shí),也就通常離不開(kāi)人工干預(yù)。的說(shuō)話人聚類(lèi)方法直接根據(jù)不同說(shuō)話人對(duì)應(yīng)的聲學(xué)模型間的間隔 來(lái)進(jìn)展聚類(lèi)。首先根據(jù)某種模型間隔 度量方法,建立模型間的間隔 矩陣,然后完成基于間隔 矩陣的聚類(lèi),其中的關(guān)鍵是聲學(xué)模型間間隔 的度量方法。高斯混合模型Gaussianixturedel,G是基于模型間隔 說(shuō)話人聚類(lèi)常用的模型,G的概率密度分布函數(shù)是由個(gè)高斯概率密度函數(shù)加權(quán)求和而得到的,如式(1)所示:1其中是觀測(cè)值x在某個(gè)G模型下的概率密度函數(shù)。x是k維的隨機(jī)向量,是高斯混元的權(quán)值。是第i個(gè)單高斯分布概率密度函數(shù),如(
5、2)式:2對(duì)高斯混合模型而言,模型間隔 的定義最終可以歸入分布間的間隔 衡量。其中常用的有如下幾種:歐式間隔 (EulideanDistane):3馬氏間隔 ahalanbisDistane4巴特查里亞間隔 BhattaharyyaDistane5其中,表示兩個(gè)多維高斯分布,為兩個(gè)分布的均值向量,表示兩個(gè)分布的協(xié)方差矩陣。最大似然線性回歸法(axiuLikelihdLinearRegressin,LLR)是一種基于變換的方法,它采用一組變換描繪從初始模型到說(shuō)話人自適應(yīng)(SpeakerAdaptatin,SA)后模型的變換關(guān)系,另外LLR還能對(duì)不同的信道及附加噪聲有一定補(bǔ)償作用。一般認(rèn)為不同說(shuō)話
6、人之間的差異主要表如今均值矢量上,式(6)為均值轉(zhuǎn)換的估計(jì)式。6其中是混合成份s的轉(zhuǎn)移矩陣,是自適應(yīng)后的均值后的均值向量,是混合成分s的擴(kuò)展均值向量,其定義如下:7可以將一個(gè)G的參數(shù)看作一組語(yǔ)音特征,考察這組特征在另一個(gè)G中的輸出概率。用輸出概率來(lái)衡量?jī)蓚€(gè)模型間的間隔 4。其方法如下:把GA的個(gè)混元的均值向量當(dāng)作個(gè)觀測(cè)向量,計(jì)算這個(gè)觀測(cè)矢量在GB下的概率。類(lèi)似地,計(jì)算GB的個(gè)混元的均值向量在GA下的概率。定義GA和GB的單邊加權(quán)似然度為:8其中,Ai表示GA第i個(gè)混元的權(quán)值,Ai表示第i個(gè)混元的均值向量,表示GA第i個(gè)混元的均值向量在GB下的概率,同理可得GB和GA的單邊加權(quán)似然度:考慮到對(duì)稱(chēng)
7、的因素,本文進(jìn)一步定義GA和GB的加權(quán)穿插似然比為:9選擇好聚類(lèi)測(cè)度后,一般采用自底向上的方法對(duì)備選說(shuō)話人G進(jìn)展聚類(lèi),合并的過(guò)程為選擇間隔 最小的兩個(gè)進(jìn)展合并,直到得到需要的類(lèi)數(shù)為止。4實(shí)驗(yàn)內(nèi)容及結(jié)果分析4.1實(shí)驗(yàn)系統(tǒng)構(gòu)成實(shí)驗(yàn)基于漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),在聲學(xué)層上進(jìn)展。語(yǔ)音特征參數(shù)采用梅爾頻標(biāo)倒譜參數(shù)(elfrequenyepstrueffiient,F(xiàn)),共16維。聲學(xué)模型建立有調(diào)的三元音子模型,識(shí)別時(shí)測(cè)試每句話的漢字識(shí)別正確性。實(shí)驗(yàn)系統(tǒng)所用到的訓(xùn)練語(yǔ)音庫(kù)是中科院訓(xùn)練語(yǔ)音庫(kù),其中女性說(shuō)話人有148位,每位100句話;相應(yīng)的測(cè)試語(yǔ)音庫(kù)分別包含女說(shuō)話人20位,每個(gè)說(shuō)話人都是20句測(cè)試語(yǔ)音。
8、測(cè)試語(yǔ)音庫(kù)都同其對(duì)應(yīng)的訓(xùn)練語(yǔ)音庫(kù)是環(huán)境匹配的,這樣可以排除因?yàn)榄h(huán)境差異帶來(lái)的自適應(yīng)性能提升,更加準(zhǔn)確地反映說(shuō)話人聚類(lèi)的算法效果。全部實(shí)驗(yàn)的自適應(yīng)訓(xùn)練和測(cè)試語(yǔ)音長(zhǎng)度約為2到3s,實(shí)驗(yàn)以這148位說(shuō)話人語(yǔ)音訓(xùn)練的SI模型作為基線系統(tǒng)。實(shí)驗(yàn)的根本流程為:首先,對(duì)訓(xùn)練語(yǔ)音庫(kù)中的所有說(shuō)話人訓(xùn)練出一個(gè)基于H的SI整體模型,再對(duì)庫(kù)中每位參考說(shuō)話人進(jìn)展單個(gè)的G模型訓(xùn)練,然后用訓(xùn)練出的所有G模型進(jìn)展說(shuō)話人聚類(lèi),利用聚類(lèi)后的語(yǔ)料重新訓(xùn)練每一類(lèi)的G模型。對(duì)這些新說(shuō)話人的自適應(yīng)語(yǔ)音數(shù)據(jù)作相似性判決,從中選出與每個(gè)新說(shuō)話人最為近似的參考類(lèi),最后根據(jù)這些參考類(lèi)的語(yǔ)音特征運(yùn)用一定的自適應(yīng)算法對(duì)SI模型的部分參數(shù)進(jìn)展修正,合
9、成出新說(shuō)話人的自適應(yīng)模型。實(shí)驗(yàn)流程如圖1所示。圖1基于差異度量的的說(shuō)話人自適應(yīng)SA系統(tǒng)實(shí)現(xiàn)流程圖4.2實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析表1參考類(lèi)別數(shù)量對(duì)識(shí)別的影響漢字正識(shí)率SI3類(lèi)5類(lèi)7類(lèi)9類(lèi)SDP140.4350.8652.4356.9846.2458.46P244.4354.8650.2757.4851.1460.87P342.3548.8650.9652.3748.5658.43P446.7850.8653.2956.9951.3659.77P541.2950.8952.7655.9846.7459.23P641.6647.7651.4952.9846.1461.23實(shí)驗(yàn)一:對(duì)于不同的測(cè)試說(shuō)話人,考察
10、似然判決選出的參考類(lèi)數(shù)量對(duì)最后識(shí)別結(jié)果的影響,P1等分別表示不同的測(cè)試說(shuō)話人,自適應(yīng)語(yǔ)料都為三句。實(shí)驗(yàn)結(jié)果如表1所示。從表1中可以看出,隨著參考說(shuō)話人數(shù)量的增加,對(duì)于不同的測(cè)試說(shuō)話人,其識(shí)別性能都有明顯進(jìn)步。但也可以發(fā)現(xiàn),當(dāng)參考說(shuō)話人數(shù)量超過(guò)7類(lèi)時(shí),其識(shí)別性能反而有所下降。其原因是:隨著參考類(lèi)的增加,說(shuō)話人之間的差異也會(huì)明顯增加,這種差異有可能抵消根據(jù)相似性選擇出來(lái)的類(lèi)之間對(duì)于特定的測(cè)試說(shuō)話人的近似性。表2新說(shuō)話人自適應(yīng)數(shù)據(jù)量的不同對(duì)識(shí)別效果的影響漢字正識(shí)率3句5句10句P156.9857.4557.64P257.4857.4358.02P352.3753.4453.67P456.9957.5
11、657.74P555.9856.2356.43P652.9853.4353.60實(shí)驗(yàn)二:選擇的類(lèi)的數(shù)據(jù)量的不同對(duì)識(shí)別效果的影響。參考類(lèi)固定在7類(lèi)。從表2中可以看出,隨著新說(shuō)話人自適應(yīng)語(yǔ)料數(shù)量的增加,識(shí)別率有一定的上升,但增長(zhǎng)不大,其原因可歸結(jié)為,用于類(lèi)選擇的G模型在充分訓(xùn)練的根底上具有一定的穩(wěn)健性.本文主要研究了在構(gòu)建說(shuō)話人自適應(yīng)模型的過(guò)程中參加基于差異度量的說(shuō)話人聚類(lèi)后的識(shí)別效果??梢缘贸鲆韵陆Y(jié)論:1G模型雖然具有計(jì)算量小,速度快等優(yōu)點(diǎn),但它不能準(zhǔn)確地描繪說(shuō)話人語(yǔ)音信號(hào)的產(chǎn)生過(guò)程,因此在構(gòu)建SA模型中不能被用于合成新說(shuō)話人的語(yǔ)音模型,只能在挑選近似說(shuō)話人時(shí)起到充分的作用。2似然判決后選出的參考類(lèi)的數(shù)量對(duì)自適應(yīng)模型的性能有相當(dāng)?shù)挠绊懀弘S著這個(gè)數(shù)量的加大,我們可以看到SA的識(shí)別性能在逐漸向SD系統(tǒng)靠攏,這說(shuō)明在各方面條件一樣的情況下,供選擇的參考類(lèi)數(shù)量的多少是決定SA系統(tǒng)性能的一個(gè)因素,但同時(shí)我們也可以看到,并不是說(shuō)這個(gè)數(shù)量越大識(shí)別性能就越好,因?yàn)檎f(shuō)話人之間的差異也是
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司合作投標(biāo)協(xié)議合同范例
- 合作建設(shè)磚廠合同范例
- 農(nóng)村自建住宅買(mǎi)賣(mài)合同范例
- 供電設(shè)計(jì)合同范例
- 合同價(jià)款調(diào)整合同范本
- 公司招聘專(zhuān)員合同范本
- 臺(tái)州餐飲加盟合同范本
- 共享飯店合同范例
- 合同范例能當(dāng)正式合同
- 卷閘門(mén)質(zhì)保合同范例
- 綠城玫瑰園別墅項(xiàng)目全套樓書(shū)圖片29P
- 《陜西省安全生產(chǎn)條例》考核試題
- 大班PPT課件《拍手歌》
- GB/T 10059-2023電梯試驗(yàn)方法
- GB/T 21837-2023鐵磁性鋼絲繩電磁檢測(cè)方法
- 貨物運(yùn)輸服務(wù)投標(biāo)方案(技術(shù)方案)
- 15D500-15D505 防雷與接地圖集(合訂本)
- 2023年高考全國(guó)卷英語(yǔ)完型填空講解 課件 2024屆高考英語(yǔ)一輪復(fù)習(xí)
- 第二章1:公文寫(xiě)作的構(gòu)成要素
- 單兵隊(duì)列教學(xué)法
- DB14-T 2803-2023 藥品委托儲(chǔ)存配送管理規(guī)范
評(píng)論
0/150
提交評(píng)論