學(xué)習(xí)報(bào)告 —語音轉(zhuǎn)換_第1頁
學(xué)習(xí)報(bào)告 —語音轉(zhuǎn)換_第2頁
學(xué)習(xí)報(bào)告 —語音轉(zhuǎn)換_第3頁
學(xué)習(xí)報(bào)告 —語音轉(zhuǎn)換_第4頁
學(xué)習(xí)報(bào)告 —語音轉(zhuǎn)換_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、學(xué)習(xí)報(bào)告 語音轉(zhuǎn)換(voice conversion)匯報(bào)內(nèi)容一.語音轉(zhuǎn)換的概念二.語音轉(zhuǎn)換技術(shù)的發(fā)展概況三.基于高斯混合模型(GMM)的語音轉(zhuǎn)換技術(shù)四.在高斯混合模型之后產(chǎn)生的方法五.Toolkit 演示語音轉(zhuǎn)換從窄帶語音通信轉(zhuǎn)換為寬帶語音通信語音產(chǎn)生模型聲關(guān)節(jié)反轉(zhuǎn)映射體傳送語音增強(qiáng)發(fā)聲幫助器VOICE CONVERSIONVoice conversion (VC) is a technique to transform the speech of one speaker (source) so that it sounds like it was uttered by another sp

2、eaker (target) without changing the language context.A voice conversion system containsTraining phase During training phase, a conversion function is estimated from parallel source and target feature vector sequences.Conversion phase In conversion phase, the conversion function is applied on feature

3、s extracted from new input speech of source speaker, then the modified features are used to reconstruct the converted speech.分析特征提取源說話人聲音分析特征提取目標(biāo)說話人聲音分析特征提取對齊訓(xùn)練語音轉(zhuǎn)換規(guī)則語音轉(zhuǎn)換規(guī)則源語音語音合成圖1.語音轉(zhuǎn)換技術(shù)系統(tǒng)結(jié)構(gòu)圖訓(xùn)練階段轉(zhuǎn)換階段二.語音轉(zhuǎn)換技術(shù)的發(fā)展概況(1) 語音轉(zhuǎn)換的發(fā)展歷程 1980s開始(統(tǒng)計(jì)學(xué)方法): 1.Abe等人發(fā)明碼本映射方法。 2.模糊向量量化。 3.建立了源目標(biāo)向量間的差異向量。 4.Valbret等人

4、使用了LMR(linear multivariate regression)。 5.其他:說話人插入、神經(jīng)網(wǎng)絡(luò)。(2)最流行的方法 1.Styrianou 等人: 基于高斯混合模型的轉(zhuǎn)換方法(GMM)。 2.先進(jìn)的基于高斯混合模型的轉(zhuǎn)換方法: 利用MLE(maximum-likelihood estimation)。 三.基于高斯模型(GMM)的語音轉(zhuǎn)換技術(shù)傳統(tǒng)的高斯混合模型:A.概率密度函數(shù): 已知 和 是第t幀的D維源、目標(biāo)特征向量 是 的聯(lián)合向量 是參數(shù)集合:包括權(quán)重、平均向量、協(xié)方差矩陣 是平均向量 協(xié)方差矩陣,各協(xié)方差矩陣分別都是對角線矩陣在訓(xùn)練過程中:1.用Dynamic time

5、 warping(DTW)將聯(lián)合向量自動排隊(duì)。2.用期望最大化算法(EM)訓(xùn)練GMM模型。EM算法:(1)基本思路:1.初始化一組基本參數(shù)。2.根據(jù)后驗(yàn)概率來更新隱含變量(Z)的期望值E(Z)。3.用E(Z)代Z求出新的參數(shù),如此迭代指導(dǎo)參數(shù)趨于穩(wěn)定。B.映射函數(shù) 的概率密度函數(shù)也表示為:在傳統(tǒng)方法中,轉(zhuǎn)換是基于最小均方差的:先進(jìn)的高斯混合模型 利用MLE:四.在高斯混合模型之后產(chǎn)生的方法在高斯模型之后,產(chǎn)生了非統(tǒng)計(jì)學(xué)方法:1.VTLN:Vocal tract length normalization(聲道長度歸一化)2.加權(quán)頻率彎曲3.動態(tài)頻率彎曲4.雙線頻率彎曲Exemplar-Based

6、 Sparse Representation With Residual Compensation for Voice Conversion用字典描述語音的觀察值優(yōu)點(diǎn): 1. 直接使用訓(xùn)練數(shù)據(jù)語音段來構(gòu)建字典。 2. 允許我們構(gòu)建高維度的頻譜模型來保留細(xì)節(jié)。 3. 轉(zhuǎn)換譜的產(chǎn)生非常簡單,就如組合一些基本的語音段,不需要映射或修改。貢獻(xiàn): 1. 允許我們直接對高精度的頻譜進(jìn)行建模。 2. 引入一個譜壓縮方法來強(qiáng)調(diào)重要但低強(qiáng)度的觀察值。 3. 引入殘差補(bǔ)償方法來提高語音質(zhì)量。伴隨殘差補(bǔ)償?shù)幕跇颖鞠∈璞硎镜恼Z音轉(zhuǎn)換技術(shù)A.基于樣本的稀疏表示B.譜的壓縮C.上下文信息D.使用低精度特征進(jìn)行更快的計(jì)算E.補(bǔ)償模型殘差F.字典結(jié)構(gòu)G.評價(jià)A.基于樣本的稀疏表示樣本:從訓(xùn)練數(shù)據(jù)中提取出來的一個包含多幀的語音段。 每一個觀察值獨(dú)立建模,每一個語音段的譜可以表示為: 轉(zhuǎn)換后的譜:利用非負(fù)矩陣分解技術(shù)算出H:B.譜的壓縮 引入一個譜壓縮參數(shù)來計(jì)算激勵矩陣:C.上下文信息 一個樣本中包含多個幀:D.使用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論