版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、學(xué)習(xí)報(bào)告 語音轉(zhuǎn)換(voice conversion)匯報(bào)內(nèi)容一.語音轉(zhuǎn)換的概念二.語音轉(zhuǎn)換技術(shù)的發(fā)展概況三.基于高斯混合模型(GMM)的語音轉(zhuǎn)換技術(shù)四.在高斯混合模型之后產(chǎn)生的方法五.Toolkit 演示語音轉(zhuǎn)換從窄帶語音通信轉(zhuǎn)換為寬帶語音通信語音產(chǎn)生模型聲關(guān)節(jié)反轉(zhuǎn)映射體傳送語音增強(qiáng)發(fā)聲幫助器VOICE CONVERSIONVoice conversion (VC) is a technique to transform the speech of one speaker (source) so that it sounds like it was uttered by another sp
2、eaker (target) without changing the language context.A voice conversion system containsTraining phase During training phase, a conversion function is estimated from parallel source and target feature vector sequences.Conversion phase In conversion phase, the conversion function is applied on feature
3、s extracted from new input speech of source speaker, then the modified features are used to reconstruct the converted speech.分析特征提取源說話人聲音分析特征提取目標(biāo)說話人聲音分析特征提取對齊訓(xùn)練語音轉(zhuǎn)換規(guī)則語音轉(zhuǎn)換規(guī)則源語音語音合成圖1.語音轉(zhuǎn)換技術(shù)系統(tǒng)結(jié)構(gòu)圖訓(xùn)練階段轉(zhuǎn)換階段二.語音轉(zhuǎn)換技術(shù)的發(fā)展概況(1) 語音轉(zhuǎn)換的發(fā)展歷程 1980s開始(統(tǒng)計(jì)學(xué)方法): 1.Abe等人發(fā)明碼本映射方法。 2.模糊向量量化。 3.建立了源目標(biāo)向量間的差異向量。 4.Valbret等人
4、使用了LMR(linear multivariate regression)。 5.其他:說話人插入、神經(jīng)網(wǎng)絡(luò)。(2)最流行的方法 1.Styrianou 等人: 基于高斯混合模型的轉(zhuǎn)換方法(GMM)。 2.先進(jìn)的基于高斯混合模型的轉(zhuǎn)換方法: 利用MLE(maximum-likelihood estimation)。 三.基于高斯模型(GMM)的語音轉(zhuǎn)換技術(shù)傳統(tǒng)的高斯混合模型:A.概率密度函數(shù): 已知 和 是第t幀的D維源、目標(biāo)特征向量 是 的聯(lián)合向量 是參數(shù)集合:包括權(quán)重、平均向量、協(xié)方差矩陣 是平均向量 協(xié)方差矩陣,各協(xié)方差矩陣分別都是對角線矩陣在訓(xùn)練過程中:1.用Dynamic time
5、 warping(DTW)將聯(lián)合向量自動排隊(duì)。2.用期望最大化算法(EM)訓(xùn)練GMM模型。EM算法:(1)基本思路:1.初始化一組基本參數(shù)。2.根據(jù)后驗(yàn)概率來更新隱含變量(Z)的期望值E(Z)。3.用E(Z)代Z求出新的參數(shù),如此迭代指導(dǎo)參數(shù)趨于穩(wěn)定。B.映射函數(shù) 的概率密度函數(shù)也表示為:在傳統(tǒng)方法中,轉(zhuǎn)換是基于最小均方差的:先進(jìn)的高斯混合模型 利用MLE:四.在高斯混合模型之后產(chǎn)生的方法在高斯模型之后,產(chǎn)生了非統(tǒng)計(jì)學(xué)方法:1.VTLN:Vocal tract length normalization(聲道長度歸一化)2.加權(quán)頻率彎曲3.動態(tài)頻率彎曲4.雙線頻率彎曲Exemplar-Based
6、 Sparse Representation With Residual Compensation for Voice Conversion用字典描述語音的觀察值優(yōu)點(diǎn): 1. 直接使用訓(xùn)練數(shù)據(jù)語音段來構(gòu)建字典。 2. 允許我們構(gòu)建高維度的頻譜模型來保留細(xì)節(jié)。 3. 轉(zhuǎn)換譜的產(chǎn)生非常簡單,就如組合一些基本的語音段,不需要映射或修改。貢獻(xiàn): 1. 允許我們直接對高精度的頻譜進(jìn)行建模。 2. 引入一個譜壓縮方法來強(qiáng)調(diào)重要但低強(qiáng)度的觀察值。 3. 引入殘差補(bǔ)償方法來提高語音質(zhì)量。伴隨殘差補(bǔ)償?shù)幕跇颖鞠∈璞硎镜恼Z音轉(zhuǎn)換技術(shù)A.基于樣本的稀疏表示B.譜的壓縮C.上下文信息D.使用低精度特征進(jìn)行更快的計(jì)算E.補(bǔ)償模型殘差F.字典結(jié)構(gòu)G.評價(jià)A.基于樣本的稀疏表示樣本:從訓(xùn)練數(shù)據(jù)中提取出來的一個包含多幀的語音段。 每一個觀察值獨(dú)立建模,每一個語音段的譜可以表示為: 轉(zhuǎn)換后的譜:利用非負(fù)矩陣分解技術(shù)算出H:B.譜的壓縮 引入一個譜壓縮參數(shù)來計(jì)算激勵矩陣:C.上下文信息 一個樣本中包含多個幀:D.使用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度手機(jī)屏幕保護(hù)膜定制施工合同
- 2025年度個人對個人房產(chǎn)抵押借款合同3篇
- 2025版養(yǎng)老服務(wù)機(jī)構(gòu)投資管理合同范本4篇
- 2025年度影視廣告拍攝合同范本3篇
- 2025年度個人租賃戶外活動場地合同范本3篇
- 二零二五年度牛奶冷鏈物流配送合同模板4篇
- 2025版政府機(jī)關(guān)辦公計(jì)算機(jī)統(tǒng)一采購合同3篇
- 2025年度新型門窗材料采購安裝及技術(shù)研發(fā)合同4篇
- 2025年度智慧城市排水系統(tǒng)升級改造分項(xiàng)合同范本4篇
- 2025年度土地租賃合同中合同解除與違約責(zé)任規(guī)定
- 2023-2024學(xué)年西安市高二數(shù)學(xué)第一學(xué)期期末考試卷附答案解析
- 部編版二年級下冊道德與法治第三單元《綠色小衛(wèi)士》全部教案
- 【京東倉庫出庫作業(yè)優(yōu)化設(shè)計(jì)13000字(論文)】
- 保安春節(jié)安全生產(chǎn)培訓(xùn)
- 初一語文上冊基礎(chǔ)知識訓(xùn)練及答案(5篇)
- 初中班級成績分析課件
- 勞務(wù)合同樣本下載
- 血液透析水處理系統(tǒng)演示
- GB/T 27030-2006合格評定第三方符合性標(biāo)志的通用要求
- GB/T 13663.2-2018給水用聚乙烯(PE)管道系統(tǒng)第2部分:管材
- 同角三角函數(shù)的基本關(guān)系式同步練習(xí)
評論
0/150
提交評論