語音信號(hào)處理 第4版 課件 第10章:語音合成與轉(zhuǎn)換_第1頁
語音信號(hào)處理 第4版 課件 第10章:語音合成與轉(zhuǎn)換_第2頁
語音信號(hào)處理 第4版 課件 第10章:語音合成與轉(zhuǎn)換_第3頁
語音信號(hào)處理 第4版 課件 第10章:語音合成與轉(zhuǎn)換_第4頁
語音信號(hào)處理 第4版 課件 第10章:語音合成與轉(zhuǎn)換_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

南京郵電大學(xué)

通信與信息工程學(xué)院第10章語音合成與轉(zhuǎn)換語音合成算法基于深度學(xué)習(xí)的語音合成常用的語音轉(zhuǎn)換方法10.2語音合成算法語音合成分類:從技術(shù)方式講可分為波形合成法、參數(shù)合成法和規(guī)則合成方法;從合成策略上講可分為頻譜逼近和波形逼近。波形合成法:波形合成法分為兩種:波形編碼合成通過壓縮和存儲(chǔ)原始語音波形,然后解碼輸出;波形編輯合成則利用編輯技術(shù)組合來自音庫的自然語音波形片段,生成連貫的語句。參數(shù)合成法:參數(shù)合成法通過分析并提取語音信號(hào)的關(guān)鍵參數(shù),以壓縮信息并人工控制合成,分為模擬發(fā)音器官動(dòng)作和基于聲道模型的方法。該方法的優(yōu)勢(shì)在于低比特率和廣泛的韻律特征適應(yīng)性,但復(fù)雜算法和壓縮導(dǎo)致的音質(zhì)損失仍是其挑戰(zhàn)。規(guī)則合成法:規(guī)則合成方法通過應(yīng)用語音學(xué)規(guī)則和基音同步疊加技術(shù)PSOLA,能從最小語音單位生成無限詞匯的連貫語句,同時(shí)保持高質(zhì)量音質(zhì)。共振峰合成法步驟:(1)聲道模擬:將聲道視為一個(gè)諧振腔,利用其諧振特性來構(gòu)建共振峰濾波器。(2)參數(shù)構(gòu)建:基于音色各異的語音特征,確定共振峰頻率及帶寬,并以此作為濾波器的參數(shù)。(3)濾波器組合:將多個(gè)共振峰濾波器組合起來,模擬聲道的傳輸特性。(4)信號(hào)調(diào)制:對(duì)激勵(lì)聲源產(chǎn)生的信號(hào)進(jìn)行調(diào)制,通過模擬的聲道傳輸特性進(jìn)行聲音的合成。(5)輻射輸出:經(jīng)過調(diào)制的信號(hào)再通過輻射模型的處理,最終得到合成的語音。10.2語音合成算法—共振峰合成法線性預(yù)測(cè)合成法的步驟:線性預(yù)測(cè)合成模型是一種“源—濾波器”模型,由白噪聲序列和周期脈沖序列構(gòu)成的激勵(lì)信號(hào),經(jīng)過選通、放大并通過時(shí)變數(shù)字濾波器(由語音參數(shù)控制的聲道模型),就可以再獲得原語音信號(hào)。原理圖:10.2語音合成算法—線性預(yù)測(cè)合成法10.2語音合成算法—線性預(yù)測(cè)合成法

10.2語音合成算法—線性預(yù)測(cè)合成法

10.2語音合成算法—PSOLA算法合成語音PSOLA

是用于波形編輯合成語音技術(shù)中對(duì)合成語音的韻律進(jìn)行修改的一種算法。決定語音波形韻律的主要時(shí)域參數(shù)包括:音長(zhǎng)、音強(qiáng)、音高等。PSOLA

法參數(shù)調(diào)節(jié)方法:音長(zhǎng)的調(diào)節(jié)對(duì)于穩(wěn)定的波形段是比較簡(jiǎn)單的,只需以基音周期為單位加/減即可。但對(duì)于語音基元本身的復(fù)雜性,實(shí)際處理時(shí)采用特定的時(shí)長(zhǎng)縮放法。音強(qiáng)改變只要加強(qiáng)波形即可。但對(duì)一些重音有變化的音節(jié),有可能幅度包絡(luò)也需改變。音高的大小對(duì)應(yīng)于波形的基音周期。對(duì)于大多數(shù)通用語言,音高僅代表語氣的不同及話者的更替。但漢語的音高曲線構(gòu)成聲調(diào),聲調(diào)有辯義作用,因此漢語的音高修改比較復(fù)雜。10.2語音合成算法—PSOLA算法合成語音基音同步疊加技術(shù)一般有三種方式:

時(shí)域基音同步疊加(TD-PSOLA)、線性預(yù)測(cè)基音同步疊加(LPC-PSOLA)和頻域基音同步疊加(FD-PSOLA)。10.2語音合成算法—PSOLA算法合成語音本章主要介紹時(shí)域基音同步疊加法,其步驟如下:1)對(duì)語音合成單元設(shè)置基音同步標(biāo)記。同步標(biāo)記是與合成單元濁音段的基音保持同步的一系列位置點(diǎn),它們必須能準(zhǔn)確反映各基音周期的起始位置。2)以語音合成單元的同步標(biāo)記為中心,選擇適當(dāng)長(zhǎng)度(一般取兩倍的基音周期)的時(shí)窗對(duì)合成單元做加窗處理,獲得一組短時(shí)信號(hào)。3)在合成規(guī)則的指導(dǎo)下,調(diào)整步驟1)中獲得的同步標(biāo)記,產(chǎn)生新的基音同步標(biāo)記。具體地說,就是通過對(duì)合成單元同步標(biāo)記的插入、刪除來改變合成語音的時(shí)長(zhǎng);通過對(duì)合成單元標(biāo)記間隔的增加、減小來改變合成語音的基頻等。4)根據(jù)步驟3)得到的合成語音的同步標(biāo)記,對(duì)步驟2)中得到的短時(shí)信號(hào)進(jìn)行疊加,從而獲得合成語音。總的說來,PSOLA法實(shí)現(xiàn)語音合成主要有三個(gè)步驟,分別為基音同步分析、基音同步修改和基音同步合成。10.2語音合成算法—PSOLA算法合成語音

10.2語音合成算法—PSOLA算法合成語音

10.2語音合成算法—PSOLA算法合成語音3、基音同步合成目的:利用短時(shí)合成信號(hào)進(jìn)行疊加合成方法:基音同步疊加合成的方法有很多。采用原始信號(hào)譜與合成信號(hào)譜差異最小的最小平方疊加法合成法合成的信號(hào)為:

10.2語音合成算法—PSOLA算法合成語音

語音合成算法基于深度學(xué)習(xí)的語音合成常用的語音轉(zhuǎn)換方法10.3基于深度學(xué)習(xí)的語音合成—聲學(xué)模型概述:端到端深度學(xué)習(xí)語音合成應(yīng)用最為廣泛,該方法包含兩個(gè)主要模塊:聲學(xué)模型和聲碼器。聲學(xué)模型是將文本輸入轉(zhuǎn)換為頻譜等聲學(xué)特征;聲碼器基于所得到的聲學(xué)特征,完成目標(biāo)語音的合成。聲學(xué)模型概述:聲學(xué)模型如Tacotron、Tacotron2和TransformerTTS等,采用端到端的方式將文本轉(zhuǎn)換為聲學(xué)特征(如美爾頻譜)。Tacotron模型結(jié)構(gòu):編碼器:將輸入文本映射到向量空間,并通過Pre-net層進(jìn)行預(yù)處理。然后,通過一系列的一維卷積、殘差連接和一個(gè)雙向GRU組成的深度網(wǎng)絡(luò)結(jié)構(gòu),獲取文本中的長(zhǎng)短時(shí)距離信息,得到隱含的狀態(tài)序列。注意力機(jī)制:處理上述狀態(tài)序列。解碼器:輸入為前一幀的聲學(xué)特征,并參考注意力機(jī)制處理后的結(jié)果,通過自回歸方式得到最終的聲學(xué)特征。10.3基于深度學(xué)習(xí)的語音合成—聲學(xué)模型Tacotron2模型結(jié)構(gòu):編碼器:采用三層卷積和雙向LSTM。三層卷積提取局部信息,然后送入雙向LSTM進(jìn)行處理。注意力機(jī)制:與Tacotron類似。解碼器:采用兩層LSTM。在解碼器的輸入端加入了Pre-net層,其主要作用是升維和增強(qiáng)非線性。Pre-net層的作用:升維:因?yàn)檩斎虢獯a器的前一幀語音信號(hào)的美爾頻譜的維度通常不同于編碼器中經(jīng)過LSTM處理后的文本維度,所以使用Pre-net使其二者維度一致。增強(qiáng)非線性:因?yàn)槲谋竞兔罓栴l譜處在兩個(gè)不同的空間,而應(yīng)用注意力機(jī)制需要在同一個(gè)空間內(nèi)進(jìn)行,所以Pre-net常采用兩層全連接層完成非線性操作。10.3基于深度學(xué)習(xí)的語音合成—聲學(xué)模型注意力機(jī)制的每個(gè)輸出都經(jīng)過一個(gè)非激活的全連接層映射成一個(gè)80維向量,作為美爾頻譜的一幀,并經(jīng)過由CNN構(gòu)成的post-net進(jìn)行局部平滑,得到最終輸出。另一方面,由于語音合成輸出為連續(xù)信號(hào),因此采用帶有sigmoid激活的全連接層作為一個(gè)二分類器,來預(yù)測(cè)當(dāng)前幀是否為最后一幀停止幀。10.3基于深度學(xué)習(xí)的語音合成—聲碼器

Wavenet主要結(jié)構(gòu)為多個(gè)一維卷積層,由于一維卷積的感受野是固定的,上式改寫為

10.3基于深度學(xué)習(xí)的語音合成—聲碼器因果卷積:對(duì)每個(gè)時(shí)刻,卷積的感受野只能將當(dāng)前時(shí)刻及之前的采樣點(diǎn)作為輸入,從而保證了自回歸性。空洞卷積:通過對(duì)每層卷積核的參數(shù)之間添加常數(shù)零權(quán)值,并且空洞率逐層呈指數(shù)增加,一方面有效增加了感受野,使卷積核可以應(yīng)用于超過自身尺寸的區(qū)域,另一方面也控制了參數(shù)量和計(jì)算量。10.3基于深度學(xué)習(xí)的語音合成—聲碼器模型主體是由一個(gè)因果卷積和K層卷積網(wǎng)絡(luò)組成,通過殘差、跳步連接以及兩個(gè)激活函數(shù)和1×1卷積,最后經(jīng)過Softmax層得到最終輸出。每個(gè)卷積網(wǎng)絡(luò)都對(duì)前一網(wǎng)絡(luò)輸出結(jié)果進(jìn)行卷積,卷積核越大,層數(shù)越多,該模型在時(shí)域上的感知能力越強(qiáng),感受野也越大。每生成一個(gè)點(diǎn),就把該點(diǎn)作為輸入層最后一個(gè)采樣點(diǎn)繼續(xù)迭代生成。10.3基于深度學(xué)習(xí)的語音合成—聲碼器具體地,聲學(xué)特征經(jīng)過一個(gè)一維因果卷積輸入K層空洞卷積網(wǎng)絡(luò),其中每層空洞卷積網(wǎng)絡(luò)包含一個(gè)空洞卷積、一個(gè)Tanh、一個(gè)Sigmoid和一維卷積層。每層空洞卷積網(wǎng)絡(luò)激活單元運(yùn)算如下式所示:

語音合成算法基于深度學(xué)習(xí)的語音合成常用的語音轉(zhuǎn)換方法10.4常用的語音轉(zhuǎn)換方法—頻譜特征參數(shù)轉(zhuǎn)換語音轉(zhuǎn)換系統(tǒng)的考慮因素:(1)選擇一個(gè)理想的分析合成模型。(2)選擇一種較為理想的轉(zhuǎn)換算法。(4)選擇一種有效的語音特征參數(shù)來表征說話人的個(gè)性特征。1.矢量量化法訓(xùn)練:10.4常用的語音轉(zhuǎn)換方法—頻譜特征參數(shù)轉(zhuǎn)換(1)對(duì)源語音和目標(biāo)語音的頻譜特征參數(shù)空間進(jìn)行量化,得到具有相同碼字?jǐn)?shù)目M的碼本分別為V、U。(2)由源說話人和目標(biāo)說話人分別產(chǎn)生學(xué)習(xí)集,然后對(duì)所有的單詞逐幀進(jìn)行矢量量化。(3)運(yùn)用DTW對(duì)兩說話人的相同的單詞進(jìn)行對(duì)齊。(4)兩說話人之間的矢量量化對(duì)應(yīng)關(guān)系累積成柱狀圖,將柱狀圖作為加權(quán)系數(shù),映射碼本即為目標(biāo)語音矢量的線性合成時(shí)的加權(quán)系數(shù)。轉(zhuǎn)換:10.4常用的語音轉(zhuǎn)換方法—頻譜特征參數(shù)轉(zhuǎn)換在轉(zhuǎn)換階段,先將語音特征矢量進(jìn)行矢量量化,假設(shè)量化成第l個(gè)碼字,則轉(zhuǎn)換后的特征向量為

10.4常用的語音轉(zhuǎn)換方法—頻譜特征參數(shù)轉(zhuǎn)換2、線性多變量回歸法步驟:(1)對(duì)源特征參數(shù)和目標(biāo)特征參數(shù)進(jìn)行歸一化,用DTW方法將源語音和目標(biāo)語音的頻譜包絡(luò)特征參數(shù)進(jìn)行對(duì)齊。(2)應(yīng)用非監(jiān)督的分類技術(shù)將源說話人和目標(biāo)說話人的聲學(xué)空間分成非疊加的子空間,通過在每一個(gè)子空間中運(yùn)用LMR對(duì)源特征參數(shù)和目標(biāo)特征參數(shù)建立一個(gè)簡(jiǎn)單的線性關(guān)系的方法,可以更好地進(jìn)行特征的轉(zhuǎn)換。在訓(xùn)練階段,轉(zhuǎn)換方程可以用下式表示:

10.4常用的語音轉(zhuǎn)換方法—頻譜特征參數(shù)轉(zhuǎn)換3、神經(jīng)網(wǎng)絡(luò)法

Narendranath提出:神經(jīng)網(wǎng)絡(luò)共分為4層結(jié)構(gòu):兩個(gè)隱層、3個(gè)輸入單元、3個(gè)輸出單元。它提取源說話人的前3個(gè)共振峰用作輸入,其對(duì)應(yīng)的目標(biāo)說話人的前3個(gè)共振峰作為輸出,采用含有8?jìng)€(gè)神經(jīng)元的兩個(gè)中間隱含層,運(yùn)用BP方法進(jìn)行訓(xùn)練。在轉(zhuǎn)換后合成時(shí),將轉(zhuǎn)換的共振峰頻率和平均基音頻率進(jìn)行合成來得到最終的語音。Baukoin提出:(1)訓(xùn)練階段將源語音的譜參數(shù)用均值和協(xié)方差進(jìn)行歸一化處理,然后進(jìn)行分類,對(duì)于源特征參數(shù)和目標(biāo)特征參數(shù)進(jìn)行動(dòng)態(tài)時(shí)間調(diào)整,將其分別作為神經(jīng)網(wǎng)絡(luò)的輸入和輸出。訓(xùn)練階段的優(yōu)化原則是使轉(zhuǎn)換的倒譜矢量和目標(biāo)矢量的平均距離最小。(2)轉(zhuǎn)換階段先對(duì)源特征矢量進(jìn)行歸一化處理,將歸一化后的特征矢量進(jìn)行歸類,再用對(duì)應(yīng)類的神經(jīng)網(wǎng)絡(luò)進(jìn)行轉(zhuǎn)換,再用均值和協(xié)方差進(jìn)行解歸一化處理。10.4常用的語音轉(zhuǎn)換方法—頻譜特征參數(shù)轉(zhuǎn)換4、多說話人插值法多說話人插值法是根據(jù)預(yù)先存儲(chǔ)的多個(gè)說話人頻譜包絡(luò)進(jìn)行插值得到目標(biāo)的頻譜包絡(luò),頻譜包絡(luò)通過慢變化的插值率來進(jìn)行平滑的轉(zhuǎn)換。在進(jìn)行插值之前,首先對(duì)多個(gè)說話人的語音頻譜參數(shù)序列進(jìn)行時(shí)間對(duì)齊,然后再進(jìn)行下面的轉(zhuǎn)換:

10.4常用的語音轉(zhuǎn)換方法—基因周期轉(zhuǎn)換1、平均基音周期轉(zhuǎn)換法轉(zhuǎn)換率:轉(zhuǎn)換語音基音周期:2、高斯模型轉(zhuǎn)換法假定源說話人的基音周期和目標(biāo)說話人的基音周期都服從高斯分布3、句子碼本模型轉(zhuǎn)換法采用建立句子級(jí)別的基音周期輪廓碼本的方法10.4常用的語音轉(zhuǎn)換方法—韻律信息轉(zhuǎn)換韻律信息具有很大的不穩(wěn)定性,因此對(duì)其進(jìn)行有效建模是一個(gè)挑戰(zhàn)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論