關(guān)于語音合成方法的調(diào)查報(bào)告

上傳人：v*** IP屬地：湖北上傳時(shí)間：2021-12-16 格式：DOC 頁數(shù)：8 大小：419.50KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、關(guān)于語音合成方法的調(diào)查報(bào)告摘要：本文是一篇關(guān)于語音合成方法的調(diào)查報(bào)告，在搜集整理大量相關(guān)文獻(xiàn)的基礎(chǔ)上，簡(jiǎn)要的總結(jié)了幾種常用的語音合成方法，討論各種合成方法的原理及算法，并簡(jiǎn)要分析各種合成方法的性能及適用場(chǎng)合。關(guān)鍵詞：語音合成；種類；原理；算法；性能正文語音合成技術(shù)是利用電腦, 按規(guī)定的程序和指令, 人為產(chǎn)生語音的技術(shù)。語音合成從技術(shù)方式講可分為波形合成、參數(shù)分析合成以及規(guī)則合成等三種。1、波形合成波形合成法一般有兩種形式。一種是波形編碼合成，它類似于語音編碼種的波形編解碼法，該方法直接把要合成的語音的發(fā)音波形進(jìn)行存儲(chǔ)或者進(jìn)行波形編輯壓縮后存儲(chǔ)，合成重放時(shí)再解碼輸出，稱PCM波形合成法。另一種是

2、波形編輯合成，他把波形編輯技術(shù)用于語音合成，通過選取音庫中采取自然語言的合成單元的波形，對(duì)這些波形進(jìn)行編輯拼接后輸出。 11 波形編碼合成基本原理：波形編碼合成方法以語句、短語、詞或音節(jié)為合成單元，這些單元被分別錄音后直接進(jìn)行數(shù)字編碼，經(jīng)適當(dāng)?shù)臄?shù)據(jù)壓縮，組成一個(gè)合成語音庫。重放時(shí)，根據(jù)待輸出的信息，在語音庫中取出相應(yīng)單元的波形數(shù)據(jù)，串接或編輯在一起，經(jīng)解碼還原出語音。性能分析：波形編碼語音合成技術(shù)用原始語音波形替代參數(shù)，而且這些語音波形取自自然語音的詞或句子，它隱含了聲調(diào)、重音、發(fā)音速度的細(xì)微特性，也叫錄音編輯合成，合成單元越大，合成的自然度越好，其質(zhì)量普遍高于參數(shù)合成。且系統(tǒng)結(jié)構(gòu)簡(jiǎn)單，價(jià)格低

3、廉。但合成語音的數(shù)碼率較大，存儲(chǔ)量也大，因而合成詞匯量有限。通常只能合成有限詞匯的語音段。目前用于自動(dòng)報(bào)時(shí)、報(bào)站和報(bào)警等。12 波形編輯合成基本原理：波形編輯合成方法將波形編輯技術(shù)用于語音合成，通過選取音庫中采取自然語言的合成單元的波形，對(duì)這些波形進(jìn)行編輯拼接后輸出。它采用語音編碼技術(shù)，存儲(chǔ)適當(dāng)?shù)恼Z音基元。合成時(shí)，經(jīng)解碼、波形編輯拼接、平滑處理等輸出所需的短語、語句或段落。算法簡(jiǎn)述：80年代末E.Moulines和F.Charpentier提出基于時(shí)域波形修改的語音合成算法。PSOLA就是基音同步疊加，它把基音周期的完整性作為保證波形及頻譜平滑連續(xù)的基本前提。該算法按以下三步實(shí)施：對(duì)原始波形進(jìn)

4、行分析，產(chǎn)生非參數(shù)的中間表示；對(duì)中間表示進(jìn)行修改；將修改過的中間表示重新合成為語音信號(hào)。由于修改的參數(shù)不同，又分為TD-PSOLA、FD-PSOLA和LP-PSOLA。PSOLA是用于波形編輯合成語音技術(shù)中對(duì)合成語音的韻律進(jìn)行修改的一種算法。下圖是利用PSOLA算法的語音合成系統(tǒng)的基本結(jié)構(gòu)：圖1 基于PSOLA算法的語音合成系統(tǒng)本質(zhì)上說，PSOLA算法是利用短時(shí)傅里葉變換重構(gòu)信號(hào)的疊結(jié)相加法。信號(hào)的x(n)短時(shí)傅里葉變換為：由于語音信號(hào)是一個(gè)短時(shí)平穩(wěn)信號(hào)，因此在時(shí)域每隔若干個(gè)（例如R個(gè)）樣本取一個(gè)頻譜函數(shù)就可以重構(gòu)信號(hào)x(n)，即可令：其傅里葉逆變換為：然后就可以通過疊加得到原信號(hào)，即：時(shí)域

5、基音同步疊加技術(shù)作為基音同步疊加技術(shù)的一種，通過以下步驟實(shí)現(xiàn)語音的合成：(1) 對(duì)語音合成單元設(shè)置基音同步標(biāo)記。(2) 以語音合成單元的同步標(biāo)記為中心，選擇適當(dāng)長(zhǎng)度（一般取兩倍的基音周期）的時(shí)窗對(duì)合成單元做加窗處理，獲得一組短時(shí)信號(hào)。 (3) 在合成規(guī)則的指導(dǎo)下，調(diào)整步驟1）中獲得的同步標(biāo)記，產(chǎn)生新的基音同步標(biāo)記。(4) 根據(jù)步驟3）得到的合成語音的同步標(biāo)記，對(duì)步驟2）中得到的短時(shí)信號(hào)進(jìn)行疊加，從而獲得合成語音。性能分析：PSOLA算法在編輯和拼接語音波形前能根據(jù)上下文的要求，對(duì)拼接單元的韻律特征作出調(diào)整，而且音庫中的采佯波形中保留了一部分原發(fā)音人的語音特征這樣使臺(tái)成語音的自然度和清晰度都得

6、到了顯著提高。2、參數(shù)分析合成參數(shù)分析合成多以音節(jié)、半音節(jié)或音素為合成單元。首先，按照語音理論，對(duì)所有合成單元的語音進(jìn)行分析，提取有關(guān)語音參數(shù)，這些參數(shù)經(jīng)編碼后組成一個(gè)合成語音庫；輸出時(shí)，根據(jù)待合成的語音的信息，從語音庫中取出相應(yīng)的合成參數(shù)，經(jīng)編輯和連接，順序送入語音合成器。在合成器中，通過合成參數(shù)的控制，將語音波形重新還原出來。參數(shù)分析合成方法基于聲道截面積函數(shù)或聲道諧振特性合成語音，如共振峰合成、LPC合成。這類合成技術(shù)在的比特率低，音質(zhì)適中。為改善音質(zhì)，發(fā)展了混合編碼技術(shù)，主要手段是改善激勵(lì)，如碼本激勵(lì)、多脈沖激勵(lì)、長(zhǎng)時(shí)預(yù)測(cè)規(guī)則碼激勵(lì)等，這樣，比特率有所增大，同時(shí)音質(zhì)得到提高。參數(shù)分析合

7、成的主要優(yōu)點(diǎn)是數(shù)據(jù)量小，易于實(shí)現(xiàn)韻律修改，但有限的參數(shù)很難表述自然語音的細(xì)微變化。2.1 共振峰合成基本原理：語音合成的理論基礎(chǔ)是語音生成的數(shù)學(xué)模型。該模型語音生成過程是在激勵(lì)信號(hào)的激勵(lì)下，聲波經(jīng)諧振腔（聲道），由嘴或鼻輻射聲波。因此，聲道參數(shù)、聲道諧振特性一直是研究的重點(diǎn)。習(xí)慣上，把聲道傳輸頻率響應(yīng)上的極點(diǎn)稱之為共振峰，而語音的共振峰頻率（極點(diǎn)頻率）的分布特性決定著該語音的音色。音色各異的語音具有不同的共振峰模式，因此，以每個(gè)共振峰頻率及其帶寬作為參數(shù)，可以構(gòu)成共振峰濾波器。再用若干個(gè)這種濾波器的組合來模擬聲道的傳輸特性（頻率響應(yīng)），對(duì)激勵(lì)源發(fā)出的信號(hào)進(jìn)行調(diào)制，再經(jīng)過輻射模型就可以得到合成

8、語音。這就是共振峰合成技術(shù)的基本原理?；诠舱穹宓睦碚撚幸韵氯N實(shí)用模型。1）級(jí)聯(lián)型共振峰模型在該模型中，聲道被認(rèn)為是一組串聯(lián)的二階諧振器。該模型主要用于絕大部分元音的合成。2）并聯(lián)型共振峰模型許多研究者認(rèn)為，對(duì)于鼻化元音等非一般元音以及大部分輔音，上述級(jí)聯(lián)型模型不能很好地加以描述和模擬，因此，構(gòu)筑和產(chǎn)生了并聯(lián)型共振峰模型。3）混合型共振峰模型在級(jí)聯(lián)型共振峰合成模型中，共振峰濾波器首尾相接；而在并聯(lián)型模型中，輸入信號(hào)先分別通過幅度調(diào)節(jié)再加到每一個(gè)共振峰濾波器上，然后將各路的輸出疊加起來。將兩者比較，對(duì)于合成聲源位于聲道末端的語音（大多數(shù)的元音），級(jí)聯(lián)型合乎語音產(chǎn)生的聲學(xué)理論，并且無需為每

9、一個(gè)濾波器分設(shè)幅度調(diào)節(jié)；而對(duì)于合成聲源位于聲道中間的語音（大多數(shù)清擦音和塞音），并聯(lián)型則比較合適，但是其幅度調(diào)節(jié)很復(fù)雜。基于此種考慮，人們將兩者結(jié)合在一起，提出了混和型共振峰模型。圖2 共振峰合成器的系統(tǒng)模型性能分析：共振峰模型是基于對(duì)聲道的一種比較準(zhǔn)確的模擬，因而可以合成出自然度比較高的語音，另外由于共振峰參數(shù)有著明確的物理意義，直接對(duì)應(yīng)于聲道參數(shù)，因此，可以容易利用共振峰描述自然語流中的各種現(xiàn)象，并且總結(jié)聲學(xué)規(guī)則，最終用于共振峰合成系統(tǒng)。高級(jí)共振峰合成器可合成出高質(zhì)量的語音，幾乎和自然語音沒有差別。但關(guān)鍵是如何得到合成所需的控制參數(shù)，如共振峰頻率、帶寬、幅度等。而且，求取的參數(shù)還必須逐幀修

10、正，才能使合成語音與自然語音達(dá)到最佳匹配。但是，人們同時(shí)也發(fā)現(xiàn)該技術(shù)有明顯的弱點(diǎn)。首先由于它是建立在對(duì)聲道的模擬上，因此，對(duì)于聲道模型的不精確勢(shì)必會(huì)影響其合成質(zhì)量。另外，實(shí)際工作表明，共振峰模型雖然描述了語音中最基本最主要的部分，但并不能表征影響語音自然度的其他許多細(xì)微的語音成分，從而影響了合成語音的自然度。另外，共振峰合成器控制十分復(fù)雜，對(duì)于一個(gè)好的合成器來說，其控制參數(shù)往往達(dá)到幾十個(gè)，實(shí)現(xiàn)起來十分困難。2.2 LPC參數(shù)合成LPC合成技術(shù)本質(zhì)上是一種時(shí)間波形的編碼技術(shù)，目的是為了降低時(shí)間域信號(hào)的傳輸速率。LPC語音合成器利用LPC語音分析方法，通過分析自然語音樣本，計(jì)算出 LPC系數(shù)，就可

11、以建立信號(hào)產(chǎn)生模型，從而合成出語音。圖3 LPC語音合成器圖3所示的線性預(yù)測(cè)合成的形式有兩種：一種是直接用預(yù)測(cè)器系數(shù)，構(gòu)成的遞歸型合成濾波器，其結(jié)構(gòu)如圖4所示：圖4 遞歸型合成濾波器用這種方法定期地改變激勵(lì)參數(shù) 和預(yù)測(cè)器系數(shù) ，就能合成出語音。這種結(jié)構(gòu)簡(jiǎn)單而直觀，為了合成一個(gè)語音樣本，需要進(jìn)行p次乘法和p次加法。它合成的語音樣本由下式?jīng)Q定：其中，為預(yù)測(cè)器系數(shù)；G為模型增益；為激勵(lì)；合成語音樣本為；p為預(yù)測(cè)器階數(shù)。直接形式的預(yù)測(cè)系數(shù)濾波器結(jié)構(gòu)的優(yōu)點(diǎn)是簡(jiǎn)單、易于實(shí)現(xiàn)，所以曾廣泛被采用。其缺點(diǎn)是合成語音樣本需要很高的計(jì)算精度。另一種合成的形式是采用反射系數(shù) 構(gòu)成的格型合成濾波器。它的合成

12、語音樣本由下式?jīng)Q定：其中，G為模型增益；為激勵(lì)；為反射系數(shù)；為后向預(yù)測(cè)誤差；p為預(yù)測(cè)器階數(shù)。采用反射系數(shù) 的格型合成濾波器結(jié)構(gòu)，雖然運(yùn)算量大于直接型結(jié)構(gòu)，卻具有一系列優(yōu)點(diǎn)：其參數(shù) 具有 1的性質(zhì)，因而濾波器是穩(wěn)定的；同時(shí)與直接結(jié)構(gòu)形式相比，它對(duì)有限字長(zhǎng)引起的量化效應(yīng)靈敏度較低。在實(shí)際進(jìn)行語音合成時(shí)，除了構(gòu)成合成濾波器之外，還必須在有濁音的情況下，將一定基音周期的脈沖序列作為音源；在清音的情況下，將白噪音作為音源。而且，必須進(jìn)行濁音/清音的判別和確定音源強(qiáng)度。對(duì)于基音周期的檢測(cè)，采用去掉共振峰影響后的最后一級(jí)殘差信號(hào) （前向預(yù)測(cè)誤差）的自相關(guān)函數(shù)的方式是有效的。這個(gè)殘差信號(hào)的自相關(guān)函數(shù)也

13、叫變形自相關(guān)函數(shù) ,它除了可用來檢測(cè)基音周期之外，也可用來區(qū)別濁音/清音等。在之后找出取峰值時(shí)的T,即從n=0開始，搜索基音周期可能存在的315ms的區(qū)間，從而求出這個(gè)周期。圖5 變形自相關(guān)函數(shù)和基音周期檢測(cè)同樣對(duì)于濁音/清音的判別方法，也可以采用誤差信號(hào) 。采用的一個(gè)方法是利用這個(gè)比值，如果是濁音的話，則相當(dāng)于的一個(gè)極值。所以可以設(shè)定的比值在0.18以下為清音，在0.25以上為濁音，在這兩個(gè)值之間引入了濁音度V和清音度U的概念，且U+V=1。這時(shí)，確定U和V時(shí)要使U+V=1，即如圖8-5所示，在U=1時(shí)為無聲，只用白噪音作為音源。在V=1時(shí)，為有聲，使用與音調(diào)周期T同步的脈沖序

14、列作為音源。在時(shí)，常常把對(duì)應(yīng)于和的白噪音和脈沖序列的和信號(hào)作為音源。圖6 音源參數(shù)的設(shè)定法對(duì)于音源強(qiáng)度，可以直接使用相當(dāng)于殘差信號(hào)能量的，即采用值。用這種方法構(gòu)成PARCOR分析合成濾波器的整個(gè)結(jié)構(gòu)如圖7所示。圖7 PARCOR分析合成濾波器性能分析：LPC合成技術(shù)的優(yōu)點(diǎn)是簡(jiǎn)單直觀。其合成過程實(shí)質(zhì)上只是一種簡(jiǎn)單的解碼和拼接過程。另外，由于波形拼接技術(shù)的合成基元是語音的波形數(shù)據(jù)，保存了語音的全部信息，因而對(duì)于單個(gè)合成基元來說能夠獲得很高的自然度。但是，由于自然語流中的語音和孤立狀況下的語音有著極大的區(qū)別，如果只是簡(jiǎn)單地把各個(gè)孤立的語音生硬地拼接在一起，其整個(gè)語流的質(zhì)量勢(shì)必是不太理想的。

15、而LPC技術(shù)從本質(zhì)上來說只是一種錄音重放，對(duì)于合成整個(gè)連續(xù)語流LPC合成技術(shù)的效果是不理想的。因此，LPC合成技術(shù)必須和其他技術(shù)相結(jié)合，才能明顯改善LPC合成的質(zhì)量。3、規(guī)則合成基本原理：規(guī)則合成方式通過語音學(xué)規(guī)則來產(chǎn)生目標(biāo)語音。規(guī)則合成系統(tǒng)存儲(chǔ)的是較小的語音單位(如音素、雙音素、半音節(jié)或音節(jié))的聲學(xué)參數(shù)，以及由音素組成音節(jié)、再由音節(jié)組成詞或句子的各種規(guī)則。當(dāng)輸入字母符號(hào)時(shí)，合成系統(tǒng)利用規(guī)則自動(dòng)地將它們轉(zhuǎn)換成連續(xù)的語音波形。由于語音中存在協(xié)同發(fā)音效應(yīng)，單獨(dú)存在的元音和輔音與連續(xù)發(fā)音中的元音和輔音不同，所以，合成規(guī)則是在分析每一語音單元出現(xiàn)在不同環(huán)境中的協(xié)同發(fā)音效應(yīng)后，歸納其規(guī)律而制定的如共振峰

16、頻率規(guī)則、時(shí)長(zhǎng)規(guī)則、聲調(diào)和語調(diào)規(guī)則等。由于語句中的輕重音，還要?dú)w納出語音減縮規(guī)則。算法簡(jiǎn)介：規(guī)則合成方法中具有代表性的算法是：基音同步疊加技術(shù)（PSOLA），該方法既能保持所發(fā)音的主要音段特征，又能在拼接時(shí)靈活調(diào)整其它基頻、時(shí)長(zhǎng)和強(qiáng)度等超音段特征。核心思想：直接對(duì)存儲(chǔ)與音庫的語音運(yùn)用PSOLA算法來進(jìn)行拼接，從而整合成完整的語音。PSOLA算法在前述波形編輯合成作過詳細(xì)的分析，這里不再贅述。性能分析：規(guī)則合成法是一種高級(jí)合成法。規(guī)則合成法通過語音學(xué)規(guī)則產(chǎn)生語音，合成的詞匯表不是事先確定，系統(tǒng)中存儲(chǔ)的是最小的語音單位的聲學(xué)參數(shù)，以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調(diào)

17、、輕重等韻律的各種規(guī)則。給出待合成的字母或文字后，合成系統(tǒng)利用規(guī)則自動(dòng)的將他們轉(zhuǎn)換成連續(xù)的語音聲波。這種方法可以合成無限詞匯的語句。在語音波形片斷拼接之前，首先根據(jù)語義，用PSOLA算法對(duì)拼接單元的韻律特征進(jìn)行調(diào)整，使合成波形既保持了原始語音基元的主要音段特征，又使拼接單元的韻律特征符合語義，從而獲得很高的可懂度和自然度?？偨Y(jié)本學(xué)期選修語音信號(hào)處理這門課程，學(xué)習(xí)了語音信號(hào)處理的基礎(chǔ)、概念、原理、方法及應(yīng)用，同時(shí)了解了一定的背景知識(shí)、發(fā)展概況、研究現(xiàn)狀、應(yīng)用前景和發(fā)展趨勢(shì)與方向。本調(diào)查報(bào)告圍繞語音信號(hào)合成技術(shù)這一課題，進(jìn)行一定的分析討論與擴(kuò)展，以此作為本門課程的總結(jié)。不敢妄談見解，謹(jǐn)以所學(xué)內(nèi)容

18、加以總結(jié)與梳理、搜集相關(guān)文獻(xiàn)加以提煉與編纂。其中難免錯(cuò)誤與疏漏之處，亦難免認(rèn)識(shí)膚淺、總結(jié)不到位之處，還望老師指正。由人工通過一定的機(jī)器設(shè)備產(chǎn)生出語音稱為語音合成。語音合成是人機(jī)語音通信的一個(gè)重要組成部分。語音合成研究的目的是制造一種會(huì)說話的機(jī)器，它解決的是如何讓機(jī)器象人那樣說話的問題，使一些以其它方式表示或存儲(chǔ)的信息能轉(zhuǎn)換為語音，讓人們能通過聽覺而方便地獲得這些信息。語音合成技術(shù)經(jīng)歷了一個(gè)逐步發(fā)展的過程，從參數(shù)合成到拼接合成，再到兩者的逐步結(jié)合，其不斷發(fā)展的動(dòng)力是人們認(rèn)知水平和需求的提高。早期的被形編輯技術(shù)并沒有用于語言合成，因?yàn)樗荒芑胤乓魩熘斜４娴臇|西。而任何一個(gè)語音單元在實(shí)際語流中都會(huì)隨著語音環(huán)境的變化

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

關(guān)于語音合成方法的調(diào)查報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

關(guān)于語音合成方法的調(diào)查報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔