關(guān)于語音合成方法的調(diào)查報(bào)告_第1頁
關(guān)于語音合成方法的調(diào)查報(bào)告_第2頁
關(guān)于語音合成方法的調(diào)查報(bào)告_第3頁
關(guān)于語音合成方法的調(diào)查報(bào)告_第4頁
關(guān)于語音合成方法的調(diào)查報(bào)告_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、關(guān)于語音合成方法的調(diào)查報(bào)告摘要:本文是一篇關(guān)于語音合成方法的調(diào)查報(bào)告,在搜集整理大量相關(guān)文獻(xiàn)的基礎(chǔ)上,簡(jiǎn)要的總結(jié)了幾種常用的語音合成方法,討論各種合成方法的原理及算法,并簡(jiǎn)要分析各種合成方法的性能及適用場(chǎng)合。關(guān)鍵詞:語音合成;種類;原理;算法;性能正文語音合成技術(shù)是利用電腦, 按規(guī)定的程序和指令, 人為產(chǎn)生語音的技術(shù)。語音合成從技術(shù)方式講可分為波形合成、參數(shù)分析合成以及規(guī)則合成等三種。1、波形合成波形合成法一般有兩種形式。一種是波形編碼合成,它類似于語音編碼種的波形編解碼法,該方法直接把要合成的語音的發(fā)音波形進(jìn)行存儲(chǔ)或者進(jìn)行波形編輯壓縮后存儲(chǔ),合成重放時(shí)再解碼輸出,稱PCM波形合成法。另一種是

2、波形編輯合成,他把波形編輯技術(shù)用于語音合成,通過選取音庫中采取自然語言的合成單元的波形,對(duì)這些波形進(jìn)行編輯拼接后輸出。 11 波形編碼合成基本原理:波形編碼合成方法以語句、短語、詞或音節(jié)為合成單元,這些單元被分別錄音后直接進(jìn)行數(shù)字編碼,經(jīng)適當(dāng)?shù)臄?shù)據(jù)壓縮,組成一個(gè)合成語音庫。重放時(shí),根據(jù)待輸出的信息,在語音庫中取出相應(yīng)單元的波形數(shù)據(jù),串接或編輯在一起,經(jīng)解碼還原出語音。性能分析:波形編碼語音合成技術(shù)用原始語音波形替代參數(shù),而且這些語音波形取自自然語音的詞或句子,它隱含了聲調(diào)、重音、發(fā)音速度的細(xì)微特性,也叫錄音編輯合成,合成單元越大,合成的自然度越好,其質(zhì)量普遍高于參數(shù)合成。且系統(tǒng)結(jié)構(gòu)簡(jiǎn)單,價(jià)格低

3、廉。但合成語音的數(shù)碼率較大,存儲(chǔ)量也大,因而合成詞匯量有限。通常只能合成有限詞匯的語音段。目前用于自動(dòng)報(bào)時(shí)、報(bào)站和報(bào)警等。12 波形編輯合成基本原理:波形編輯合成方法將波形編輯技術(shù)用于語音合成,通過選取音庫中采取自然語言的合成單元的波形,對(duì)這些波形進(jìn)行編輯拼接后輸出。它采用語音編碼技術(shù),存儲(chǔ)適當(dāng)?shù)恼Z音基元。合成時(shí),經(jīng)解碼、波形編輯拼接、平滑處理等輸出所需的短語、語句或段落。算法簡(jiǎn)述:80年代末E.Moulines和F.Charpentier提出基于時(shí)域波形修改的語音合成算法。PSOLA就是基音同步疊加,它把基音周期的完整性作為保證波形及頻譜平滑連續(xù)的基本前提。該算法按以下三步實(shí)施:對(duì)原始波形進(jìn)

4、行分析,產(chǎn)生非參數(shù)的中間表示;對(duì)中間表示進(jìn)行修改;將修改過的中間表示重新合成為語音信號(hào)。由于修改的參數(shù)不同,又分為TD-PSOLA、FD-PSOLA和LP-PSOLA。PSOLA是用于波形編輯合成語音技術(shù)中對(duì)合成語音的韻律進(jìn)行修改的一種算法。下圖是利用PSOLA算法的語音合成系統(tǒng)的基本結(jié)構(gòu):圖1 基于PSOLA算法的語音合成系統(tǒng)本質(zhì)上說,PSOLA算法是利用短時(shí)傅里葉變換重構(gòu)信號(hào)的疊結(jié)相加法。信號(hào)的x(n)短時(shí)傅里葉變換為:由于語音信號(hào)是一個(gè)短時(shí)平穩(wěn)信號(hào),因此在時(shí)域每隔若干個(gè)(例如R個(gè))樣本取一個(gè)頻譜函數(shù)就可以重構(gòu)信號(hào)x(n),即可令:其傅里葉逆變換為:然后就可以通過疊加得到原信號(hào),即: 時(shí)域

5、基音同步疊加技術(shù)作為基音同步疊加技術(shù)的一種,通過以下步驟實(shí)現(xiàn)語音的合成:(1) 對(duì)語音合成單元設(shè)置基音同步標(biāo)記。(2) 以語音合成單元的同步標(biāo)記為中心,選擇適當(dāng)長(zhǎng)度(一般取兩倍的基音周期)的時(shí)窗對(duì)合成單元做加窗處理,獲得一組短時(shí)信號(hào)。 (3) 在合成規(guī)則的指導(dǎo)下,調(diào)整步驟1)中獲得的同步標(biāo)記,產(chǎn)生新的基音同步標(biāo)記。(4) 根據(jù)步驟3)得到的合成語音的同步標(biāo)記,對(duì)步驟2)中得到的短時(shí)信號(hào)進(jìn)行疊加,從而獲得合成語音。 性能分析:PSOLA算法在編輯和拼接語音波形前能根據(jù)上下文的要求,對(duì)拼接單元的韻律特征作出調(diào)整,而且音庫中的采佯波形中保留了一部分原發(fā)音人的語音特征這樣使臺(tái)成語音的自然度和清晰度都得

6、到了顯著提高。2、參數(shù)分析合成參數(shù)分析合成多以音節(jié)、半音節(jié)或音素為合成單元。首先,按照語音理論,對(duì)所有合成單元的語音進(jìn)行分析,提取有關(guān)語音參數(shù),這些參數(shù)經(jīng)編碼后組成一個(gè)合成語音庫;輸出時(shí),根據(jù)待合成的語音的信息,從語音庫中取出相應(yīng)的合成參數(shù),經(jīng)編輯和連接,順序送入語音合成器。在合成器中,通過合成參數(shù)的控制,將語音波形重新還原出來。參數(shù)分析合成方法基于聲道截面積函數(shù)或聲道諧振特性合成語音,如共振峰合成、LPC合成。這類合成技術(shù)在的比特率低,音質(zhì)適中。為改善音質(zhì),發(fā)展了混合編碼技術(shù),主要手段是改善激勵(lì),如碼本激勵(lì)、多脈沖激勵(lì)、長(zhǎng)時(shí)預(yù)測(cè)規(guī)則碼激勵(lì)等,這樣,比特率有所增大,同時(shí)音質(zhì)得到提高。參數(shù)分析合

7、成的主要優(yōu)點(diǎn)是數(shù)據(jù)量小,易于實(shí)現(xiàn)韻律修改,但有限的參數(shù)很難表述自然語音的細(xì)微變化。2.1 共振峰合成基本原理:語音合成的理論基礎(chǔ)是語音生成的數(shù)學(xué)模型。該模型語音生成過程是在激勵(lì)信號(hào)的激勵(lì)下,聲波經(jīng)諧振腔(聲道),由嘴或鼻輻射聲波。因此,聲道參數(shù)、聲道諧振特性一直是研究的重點(diǎn)。習(xí)慣上,把聲道傳輸頻率響應(yīng)上的極點(diǎn)稱之為共振峰,而語音的共振峰頻率(極點(diǎn)頻率)的分布特性決定著該語音的音色。 音色各異的語音具有不同的共振峰模式,因此,以每個(gè)共振峰頻率及其帶寬作為參數(shù),可以構(gòu)成共振峰濾波器。再用若干個(gè)這種濾波器的組合來模擬聲道的傳輸特性(頻率響應(yīng)),對(duì)激勵(lì)源發(fā)出的信號(hào)進(jìn)行調(diào)制,再經(jīng)過輻射模型就可以得到合成

8、語音。這就是共振峰合成技術(shù)的基本原理?;诠舱穹宓睦碚撚幸韵氯N實(shí)用模型。1) 級(jí)聯(lián)型共振峰模型在該模型中,聲道被認(rèn)為是一組串聯(lián)的二階諧振器。該模型主要用于絕大部分元音的合成。2) 并聯(lián)型共振峰模型許多研究者認(rèn)為,對(duì)于鼻化元音等非一般元音以及大部分輔音,上述級(jí)聯(lián)型模型不能很好地加以描述和模擬,因此,構(gòu)筑和產(chǎn)生了并聯(lián)型共振峰模型。3) 混合型共振峰模型在級(jí)聯(lián)型共振峰合成模型中,共振峰濾波器首尾相接;而在并聯(lián)型模型中,輸入信號(hào)先分別通過幅度調(diào)節(jié)再加到每一個(gè)共振峰濾波器上,然后將各路的輸出疊加起來。將兩者比較,對(duì)于合成聲源位于聲道末端的語音(大多數(shù)的元音),級(jí)聯(lián)型合乎語音產(chǎn)生的聲學(xué)理論,并且無需為每

9、一個(gè)濾波器分設(shè)幅度調(diào)節(jié);而對(duì)于合成聲源位于聲道中間的語音(大多數(shù)清擦音和塞音),并聯(lián)型則比較合適,但是其幅度調(diào)節(jié)很復(fù)雜。基于此種考慮,人們將兩者結(jié)合在一起,提出了混和型共振峰模型。圖2 共振峰合成器的系統(tǒng)模型性能分析:共振峰模型是基于對(duì)聲道的一種比較準(zhǔn)確的模擬,因而可以合成出自然度比較高的語音,另外由于共振峰參數(shù)有著明確的物理意義,直接對(duì)應(yīng)于聲道參數(shù),因此,可以容易利用共振峰描述自然語流中的各種現(xiàn)象,并且總結(jié)聲學(xué)規(guī)則,最終用于共振峰合成系統(tǒng)。高級(jí)共振峰合成器可合成出高質(zhì)量的語音,幾乎和自然語音沒有差別。但關(guān)鍵是如何得到合成所需的控制參數(shù),如共振峰頻率、帶寬、幅度等。而且,求取的參數(shù)還必須逐幀修

10、正,才能使合成語音與自然語音達(dá)到最佳匹配。但是,人們同時(shí)也發(fā)現(xiàn)該技術(shù)有明顯的弱點(diǎn)。首先由于它是建立在對(duì)聲道的模擬上,因此,對(duì)于聲道模型的不精確勢(shì)必會(huì)影響其合成質(zhì)量。另外,實(shí)際工作表明,共振峰模型雖然描述了語音中最基本最主要的部分,但并不能表征影響語音自然度的其他許多細(xì)微的語音成分,從而影響了合成語音的自然度。另外,共振峰合成器控制十分復(fù)雜,對(duì)于一個(gè)好的合成器來說,其控制參數(shù)往往達(dá)到幾十個(gè),實(shí)現(xiàn)起來十分困難。2.2 LPC參數(shù)合成LPC合成技術(shù)本質(zhì)上是一種時(shí)間波形的編碼技術(shù),目的是為了降低時(shí)間域信號(hào)的傳輸速率。LPC語音合成器利用LPC語音分析方法,通過分析自然語音樣本,計(jì)算出 LPC系數(shù),就可

11、以建立信號(hào)產(chǎn)生模型,從而合成出語音。 圖3 LPC語音合成器圖3所示的線性預(yù)測(cè)合成的形式有兩種:一種是直接用預(yù)測(cè)器系數(shù),構(gòu)成的遞歸型合成濾波器,其結(jié)構(gòu)如圖4所示 :圖4 遞歸型合成濾波器用這種方法定期地改變激勵(lì)參數(shù) 和預(yù)測(cè)器系數(shù) ,就能合成出語音。這種結(jié)構(gòu)簡(jiǎn)單而直觀,為了合成一個(gè)語音樣本,需要進(jìn)行p次乘法和p次加法。它合成的語音樣本由下式?jīng)Q定:其中, 為預(yù)測(cè)器系數(shù);G為模型增益; 為激勵(lì);合成語音樣本為 ;p為預(yù)測(cè)器階數(shù)。直接形式的預(yù)測(cè)系數(shù)濾波器結(jié)構(gòu)的優(yōu)點(diǎn)是簡(jiǎn)單、易于實(shí)現(xiàn),所以曾廣泛被采用。其缺點(diǎn)是合成語音樣本需要很高的計(jì)算精度。 另一種合成的形式是采用反射系數(shù) 構(gòu)成的格型合成濾波器。它的合成

12、語音樣本由下式?jīng)Q定:其中,G為模型增益; 為激勵(lì); 為反射系數(shù); 為后向預(yù)測(cè)誤差;p為預(yù)測(cè)器階數(shù)。采用反射系數(shù) 的格型合成濾波器結(jié)構(gòu),雖然運(yùn)算量大于直接型結(jié)構(gòu),卻具有一系列優(yōu)點(diǎn):其參數(shù) 具有 1的性質(zhì),因而濾波器是穩(wěn)定的;同時(shí)與直接結(jié)構(gòu)形式相比,它對(duì)有限字長(zhǎng)引起的量化效應(yīng)靈敏度較低。 在實(shí)際進(jìn)行語音合成時(shí),除了構(gòu)成合成濾波器之外,還必須在有濁音的情況下,將一定基音周期的脈沖序列作為音源;在清音的情況下,將白噪音作為音源。而且,必須進(jìn)行濁音/清音的判別和確定音源強(qiáng)度。對(duì)于基音周期的檢測(cè),采用去掉共振峰影響后的最后一級(jí)殘差信號(hào) (前向預(yù)測(cè)誤差)的自相關(guān)函數(shù)的方式是有效的。這個(gè)殘差信號(hào)的自相關(guān)函數(shù)也

13、叫變形自相關(guān)函數(shù) ,它除了可用來檢測(cè)基音周期之外,也可用來區(qū)別濁音/清音等。在 之后找出 取峰值時(shí)的T,即從n=0開始,搜索基音周期可能存在的315ms的區(qū)間,從而求出這個(gè)周期。圖5 變形自相關(guān)函數(shù)和基音周期檢測(cè)同樣對(duì)于濁音/清音的判別方法,也可以采用誤差信號(hào) 。采用 的一個(gè)方法是利用 這個(gè)比值,如果是濁音的話, 則相當(dāng)于 的一個(gè)極值。所以可以設(shè)定 的比值在0.18以下為清音,在0.25以上為濁音,在這兩個(gè)值之間引入了濁音度V和清音度U的概念,且U+V=1。這時(shí),確定U和V時(shí)要使U+V=1,即如圖8-5所示,在U=1時(shí)為無聲,只用白噪音作為音源。在V=1時(shí),為有聲,使用與音調(diào)周期T同步的脈沖序

14、列作為音源。在 時(shí),常常把對(duì)應(yīng)于 和 的白噪音和脈沖序列的和信號(hào)作為音源。圖6 音源參數(shù)的設(shè)定法對(duì)于音源強(qiáng)度,可以直接使用相當(dāng)于殘差信號(hào)能量的 ,即采用 值。用這種方法構(gòu)成PARCOR分析合成濾波器的整個(gè)結(jié)構(gòu)如圖7所示。圖7 PARCOR分析合成濾波器性能分析:LPC合成技術(shù)的優(yōu)點(diǎn)是簡(jiǎn)單直觀。其合成過程實(shí)質(zhì)上只是一種簡(jiǎn)單的解碼和拼接過程。另外,由于波形拼接技術(shù)的合成基元是語音的波形數(shù)據(jù),保存了語音的全部信息,因而對(duì)于單個(gè)合成基元來說能夠獲得很高的自然度。但是,由于自然語流中的語音和孤立狀況下的語音有著極大的區(qū)別,如果只是簡(jiǎn)單地把各個(gè)孤立的語音生硬地拼接在一起,其整個(gè)語流的質(zhì)量勢(shì)必是不太理想的。

15、而LPC技術(shù)從本質(zhì)上來說只是一種錄音重放,對(duì)于合成整個(gè)連續(xù)語流LPC合成技術(shù)的效果是不理想的。因此,LPC合成技術(shù)必須和其他技術(shù)相結(jié)合,才能明顯改善LPC合成的質(zhì)量。3、規(guī)則合成基本原理:規(guī)則合成方式通過語音學(xué)規(guī)則來產(chǎn)生目標(biāo)語音。規(guī)則合成系統(tǒng)存儲(chǔ)的是較小的語音單位(如音素、雙音素、半音節(jié)或音節(jié))的聲學(xué)參數(shù),以及由音素組成音節(jié)、再由音節(jié)組成詞或句子的各種規(guī)則。當(dāng)輸入字母符號(hào)時(shí),合成系統(tǒng)利用規(guī)則自動(dòng)地將它們轉(zhuǎn)換成連續(xù)的語音波形。由于語音中存在協(xié)同發(fā)音效應(yīng),單獨(dú)存在的元音和輔音與連續(xù)發(fā)音中的元音和輔音不同,所以,合成規(guī)則是在分析每一語音單元出現(xiàn)在不同環(huán)境中的協(xié)同發(fā)音效應(yīng)后,歸納其規(guī)律而制定的如共振峰

16、頻率規(guī)則、時(shí)長(zhǎng)規(guī)則、聲調(diào)和語調(diào)規(guī)則等。由于語句中的輕重音,還要?dú)w納出語音減縮規(guī)則。算法簡(jiǎn)介: 規(guī)則合成方法中具有代表性的算法是:基音同步疊加技術(shù)(PSOLA),該方法既能保持所發(fā)音的主要音段特征,又能在拼接時(shí)靈活調(diào)整其它基頻、時(shí)長(zhǎng)和強(qiáng)度等超音段特征。核心思想:直接對(duì)存儲(chǔ)與音庫的語音運(yùn)用PSOLA算法來進(jìn)行拼接,從而整合成完整的語音。PSOLA算法在前述波形編輯合成作過詳細(xì)的分析,這里不再贅述。性能分析:規(guī)則合成法是一種高級(jí)合成法。規(guī)則合成法通過語音學(xué)規(guī)則產(chǎn)生語音,合成的詞匯表不是事先確定,系統(tǒng)中存儲(chǔ)的是最小的語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調(diào)

17、、輕重等韻律的各種規(guī)則。給出待合成的字母或文字后,合成系統(tǒng)利用規(guī)則自動(dòng)的將他們轉(zhuǎn)換成連續(xù)的語音聲波。這種方法可以合成無限詞匯的語句。 在語音波形片斷拼接之前,首先根據(jù)語義,用PSOLA算法對(duì)拼接單元的韻律特征進(jìn)行調(diào)整,使合成波形既保持了原始語音基元的主要音段特征,又使拼接單元的韻律特征符合語義,從而獲得很高的可懂度和自然度??偨Y(jié)本學(xué)期選修語音信號(hào)處理這門課程,學(xué)習(xí)了語音信號(hào)處理的基礎(chǔ)、概念、原理、方法及應(yīng)用,同時(shí)了解了一定的背景知識(shí)、發(fā)展概況、研究現(xiàn)狀、應(yīng)用前景和發(fā)展趨勢(shì)與方向。本調(diào)查報(bào)告圍繞語音信號(hào)合成技術(shù)這一課題,進(jìn)行一定的分析討論與擴(kuò)展,以此作為本門課程的總結(jié)。不敢妄談見解,謹(jǐn)以所學(xué)內(nèi)容

18、加以總結(jié)與梳理、搜集相關(guān)文獻(xiàn)加以提煉與編纂。其中難免錯(cuò)誤與疏漏之處,亦難免認(rèn)識(shí)膚淺、總結(jié)不到位之處,還望老師指正。由人工通過一定的機(jī)器設(shè)備產(chǎn)生出語音稱為語音合成。語音合成是人機(jī)語音通信的一個(gè)重要組成部分。語音合成研究的目的是制造一種會(huì)說話的機(jī)器,它解決的是如何讓機(jī)器象人那樣說話的問題,使一些以其它方式表示或存儲(chǔ)的信息能轉(zhuǎn)換為語音,讓人們能通過聽覺而方便地獲得這些信息。語音合成技術(shù)經(jīng)歷了一個(gè)逐步發(fā)展的過程,從參數(shù)合成到拼接合成,再到兩者的逐步結(jié)合,其不斷發(fā)展的動(dòng)力是人們認(rèn)知水平和需求的提高。早期的被形編輯技術(shù)并沒有用于語言合成,因?yàn)樗荒芑胤乓魩熘斜4娴臇|西。而任何一個(gè)語音單元在實(shí)際語流中都會(huì)隨著語音環(huán)境的變化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論