畢業(yè)設計（論文）基于共振峰合成法的語音信號合成

上傳人：灰*** IP屬地：寧夏上傳時間：2021-10-13 格式：DOC 頁數(shù)：32 大?。?56KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

1、江西師范大學 2006 屆本科畢業(yè)生論文題目題目: :基于共振峰合成法的語音信號合成基于共振峰合成法的語音信號合成title:title: synthesissynthesis ofof speechspeech signalsignal basedbased onon formantformant synthesissynthesis學校名稱：學校名稱：江西師范大學江西師范大學院系名稱：院系名稱：物理與通信電子學院物理與通信電子學院學生姓名：學生姓名：學生學號：學生學號：0 0 專專業(yè)：業(yè)：通信工程通信工程指導老師指導老師) ) 聲明本人鄭重聲明：所呈交的畢業(yè)設計（論文）是本人在指導

2、教師指導下進行的研究工作及取得的研究成果。其中除加以標注和致謝的地方外，不包含其他人已經(jīng)發(fā)表或撰寫并以某種方式公開過的研究成果，也不包含為獲得其他教育機構(gòu)的學位或證書而作的材料。其他同志對本研究所做的任何貢獻均已在文中作了明確的說明并表示謝意。本畢業(yè)設計（論文）成果是本人在江西師范大學讀書期間在指導教師指導下取得的，成果歸江西師范大學所有。特此聲明。聲明人（畢業(yè)設計（論文）作者）學號：聲明人（畢業(yè)設計（論文）作者）簽名：簽名日期：年月日目錄摘摘要要 -1abstract -2引引言言 -31 語音合成進展語音合成進展-32 共振峰合成共振峰合成-42.1 共振峰產(chǎn)生原理-42.2 激勵

3、模型-52.3 共振峰合成三種聲道模型-62.3.1級聯(lián)型共振峰模型-62.3.2并聯(lián)型共振峰模型-72.3.4混聯(lián)型共振峰模型-92.4 輻射模型-92.5 語音信號綜合數(shù)字模型-103 matlab 軟件合成軟件合成 -103.1 軟件概述-103.2 提取語音信號的共振峰參數(shù)-113.2.1用頻域分析提取參數(shù)-113.3 基于參數(shù)的共振峰合成-143.3.1固定共振峰不同發(fā)音狀態(tài)的語音信號的合成-153.3.2變化共振峰的不同狀態(tài)語音信號的合成-183.4 基于參數(shù)修改的語音轉(zhuǎn)換-23總結(jié)總結(jié) -26參考文獻參考文獻 -27致謝致謝 -28摘要語音合成是（定義）,目前語音處理中研究最

4、成熟(刪除)、應用最廣泛的技術。它可以用多種方法實現(xiàn)，其中共振峰合成法是一種基于規(guī)則的聲源-聲道模型合成法。它側(cè)重于對聲道諧振特性的模擬以及準確地提取共振峰參數(shù)。共振峰合成法的特點在于以共振峰為控制參數(shù)，要求在輸出終端上模擬出實際語音的譜特征。本文主要內(nèi)容大概(刪除)分為三個部分：一,在理論分析的基礎上，提取語音庫里的兩個不同性別的人發(fā)相同語音的共振峰參數(shù)；二,基于激勵的lp 模型,以第一階段提取出來的共振峰參數(shù)構(gòu)成聲道模型,合成五種不同發(fā)音狀態(tài)的語音；三是完成男子向女子發(fā)音的轉(zhuǎn)換,合成之后再對合成信號和原來信號的語譜圖進行分析比較，不斷地修正合成的各項參數(shù)，最后得到質(zhì)量較高的合成語音?！娟P

5、鍵詞】共振峰合成、特征參數(shù)、matlab 語音工具箱abstract speech synthesis is now one kind of advanced method which has been widely used in speech processing. it can be realized by various means, in which formant synthesis is one mature approach featuring source-filter model synthesis based on principles. this synthesis

6、focuses on the simulation of the characteristics of vocal formant and getting formant parameters precisely. the dissertation(paper)l comprises three main parts: the first one is the gain of formant parameters for speeches, which are from the speech-ware spoken by a man and a woman differently; the s

7、econd part is to synthesize five different speech pronunciations, and then to use the formant parameters derived in the first phase as the formant excitation, while also these five different speech pronunciations as source excitation; the third part is to finish the conversion of a males voice to it

8、s corresponding females voice. so this paper will also try to analyze and compare the spectrum figure between the synthesized speech and the initial speech signal. and then it will modify every parameter that is needed for the application of a high quality synthesis speech signal, compared with the

9、initial input speech signal. key words formant synthesis, characteristic parameters, matlab toolbox for speech synthesis引言語音是人類交流時使用最多、最自然、最基本同時也是最重要的信息載體。它的產(chǎn)生包括一系列的心理和生理反應。目前對語音信號的研究主要基于它的數(shù)字表示，其基礎是抽樣定理。語音處理在現(xiàn)代社會中應用極為廣泛，它的廣泛應用表現(xiàn)在: 語 1、語音編碼：最重要的一種應用，用低比特率獲得盡可能高的合成質(zhì)量音 2、語音識別：將語音轉(zhuǎn)換成等價的書面信息，讓計算機聽懂人說話

10、處 3、說話人識別：根據(jù)話音辨別說話人，提取說話人的特征理 4、語音理解：利用知識表達和應用人工智能技術進行語句識別和理解應 5、語音合成：讓計算機說話，實現(xiàn)人機通信用 6、語音增強：對帶噪語音進行處理，達到降低噪聲影響的效果在高度信息化的今天，這些語音處理的一系列技術及其應用已經(jīng)成為信息社會不可缺少的組成部分。而其中語音合成技術的研究相對要成熟一些，也是語音信號處理領域最有可能產(chǎn)生突破并進而實現(xiàn)產(chǎn)業(yè)化的一項技術。目前國際國內(nèi)對其研究主要著重在提高合成語音的自然度，豐富合成語音的表現(xiàn)力，降低語音合成技術的復雜度以及多語種文語合成等四方面。選擇這個項目作為研究對象，具有一定的現(xiàn)實意義,這

11、表現(xiàn)在:首先,能夠加強對共振峰合成法的基本的理論分析的認識;其次,能夠?qū)W習掌握 matlab 語音工具箱軟件的應用以及進行再處理工作;最后,能夠使自己在加強學習的同時，了解到當前國內(nèi)外語音合成技術研究的最新成果并及時吸收1 語音合成進展語音合成進展上個世紀，在人們的努力下，語音合成已經(jīng)可以比較成熟的實現(xiàn)有限詞匯的合成，但是大量詞匯的語音合成，以及合成音質(zhì)的改善還比較難?，F(xiàn)階段語音合成的最大進展是已經(jīng)能夠?qū)崟r地將任意文本轉(zhuǎn)換成連續(xù)可懂的自然語句輸出，相應技術通常稱為文語合成或文語轉(zhuǎn)換(tts)。tts 使得數(shù)據(jù)通信和語音通信在終端一級實現(xiàn)交融，人們將有望在獲取 internet 信息時，使短消

12、息服務、電子郵件等多數(shù)以文本方式提供的信息也用語音的方式輸出。綜觀語言合成技術的研究已有二百多年的歷史，但是真正有實用意義的近代語音合成技術是隨著計算機技術和數(shù)字信號處理技術的發(fā)展而發(fā)展起來的，主要是讓計算機能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。80 年代以前，國際上語音合成的研究主要集中在按規(guī)則文語轉(zhuǎn)換，早期的研究主要是采用參數(shù)合成方法。如 holmes 并聯(lián)共振峰合成器（1973）和 klatt 串/并聯(lián)共振峰合成器（1980）。自八十年代末期至今，語言合成技術又有了新的進展，特別是基音同步疊加（psola）方法的提出（1990），使基于時域波形拼接方法合成的語音的音色和自然度大大提

13、高。九十年代初，基于 psola 技術的法語、德語、英語、日語等語種的文語轉(zhuǎn)換系統(tǒng)都已經(jīng)研制成功。這些系統(tǒng)的自然度比以前基于lpc 方法或共振峰合成器的文語合成系統(tǒng)的自然度要高，并且基于 psola 方法的合成器結(jié)構(gòu)簡單易于實時實現(xiàn)，有很大的商用前景。國內(nèi)的漢語語音合成研究起步較晚些，但從八十年代初就基本上與國際上研究同步發(fā)展。大致也經(jīng)歷了共振峰合成、lpc 合成至應用 psola 技術的過程。70 年代末和 80 年代初，我們語言所和中科院聲學所都初步研制出了各自的普通話語音合成系統(tǒng)。90 年代初，基于數(shù)據(jù)驅(qū)動的語音合成技術出現(xiàn)，使得語音合成系統(tǒng)走向了實用。如目前國內(nèi)有以語音合成為主的語音

14、技術公司科大訊飛公司。這些系統(tǒng)基本上都是采用基于 psola 方法的時域波形拼接技術，但是畢竟已經(jīng)在信息咨詢?nèi)?168 聲訊臺、短訊播報等平臺使用了。在國家 863 計劃，國家自然科學基金委，國家攻關計劃，中國科學院有關項目等支持下，漢語文語轉(zhuǎn)換系統(tǒng)研究近年來取得了令人舉目的進展，其中不乏成功的例子：如中國科學院聲學所的 kx-psola（1993）,聯(lián)想佳音（1995）；清華大學的th_speech(1993)；中國科技大學的 kdtalk（1995）等系統(tǒng)。這些系統(tǒng)基本上都是采用基于 psola 方法的時域波形拼接技術，其合成漢語普通話的可懂度、清晰度達到了很高的水平。2 共振峰合成共振

15、峰合成2.1 共振峰產(chǎn)生原理共振就是當空腔作受迫振動，使激勵頻率等于腔的固有頻率，那么空腔便以最大振幅作振蕩。共振體的作用通常不是在一個固有頻率上作用，可能有多個強度不同的共振頻率。聲道管的共振頻率（諧振頻率）稱為共振峰頻率，簡稱為共振峰。人在說話時，聲道是一個分布的參數(shù)系統(tǒng)，是一個諧振腔。舌和唇的連續(xù)運動常常會改變聲道的外形和尺寸，從而改變諧振頻率。聲道和鼻道均可看作是非均勻截面的聲道管。共振峰的值與發(fā)生器官的確切位置有很大的關系，即與聲道的大小和形狀有關系，每種形狀的聲道都有一套共振峰頻率作為其特征。當聲音沿著聲道傳播時，頻譜形狀會隨聲道改變。因為聲門脈沖序列具有豐富的諧波成分，這些頻率

16、成分聲道的共振頻率之間相互作用的結(jié)果對語音質(zhì)量影響很大。由于聲道的大小隨不同的講話人不同，所以共振峰頻率對判別不同的說話人來說非常重要。共振峰頻率由低到高的排列依次為第一、二、三共振峰，一般來說，在濁音中可以辨認的共振峰有 5 個，前 3 個對區(qū)別不同說話者的語音來說至關重要。雖然就語音的基音頻率而言是女聲和童聲高于男聲,但是實驗表明:區(qū)分語音是男聲還是女聲、是成人聲音還是兒童聲音,更重要的因素還是共振峰頻率的高低.共振峰特性與發(fā)音機制有關.例如第一共振峰 f1 與舌位高低(即舌在嘴的上下)有關,這表現(xiàn)為舌位越高, f1越低；舌位越低，f1 越高。第二共振峰 f2 與舌位前后的位置有密切關系；

17、這表現(xiàn)為舌位越靠前，f2 就越高；舌位越靠后，f2 就越低。第三共振峰 f3 受舌尖活動影響較大，這表現(xiàn)在舌尖抬高卷起時，f3 就明顯下降。研究顯示，不同人群的共振峰頻率分布范圍變化很大，如下表 1 所示:表 1 不同人群的共振峰頻率分布范圍共振峰合成數(shù)字模型的建立對于語音處理具有極重要的意義。一般處理過程都是采用數(shù)字信號處理的方法，將人類發(fā)聲過程看作是一個模擬聲門狀態(tài)的源，去激勵一個表征聲道諧振特性的時變數(shù)字濾波器，這個源可能是周期脈沖序列，它代表濁音情況下的聲帶振動，或者是隨機噪聲序列，代表不出聲的清音、調(diào)整濾波器的參數(shù)等效于改變口腔及聲道形狀，達到控制發(fā)不同音的目的，而調(diào)整激勵源脈沖序

18、列的周期或強度，將改變合成語音的音調(diào)、重音等。因此，只要正確控制激勵源和濾波器參數(shù)（一般每隔 1030ms 送一組），這個模型就能靈活地合成出各種語句來。對發(fā)音器官和語音產(chǎn)生機理的分析，可以將語音生成系統(tǒng)分成三個部分:在聲帶以下負責產(chǎn)生激勵振動,稱為激勵模型；從聲門到嘴唇的呼氣通道是聲道系統(tǒng),即聲道模型；從語音到嘴唇輻射出去的子系統(tǒng)是輻射系統(tǒng)。下面分別就這三個系統(tǒng)簡單介紹共振峰合成的數(shù)學模型2.2 激勵模型對于聲源模型，它的激勵源采用清音與濁音相結(jié)合的方式。濁音源為一組周期性的脈沖波形，清音激勵源采用高斯白噪聲。濁擦音采用周期性沖激調(diào)制的白噪聲激勵源分為濁音和清音兩種。其中濁音由于在產(chǎn)生過

19、程中聲帶的不斷張開和關閉，將會產(chǎn)生間歇的脈沖波。它類似于一個斜三角波脈沖。表示如下：在上式中，為斜三角波上升部分的時間，為其下降部分的時間。單1n2n個斜三角波是一個低通濾波器，它的變換的全極模型形式是：z 是一個常數(shù)。上式表示斜三角形可描述為一個二極點的模型c清音的激勵信號由隨機噪聲發(fā)生器產(chǎn)生，因為發(fā)清音時，無論是發(fā)阻塞音還是摩擦音，聲道都被阻礙成湍流。設其平均值為 0，其自相關函數(shù)是一個單位沖激函數(shù)。2.3 共振峰合成三種聲道模型關于聲道部分的數(shù)學部分，目前最流行的有兩種建模方法：聲管模型和共振峰模型。前者把聲管視為由多個等長的不同截面積的管子串聯(lián)而成的系統(tǒng)；后者把聲道視為一個諧振腔。發(fā)

20、音時候因為聲道形狀很少是均勻斷面的，所以還須研究如何從語音信號求出共振峰的方法。共振峰參數(shù)除了共振峰頻率外，還包括共振峰帶寬和幅度?；谖锢砺晫W的共振峰理論，可以建立起三種使用的共振峰模型：級聯(lián)型、并聯(lián)型和混聯(lián)型10。2.3.1 級聯(lián)型共振峰模型級聯(lián)型模型下認為聲道是一組串聯(lián)的二階諧振器。對于一般元音，用全極點模型模擬就可以了，因為此時的零點可以由多個極點模擬。由此可以導出，多數(shù)情況下聲道模型的傳輸函數(shù) v（z）是一個全極點函數(shù)10：在上式中，n 是極點的個數(shù)，g 是幅值因子，是常系數(shù)。那么此時上式ka可以分解為多個二階極點的網(wǎng)絡串聯(lián)。即表示成：或者表示成其中式中 m 是小于（n+1）

21、/2 的整數(shù)。假如 n 取 10，則 m=5 ，該模型可以表示成如下圖 1 的圖片：圖 1 級聯(lián)型共振峰模型2.3.2 并聯(lián)型共振峰模型一般來說，級聯(lián)型比較簡單，可以用于描述一般的元音。級聯(lián)的級數(shù)取決于聲道的長度，一般成年人的聲道長度約為 17cm，取 35 級就可以。當鼻化元音或鼻腔參與共振，以及阻塞音或摩擦音等情況時候，級聯(lián)型就不能勝任了。這時的腔體具有反諧振特性，必須考慮加入零點，使之成為零極點模型。那么這個時候就需要采用并聯(lián)型結(jié)構(gòu)了，它比級聯(lián)型復雜些，每個諧振器的幅度都要獨立地給以控制。此時聲道模型的傳輸函數(shù)可以表示為：t ，通常，式中，由于系數(shù)是實數(shù)，所以其它系數(shù)都nm122nnn,

22、kka b是實數(shù)。它的簡單并聯(lián)結(jié)構(gòu)可以表示為以下圖 2：圖 2 并聯(lián)型基本結(jié)構(gòu)所以，結(jié)合了激勵模型和輻射模型的并聯(lián)型共振模型圖如下圖 3 所示：圖 3 并聯(lián)型共振峰模型并聯(lián)型可以通過調(diào)整傳輸系數(shù)的辦法來單獨調(diào)整一對極點的位置，但是不能像串聯(lián)型那樣單獨調(diào)整零點的位置。因此一般在要求準確傳輸零點的場合下，適宜采用并聯(lián)型結(jié)構(gòu)5。2.3.4 混聯(lián)型共振峰模型將級聯(lián)模型和并聯(lián)模型結(jié)合起來的混合模型是比較完備的一種共振峰模型。它根據(jù)要描述的語音，自動地進行切換。圖中的并聯(lián)部分，從第一到第三個共振峰的幅度都可以獨立地進行控制和調(diào)節(jié)，用于模擬輔音頻譜特性中的能量集中區(qū)。此外，并聯(lián)部分還有一條直通路徑，它的幅

23、度控制因子為 ab，這是專門為一些頻譜特性比較平坦的音素考慮設計的10。混合型結(jié)構(gòu)可以得到更加完善的模型共振峰合成法的關鍵是準確提取共振峰參數(shù)。從自然語音中提取共振峰參數(shù)最簡便的方法是使用語譜圖，采用頻域處理、同態(tài)處理、lpc 技術也能很好地估計共振峰參數(shù)。這種結(jié)構(gòu)如下圖 4 混聯(lián)型共振峰模型所示圖 4 混聯(lián)型共振峰模型2.4 輻射模型輻射模型與嘴型有關，一般可以表示為( )r z1( )1r zrz 在這里式子的系數(shù) r 接近于 1。2.5 語音信號綜合數(shù)字模型綜上所述，完整的語言信號產(chǎn)生的數(shù)學模型應該包含三個子模型：激勵模型、聲道模型和輻射模型。如下圖 2 所示圖 4 語言信號產(chǎn)生數(shù)學模型

24、3 matlab 軟件合成軟件合成3.1 軟件概述matlab 語音工具箱 speechgui-matlabrt（speech graphic user interface for matlab runtime server），即為 matlab 實時服務器應用的語音信號圖形用戶界面。它是在 matlab7.0 版本的基礎上應用的一種專門的語音合成軟件。這套軟件提供了功能強大的語音信號處理應用。它可以對語音信號進行語音分析（包括時域分析、頻域分析、波譜分析、線性預測分析、移動平均分析、聲門轉(zhuǎn)換濾波器、倒譜分析等），數(shù)據(jù)和測量，線性預測法語音合成，共振峰語音合成等等相當多的應用。更為重要的

25、是，它還為軟件實現(xiàn)共振峰合成提供了友好可懂的 gui（圖形用戶界面），它使得用戶在友好的使用界面的提示下一步步進行語音合成操作，允許用戶把文件里包含的語音庫聲音文件進行合成，進而對合成信號與原來信號進行語音分析，比較合成之后的語音信號與原來的語音信號兩者的效果，然后修改共振峰合成所需的參數(shù)，再與原信號對比，改善合成音質(zhì)效果，最終合成較高質(zhì)量的語音信號在得到高質(zhì)量的語音合成過程中的關鍵因素之一就是對語音信號經(jīng)過精確的分析過程,提取合成參數(shù)。在早期，這個過程大部分都是利用聲門語音信號來決定共振峰參數(shù)的。其中另外一個重要的因素就是激勵源波譜的設計。matlab語音合成專用工具箱就是為了解決這個問題

26、設計出來的?？偟膩碚f，在目前，主要有兩種：一種是級聯(lián)/并聯(lián)型（1980 年由 klatt提出并設計），一種是并聯(lián)型（1982 年由 rye 和 holmes 設計）。雖然在目前對于哪種結(jié)構(gòu)是更好的合成結(jié)構(gòu)尚有爭議，但是一般認為，klatt 模型對于文本語音合成比較適用，而 holmes 模型更多的應用于分析合成系統(tǒng)。這種區(qū)分的原因更多的是來自于這兩種合成方法的不同的控制系統(tǒng)和合成部分的不同來源。共振峰參數(shù)（頻率、幅度、帶寬、可以以數(shù)字濾波器件的形式實現(xiàn)），而組成共振峰合成器的激勵源和波譜形成網(wǎng)絡則是隨著聲音信號產(chǎn)生過程時的聲源特性和聲道形狀而動態(tài)改變的。也就是說，這是一種無法預料的動態(tài)的

27、隨機變化。但是因為這種變化相對來說發(fā)生得很慢，所以這就為我們使用一組固定的合成器參數(shù)來區(qū)分一小段特定的語音信號（幀）。這種可能有助于減少所需用于代替語音信號的數(shù)據(jù)量。3.2 提取語音信號的共振峰參數(shù)本文以兩段男、女聲信號/iy/為例進行共振峰參數(shù)的提取具體過程如下：3.2.1 用頻域分析提取參數(shù)1、進入語音信號“分析”主菜單，點擊“文件”命令，在“導入”命令中將語音文件“m0203s.dat” ，即元音信號男聲/iy/導入，并且顯示。如圖 5 顯示圖 5 語音信號/iy/時域波形2、再在分析主菜單里選擇“聲門轉(zhuǎn)換濾波器”命令，在“參數(shù)”設置里面，選中“標志之間” ，然后立刻在“聲門轉(zhuǎn)換濾波器

28、”主菜單中選擇“基音同步” ，截取一段語音信號后進行分析。如下圖 6 和圖 7 所示圖 6 共振峰頻率和帶寬圖 7 聲道模型的濾波器特性 3、在圖 6 修改共振峰和頻率的各項參數(shù)，使得圖 7 中的最上面一條曲線，即聲道模型頻率響應的殘余度顯示，它趨于平滑，表示提取的共振峰參數(shù)越與實際的共振峰參數(shù)誤差越小4、重復上面的第三步的動作，直到有提示信息“人工聲門轉(zhuǎn)換濾波器已經(jīng)完成”出現(xiàn)，此時將展現(xiàn)包含有共振峰頻率和帶圖 8 男子發(fā)音基音和共振峰頻率等高線寬參數(shù)的圖 8。 4、從上圖圖 8 中讀取共振峰頻率和帶寬，基音周期等參數(shù)。即遵循共振峰頻率等于某一個等高線的最大值與最小值之間的均值，共振峰帶寬等

29、于兩者之間的差值的原則，基音頻率則等于圖 8 中最下面一條等高線對應的縱坐標的頻率值。依照同樣的方法，我們可以從一個由女聲發(fā)出的/iy/音提取各個共振峰參數(shù)。如圖 9，由此可以讀得該男子和女子發(fā)/iy/音的各個共振峰參數(shù)是如下表 2 所示：圖 9 女子發(fā)音基音和共振峰頻率等高線表 2 該男子和女子發(fā)/iy/音的各個共振峰參數(shù)3.3 基于參數(shù)的共振峰合成合成一個語音文件要用到語音處理菜單中的“合成”命令。在進入了主菜單之后，選擇“共振峰”命令，則進入共振峰合成的主菜單。在這里要合成一個語音信號，我們需要兩個參數(shù)：信號源和共振峰參數(shù)。信號源可以在系統(tǒng)給出的參數(shù)基礎上進行修改得到，也可以調(diào)入一

30、個語音庫里原有的語音信號。下面說明具體的操作過程。這個部分分兩個階段進行，一個是合成六種不同發(fā)音狀態(tài)的語音信號：抒情音、尖銳音、呼吸音、低語音、假音、刺耳音。另一個是利用上一步共振峰參數(shù)提取獲得的參數(shù)去分別調(diào)整這六種聲音，觀察效果。3.3.1 固定共振峰不同發(fā)音狀態(tài)的語音信號的合成這個階段主要是利用修改源信號的各項參數(shù)，不變共振峰參數(shù)，觀察合成的效果有何不同，具體過程如下：圖 10 源規(guī)范參數(shù)設置窗口1、進入合成主菜單里，選擇“源規(guī)范” ，然后在“源規(guī)范”里點擊“修改新的源激勵” 。設置五種音調(diào)的幀截取長度均為 21，確定之后點擊“修改特定源激勵” ，進入?yún)?shù)修改界面，如上圖圖 10 所示，

31、它對應的時域波形和零極圖如下圖 11 所示圖 11 時域波形和零極圖2、然后點擊“應用于所有”和“完成”命令，再回到源設置界面中將該源激勵信號保存在共振峰合成的目錄下面。這里設置的參數(shù)包括，pt，各個參數(shù)的介紹如下：ctatet1amp2ampoffsetdur：最大的聲門流量瞬時比例值。pt：結(jié)束聲門閉合要達到的比例值。ct：聲門第二段的時間常量的比例值at：最大負微分聲門流量的瞬時比例值。et按照流體力學可以相關理論知識可以得出結(jié)論，必須使0,且ctetptat0，才能使這些參數(shù)在算法中有效。：加噪中的第一調(diào)制參數(shù)比例值1amp：加噪中的第二調(diào)制參數(shù)比例值2amp：加噪的持續(xù)時間長度比例

32、offset1amp：加噪的持續(xù)時間長度比例dur2amp這六種不同狀態(tài)的語音信號合成所需要的參數(shù)包含在表 2 當中：表 2 合成六種不同狀態(tài)的語音信號合成所需要的參數(shù)2、完成上述兩步驟后，在主合成菜單里調(diào)入一個系統(tǒng)默認值的共振峰設置，保存其為共振峰激勵，然后點擊“合成” ，就合成了如圖12 的抒情語音的信號：圖 12 抒情語音信號3、合成后，重復以上步驟，按照表二里面的參數(shù)進行逐一合成，然后將所有合成的信號全部表現(xiàn)出來（步驟大概一致，且不能全部顯示，故只選抒情、尖音、呼吸、假音四個），如圖 13 圖 13 抒情、尖音、呼吸、假音合成顯示波形3.3.2 變化共振峰的不同狀態(tài)語音信號的合成

33、上面演示的例是用系統(tǒng)提供的參數(shù)設置為基礎，利用幾種不同數(shù)值設置的方法來合成幾種語音信號?，F(xiàn)在探討在改變共振峰參數(shù)，即利用 3.2 中分析得到的共振峰參數(shù)來設置共振峰激勵源，合成語音信號的具體步驟：1、同樣是進入上一個例子的合成主菜單里面。不同的是在設置源規(guī)范時，使用的是導入的語音文件，先將男聲發(fā)的/iy/導入合成。如圖 14 所示，圖 14 導入要分析的語音文件將文件導入后，點擊“修改指定源激勵”可看到如圖 15 看到的系統(tǒng)自動生成的語音源文件信息和波形圖 15 系統(tǒng)自動生成的語音源文件信息和波形2、再重復上面相類似的步驟，把該 data 格式的文件保存在合成專用文件路徑下面,即將原來進行

34、共振峰合成產(chǎn)生的“source.dat”文件覆蓋掉3、設置好了源激勵后，再設置共振峰激勵。同樣類似上面的共振峰激勵生成方法。不過在“修改指定共振峰”里，必須設置共振峰參數(shù)如圖 16 和圖 17。這些參數(shù)就是第一節(jié)操作里提取的男聲共振峰頻率和帶寬，但是因為系統(tǒng)的這些參數(shù)只有五對，第六對頻率和帶寬是估計的值。即按照前幾個數(shù)值的分布變化，進行線性推導。得出數(shù)值。4、圖 16 參數(shù)設置圖 17 合成信號5、設置好參數(shù)后，點擊合成主菜單里面的“合成命令” 。得出如圖 17的合成信號，在這里，我們可以很清楚地看到，語音信號與合成之后的信號波形比較接近（這可以通過二者的語譜圖看出來，如圖18 顯示），

35、如圖 18 顯示，上面的是激勵波的語譜圖，下面是合成信號的語譜圖說明合成的音質(zhì)不錯。圖 18 男子合成信號與原始信號的語譜圖6、做完男子的語音合成之后，我們再做女子發(fā)的語音的合成。操作步驟類似男子的語音合成。合成之后的效果如圖 19 所示圖 19 女子合成信號與原始信號的語譜圖7、我們再試試用上面合成的六個不同狀態(tài)的語音信號做源激勵信號，而用男子和女子的發(fā)音信號提取的共振峰參數(shù)作為共振峰激勵信號。先按照上面的類似步驟合成男子語音的共振峰參數(shù)加上抒情類語音。合成效果如下圖 20：圖 20 男子共振峰參數(shù)和抒情語音的合成效果8、從上面可以看出，合成效果不如圖 18 和圖 19 的語音信號。因

36、為這里所用的共振峰參數(shù)不是從源激勵語音信號中提取的。9、重復上面的第七步類似步驟，將源激勵信號換成其它五個不同狀態(tài)的信號，觀察效果3.4 基于參數(shù)修改的語音轉(zhuǎn)換在這部分要實現(xiàn)的是語音庫里的兩段語音（一個是男的，一個是女的）發(fā)同一段聲音的轉(zhuǎn)換。也就是把女的聲音用男的聲音來代替，看看男的聲音代替得像不像女的發(fā)出的聲音，具體操作過程如下：1、進入語音轉(zhuǎn)換菜單里面，先對語音信號進行分析。在“分析”菜單里的“規(guī)范”里面，對語音的分析規(guī)范進行設置，如圖 21：圖 21 語音的分析規(guī)范在這里，必須將語音的聲道模型（圖中的下拉菜單）選擇為“共振峰” 。然后源模型設置為“簡化 lf 模型” ，完了之后返回。2

37、、載入一段語音信號，在這里我們載入的是女子發(fā)音的“we were away a year ago.” ，如圖 22 所示圖 22 “we were away a year ago.”的女子時域波形3、載入后在分析菜單欄里，我們先后對語音信號做“執(zhí)行” ， “語音類別修正” ， “gcis 核查” ， “共振峰軌跡核查” ，完成后保存4、在“改正”菜單里，我們先后做“語音類別修正” ， “gcis 核查” ，“共振峰軌跡核查” ，完成后保存5、然后進入“修正”里的“語音轉(zhuǎn)換”命令里面，在對其它所有值保留缺省設置的情況下，將目標語音位為女子的已經(jīng)處理過了的.mat格式文件，源語音設為男子的語音，

38、點“應用” 。然后保存為一個“conversion”的文件6、再在主菜單欄里點擊“合成” ，就會顯示如圖 23 顯示的男子轉(zhuǎn)換女子語音“we were away a year ago.”的效果圖出來。圖 23 語音轉(zhuǎn)換效果圖總結(jié)總結(jié)（一）由上面可以看出，在選用頻域分析得出的參數(shù)進行共振峰合成時，合成效果并不是很明顯。很顯然這主要的問題在于不能高效地得到共振峰參數(shù)，原因分析有：1、在對圖 6 共振峰頻率和帶寬的數(shù)值進行修改以得到圖 7 比較平滑的濾波器特性過程中，無法精確地將曲線變成很平滑。而且由于在圖中每一幀的取樣點數(shù)是 256 個，在有 10000 個抽樣點的情況下，我們必須做三十多次類似

39、的操作。這是在無法實現(xiàn)的。2、在對圖 8 男子發(fā)音基音和共振峰頻率等高線的共振峰參數(shù)的讀取上，因為縱坐標沒有精確的對應尺度，無法準確讀取共振峰參數(shù)，這直接導致了我們在合成過程中共振峰參數(shù)的不精確。3、這是一個元音信號的合成，理論上我們應該用全極點模型進行模型聲道特性，但是軟件在算法實現(xiàn)中只能是用一些零點極點模型去逼近，不可能做到完全的極點模型，所以也存在著誤差。（二）我們可以看到，在第三部分男子轉(zhuǎn)換女子的聲音效果上，合成音質(zhì)并不是十分地好，分析原因有以下幾個方面：1、系統(tǒng)是將女子的參數(shù)進行修正，包括語音類型修正、聲門閉合常量修正和共振峰軌跡修正等，這些修正都是在不是很精確的情況下進行的。語音類

40、型修正中，要把周期性的時域波形由清音信號修正為濁音信號；聲門閉合常量修正中，要增加或者刪除聲門閉合常量，來達到使其圖象平滑的效果；共振峰軌跡的修正則要求我們按照在“分析”里面得到的共振峰等高線波形的輪廓進行修正。這些修正的精度無法有效保障，直接導致了語音轉(zhuǎn)換效果的不理想。2、系統(tǒng)本身的算法是基于一個模型的逼近上的，即是用一個全極點模型去逼近一個零極點模型，這會帶來一定的誤差。語音轉(zhuǎn)換的不理想也正反過來說明了系統(tǒng)誤差的存在。參考文獻參考文獻1 d.g.childers. matlab 之語音處理與合成工具箱m.北京：清華大學出版社，2004.45.2 張雄偉，陳亮，楊吉斌.現(xiàn)代語音信號處理技術及應用m.北京：機械工業(yè)出版社，2003.3 凡桑塔, j.p.h.語音合成 m.北京：機械工業(yè)出版社, 2005 5 程佩青.數(shù)字信號處理m. 北京：清華大學出版社,2005.6 趙勝輝.離散時間語音信號處理原

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

畢業(yè)設計（論文）基于共振峰合成法的語音信號合成

文檔簡介

溫馨提示

最新文檔

評論

畢業(yè)設計（論文）基于共振峰合成法的語音信號合成

文檔簡介

溫馨提示

最新文檔

評論

相關文檔