版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、江西師范大學(xué) 2006 屆本科畢業(yè)生論文題目題目: :基于共振峰合成法的語音信號(hào)合成基于共振峰合成法的語音信號(hào)合成title:title: synthesissynthesis ofof speechspeech signalsignal basedbased onon formantformant synthesissynthesis學(xué)校名稱:學(xué)校名稱:江西師范大學(xué)江西師范大學(xué) 院系名稱:院系名稱:物理與通信電子學(xué)院物理與通信電子學(xué)院學(xué)生姓名:學(xué)生姓名: 學(xué)生學(xué)號(hào):學(xué)生學(xué)號(hào):0 0 專專 業(yè):業(yè):通信工程通信工程 指導(dǎo)老師指導(dǎo)老師) ) 聲明本人鄭重聲明:所呈交的畢業(yè)設(shè)計(jì)(論文)是本人在指導(dǎo)
2、教師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。其中除加以標(biāo)注和致謝的地方外,不包含其他人已經(jīng)發(fā)表或撰寫并以某種方式公開過的研究成果,也不包含為獲得其他教育機(jī)構(gòu)的學(xué)位或證書而作的材料。其他同志對(duì)本研究所做的任何貢獻(xiàn)均已在文中作了明確的說明并表示謝意。本畢業(yè)設(shè)計(jì)(論文)成果是本人在江西師范大學(xué)讀書期間在指導(dǎo)教師指導(dǎo)下取得的,成果歸江西師范大學(xué)所有。特此聲明。聲明人(畢業(yè)設(shè)計(jì)(論文)作者)學(xué)號(hào):聲明人(畢業(yè)設(shè)計(jì)(論文)作者)簽名:簽名日期:年月日 目 錄摘摘 要要 -1abstract -2引引 言言 -31 語音合成進(jìn)展語音合成進(jìn)展-32 共振峰合成共振峰合成-42.1 共振峰產(chǎn)生原理-42.2 激勵(lì)
3、模型-52.3 共振峰合成三種聲道模型-62.3.1級(jí)聯(lián)型共振峰模型-62.3.2并聯(lián)型共振峰模型-72.3.4混聯(lián)型共振峰模型-92.4 輻射模型-92.5 語音信號(hào)綜合數(shù)字模型-103 matlab 軟件合成軟件合成 -103.1 軟件概述-103.2 提取語音信號(hào)的共振峰參數(shù)-113.2.1用頻域分析提取參數(shù)-113.3 基于參數(shù)的共振峰合成-143.3.1固定共振峰不同發(fā)音狀態(tài)的語音信號(hào)的合成-153.3.2變化共振峰的不同狀態(tài)語音信號(hào)的合成-183.4 基于參數(shù)修改的語音轉(zhuǎn)換-23總結(jié)總結(jié) -26參考文獻(xiàn)參考文獻(xiàn) -27致謝致謝 -28摘 要 語音合成是(定義),目前語音處理中研究最
4、 成熟(刪除)、應(yīng)用最廣泛的技術(shù)。它可以用多種方法實(shí)現(xiàn),其中共振峰合成法是一種基于規(guī)則的聲源-聲道模型合成法。它側(cè)重于對(duì)聲道諧振特性的模擬以及準(zhǔn)確地提取共振峰參數(shù)。共振峰合成法的特點(diǎn)在于以共振峰為控制參數(shù),要求在輸出終端上模擬出實(shí)際語音的譜特征。本文主要內(nèi)容大概(刪除)分為三個(gè)部分:一,在理論分析的基礎(chǔ)上,提取語音庫里的兩個(gè)不同性別的人發(fā)相同語音的共振峰參數(shù);二,基于激勵(lì)的lp 模型,以第一階段提取出來的共振峰參數(shù)構(gòu)成聲道模型,合成五種不同發(fā)音狀態(tài)的語音;三是完成男子向女子發(fā)音的轉(zhuǎn)換,合成之后再對(duì)合成信號(hào)和原來信號(hào)的語譜圖進(jìn)行分析比較,不斷地修正合成的各項(xiàng)參數(shù),最后得到質(zhì)量較高的合成語音?!娟P(guān)
5、鍵詞】 共振峰合成、特征參數(shù)、matlab 語音工具箱abstract speech synthesis is now one kind of advanced method which has been widely used in speech processing. it can be realized by various means, in which formant synthesis is one mature approach featuring source-filter model synthesis based on principles. this synthesis
6、focuses on the simulation of the characteristics of vocal formant and getting formant parameters precisely. the dissertation(paper)l comprises three main parts: the first one is the gain of formant parameters for speeches, which are from the speech-ware spoken by a man and a woman differently; the s
7、econd part is to synthesize five different speech pronunciations, and then to use the formant parameters derived in the first phase as the formant excitation, while also these five different speech pronunciations as source excitation; the third part is to finish the conversion of a males voice to it
8、s corresponding females voice. so this paper will also try to analyze and compare the spectrum figure between the synthesized speech and the initial speech signal. and then it will modify every parameter that is needed for the application of a high quality synthesis speech signal, compared with the
9、initial input speech signal. key words formant synthesis, characteristic parameters, matlab toolbox for speech synthesis引 言 語音是人類交流時(shí)使用最多、最自然、最基本同時(shí)也是最重要的信息載體。它的產(chǎn)生包括一系列的心理和生理反應(yīng)。目前對(duì)語音信號(hào)的研究主要基于它的數(shù)字表示,其基礎(chǔ)是抽樣定理。語音處理在現(xiàn)代社會(huì)中應(yīng)用極為廣泛,它的廣泛應(yīng)用表現(xiàn)在: 語 1、語音編碼:最重要的一種應(yīng)用,用低比特率獲得盡可能高的合成質(zhì)量 音 2、語音識(shí)別:將語音轉(zhuǎn)換成等價(jià)的書面信息,讓計(jì)算機(jī)聽懂人說話
10、 處 3、說話人識(shí)別:根據(jù)話音辨別說話人,提取說話人的特征 理 4、語音理解:利用知識(shí)表達(dá)和應(yīng)用人工智能技術(shù)進(jìn)行語句識(shí)別和理解 應(yīng) 5、語音合成:讓計(jì)算機(jī)說話,實(shí)現(xiàn)人機(jī)通信 用 6、語音增強(qiáng):對(duì)帶噪語音進(jìn)行處理,達(dá)到降低噪聲影響的效果在高度信息化的今天,這些語音處理的一系列技術(shù)及其應(yīng)用已經(jīng)成為信息社會(huì)不可缺少的組成部分。而其中語音合成技術(shù)的研究相對(duì)要成熟一些,也是語音信號(hào)處理領(lǐng)域最有可能產(chǎn)生突破并進(jìn)而實(shí)現(xiàn)產(chǎn)業(yè)化的一項(xiàng)技術(shù)。目前國際國內(nèi)對(duì)其研究主要著重在提高合成語音的自然度,豐富合成語音的表現(xiàn)力,降低語音合成技術(shù)的復(fù)雜度以及多語種文語合成等四方面。選擇這個(gè)項(xiàng)目作為研究對(duì)象,具有一定的現(xiàn)實(shí)意義,這
11、表現(xiàn)在:首先,能夠加強(qiáng)對(duì)共振峰合成法的基本的理論分析的認(rèn)識(shí);其次,能夠?qū)W習(xí)掌握 matlab 語音工具箱軟件的應(yīng)用以及進(jìn)行再處理工作;最后,能夠使自己在加強(qiáng)學(xué)習(xí)的同時(shí),了解到當(dāng)前國內(nèi)外語音合成技術(shù)研究的最新成果并及時(shí)吸收1 語音合成進(jìn)展語音合成進(jìn)展 上個(gè)世紀(jì),在人們的努力下,語音合成已經(jīng)可以比較成熟的實(shí)現(xiàn)有限詞匯的合成,但是大量詞匯的語音合成,以及合成音質(zhì)的改善還比較難。現(xiàn)階段語音合成的最大進(jìn)展是已經(jīng)能夠?qū)崟r(shí)地將任意文本轉(zhuǎn)換成連續(xù)可懂的自然語句輸出,相應(yīng)技術(shù)通常稱為文語合成或文語轉(zhuǎn)換(tts)。tts 使得數(shù)據(jù)通信和語音通信在終端一級(jí)實(shí)現(xiàn)交融,人們將有望在獲取 internet 信息時(shí),使短消
12、息服務(wù)、電子郵件等多數(shù)以文本方式提供的信息也用語音的方式輸出。 綜觀語言合成技術(shù)的研究已有二百多年的歷史,但是真正有實(shí)用意義的近代語音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的發(fā)展而發(fā)展起來的,主要是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。80 年代以前,國際上語音合成的研究主要集中在按規(guī)則文語轉(zhuǎn)換,早期的研究主要是采用參數(shù)合成方法。如 holmes 并聯(lián)共振峰合成器(1973)和 klatt 串/并聯(lián)共振峰合成器(1980) 。自八十年代末期至今,語言合成技術(shù)又有了新的進(jìn)展,特別是基音同步疊加(psola)方法的提出(1990) ,使基于時(shí)域波形拼接方法合成的語音的音色和自然度大大提
13、高。九十年代初,基于 psola 技術(shù)的法語、德語、英語、日語等語種的文語轉(zhuǎn)換系統(tǒng)都已經(jīng)研制成功。這些系統(tǒng)的自然度比以前基于lpc 方法或共振峰合成器的文語合成系統(tǒng)的自然度要高,并且基于 psola 方法的合成器結(jié)構(gòu)簡單易于實(shí)時(shí)實(shí)現(xiàn),有很大的商用前景。 國內(nèi)的漢語語音合成研究起步較晚些,但從八十年代初就基本上與國際上研究同步發(fā)展。大致也經(jīng)歷了共振峰合成、lpc 合成至應(yīng)用 psola 技術(shù)的過程。70 年代末和 80 年代初,我們語言所和中科院聲學(xué)所都初步研制出了各自的普通話語音合成系統(tǒng)。90 年代初,基于數(shù)據(jù)驅(qū)動(dòng)的語音合成技術(shù)出現(xiàn),使得語音合成系統(tǒng)走向了實(shí)用。如目前國內(nèi)有以語音合成為主的語音
14、技術(shù)公司科大訊飛公司。這些系統(tǒng)基本上都是采用基于 psola 方法的時(shí)域波形拼接技術(shù),但是畢竟已經(jīng)在信息咨詢?nèi)?168 聲訊臺(tái)、短訊播報(bào)等平臺(tái)使用了。在國家 863 計(jì)劃,國家自然科學(xué)基金委,國家攻關(guān)計(jì)劃,中國科學(xué)院有關(guān)項(xiàng)目等支持下,漢語文語轉(zhuǎn)換系統(tǒng)研究近年來取得了令人舉目的進(jìn)展,其中不乏成功的例子:如中國科學(xué)院聲學(xué)所的 kx-psola(1993),聯(lián)想佳音(1995) ;清華大學(xué)的th_speech(1993);中國科技大學(xué)的 kdtalk(1995)等系統(tǒng)。這些系統(tǒng)基本上都是采用基于 psola 方法的時(shí)域波形拼接技術(shù),其合成漢語普通話的可懂度、清晰度達(dá)到了很高的水平。2 共振峰合成共振
15、峰合成2.1 共振峰產(chǎn)生原理 共振就是當(dāng)空腔作受迫振動(dòng),使激勵(lì)頻率等于腔的固有頻率,那么空腔便以最大振幅作振蕩。共振體的作用通常不是在一個(gè)固有頻率上作用,可能有多個(gè)強(qiáng)度不同的共振頻率。聲道管的共振頻率(諧振頻率)稱為共振峰頻率,簡稱為共振峰。人在說話時(shí),聲道是一個(gè)分布的參數(shù)系統(tǒng),是一個(gè)諧振腔。舌和唇的連續(xù)運(yùn)動(dòng)常常會(huì)改變聲道的外形和尺寸,從而改變諧振頻率。聲道和鼻道均可看作是非均勻截面的聲道管。共振峰的值與發(fā)生器官的確切位置有很大的關(guān)系,即與聲道的大小和形狀有關(guān)系,每種形狀的聲道都有一套共振峰頻率作為其特征。當(dāng)聲音沿著聲道傳播時(shí),頻譜形狀會(huì)隨聲道改變。因?yàn)槁曢T脈沖序列具有豐富的諧波成分,這些頻率
16、成分聲道的共振頻率之間相互作用的結(jié)果對(duì)語音質(zhì)量影響很大。由于聲道的大小隨不同的講話人不同,所以共振峰頻率對(duì)判別不同的說話人來說非常重要。共振峰頻率由低到高的排列依次為第一、二、三共振峰,一般來說,在濁音中可以辨認(rèn)的共振峰有 5 個(gè),前 3 個(gè)對(duì)區(qū)別不同說話者的語音來說至關(guān)重要。雖然就語音的基音頻率而言是女聲和童聲高于男聲,但是實(shí)驗(yàn)表明:區(qū)分語音是男聲還是女聲、是成人聲音還是兒童聲音,更重要的因素還是共振峰頻率的高低.共振峰特性與發(fā)音機(jī)制有關(guān).例如第一共振峰 f1 與舌位高低(即舌在嘴的上下)有關(guān),這表現(xiàn)為舌位越高, f1越低;舌位越低,f1 越高。第二共振峰 f2 與舌位前后的位置有密切關(guān)系;
17、這表現(xiàn)為舌位越靠前,f2 就越高;舌位越靠后,f2 就越低。第三共振峰 f3 受舌尖活動(dòng)影響較大,這表現(xiàn)在舌尖抬高卷起時(shí),f3 就明顯下降。研究顯示,不同人群的共振峰頻率分布范圍變化很大,如下表 1 所示:表 1 不同人群的共振峰頻率分布范圍 共振峰合成數(shù)字模型的建立對(duì)于語音處理具有極重要的意義。一般處理過程都是采用數(shù)字信號(hào)處理的方法,將人類發(fā)聲過程看作是一個(gè)模擬聲門狀態(tài)的源,去激勵(lì)一個(gè)表征聲道諧振特性的時(shí)變數(shù)字濾波器,這個(gè)源可能是周期脈沖序列,它代表濁音情況下的聲帶振動(dòng),或者是隨機(jī)噪聲序列,代表不出聲的清音、調(diào)整濾波器的參數(shù)等效于改變口腔及聲道形狀,達(dá)到控制發(fā)不同音的目的,而調(diào)整激勵(lì)源脈沖序
18、列的周期或強(qiáng)度,將改變合成語音的音調(diào)、重音等。因此,只要正確控制激勵(lì)源和濾波器參數(shù)(一般每隔 1030ms 送一組) ,這個(gè)模型就能靈活地合成出各種語句來。 對(duì)發(fā)音器官和語音產(chǎn)生機(jī)理的分析,可以將語音生成系統(tǒng)分成三個(gè)部分:在聲帶以下負(fù)責(zé)產(chǎn)生激勵(lì)振動(dòng),稱為激勵(lì)模型;從聲門到嘴唇的呼氣通道是聲道系統(tǒng),即聲道模型;從語音到嘴唇輻射出去的子系統(tǒng)是輻射系統(tǒng)。下面分別就這三個(gè)系統(tǒng)簡單介紹共振峰合成的數(shù)學(xué)模型2.2 激勵(lì)模型對(duì)于聲源模型,它的激勵(lì)源采用清音與濁音相結(jié)合的方式。濁音源為一組周期性的脈沖波形,清音激勵(lì)源采用高斯白噪聲。濁擦音采用周期性沖激調(diào)制的白噪聲激勵(lì)源分為濁音和清音兩種。其中濁音由于在產(chǎn)生過
19、程中聲帶的不斷張開和關(guān)閉,將會(huì)產(chǎn)生間歇的脈沖波。它類似于一個(gè)斜三角波脈沖。表示如下: 在上式中,為斜三角波上升部分的時(shí)間,為其下降部分的時(shí)間。單1n2n個(gè)斜三角波是一個(gè)低通濾波器,它的變換的全極模型形式是:z 是一個(gè)常數(shù)。上式表示斜三角形可描述為一個(gè)二極點(diǎn)的模型c清音的激勵(lì)信號(hào)由隨機(jī)噪聲發(fā)生器產(chǎn)生,因?yàn)榘l(fā)清音時(shí),無論是發(fā)阻塞音還是摩擦音,聲道都被阻礙成湍流。設(shè)其平均值為 0,其自相關(guān)函數(shù)是一個(gè)單位沖激函數(shù)。2.3 共振峰合成三種聲道模型關(guān)于聲道部分的數(shù)學(xué)部分,目前最流行的有兩種建模方法:聲管模型和共振峰模型。前者把聲管視為由多個(gè)等長的不同截面積的管子串聯(lián)而成的系統(tǒng);后者把聲道視為一個(gè)諧振腔。發(fā)
20、音時(shí)候因?yàn)槁暤佬螤詈苌偈蔷鶆驍嗝娴模赃€須研究如何從語音信號(hào)求出共振峰的方法。共振峰參數(shù)除了共振峰頻率外,還包括共振峰帶寬和幅度。基于物理聲學(xué)的共振峰理論,可以建立起三種使用的共振峰模型:級(jí)聯(lián)型、并聯(lián)型和混聯(lián)型10。2.3.1 級(jí)聯(lián)型共振峰模型級(jí)聯(lián)型模型下認(rèn)為聲道是一組串聯(lián)的二階諧振器。對(duì)于一般元音,用全極點(diǎn)模型模擬就可以了,因?yàn)榇藭r(shí)的零點(diǎn)可以由多個(gè)極點(diǎn)模擬。由此可以導(dǎo)出,多數(shù)情況下聲道模型的傳輸函數(shù) v(z)是一個(gè)全極點(diǎn)函數(shù)10: 在上式中,n 是極點(diǎn)的個(gè)數(shù),g 是幅值因子,是常系數(shù)。那么此時(shí)上式ka可以分解為多個(gè)二階極點(diǎn)的網(wǎng)絡(luò)串聯(lián)。即表示成: 或者表示成 其中 式中 m 是小于(n+1)
21、/2 的整數(shù)。假如 n 取 10,則 m=5 ,該模型可以表示成如下圖 1 的圖片:圖 1 級(jí)聯(lián)型共振峰模型2.3.2 并聯(lián)型共振峰模型一般來說,級(jí)聯(lián)型比較簡單,可以用于描述一般的元音。級(jí)聯(lián)的級(jí)數(shù)取決于聲道的長度,一般成年人的聲道長度約為 17cm,取 35 級(jí)就可以。當(dāng)鼻化元音或鼻腔參與共振,以及阻塞音或摩擦音等情況時(shí)候,級(jí)聯(lián)型就不能勝任了。這時(shí)的腔體具有反諧振特性,必須考慮加入零點(diǎn),使之成為零極點(diǎn)模型。那么這個(gè)時(shí)候就需要采用并聯(lián)型結(jié)構(gòu)了,它比級(jí)聯(lián)型復(fù)雜些,每個(gè)諧振器的幅度都要獨(dú)立地給以控制。此時(shí)聲道模型的傳輸函數(shù)可以表示為:t ,通常,式中,由于系數(shù)是實(shí)數(shù),所以其它系數(shù)都nm122nnn,
22、kka b是實(shí)數(shù)。它的簡單并聯(lián)結(jié)構(gòu)可以表示為以下圖 2: 圖 2 并聯(lián)型基本結(jié)構(gòu)所以,結(jié)合了激勵(lì)模型和輻射模型的并聯(lián)型共振模型圖如下圖 3 所示:圖 3 并聯(lián)型共振峰模型并聯(lián)型可以通過調(diào)整傳輸系數(shù)的辦法來單獨(dú)調(diào)整一對(duì)極點(diǎn)的位置,但是不能像串聯(lián)型那樣單獨(dú)調(diào)整零點(diǎn)的位置。因此一般在要求準(zhǔn)確傳輸零點(diǎn)的場合下,適宜采用并聯(lián)型結(jié)構(gòu)5。2.3.4 混聯(lián)型共振峰模型將級(jí)聯(lián)模型和并聯(lián)模型結(jié)合起來的混合模型是比較完備的一種共振峰模型。它根據(jù)要描述的語音,自動(dòng)地進(jìn)行切換。圖中的并聯(lián)部分,從第一到第三個(gè)共振峰的幅度都可以獨(dú)立地進(jìn)行控制和調(diào)節(jié),用于模擬輔音頻譜特性中的能量集中區(qū)。此外,并聯(lián)部分還有一條直通路徑,它的幅
23、度控制因子為 ab,這是專門為一些頻譜特性比較平坦的音素考慮設(shè)計(jì)的10。混合型結(jié)構(gòu)可以得到更加完善的模型共振峰合成法的關(guān)鍵是準(zhǔn)確提取共振峰參數(shù)。從自然語音中提取共振峰參數(shù)最簡便的方法是使用語譜圖,采用頻域處理、同態(tài)處理、lpc 技術(shù)也能很好地估計(jì)共振峰參數(shù)。這種結(jié)構(gòu)如下圖 4 混聯(lián)型共振峰模型所示圖 4 混聯(lián)型共振峰模型2.4 輻射模型輻射模型與嘴型有關(guān),一般可以表示為( )r z1( )1r zrz 在這里式子的系數(shù) r 接近于 1。2.5 語音信號(hào)綜合數(shù)字模型綜上所述,完整的語言信號(hào)產(chǎn)生的數(shù)學(xué)模型應(yīng)該包含三個(gè)子模型:激勵(lì)模型、聲道模型和輻射模型。如下圖 2 所示圖 4 語言信號(hào)產(chǎn)生數(shù)學(xué)模型
24、3 matlab 軟件合成軟件合成3.1 軟件概述matlab 語音工具箱 speechgui-matlabrt(speech graphic user interface for matlab runtime server) ,即為 matlab 實(shí)時(shí)服務(wù)器應(yīng)用的語音信號(hào)圖形用戶界面。它是在 matlab7.0 版本的基礎(chǔ)上應(yīng)用的一種專門的語音合成軟件。這套軟件提供了功能強(qiáng)大的語音信號(hào)處理應(yīng)用。它可以對(duì)語音信號(hào)進(jìn)行語音分析(包括時(shí)域分析、頻域分析、波譜分析、線性預(yù)測分析、移動(dòng)平均分析、聲門轉(zhuǎn)換濾波器、倒譜分析等) ,數(shù)據(jù)和測量,線性預(yù)測法語音合成,共振峰語音合成等等相當(dāng)多的應(yīng)用。 更為重要的
25、是,它還為軟件實(shí)現(xiàn)共振峰合成提供了友好可懂的 gui(圖形用戶界面) ,它使得用戶在友好的使用界面的提示下一步步進(jìn)行語音合成操作,允許用戶把文件里包含的語音庫聲音文件進(jìn)行合成,進(jìn)而對(duì)合成信號(hào)與原來信號(hào)進(jìn)行語音分析,比較合成之后的語音信號(hào)與原來的語音信號(hào)兩者的效果,然后修改共振峰合成所需的參數(shù),再與原信號(hào)對(duì)比,改善合成音質(zhì)效果,最終合成較高質(zhì)量的語音信號(hào)在得到高質(zhì)量的語音合成過程中的關(guān)鍵因素之一就是對(duì)語音信號(hào)經(jīng)過精確的分析過程,提取合成參數(shù)。在早期,這個(gè)過程大部分都是利用聲門語音信號(hào)來決定共振峰參數(shù)的。其中另外一個(gè)重要的因素就是激勵(lì)源波譜的設(shè)計(jì)。matlab語音合成專用工具箱就是為了解決這個(gè)問題
26、設(shè)計(jì)出來的。總的來說,在目前,主要有兩種:一種是級(jí)聯(lián)/并聯(lián)型(1980 年由 klatt提出并設(shè)計(jì)) ,一種是并聯(lián)型(1982 年由 rye 和 holmes 設(shè)計(jì)) 。雖然在目前對(duì)于哪種結(jié)構(gòu)是更好的合成結(jié)構(gòu)尚有爭議,但是一般認(rèn)為,klatt 模型對(duì)于文本語音合成比較適用,而 holmes 模型更多的應(yīng)用于分析合成系統(tǒng)。這種區(qū)分的原因更多的是來自于這兩種合成方法的不同的控制系統(tǒng)和合成部分的不同來源。共振峰參數(shù)(頻率、幅度、帶寬、可以以數(shù)字濾波器件的形式實(shí)現(xiàn)) ,而組成共振峰合成器的激勵(lì)源和波譜形成網(wǎng)絡(luò)則是隨著聲音信號(hào)產(chǎn)生過程時(shí)的聲源特性和聲道形狀而動(dòng)態(tài)改變的。也就是說,這是一種無法預(yù)料的動(dòng)態(tài)的
27、隨機(jī)變化。但是因?yàn)檫@種變化相對(duì)來說發(fā)生得很慢,所以這就為我們使用一組固定的合成器參數(shù)來區(qū)分一小段特定的語音信號(hào)(幀) 。這種可能有助于減少所需用于代替語音信號(hào)的數(shù)據(jù)量。3.2 提取語音信號(hào)的共振峰參數(shù)本文以兩段男、女聲信號(hào)/iy/為例進(jìn)行共振峰參數(shù)的提取具體過程如下:3.2.1 用頻域分析提取參數(shù)1、進(jìn)入語音信號(hào)“分析”主菜單,點(diǎn)擊“文件”命令,在“導(dǎo)入”命令中將語音文件“m0203s.dat” ,即元音信號(hào)男聲/iy/導(dǎo)入,并且顯示。如圖 5 顯示圖 5 語音信號(hào)/iy/時(shí)域波形2、再在分析主菜單里選擇“聲門轉(zhuǎn)換濾波器”命令,在“參數(shù)”設(shè)置里面,選中“標(biāo)志之間” ,然后立刻在“聲門轉(zhuǎn)換濾波器
28、”主菜單中選擇“基音同步” ,截取一段語音信號(hào)后進(jìn)行分析。如下圖 6 和圖 7 所示圖 6 共振峰頻率和帶寬圖 7 聲道模型的濾波器特性 3、在圖 6 修改共振峰和頻率的各項(xiàng)參數(shù),使得圖 7 中的最上面一條曲線,即聲道模型頻率響應(yīng)的殘余度顯示,它趨于平滑,表示提取的共振峰參數(shù)越與實(shí)際的共振峰參數(shù)誤差越小4、重復(fù)上面的第三步的動(dòng)作,直到有提示信息“人工聲門轉(zhuǎn)換濾波器已經(jīng)完成”出現(xiàn),此時(shí)將展現(xiàn)包含有共振峰頻率和帶 圖 8 男子發(fā)音基音和共振峰頻率等高線寬參數(shù)的圖 8。 4、從上圖圖 8 中讀取共振峰頻率和帶寬,基音周期等參數(shù)。即遵循共振峰頻率等于某一個(gè)等高線的最大值與最小值之間的均值,共振峰帶寬等
29、于兩者之間的差值的原則,基音頻率則等于 圖 8 中最下面一條等高線對(duì)應(yīng)的縱坐標(biāo)的頻率值。依照同樣的方法,我們可以從一個(gè)由女聲發(fā)出的/iy/音提取各個(gè)共振峰參數(shù)。如圖 9,由此可以讀得該男子和女子發(fā)/iy/音的各個(gè)共振峰參數(shù)是如下表 2 所示: 圖 9 女子發(fā)音基音和共振峰頻率等高線 表 2 該男子和女子發(fā)/iy/音的各個(gè)共振峰參數(shù)3.3 基于參數(shù)的共振峰合成合成一個(gè)語音文件要用到語音處理菜單中的“合成”命令。在進(jìn)入了主菜單之后,選擇“共振峰”命令,則進(jìn)入共振峰合成的主菜單。在這里要合成一個(gè)語音信號(hào),我們需要兩個(gè)參數(shù):信號(hào)源和共振峰參數(shù)。信號(hào)源可以在系統(tǒng)給出的參數(shù)基礎(chǔ)上進(jìn)行修改得到,也可以調(diào)入一
30、個(gè)語音庫里原有的語音信號(hào)。下面說明具體的操作過程。這個(gè)部分分兩個(gè)階段進(jìn)行,一個(gè)是合成六種不同發(fā)音狀態(tài)的語音信號(hào):抒情音、尖銳音、呼吸音、低語音、假音、刺耳音。另一個(gè)是利用上一步共振峰參數(shù)提取獲得的參數(shù)去分別調(diào)整這六種聲音,觀察效果。3.3.1 固定共振峰不同發(fā)音狀態(tài)的語音信號(hào)的合成這個(gè)階段主要是利用修改源信號(hào)的各項(xiàng)參數(shù),不變共振峰參數(shù),觀察合成的效果有何不同,具體過程如下: 圖 10 源規(guī)范參數(shù)設(shè)置窗口1、進(jìn)入合成主菜單里,選擇“源規(guī)范” ,然后在“源規(guī)范”里點(diǎn)擊“修改新的源激勵(lì)” 。設(shè)置五種音調(diào)的幀截取長度均為 21,確定之后點(diǎn)擊“修改特定源激勵(lì)” ,進(jìn)入?yún)?shù)修改界面,如上圖圖 10 所示,
31、它對(duì)應(yīng)的時(shí)域波形和零極圖如下圖 11 所示 圖 11 時(shí)域波形和零極圖2、然后點(diǎn)擊“應(yīng)用于所有”和“完成”命令,再回到源設(shè)置界面中將該源激勵(lì)信號(hào)保存在共振峰合成的目錄下面。這里設(shè)置的參數(shù)包括,pt,各個(gè)參數(shù)的介紹如下:ctatet1amp2ampoffsetdur:最大的聲門流量瞬時(shí)比例值。pt:結(jié)束聲門閉合要達(dá)到的比例值。ct:聲門第二段的時(shí)間常量的比例值at:最大負(fù)微分聲門流量的瞬時(shí)比例值。et按照流體力學(xué)可以相關(guān)理論知識(shí)可以得出結(jié)論,必須使0,且ctetptat0,才能使這些參數(shù)在算法中有效。:加噪中的第一調(diào)制參數(shù)比例值1amp:加噪中的第二調(diào)制參數(shù)比例值2amp:加噪的持續(xù)時(shí)間長度比例
32、offset1amp:加噪的持續(xù)時(shí)間長度比例dur2amp這六種不同狀態(tài)的語音信號(hào)合成所需要的參數(shù)包含在表 2 當(dāng)中: 表 2 合成六種不同狀態(tài)的語音信號(hào)合成所需要的參數(shù)2、完成上述兩步驟后,在主合成菜單里調(diào)入一個(gè)系統(tǒng)默認(rèn)值的共振峰設(shè)置,保存其為共振峰激勵(lì),然后點(diǎn)擊“合成” ,就合成了如圖12 的抒情語音的信號(hào): 圖 12 抒情語音信號(hào)3、合成后,重復(fù)以上步驟,按照表二里面的參數(shù)進(jìn)行逐一合成,然后將所有合成的信號(hào)全部表現(xiàn)出來(步驟大概一致,且不能全部顯示,故只選抒情、尖音、呼吸、假音四個(gè)) ,如圖 13 圖 13 抒情、尖音、呼吸、假音合成顯示波形3.3.2 變化共振峰的不同狀態(tài)語音信號(hào)的合成
33、上面演示的例是用系統(tǒng)提供的參數(shù)設(shè)置為基礎(chǔ),利用幾種不同數(shù)值設(shè)置的方法來合成幾種語音信號(hào)?,F(xiàn)在探討在改變共振峰參數(shù),即利用 3.2 中分析得到的共振峰參數(shù)來設(shè)置共振峰激勵(lì)源,合成語音信號(hào)的具體步驟:1、同樣是進(jìn)入上一個(gè)例子的合成主菜單里面。不同的是在設(shè)置源規(guī)范時(shí),使用的是導(dǎo)入的語音文件,先將男聲發(fā)的/iy/導(dǎo)入合成。如圖 14 所示, 圖 14 導(dǎo)入要分析的語音文件將文件導(dǎo)入后,點(diǎn)擊“修改指定源激勵(lì)”可看到如圖 15 看到的系統(tǒng)自動(dòng)生成的語音源文件信息和波形 圖 15 系統(tǒng)自動(dòng)生成的語音源文件信息和波形2、再重復(fù)上面相類似的步驟,把該 data 格式的文件保存在合成專用文件路徑下面,即將原來進(jìn)行
34、共振峰合成產(chǎn)生的“source.dat”文件覆蓋掉3、設(shè)置好了源激勵(lì)后,再設(shè)置共振峰激勵(lì)。同樣類似上面的共振峰激勵(lì)生成方法。不過在“修改指定共振峰”里,必須設(shè)置共振峰參數(shù)如圖 16 和圖 17。這些參數(shù)就是第一節(jié)操作里提取的男聲共振峰頻率和帶寬,但是因?yàn)橄到y(tǒng)的這些參數(shù)只有五對(duì),第六對(duì)頻率和帶寬是估計(jì)的值。即按照前幾個(gè)數(shù)值的分布變化,進(jìn)行線性推導(dǎo)。得出數(shù)值。4、 圖 16 參數(shù)設(shè)置 圖 17 合成信號(hào)5、設(shè)置好參數(shù)后,點(diǎn)擊合成主菜單里面的“合成命令” 。得出如圖 17的合成信號(hào),在這里,我們可以很清楚地看到,語音信號(hào)與合成之后的信號(hào)波形比較接近(這可以通過二者的語譜圖看出來,如圖18 顯示) ,
35、如圖 18 顯示,上面的是激勵(lì)波的語譜圖,下面是合成信號(hào)的語譜圖說明合成的音質(zhì)不錯(cuò)。 圖 18 男子合成信號(hào)與原始信號(hào)的語譜圖6、做完男子的語音合成之后,我們再做女子發(fā)的語音的合成。操作步驟類似男子的語音合成。合成之后的效果如圖 19 所示 圖 19 女子合成信號(hào)與原始信號(hào)的語譜圖7、我們再試試用上面合成的六個(gè)不同狀態(tài)的語音信號(hào)做源激勵(lì)信號(hào),而用男子和女子的發(fā)音信號(hào)提取的共振峰參數(shù)作為共振峰激勵(lì)信號(hào)。先按照上面的類似步驟合成男子語音的共振峰參數(shù)加上抒情類語音。合成效果如下圖 20: 圖 20 男子共振峰參數(shù)和抒情語音的合成效果8、從上面可以看出,合成效果不如圖 18 和圖 19 的語音信號(hào)。因
36、為這里所用的共振峰參數(shù)不是從源激勵(lì)語音信號(hào)中提取的。9、重復(fù)上面的第七步類似步驟,將源激勵(lì)信號(hào)換成其它五個(gè)不同狀態(tài)的信號(hào),觀察效果3.4 基于參數(shù)修改的語音轉(zhuǎn)換在這部分要實(shí)現(xiàn)的是語音庫里的兩段語音(一個(gè)是男的,一個(gè)是女的)發(fā)同一段聲音的轉(zhuǎn)換。也就是把女的聲音用男的聲音來代替,看看男的聲音代替得像不像女的發(fā)出的聲音,具體操作過程如下:1、進(jìn)入語音轉(zhuǎn)換菜單里面,先對(duì)語音信號(hào)進(jìn)行分析。在“分析”菜單里的“規(guī)范”里面,對(duì)語音的分析規(guī)范進(jìn)行設(shè)置,如圖 21: 圖 21 語音的分析規(guī)范在這里,必須將語音的聲道模型(圖中的下拉菜單)選擇為“共振峰” 。然后源模型設(shè)置為“簡化 lf 模型” ,完了之后返回。2
37、、載入一段語音信號(hào),在這里我們載入的是女子發(fā)音的“we were away a year ago.” ,如圖 22 所示 圖 22 “we were away a year ago.”的女子時(shí)域波形3、載入后在分析菜單欄里,我們先后對(duì)語音信號(hào)做“執(zhí)行” , “語音類別修正” , “gcis 核查” , “共振峰軌跡核查” ,完成后保存4、在“改正”菜單里,我們先后做“語音類別修正” , “gcis 核查” ,“共振峰軌跡核查” ,完成后保存5、然后進(jìn)入“修正”里的“語音轉(zhuǎn)換”命令里面,在對(duì)其它所有值保留缺省設(shè)置的情況下,將目標(biāo)語音位為女子的已經(jīng)處理過了的.mat格式文件,源語音設(shè)為男子的語音,
38、點(diǎn)“應(yīng)用” 。然后保存為一個(gè)“conversion”的文件6、再在主菜單欄里點(diǎn)擊“合成” ,就會(huì)顯示如圖 23 顯示的男子轉(zhuǎn)換女子語音“we were away a year ago.”的效果圖出來。 圖 23 語音轉(zhuǎn)換效果圖總結(jié)總結(jié)(一)由上面可以看出,在選用頻域分析得出的參數(shù)進(jìn)行共振峰合成時(shí),合成效果并不是很明顯。很顯然這主要的問題在于不能高效地得到共振峰參數(shù),原因分析有:1、在對(duì)圖 6 共振峰頻率和帶寬的數(shù)值進(jìn)行修改以得到圖 7 比較平滑的濾波器特性過程中,無法精確地將曲線變成很平滑。而且由于在圖中每一幀的取樣點(diǎn)數(shù)是 256 個(gè),在有 10000 個(gè)抽樣點(diǎn)的情況下,我們必須做三十多次類似
39、的操作。這是在無法實(shí)現(xiàn)的。2、在對(duì)圖 8 男子發(fā)音基音和共振峰頻率等高線的共振峰參數(shù)的讀取上,因?yàn)榭v坐標(biāo)沒有精確的對(duì)應(yīng)尺度,無法準(zhǔn)確讀取共振峰參數(shù),這直接導(dǎo)致了我們在合成過程中共振峰參數(shù)的不精確。3、這是一個(gè)元音信號(hào)的合成,理論上我們應(yīng)該用全極點(diǎn)模型進(jìn)行模型聲道特性,但是軟件在算法實(shí)現(xiàn)中只能是用一些零點(diǎn)極點(diǎn)模型去逼近,不可能做到完全的極點(diǎn)模型,所以也存在著誤差。(二)我們可以看到,在第三部分男子轉(zhuǎn)換女子的聲音效果上,合成音質(zhì)并不是十分地好,分析原因有以下幾個(gè)方面:1、系統(tǒng)是將女子的參數(shù)進(jìn)行修正,包括語音類型修正、聲門閉合常量修正和共振峰軌跡修正等,這些修正都是在不是很精確的情況下進(jìn)行的。語音類
40、型修正中,要把周期性的時(shí)域波形由清音信號(hào)修正為濁音信號(hào);聲門閉合常量修正中,要增加或者刪除聲門閉合常量,來達(dá)到使其圖象平滑的效果;共振峰軌跡的修正則要求我們按照在“分析”里面得到的共振峰等高線波形的輪廓進(jìn)行修正。這些修正的精度無法有效保障,直接導(dǎo)致了語音轉(zhuǎn)換效果的不理想。2、系統(tǒng)本身的算法是基于一個(gè)模型的逼近上的,即是用一個(gè)全極點(diǎn)模型去逼近一個(gè)零極點(diǎn)模型,這會(huì)帶來一定的誤差。語音轉(zhuǎn)換的不理想也正反過來說明了系統(tǒng)誤差的存在。參考文獻(xiàn)參考文獻(xiàn)1 d.g.childers. matlab 之語音處理與合成工具箱m.北京:清華大學(xué)出版社,2004.45.2 張雄偉,陳亮,楊吉斌.現(xiàn)代語音信號(hào)處理技術(shù)及應(yīng)用m.北京:機(jī)械工業(yè)出版社,2003.3 凡桑塔, j.p.h.語音合成 m.北京:機(jī)械工業(yè)出版社, 2005 5 程佩青.數(shù)字信號(hào)處理m. 北京:清華大學(xué)出版社,2005.6 趙勝輝.離散時(shí)間語音信號(hào)處理原
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人健康管理計(jì)劃及行動(dòng)指南
- 物場分析在產(chǎn)品設(shè)計(jì)中的巧妙運(yùn)用
- 早教動(dòng)物嵌板課程設(shè)計(jì)
- 2024年海洋貨物運(yùn)輸保險(xiǎn)合同示范文本
- 中醫(yī)養(yǎng)生理療方法介紹
- 顯卡案例課程設(shè)計(jì)論文
- 托班寶寶排隊(duì)課程設(shè)計(jì)
- 農(nóng)產(chǎn)品電子商務(wù)與農(nóng)貿(mào)市場融合發(fā)展
- 有關(guān)蜜蜂主題的課程設(shè)計(jì)
- 2024年影視制作合同:電視劇制作的流程與費(fèi)用分配
- 2024年浙江省單獨(dú)招生文化考試語文試卷(含答案詳解)
- 山東省泰安市2024屆高三上學(xué)期期末數(shù)學(xué)試題(含答案解析)
- 少兒編程獲獎(jiǎng)?wù)n件
- 2024年《風(fēng)力發(fā)電原理》基礎(chǔ)技能及理論知識(shí)考試題庫與答案
- 軟件開發(fā)項(xiàng)目監(jiān)理細(xì)則
- (必會(huì))軍隊(duì)文職(藥學(xué))近年考試真題題庫(含答案解析)
- 醫(yī)院后勤副院長年終工作總結(jié)
- 2024年醫(yī)院物價(jià)管理制度范例(四篇)
- 登高車高空作業(yè)施工方案
- 2024年新人教版四年級(jí)數(shù)學(xué)上冊《第9單元第4課時(shí) 統(tǒng)計(jì)與數(shù)學(xué)廣角 總復(fù)習(xí)》教學(xué)課件
- GB/T 15822.3-2024無損檢測磁粉檢測第3部分:設(shè)備
評(píng)論
0/150
提交評(píng)論