基于HMM的語音合成技術(shù)研究_第1頁
基于HMM的語音合成技術(shù)研究_第2頁
基于HMM的語音合成技術(shù)研究_第3頁
基于HMM的語音合成技術(shù)研究_第4頁
基于HMM的語音合成技術(shù)研究_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

-PAGE35-基于HMM的語音合成技術(shù)研究ResearchonSpeechSynthesisTechnologyBasedonHMM注:頁眉,居中,楷體,五號(hào)。閱后刪除此文本框。摘要注:頁眉,居中,楷體,五號(hào)。閱后刪除此文本框。語音合成技術(shù)是一種將計(jì)算機(jī)等電子設(shè)備中存儲(chǔ)或輸入的文本信息轉(zhuǎn)換為對(duì)應(yīng)音頻的一種技術(shù),是機(jī)器與人類交互的一種方法,語言是人類最習(xí)慣的溝通方式,所以語音交互相比于其他交互方式如文字交互,動(dòng)作交互更加方便,自然。語音合成技術(shù)發(fā)展歷史有二百年之久,語音合成的方法也不斷地更新和發(fā)展,由最初的機(jī)械合成器,到后來的電子合成器,共振峰合成器,語音合成技術(shù)也慢慢的趨于成熟而更加智能化。本文介紹了一種基于統(tǒng)計(jì)模型的語音合成方法,這是近年來隨著人工智能領(lǐng)域的迅速發(fā)展而成為主要研究熱點(diǎn)的一種合成方法,同其他合成方法相比,基于統(tǒng)計(jì)模型的語音合成具有智能化、合成語音穩(wěn)定等優(yōu)點(diǎn)。隱馬爾科夫模型(HidenMarkovModel,HMM)是其中最常用的統(tǒng)計(jì)模型,是語音識(shí)別,模式識(shí)別相關(guān)領(lǐng)域中的主流模型。本文采用的硬件平臺(tái)是EAIDK610-P0,該平臺(tái)是EAIDK的第一款智能硬件平臺(tái),專為人工智能開發(fā)者精心打造的面向邊緣計(jì)算的開發(fā)套件,主芯片采用ArmChina和瑞芯微公司共同研發(fā)的RK3399,為人工智能開發(fā)提供簡潔高效、統(tǒng)一的API接口。本文首先對(duì)語音合成的發(fā)展歷史和關(guān)鍵技術(shù)進(jìn)行了總結(jié),然后對(duì)HMM模型的原理以及相關(guān)算法進(jìn)行了研究,并對(duì)其三個(gè)經(jīng)典的三個(gè)問題的解決算法進(jìn)行研究,在一定的理論基礎(chǔ)上,對(duì)基于HMM的語音合成原理進(jìn)行了解,最終實(shí)現(xiàn)在嵌入式平臺(tái)上進(jìn)行HMM模型訓(xùn)練,并基于Flite開源框架在嵌入式平臺(tái)上實(shí)現(xiàn)了語音合成功能,最后對(duì)不同音素庫合成的語音質(zhì)量進(jìn)行了評(píng)估。關(guān)鍵詞:隱馬爾可夫模型;嵌入式系統(tǒng);交叉編譯;語音合成

AbstractSpeechsynthesistechnologyisatechnologyforconvertingtextinformationstoredorinputinelectronicdevicessuchascomputersintocorrespondingaudio.Itisamethodformachineandhumaninteraction.Languageisthemostcommoncommunicationmethodforhumanbeings,sovoiceinteractionComparedwithotherinteractionmethodssuchastextinteraction,actioninteractionismoreconvenientandnatural.Thehistoryofspeechsynthesistechnologyhasbeenaroundfor200years,andthemethodsofspeechsynthesishavebeencontinuouslyupdatedanddeveloped.Fromtheinitialmechanicalsynthesizerstothelaterelectronicsynthesizers,formantsynthesizers,speechsynthesistechnologyisalsoslowlyMatureandmoreintelligent.Thispaperintroducesaspeechsynthesismethodbasedonstatisticalmodel,whichisasyntheticmethodthathasbecomeamajorresearchhotspotinrecentyearswiththerapiddevelopmentofartificialintelligence.Comparedwithothersyntheticmethods,speechsynthesisbasedonstatisticalmodelhasIntelligent,syntheticvoicestabilityandotheradvantages.ThehiddenMarkovmodelmainlyintroducedinthispaperisthemostcommonlyusedstatisticalmodel,andisthemainstreammodelinthefieldofspeechrecognitionandpatternrecognition.ThehardwareplatformusedinthispaperisEAIDK610-P0,whichisthefirstintelligenthardwareplatformofEAIDK.Itisanedge-orienteddevelopmentkitspeciallydesignedforartificialintelligencedevelopers.ThemainchipisjointlydevelopedbyArmChinaandRuixinwei.RK3399providesasimple,efficientandunifiedAPIinterfaceforartificialintelligencedevelopment.ThroughtheHMMmodeltrainingontheplatform,andbasedontheFliteopensourceframeworktoachievethespeechsynthesisfunctionontheembeddedplatform,thispaperalsoevaluatesthespeechqualitysynthesizedbydifferentphonemes.Thispaperfirstsummarizesthedevelopmenthistoryandkeytechnologiesofspeechsynthesis,thenstudiestheprincipleofHMMmodelandrelatedalgorithms,andstudiesthesolutionsofthreeclassicthreeproblems,onacertaintheoreticalbasis.UnderstandtheprincipleofHMM-basedspeechsynthesis,andfinallyrealizetheHMMmodeltrainingontheembeddedplatform,andimplementthespeechsynthesisfunctionontheembeddedplatformbasedontheFliteopensourceframework.Finally,thespeechqualitysynthesizedbydifferentphonemeslibraryiscarriedout.Evaluation.KeyWords:HidenMarkovModel;EmbeddedSystems;Crosscompilation;Speechsynthesis.目錄摘要 IIIAbstract IV第一章語音合成概述 11.1語音合成技術(shù)簡介 11.1.1語音合成概念 11.1.2語音合成意義 21.2語音合成發(fā)展歷史和現(xiàn)狀 41.2.1發(fā)展歷史 41.2.2語義合成研究現(xiàn)狀 51.3語音合成主要方法 51.3.1參數(shù)合成方法 51.3.2波形拼接合成法 61.3.3基于統(tǒng)計(jì)模型的合成方法 71.4本章小結(jié) 7第二章基于HMM模型的語音合成 82.1馬爾科夫過程 82.2隱馬爾科夫模型 82.3HMM模型的三個(gè)問題 102.3.1評(píng)估問題 102.3.2解碼問題 102.3.3學(xué)習(xí)問題 112.4基于HMM的語音合成 122.4.1TTS系統(tǒng)結(jié)構(gòu) 122.4.3模型訓(xùn)練階段 132.4.4語音合成階段 162.5本章小結(jié) 17第三章基于嵌入式的語音合成實(shí)現(xiàn) 183.1ARM嵌入式平臺(tái)簡介 183.1.1EAIDK套件概述 183.1.2ARM開發(fā)板RK3399的概述 183.2Linux系統(tǒng) 203.3基于ARM嵌入式的Linux系統(tǒng)編譯和移植 223.3.1安裝交叉編譯環(huán)境 233.3.2虛擬機(jī)和ARM開發(fā)板的鏈接介質(zhì) 243.3.3編譯Linux內(nèi)核 243.3.4文件傳輸 243.4基于Linux系統(tǒng)的語音合成軟件設(shè)計(jì) 243.5本章小結(jié) 26第四章語音合成性能測試結(jié)果與分析 274.1語音質(zhì)量的主觀評(píng)測 274.2語音質(zhì)量的客觀評(píng)測 284.3評(píng)測結(jié)果總結(jié) 30第五章總結(jié)和展望 315.1總結(jié) 315.2展望 31參考文獻(xiàn) 32附錄AFlite部分程序代碼 錯(cuò)誤!未定義書簽。致謝 35第一章語音合成概述1.1語音合成技術(shù)簡介1.1.1語音合成概念語音合成是通過模仿人類發(fā)聲器官,用機(jī)器產(chǎn)生人類自然語音的技術(shù)。通俗來講,就是用機(jī)器發(fā)出人類的聲音,把機(jī)器自己產(chǎn)生的,或者外部輸入的文字信息轉(zhuǎn)換成清晰、流暢的語音,相當(dāng)于是給機(jī)器安裝了發(fā)聲器官,賦予機(jī)器用語言表達(dá)自己的能力。它涉及到信號(hào)處理、聲學(xué)、語音學(xué)、模式識(shí)別以及心理學(xué)等眾多學(xué)科的理論和技術(shù),是一門典型的交叉學(xué)科[1]。語音合成技術(shù)目前有三種類型:文字到語音的合成(Text-To-Speech,TTS)、概念到語音的合成(Concept-To-Speech,CTS)、意向到語音的合成(Intention-To-Speech,ITS)[2]。TTS、CTS、ITS分別代表了在不同的層次上合成語音的過程[3],其中,最淺顯的也是目前研究最為熱門的是TTS,即文字到語音的合成技術(shù)。本文主要研究的也是TTS技術(shù)。圖1.1TTS系統(tǒng)結(jié)構(gòu)圖圖1.1是TTS系統(tǒng)的結(jié)構(gòu)框圖。TTS技術(shù)由文本分析、韻律控制和語音生成三個(gè)核心模塊組成[4]。文本分析指的是對(duì)系統(tǒng)要處理的文本內(nèi)容進(jìn)行分詞,標(biāo)音,把文本內(nèi)容轉(zhuǎn)化成單一的音標(biāo)或組合,經(jīng)過文本分析后輸出與文本相對(duì)應(yīng)的音標(biāo)序列。韻律特征是對(duì)每個(gè)人聲音的語氣,語調(diào),音長等參數(shù)的體現(xiàn),每個(gè)人由于說話習(xí)慣以及聲道構(gòu)造不同,其語音參數(shù)也不盡相同,而影響這些區(qū)別的則是如基頻,音強(qiáng),音長等韻律參數(shù),韻律控制就是對(duì)這些參數(shù)進(jìn)行計(jì)算,從而合成更加生動(dòng)的語音。語音生成就是TTS系統(tǒng)根據(jù)計(jì)算得出的音標(biāo)序列和聲音參數(shù),利用聲音合成器合成語音的過程。文本分析模塊在TTS系統(tǒng)中有著至關(guān)重要的作用,作為語音合成的第一步,它的作用是對(duì)輸入的文本信息進(jìn)行理解和分析[5],并把發(fā)音信息傳給后兩個(gè)模塊。文本分析模塊的工作原理是結(jié)合發(fā)音詞典、規(guī)則庫、統(tǒng)計(jì)庫等發(fā)音字典,對(duì)輸入的文本信息進(jìn)行分解單個(gè)音素,并進(jìn)行音標(biāo)標(biāo)注,同時(shí)確定每一個(gè)詞,每一個(gè)音節(jié)的重音等級(jí)。文本分析主要包括四個(gè)步驟:規(guī)范文本、分析語法、標(biāo)音和確定重讀,停頓和語氣[6]。文本分析之后,將標(biāo)注后的音標(biāo)序列作為韻律控制模塊的輸入,進(jìn)行對(duì)合成語音韻律的處理。聲音的韻律特征是機(jī)器聲音和自然語音差距最大的一個(gè)方面。自然語音傳遞信息不僅僅通過語音的內(nèi)容,聲音的語氣,節(jié)奏,還有重音的不同,也是對(duì)信息的修飾,所以要想生成更加貼近自然語音的音頻,對(duì)聲音韻律特征的控制起到很重要的作用。一般常用聲音的音強(qiáng)、音長和音色來對(duì)韻律特征進(jìn)行描述[7],他們對(duì)應(yīng)的是聲學(xué)當(dāng)中的幅度、基頻和頻譜的等參數(shù)。韻律控制就是對(duì)聲音的這些參數(shù)進(jìn)行收集和分析,然后語音生成模塊根據(jù)這些參數(shù)特征用語音合成器進(jìn)行語音合成。傳統(tǒng)意義上來說,聲音合成器有兩種,一是基于規(guī)則的合成器,另一種是波形拼接的合成器[8]。基于規(guī)則的合成器是采用模擬人的生理發(fā)聲規(guī)律的方法,先歸納出語音的產(chǎn)生規(guī)律,然后對(duì)信號(hào)進(jìn)行控制,產(chǎn)生合成語義。波形拼接合成器則是把事先錄制好的語音庫按照一定順序重新排序,從而生成符合文本內(nèi)容的語音。隨著技術(shù)的發(fā)展,現(xiàn)在越來越多的是兩種合成方法組合使用,大大提高了合成語音的質(zhì)量[9]。1.1.2語音合成意義語音合成技術(shù)和傳統(tǒng)的聲音播放系統(tǒng)有著根本上的區(qū)別。聲音播放系統(tǒng)如錄音機(jī),是簡單的把采集到的音頻再播放出來,并不能自如的表達(dá)出人們想要傳遞的信息。而語音合成器是把機(jī)器產(chǎn)生或者人為輸入的任何文字信息以音頻的形式輸出出來[10],并且輸出的音頻愈發(fā)趨近于人類自然語音,使人類和機(jī)器的交流成為了可能,同時(shí),在信息的存儲(chǔ),傳輸和及時(shí)性等方面都較其他方式有很大的優(yōu)勢,所以在信息處理領(lǐng)域,它也正作為研究熱點(diǎn)被熱切關(guān)注,技術(shù)愈發(fā)成熟。語言是人類最習(xí)慣的交流方式,在人機(jī)交互方式中,語音交互也是人們使用最為方便的一種,語音識(shí)別、語義理解和語音合成是語音交互的兩個(gè)重要技術(shù),語音合成作為交互過程的最后一步其重要性可見一斑。雖然由于語義理解的技術(shù)發(fā)展水平有一定限制,但語音合成技術(shù)仍取得了很大的進(jìn)步,目前已經(jīng)成功應(yīng)用在很多領(lǐng)域。自助服務(wù)領(lǐng)域隨著科技發(fā)展,越來越多的服務(wù)行業(yè)愈發(fā)自動(dòng)化,各種自助服務(wù)系統(tǒng)也隨之走進(jìn)我們的生活,而語音合成的存在,使我們?cè)谙硎艿姆?wù)的時(shí)候更加流暢和方便,比如銀行的自助辦理系統(tǒng),醫(yī)院的自助叫診系統(tǒng),股市查詢系統(tǒng)。智能終端的人機(jī)交互近年來,隨著人工智能概念的產(chǎn)生和發(fā)展,各種智能終端的交互方式也有了翻天覆地的變化,“聲控”的智能手機(jī)、智能音響、智能家居等智能終端大大提高了我們的生活質(zhì)量,省掉了很多不必要的動(dòng)作,而且即使是不懂使用智能化終端的老人或者不認(rèn)識(shí)文字的小孩也可以對(duì)機(jī)器進(jìn)行控制,擴(kuò)大了使用人群的范圍。有聲讀物閱讀對(duì)于任何人來說都是一個(gè)重要的學(xué)習(xí)途徑,我們通過閱讀接觸跟多新鮮事物,也通過閱讀找尋更真實(shí)的自己,但是節(jié)奏越來越快的生活使我們留給閱讀的時(shí)間越來越少?,F(xiàn)在人們更趨向于碎片化閱讀,而這時(shí)有聲讀物提供了一種新的解決辦法,當(dāng)文字變成語音直接呈現(xiàn)給我們的的耳朵的時(shí)候,我們可以同時(shí)進(jìn)行其他動(dòng)作,比如在路上,或者是散步、鍛煉時(shí),給我們提供了一個(gè)新的機(jī)會(huì)去進(jìn)行閱讀和學(xué)習(xí)。導(dǎo)航系統(tǒng)語音合成技術(shù)和智能地圖軟件結(jié)合為我們的出行帶來了很大的方便。語音導(dǎo)航使導(dǎo)航使我們?cè)诓叫谢蛘唏{車的時(shí)候能更專注的前進(jìn),而不僅為我們提供了詳細(xì),準(zhǔn)確的道路信息,而且還對(duì)路況也有智能化分析,并且通過語音的方式將信息傳遞給人類,保證了信息傳遞的及時(shí)性以及人類最舒適的交互體驗(yàn)。1.2語音合成發(fā)展歷史和現(xiàn)狀1.2.1發(fā)展歷史人們?cè)缭谑呤兰o(jì)就開始了對(duì)語音合成的探索研究[11][12]。有記錄的第一臺(tái)機(jī)械發(fā)音設(shè)備是在1779年,俄羅斯人Kzenstein首先對(duì)五個(gè)長元音(/a/,/e/,/i/,/o/,/u/)的生理發(fā)聲區(qū)別進(jìn)行了解釋,通過模仿人的聲道,采用震動(dòng)簧片做激勵(lì)制作而成。不久之后,VonKempelen[13]成功發(fā)明出一種不近可以發(fā)出原因,還可以發(fā)出短語和句子的“發(fā)音器官”。該裝置是用一個(gè)壓力腔體模仿人體的肺器官,用一個(gè)皮革的管道來對(duì)人體聲帶進(jìn)行模擬,通過改變聲道的形狀可以發(fā)出不同的聲音,用一個(gè)彈簧振片作為激勵(lì)[14],除此之外,還可以通過改變四個(gè)分離的受限通路發(fā)出相應(yīng)的輔音,在當(dāng)時(shí)是比較先進(jìn)的機(jī)械發(fā)聲器。隨著電子元器件的發(fā)展,語音合成技術(shù)也和電子器件結(jié)合起來。1922年第一個(gè)電子語音合成器成功問世,發(fā)明者是Stewart[15],雖然這個(gè)發(fā)生器只能發(fā)出兩個(gè)元音。不久之后的1939年貝爾實(shí)驗(yàn)室的Dudley[16]就成功發(fā)明了第一個(gè)完整的電子語音合成器,該合成器可對(duì)基因和濁音參數(shù)進(jìn)行控制,能夠產(chǎn)生連續(xù)的語音,通過和電子模擬器件的結(jié)合實(shí)現(xiàn)對(duì)聲音的放大和共振。二十世紀(jì)后期,共振峰合成器逐漸開始發(fā)展起來[17]。1953年由WalterLawrence[18]設(shè)計(jì)制作了第一個(gè)共振峰合成器,通過一個(gè)可以移動(dòng)的玻璃片對(duì)共振峰的頻率進(jìn)行控制。1962年瑞典的GunnarFant設(shè)計(jì)制作出級(jí)聯(lián)共振峰合成器,隨后更加復(fù)雜的共振峰合成器也隨之問世,1981年,Klatt開發(fā)的KlattTalk就采用了串/并聯(lián)混合型聲源[19],能夠合成相對(duì)清晰的語音,并通過對(duì)聲源的調(diào)整來模擬各種不同的聲音。Klatt的語音學(xué)領(lǐng)域的卓越貢獻(xiàn)使得語音合成技術(shù)有了很大的發(fā)展。對(duì)于近代語音合成技術(shù)來說,基因同步疊加方法的提出是一次歷史性的進(jìn)步,這是一種不僅可以保持語音的大部分韻律特征而且可以使合成語音同共振峰合成器相比更加自然的合成方法。[20]九十年以來,隨著信號(hào)處理領(lǐng)域的快速發(fā)展,一種基于可訓(xùn)練統(tǒng)計(jì)模型的語音合成方法開始走進(jìn)人們的視野,其原理是對(duì)語音信號(hào)的語音參數(shù)進(jìn)行統(tǒng)計(jì)建模,訓(xùn)練好的聲學(xué)模型進(jìn)行語音合成。這種方法進(jìn)行語音合成更加智能化,減少了人為的參與。其中,隱馬爾科夫模型是比較常用的統(tǒng)計(jì)模型。1.2.2語義合成研究現(xiàn)狀從最開始模擬發(fā)聲器官的機(jī)械合成器,到后來電子器件參與的波形拼接合成方法,再到后來隨著信號(hào)處理領(lǐng)域的發(fā)展產(chǎn)生的基因同步疊加方法,語音合成技術(shù)的發(fā)展總是會(huì)受到其他技術(shù)的引導(dǎo)或是影響。最近最為熱門的基于統(tǒng)計(jì)模型的單元挑選方法,就是伴隨著統(tǒng)計(jì)學(xué)以及大數(shù)據(jù)的發(fā)展,很顯然,未來技術(shù)的發(fā)展將會(huì)打破不同領(lǐng)域之間的墻壁,更多的是融合或是依賴關(guān)系。語音合成技術(shù)的不斷發(fā)展,在越來越多的領(lǐng)域都成為了不可或缺的角色,同時(shí)也同其他技術(shù)的不斷更新而面臨著巨大挑戰(zhàn)和改革[21]。近年來人們對(duì)人工智能的不斷探索和研究,使得相關(guān)的人工神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)[22],人機(jī)交互等關(guān)鍵技術(shù)也隨之成為研究熱點(diǎn),而語音合成的發(fā)展也逐漸趨向智能化,自動(dòng)化,從最開始的規(guī)則驅(qū)動(dòng)轉(zhuǎn)向現(xiàn)在的數(shù)據(jù)驅(qū)動(dòng),不僅節(jié)省了時(shí)間,而且可處理的文本數(shù)據(jù)數(shù)量也大大增加,同時(shí),在各種統(tǒng)計(jì)模型的支持下,文本處理能力也在不斷增強(qiáng),生成的語音也更加流暢和人自然,慢慢趨近于符合人類交流需要的自然水平。1.3語音合成主要方法1.3.1參數(shù)合成方法發(fā)音器官參數(shù)合成法最早的合成發(fā)放采用模擬人體發(fā)聲器官的參數(shù)合成方法對(duì)語音進(jìn)行合成[23]。根據(jù)發(fā)聲原理,聲音的產(chǎn)生主要分為聲源激勵(lì)、聲道濾波和口鼻輻射三個(gè)主要過程。這種方法就是根據(jù)這個(gè)原理,用聲音參數(shù)模擬聲道,直接用物理儀器對(duì)人體的發(fā)音器官進(jìn)行模擬合成語音,而在當(dāng)時(shí)由于技術(shù)的限制無法對(duì)聲音參數(shù)進(jìn)行準(zhǔn)確測量,所以不能對(duì)發(fā)音復(fù)雜的語音進(jìn)行合成。線性預(yù)測參數(shù)合成法線性預(yù)測參數(shù)合成方法屬于源-濾波器模型[24],它和器官參數(shù)合成法的主要區(qū)別在于后者直接利用聲音參數(shù)模擬聲道,而源-濾波器模型用濾波器來模擬聲道,聲音參數(shù)則用來改變聲道模型,使得合成語音具有不同的音色。線性預(yù)測的聲道模型如下:(1.1)其中G為增益,ai共振峰合成法共振峰同樣也是源-濾波器模型,但同線性預(yù)測參數(shù)合成的區(qū)別在于共振峰合成法側(cè)重于模擬聲道的諧振特性。共振峰是指聲音頻譜中能量相對(duì)密集的一些區(qū)域,反映了聲道特性的重要特征,是聲音信息最直接的來源。其主要原理是:首先用多個(gè)共振峰濾波器來對(duì)聲道特性進(jìn)行模擬,然后調(diào)制激勵(lì)信號(hào),再通過輻射效應(yīng)輸出語音。共振峰合成法通過對(duì)聲音參數(shù)的控制可以合成不同發(fā)音人的聲音,其優(yōu)勢在于強(qiáng)大的韻律調(diào)整能力,然而合成語音的自然度仍然不能滿足大眾要求。1.3.2波形拼接合成法以上的參數(shù)合成方法是基于規(guī)則的合成方法,其合成過程中人為因素起了很重要的作用,而波形拼接合成方法是基于數(shù)據(jù)的合成方法,顧名思義,是把波形進(jìn)行拼接獲得語音的一種方法,其原理主要是直接對(duì)事先采集好的語音信號(hào)進(jìn)行波形貯存,在合成語音時(shí)直接挑選出合適的波形并拼接在一起,由于用于拼接的聲音波形都是從語音庫中挑選出來的,所以這種方法合成的語音自然度性能較好,合成語音的音質(zhì)較高。上個(gè)世紀(jì)九十年代提出的PSOLA的提出為語音合成技術(shù)的發(fā)展帶來了質(zhì)的飛躍。基音同步疊加技術(shù)由Moulines和Charpentier提出[25],可以對(duì)語音信號(hào)中基頻和時(shí)長進(jìn)行相關(guān)修改,以保證合成語音的原有聲音特性。其具體的實(shí)施步驟有三個(gè):分析語音信號(hào)的分析是指對(duì)源語音信號(hào)進(jìn)行加窗處理[26],其中采用的的窗函數(shù)是基音同步的函數(shù),生成一組短時(shí)分析信號(hào),基音信息的準(zhǔn)確度對(duì)于后續(xù)的合成步驟有很大影響。調(diào)整對(duì)分析生成的短時(shí)語音信號(hào)進(jìn)行轉(zhuǎn)換和調(diào)整,他這個(gè)過程分為三個(gè)步驟:對(duì)短時(shí)語音信號(hào)的數(shù)量的調(diào)整、對(duì)基音同步標(biāo)志的間隔的調(diào)整以及對(duì)短時(shí)語音信號(hào)的波形進(jìn)行調(diào)整。疊加疊加是指對(duì)調(diào)整之后的短時(shí)語音信號(hào)進(jìn)行疊加處理,最終得到合成的語音信號(hào),基頻的疊加通常通過改變基音標(biāo)記序列的間隔來實(shí)現(xiàn)[27],而語音時(shí)長的修改通過刪除或者增加基因標(biāo)記序列來實(shí)現(xiàn),常用的疊加處理方法如最小均方差法。1.3.3基于統(tǒng)計(jì)模型的合成方法近年來隨著統(tǒng)計(jì)學(xué),模式識(shí)別的發(fā)展走入人們視野的統(tǒng)計(jì)模型的合成方法越來越為熱門,其中最為常用的便是基于隱馬爾科夫模型。基于模型的合成方法的原理是通過訓(xùn)練的方式對(duì)聲學(xué)參數(shù)和標(biāo)注信息進(jìn)行建模,再結(jié)合之前的參數(shù)合成或是波形拼接方式,合成的語音既具有高自然度的有點(diǎn),同時(shí)又能減少人工的參與,實(shí)現(xiàn)自動(dòng)化。本文的第二章將詳細(xì)介紹基于隱馬爾科夫模型的語音合成方法的原理以及流程。1.4本章小結(jié)本章主要介紹了語音合成的概念和意義,目前人工智能的迅速發(fā)展使得語音交互成為最主要的人機(jī)交互手段,而語音合成也正是因此而受到重視,目前已經(jīng)應(yīng)用到很多領(lǐng)域,如智能終端、語音導(dǎo)航和有聲讀物等。還簡單介紹了語音合成的發(fā)展歷史以及發(fā)展現(xiàn)狀,最后介紹了語音合成的幾種主要的合成方法,其中基于統(tǒng)計(jì)模型的合成方法是本文主要研究的一種合成方法。

第二章基于HMM模型的語音合成2.1馬爾科夫過程要了解馬爾科夫過程首先要明確什么是馬爾科夫性質(zhì),假設(shè)隨機(jī)過程中某一時(shí)刻的狀態(tài)st(2.1)即隨機(jī)過程中某一時(shí)刻的狀態(tài)st,只與它前一時(shí)刻的狀態(tài)st?1若為一條馬爾科夫鏈,則有:(2.2)其中,此時(shí),若不考慮時(shí)間序列,該馬爾科夫鏈可以描述一個(gè)具有限個(gè)狀態(tài)的過程.2.2隱馬爾科夫模型如果馬爾科夫鏈中任意時(shí)刻的狀態(tài)變量不可見,也就是說無法直接觀測到,而每一個(gè)時(shí)刻都有一個(gè)可見的觀測值ot與之對(duì)應(yīng),而且每一個(gè)ot與當(dāng)前時(shí)刻的隱含狀態(tài)一一對(duì)應(yīng),這時(shí)我們稱該模型為隱馬爾科夫模型,所以,隱馬爾科夫模型中的馬爾科夫鏈實(shí)際上指的是隱含的狀態(tài)序列序列。HMM模型的關(guān)鍵是從可觀察序列中確定該過程的隱含狀態(tài),并通過這些參數(shù)來做進(jìn)一步的分析,如模式識(shí)別、語音識(shí)別[29]等。圖2.1HMM模型示意圖如圖2.1所示為隱馬爾科夫模型的示意圖,HMM基本模型具有如下參數(shù):觀察序列觀察序列為我們可以觀測到的這個(gè)隨機(jī)過程的輸出符號(hào)集合,我們用O表示,O={O1狀態(tài)序列狀態(tài)序列是該模型輸出的所有狀態(tài)的合集,我們用q來表示,q={1,2,…,N},N為系統(tǒng)的狀態(tài)總數(shù),qt狀態(tài)轉(zhuǎn)移概率狀態(tài)轉(zhuǎn)移概率指的是從當(dāng)前狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)的概率[30],我們用A表示,A={aij}(2.3)輸出概率矩陣輸出概率矩陣指的是在狀態(tài)i時(shí)輸出對(duì)應(yīng)的狀態(tài)O時(shí)的概率的聚合,我們用B表示輸出概率矩陣,,這個(gè)概率的定義如下:(2.4)其中Xt初始狀態(tài)序列HMM模型一般用于對(duì)數(shù)據(jù)的估計(jì),所以除了以上四個(gè)參數(shù),我們還會(huì)已知一部分的可觀察序列的狀態(tài),稱為初始狀態(tài)序列,用∏表示,={πj},這時(shí)我們用φ2.3HMM模型的三個(gè)問題評(píng)估問題,解碼問題和學(xué)習(xí)問題是HMM模型的三個(gè)主要應(yīng)用。2.3.1評(píng)估問題即已知一個(gè)HMM模型=(A,B,∏),和一個(gè)已知的觀測序列前向算法是為了解決動(dòng)態(tài)規(guī)劃問題而發(fā)明出來的算法,應(yīng)用前向算法時(shí),我們首先列舉出局部狀態(tài)的遞推關(guān)系,然后一步步進(jìn)行迭代,最終得到整個(gè)問題的最優(yōu)解。定義前向概率αti為觀測狀態(tài)為o={o1,(2.5)則時(shí)刻t+1對(duì)應(yīng)的的隱藏狀態(tài)i的前向概率為:(2.6)其中N為狀態(tài)數(shù)總量,一次遞推后得到計(jì)算的最終結(jié)果為:(2.7)2.3.2解碼問題即已知HMM模型φ=(A,B,∏)和一個(gè)已知的觀測序列將要求得的最佳狀態(tài)序列定義為在給定觀測序列O的前提下,概率P=(S|O,φ)最大的狀態(tài)序列S=(2.8)它是在時(shí)刻t產(chǎn)生觀測序列X1t[(2.9)為了得到完整的最佳狀態(tài)序列,需要遍歷每個(gè)狀態(tài)。定義Bt(j)為t時(shí)刻狀態(tài)為j的最佳序列中,前一個(gè)時(shí)刻所處的狀態(tài)序號(hào),這時(shí)能夠簡化利用Viterbi算法求解最佳狀態(tài)序列的步驟[第一步:初始化(2.10)第二步:迭代(2.11)(2.11)第三步:終止全局的最佳狀態(tài)序列概率(2.13)(2.14)第四步:路徑回溯st?=Bt+1s2.3.3學(xué)習(xí)問題即已知觀測序列o={o1,o2,…,EM算法是一種基于最大似然估計(jì)的的優(yōu)化算法,該算法一般分為兩個(gè)步驟:E-step:根據(jù)參數(shù)計(jì)算每個(gè)樣本屬于某個(gè)狀態(tài)的概率這個(gè)概率一般用Q表示。M-step:根據(jù)上一步計(jì)算得出的概率Q,求解出含有該參數(shù)的最大似然函數(shù),并且更新該參數(shù)的值在應(yīng)用EM算法求解HMM模型參數(shù)的問題中,我們需要在E步求出聯(lián)合分布P=(Q|φ)基于條件概率P(Q|O,Φ)的期望,其中EΦ,Φ=Q在M步,我們對(duì)上述式子做極大化處理,得到更新后的模型參數(shù):Φ=argmaxΦQP接下來就是E步和M步的重復(fù)迭代,一直到Φ收斂,便可依次求解模型參數(shù)A,B,∏。2.4基于HMM的語音合成2.4.1TTS系統(tǒng)結(jié)構(gòu)如圖2.2所示為基于HMM模型的TTS系統(tǒng)的結(jié)構(gòu)圖。一個(gè)完整的TTS系統(tǒng)包括訓(xùn)練部分和合成部分。訓(xùn)練部分主要包括對(duì)語料的預(yù)處理和HMM模型的訓(xùn)練兩個(gè)步驟。其中對(duì)語料的預(yù)處理就是將語料庫中的音頻文件進(jìn)行文本標(biāo)注,進(jìn)而得到訓(xùn)練語音的單音節(jié)文本的標(biāo)注文件和上下文相關(guān)的標(biāo)注文件,得到的這些標(biāo)注文件可為HMM模型訓(xùn)練提供輸入的文本信息。在HMM模型訓(xùn)練之前,還需對(duì)語音信號(hào)進(jìn)行聲學(xué)參數(shù)提取,主要包括激勵(lì)參數(shù)提取和譜參數(shù)提取,然后對(duì)以上參數(shù)進(jìn)行建模。在HMM的模型訓(xùn)練中,得到含有激勵(lì)參數(shù)、譜參數(shù)以及上下文信息的HMM模型庫。在TTS系統(tǒng)的合成部分,首先利用文本分析工具對(duì)目標(biāo)文本進(jìn)行預(yù)處理,即文本分析處理,這一過程主要是將輸入的目標(biāo)文本轉(zhuǎn)換成計(jì)算機(jī)可以理解的數(shù)據(jù)文件,分析結(jié)果主要是標(biāo)注音素后的文本的發(fā)音序列,其中還包含了上下文的信息,將這些標(biāo)注文件根據(jù)聚類策樹進(jìn)行預(yù)測,預(yù)測結(jié)束后便可獲得包含上下文信息的HMM模型,再根據(jù)HMM模型的參數(shù)學(xué)習(xí)算法得到聲音的基頻參數(shù)F0和Mel倒譜系數(shù)等聲學(xué)參數(shù),最后把這些參數(shù)輸入到合成濾波器中便可得到合成的語音信號(hào)。圖2.2HMM語音合成流程圖2.4.3模型訓(xùn)練階段基于HMM模型的語音合成方法的訓(xùn)練主要包括:準(zhǔn)備語料庫、提取聲學(xué)參數(shù)和決策樹聚類等步驟。語料庫的設(shè)計(jì)目標(biāo)是用盡可能少的語料句子包含盡可能多的自然語音和用法,要盡可能選取涵蓋語音學(xué)特征的文本作為選取語料的基礎(chǔ),即要包含所有的元音、輔音,也要包含常用的動(dòng)詞、名詞、形容詞和副詞等。對(duì)聲學(xué)參數(shù)的提取一般包括Mel倒譜系數(shù)和基頻參數(shù)F0等,這些參數(shù)就代表了語音的內(nèi)容,發(fā)音規(guī)則和說話人聲音的韻律特征等,參數(shù)越多對(duì)合成語音的還原度就越高?;l參數(shù)無法應(yīng)用用連續(xù)或者離散的分布進(jìn)行建模,因此這里我們選擇多空間概率分布的HMM(MSD-HMM)建模方法。在MSD-HMM模型中,每一種狀態(tài)都有至少兩種概率分布,如圖2.3所示?;lF0的輸出狀態(tài)概率如圖2.4所示。圖2.3基頻F0的MSD-HMM建模圖2.4基頻F0的狀態(tài)輸出對(duì)Mel倒譜系數(shù)的建模同基頻F0的建模方法一樣,都是MSD-HMM建模。具體建模方法見圖2.5。圖2.5Mel的MSD-HMM的建模為了保證合成語音的流暢性,除了對(duì)以上聲學(xué)參數(shù)建模之外還要對(duì)文本的上下文屬性也進(jìn)行建模,這樣一來就會(huì)限制訓(xùn)練數(shù)據(jù)總量,而采用聚類分析法可以根據(jù)數(shù)據(jù)之間的相似性將數(shù)據(jù)分類,分成互不相同的類別,用這種方法構(gòu)造決策樹法進(jìn)行聚類。如圖2.6是一個(gè)自頂向下的遞歸構(gòu)造決策樹,從頂點(diǎn)開始,根據(jù)節(jié)點(diǎn)的問題進(jìn)行分叉,一直到滿足所有的條件為之。通過這種方法可以大大減少建模的數(shù)量。圖2.6聚類決策樹2.4.4語音合成階段本文中的基于HMM的參數(shù)合成模型是模仿人體發(fā)音系統(tǒng)采用激勵(lì)-合成的算法模型。如圖2.7為人類發(fā)聲系統(tǒng)的原理示意圖。人的發(fā)聲就是由氣流激勵(lì)聲帶振動(dòng)激勵(lì)聲道中空氣發(fā)聲振動(dòng),并從口鼻兩處向外輻射而成[34]。圖2.7人體發(fā)聲流程圖語音按照激勵(lì)形式不同大致可以分為三種:清音、濁音和摩擦音。而在激勵(lì)-合成模型中激勵(lì)信號(hào)一般只分清音和濁音兩種,清音一般是指氣流使聲帶振動(dòng)產(chǎn)生周期脈沖氣流,而濁音是指氣流并沒有使聲帶振動(dòng),二是在某處收縮,這時(shí)氣流高速通過聲帶收縮部分。激勵(lì)-合成模型的基本原理如圖2.8所示。圖2.8激勵(lì)-合成算法該模型對(duì)上述人體器官進(jìn)行模仿,其中,脈沖序列對(duì)應(yīng)語音信號(hào)中的濁音,而白噪聲對(duì)應(yīng)語音信號(hào)中的清音,?(n)是一個(gè)線性時(shí)不變系統(tǒng),用來模擬聲帶等口腔器官,最終生成的語音對(duì)應(yīng)的就是人體正常發(fā)出的聲音。在頻域上,H(2.5本章小結(jié)本章首先對(duì)HMM模型及其原理進(jìn)行研究,主要研究了HMM模型的三種經(jīng)典問題以及它們各自的解決算法,主要介紹了學(xué)習(xí)問題和解碼問題因?yàn)樗鼈兎謩e對(duì)應(yīng)了語音合成中的訓(xùn)練階段和合成階段。最后介紹了基于HMM的語音合成流程和具體步驟,為下一章的嵌入式實(shí)現(xiàn)做理論基礎(chǔ)。第三章基于嵌入式的語音合成實(shí)現(xiàn)3.1ARM嵌入式平臺(tái)簡介3.1.1EAIDK套件概述EAIDK是OPENAILAB攜手ARMChina專為人工智能開發(fā)者打造的一款嵌入式人工智能開發(fā)套件,面向邊緣計(jì)算的人工智能研究,該平臺(tái)不僅具備語音、視覺等傳感器數(shù)據(jù)采集能力,而且適用于多場景的運(yùn)動(dòng)控制接口;滿足AI教育、算法應(yīng)用開發(fā)、產(chǎn)品原型開發(fā)驗(yàn)證等需求,并且支持視覺分析處理、語音識(shí)別、語義分析、語音合成、SLAM等應(yīng)用。EAIDK610-P0主芯片采用瑞芯微的RK3399,同時(shí)搭載OPENAILAB嵌入式AI開發(fā)平臺(tái)AID(包含支持異構(gòu)計(jì)算庫HCL、嵌入式深度學(xué)習(xí)框架Tengine以及輕量級(jí)嵌入式計(jì)算機(jī)視覺加速庫BladeCV)。為AI應(yīng)用提供高效、統(tǒng)一、簡潔的API接口。3.1.2ARM開發(fā)板RK3399的概述RK3399是瑞芯微公司的一款六核ARM64位處理器,主頻高達(dá)2.0GHz,配置4GBLPDDR4雙通道64位ARM高性能內(nèi)存。具有多種供電方式,可接入擴(kuò)展板。擁有Type-CPD2.0電源控制芯片、支持寬電壓(5V-15V)輸入,另外還可以采用POE+(802.3AT,輸出功率30W)增強(qiáng)型以太網(wǎng)充電方式,或雙節(jié)電池供電,滿足用戶不同場景的應(yīng)用選擇。下圖3.1和3.2分別為RK3399的正反面實(shí)物圖。圖3.1RK3399正面圖3.2RK3399反面3.2Linux系統(tǒng)Linux是一種免費(fèi)使用和自由傳播的類Unix操作系統(tǒng)[35],該操作系統(tǒng)基于POSIX和UNIX的多用戶、多任務(wù),并且支持多線程以及多CPU。本文中使用的操作系統(tǒng)版本為Ubuntu18.04LTS,Ubuntu18.04LTS為Ubuntu2018年4月份發(fā)布的最新版本系統(tǒng),該系統(tǒng)對(duì)JDK和系統(tǒng)安全性等做了相關(guān)改進(jìn)。在Linux環(huán)境下我們一般通過命令來進(jìn)行對(duì)文件的操作,軟件的更新和安裝以及程序的書寫及編譯,剛接觸Linux的人可能會(huì)不習(xí)慣這種陌生的操作方式,但是熟練了之后便可以發(fā)現(xiàn)其中的方便之處,表3.1中列舉了一些Linux環(huán)境下的常用指令。表3.1Linux常用指令Linux命令描述cd/home進(jìn)入“/home”目錄cd..返回上一級(jí)目錄ls查看目錄中的文件ls-l顯示文件和目錄的詳細(xì)信息mkdirdir1新建名為“dir1”的文件rmfile1刪除名為“file1”的文件rm-rfdir1刪除名為“dir1”的文件夾tar-xzvfachieve.tar.gz解壓achieve.tar.gzsudoyuminstallpackage下載并安裝package安裝包vifile編輯“file”make編譯makeclean編譯安裝在Linux環(huán)境下代碼的編寫在vim編輯器中進(jìn)行,該編輯器功能強(qiáng)大并且十分智能,可以通過字體顏色辨別語法的正確性[36],便于程序編寫。Vim會(huì)根據(jù)文件的開頭信息自動(dòng)判斷文件內(nèi)容而執(zhí)行改程序的語法判斷,除此之外,編輯器內(nèi)還支持如搜索、多文件編輯、模塊復(fù)制等額外的功能,使我們代碼的編寫十分便捷。Vim的使用也非常簡單,剛啟動(dòng)時(shí)對(duì)應(yīng)的是命令模式,這時(shí)可以輸入對(duì)編輯器的相關(guān)指令如保存、退出。在命令模式下按i進(jìn)入輸入模式[37],也可以說是編輯模式,這時(shí)可以對(duì)文件進(jìn)行編輯。在輸入模式下按Esc鍵進(jìn)入命令模式,這時(shí)再按:之后便可以輸入相關(guān)指令如保存、退出。表3.2所示為vim編輯器的常用指令。表3.2vim編輯器常用指令vim指令作用w保存文件q退出編輯器wq保存文件并退出編輯器q!退出編輯器但不保存u撤銷上一步操作setnember顯示行號(hào)3.3基于ARM嵌入式的Linux系統(tǒng)編譯和移植圖3.5嵌入式Linux開發(fā)流程圖在RK3399開發(fā)板上實(shí)現(xiàn)Linux系統(tǒng)的編譯和移植需要首先在PC端windows系統(tǒng)下安裝運(yùn)行虛擬機(jī)VMwareWorkstation,創(chuàng)建系統(tǒng)平臺(tái)。如圖3.5是嵌入式Linux開發(fā)的操作流程圖。3.3.1安裝交叉編譯環(huán)境交叉編譯指的是在PC端對(duì)源代碼進(jìn)行編譯生成在ARM開發(fā)板上可以直接運(yùn)行的可執(zhí)行程序。交叉編譯需要依賴交叉編譯工具鏈,工具鏈可以在官網(wǎng)進(jìn)行下載,本文使用的是64位的arm-linux-gnu-4.5.1.tar.gz。將該壓縮包拷貝到Linux系統(tǒng)的目錄/usr/local/arm下進(jìn)行解壓并安裝。安裝的主要步驟為:解壓工具鏈壓縮包:sudotar-xzvfrk3399-gcc-linux-gnu.tar.gz更改環(huán)境變量:sudonano/etc/profile在最后一行加入編譯鏈/bin文件夾路徑,保存并退出使環(huán)境變量生效:source/etc/profile[38]查看環(huán)境變量是否成功添加:echo/etc/profile若有路徑中有編譯鏈的路徑則表示成功查看是否安裝成功:aarch64-linux-gnu-gcc-v若出現(xiàn)版本信息則成功,如圖3.6所示。圖3.6交叉編譯環(huán)境安裝成功3.3.2虛擬機(jī)和ARM開發(fā)板的鏈接介質(zhì)常見的鏈接方式有三種:串口方式,USB連接和網(wǎng)線連接[39]。不同的連接方式有各自的軟件支持,本文使用的是網(wǎng)線連接方式,常見的網(wǎng)絡(luò)連接服務(wù)主要有兩個(gè):tftp服務(wù)和nfs服務(wù)。本文選擇的是前者,通過tftp可以直接將文件在內(nèi)存中運(yùn)行,可以減少Flash的燒錄次數(shù),提高了開發(fā)效率。3.3.3編譯Linux內(nèi)核Linux內(nèi)核使系統(tǒng)中起控制作用的核心部分,對(duì)系統(tǒng)的網(wǎng)絡(luò)和文件系統(tǒng)以及進(jìn)程和設(shè)備驅(qū)動(dòng)等反面進(jìn)行控制。Linux內(nèi)核的配置主要目的是精簡其自身的框架結(jié)構(gòu)[40][41]。Linux內(nèi)核的編譯配置和移植的主要步驟為:首先從官網(wǎng)下載Linux內(nèi)核的壓縮包,然后拷貝到工作目錄/usr/local/arm中并解壓,進(jìn)入目錄利用#./configure進(jìn)行配置,再利用#make命令來編譯Linux內(nèi)核。最后把生成的uImage內(nèi)核進(jìn)行重新命名之后放入網(wǎng)絡(luò)文件系統(tǒng)中,通網(wǎng)線的方式傳輸?shù)紸RM開發(fā)板上。3.3.4文件傳輸在windows系統(tǒng)下載安裝Xshell軟件可通過SSH方式對(duì)虛擬機(jī)Linux系統(tǒng)進(jìn)行遠(yuǎn)程控制,首先要在主機(jī)和虛擬機(jī)中開啟SSH服務(wù),Linux指令為sudoapt-getinstallopenssh-server。然后通過ifconfig指令查詢虛擬機(jī)的IP地址,如圖n所示。然后在Xshell中新建連接并填入虛擬機(jī)IP地址便可進(jìn)行連接,連接成功后可實(shí)現(xiàn)遠(yuǎn)程控制和互傳文件等操作。Xshell中可以通過ZMODEM直接進(jìn)行互傳文件,只需要安裝rz和sz指令,通過命令:#sudoapt-getinstalllrzsz,就可以使用。這種方式簡化了掛載的過程并且也可以實(shí)現(xiàn)網(wǎng)絡(luò)文件共享的功能。3.4基于Linux系統(tǒng)的語音合成軟件設(shè)計(jì)本文的軟件設(shè)計(jì)基于Flite框架實(shí)現(xiàn)嵌入式平臺(tái)的TTS,F(xiàn)lite是為了解決Festival語音合成系統(tǒng)由于過于臃腫而無法在嵌入式平臺(tái)中應(yīng)用的問題而被開發(fā)出來的,因此,F(xiàn)lite具有短小精悍,快速實(shí)時(shí)[42]等優(yōu)勢,采用的程序語言為標(biāo)準(zhǔn)C。Flite源代碼可以在其開源官網(wǎng)進(jìn)行下載,本文中使用的是第四版,即flite-1.4-release,該版本完全采用C語言,便攜性更好,速度更快,同時(shí)重新演繹了Festival架構(gòu)的核心部分,使每個(gè)系統(tǒng)的聲音之間具有緊密的兼容性。除此之外,還支持將FestVox語音編譯為Flite語音,能夠很好的實(shí)現(xiàn)合成功能。圖3.7Flite主函數(shù)流程圖Flite主函數(shù)中先對(duì)運(yùn)行flite_init()函數(shù)對(duì)合成進(jìn)行初始化,然后進(jìn)行音素庫的選擇,F(xiàn)lite框架中包含了5種可以選擇的音素庫,即訓(xùn)練好參數(shù)模型的HMM,名字分別是awb,kal,kal16,slt,rms,其中kal為默認(rèn)音素庫,可以通過更改相關(guān)變量對(duì)默認(rèn)音素庫進(jìn)行修改。在選擇音素庫之后便開始對(duì)語音進(jìn)行合成。主函數(shù)的程序流程框圖如圖3.7所示。將Flite在PC端虛擬機(jī)內(nèi)調(diào)試完成后,進(jìn)行交叉編譯,生成可以在嵌入式ARM平臺(tái)執(zhí)行的可執(zhí)行文件,然后將代碼包通過ZMODEM方式拷貝到ARM平臺(tái),執(zhí)行可執(zhí)行文件后得到音頻文件,并可以在ARM平臺(tái)上進(jìn)行音頻播放,從而實(shí)現(xiàn)了語音合成的功能。Flite主程序見附錄A。3.5本章小結(jié)本章主要介紹了在嵌入式平臺(tái)上實(shí)現(xiàn)語音合成功能的流程。首先對(duì)嵌入式平臺(tái)EAIDK和PC端的Linux系統(tǒng)進(jìn)行簡單介紹,然后對(duì)交叉編譯相關(guān)概念進(jìn)行陳述,最后詳細(xì)介紹了基于Flite框架在嵌入式平臺(tái)實(shí)現(xiàn)語音合成功能的過程和軟件結(jié)構(gòu)。

第四章語音合成性能測試結(jié)果與分析實(shí)現(xiàn)在嵌入式平臺(tái)上語音合成功能后,為了進(jìn)一步分析該語音合成實(shí)驗(yàn)的所合成的語音效果以及參數(shù)研究,進(jìn)行了對(duì)合成語音的質(zhì)量評(píng)測和對(duì)比[43],本文主要對(duì)比了不同音素庫的合成參數(shù)以及合成語音的質(zhì)量,為更好的應(yīng)用基于HMM語音合成技術(shù)以及嵌入式Flite框架提供數(shù)據(jù)支持。評(píng)測包括兩部分,一種是主觀評(píng)測,一種是客觀評(píng)測,先對(duì)五種音素庫合成的語音進(jìn)行比較,繼而將五種音素庫合成的語音同人聲作對(duì)比,然后總結(jié)出合成語音質(zhì)量相對(duì)較好的語音參數(shù)。4.1語音質(zhì)量的主觀評(píng)測該實(shí)驗(yàn)首先為語音質(zhì)量設(shè)置好五個(gè)等級(jí),也就是將人聲作為參照,根據(jù)語音的準(zhǔn)確度、自然度和清晰度等進(jìn)行劃分五個(gè)等級(jí)[44],也即五分制。主觀評(píng)測的方法為MOS評(píng)測也成為平均意見得分,是一種常用的評(píng)分標(biāo)準(zhǔn),用該評(píng)測方法對(duì)聲音的自然度進(jìn)行打分。參加測評(píng)的志愿者選用了五位本專業(yè)對(duì)語音有所了解的同學(xué)以及五位其他專業(yè)的同學(xué),評(píng)測的環(huán)境是安靜的室內(nèi)通過立體聲音響對(duì)語音進(jìn)行播放,志愿者分別為五種不同的合成聲音進(jìn)行打分。其中MOS的打分機(jī)制如表4.1所示。表4.1MOS評(píng)分機(jī)制得分質(zhì)量等級(jí)自然度5優(yōu)感覺不到失真4良感覺出失真但是聽著舒服3中感覺到失真且聽著不舒服2差不舒服的感覺很明顯但是可以忍受1劣不舒服的感覺很強(qiáng)烈且無法忍受對(duì)于MOS測評(píng)的結(jié)果,我們用公式5.1來進(jìn)行計(jì)算:MOS=1Mi=1其中M表示總票數(shù),mi表示得到其中某一類具體分的票數(shù),score我們對(duì)五種音素庫合成的語音分別進(jìn)行打分,十個(gè)人在試聽后根據(jù)聽到第一感覺按照打分制的標(biāo)準(zhǔn)進(jìn)行打分,打分結(jié)果如表4.2所示,可以看出,rms音素庫的平均得分最高,也就是說其合成語音更加符合人類聽覺習(xí)慣,其他幾種音素庫的合成語音也都達(dá)到了合成語音的質(zhì)量標(biāo)準(zhǔn)。表4.2MOS評(píng)分結(jié)果五種音素庫質(zhì)量MOS評(píng)分音素庫awbkalkal16sltrms分?jǐn)?shù)143354分?jǐn)?shù)244445分?jǐn)?shù)353344分?jǐn)?shù)443354分?jǐn)?shù)534434分?jǐn)?shù)644445分?jǐn)?shù)745544分?jǐn)?shù)854444分?jǐn)?shù)943344分?jǐn)?shù)1054435平均分44.34.2語音質(zhì)量的客觀評(píng)測語音質(zhì)量的客觀測試是指將用嵌入式系統(tǒng)合成的語音和人類發(fā)出的語音進(jìn)行參數(shù)對(duì)比,本文采用國際電信聯(lián)盟建議書提供的語音質(zhì)量客觀評(píng)測方法PESQ。PESQ的測試得分規(guī)定在0.5-4.5之間,分?jǐn)?shù)越低,質(zhì)量越差,在失真嚴(yán)重的情況下也有可能會(huì)產(chǎn)生0.5分以下的分?jǐn)?shù)[45]。PSEQ評(píng)分工具可以在ITUPESQ官方網(wǎng)站/rec/T-REC-P.862/en進(jìn)行下載,然后再windows下的powershell找到文件路徑運(yùn)行。如圖4.1為PESQ打開成功示意圖。圖4.1PESQ打開成功PESQ的使用指令為:./PESQ.exe[options]refdeg其中[options]為采樣率的選擇,一般為+8000Hz或者+16000Hz,ref為原始文件,deg為待評(píng)估文件,PESQ將待評(píng)估文件同原始文件進(jìn)行比較,比較過程通過三個(gè)不同階段使用很多的頻譜值計(jì)算很多大數(shù)量的不同的對(duì)稱和非對(duì)稱的參數(shù),最終給出客觀評(píng)測分?jǐn)?shù)。我們?cè)谠搶?shí)驗(yàn)中對(duì)五種音素庫合成的語音分別同人聲語音進(jìn)行評(píng)測,評(píng)測的文本為一段BBC新聞稿,原文如下:TheBBChaslearnedthattheBritishPrimeMinisterGordonBrownhasdecidedBBC,thattheBritishgeneralelectionwilltakeplaceonMay6th.MrBrownwillgotoBuckinghamPalacetomorrowTuesday,toaskQueenElizabethtodissolveparliament,andthenmakeaformalannouncementoftheelectiondate.Thatwillstarttheofficialelectioncampaign,which,aBBCcorrespondentsays,BBC,willbedominatedbyissuesoftaxation,andspendinginthewakeoftheglobalrecession.[46]評(píng)測的得分結(jié)果如下表4.3所示,可以看出其中合成質(zhì)量最高的是awb音素庫,該音素庫的合成語音通原聲的得分比達(dá)到98.1%,表明其合成語音準(zhǔn)確且流暢,而其他幾種音素庫的合成語音也都遠(yuǎn)遠(yuǎn)超過及格標(biāo)準(zhǔn)并且同主觀評(píng)測的結(jié)果相接近,都通過了PESQ評(píng)測。表4.3PESQ得分結(jié)果音素庫Pesq得分rmssltawbkalkal16原聲3.1553.2083.2112.2182.218合成語音3.0533.1323.1521.8261.826得分比0.967670.97630390.9816260.8232640.8232634.3評(píng)測結(jié)果總結(jié)為了對(duì)嵌入式平臺(tái)合成的語音進(jìn)行質(zhì)量評(píng)估,采用主觀評(píng)測和客觀評(píng)測兩種方式對(duì)五種音素庫合成的語音進(jìn)行了質(zhì)量檢驗(yàn),根據(jù)兩種評(píng)測的結(jié)果可以得出rms和awb兩種音素庫合成語音質(zhì)量較其他幾種音素庫合成語音質(zhì)量高,而其他幾種音素庫的合成語音也達(dá)到了合格的標(biāo)準(zhǔn),可證明在嵌入式系統(tǒng)上實(shí)現(xiàn)語音合成功能成功。第五章總結(jié)和展望5.1總結(jié)本文是基于HMM的語音合成的嵌入式ARM平臺(tái)實(shí)現(xiàn),主要研究了HMM模型在嵌入式ARM平臺(tái)上的應(yīng)用,基于統(tǒng)計(jì)模型的語音合成目前已經(jīng)大量應(yīng)用于各種終端和服務(wù)器,其中HMM模型是最為常用的一種,用該方法合成的語音準(zhǔn)確流暢并且可以通過訓(xùn)練語料庫合成不同人的聲音,生成的語音質(zhì)量可以通過PESQ客觀評(píng)測。本文硬件選用基于ARMRK3399的OPENAILABEAIDK610-P0人工智能開發(fā)平臺(tái),軟件選擇基于Flite的開源語音合成基本框架,最終在嵌入式平臺(tái)上實(shí)現(xiàn)語音合成功能并播放合成語音,并且可以選擇不同的音素庫,基本完成了任務(wù)書上規(guī)定的相關(guān)要求。畢業(yè)設(shè)計(jì)過程中主要的工作內(nèi)容如下:對(duì)語音合成技術(shù)的歷史和發(fā)展歷程進(jìn)行研究,了解了當(dāng)前語音合成的主要關(guān)鍵技術(shù),尤其是基于HMM模型的語音合成技術(shù)。對(duì)該合成方法的重要算法和基本問題進(jìn)行了研究。對(duì)本文使用的嵌入式開發(fā)平臺(tái)進(jìn)行研究學(xué)習(xí),包括EAIDK610-P0的硬件電路,Linux系統(tǒng),交叉編譯等相關(guān)內(nèi)容,實(shí)現(xiàn)將Flite框架在嵌入式系統(tǒng)的編譯和移植,最終在嵌入式ARM平臺(tái)實(shí)現(xiàn)語音合成功能,并可以通過嵌入式平臺(tái)進(jìn)行語音播放。對(duì)語音評(píng)測方案的設(shè)計(jì),對(duì)嵌入式系統(tǒng)合成的語音進(jìn)行了主觀評(píng)測和客觀評(píng)測,主要采用MOS主觀評(píng)測方法和PESQ客觀評(píng)測方法,最終選擇出最佳的音素庫。5.2展望在實(shí)現(xiàn)了語音合成功能的嵌入式平臺(tái)實(shí)現(xiàn)以及對(duì)五種不同音素庫的質(zhì)量評(píng)測之后,下一步計(jì)劃是根據(jù)評(píng)測結(jié)果進(jìn)一步對(duì)語音參數(shù)進(jìn)行分析和調(diào)整,達(dá)到該硬件和軟件最高水平,在保證了準(zhǔn)確度和清晰度之后,對(duì)情緒韻律做研究,使合成語音不僅能夠準(zhǔn)確傳達(dá)信息,并且?guī)в胸S富多樣的感情色彩,能夠描述更多種聲音和情緒,使人機(jī)交互過程更加流暢。參考文獻(xiàn)[1]范會(huì)敏,何鑫.中文語音合成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(2):73-77.[2]胡亞軍.基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)參數(shù)語音合成方法研究[J].《中國博士學(xué)位論文全文數(shù)據(jù)庫》,2018,(10).[3]李娟,張雪莫,黃麗霞等.基于Hilbert-Huang變換的語音合成基音標(biāo)注搜索新算法[J].2018,41(12):41-43.[4]包森成.基于統(tǒng)計(jì)模型的韻律結(jié)構(gòu)預(yù)測研究[D].北京:北京郵電大學(xué),2009.[5]王克會(huì).基于WIFI和隱馬爾可夫模型的室內(nèi)定位算法研究[J].計(jì)算機(jī)時(shí)代,2018,1:9-12.[6]jinzeyu.SpeechSynthesisforText-BasedEditingofAudioNarration[D].PrincetonUniversity,2018.[7]孫曉輝,凌震華,戴禮容.融合自動(dòng)檢錯(cuò)的單元挑選語音合成方法[D].合肥:中國科學(xué)技術(shù)大學(xué)語音及語音信息處理國家實(shí)驗(yàn)室,2016.[8]孫曉輝.結(jié)合聽感度量的語音合成方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2006.[9]康廣玉,郭世澤,孫圣和.基于共振峰過度的協(xié)同發(fā)音語音合成算法[J].天津大學(xué)學(xué)報(bào),2010,43(9):810-814.[10]張斌,全昌勤,任福繼.語音合成的方法和發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2016.1(37):186-192.[11]AlexanderKain,MichaelW.Macon.SpectralVoiceConversionforText-To-SpeechSynthesis[D].Eugene:CenterforSpokenLanguageUnderstandingOregonGraduateInstituteofScienceandTechnology,1998.[12]張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:高等教育出版社,2003:186-189.[13]何鑫.基于HMM的單元挑選語音合成方法研究[D].西安:西安工業(yè)大學(xué),2017.[14]樊博.基于神經(jīng)網(wǎng)絡(luò)的語音合成與可視語音合成研究[D].西安:西北工業(yè)大學(xué),2016.[15]盧恒.基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測的語音合成方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2011.[16]方健淳.語音合成技術(shù)與單片微機(jī)綜合系統(tǒng)[M].北京:北京航空航天大學(xué)出版社,1995.[17]劉曉軍,王東峰,張麗飛等.一種基于奇異值分解和隱馬爾可夫模型的人臉識(shí)別方法[J].計(jì)算機(jī)學(xué)報(bào),2003,26(3):341-344.[18]林亞平,劉云中,周順先等.基于最大熵的隱馬爾可夫模型文本信息抽取[J].電子學(xué)報(bào),2005,3(2):237-240.[19]李士進(jìn),楊靜宇,陸建峰等.基于奇異值特征和隱馬爾可夫模型的人臉檢測[J].中國圖像圖形學(xué)報(bào),2001,6(7):682-687.[20]周順先,林亞平,王耀南等.一種基于奇異值分解和隱馬爾可夫模型的人臉識(shí)別方法[J].電子學(xué)報(bào),2007,35(11):2227-2231.[21]ThomasDrugman,AlexisMoninet,ThierryDuioit.Usingapatch-syncheronousresidualcodebookforhybridHMM/frameselectionspeechsynt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論