第三講語音合成概述課件_第1頁
第三講語音合成概述課件_第2頁
第三講語音合成概述課件_第3頁
第三講語音合成概述課件_第4頁
第三講語音合成概述課件_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三講語音合成概述背景目標(biāo)基本問題技術(shù)歷程典型系統(tǒng)第三講語音合成概述背景1第三講語音合成概述背景目標(biāo)基本問題技術(shù)歷程典型系統(tǒng)第三講語音合成概述背景2背景計(jì)算機(jī)的普及人機(jī)自然語言交互語音合成在人機(jī)交互系統(tǒng)中的作用語音合成的其它應(yīng)用SpeechRecognitionNaturalLanguageUnderstandingDialogManagerSpeechSynthesisNaturalLanguageGenerationInformationDatabaseSpeechInSpeechOut背景計(jì)算機(jī)的普及SpeechRecognitionNatu3第三講語音合成概述背景目標(biāo)基本問題技術(shù)歷程典型系統(tǒng)第三講語音合成概述背景4目標(biāo)“讓計(jì)算機(jī)像人一樣說話”從文字到語音TTS(Text-To-Speech)從概念到語音CTS(Concept-To-Speech)從意念到語音ITS(Intention-To-Speech)現(xiàn)階段-TTS前瞻性-CTS等待時(shí)機(jī)-ITS目標(biāo)“讓計(jì)算機(jī)像人一樣說話”5第三講語音合成概述背景目標(biāo)基本問題技術(shù)歷程典型系統(tǒng)第三講語音合成概述背景6基本問題原因從語音到文字的信息缺失從文字到語音(TTS)從文字到發(fā)音描述發(fā)什么音如何發(fā)音從發(fā)音描述到語音合成基本問題原因7第三講語音合成概述背景目標(biāo)基本問題技術(shù)歷程典型系統(tǒng)第三講語音合成概述背景8技術(shù)歷程1937,Voder,BellLab.,H.Dudly1962,級(jí)聯(lián)共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F(xiàn).Charpentier2000s,Unit-selection,N.Campbell&A.Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent:Human-likedFair:acceptableBad:unacceptable技術(shù)歷程1937,Voder,BellLab.,H.D9技術(shù)歷程1937,Voder,BellLab.,H.Dudly1962,級(jí)聯(lián)共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F(xiàn).Charpentier2000s,Unit-selection,N.Campbell&A.Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent:Human-likedFair:acceptableBad:unacceptable音色,孤立音段音色,孤立音段音色,孤立詞音色、韻律,語句韻律,語句技術(shù)歷程1937,Voder,BellLab.,H.D10第三講語音合成概述背景目標(biāo)基本問題技術(shù)歷程典型系統(tǒng)第三講語音合成概述背景11典型系統(tǒng)基于單元挑選的TTS系統(tǒng)構(gòu)成(韻律導(dǎo)向)兩個(gè)模塊前端:文本處理,從文字到發(fā)音描述后端:語音處理,從發(fā)音描述到語音合成一個(gè)接口,發(fā)音描述數(shù)據(jù)庫,合成單元ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系統(tǒng)基于單元挑選的TTS系統(tǒng)構(gòu)成(韻律導(dǎo)向)Parser12典型系統(tǒng)例:北京交通大學(xué)成立于1896年。TextNormalization:北京交通大學(xué)成立于1896年P(guān)arserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ParserPro13典型系統(tǒng)例:北京交通大學(xué)成立于1896年。TextNormalization:北京交通大學(xué)成立于1896年P(guān)arser:北京(npr)交通(ng)大學(xué)(ng)成立(vgo)于(pg)1896年(t) ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackendPOS(PartOfSpeech)典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ParserPro14典型系統(tǒng)例:北京交通大學(xué)成立于1896年。TextNormalization:北京交通大學(xué)成立于1896年P(guān)arser:北京(npr)交通(ng)大學(xué)(ng)成立(vgo)于(pg)1896年(t)ProsodicEvent:OutPutPWordLayer:北京ng交通ng大學(xué)ng成立于vg_pg一八九六年t OutPutPPhraseLayer:##北京交通大學(xué)##成立于##一八九六年 OutPutIPhraseLayer:##北京交通大學(xué)成立于一八九六年 OutPutSentenceLayer:##北京交通大學(xué)成立于一八九六年P(guān)arserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ParserPro15典型系統(tǒng)例:北京交通大學(xué)成立于1896年。TextNormalization:北京交通大學(xué)成立于1896年P(guān)arser:北京(npr)交通(ng)大學(xué)(ng)成立(vgo)于(pg)1896年(t)ProsodicEvent:OutPutPWordLayer:北京ng交通ng大學(xué)ng成立于vg_pg一八九六年tPhonetizer:北bei3京jing1(BL:北京)交jiao1(BL:交通)通tong1(BL:交通)大da4(BL:大學(xué))學(xué)xue2(BL:大學(xué))成cheng2(BL:成立)立li4(BL:成立)于yu2(BL:于)一yi1(BL:一八九六年)八ba1(BL:一八九六年)九jiu3(BL:一八九六年)六liu4(BL:一八九六年)年nian2(BL:一八九六年)ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ParserPro16典型系統(tǒng)例:北京交通大學(xué)成立于1896年。Interface:{2{1^2%0{0^2%0[@ng^2%0<@npr(#bei3&MC$北)(#jing1&MC$京)>][@ng^2%0<@ng(#jiao1&MC$交)(#tong1&MC$通)>][@ng^2%0<@ng(#da4&MC$大)(#xue2&MC$學(xué))>]0}{0^2%0[@vg_pg^2%0<@vgo(#cheng2&MC$成)(#li4&MC$立)><@pg(#yu2&MC$于)>]0}{0^2%0[@t^2%0<@t(#yi1&MC$一)(#ba1&MC$八)(#jiu3&MC$九)(#liu4&MC$六)(#nian2&MC$年|)>]0}1}2}ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ParserPro17典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ProsodicAcousticPredictor: GMM(bei3)GMM(jing1)GMM(jiao1)GMM(tong1)GMM(da4)GMM(xue2)GMM(cheng2)GMM(li4)GMM(yu2)GMM(yi1)GMM(ba1)GMM(jiu3)GMM(liu4)GMM(nian4)SegmentAcousticPredictor:

occ(bei3)occ(jing1)occ(jiao1)occ(tong1)occ(da4)occ(xue2)occ(cheng2)occ(li4)occ(yu2)occ(yi1)occ(ba1)occ(jiu3)occ(liu4)occ(nian4)ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ParserPro18典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ProsodicAcousticPredictor: GMM(bei3)GMM(jing1)…SegmentAcousticPredictor:

occ(bei3)occ(jing1)…UnitSelection:argmincost(sam(bei3),sam(jing1),sam(jiao1),…)Corpus:bei3

jing1ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ParserPro19典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ProsodicAcousticPredictor: GMM(bei3)GMM(jing1)…SegmentAcousticPredictor:

occ(bei3)occ(jing1)…UnitSelection:argmincost(sam(bei3),sam(jing1),sam(jiao1),…)Corpus:bei3

jing1…SpeechSynthesizer:北京交通大學(xué)成立于1896年。ParserProsodicEventPredictorPhonetizerProsodic&PhonemiccontextProsodicAcousticsPredictorSegmentAcousticsPredictorUnitSelectionSpeechSynthesizerTextNormalizationCorpora:speechphoneticalignment,prosodicparameterDictionary:Lexicon,Rules,HomographInputtextInterfaceOutputspeechFrontendBackend典型系統(tǒng)例:北京交通大學(xué)成立于1896年。ParserPro20后續(xù)題目基礎(chǔ)知識(shí)韻律原理分析關(guān)鍵技術(shù)數(shù)據(jù)庫構(gòu)建文本處理聲學(xué)建模最優(yōu)搜索/合成器相關(guān)研究音色調(diào)整/轉(zhuǎn)換HMM合成器挑戰(zhàn)后續(xù)題目基礎(chǔ)知識(shí)21基于數(shù)據(jù)驅(qū)動(dòng)的韻律建模Twotrainablecomponents:basedonanannotatedcorpusProsodiceventpredictorProsodicparameterpredictor基于數(shù)據(jù)驅(qū)動(dòng)的韻律建模Twotrainablecompo22韻律功能ProsodystructureEx.1,已經(jīng)取得文憑的和尚未取得文憑的干部Ex.2,順天府秋捐歸您啦,八旗兵丁一年的賞討下來了。Ex.3,政協(xié)十屆一次會(huì)議主席團(tuán)常務(wù)主席會(huì)議審議通過了政協(xié)十屆一次會(huì)議提案審查委員會(huì)關(guān)于政協(xié)十屆一次會(huì)議提案審查情況的報(bào)告草案(58)IntonationEx.4,明天是個(gè)晴天,最高氣溫...(flat) Ex.5,明天是個(gè)晴天!我們可以...(glad)Ex.6,明天是個(gè)晴天?(interrogative)AccentEx.7,明天是個(gè)晴天vs.明天是個(gè)晴天MoodEx.8,明天是個(gè)晴天gladvs.明天是個(gè)晴天sadprosodyisnotallformood,timbreischangedalso韻律功能Prosodystructure23韻律的聲學(xué)實(shí)現(xiàn)Inacoustic,prosodyispresentedasthevariancesofpitchdurationintensitypause韻律的聲學(xué)實(shí)現(xiàn)Inacoustic,prosodyis24韻律描述C-ToBIdefined1'st,prosodystructure知覺判斷等級(jí)與韻律層級(jí)結(jié)構(gòu)對(duì)應(yīng)coming,accentindex韻律描述C-ToBIdefined25漢語韻律層次韻律結(jié)構(gòu)標(biāo)注,按照語調(diào)短語、中間短語、音步/韻律詞三個(gè)韻律層級(jí),描述每段發(fā)音。語調(diào)短語(intonationalphrase):具有完整的語調(diào),聽感上可獨(dú)立成句的一段發(fā)音音步(foot):節(jié)奏的基本單位,一般由兩個(gè)或三個(gè)音節(jié)構(gòu)成,少數(shù)為單音節(jié)。韻律詞(prosodicword):所有的句法詞具有類似詞的連調(diào)模式和詞重音模式、較短的詞組其它凡是屬于一個(gè)音步的結(jié)構(gòu)跨度為1-4個(gè)音節(jié),極大多數(shù)為2-3個(gè)音節(jié),少數(shù)為單音節(jié)和四音節(jié)結(jié)構(gòu)。中間短語(intermediatephrase):介于語調(diào)短語和韻律詞之間的節(jié)奏單元由一個(gè)或多個(gè)韻律詞構(gòu)成中間短語之間可能存在嵌套結(jié)構(gòu)漢語韻律層次韻律結(jié)構(gòu)標(biāo)注,按照語調(diào)短語、中間短語、音步/韻律26韻律標(biāo)注依據(jù)聽覺進(jìn)行邊界類型的判斷,并輔助以特定類型處理的約定聽覺判決所依據(jù)的線索基頻重置,邊界末音節(jié)展延,停頓,節(jié)奏的變化需從全局的、層級(jí)的角度考察每段發(fā)音標(biāo)注符號(hào)BP2:用以界定語調(diào)短語邊界BP1:用以界定中間短語邊界BP0:用以界定有明顯停頓的音步/韻律詞間的邊界空格:用以界定音步/韻律詞邊界*:用以界定韻律詞內(nèi)的音步邊界特定類型約定位于短語邊界的、聽感上輕讀的、作為短語間過渡的虛詞,傾向于劃歸后一短語BP0為音步邊界,且具有明顯的停、頓,傾向于從嚴(yán)標(biāo)出韻律標(biāo)注依據(jù)聽覺進(jìn)行邊界類型的判斷,并輔助以特定類型處理的約27一個(gè)韻律結(jié)構(gòu)標(biāo)注的例子S1 編者按(BP2)世界上(BP1)有些事是相似的(BP2)甚至(BP0)驚人地相似S2 編者按(BP2)世界上有些事(BP1)是相似的(BP2)甚至(BP0)驚人地相似Problemofconsistency training acceptable一個(gè)韻律結(jié)構(gòu)標(biāo)注的例子S1 編者按(BP2)世界上(BP128韻律的深層次標(biāo)注AccentIndexWhatis

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論