語(yǔ)音數(shù)據(jù)與語(yǔ)音合成.ppt_第1頁(yè)
語(yǔ)音數(shù)據(jù)與語(yǔ)音合成.ppt_第2頁(yè)
語(yǔ)音數(shù)據(jù)與語(yǔ)音合成.ppt_第3頁(yè)
語(yǔ)音數(shù)據(jù)與語(yǔ)音合成.ppt_第4頁(yè)
語(yǔ)音數(shù)據(jù)與語(yǔ)音合成.ppt_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

,語(yǔ)音音庫(kù)與合成 江源 2009-6-11,語(yǔ)音合成技術(shù),什么叫語(yǔ)音合成 Text To Speech過(guò)程,簡(jiǎn)稱TTS 作用:將文本狀態(tài)的文字信息轉(zhuǎn)化為可聽(tīng)的聲音信息 “電腦會(huì)說(shuō)話”,發(fā)聲機(jī)理,語(yǔ)音產(chǎn)生的生理過(guò)程,總綱,1 . 數(shù)字語(yǔ)音信號(hào) 2 . 語(yǔ)音合成技術(shù) 3 . 數(shù)據(jù)制作與合成 4 . 合成效果測(cè)聽(tīng),數(shù)字語(yǔ)音信號(hào),什么是數(shù)字語(yǔ)音信號(hào) 語(yǔ)音:說(shuō)話,聲波傳遞的語(yǔ)言 語(yǔ)音信號(hào):記錄下來(lái)的聲波振動(dòng) 模擬語(yǔ)音信號(hào): (磁帶,唱片) 數(shù)字語(yǔ)音信號(hào):模擬信號(hào)數(shù)字化 (wav mp3 CD) - 計(jì)算機(jī)應(yīng)用的需要 如何數(shù)字化 取樣:采樣率(時(shí)間尺子,8K,16K,44K,每秒樣點(diǎn)數(shù)量) 量化:量化精度(幅度尺子,16bit,-3276732768范圍),數(shù)字語(yǔ)音信號(hào),取樣和量化,數(shù)字語(yǔ)音信號(hào),波形不能說(shuō)明內(nèi)容,數(shù)字語(yǔ)音信號(hào),頻域介紹 一段任意波形可以由一系列正弦波形組合而成 離散傅里葉變換數(shù)學(xué)表示: 最高值,采樣率的一半(16K wav;max freq = 8K Hz) 人可聽(tīng)辨的頻率范圍: (20Hz 20kHz) 電話語(yǔ)音信道的頻率范圍(60Hz 3400Hz),數(shù)字語(yǔ)音信號(hào),語(yǔ)譜圖,數(shù)字語(yǔ)音信號(hào),清音和濁音 濁音:聲帶的快速振動(dòng),聲帶能夠?qū)⒎€(wěn)定氣流轉(zhuǎn)換成振動(dòng) 振動(dòng)頻率稱為基頻,準(zhǔn)周期性 清音:紊亂氣流,肺部氣流通過(guò)聲道中的狹窄處產(chǎn)生 爆破音:突然爆破,數(shù)字語(yǔ)音信號(hào),聲學(xué)特征 如此雜亂多變的信號(hào),如何描述,如何恢復(fù)? 語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(源-濾波器模型),數(shù)字語(yǔ)音信號(hào),聲學(xué)特征 基頻:發(fā)濁音時(shí)聲帶振動(dòng)引起的周期變化,我們聽(tīng)感音調(diào)高低主要由基頻決定,中文聲調(diào)還用于區(qū)分語(yǔ)義 譜參數(shù):描述聲道和口唇輻射 共振峰,LPC,倒譜參數(shù),總綱,1 . 數(shù)字語(yǔ)音信號(hào) 2 . 語(yǔ)音合成技術(shù) 3 . 數(shù)據(jù)標(biāo)注與合成 4 . 合成效果測(cè)聽(tīng),語(yǔ)音合成技術(shù),主流技術(shù)路線 基于統(tǒng)計(jì)規(guī)則的大語(yǔ)料庫(kù)拼接語(yǔ)音合成系統(tǒng) 基于HMM的參數(shù)語(yǔ)音合成系統(tǒng) 基于HMM的語(yǔ)料庫(kù)拼接語(yǔ)音合成系統(tǒng) 兩條道路: 要么是波形切分再拼合起來(lái),要么是聲學(xué)參數(shù)轉(zhuǎn)化出來(lái),語(yǔ)音合成技術(shù),基于統(tǒng)計(jì)規(guī)則的大語(yǔ)料庫(kù)拼接語(yǔ)音合成系統(tǒng) 傳統(tǒng)大語(yǔ)料庫(kù)合成, InterPhonic 5.0之前 單元挑選波形拼接 超大規(guī)模音庫(kù)制作 語(yǔ)料設(shè)計(jì),音庫(kù)錄制,精細(xì)切分,韻律標(biāo)注 規(guī)則統(tǒng)計(jì),針對(duì)不同發(fā)音人的細(xì)致調(diào)整 優(yōu)點(diǎn):音質(zhì)最佳,正常句子的自然度也很好 缺點(diǎn):非常依賴音庫(kù)的規(guī)模大小和制作質(zhì)量,存在一定穩(wěn)定性問(wèn)題,不能應(yīng)用在小型設(shè)備中 樣例:,輸入文本,拼音信息和韻律結(jié)構(gòu)信息,每個(gè)單元將取 多個(gè)候選 s1 s2 s3 s4,目標(biāo)代價(jià)挑選候選單元,詞典等文本分析知識(shí),大規(guī)模語(yǔ)音庫(kù),再考慮連接代價(jià)決定最后選定單元 s1 s2 s3 s4 s5 s6,輸出語(yǔ)音,語(yǔ)音合成技術(shù),InterPhonic系統(tǒng)處理流程,語(yǔ)音合成技術(shù),基于HMM的參數(shù)語(yǔ)音合成系統(tǒng) 首先進(jìn)行語(yǔ)音特征參數(shù)的提取 以音素為單位(中文為聲韻母),使用HMM (Hidden Markov Model)對(duì)自然語(yǔ)流的頻譜特征參數(shù)進(jìn)行建模 采用基于決策樹(shù)的聚類方法對(duì)上下文相關(guān)模型進(jìn)行聚類,以提高模型的魯棒性,得到預(yù)測(cè)參數(shù) 最后生成參數(shù)輸入合成器,得到合成語(yǔ)音 優(yōu)點(diǎn):所需音庫(kù)規(guī)模小,標(biāo)注精度要求相對(duì)降低,自然度高,系統(tǒng)小,靈活度高,ViviVoice,AiSound 缺點(diǎn):音質(zhì)相對(duì)較差,帶有合成器風(fēng)格 樣例:,參數(shù)語(yǔ)音合成系統(tǒng)框架,語(yǔ)音合成技術(shù),HMM參數(shù)建模 用聲學(xué)參數(shù)針對(duì)音素建模 為什么要建模?描述的音素特征變化 隱馬爾科夫模型( Hidden Markov Model - HMM ),語(yǔ)音合成技術(shù),決策樹(shù)模型聚類 有了模型怎么使用?來(lái)一句話怎么預(yù)知用哪個(gè)模型? 基于上下文的信息的決策樹(shù)聚類,語(yǔ)音合成技術(shù),基于HMM的語(yǔ)料庫(kù)拼接語(yǔ)音合成系統(tǒng) 利用HMM目標(biāo)模型和連接模型來(lái)指導(dǎo)單元挑選 結(jié)合參數(shù)訓(xùn)練模型的數(shù)學(xué)統(tǒng)計(jì)模型優(yōu)勢(shì)和波形拼接的高音質(zhì),相對(duì)以前的大語(yǔ)料庫(kù)技術(shù)在自然度上有較大提升 自主原發(fā),意義重大 優(yōu)點(diǎn):擁有明確目標(biāo)和度量準(zhǔn)則,音質(zhì)好,自然度高,系統(tǒng)搭建自動(dòng)化程度高,InterPhonic 5.5以上版本 缺點(diǎn):仍然需要很大規(guī)模的語(yǔ)料庫(kù),計(jì)算量較大 樣例:,語(yǔ)音合成技術(shù),基于HMM的單元挑選系統(tǒng)結(jié)構(gòu)圖,總綱,1 . 數(shù)字語(yǔ)音信號(hào) 2 . 語(yǔ)音合成技術(shù) 3 . 數(shù)據(jù)制作與合成 4 . 合成效果測(cè)聽(tīng),數(shù)據(jù)制作與合成,數(shù)據(jù)與合成的關(guān)系 音庫(kù)數(shù)據(jù)是合成系統(tǒng)的基石,離開(kāi)了音庫(kù)談合成就是 “無(wú)源之水 無(wú)本之木” 一份音庫(kù)的制作質(zhì)量,直接決定了該發(fā)音人合成系統(tǒng)的能達(dá)到什么效果,數(shù)據(jù)制作與合成,數(shù)據(jù)制作過(guò)程 音庫(kù)設(shè)計(jì) 音庫(kù)錄制 音素切分 韻律標(biāo)注 音素檢錯(cuò) 基頻修正 索引制作,數(shù)據(jù)制作與合成,音庫(kù)設(shè)計(jì)與合成 一個(gè)設(shè)計(jì)良好的音庫(kù)要有較好的音素,韻律覆蓋率 廣泛的語(yǔ)料來(lái)源,保證超大規(guī)模庫(kù)的穩(wěn)定 某方向定制語(yǔ)料,提升某特應(yīng)用場(chǎng)合的效果,對(duì)語(yǔ)料庫(kù)拼接技術(shù)很重要 “還煩請(qǐng)大家收集更多更好的語(yǔ)料文本”,數(shù)據(jù)制作與合成,音庫(kù)錄制與合成 錄音控制很重要 錄音室環(huán)境,隔除噪音 話筒的擺放,能量幅度范圍 如何保持發(fā)音人的發(fā)音狀態(tài) 輕松心態(tài),自然流程,不要帶情緒,除非這是情感庫(kù) 適度原則,不要疲勞錄音,寧缺勿濫 批次比對(duì),及時(shí)與之前數(shù)據(jù)做比對(duì),可加入重復(fù)句 “還請(qǐng)大家多關(guān)注錄音質(zhì)量”,數(shù)據(jù)制作與合成,音素切分與合成 切分精度 精切:大語(yǔ)料庫(kù)拼接標(biāo)準(zhǔn),周期下降沿 粗切:參數(shù)合成與HMM拼接,模型具有一定內(nèi)部切分調(diào)整能力 粗切不代表切分不重要,好的初始位置能幫助模型自切。 電腦未必比人聰明,清濁好定,濁濁也難定,還需修正 停頓位置 什么地方有Sp,silv,pau? 標(biāo)準(zhǔn)L3層以上邊界,30ms以上計(jì)算機(jī)才能使用 如果本來(lái)有停頓卻沒(méi)有加silv,停頓段會(huì)影響前后音素單元質(zhì)量 一些錄音缺陷也可塞給停頓位置,鼻息,口水音 合成樣例: The*psychotropic*airplanes#underwrote*the*dispassionate*song。,數(shù)據(jù)制作與合成,音素切分與合成 音變處理 連續(xù)語(yǔ)流總存在一些規(guī)則音變或者不規(guī)則音變,導(dǎo)致所讀不是原來(lái)詞典音素 音素是身份牌,這個(gè)錯(cuò)了后果很嚴(yán)重! 修改標(biāo)準(zhǔn):尊重錄音 中文:聲調(diào)變化,兒化,輕讀。沒(méi)被改過(guò)的音變就是地雷 英文:連讀,吞音,弱化,縮寫(xiě)詞 吞音標(biāo)準(zhǔn):有無(wú)音位,或者我去掉這個(gè)讀有無(wú)差別 英文音素短,不是母語(yǔ),更需小心 “還請(qǐng)大家切音時(shí)多細(xì)心”,數(shù)據(jù)制作與合成,韻律標(biāo)注與合成 韻律標(biāo)注是音素的檔案,據(jù)此來(lái)分門(mén)別類,聽(tīng)候取用 良好的韻律標(biāo)注幫助我們構(gòu)建正確有效的統(tǒng)計(jì)預(yù)測(cè)結(jié)構(gòu),上下文韻律決策樹(shù) 如果韻律標(biāo)注是錯(cuò)誤的,連鎖毀滅性破壞 韻律標(biāo)錯(cuò) - 聚類分錯(cuò) - 模型建錯(cuò) - 預(yù)測(cè)走錯(cuò) - 參數(shù)找錯(cuò) - 挑選看錯(cuò) - 合成出錯(cuò) -客戶很生氣- game over,數(shù)據(jù)制作與合成,韻律標(biāo)注與合成 中文韻律:調(diào)型,停頓層次(L0 L1 L2 L3 L4 L5) 英文韻律:ToBI ( Tone and Break Index) 停頓層次: Tone Break 邊界調(diào): Phrase Tone 重讀: Pitch Accent,數(shù)據(jù)制作與合成,韻律標(biāo)注與合成 標(biāo)注不同對(duì)合成的影響實(shí)例 重讀 But*I*did*not(H*)*enjoy*it*long。 邊界調(diào) Now*run*along(L-H%),and*tell*them*to*hurry。,數(shù)據(jù)制作與合成,韻律標(biāo)注與合成 一致性! 一致性非常重要,統(tǒng)一標(biāo)準(zhǔn) 面對(duì)模棱兩可的地方,如何取舍? 個(gè)人尊重大家意見(jiàn) 新人咨詢資深意見(jiàn) 多討論,多比對(duì) 對(duì)新錄庫(kù)可以按批次做一致性檢查 “還請(qǐng)大家細(xì)致統(tǒng)一的標(biāo)注韻律”,數(shù)據(jù)制作與合成,音素檢錯(cuò)與基頻修正 評(píng)測(cè)會(huì)給數(shù)據(jù)打分糾錯(cuò),合成也需要 挑出音庫(kù)中可能存在的地雷 檢錯(cuò)種類: 濁濁修正 調(diào)型修正 音素修正 基頻修正 特點(diǎn):直接鎖定位置判斷,規(guī)律性強(qiáng) “還請(qǐng)大家多反饋檢錯(cuò)時(shí)的規(guī)律總結(jié)”,數(shù)據(jù)制作與合成,索引制作與合成 音庫(kù)索引將音庫(kù)韻律和參數(shù)信息整理保存 合成需要從索引中提取數(shù)據(jù),拼接合成在系統(tǒng)挑選時(shí)還需要直接使用索引 較為固定,但一旦出錯(cuò)不易更改 某個(gè)詞性錯(cuò)位問(wèn)題遺留很久才被發(fā)現(xiàn)(技術(shù)人員的錯(cuò)誤) “制庫(kù)工作很繁瑣,煩勞大家了”,總綱,1 . 數(shù)字語(yǔ)音信號(hào) 2 . 語(yǔ)音合成技術(shù) 3 . 數(shù)據(jù)制作與合成 4 . 合成效果測(cè)聽(tīng),合成效果測(cè)聽(tīng),測(cè)聽(tīng)與合成 效果測(cè)聽(tīng)是評(píng)判合成系統(tǒng)好壞的硬性指標(biāo) 常用測(cè)聽(tīng)項(xiàng)目 音質(zhì) 自然度 相似度 主觀打分標(biāo)準(zhǔn),(mean opinion score, MOS),合成效果測(cè)聽(tīng),測(cè)聽(tīng)與合成 音質(zhì)測(cè)聽(tīng)注意事項(xiàng) 對(duì)音質(zhì)由技術(shù)路線主導(dǎo),但敏感度因人而異,主觀好惡 16K原始錄音音質(zhì)可打5分 16k原始分析合成可到4分 波形拼接合成音質(zhì)可超4分 參數(shù)合成系統(tǒng)音質(zhì)在3分附近 盡量減少自然度上的錯(cuò)誤對(duì)音質(zhì)打分的影響 一般測(cè)聽(tīng)要求 黑盒:防止慣性打分 0.5分間隔:提高一致性 測(cè)聽(tīng)數(shù)量不能少,要有覆蓋率和代表性 一只好耳機(jī),包住耳朵,提高音量 其實(shí),5分很高,2分很低,合成效果測(cè)聽(tīng),測(cè)聽(tīng)與合成 自然度測(cè)聽(tīng)注意事項(xiàng) 同樣是主觀打分,個(gè)人標(biāo)準(zhǔn)看待 說(shuō)話人原始錄音也只能接近5分 參數(shù)合成較為流暢,相對(duì)平淡 拼接合成存在不穩(wěn)定性,波動(dòng)較大 自然度測(cè)聽(tīng)強(qiáng)調(diào)對(duì)不自然處的扣分 同樣盡量減少不同音質(zhì)對(duì)自然度打分的影響 一般測(cè)聽(tīng)要求 黑盒:防止慣性打分 0.5分間隔:提高一致性 保證一定數(shù)據(jù)量,如果數(shù)量很多,可以分批測(cè)聽(tīng) 5分太高,2分很丟人,合成效果測(cè)聽(tīng),測(cè)聽(tīng)與合成 相似度測(cè)聽(tīng)注意事項(xiàng) 一般會(huì)提供目標(biāo)人的錄音作參照 重點(diǎn)考察音色,兼顧基頻,時(shí)長(zhǎng),口音 一般測(cè)聽(tīng)要求 黑盒不重要 0.5分間隔:提高一致性,合成效果測(cè)聽(tīng),測(cè)聽(tīng)與合成 偏向性測(cè)聽(tīng)注意事項(xiàng) 在兩個(gè)較為接近的效果中取舍 測(cè)聽(tīng)要求 一定要黑盒! 可以用黑盒工具,固定0, 1打分 偏向性選擇只能選一個(gè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論