TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述_第1頁
TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述_第2頁
TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述_第3頁
TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述_第4頁
TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 TTS&ASR技術(shù)技術(shù) TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 語音合成定義 解決如何讓機(jī)器象人說話的問題。其目 的:能將任意文本實(shí)時(shí)地轉(zhuǎn)換為自然語音輸 出,且輸出的語音清晰可懂。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 語音合成技術(shù)的應(yīng)用 語音是信息傳播的一大媒介。近年來,提供語 音服務(wù)的語音系統(tǒng)迅速

2、發(fā)展起來。傳統(tǒng)的語音系統(tǒng) 一般采用預(yù)錄音回放技術(shù),由于這種方法必須對(duì)信 息文本事先進(jìn)行錄音,并存為聲音文件,因此,所 占用的存儲(chǔ)空間很大。另外,一個(gè)更大的缺點(diǎn)是不 能實(shí)時(shí)反映信息的更新,應(yīng)用范圍有很大的局限性。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 錄音 wav 回放 傳統(tǒng)的語音系統(tǒng) 語音 壓縮編碼 輸入語音恢復(fù)語音 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 現(xiàn)在的語音合成技術(shù),無需對(duì)大量的信息進(jìn)行 錄音,極大地減少了工作量和節(jié)省了存儲(chǔ)空間,尤 其是在信息內(nèi)容需要經(jīng)常變動(dòng)的動(dòng)態(tài)查詢場合,如 股市行情查詢、有聲Email系統(tǒng),都是傳統(tǒng)的預(yù)錄 音

3、技術(shù)無法代勞的。結(jié)合其他技術(shù),語音合成技術(shù) 可以廣泛應(yīng)用于金融、郵電、工商、 政府機(jī)關(guān)、 交通、教育、游戲等領(lǐng)域。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 幾個(gè)語音合成技術(shù)的應(yīng)用實(shí)例 1. 電話查詢系統(tǒng) 工商信息電話查詢系統(tǒng)、銀行電話查 詢系統(tǒng)、股票查詢系統(tǒng)、交通信息查詢系 統(tǒng)、考試成績查詢系統(tǒng)等。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 2.教育與娛樂軟件 普通話教學(xué)軟件是幫助想學(xué)普通話的用戶, 以往的普通話教學(xué)軟件只是將預(yù)先錄好音的單 詞逐個(gè)讀給用戶聽,有了語音合成技術(shù),可以 將任意文本中的整句話、整段話讀給用戶聽, 學(xué)習(xí)效率明顯提高。

4、TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 現(xiàn)在計(jì)算機(jī)游戲中的人物,或者不會(huì)說話, 或者只會(huì)“ 播放”已經(jīng)錄好的聲音。利用語音合 成, 游戲中的人物可以說出任意的話語,不同的 人物可以通過選用不同的音庫而形成不同的說話 風(fēng)格。增加了游戲的趣味性和互動(dòng)性 3、游戲軟件 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 1. 語音信號(hào)的波形合成(錄音合成技術(shù)) 采用數(shù)字存儲(chǔ)技術(shù)存儲(chǔ)基本的語音信息。 在 合成時(shí)采用恰當(dāng)?shù)募夹g(shù)手段挑選出所需的語音單元 拼接起來,生成高自然度的語句,這就是波形拼接 的語音合成方法。為了節(jié)省存儲(chǔ)容量,在存入機(jī)器 之前還可以對(duì)語音信號(hào)先

5、進(jìn)行數(shù)據(jù)壓縮。 語音合成技術(shù)方法 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 錄音 wav 回放 語音 壓縮編碼 直接錄放流程 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 語音庫 (語音單元) 語音的波形 編碼 輸入 語音 挑選 組合 回放 合成 語音 波形合成方法 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 2. 語音信號(hào)的參數(shù)合成 根據(jù)語音產(chǎn)生的數(shù)學(xué)模型,利用短時(shí)平穩(wěn)性, 提出每幀語音信號(hào)的參數(shù),這些參數(shù)經(jīng)編碼后組 成一個(gè)語音參數(shù)庫。輸出時(shí),從語音參數(shù)庫中取 出相應(yīng)的參數(shù),利用語音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語 音。共振峰合成和線性預(yù)

6、測合成是該類合成技術(shù) 中的重要方法。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 3. 語音信號(hào)的規(guī)則合成 將任意文本轉(zhuǎn)換成聲音的系統(tǒng)。包括語言學(xué) 和聲學(xué)處理。合成的詞匯不是事先確定。常見的 就是文語轉(zhuǎn)換合成技術(shù) text-to-speech (TTS)。 系統(tǒng)中存儲(chǔ)的是音素的聲學(xué)參數(shù),以及由音 素組成音節(jié)、由音節(jié)組成詞、由詞組成句子的規(guī) 則;控制音調(diào)、輕重音等韻律的各種規(guī)則。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 給出待合成的字母或文字后,根據(jù)語義規(guī)則 和語音規(guī)則,確定每個(gè)字的音素的組成和句子的 低層結(jié)構(gòu)。為每一個(gè)詞、每一個(gè)音節(jié)確定重音等 級(jí)

7、和語句結(jié)構(gòu)及語調(diào),其中包括各種停頓等,這 樣,文字串就變成了代碼串。 聲學(xué)處理就利用規(guī)則將代碼串轉(zhuǎn)換成連續(xù)的語 音波。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 歡迎使用微軟中國研究院中文語音合成系統(tǒng) 采用TTS技術(shù)合成語音 . M TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技

8、術(shù)Agenda語音合成 技術(shù)概述 TTS合成技術(shù) lTTS合成技術(shù)的應(yīng)用 lTTS合成系統(tǒng)的構(gòu)成 l文本分析 l韻律控制 l語音合成方法 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 TTS合成技術(shù)的應(yīng)用 1.可以用于各種智能系統(tǒng),如信息查詢系統(tǒng)、自動(dòng) 售票系統(tǒng)或殘疾人的輔助交流工具。 2.可以用于通信設(shè)備或一些數(shù)字產(chǎn)品,這樣傳遞的 信息不是語音,而是文字,在通信設(shè)備的終端將文 字信息轉(zhuǎn)換為語音即可,由于每個(gè)文字占用兩個(gè)字 節(jié),因而極具有價(jià)值 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 文本文本分析 韻律控制 合成模塊 語音數(shù)據(jù)庫 輸出 TTS系統(tǒng)的構(gòu)

9、成 對(duì)輸入文本進(jìn)行分析切割出字詞以后,通過語音 合成方法把這些字詞的發(fā)音合成出來,并串接起來, 通過韻律調(diào)整,就可以得到較為自然的語句的發(fā)音。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 文本分析 主要功能是使計(jì)算機(jī)能夠識(shí)別文字,并根據(jù) 文本的上、下文關(guān)系在一定程度上對(duì)文本進(jìn)行理 解,將發(fā)音的方式告訴計(jì)算機(jī);另外,還要讓計(jì) 算機(jī)知道文本中哪些是短語、句子,發(fā)音時(shí)到哪 應(yīng)該停頓,停頓多長等等。 1.文本分析的主要功能: TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 2.文本分析工作的三個(gè)主要步驟: (1)將輸入的文本規(guī)范化,處理用戶可能的拼寫 錯(cuò)誤,并將

10、文本中出現(xiàn)的一些不規(guī)范或無法發(fā)音的 字符濾掉; (2)分析文本中的詞或短語的邊界,確定文字的 讀音。 (3)根據(jù)文本的結(jié)構(gòu)、組成和不同位置出現(xiàn)的標(biāo) 點(diǎn)符號(hào),來確定發(fā)音時(shí)語氣的變換以及不同音的輕 重方式。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 3.文本分析系統(tǒng)的基本框圖 自動(dòng)分詞 多音字處理 聲調(diào)判斷 特殊聲調(diào)調(diào)整 特殊符號(hào) 停頓處理 系統(tǒng)詞庫 多音字詞庫 變調(diào)規(guī)則庫 特殊聲調(diào) 規(guī)則 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 自動(dòng)分詞 對(duì)句子以系統(tǒng)詞庫為模板用最大匹配的方法 進(jìn)行分詞,從系統(tǒng)詞庫中提取相應(yīng)的讀音、聲調(diào) 和時(shí)長信息作為控制參數(shù)。

11、TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 多音字處理 對(duì)自動(dòng)分詞處理后的句子中余下的字,首先 查找多音字表,若不是多音字,則檢索標(biāo)準(zhǔn)字庫, 取得該字的讀音和聲調(diào);若是多音字,則根據(jù)在 多音字庫中得到的信息從特征詞庫中讀取相應(yīng)的 信息,選擇恰當(dāng)?shù)淖x音和聲調(diào)。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 聲調(diào)調(diào)整 根據(jù)變調(diào)規(guī)則庫中的規(guī)則,對(duì)每個(gè)字的 聲調(diào)做一些調(diào)整,在詞與詞之間加入適當(dāng)?shù)?停頓信息。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 4.文本分析的輸出 將輸入的文字轉(zhuǎn)換成計(jì)算機(jī)能夠處理的內(nèi) 部參數(shù)(每個(gè)詞的發(fā)音聲母韻母聲

12、調(diào)),便于 后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。 常見的文本分析方法:二元文法、HMM和 神經(jīng)網(wǎng)絡(luò)法等。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 語音合成方法 首先合成字的聲母,再合成它的韻母, 然后將韻母的聲調(diào)調(diào)整到所需要的聲調(diào)上,然 后將聲母和韻母連接起來得到最終合成的語音。 1. 語音合成部分的主要功能: TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 單獨(dú)發(fā)聲的一個(gè)音節(jié)或是語音流中的任何一 個(gè)音節(jié)都可能由7部分組成。 無聲段 音節(jié) 聲母 鼻音段聲母輔音段元音段送氣段 前過渡段后過渡段 韻母 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合

13、成 技術(shù)概述 2.語音數(shù)據(jù)庫 (2)聲母表:22個(gè)聲母的波形 (3)韻母表:38個(gè)韻母的波形(基音同步幀、過渡 音和鼻音) (4)聲調(diào)曲線:不同聲調(diào)的聲調(diào)曲線 。 (1)漢字拼音庫: 每個(gè)漢字的拼音信息是一個(gè)二進(jìn) 制文件,其形式為:聲母韻母聲調(diào)標(biāo)號(hào)。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 3.語音合成步驟 拼音信息 聲母韻母聲調(diào) 基音同步幀、 過渡音和鼻音庫 聲調(diào)曲線庫聲母庫 合成韻母 幅度調(diào)整 疊接 合成語音 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 五、韻律控制 韻律特征包括聲調(diào)、語氣、停頓方式、發(fā) 音長短等。這些通過基頻、音長、音強(qiáng)等參

14、數(shù) 來體現(xiàn),通過控制這些參數(shù)達(dá)到對(duì)韻律的控制。 包括基音同步幀周期的調(diào)整、合成語音幅度的 調(diào)整、聲調(diào)曲線的修正等。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 基音同步幀周期的調(diào)整 把原始的基音周期調(diào)整為指定的基音 周期,調(diào)整后的基音同步幀波形要與原始 基音同步幀相似,幅度要基本相等。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 語音識(shí)別技術(shù)概述 l語音識(shí)別的定義 l語音識(shí)別

15、的應(yīng)用 l語音識(shí)別的類型 l語音識(shí)別的方法 l語音識(shí)別的主要問題 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 一、語音識(shí)別的定義 語音識(shí)別是指從語音到文本的轉(zhuǎn)換,即讓計(jì)算 機(jī)能夠把人發(fā)出的有意義的話音變成書面語言。通 俗地說就是讓機(jī)器能夠聽懂人說的話。 所謂聽懂,有兩層意思,一是指把用戶所說的 話逐詞逐句轉(zhuǎn)換成文本;二是指正確理解語音中所 包含的要求,作出正確的應(yīng)答。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 二、語音識(shí)別的應(yīng)用 語音識(shí)別技術(shù)是以語音為研究對(duì)象,涉及到生理 學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸 多領(lǐng)域。 隨著語音識(shí)別技術(shù)的

16、逐漸成熟,語音識(shí)別技術(shù)開 始得到廣泛的應(yīng)用,涉及日常生活的各個(gè)方面如電信、 金融、新聞、公共事業(yè)等各個(gè)行業(yè),通過采用語音識(shí) 別技術(shù),可以極大的簡化這些領(lǐng)域的業(yè)務(wù)流程以及操 作;提高系統(tǒng)的應(yīng)用效率。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 1.語音識(shí)別以IBM推出的ViaVoice為代表,國內(nèi) 則推出Dutty +語音識(shí)別系統(tǒng)、天信語音識(shí)別系統(tǒng)、 世音通語音識(shí)別系統(tǒng)等。 2. 數(shù)據(jù)庫檢索:對(duì)龐大的數(shù)據(jù)進(jìn)行繁雜的檢索 和查詢,通過使用語音識(shí)別技術(shù),將變得輕松、方 便。 3. 特殊的環(huán)境所需的語音命令:用語音發(fā)出操 作指令。 語音識(shí)別應(yīng)用實(shí)例 TTSASR技術(shù)3TTSASR

17、技術(shù)Agenda語音合成 技術(shù)概述 采用語音識(shí)別和語音合成技術(shù),能與客戶進(jìn)行交 互式對(duì)話,幫助客戶找到他們所需要的商品。一個(gè)動(dòng) 作傳感器可以啟動(dòng)系統(tǒng),詢問顧客“需要我?guī)湍銓ふ?什么嗎?”如果顧客回答說“我在找面包。系統(tǒng)將會(huì) 告訴顧客:“面包在第11過道,就是直接往前第3個(gè) 過道,我們今天有全麥面包特惠,需要我為您打印一 張優(yōu)惠券嗎? 語音識(shí)別用于商場導(dǎo)購 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 德國西門子公司推出的一種新洗衣機(jī),洗衣物 非常專業(yè),知道為什么樣的臟衣物選擇合適洗滌程 序和洗滌劑,而主人只需要口頭命令即可,比如 “半個(gè)小時(shí)后再洗”。 與普通洗衣機(jī)的不同之處

18、是安裝了語音識(shí)別 芯片,能根據(jù)用戶的語音指令確定洗滌程序。 語音識(shí)別用于家用電器,走入人類未來生活 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 三、語音識(shí)別的類型 1.以所要識(shí)別的對(duì)象來分,有: (1)孤立詞識(shí)別(字或詞間有停頓,用于控制系統(tǒng)) (2)連接詞識(shí)別(十個(gè)數(shù)字連接而成的多位數(shù)字識(shí)別 或由少數(shù)指令構(gòu)成詞條的識(shí)別,用于數(shù)據(jù)庫查詢、電 話和控制系統(tǒng)) (3)連續(xù)語音識(shí)別和理解(自然的說話方式) (4)會(huì)話語音識(shí)別(識(shí)別出會(huì)話語言) TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 2.根據(jù)識(shí)別的詞匯量來分,有: (1)大詞匯(1000個(gè)以上的詞匯,如

19、會(huì)議系統(tǒng)) (2)中詞匯(201000個(gè)詞匯,如定票系統(tǒng)) (3)小詞匯(120個(gè)詞匯,如語音電話撥號(hào)) 3.根據(jù)講話人的范圍來分,有: (1)單個(gè)特定人 (2)多講話人(有限的講話人) (3)與講話者無關(guān) TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 四、語音識(shí)別的方法 1.模板匹配法 在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一 遍,并且將其特征矢量作為模板存入模板庫。 在識(shí)別階段,將輸入語音的特征矢量依次與模板 庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作 為識(shí)別結(jié)果輸出。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 特征矢量LPC倒譜c(n)

20、語 文 學(xué) 音 wen 模板庫 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 由于語音有較大的隨機(jī)性,即使同一個(gè)人在不同時(shí) 刻的同一句話發(fā)的同一個(gè)音,也不可能具有完全相同 的時(shí)間長度,因此時(shí)間伸縮處理是必不可少的。 DTW用滿足一定條件的時(shí)間規(guī)整函數(shù),描述待識(shí)別 模式和參考模板的時(shí)間對(duì)應(yīng)關(guān)系,求解兩個(gè)模板匹配, 就是累積距離測度最小對(duì)應(yīng)的規(guī)整函數(shù)。 DTW(Dynamic Time Warping) 動(dòng)態(tài)時(shí)間規(guī)整 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 2.隨機(jī)模型法 采用HMM模型,使用概率參數(shù)來進(jìn)行估計(jì)和判決。 無聲 段 鼻音 段 聲母 輔音段

21、 元音 段 送氣 段 前過 渡段 后過 渡段 1)發(fā)音的各個(gè)段構(gòu)成相應(yīng)的狀態(tài)。 (3)基本單元發(fā)音速率(停留時(shí)間和轉(zhuǎn)移時(shí)間)對(duì)應(yīng)狀 態(tài)轉(zhuǎn)移概率(0.5)。 (2)聲學(xué)變化(LPC倒譜)對(duì)應(yīng)輸出序列,概率分布成 混合高斯密度函數(shù)。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 A2 用HMM實(shí)現(xiàn)連續(xù)語音識(shí)別的框架 音子a音子b 特征 矢量 音子a 字 A1 句子 A1 P(A1) P(A2/A1) sa1sa2sa3sa4sa5 BEGIN TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 句法層:每個(gè)句子由若干字構(gòu)成,每個(gè)字都選自于 字庫。 字層:每個(gè)字由音

22、子串接而成,需要一個(gè)數(shù)據(jù)庫來 描述每一個(gè)字如何用音子串接的。 語音層:每個(gè)音子用一個(gè)HMM模型及其相應(yīng)的參數(shù) 來描述(狀態(tài)及其狀態(tài)間的轉(zhuǎn)移)。 聲學(xué)層:提取語音幀特征矢量。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 1.對(duì)自然語言的識(shí)別和理解。首先必須將連續(xù)的講 話分解為詞、音素等單位,其次要建立一個(gè)理解語 義的規(guī)則。 2.語音信息量大。語音模式不僅對(duì)不同的說話人不 同,對(duì)同一說話人也是不同的,例如,一個(gè)說話人 在隨意說話和認(rèn)真說話時(shí)的語音信息時(shí)不同的。一 個(gè)人的說話方式隨著時(shí)間變化。 五、語音識(shí)別的主要問題 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)

23、概述 3.語音的模糊性。說話者在講話時(shí),不同的詞可能 聽起來是相似的。這在英語和漢語中常見。 4.單個(gè)字母或詞、字的語音特性受上下文的影響, 以致改變了重音、音調(diào)、音量和發(fā)音速度等。 5.環(huán)境噪聲和干擾對(duì)語音識(shí)別有嚴(yán)重影響,致使識(shí) 別率低。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 ASR語音識(shí)別 ASR的定義的定義 ASR的流程的流程 ASR的分類的分類 ASR的學(xué)科特點(diǎn)的學(xué)科特點(diǎn) ASR的歷

24、史的歷史 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 ASR的定義 兩個(gè)不同層次的理解兩個(gè)不同層次的理解 vASR:Automatic Speech Recognition,讓機(jī),讓機(jī) 器把人說的語音翻譯成文字器把人說的語音翻譯成文字 v自動(dòng)語音理解(自動(dòng)語音理解(ASU):在語音識(shí)別的基礎(chǔ)在語音識(shí)別的基礎(chǔ) 上,理解人所說的文字意義上,理解人所說的文字意義 目標(biāo):理解任何人在任何環(huán)境下的語音,目標(biāo):理解任何人在任何環(huán)境下的語音, 模仿人的聽覺能力模仿人的聽覺能力 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 ASR的信號(hào)流框圖 Speech Recog

25、nizer Character Series Speech source A/D Channel TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 Front-end analysis 特征提取音字轉(zhuǎn)換后處理 語音信號(hào)識(shí)別結(jié)果 模板庫 模板庫 語法、語言 知識(shí) 語法、語言 知識(shí) TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 語音識(shí)別分類 按詞匯量大小按詞匯量大小 小詞匯量(小詞匯量(30)、中詞匯量)、中詞匯量(100) 大詞匯量大詞匯量(無限量無限量) 發(fā)音是否連續(xù):孤立詞、連續(xù)語音發(fā)音是否連續(xù):孤立詞、連續(xù)語音 按與說話人的關(guān)系:按與說話人的關(guān)系:SD,

26、SI 按說話方式:朗誦語音、口語語音按說話方式:朗誦語音、口語語音 按應(yīng)用目標(biāo):通用、專用按應(yīng)用目標(biāo):通用、專用 按實(shí)現(xiàn)方法:計(jì)算機(jī)軟件,嵌入式系統(tǒng),計(jì)算機(jī)網(wǎng)按實(shí)現(xiàn)方法:計(jì)算機(jī)軟件,嵌入式系統(tǒng),計(jì)算機(jī)網(wǎng) 絡(luò),電話網(wǎng)絡(luò),無線網(wǎng)絡(luò)絡(luò),電話網(wǎng)絡(luò),無線網(wǎng)絡(luò) 返回 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 學(xué)科特點(diǎn):交叉學(xué)科 Signal Processing Acoustics Pattern recognition Communication and information theory Linguistics Physiology and psychology Comput

27、er Science and technology Cognitive science TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 History What was the first success story of speech recognition? “Radio Rex” in the 1922, was the first success story in the field of speech recognition little toy dog named Rex” Voice recognition TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成

28、 技術(shù)概述 History 1936 - AT & Ts Bell labs started study of speech recognition (funded by DARPA) 1950s-Isolated digit,syllables, phonemes, small vocabulary 1960s Japan, Hardware systems Use of dynamic programming Reddy (CMU) :continuous speech recognition TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 History(cont) 1

29、970s, significant milestones Isolated word became viable and usable: using pattern-recognition, DP and LPC IBMs efforts in large vocabulary AT&T Bell Labss efforts in SI ASR, - clustering algorithms 1978 speak and spell toy by TI TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 History(cont) 1980s, Focus on connect

30、ed word recognition two-level DP (NEC),One-pass method,Level building Shift from template-based approaches to statistical modeling methods HMM Applying ANN in the late 1980s Systems: SPHINX (CMU), BYBLOS (BBN), SRI (Lincoln Labs) TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 History(cont) 1990s, Focus on continu

31、ous ASR Reduce the effect of noise Robustness On-line learning (Speaker adaptation) Natural language front ends to ASR IBM Via Voice Development platform:VBVoice (Pronexus) 1997 Dragon Systems TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 History(cont) 21c: Technology to deal with environment variation ASR for m

32、ulti-languages Embedded System TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 Challenges of speech recognition Ease of use Robust performance Automatic learning of new words and sounds Grammar for spoken language Control of s

33、ynthesized voice quality Integrated learning for speech recognition and synthesis TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 研究機(jī)構(gòu) CMU: UW UCLA Purdue University Stanford University University of Pittsburgh TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 研究機(jī)構(gòu) 清華大學(xué)清華大學(xué) 中國科技大學(xué)中國科技大學(xué) 哈爾濱工業(yè)大學(xué)哈爾濱工業(yè)大學(xué) 安徽科大訊飛信息科技股份有限公司安徽科大訊飛信息科技股份有

34、限公司 福建省海峽天音信息技術(shù)有限公司福建省海峽天音信息技術(shù)有限公司 金耳麥金耳麥-言豐科技言豐科技 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 研究機(jī)構(gòu) IBM (Human Language Technologies Research) IBM India Research Lab : Microsoft: Pronexus Intel More TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 應(yīng)用領(lǐng)域 語音聽寫系統(tǒng)語音聽寫系統(tǒng) Via Voice Dragon Systems VoxNaut: 開放式多語言語音服務(wù)平臺(tái)開放式多語言語音服務(wù)平臺(tái)(,

35、Italy) 易說語音輸入系列易說語音輸入系列 海峽天音海峽天音 Pattek ASR 中科院自動(dòng)化所中科院自動(dòng)化所 普通話普通話95% TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 應(yīng)用領(lǐng)域(續(xù)) 智能人機(jī)界面智能人機(jī)界面 語音信息服務(wù)語音信息服務(wù) 政策咨詢、航班信息、交通信息查詢政策咨詢、航班信息、交通信息查詢 股票信息查詢股票信息查詢 公安的刑事偵察輔助公安的刑事偵察輔助 電話監(jiān)聽:具有關(guān)鍵語音發(fā)現(xiàn)能力電話監(jiān)聽:具有關(guān)鍵語音發(fā)現(xiàn)能力 聲紋身份偵察聲紋身份偵察 醫(yī)療臨床應(yīng)用醫(yī)療臨床應(yīng)用 身份認(rèn)證身份認(rèn)證: 信息安全信息安全 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 應(yīng)用領(lǐng)域(續(xù)) 嵌入式產(chǎn)品應(yīng)用嵌入式產(chǎn)品應(yīng)用 電話、移動(dòng)通信工具電話、移動(dòng)通信工具 提供語音服務(wù)的交換機(jī)提供語音服務(wù)的交換機(jī) 具有語言交互能力的機(jī)器人具有語言交互能力的機(jī)器人 智能導(dǎo)游器智能導(dǎo)游器 具有語言溝通能力的智能玩具具有語言溝通能力的智能玩具 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成 技術(shù)概述 典型產(chǎn)品 金立語音王金立語音王A320 德賽西威德賽西威“EICC”車載高效人機(jī)互動(dòng)系統(tǒng)車載高效人機(jī)互動(dòng)系統(tǒng) SpeechMagic 天朗分布式語音識(shí)別系統(tǒng)天朗分布式語音識(shí)別系統(tǒng) Windows XP 語音識(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論