TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述

上傳人：b*** IP屬地：廣東上傳時(shí)間：2021-07-12 格式：PPT 頁數(shù)：80 大?。?.48MB 積分：30 舉報(bào) 版權(quán)申訴

TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述_第2頁

TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述_第3頁

TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述_第4頁

TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述_第5頁

已閱讀5頁，還剩75頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 TTS&ASR技術(shù)技術(shù) TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述語音合成定義解決如何讓機(jī)器象人說話的問題。其目的：能將任意文本實(shí)時(shí)地轉(zhuǎn)換為自然語音輸出，且輸出的語音清晰可懂。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述語音合成技術(shù)的應(yīng)用語音是信息傳播的一大媒介。近年來，提供語音服務(wù)的語音系統(tǒng)迅速

2、發(fā)展起來。傳統(tǒng)的語音系統(tǒng) 一般采用預(yù)錄音回放技術(shù)，由于這種方法必須對(duì)信息文本事先進(jìn)行錄音，并存為聲音文件，因此，所占用的存儲(chǔ)空間很大。另外，一個(gè)更大的缺點(diǎn)是不能實(shí)時(shí)反映信息的更新，應(yīng)用范圍有很大的局限性。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述錄音 wav 回放傳統(tǒng)的語音系統(tǒng) 語音壓縮編碼輸入語音恢復(fù)語音 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述現(xiàn)在的語音合成技術(shù)，無需對(duì)大量的信息進(jìn)行錄音，極大地減少了工作量和節(jié)省了存儲(chǔ)空間，尤其是在信息內(nèi)容需要經(jīng)常變動(dòng)的動(dòng)態(tài)查詢場合，如股市行情查詢、有聲Email系統(tǒng)，都是傳統(tǒng)的預(yù)錄音

3、技術(shù)無法代勞的。結(jié)合其他技術(shù)，語音合成技術(shù) 可以廣泛應(yīng)用于金融、郵電、工商、政府機(jī)關(guān)、交通、教育、游戲等領(lǐng)域。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述幾個(gè)語音合成技術(shù)的應(yīng)用實(shí)例 1. 電話查詢系統(tǒng) 工商信息電話查詢系統(tǒng)、銀行電話查詢系統(tǒng)、股票查詢系統(tǒng)、交通信息查詢系統(tǒng)、考試成績查詢系統(tǒng)等。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 2.教育與娛樂軟件普通話教學(xué)軟件是幫助想學(xué)普通話的用戶, 以往的普通話教學(xué)軟件只是將預(yù)先錄好音的單詞逐個(gè)讀給用戶聽，有了語音合成技術(shù)，可以將任意文本中的整句話、整段話讀給用戶聽，學(xué)習(xí)效率明顯提高。

4、TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述現(xiàn)在計(jì)算機(jī)游戲中的人物，或者不會(huì)說話，或者只會(huì)“ 播放”已經(jīng)錄好的聲音。利用語音合成，游戲中的人物可以說出任意的話語，不同的人物可以通過選用不同的音庫而形成不同的說話風(fēng)格。增加了游戲的趣味性和互動(dòng)性 3、游戲軟件 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 1. 語音信號(hào)的波形合成（錄音合成技術(shù)）采用數(shù)字存儲(chǔ)技術(shù)存儲(chǔ)基本的語音信息。在合成時(shí)采用恰當(dāng)?shù)募夹g(shù)手段挑選出所需的語音單元拼接起來，生成高自然度的語句，這就是波形拼接的語音合成方法。為了節(jié)省存儲(chǔ)容量，在存入機(jī)器之前還可以對(duì)語音信號(hào)先

5、進(jìn)行數(shù)據(jù)壓縮。語音合成技術(shù)方法 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述錄音 wav 回放語音壓縮編碼直接錄放流程 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述語音庫（語音單元）語音的波形編碼輸入語音挑選組合回放合成語音波形合成方法 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 2. 語音信號(hào)的參數(shù)合成根據(jù)語音產(chǎn)生的數(shù)學(xué)模型，利用短時(shí)平穩(wěn)性，提出每幀語音信號(hào)的參數(shù)，這些參數(shù)經(jīng)編碼后組成一個(gè)語音參數(shù)庫。輸出時(shí)，從語音參數(shù)庫中取出相應(yīng)的參數(shù)，利用語音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語音。共振峰合成和線性預(yù)

6、測合成是該類合成技術(shù) 中的重要方法。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 3. 語音信號(hào)的規(guī)則合成將任意文本轉(zhuǎn)換成聲音的系統(tǒng)。包括語言學(xué) 和聲學(xué)處理。合成的詞匯不是事先確定。常見的就是文語轉(zhuǎn)換合成技術(shù) text-to-speech (TTS)。系統(tǒng)中存儲(chǔ)的是音素的聲學(xué)參數(shù)，以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子的規(guī) 則；控制音調(diào)、輕重音等韻律的各種規(guī)則。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述給出待合成的字母或文字后，根據(jù)語義規(guī)則和語音規(guī)則，確定每個(gè)字的音素的組成和句子的低層結(jié)構(gòu)。為每一個(gè)詞、每一個(gè)音節(jié)確定重音等級(jí)

7、和語句結(jié)構(gòu)及語調(diào)，其中包括各種停頓等，這樣，文字串就變成了代碼串。聲學(xué)處理就利用規(guī)則將代碼串轉(zhuǎn)換成連續(xù)的語音波。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述歡迎使用微軟中國研究院中文語音合成系統(tǒng) 采用TTS技術(shù)合成語音 . M TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技

8、術(shù)Agenda語音合成技術(shù)概述 TTS合成技術(shù) lTTS合成技術(shù)的應(yīng)用 lTTS合成系統(tǒng)的構(gòu)成 l文本分析 l韻律控制 l語音合成方法 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 TTS合成技術(shù)的應(yīng)用 1.可以用于各種智能系統(tǒng)，如信息查詢系統(tǒng)、自動(dòng) 售票系統(tǒng)或殘疾人的輔助交流工具。 2.可以用于通信設(shè)備或一些數(shù)字產(chǎn)品，這樣傳遞的信息不是語音，而是文字，在通信設(shè)備的終端將文字信息轉(zhuǎn)換為語音即可，由于每個(gè)文字占用兩個(gè)字節(jié)，因而極具有價(jià)值 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述文本文本分析韻律控制合成模塊語音數(shù)據(jù)庫輸出 TTS系統(tǒng)的構(gòu)

9、成對(duì)輸入文本進(jìn)行分析切割出字詞以后，通過語音合成方法把這些字詞的發(fā)音合成出來，并串接起來，通過韻律調(diào)整，就可以得到較為自然的語句的發(fā)音。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述文本分析主要功能是使計(jì)算機(jī)能夠識(shí)別文字，并根據(jù) 文本的上、下文關(guān)系在一定程度上對(duì)文本進(jìn)行理解，將發(fā)音的方式告訴計(jì)算機(jī)；另外，還要讓計(jì) 算機(jī)知道文本中哪些是短語、句子，發(fā)音時(shí)到哪應(yīng)該停頓，停頓多長等等。 1.文本分析的主要功能: TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 2.文本分析工作的三個(gè)主要步驟：（1）將輸入的文本規(guī)范化，處理用戶可能的拼寫錯(cuò)誤，并將

10、文本中出現(xiàn)的一些不規(guī)范或無法發(fā)音的字符濾掉；（2）分析文本中的詞或短語的邊界，確定文字的讀音。（3）根據(jù)文本的結(jié)構(gòu)、組成和不同位置出現(xiàn)的標(biāo) 點(diǎn)符號(hào)，來確定發(fā)音時(shí)語氣的變換以及不同音的輕重方式。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 3.文本分析系統(tǒng)的基本框圖自動(dòng)分詞多音字處理聲調(diào)判斷特殊聲調(diào)調(diào)整特殊符號(hào) 停頓處理系統(tǒng)詞庫多音字詞庫變調(diào)規(guī)則庫特殊聲調(diào) 規(guī)則 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述自動(dòng)分詞對(duì)句子以系統(tǒng)詞庫為模板用最大匹配的方法進(jìn)行分詞，從系統(tǒng)詞庫中提取相應(yīng)的讀音、聲調(diào) 和時(shí)長信息作為控制參數(shù)。

11、TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述多音字處理對(duì)自動(dòng)分詞處理后的句子中余下的字，首先查找多音字表，若不是多音字，則檢索標(biāo)準(zhǔn)字庫，取得該字的讀音和聲調(diào)；若是多音字，則根據(jù)在多音字庫中得到的信息從特征詞庫中讀取相應(yīng)的信息，選擇恰當(dāng)?shù)淖x音和聲調(diào)。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述聲調(diào)調(diào)整根據(jù)變調(diào)規(guī)則庫中的規(guī)則，對(duì)每個(gè)字的聲調(diào)做一些調(diào)整，在詞與詞之間加入適當(dāng)?shù)?停頓信息。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 4.文本分析的輸出將輸入的文字轉(zhuǎn)換成計(jì)算機(jī)能夠處理的內(nèi) 部參數(shù)(每個(gè)詞的發(fā)音聲母韻母聲

12、調(diào))，便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。常見的文本分析方法：二元文法、HMM和神經(jīng)網(wǎng)絡(luò)法等。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述語音合成方法首先合成字的聲母，再合成它的韻母，然后將韻母的聲調(diào)調(diào)整到所需要的聲調(diào)上，然后將聲母和韻母連接起來得到最終合成的語音。 1. 語音合成部分的主要功能: TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述單獨(dú)發(fā)聲的一個(gè)音節(jié)或是語音流中的任何一個(gè)音節(jié)都可能由7部分組成。無聲段音節(jié) 聲母鼻音段聲母輔音段元音段送氣段前過渡段后過渡段韻母 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合

13、成技術(shù)概述 2.語音數(shù)據(jù)庫 (2)聲母表：22個(gè)聲母的波形 (3)韻母表：38個(gè)韻母的波形（基音同步幀、過渡音和鼻音） (4)聲調(diào)曲線：不同聲調(diào)的聲調(diào)曲線。 (1)漢字拼音庫：每個(gè)漢字的拼音信息是一個(gè)二進(jìn) 制文件，其形式為：聲母韻母聲調(diào)標(biāo)號(hào)。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 3.語音合成步驟拼音信息聲母韻母聲調(diào) 基音同步幀、過渡音和鼻音庫聲調(diào)曲線庫聲母庫合成韻母幅度調(diào)整疊接合成語音 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述五、韻律控制韻律特征包括聲調(diào)、語氣、停頓方式、發(fā) 音長短等。這些通過基頻、音長、音強(qiáng)等參

14、數(shù) 來體現(xiàn)，通過控制這些參數(shù)達(dá)到對(duì)韻律的控制。包括基音同步幀周期的調(diào)整、合成語音幅度的調(diào)整、聲調(diào)曲線的修正等。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述基音同步幀周期的調(diào)整把原始的基音周期調(diào)整為指定的基音周期，調(diào)整后的基音同步幀波形要與原始基音同步幀相似，幅度要基本相等。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述語音識(shí)別技術(shù)概述 l語音識(shí)別的定義 l語音識(shí)別

15、的應(yīng)用 l語音識(shí)別的類型 l語音識(shí)別的方法 l語音識(shí)別的主要問題 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述一、語音識(shí)別的定義語音識(shí)別是指從語音到文本的轉(zhuǎn)換，即讓計(jì)算機(jī)能夠把人發(fā)出的有意義的話音變成書面語言。通俗地說就是讓機(jī)器能夠聽懂人說的話。所謂聽懂，有兩層意思，一是指把用戶所說的話逐詞逐句轉(zhuǎn)換成文本；二是指正確理解語音中所包含的要求，作出正確的應(yīng)答。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述二、語音識(shí)別的應(yīng)用語音識(shí)別技術(shù)是以語音為研究對(duì)象，涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域。隨著語音識(shí)別技術(shù)的

16、逐漸成熟，語音識(shí)別技術(shù)開始得到廣泛的應(yīng)用，涉及日常生活的各個(gè)方面如電信、金融、新聞、公共事業(yè)等各個(gè)行業(yè)，通過采用語音識(shí) 別技術(shù)，可以極大的簡化這些領(lǐng)域的業(yè)務(wù)流程以及操作；提高系統(tǒng)的應(yīng)用效率。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 1.語音識(shí)別以IBM推出的ViaVoice為代表，國內(nèi) 則推出Dutty +語音識(shí)別系統(tǒng)、天信語音識(shí)別系統(tǒng)、世音通語音識(shí)別系統(tǒng)等。 2. 數(shù)據(jù)庫檢索：對(duì)龐大的數(shù)據(jù)進(jìn)行繁雜的檢索和查詢，通過使用語音識(shí)別技術(shù)，將變得輕松、方便。 3. 特殊的環(huán)境所需的語音命令：用語音發(fā)出操作指令。語音識(shí)別應(yīng)用實(shí)例 TTSASR技術(shù)3TTSASR

17、技術(shù)Agenda語音合成技術(shù)概述采用語音識(shí)別和語音合成技術(shù)，能與客戶進(jìn)行交互式對(duì)話，幫助客戶找到他們所需要的商品。一個(gè)動(dòng) 作傳感器可以啟動(dòng)系統(tǒng)，詢問顧客“需要我?guī)湍銓ふ?什么嗎？”如果顧客回答說“我在找面包。系統(tǒng)將會(huì) 告訴顧客：“面包在第11過道，就是直接往前第3個(gè) 過道，我們今天有全麥面包特惠，需要我為您打印一張優(yōu)惠券嗎？語音識(shí)別用于商場導(dǎo)購 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述德國西門子公司推出的一種新洗衣機(jī),洗衣物非常專業(yè)，知道為什么樣的臟衣物選擇合適洗滌程序和洗滌劑，而主人只需要口頭命令即可，比如 “半個(gè)小時(shí)后再洗”。與普通洗衣機(jī)的不同之處

18、是安裝了語音識(shí)別芯片，能根據(jù)用戶的語音指令確定洗滌程序。語音識(shí)別用于家用電器，走入人類未來生活 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述三、語音識(shí)別的類型 1.以所要識(shí)別的對(duì)象來分，有：（1）孤立詞識(shí)別（字或詞間有停頓，用于控制系統(tǒng)）（2）連接詞識(shí)別（十個(gè)數(shù)字連接而成的多位數(shù)字識(shí)別或由少數(shù)指令構(gòu)成詞條的識(shí)別，用于數(shù)據(jù)庫查詢、電話和控制系統(tǒng)）（3）連續(xù)語音識(shí)別和理解（自然的說話方式）（4）會(huì)話語音識(shí)別（識(shí)別出會(huì)話語言） TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 2.根據(jù)識(shí)別的詞匯量來分，有：（1）大詞匯（1000個(gè)以上的詞匯，如

19、會(huì)議系統(tǒng)）（2）中詞匯（201000個(gè)詞匯，如定票系統(tǒng)）（3）小詞匯（120個(gè)詞匯，如語音電話撥號(hào)） 3.根據(jù)講話人的范圍來分，有：（1）單個(gè)特定人（2）多講話人（有限的講話人）（3）與講話者無關(guān) TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述四、語音識(shí)別的方法 1.模板匹配法在訓(xùn)練階段，用戶將詞匯表中的每一詞依次說一遍，并且將其特征矢量作為模板存入模板庫。在識(shí)別階段，將輸入語音的特征矢量依次與模板庫中的每個(gè)模板進(jìn)行相似度比較，將相似度最高者作為識(shí)別結(jié)果輸出。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述特征矢量LPC倒譜c(n)

20、語文學(xué) 音 wen 模板庫 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述由于語音有較大的隨機(jī)性，即使同一個(gè)人在不同時(shí) 刻的同一句話發(fā)的同一個(gè)音，也不可能具有完全相同的時(shí)間長度，因此時(shí)間伸縮處理是必不可少的。 DTW用滿足一定條件的時(shí)間規(guī)整函數(shù)，描述待識(shí)別模式和參考模板的時(shí)間對(duì)應(yīng)關(guān)系，求解兩個(gè)模板匹配，就是累積距離測度最小對(duì)應(yīng)的規(guī)整函數(shù)。 DTW(Dynamic Time Warping) 動(dòng)態(tài)時(shí)間規(guī)整 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 2.隨機(jī)模型法采用HMM模型，使用概率參數(shù)來進(jìn)行估計(jì)和判決。無聲段鼻音段聲母輔音段

21、元音段送氣段前過渡段后過渡段 1)發(fā)音的各個(gè)段構(gòu)成相應(yīng)的狀態(tài)。 (3)基本單元發(fā)音速率（停留時(shí)間和轉(zhuǎn)移時(shí)間）對(duì)應(yīng)狀態(tài)轉(zhuǎn)移概率(0.5)。 (2)聲學(xué)變化（LPC倒譜）對(duì)應(yīng)輸出序列，概率分布成混合高斯密度函數(shù)。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 A2 用HMM實(shí)現(xiàn)連續(xù)語音識(shí)別的框架音子a音子b 特征矢量音子a 字 A1 句子 A1 P(A1) P(A2/A1) sa1sa2sa3sa4sa5 BEGIN TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述句法層：每個(gè)句子由若干字構(gòu)成，每個(gè)字都選自于字庫。字層：每個(gè)字由音

22、子串接而成，需要一個(gè)數(shù)據(jù)庫來描述每一個(gè)字如何用音子串接的。語音層：每個(gè)音子用一個(gè)HMM模型及其相應(yīng)的參數(shù) 來描述（狀態(tài)及其狀態(tài)間的轉(zhuǎn)移）。聲學(xué)層：提取語音幀特征矢量。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 1.對(duì)自然語言的識(shí)別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位，其次要建立一個(gè)理解語義的規(guī)則。 2.語音信息量大。語音模式不僅對(duì)不同的說話人不同，對(duì)同一說話人也是不同的，例如，一個(gè)說話人在隨意說話和認(rèn)真說話時(shí)的語音信息時(shí)不同的。一個(gè)人的說話方式隨著時(shí)間變化。五、語音識(shí)別的主要問題 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)

23、概述 3.語音的模糊性。說話者在講話時(shí)，不同的詞可能聽起來是相似的。這在英語和漢語中常見。 4.單個(gè)字母或詞、字的語音特性受上下文的影響，以致改變了重音、音調(diào)、音量和發(fā)音速度等。 5.環(huán)境噪聲和干擾對(duì)語音識(shí)別有嚴(yán)重影響，致使識(shí) 別率低。 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 ASR語音識(shí)別 ASR的定義的定義 ASR的流程的流程 ASR的分類的分類 ASR的學(xué)科特點(diǎn)的學(xué)科特點(diǎn) ASR的歷

24、史的歷史 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 ASR的定義兩個(gè)不同層次的理解兩個(gè)不同層次的理解 vASR:Automatic Speech Recognition，讓機(jī)，讓機(jī) 器把人說的語音翻譯成文字器把人說的語音翻譯成文字 v自動(dòng)語音理解（自動(dòng)語音理解（ASU）:在語音識(shí)別的基礎(chǔ)在語音識(shí)別的基礎(chǔ) 上，理解人所說的文字意義上，理解人所說的文字意義目標(biāo)：理解任何人在任何環(huán)境下的語音，目標(biāo)：理解任何人在任何環(huán)境下的語音，模仿人的聽覺能力模仿人的聽覺能力 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 ASR的信號(hào)流框圖 Speech Recog

25、nizer Character Series Speech source A/D Channel TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 Front-end analysis 特征提取音字轉(zhuǎn)換后處理語音信號(hào)識(shí)別結(jié)果模板庫模板庫語法、語言知識(shí) 語法、語言知識(shí) TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述語音識(shí)別分類按詞匯量大小按詞匯量大小小詞匯量（小詞匯量（30）、中詞匯量）、中詞匯量(100) 大詞匯量大詞匯量(無限量無限量) 發(fā)音是否連續(xù)：孤立詞、連續(xù)語音發(fā)音是否連續(xù)：孤立詞、連續(xù)語音按與說話人的關(guān)系：按與說話人的關(guān)系：SD，

26、SI 按說話方式：朗誦語音、口語語音按說話方式：朗誦語音、口語語音按應(yīng)用目標(biāo)：通用、專用按應(yīng)用目標(biāo)：通用、專用按實(shí)現(xiàn)方法：計(jì)算機(jī)軟件，嵌入式系統(tǒng)，計(jì)算機(jī)網(wǎng)按實(shí)現(xiàn)方法：計(jì)算機(jī)軟件，嵌入式系統(tǒng)，計(jì)算機(jī)網(wǎng) 絡(luò)，電話網(wǎng)絡(luò)，無線網(wǎng)絡(luò)絡(luò)，電話網(wǎng)絡(luò)，無線網(wǎng)絡(luò) 返回 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述學(xué)科特點(diǎn):交叉學(xué)科 Signal Processing Acoustics Pattern recognition Communication and information theory Linguistics Physiology and psychology Comput

27、er Science and technology Cognitive science TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 History What was the first success story of speech recognition? “Radio Rex” in the 1922, was the first success story in the field of speech recognition little toy dog named Rex” Voice recognition TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成

28、技術(shù)概述 History 1936 - AT & Ts Bell labs started study of speech recognition (funded by DARPA) 1950s-Isolated digit,syllables, phonemes, small vocabulary 1960s Japan, Hardware systems Use of dynamic programming Reddy (CMU) :continuous speech recognition TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 History(cont) 1

29、970s, significant milestones Isolated word became viable and usable: using pattern-recognition, DP and LPC IBMs efforts in large vocabulary AT&T Bell Labss efforts in SI ASR, - clustering algorithms 1978 speak and spell toy by TI TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 History(cont) 1980s, Focus on connect

30、ed word recognition two-level DP (NEC),One-pass method,Level building Shift from template-based approaches to statistical modeling methods HMM Applying ANN in the late 1980s Systems: SPHINX (CMU), BYBLOS (BBN), SRI (Lincoln Labs) TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 History(cont) 1990s, Focus on continu

31、ous ASR Reduce the effect of noise Robustness On-line learning (Speaker adaptation) Natural language front ends to ASR IBM Via Voice Development platform：VBVoice (Pronexus) 1997 Dragon Systems TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 History(cont) 21c: Technology to deal with environment variation ASR for m

32、ulti-languages Embedded System TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 Agenda 語音合成技術(shù)概述 TTS語音合成技術(shù) 語音識(shí)別技術(shù)概述 ASR語音識(shí)別技術(shù) 語音處理的發(fā)展和趨勢 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述 Challenges of speech recognition Ease of use Robust performance Automatic learning of new words and sounds Grammar for spoken language Control of s

33、ynthesized voice quality Integrated learning for speech recognition and synthesis TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述研究機(jī)構(gòu) CMU: UW UCLA Purdue University Stanford University University of Pittsburgh TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述研究機(jī)構(gòu) 清華大學(xué)清華大學(xué) 中國科技大學(xué)中國科技大學(xué) 哈爾濱工業(yè)大學(xué)哈爾濱工業(yè)大學(xué) 安徽科大訊飛信息科技股份有限公司安徽科大訊飛信息科技股份有

34、限公司福建省海峽天音信息技術(shù)有限公司福建省海峽天音信息技術(shù)有限公司金耳麥金耳麥-言豐科技言豐科技 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述研究機(jī)構(gòu) IBM (Human Language Technologies Research) IBM India Research Lab : Microsoft: Pronexus Intel More TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述應(yīng)用領(lǐng)域語音聽寫系統(tǒng)語音聽寫系統(tǒng) Via Voice Dragon Systems VoxNaut: 開放式多語言語音服務(wù)平臺(tái)開放式多語言語音服務(wù)平臺(tái)(,

35、Italy) 易說語音輸入系列易說語音輸入系列海峽天音海峽天音 Pattek ASR 中科院自動(dòng)化所中科院自動(dòng)化所普通話普通話95% TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述應(yīng)用領(lǐng)域（續(xù)）智能人機(jī)界面智能人機(jī)界面語音信息服務(wù)語音信息服務(wù) 政策咨詢、航班信息、交通信息查詢政策咨詢、航班信息、交通信息查詢股票信息查詢股票信息查詢公安的刑事偵察輔助公安的刑事偵察輔助電話監(jiān)聽：具有關(guān)鍵語音發(fā)現(xiàn)能力電話監(jiān)聽：具有關(guān)鍵語音發(fā)現(xiàn)能力聲紋身份偵察聲紋身份偵察醫(yī)療臨床應(yīng)用醫(yī)療臨床應(yīng)用身份認(rèn)證身份認(rèn)證: 信息安全信息安全 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述應(yīng)用領(lǐng)域(續(xù)) 嵌入式產(chǎn)品應(yīng)用嵌入式產(chǎn)品應(yīng)用電話、移動(dòng)通信工具電話、移動(dòng)通信工具提供語音服務(wù)的交換機(jī)提供語音服務(wù)的交換機(jī) 具有語言交互能力的機(jī)器人具有語言交互能力的機(jī)器人智能導(dǎo)游器智能導(dǎo)游器具有語言溝通能力的智能玩具具有語言溝通能力的智能玩具 TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述典型產(chǎn)品金立語音王金立語音王A320 德賽西威德賽西威“EICC”車載高效人機(jī)互動(dòng)系統(tǒng)車載高效人機(jī)互動(dòng)系統(tǒng) SpeechMagic 天朗分布式語音識(shí)別系統(tǒng)天朗分布式語音識(shí)別系統(tǒng) Windows XP 語音識(shí)

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述

文檔簡介

溫馨提示

最新文檔

評(píng)論

TTSASR技術(shù)3TTSASR技術(shù)Agenda語音合成技術(shù)概述

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔