《人工智能應(yīng)用基礎(chǔ)》 課件-模塊三 智能語(yǔ)音技術(shù)_第1頁(yè)
《人工智能應(yīng)用基礎(chǔ)》 課件-模塊三 智能語(yǔ)音技術(shù)_第2頁(yè)
《人工智能應(yīng)用基礎(chǔ)》 課件-模塊三 智能語(yǔ)音技術(shù)_第3頁(yè)
《人工智能應(yīng)用基礎(chǔ)》 課件-模塊三 智能語(yǔ)音技術(shù)_第4頁(yè)
《人工智能應(yīng)用基礎(chǔ)》 課件-模塊三 智能語(yǔ)音技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

BasisofArtificialIntelligenceApplication人工智能應(yīng)用基礎(chǔ)模塊三智能語(yǔ)音技術(shù)01

錄音北京明天的天氣怎么樣?識(shí)別北京明天是晴天,最高氣溫28度,適合郊游。合成問(wèn)答播放小紅是公司的客服,每天要回復(fù)很多客戶(hù)的電話(huà),嗓子經(jīng)常會(huì)變得沙啞。她一直盼望著:能不能把回復(fù)的文字轉(zhuǎn)換成音頻,自動(dòng)播放給客戶(hù)?任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音網(wǎng)絡(luò)通信正常已安裝Anaconda集成環(huán)境已安裝百度SDK并注冊(cè)用戶(hù)1、任務(wù)描述準(zhǔn)備一段文字(或文本文件)

在百度平臺(tái)創(chuàng)建語(yǔ)音應(yīng)用并獲取鑒權(quán)信息

編寫(xiě)六段代碼編譯運(yùn)行并收聽(tīng)結(jié)果2、環(huán)境要求3、任務(wù)設(shè)計(jì)本次任務(wù)是借助百度語(yǔ)音接口,將給定的文字轉(zhuǎn)換成語(yǔ)音并播放出來(lái)。效果如下所示。}任務(wù)一請(qǐng)掃碼完成集成環(huán)境&百度平臺(tái)我愛(ài)北京天安門(mén),天安門(mén)上紅旗飄!1.熟悉語(yǔ)音處理的概念2.了解語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、喚醒詞等常用技術(shù)3.了解語(yǔ)音處理的常見(jiàn)應(yīng)用4.能將文字轉(zhuǎn)化為語(yǔ)音5.提升四個(gè)自信與工匠精神重點(diǎn):1.語(yǔ)音處理的概念2.語(yǔ)音處理的相關(guān)技術(shù)與應(yīng)用3.TTS文字轉(zhuǎn)語(yǔ)音實(shí)踐難點(diǎn):1.語(yǔ)音處理的相關(guān)技術(shù)2.文字轉(zhuǎn)語(yǔ)音實(shí)踐知識(shí)?技能?素質(zhì)重難點(diǎn)人工智能應(yīng)用基礎(chǔ)BasisofArtificialIntelligenceApplication3.1語(yǔ)音處理的概念

3.2語(yǔ)音處理的常用技術(shù)3.3語(yǔ)音處理的常見(jiàn)應(yīng)用任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音語(yǔ)音處理(speechsignalprocessing)是研究語(yǔ)音發(fā)聲過(guò)程、語(yǔ)音信號(hào)的統(tǒng)計(jì)特性、語(yǔ)音的自動(dòng)識(shí)別、機(jī)器合成以及語(yǔ)音感知等各種處理技術(shù)的總稱(chēng)。它是一門(mén)研究如何讓機(jī)器能夠“聽(tīng)”和“說(shuō)”的學(xué)科,屬于人工智能中的感知智能范疇。語(yǔ)音處理概念圖1、語(yǔ)音處理的定義3.1語(yǔ)音處理的概念語(yǔ)音處理主要研究RNN,LSTM等基礎(chǔ)算法,實(shí)現(xiàn)語(yǔ)音識(shí)別(包括語(yǔ)音喚醒)、語(yǔ)音合成、語(yǔ)音增強(qiáng)、聲紋識(shí)別、語(yǔ)音評(píng)測(cè)等應(yīng)用技術(shù)方向。目前,語(yǔ)音技術(shù)已經(jīng)在智能家居、手機(jī)助理多個(gè)領(lǐng)域取得了良好的應(yīng)用。語(yǔ)音處理技術(shù)與應(yīng)用框架2、語(yǔ)音處理技術(shù)與應(yīng)用框架3.1語(yǔ)音處理的概念MFCCGMM-HMM…DNN-HMMRNNLSTM基礎(chǔ)算法語(yǔ)音識(shí)別語(yǔ)音合成語(yǔ)音增強(qiáng)……聲紋識(shí)別應(yīng)用技術(shù)手機(jī)汽車(chē)家居客服金融可穿戴智能機(jī)器人…業(yè)務(wù)場(chǎng)景3.1語(yǔ)音處理的概念

3.2語(yǔ)音處理的常用技術(shù)3.3語(yǔ)音處理的常見(jiàn)應(yīng)用任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音語(yǔ)音識(shí)別:說(shuō)的是什么?語(yǔ)音合成:替我說(shuō)話(huà)!語(yǔ)音增強(qiáng):消減噪音,讓我聽(tīng)得清楚點(diǎn)聲紋識(shí)別:是誰(shuí)在說(shuō)話(huà)?語(yǔ)音評(píng)測(cè):你的發(fā)音水平如何?常用技術(shù)3.2語(yǔ)音處理的常用技術(shù)語(yǔ)音識(shí)別,又稱(chēng)自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR),是將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,它是利用計(jì)算機(jī)自動(dòng)對(duì)語(yǔ)音信號(hào)的音素、音節(jié)或詞進(jìn)行識(shí)別的技術(shù)總稱(chēng)。1、語(yǔ)音識(shí)別3.2語(yǔ)音處理的常用技術(shù)語(yǔ)音識(shí)別一般流程科大訊飛棵大訓(xùn)非kēdàxùnfēi語(yǔ)言處理科大訊飛信號(hào)處理特征提取模型匹配聲學(xué)模型聲學(xué)庫(kù)語(yǔ)言模型文本庫(kù)1、語(yǔ)音識(shí)別3.2語(yǔ)音處理的常用技術(shù)輸入語(yǔ)音有效語(yǔ)言檢測(cè)接口層特征提取語(yǔ)音識(shí)別語(yǔ)言模型聲學(xué)模型識(shí)別結(jié)果語(yǔ)音前處理數(shù)據(jù)預(yù)處理語(yǔ)音訓(xùn)練集聲學(xué)模型訓(xùn)練文本訓(xùn)練集數(shù)據(jù)清洗和正規(guī)化模型訓(xùn)練和優(yōu)化語(yǔ)言模型訓(xùn)練系統(tǒng)流程HMMCNNDNN

RNN1、語(yǔ)音識(shí)別3.2語(yǔ)音處理的常用技術(shù)語(yǔ)音編碼語(yǔ)音質(zhì)量16K16bit、8K16bit、Speex壓縮避免丟音、截幅、音量過(guò)小等理想音頻丟音截幅音量過(guò)小輸入語(yǔ)音:較高質(zhì)量1、語(yǔ)音識(shí)別3.2語(yǔ)音處理的常用技術(shù)聲學(xué)一致性:待識(shí)別語(yǔ)音和語(yǔ)音訓(xùn)練集具有一致性數(shù)據(jù)預(yù)處理(NoiseRobust)語(yǔ)音訓(xùn)練集聲學(xué)模型遠(yuǎn)場(chǎng)近場(chǎng)設(shè)備降噪用戶(hù)口音聲學(xué)匹配:聲學(xué)一致性聲學(xué)模型訓(xùn)練1、語(yǔ)音識(shí)別3.2語(yǔ)音處理的常用技術(shù)文本一致性:待識(shí)別領(lǐng)域和文本訓(xùn)練集具有一致性語(yǔ)言模型語(yǔ)言模型訓(xùn)練數(shù)據(jù)清洗和正規(guī)化模型訓(xùn)練和優(yōu)化文本訓(xùn)練集領(lǐng)域數(shù)據(jù)核心詞匯wǒxǐhuānbǎidù我喜歡文本匹配:文本一致性百度擺渡!1、語(yǔ)音識(shí)別3.2語(yǔ)音處理的常用技術(shù)語(yǔ)音識(shí)別語(yǔ)義理解對(duì)話(huà)管理語(yǔ)音喚醒聲紋識(shí)別大白你好小明你好語(yǔ)音合成語(yǔ)音喚醒:在手機(jī)、玩具、家電等設(shè)備在休眠或鎖屏狀態(tài)下,能檢測(cè)到用戶(hù)發(fā)出的“小度小度”或“小愛(ài)同學(xué)”等喚醒詞,讓處于休眠狀態(tài)下的設(shè)備直接進(jìn)入到等待指令狀態(tài),開(kāi)啟語(yǔ)音交互第一步。1、語(yǔ)音識(shí)別3.2語(yǔ)音處理的常用技術(shù)特征提取關(guān)鍵詞識(shí)別聲學(xué)模型庫(kù)>閾值?得分接受拒絕錯(cuò)誤拒絕率(FRR)錯(cuò)誤接受率(FAR)功耗語(yǔ)音喚醒:?jiǎn)拘言~設(shè)計(jì)簡(jiǎn)單易記日常少用易于喚醒3-4個(gè)音節(jié)語(yǔ)音識(shí)別主要包括語(yǔ)音聽(tīng)寫(xiě)、語(yǔ)音轉(zhuǎn)寫(xiě)等細(xì)分應(yīng)用,以及語(yǔ)音喚醒這個(gè)特殊應(yīng)用。1、語(yǔ)音識(shí)別3.2語(yǔ)音處理的常用技術(shù)對(duì)比語(yǔ)音聽(tīng)寫(xiě)語(yǔ)音轉(zhuǎn)寫(xiě)音頻時(shí)長(zhǎng)≤60秒介于60秒與5小時(shí)實(shí)時(shí)性要求高低適用場(chǎng)景手機(jī)語(yǔ)音輸入、智能語(yǔ)音交互、語(yǔ)音指令、語(yǔ)音搜索等語(yǔ)音質(zhì)檢、會(huì)議訪(fǎng)談、音頻內(nèi)容分析等語(yǔ)音合成又稱(chēng)文語(yǔ)轉(zhuǎn)換(TextToSpeech,TTS)技術(shù),是將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語(yǔ)音朗讀出來(lái),它是通過(guò)機(jī)械的、電子的方法產(chǎn)生人造語(yǔ)音的技術(shù)。2、語(yǔ)音合成3.2語(yǔ)音處理的常用技術(shù)文本輸入

語(yǔ)言處理

韻律處理

單元合成

語(yǔ)音輸出語(yǔ)音合成一般流程聲學(xué)模型語(yǔ)言模型語(yǔ)法分析發(fā)音提示……波形拼接參數(shù)合成……2、語(yǔ)音合成3.2語(yǔ)音處理的常用技術(shù)目前的語(yǔ)音合成技術(shù)已與真人無(wú)異文本分析(文本正則、分詞、詞性標(biāo)注、注音)韻律停頓預(yù)測(cè)聲學(xué)參數(shù)預(yù)測(cè)單元選擇聲碼器在線(xiàn)合成離線(xiàn)合成語(yǔ)音增強(qiáng)(speechenhancement)是從帶噪語(yǔ)音信號(hào)中提取盡可能純凈的原始語(yǔ)音,抑制、降低噪聲干擾,以改進(jìn)語(yǔ)音質(zhì)量、提高語(yǔ)音可懂度的技術(shù)。3、語(yǔ)音增強(qiáng)3.2語(yǔ)音處理的常用技術(shù)智能語(yǔ)音交互中的語(yǔ)音增強(qiáng)在語(yǔ)音識(shí)別、說(shuō)話(huà)人識(shí)別、語(yǔ)種識(shí)別等各種以語(yǔ)音為信息載體的智能交互應(yīng)用中,都面臨著噪聲干擾,使得有用語(yǔ)音信息畸變,語(yǔ)音質(zhì)量降低,影響了機(jī)器對(duì)人類(lèi)命令和語(yǔ)音信息的辨別和理解。聲紋識(shí)別也稱(chēng)為說(shuō)話(huà)人識(shí)別,包括說(shuō)話(huà)人辨認(rèn)和說(shuō)話(huà)人確認(rèn)。4、聲紋識(shí)別3.2語(yǔ)音處理的常用技術(shù)說(shuō)話(huà)人辨認(rèn)(SpeakerIdentification)是1:N問(wèn)題:門(mén)禁、考勤、縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù),用以判斷某段語(yǔ)音是若干人中的哪一個(gè)所說(shuō)的年齡性別識(shí)別機(jī)器對(duì)已被授權(quán)輸入的音頻數(shù)據(jù)進(jìn)行分析,輔助判定說(shuō)話(huà)者的年齡范圍(小孩、中年、老年)及性別(男,女)Ta是誰(shuí)?是Ta嗎?說(shuō)話(huà)人確認(rèn)(SpeakerVerification)是1:1問(wèn)題:銀行、證券等實(shí)名制領(lǐng)域進(jìn)行交易時(shí),需要確認(rèn)技術(shù),用以確認(rèn)某段語(yǔ)音是否是本人所說(shuō)的語(yǔ)音評(píng)測(cè)(SpeechEvaluator)通過(guò)智能語(yǔ)音技術(shù)自動(dòng)對(duì)發(fā)音水平進(jìn)行評(píng)價(jià)、發(fā)音錯(cuò)誤、缺陷進(jìn)行定位和問(wèn)題分析。5、語(yǔ)音評(píng)測(cè)3.2語(yǔ)音處理的常用技術(shù)科大訊飛語(yǔ)音評(píng)測(cè)流程可以對(duì)中英文的朗讀發(fā)音進(jìn)行評(píng)分和問(wèn)題定位。針對(duì)字、詞、句、篇章等類(lèi)型,返回準(zhǔn)確度、流暢度、完整度、聲韻調(diào)型等多維度評(píng)分,用于提升發(fā)音水平。3.1語(yǔ)音處理的概念3.2語(yǔ)音處理的常用技術(shù)3.3語(yǔ)音處理的常見(jiàn)應(yīng)用任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音1、語(yǔ)音識(shí)別應(yīng)用3.3語(yǔ)音處理的常見(jiàn)應(yīng)用社交聊天社交聊天發(fā)送實(shí)時(shí)語(yǔ)音,支持中文,英文識(shí)別,方言支持廣東語(yǔ),四川話(huà)。讓溝通交流更加準(zhǔn)確案例:游戲娛樂(lè)語(yǔ)音聊天轉(zhuǎn)文字,讓用戶(hù)在操作的同時(shí)也可看到聊天內(nèi)容案例:語(yǔ)音輸入法擺脫生僻字和拼音障礙,將所輸入文字,直接用語(yǔ)音的方式輸入,讓輸入法更加便捷案例:

語(yǔ)音搜索搜索內(nèi)容直接以語(yǔ)音的方式輸入,讓搜索更加高效案例:2、語(yǔ)音合成應(yīng)用3.3語(yǔ)音處理的常見(jiàn)應(yīng)用出行、娛樂(lè)語(yǔ)音指令解放雙手機(jī)器人解說(shuō)體育賽事農(nóng)家數(shù)字書(shū)屋解放雙手用耳朵獲取知識(shí)2、語(yǔ)音合成應(yīng)用3.3語(yǔ)音處理的常見(jiàn)應(yīng)用功能:通過(guò)語(yǔ)音“說(shuō)出”用戶(hù)的需求,智能家居就能識(shí)別,執(zhí)行。案例:智能電視系統(tǒng),直接根據(jù)語(yǔ)音操作3、語(yǔ)音增強(qiáng)應(yīng)用3.3語(yǔ)音處理的常見(jiàn)應(yīng)用軍事任務(wù)中的應(yīng)用公安、國(guó)防等領(lǐng)域中的背景噪聲裝甲兵坦克海軍輪船駕駛室炮兵在操作火炮時(shí)空軍的地勤保障場(chǎng)所和設(shè)備,單兵惡劣的戰(zhàn)爭(zhēng)環(huán)境語(yǔ)音增強(qiáng)4、聲紋識(shí)別3.3語(yǔ)音處理的常見(jiàn)應(yīng)用“小度小度,給我來(lái)首歌”“馬上播放小兔子乖乖”語(yǔ)音識(shí)別(ASR)Service語(yǔ)義理解(NLP)識(shí)別文本語(yǔ)音喚醒(Wakeup)聲紋辨認(rèn)?聲紋確認(rèn)?精準(zhǔn)回應(yīng)!3.1語(yǔ)音處理的概念3.2語(yǔ)音處理的常用技術(shù)3.3語(yǔ)音處理的常見(jiàn)應(yīng)用任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音網(wǎng)絡(luò)通信正常已安裝Anaconda集成環(huán)境已安裝百度SDK并注冊(cè)用戶(hù)1、任務(wù)描述準(zhǔn)備一段文字(或文本文件)

在百度平臺(tái)創(chuàng)建語(yǔ)音應(yīng)用并獲取鑒權(quán)信息

編寫(xiě)六段代碼編譯運(yùn)行并收聽(tīng)結(jié)果2、環(huán)境要求3、任務(wù)設(shè)計(jì)本次任務(wù)是借助百度語(yǔ)音接口,將給定的文字轉(zhuǎn)換成語(yǔ)音并播放出來(lái)。效果如下所示。歡迎使用百度人工智能開(kāi)放平臺(tái)?。蝿?wù)一請(qǐng)掃碼完成集成環(huán)境&百度平臺(tái)任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音登錄

?

進(jìn)入“語(yǔ)音識(shí)別”場(chǎng)景①開(kāi)放能力

②語(yǔ)音技術(shù)

③語(yǔ)音合成

④(進(jìn)入下一個(gè)頁(yè)面)立即使用領(lǐng)取免費(fèi)資源⑤去領(lǐng)取

⑥語(yǔ)音合成

全部

⑧0元領(lǐng)取創(chuàng)建應(yīng)用⑨去創(chuàng)建

⑩填寫(xiě)應(yīng)用名稱(chēng)(自定義)

?填寫(xiě)應(yīng)用描述(自定義)

?立即創(chuàng)建獲取密鑰?文字識(shí)別

?應(yīng)用列表

?顯示你的密鑰序號(hào)應(yīng)用名稱(chēng)AppIDAPIKeySecretKey1MySpeech22898059BOrie9B…******顯示2短語(yǔ)音識(shí)別25780364YnsT00u…******顯示①??②③⑤⑨?創(chuàng)建語(yǔ)音應(yīng)用并獲取秘鑰4、任務(wù)實(shí)施任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音參考代碼4、任務(wù)實(shí)施左側(cè)為參考代碼,其中:如果用于合成的文字來(lái)自于文本文件,則該文本文件應(yīng)與源代碼文件在同一目錄下需要領(lǐng)取免費(fèi)資源包任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音編譯運(yùn)行結(jié)果4、任務(wù)實(shí)施調(diào)用系統(tǒng)播放器,直接播放語(yǔ)音不顯示返回信息,直接保存音頻任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音常見(jiàn)問(wèn)題:編譯錯(cuò)誤英文括號(hào)()單引號(hào)''雙引號(hào)""寫(xiě)成了中文符號(hào)英文錯(cuò)誤代碼Code6:誤注冊(cè)了其它應(yīng)用,如圖像搜索技能等錯(cuò)誤代碼Code14:AK、SK抄寫(xiě)錯(cuò)誤,有空格等5、常見(jiàn)問(wèn)題常見(jiàn)問(wèn)題:疏忽程序能編譯,無(wú)錯(cuò)誤提示,但沒(méi)有合成語(yǔ)音文件:查看是否領(lǐng)用了語(yǔ)音合成免費(fèi)資源能正常播放語(yǔ)音,但找不到音頻文件:SpyderFileSaveas查看源文件路徑

任務(wù)3:TTS文字轉(zhuǎn)語(yǔ)音本次項(xiàng)目利用百度人工智能開(kāi)放平臺(tái)實(shí)現(xiàn)了語(yǔ)音合成功能。在此基礎(chǔ)上,學(xué)員們可以進(jìn)一步探索:深入創(chuàng)新:上一模塊中,我們已經(jīng)學(xué)會(huì)了識(shí)別紙質(zhì)文件上的文字。本次任務(wù),我們能將文字轉(zhuǎn)化為語(yǔ)音了。請(qǐng)考慮一下

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論