




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、智能改變世界創(chuàng)“藝”機(jī)器人P 0智能改變世界創(chuàng)“藝”機(jī)器人“小 E”智能探究 主題二人工智能的飛速發(fā)展,讓我們對(duì)人工智能的含義產(chǎn)生了更多的疑問。究竟何為人工智能?不同的人有不同的理解。盡管對(duì)人工智能的定義不盡相同,但是大家對(duì)于實(shí)現(xiàn)人工智能所需要的核心技術(shù)的認(rèn)識(shí)還是比較統(tǒng)一的。人工智能標(biāo)準(zhǔn)化白皮書(2018 版)指出人工智能關(guān)鍵技術(shù)包括機(jī)器學(xué)習(xí)、知識(shí)圖譜、自然語言處理、人機(jī)交互、計(jì)算機(jī)視覺、生物特征識(shí)別、虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)。今天我們就來探究一下人機(jī)交互領(lǐng)域內(nèi)的智能語音交互技術(shù)。一、奇妙世界神奇的智能語音交互機(jī)器人。你還見過 其 它 的 智能語音交互機(jī)器人嗎? 圖 1.1 Alpha Ebot圖
2、1.2 Alpha Ebot圖 1.3 Alpha EbotP 1智能改變世界創(chuàng)“藝”機(jī)器人二、優(yōu)學(xué) U 樂1、 智能語音交互技術(shù)語音交互是一種高效的交互方式,是人以自然語音或機(jī)器合成語音同計(jì)算機(jī)進(jìn)行交互的綜合性技術(shù),結(jié)合了語言學(xué)、心理學(xué)、工程和計(jì)算機(jī)技術(shù)等領(lǐng)域的知識(shí)。語音交互不僅要對(duì)語音識(shí)別和語音合成進(jìn)行研究,還要對(duì)人在語音通道下的交互機(jī)理、行為方式等進(jìn)行研究。語音交互過程包括四部分:語音采集、語音識(shí)別、語義理解和語音合成。語音采集完成音頻的錄入、采樣及編碼;語音識(shí)別完成語音信息到機(jī)器可識(shí)別的文本信息的轉(zhuǎn)化;語義理解根據(jù)語音識(shí)別轉(zhuǎn)換后的文本字符或命令完成相應(yīng)的操作;語音合成完成文本信息到聲音
3、信息的轉(zhuǎn)換。作為人類溝通和獲取信息最自然便捷的手段,語音交互比其他交互方式具備更多優(yōu)勢(shì),能為人機(jī)交互帶來根本性變革,是大數(shù)據(jù)和認(rèn)知計(jì)算時(shí)代未來發(fā)展的制高點(diǎn),具有廣闊的發(fā)展前景和應(yīng)用前景。2、 語音識(shí)別基本原理圖圖 2.1 語音識(shí)別基本原理圖我們知道聲音實(shí)際上是一種波。語音采集實(shí)際上采集到的是聲音的波形。下圖是一個(gè)波形的示例。圖 2-2 聲音波形要對(duì)聲音進(jìn)行分析,需要對(duì)聲音分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀。具體的分幀操作不再詳述。幀與幀之間一般是有交疊的,就像下圖這樣:P 2智能改變世界創(chuàng)“藝”機(jī)器人圖 2-3 分幀分幀后,我們需要將波形作變換。根據(jù)人耳的生理特性,把每一幀波
4、形變成一個(gè)向量,可以簡單地理解為這個(gè)向量包含了這幀語音的內(nèi)容信息,這個(gè)過程叫特征提取。變換后如圖所示,每一幀都用一個(gè)向量表示,色塊的顏色深淺表示向量值的大小。圖 2-4 變換后的波形接下來首先要介紹兩個(gè)概念:音素:單詞的發(fā)音由因素構(gòu)成,漢語一般直接用全部聲母和韻母作為音素集。狀態(tài):可以理解為比音素更細(xì)致的語音單位,通常把一個(gè)音素劃分為 3 個(gè)狀態(tài)。語音識(shí)別就是:把幀識(shí)別成狀態(tài)。把狀態(tài)組合成音素。把音素組合成單詞。P 3智能改變世界創(chuàng)“藝”機(jī)器人如下圖所示:圖 2-5 語音識(shí)別示意圖圖中,每個(gè)小豎條代表一幀,若干幀語音對(duì)應(yīng)一個(gè)狀態(tài),每三個(gè)狀態(tài)組合成一個(gè)音素,若干個(gè)音素組合成一個(gè)單詞。也就是說,只
5、要知道每幀語音對(duì)應(yīng)哪個(gè)狀態(tài)了,語音識(shí)別的結(jié)果也就出來了。3、 語義理解語義理解技術(shù)是指利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)文本篇章的理解,并且回答與篇章相關(guān)問題的過程。語義理解更注重于對(duì)上下文的理解以及對(duì)答案精準(zhǔn)程度的把控。 隨著MCTest 數(shù)據(jù)集的發(fā)布,語義理解受到更多關(guān)注,取得了快速發(fā)展,相關(guān)數(shù)據(jù)集和對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)模型層出不窮。語義理解技術(shù)將在智能客服、產(chǎn)品自動(dòng)問 答等相關(guān)領(lǐng)域發(fā)揮重要作用,進(jìn)一步提高問答與對(duì)話系統(tǒng)的精度。在數(shù)據(jù)采集方面,語義理解通過自動(dòng)構(gòu)造數(shù)據(jù)方法和自動(dòng)構(gòu)造填空型問題的方法來有效擴(kuò)充數(shù)據(jù)資源。為了解決填充型問題,一些基于深度學(xué)習(xí)的方法相繼提出,如基于注意力的神經(jīng)網(wǎng)絡(luò)方法。當(dāng)前主流的模型
6、是利用神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)篇章、問題建模,對(duì)答案的開始和終止位置進(jìn)行預(yù)測(cè),抽取出篇章片段。對(duì)于進(jìn)一步泛化的答案,處理難度進(jìn)一步提升,目前的語義理解技術(shù)仍有較大的提升空間。4、 語音合成基本原理圖圖 2.6 語音合成基本原理圖P 4智能改變世界創(chuàng)“藝”機(jī)器人語音合成是通過機(jī)械的、電子的方法產(chǎn)生人造語音的技術(shù)。TTS 技術(shù)(又稱文語轉(zhuǎn)換技術(shù))隸屬于語音合成,它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)。TTS 結(jié)構(gòu)語言處理在文語轉(zhuǎn)換系統(tǒng)中起著重要的作用,主要模擬人對(duì)自然語言的理解過程文本規(guī)整、詞的切分、語法分析和語義分析,使計(jì)算機(jī)對(duì)輸入的文本能完全理解,并給出
7、后兩部分所需要的各種發(fā)音提示。韻律處理為合成語音規(guī)劃出音段特征,如音高、音長和音強(qiáng)等,使合成語音能正確表達(dá)語意,聽起來更加自然。聲學(xué)處理根據(jù)前兩部分處理結(jié)果的要求輸出語音,即合成語音。三、造物工程、物料吧表 3.1 “小 E”智能探究活動(dòng)材料 2、探索吧帥氣的“小 E”具備強(qiáng)大的語音交互功能??烊ヌ剿鳌靶?E”的吧!“小 E”需要喚醒聯(lián)網(wǎng)后,才能實(shí)現(xiàn)智能對(duì)話。喚醒時(shí),請(qǐng)對(duì)“小 E”說【你好,阿爾法】或者【叮當(dāng)叮當(dāng)】 。喚醒后,你可以詢問“小 E”感興趣的任何話題。例1, 請(qǐng)問你叫什么名字呢?例2, 請(qǐng)問聞雞起舞是什么意思?P 5序號(hào)材料名稱數(shù)量1Alpha Ebot 機(jī)器人(“小 E”)12平
8、板電腦1智能改變世界創(chuàng)“藝”機(jī)器人例3,請(qǐng)播放劉德華的歌。例4,請(qǐng)幫我翻譯一下蘋果。例5,請(qǐng)問氨基酸是什么?例6,請(qǐng)播放電臺(tái)節(jié)目。例7,請(qǐng)問明天出門需要帶傘嗎?例8,請(qǐng)問今天有什么新聞嗎?例9,請(qǐng)問 3 月16 日是什么星座?.快去和我們的老朋友暢所欲言吧! 四、不同“視”界1、知識(shí)拓展語音交互存在的問題在如何設(shè)計(jì)出好的產(chǎn)品這個(gè)問題上,美國設(shè)計(jì)心理學(xué)學(xué)者諾曼(Norman)在他所著的設(shè)計(jì)心理學(xué)提出了匹配原則。他指出匹配是指兩種事物之間的適應(yīng)關(guān)系。受諾曼“匹配原則”的啟發(fā),我們嘗試從心理匹配的角度去分析當(dāng)前人機(jī)語音交互中的一些局限性。并從產(chǎn)品設(shè)計(jì)3 個(gè)層次“操作層”“功能層”“情感層”來對(duì)語音交
9、互目前存在的問題進(jìn)行分析研究。操作層匹配語音交互從誕生之日起就被委以“解放雙手”的重任。但目前來看,語音并沒有十分有效地“解放雙手”,例如 Alpha Ebot 用戶需要對(duì)“小 E”說【你好,阿爾法】或者【叮當(dāng)叮當(dāng)】才可以喚醒“小 E”,在同“小 E”交流時(shí)也需要多次喚醒。對(duì)于“沒有解放雙手”的原因,我們認(rèn)為,語音交互本質(zhì)上是人和計(jì)算機(jī)的溝通交流,就像我們平常的對(duì)話一樣,而這種交流應(yīng)該是沒有屏障的。那么人機(jī)之間存在的各種操作就是對(duì)這種自然對(duì)話的違背。雖然都說“語音交互解放了雙手”,但實(shí)際上,各種操作的存在是不可能完全解放雙手的。功能層匹配就目前的發(fā)展水平看,還遠(yuǎn)沒有達(dá)到人類與機(jī)器自然交流的終極
10、目標(biāo)。語音識(shí)別的精確度不高是制約語音交互發(fā)展的最大障礙之一。而語音識(shí)別技術(shù)是解決人機(jī)語音交互問題的關(guān)鍵核心技術(shù)之一,雖然取得了一定的發(fā)展,但仍有很多問題亟待解決。目前語音識(shí)別面臨的技術(shù)難點(diǎn)主要包括:P 6智能改變世界創(chuàng)“藝”機(jī)器人1)語音中語法語義規(guī)則的建立和理解很困難,尤其對(duì)于中文一詞多意的語言來說更為困難;2)方言、口音嚴(yán)重影響語音的正確識(shí)別;3)字母、單詞等發(fā)音很容易受到上下文環(huán)境的影響,音調(diào)、因素、重音等可能都會(huì)有很大的差別;4)環(huán)境噪聲和干擾童顏能夠嚴(yán)重影響語音的識(shí)別率;5)對(duì)于情感識(shí)別而言,語言中的情感過于微妙,就目前技術(shù)來說,想要識(shí)別是有點(diǎn)不切實(shí)際的。情感層匹配語音交互的操作層匹配和功能層匹配都不是特別好,可想而知其情感層面的匹配性也不好。情感層的設(shè)計(jì)關(guān)注的是產(chǎn)品是否滿足了人們的感性心理需求。人機(jī)交互設(shè)計(jì)不僅是交互界面、功能模塊、操作方式等的“有形”設(shè)計(jì),同時(shí)也是涉及到人的知覺、態(tài)度以及情感等的“無形”的設(shè)計(jì)?!坝行巍钡脑O(shè)計(jì)是基礎(chǔ),“無形”的設(shè)計(jì)是用戶感到滿意的關(guān)鍵所在,只有“有形”和“無形”之間相當(dāng)?shù)钠鹾喜拍軐?shí)現(xiàn)高質(zhì)量的人機(jī)交互。人機(jī)語音交互亦是如此。只有在操作層面、功能層面滿足了用戶的期望,并到達(dá)情感層后,用戶才會(huì)在產(chǎn)品易用、高效基礎(chǔ)上覺得很有趣,進(jìn)而把自己的情感投射
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 借款融資居間服務(wù)合同范本
- 加梯安裝合同范例
- 醫(yī)生技術(shù)股協(xié)議合同范本
- 單位燈具購買合同范本
- 修車合同范本模板
- 農(nóng)村建房買房合同范本
- 農(nóng)村豬場(chǎng)合同范本
- 人事專員勞務(wù)合同范本
- 勞務(wù)供銷合同范例
- dp付款方式合同范本
- 2022年華中科技大學(xué)博士研究生英語入學(xué)考試真題
- 09式 新擒敵拳 教學(xué)教案 教學(xué)法 圖解
- 《網(wǎng)店運(yùn)營與管理》整本書電子教案全套教學(xué)教案
- 打印版 《固體物理教程》課后答案王矜奉
- CAD術(shù)語對(duì)照表
- 學(xué)術(shù)論文的寫作與規(guī)范課件
- 香港牛津新魔法Newmagic3AUnit4Mycalendar單元檢測(cè)試卷
- 中考《紅星照耀中國》各篇章練習(xí)題及答案(1-12)
- Q∕GDW 11612.43-2018 低壓電力線高速載波通信互聯(lián)互通技術(shù)規(guī)范 第4-3部分:應(yīng)用層通信協(xié)議
- 自動(dòng)化物料編碼規(guī)則
- 第1本書出體旅程journeys out of the body精教版2003版
評(píng)論
0/150
提交評(píng)論