版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
“萬、柯”訪談錄之語音識(shí)別萬新宇受訪者:柯玉鵬,某汽車廠汽研院總設(shè)計(jì)師。簡(jiǎn)稱:柯訪問者:萬新宇,簡(jiǎn)稱:萬萬:柯總,上次談開車安全時(shí)你說到語音識(shí)別的重要性,就是“君子動(dòng)口不動(dòng)手”,今天來聊一下?柯:好的,語音識(shí)別(ASR)是一項(xiàng)古老的技術(shù),1952年“貝爾”就研制出識(shí)別10個(gè)英文數(shù)字發(fā)音試驗(yàn)系統(tǒng)。PC時(shí)代的IBM語音輸入也有20多年了。蘋果的siri來源于更早的軍方監(jiān)聽項(xiàng)目。萬:俗話說:人有人言,鳥有鳥語,可是“雞同鴨講眼碌碌”(注1),無法溝通??拢篈SR是一種讓機(jī)器聽懂人類語言的技術(shù),它是人機(jī)對(duì)話的一項(xiàng)突破。萬:ASR是如何實(shí)現(xiàn)的,能否科普一下?柯:ASR是模式識(shí)別的一個(gè)分支,一種復(fù)雜的處理機(jī)制。先說ASR的歷史。大規(guī)模ASR研究從1970年開始,先在小詞匯量、孤立詞的識(shí)別上取得進(jìn)展。80年后轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音的識(shí)別。萬:我們就從最簡(jiǎn)單開始,語音是怎么變文字的?柯:好,從ABC開始。聲音是一種波。ASR是首先把聲波前后的靜音去掉,然后進(jìn)行聲音分析,就是分幀,把聲波切成一個(gè)個(gè)小段段,每段稱為“幀”。當(dāng)然不是拿刀切,而柯:分幀后,要根據(jù)人耳的特點(diǎn)做波形轉(zhuǎn)換,把每一幀變成一個(gè)多維向量(注2)。萬:這第二步,就包含了語音的內(nèi)容信息了?柯:對(duì),這個(gè)過程叫聲學(xué)特征提取。這樣,聲音就成了一個(gè)12行(這里假定聲學(xué)特征是12維)N列的矩陣,成了一個(gè)觀察序列。N為總幀數(shù),你看圖中,每一幀都有一個(gè)12維的向量,色塊的深淺表示向量值的大小。
11萬:那如何把矩陣變成文本呢?柯:先說兩個(gè)概念:一個(gè)是音素;一個(gè)是狀態(tài)(比音素更小的單位)。一個(gè)音素含三個(gè)狀態(tài)。接下來三步走:首先把幀識(shí)別成狀態(tài);其次把狀態(tài)組合成音素;最后把音素組成單詞。每個(gè)豎條代表一幀,若干幀對(duì)應(yīng)一個(gè)狀態(tài),三個(gè)狀態(tài)合成一個(gè)音素,若干音素組成一個(gè)單詞。SI24S561S卻9S1029SI24S561S卻9S1029萬:只要知道每幀語音對(duì)應(yīng)哪個(gè)狀態(tài),語音識(shí)別就出來了?柯:是的??上]有明確的某幀對(duì)某狀態(tài),只能看概率,某幀對(duì)應(yīng)哪個(gè)狀態(tài)的概率最大,那這幀就屬于那個(gè)狀態(tài)。PfolSi)=045萬:那,這些用到的概率從哪兒來呢?柯:事先有個(gè)“聲學(xué)模型”里存了很多的參數(shù),通過它,就知道幀和狀態(tài)對(duì)應(yīng)的概率。獲取這一大堆參數(shù)的方法叫訓(xùn)練。萬:這好像有一個(gè)問題,每一幀得到一個(gè)狀態(tài)號(hào),整個(gè)語音就會(huì)得出一堆的狀態(tài)號(hào)來?柯:是的,假設(shè)有1000幀,每幀對(duì)1個(gè)狀態(tài),3個(gè)狀態(tài)組合1個(gè)音素,會(huì)有300多個(gè)音素,其實(shí)這段語音沒這么多音素。實(shí)際上相鄰禎的狀態(tài)大多數(shù)都相同才合理。萬:怎么來解決這個(gè)問題呢?柯:最常用的方法是隱馬爾可夫模型(HMM),我們戲稱它“好妹妹”。萬:你的“好妹妹”是什么仙女?柯:玩笑話。一般來說,時(shí)間和狀態(tài)都離散的過程被稱為馬爾科夫鏈。萬:有些抽象??拢赫f個(gè)蛙跳的例子:水池中有N張荷葉,為1,2,3,……,N,即蛙跳有N個(gè)狀態(tài)。青蛙所在荷葉,是目前所處的狀態(tài);未來的狀態(tài),只與現(xiàn)在所處狀態(tài)有關(guān),與以前的狀態(tài)無關(guān)。這就是馬爾可夫性。萬:語音信號(hào)也有馬爾可夫性?柯:語音信號(hào)是可觀測(cè)的,但觀察到的只是大腦依據(jù)語法知識(shí)和言語需要(隱過程)發(fā)出的音素流(顯過程)?!半[過程”通過“顯過程”表現(xiàn)出來,可以通過“顯過程”推測(cè)“隱過程”,它們之間有概率關(guān)系。萬:能否舉個(gè)例子?柯:一個(gè)經(jīng)典的例子:一個(gè)烏魯木齊朋友每天根據(jù)天氣(下雨,天晴)決定當(dāng)天的活動(dòng)(自習(xí),游玩,宅著)中的一種,我每天只能在微信上看到他發(fā)的“我前天游玩、昨天自習(xí)、今天宅著!”,那么我可以根據(jù)他發(fā)的微信推斷烏魯木齊這三天的天氣。在這個(gè)例子里,“顯過程”是活動(dòng),“隱過程”是天氣。可以通過概率計(jì)算出天氣狀況。萬:我們的聲音是一個(gè)物理現(xiàn)象,是由聲帶、喉嚨大小、舌頭位置多種作用的結(jié)果?柯:是的。ASR的原理是將內(nèi)部語音產(chǎn)生看作是“隱狀態(tài)”,將聲音結(jié)果看做觀察的狀態(tài)(顯狀態(tài)),觀察到的狀態(tài)序列與隱藏過程有一定的概率關(guān)系。用隱馬爾科夫模型對(duì)這樣的過程建模,這個(gè)模型包含了一個(gè)底層隱藏的隨時(shí)間改變的馬爾科夫過程,以及一個(gè)與隱藏狀態(tài)某種程度相關(guān)的可觀察到的狀態(tài)集合。萬:開始有點(diǎn)兒明白了??拢篐MM是一個(gè)雙重隨機(jī)過程,一個(gè)是馬爾可夫鏈(剛才蛙跳例子)是一個(gè)隨機(jī)過程,它描述狀態(tài)(隱狀態(tài)轉(zhuǎn)顯狀態(tài))的轉(zhuǎn)移。另一個(gè)隨機(jī)過程描述狀態(tài)和觀察者之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。通過一個(gè)隨機(jī)過程去感知狀態(tài)的存在和特性(天氣,活動(dòng)的例子)。萬:隱馬爾可夫模型聽著很高深,其實(shí)也簡(jiǎn)單?柯:是這樣,先構(gòu)建一個(gè)狀態(tài)網(wǎng)絡(luò),第二步,從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑。這樣就把結(jié)果限制在設(shè)定的網(wǎng)絡(luò)中,避免剛才提到的300多個(gè)音素的問題。比如設(shè)定網(wǎng)絡(luò)只包含“今天是晴天”和“今天下雨”兩個(gè)句子的狀態(tài)路徑,最終識(shí)別出的結(jié)果必是二居其一。萬:如果要識(shí)別任意文本呢?柯:那狀態(tài)網(wǎng)絡(luò)就得搭建的足夠大,包含任意文本就行了。但網(wǎng)絡(luò)越大,識(shí)別的準(zhǔn)確率就會(huì)下降。萬:狀態(tài)網(wǎng)絡(luò)是不是由單詞級(jí)網(wǎng)絡(luò)展開成音素網(wǎng)絡(luò),再展開成狀態(tài)網(wǎng)絡(luò)的?柯:是這樣的。語音識(shí)別過程就是在狀態(tài)網(wǎng)絡(luò)中搜索一條最佳路徑,語音對(duì)應(yīng)的這條路徑的概率最大,稱之為“解碼”。
萬:請(qǐng)對(duì)整個(gè)語音識(shí)別的路徑再歸納一下。萬:請(qǐng)對(duì)整個(gè)語音識(shí)別的路徑再歸納一下??拢汉?。ASR分兩部分,訓(xùn)練和識(shí)別。訓(xùn)練是離線的,收集大量語音、語言數(shù)據(jù)進(jìn)行信號(hào)處理,建立“聲學(xué)模型”和“語言模型”;而識(shí)別過程是在線完成的,分為“前端”和“后端”兩塊兒:前端進(jìn)行端點(diǎn)檢測(cè)(去除靜音)、降噪、特征提取等;后端用訓(xùn)練好的“聲學(xué)模型”和“語言模型”對(duì)說話的特征向量進(jìn)行解碼,得到其中的語言信息。圖忙詁晉識(shí)別技術(shù)厚理圖忙詁晉識(shí)別技術(shù)厚理萬:我感覺語音識(shí)別的過程和人的認(rèn)知過程有相似之處,都是通過“自我相似”的過程實(shí)現(xiàn)的,看見云彩,知道是云彩,看見一座山,知道是一座山,憑什么?就是“自我相似”因?yàn)閮簳r(shí)在腦子里建立了云的模型、山的模型??拢荷现苋瘴?guī)О藲q的女兒下鄉(xiāng)度假,她愣是不認(rèn)識(shí)毛驢。萬:城里的孩子沒見過驢,因?yàn)槟X子里沒有“建?!??柯:所以,看見也不認(rèn)識(shí)它。ASR本質(zhì)上也是“自我相似”。萬:你的意思是先在計(jì)算機(jī)里建立語音(語言)識(shí)別的模型庫后進(jìn)行逐個(gè)比對(duì)?柯:大概意思差不多。三個(gè)步驟:1、特征提?。▽?duì)聽見的語音分析并建立模板)、2、模式匹配(與原有內(nèi)存的模板比對(duì))、3、參考模型庫(查表選出特征最優(yōu)的匹配模板)。圖片原理圖萬:是不是ASR技術(shù)的最大突破就是隱馬爾科夫模型的應(yīng)用??拢菏堑摹?▋?nèi)基梅隆大學(xué)的李開復(fù)開發(fā)了第一個(gè)基于隱馬爾科夫模型的大詞匯量語音識(shí)別系統(tǒng)。嚴(yán)格來說,此后的ASR系統(tǒng)都沒有脫離HMM框架。萬:我以為:語音訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)ASR性能提升的要素,大數(shù)據(jù)時(shí)代來臨應(yīng)該是一個(gè)福音吧?柯:是的,隨著互聯(lián)網(wǎng)快速發(fā)展,智能手機(jī)的普及應(yīng)用,可以從多個(gè)渠道獲取大量文本或語音方面的語料,這為ASR中的語言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語言模型和聲學(xué)模型成為可能。萬:與機(jī)器進(jìn)行語言交流,讓機(jī)器明白你說什么,這是人們長(zhǎng)期以來夢(mèng)寐以求的事情。它的主要應(yīng)用有哪些?柯:除了我們上次聊到的開車時(shí)的安全需要,每天千千萬萬的人撥打運(yùn)營(yíng)公司的電話,進(jìn)行出游預(yù)定、股票交易,與其它通訊媒體、企業(yè)和互聯(lián)網(wǎng)進(jìn)行交道,都離不開ASR。萬:語音控制比遙控器和手機(jī)更方便些,特別是智能家居領(lǐng)域?柯:ASR技術(shù)這幾年有了長(zhǎng)足進(jìn)步,特別是語音接口技術(shù)。通過它,可將語音識(shí)別和自然語言理解相結(jié)合,為全球物聯(lián)網(wǎng)市場(chǎng)創(chuàng)造切實(shí)可行的信息入口。萬:好像百度、谷歌、蘋果、Nuance、IBM等都是這一領(lǐng)域的“大?!??柯:對(duì)。其中IBM公司1997年開發(fā)出的漢語ASR系統(tǒng),次年又開發(fā)出可識(shí)別上海話、粵語和四川話等地方口音的ASR系統(tǒng)。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別具有較高的精度,是目前具有代表性的漢語連續(xù)語音識(shí)別系統(tǒng)。萬:我聽說,就在一周前在美國(guó)的“國(guó)際多信道語音分離和識(shí)別大賽”上,以科大訊飛為主的中國(guó)團(tuán)隊(duì)獲得了冠軍?柯:那是一個(gè)英語語音識(shí)別的專項(xiàng)賽事,已舉辦多次,是ASR領(lǐng)域里高難度的比賽。要在咖啡廳、公交車、街道等生活場(chǎng)景中,在高噪聲、混響的干擾下準(zhǔn)確識(shí)別英語語音的比賽。萬:而且是在6麥(注3)、雙麥、單麥三個(gè)項(xiàng)目中奪魁!柯:科大訊飛的語音輸入法在國(guó)內(nèi)一直處于領(lǐng)先位置,比如手機(jī)、呼叫中心、客戶服務(wù)系統(tǒng),包括各種各樣的醫(yī)療、安全,越來越多的領(lǐng)域,已經(jīng)有2.8億的用戶,每天有6000萬人在使用。
萬:使用ASR進(jìn)行輸入和控制,這玩兒意有一定前途,但是限于其它輸入模式不方便時(shí),比如智能家居、汽車上面、距離太遠(yuǎn)不便動(dòng)手,或者手正忙著柯:ASR的下一步發(fā)展真正的難度在于語義識(shí)別,把語音準(zhǔn)確的轉(zhuǎn)化成文字還不夠,而且還要聽懂人類說什么。比如說,男生:我們分手吧。女生:她是誰?這表達(dá)什么意思?語義識(shí)別才是皇冠上的寶石。萬:語義識(shí)別還需要哪些方面的努力?柯:兩個(gè)方面:一是硬件,特別是GPU(注4)通用計(jì)算的發(fā)展,有了強(qiáng)大算力,過去無法做到的現(xiàn)在可以做了;二是人工神經(jīng)網(wǎng)絡(luò),特別是深度學(xué)習(xí)算法的應(yīng)用,大幅度提升了語音識(shí)別的準(zhǔn)確率,并且提供了語義識(shí)別的可行性。萬:語義理解是人機(jī)對(duì)話中革命性的東西。它集合了簡(jiǎn)單的機(jī)器控制,意味著報(bào)務(wù)業(yè)和窗口行業(yè)可以被取代??拢涸僖粋€(gè)就是機(jī)器翻譯。如今機(jī)器翻譯發(fā)展迅速,它的準(zhǔn)確性、功能性、和達(dá)意程度都有很大提高。萬:專業(yè)譯者認(rèn)為俏皮話、句子的委婉變化和寓意的細(xì)微差別對(duì)計(jì)算機(jī)來說過于復(fù)雜,機(jī)器無法充分表達(dá)出來??拢翰粚?duì)?,F(xiàn)在機(jī)器翻譯每天為2億多人服務(wù),翻譯10億多次,隨著數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),這一數(shù)字只代表一個(gè)下午的翻譯量,然后是一個(gè)小時(shí)的翻譯量大量語言數(shù)據(jù)不斷被更新,被標(biāo)注。數(shù)據(jù)量指數(shù)增長(zhǎng),準(zhǔn)確度也將成倍增加。萬:這就是大數(shù)據(jù)+人工智能二智能翻譯?柯:未來10年內(nèi),一個(gè)小小的耳機(jī)就能用母語傳遞你聽到的外語,聽到的不再是siri那樣冰冷的機(jī)器聲。由于生物聲學(xué)工程的進(jìn)步,與耳機(jī)相連的云端軟件將使發(fā)言者的聲音更人性化,并用你的母語表達(dá)。萬:是不是可以預(yù)言:ASR將進(jìn)入工業(yè)、家電、通信、汽車、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域?柯:如今,通過CNN(卷積神經(jīng)網(wǎng)絡(luò))與LSTM(長(zhǎng)短時(shí)記憶模型)的混合建模,連接時(shí)序分類(CTC)訓(xùn)練已經(jīng)做到了真實(shí)環(huán)境,日常非標(biāo)準(zhǔn)語言的識(shí)別。萬:聽說,百度的ASR可以做到安靜環(huán)境下97%準(zhǔn)確率,超過正常人的聽力,很了不起??拢壕驮谏蟼€(gè)月,李彥宏在百度聯(lián)盟會(huì)議上,展示了嘈雜環(huán)境下對(duì)各地方言的識(shí)別。這是在深度學(xué)習(xí)對(duì)大量語音材料自動(dòng)學(xué)習(xí)基礎(chǔ)上,以前ASR需要人來控制,現(xiàn)在可以激起自我學(xué)習(xí),進(jìn)而理解人的意識(shí),這是革命性的突破。萬:好像谷歌和百度都在數(shù)據(jù)庫數(shù)據(jù)上占有優(yōu)勢(shì)?柯:百度在上海的肯德基餐廳,利用ASR自由與人對(duì)話,點(diǎn)餐,這不是對(duì)固定指令的處理,而是人工智能直接與人對(duì)話,理解人的語言,這是真正的突破。未來的快餐店可能只需十分之一的人手,把原料按規(guī)定投進(jìn)機(jī)器就可。點(diǎn)餐、加工、送餐、收款均可由人工智能完成。未來的超市只需要一個(gè)保安員,其它則由無人倉庫加人工智能收銀機(jī)完成。萬:今天的收獲很大,使我對(duì)ASR有了一知半解的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中醫(yī)藥在疫情防控中的作用
- 高效辦公室管理培訓(xùn)
- 小型帆船課程設(shè)計(jì)
- 互聯(lián)網(wǎng)商業(yè)模式探索
- 托班收納類課程設(shè)計(jì)
- 領(lǐng)導(dǎo)者培訓(xùn)與發(fā)展策略匯報(bào)
- 2023年橡膠零件、附件項(xiàng)目籌資方案
- 青島黃海學(xué)院《信用管理學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 推頭沖頭課程設(shè)計(jì)
- 青島工程職業(yè)學(xué)院《小學(xué)數(shù)學(xué)教學(xué)與研究(一)》2023-2024學(xué)年第一學(xué)期期末試卷
- 電動(dòng)車棚消防應(yīng)急預(yù)案
- 金屬冶煉知識(shí)培訓(xùn)
- 2024-2025學(xué)年度廣東省春季高考英語模擬試卷(解析版) - 副本
- 商會(huì)內(nèi)部管理制度
- 2024年物業(yè)轉(zhuǎn)讓協(xié)議書范本格式
- 幼兒園小班健康《打針吃藥我不怕》課件
- 廣州英語小學(xué)六年級(jí)英語六上冊(cè)作文范文1-6單元
- 2025屆上海市寶山區(qū)行知實(shí)驗(yàn)生物高一上期末教學(xué)質(zhì)量檢測(cè)模擬試題含解析
- 三甲級(jí)綜合醫(yī)院績(jī)效工資分配與考核實(shí)施方案
- 學(xué)術(shù)道德與學(xué)術(shù)規(guī)范考試答案(參考)-3
- 期末考試-2024-2025學(xué)年語文四年級(jí)上冊(cè)統(tǒng)編版
評(píng)論
0/150
提交評(píng)論