智能語音入選國家級AI四大項(xiàng)目22種方言一樣能識別_第1頁
智能語音入選國家級AI四大項(xiàng)目22種方言一樣能識別_第2頁
智能語音入選國家級AI四大項(xiàng)目22種方言一樣能識別_第3頁
智能語音入選國家級AI四大項(xiàng)目22種方言一樣能識別_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、       智能語音入選國家級“ai四大項(xiàng)目”22種方言一樣能識別                     李文瑤2007年11月,科技部召開了新一代人工智能發(fā)展規(guī)劃暨重大科技項(xiàng)目啟動會,公布了首批國家新一代人工智能開放創(chuàng)新平臺名單,并宣布分別依托百度、阿里云、騰訊、科大訊飛這四家公司,在自動駕駛、城市大腦、醫(yī)療影像、智能語音等四個領(lǐng)域建設(shè)國家新一代人工智能開放創(chuàng)新

2、平臺,其中科大訊飛作為bat外的第四極以“智能語音”項(xiàng)目入選,因此格外引人注目,而語音識別和無人駕駛、城市大腦等項(xiàng)目并列,也看得出其在應(yīng)用層面的重要性。有研究機(jī)構(gòu)指出,2015年全球語音識別市場規(guī)模約為61.9億美元,預(yù)計(jì)到2020年可以接近200億美元(約等于1200億人民幣)。但也有業(yè)內(nèi)人士認(rèn)為,語音識別市場已告別過熱,進(jìn)入理性期。22種方言一樣能識別不久前,在上海舉行的中國國際工業(yè)博覽會(簡稱工博會)上,科大訊飛在工博會首次設(shè)立的人工智能專區(qū)中展示了曉譯翻譯機(jī)以及訊飛聽見系統(tǒng)。展臺上,一臺裝有訊飛聽見智能會議系統(tǒng)的筆記本正在不斷記錄著講解員的話,從現(xiàn)場演示效果看,不僅可同步記錄,準(zhǔn)確率較

3、高,簡單的英文也能翻譯出來。據(jù)講解員表示,這套系統(tǒng)的語音識別準(zhǔn)確率在95%以上??拼笥嶏w相關(guān)人士表示,以訊飛輸入法為例,其通用語音識別準(zhǔn)確率達(dá)到98%,并能夠識別22種方言。針對少部分口音不標(biāo)準(zhǔn)的用戶或者講方言的用戶,還可以進(jìn)行個性化識別。北京捷通華聲科技公司也是一家從事智能語音、智能圖像、語義理解等人工智能技術(shù)的公司,在總經(jīng)理武衛(wèi)東看來,語音識別在通用領(lǐng)域平均準(zhǔn)確率達(dá)到95%以上,在一些特定行業(yè)應(yīng)用領(lǐng)域,準(zhǔn)確率可以高達(dá)97%?!按蠖鄶?shù)做語音識別的公司,基礎(chǔ)都是建立在深度神經(jīng)網(wǎng)絡(luò)上的,運(yùn)用機(jī)器學(xué)習(xí)、建立基礎(chǔ)模型,沒有很大差異。彼此之間的區(qū)別在于解碼器技術(shù)、大數(shù)據(jù)基礎(chǔ)、并行網(wǎng)絡(luò)等,這些差異會構(gòu)成

4、行業(yè)內(nèi)的差異化競爭。” 武衛(wèi)東表示。在這些差異化因素中,最重要的是大數(shù)據(jù)基礎(chǔ),用武衛(wèi)東的話說就是“深度神經(jīng)網(wǎng)絡(luò)的方法,是通過大量的語音數(shù)據(jù),訓(xùn)練出高精度的聲學(xué)模型和語言模型,從而提升識別率。數(shù)據(jù)量決定了語音識別的準(zhǔn)確率,也能提升領(lǐng)域覆蓋度?!币话銇碚f,數(shù)據(jù)來源主要是在云端app產(chǎn)生的數(shù)據(jù)以及行業(yè)應(yīng)用中真實(shí)場景的數(shù)據(jù)。訓(xùn)練計(jì)算機(jī)學(xué)會自我分辨讓語音秒變文字,在極短的時間內(nèi),機(jī)器內(nèi)的語音識別系統(tǒng)已經(jīng)經(jīng)歷了一個極為復(fù)雜的分析過程?!爱?dāng)你對著手機(jī)說話時,目標(biāo)語音首先被數(shù)字化并送入系統(tǒng)的前端模塊,前端模塊主要包含語音信號處理和語音特征處理兩部分。信號處理部分是為了改善識別效果受環(huán)境噪聲、信道畸變等因素的影

5、響,而特征處理則是將輸入的語音進(jìn)行某種符合語音識別需求的轉(zhuǎn)換,即讓手機(jī)聽懂人話?!笨拼笥嶏w相關(guān)人士解釋,在確定了上述語音特征處理等規(guī)則之后,接下來就是進(jìn)行模型訓(xùn)練,又分為聲學(xué)模型訓(xùn)練和語言模型訓(xùn)練,教會機(jī)器學(xué)會“哪個字詞發(fā)什么音”“該怎么連在一起讀”以及“什么樣的命令或文字組合是合理的”。此外,解碼引擎的運(yùn)算效率至關(guān)重要,本文來自于www.zz-news.com直接影響用戶體驗(yàn)。目前,科大訊飛的解碼引擎可以在用戶說完話40毫秒之內(nèi)給出結(jié)果。目前在語音識別方面,大多數(shù)公司正在做的是無監(jiān)督/半監(jiān)督訓(xùn)練?!巴ㄋc(diǎn)講,就是讓機(jī)器在沒有人工干預(yù)的情況下,進(jìn)行模型訓(xùn)練。比如在用戶使用機(jī)器時,機(jī)器會結(jié)合用戶

6、個性化的發(fā)音特點(diǎn),優(yōu)化模型,提升識別率?!蔽湫l(wèi)東解釋說。在業(yè)內(nèi)人士看來,每提升一個百分比的準(zhǔn)確率,都是質(zhì)的飛躍。滿足這樣的準(zhǔn)確率不僅要相當(dāng)完善的數(shù)據(jù)庫,還得有效率較高的識別提取算法和自學(xué)習(xí)系統(tǒng)。本文來自于www.zz-news.com可落地商業(yè)生態(tài)還不多如今,語音識別在應(yīng)用落地方面也在發(fā)力,比如,在消費(fèi)娛樂領(lǐng)域,vr游戲引入語音識別技術(shù)后,玩家可拋棄游戲手柄,真正做到沉浸式體驗(yàn)。在對ai需求旺盛的智能家居領(lǐng)域,更是如此,越來越多的家居加入了對話功能,達(dá)到提升生活智能化的目的,甚至在解鎖、支付等方面,能確認(rèn)說話人身份的聲紋識別也在流行。金融、醫(yī)療、客服等b端領(lǐng)域,智能手機(jī)、pc、移動應(yīng)用等c端領(lǐng)

7、域,公共服務(wù)、智慧城市項(xiàng)目等g端領(lǐng)域都是語音識別的聚焦行業(yè)。在易觀國際分析師王京京看來,目前語音識別技術(shù)的落地也存在一定困難,“比如,b端市場的應(yīng)用核心在于降本增效或者解決痛點(diǎn),如果語音識別/語音交互不能明顯地為企業(yè)降低成本、提升效率或者解決某些痛點(diǎn),企業(yè)就缺乏應(yīng)用的動力;c端市場的落地在于交互體驗(yàn)、使用習(xí)慣和商業(yè)生態(tài),現(xiàn)在的語音識別效果和效率還不能達(dá)到十分完美,在一定程度上影響了用戶體驗(yàn)。而且大多數(shù)場景下,用戶原本的交互習(xí)慣已經(jīng)形成,除非像車載這樣對語音交互有剛需的環(huán)境才能達(dá)到比較高的滲透率。”bat和初創(chuàng)公司都有機(jī)會從技術(shù)層面上說,目前市場上已有的語音識別公司的差異并不大,王京京表示。要形

8、成差異化競爭,需要在某些細(xì)分應(yīng)用領(lǐng)域中深扎下去,通過提供完整的行業(yè)解決方案來增加獲客、完善生態(tài),從而形成行業(yè)壁壘。ai熱潮之下,只要是屬于ai領(lǐng)域的細(xì)分市場都受到創(chuàng)業(yè)企業(yè)的追捧,bat也不會錯過。以語音助理為例,最大的布局者是阿里巴巴,其次是百度的度秘,最后是2017年5月騰訊發(fā)布的叮當(dāng)。百度近幾年在人工智能方面投入巨大,試圖尋找下一個機(jī)會點(diǎn),其語音技術(shù)也已集成語音識別、語義理解、深度問答、多輪對話、情感分析、語音合成等能力,語音交互能力在搜索、地圖等產(chǎn)品中均有體現(xiàn)。bat等互聯(lián)網(wǎng)巨頭的入局是否會對其他企業(yè)造成影響?在不少業(yè)內(nèi)人士看來,目前還不明顯?!叭斯ぶ悄墚a(chǎn)業(yè)不是一家公司就可以包打天下,必須要建立產(chǎn)業(yè)生態(tài),不會形成寡頭?!蔽湫l(wèi)東這樣認(rèn)為。在王京京看來,雖然bat也在語音識別方面發(fā)力,但語音識別創(chuàng)業(yè)公司更有條件深耕細(xì)分應(yīng)用領(lǐng)域,提供一體化解決方案,bat的重心更多是在偏通用型的語音技術(shù)以及服務(wù)自身業(yè)務(wù)布局上。有市場,就會引來投資者,語音識別領(lǐng)域也不例外。事實(shí)上,語音識別領(lǐng)域的投資很早就開始了,近幾年

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論