智能語(yǔ)音入選國(guó)家級(jí)AI四大項(xiàng)目22種方言一樣能識(shí)別_第1頁(yè)
智能語(yǔ)音入選國(guó)家級(jí)AI四大項(xiàng)目22種方言一樣能識(shí)別_第2頁(yè)
智能語(yǔ)音入選國(guó)家級(jí)AI四大項(xiàng)目22種方言一樣能識(shí)別_第3頁(yè)
智能語(yǔ)音入選國(guó)家級(jí)AI四大項(xiàng)目22種方言一樣能識(shí)別_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、       智能語(yǔ)音入選國(guó)家級(jí)“ai四大項(xiàng)目”22種方言一樣能識(shí)別                     李文瑤2007年11月,科技部召開(kāi)了新一代人工智能發(fā)展規(guī)劃暨重大科技項(xiàng)目啟動(dòng)會(huì),公布了首批國(guó)家新一代人工智能開(kāi)放創(chuàng)新平臺(tái)名單,并宣布分別依托百度、阿里云、騰訊、科大訊飛這四家公司,在自動(dòng)駕駛、城市大腦、醫(yī)療影像、智能語(yǔ)音等四個(gè)領(lǐng)域建設(shè)國(guó)家新一代人工智能開(kāi)放創(chuàng)新

2、平臺(tái),其中科大訊飛作為bat外的第四極以“智能語(yǔ)音”項(xiàng)目入選,因此格外引人注目,而語(yǔ)音識(shí)別和無(wú)人駕駛、城市大腦等項(xiàng)目并列,也看得出其在應(yīng)用層面的重要性。有研究機(jī)構(gòu)指出,2015年全球語(yǔ)音識(shí)別市場(chǎng)規(guī)模約為61.9億美元,預(yù)計(jì)到2020年可以接近200億美元(約等于1200億人民幣)。但也有業(yè)內(nèi)人士認(rèn)為,語(yǔ)音識(shí)別市場(chǎng)已告別過(guò)熱,進(jìn)入理性期。22種方言一樣能識(shí)別不久前,在上海舉行的中國(guó)國(guó)際工業(yè)博覽會(huì)(簡(jiǎn)稱工博會(huì))上,科大訊飛在工博會(huì)首次設(shè)立的人工智能專區(qū)中展示了曉譯翻譯機(jī)以及訊飛聽(tīng)見(jiàn)系統(tǒng)。展臺(tái)上,一臺(tái)裝有訊飛聽(tīng)見(jiàn)智能會(huì)議系統(tǒng)的筆記本正在不斷記錄著講解員的話,從現(xiàn)場(chǎng)演示效果看,不僅可同步記錄,準(zhǔn)確率較

3、高,簡(jiǎn)單的英文也能翻譯出來(lái)。據(jù)講解員表示,這套系統(tǒng)的語(yǔ)音識(shí)別準(zhǔn)確率在95%以上??拼笥嶏w相關(guān)人士表示,以訊飛輸入法為例,其通用語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到98%,并能夠識(shí)別22種方言。針對(duì)少部分口音不標(biāo)準(zhǔn)的用戶或者講方言的用戶,還可以進(jìn)行個(gè)性化識(shí)別。北京捷通華聲科技公司也是一家從事智能語(yǔ)音、智能圖像、語(yǔ)義理解等人工智能技術(shù)的公司,在總經(jīng)理武衛(wèi)東看來(lái),語(yǔ)音識(shí)別在通用領(lǐng)域平均準(zhǔn)確率達(dá)到95%以上,在一些特定行業(yè)應(yīng)用領(lǐng)域,準(zhǔn)確率可以高達(dá)97%。“大多數(shù)做語(yǔ)音識(shí)別的公司,基礎(chǔ)都是建立在深度神經(jīng)網(wǎng)絡(luò)上的,運(yùn)用機(jī)器學(xué)習(xí)、建立基礎(chǔ)模型,沒(méi)有很大差異。彼此之間的區(qū)別在于解碼器技術(shù)、大數(shù)據(jù)基礎(chǔ)、并行網(wǎng)絡(luò)等,這些差異會(huì)構(gòu)成

4、行業(yè)內(nèi)的差異化競(jìng)爭(zhēng)?!?武衛(wèi)東表示。在這些差異化因素中,最重要的是大數(shù)據(jù)基礎(chǔ),用武衛(wèi)東的話說(shuō)就是“深度神經(jīng)網(wǎng)絡(luò)的方法,是通過(guò)大量的語(yǔ)音數(shù)據(jù),訓(xùn)練出高精度的聲學(xué)模型和語(yǔ)言模型,從而提升識(shí)別率。數(shù)據(jù)量決定了語(yǔ)音識(shí)別的準(zhǔn)確率,也能提升領(lǐng)域覆蓋度?!币话銇?lái)說(shuō),數(shù)據(jù)來(lái)源主要是在云端app產(chǎn)生的數(shù)據(jù)以及行業(yè)應(yīng)用中真實(shí)場(chǎng)景的數(shù)據(jù)。訓(xùn)練計(jì)算機(jī)學(xué)會(huì)自我分辨讓語(yǔ)音秒變文字,在極短的時(shí)間內(nèi),機(jī)器內(nèi)的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)經(jīng)歷了一個(gè)極為復(fù)雜的分析過(guò)程?!爱?dāng)你對(duì)著手機(jī)說(shuō)話時(shí),目標(biāo)語(yǔ)音首先被數(shù)字化并送入系統(tǒng)的前端模塊,前端模塊主要包含語(yǔ)音信號(hào)處理和語(yǔ)音特征處理兩部分。信號(hào)處理部分是為了改善識(shí)別效果受環(huán)境噪聲、信道畸變等因素的影

5、響,而特征處理則是將輸入的語(yǔ)音進(jìn)行某種符合語(yǔ)音識(shí)別需求的轉(zhuǎn)換,即讓手機(jī)聽(tīng)懂人話?!笨拼笥嶏w相關(guān)人士解釋,在確定了上述語(yǔ)音特征處理等規(guī)則之后,接下來(lái)就是進(jìn)行模型訓(xùn)練,又分為聲學(xué)模型訓(xùn)練和語(yǔ)言模型訓(xùn)練,教會(huì)機(jī)器學(xué)會(huì)“哪個(gè)字詞發(fā)什么音”“該怎么連在一起讀”以及“什么樣的命令或文字組合是合理的”。此外,解碼引擎的運(yùn)算效率至關(guān)重要,本文來(lái)自于www.zz-news.com直接影響用戶體驗(yàn)。目前,科大訊飛的解碼引擎可以在用戶說(shuō)完話40毫秒之內(nèi)給出結(jié)果。目前在語(yǔ)音識(shí)別方面,大多數(shù)公司正在做的是無(wú)監(jiān)督/半監(jiān)督訓(xùn)練?!巴ㄋc(diǎn)講,就是讓機(jī)器在沒(méi)有人工干預(yù)的情況下,進(jìn)行模型訓(xùn)練。比如在用戶使用機(jī)器時(shí),機(jī)器會(huì)結(jié)合用戶

6、個(gè)性化的發(fā)音特點(diǎn),優(yōu)化模型,提升識(shí)別率?!蔽湫l(wèi)東解釋說(shuō)。在業(yè)內(nèi)人士看來(lái),每提升一個(gè)百分比的準(zhǔn)確率,都是質(zhì)的飛躍。滿足這樣的準(zhǔn)確率不僅要相當(dāng)完善的數(shù)據(jù)庫(kù),還得有效率較高的識(shí)別提取算法和自學(xué)習(xí)系統(tǒng)。本文來(lái)自于www.zz-news.com可落地商業(yè)生態(tài)還不多如今,語(yǔ)音識(shí)別在應(yīng)用落地方面也在發(fā)力,比如,在消費(fèi)娛樂(lè)領(lǐng)域,vr游戲引入語(yǔ)音識(shí)別技術(shù)后,玩家可拋棄游戲手柄,真正做到沉浸式體驗(yàn)。在對(duì)ai需求旺盛的智能家居領(lǐng)域,更是如此,越來(lái)越多的家居加入了對(duì)話功能,達(dá)到提升生活智能化的目的,甚至在解鎖、支付等方面,能確認(rèn)說(shuō)話人身份的聲紋識(shí)別也在流行。金融、醫(yī)療、客服等b端領(lǐng)域,智能手機(jī)、pc、移動(dòng)應(yīng)用等c端領(lǐng)

7、域,公共服務(wù)、智慧城市項(xiàng)目等g端領(lǐng)域都是語(yǔ)音識(shí)別的聚焦行業(yè)。在易觀國(guó)際分析師王京京看來(lái),目前語(yǔ)音識(shí)別技術(shù)的落地也存在一定困難,“比如,b端市場(chǎng)的應(yīng)用核心在于降本增效或者解決痛點(diǎn),如果語(yǔ)音識(shí)別/語(yǔ)音交互不能明顯地為企業(yè)降低成本、提升效率或者解決某些痛點(diǎn),企業(yè)就缺乏應(yīng)用的動(dòng)力;c端市場(chǎng)的落地在于交互體驗(yàn)、使用習(xí)慣和商業(yè)生態(tài),現(xiàn)在的語(yǔ)音識(shí)別效果和效率還不能達(dá)到十分完美,在一定程度上影響了用戶體驗(yàn)。而且大多數(shù)場(chǎng)景下,用戶原本的交互習(xí)慣已經(jīng)形成,除非像車載這樣對(duì)語(yǔ)音交互有剛需的環(huán)境才能達(dá)到比較高的滲透率?!眀at和初創(chuàng)公司都有機(jī)會(huì)從技術(shù)層面上說(shuō),目前市場(chǎng)上已有的語(yǔ)音識(shí)別公司的差異并不大,王京京表示。要形

8、成差異化競(jìng)爭(zhēng),需要在某些細(xì)分應(yīng)用領(lǐng)域中深扎下去,通過(guò)提供完整的行業(yè)解決方案來(lái)增加獲客、完善生態(tài),從而形成行業(yè)壁壘。ai熱潮之下,只要是屬于ai領(lǐng)域的細(xì)分市場(chǎng)都受到創(chuàng)業(yè)企業(yè)的追捧,bat也不會(huì)錯(cuò)過(guò)。以語(yǔ)音助理為例,最大的布局者是阿里巴巴,其次是百度的度秘,最后是2017年5月騰訊發(fā)布的叮當(dāng)。百度近幾年在人工智能方面投入巨大,試圖尋找下一個(gè)機(jī)會(huì)點(diǎn),其語(yǔ)音技術(shù)也已集成語(yǔ)音識(shí)別、語(yǔ)義理解、深度問(wèn)答、多輪對(duì)話、情感分析、語(yǔ)音合成等能力,語(yǔ)音交互能力在搜索、地圖等產(chǎn)品中均有體現(xiàn)。bat等互聯(lián)網(wǎng)巨頭的入局是否會(huì)對(duì)其他企業(yè)造成影響?在不少業(yè)內(nèi)人士看來(lái),目前還不明顯。“人工智能產(chǎn)業(yè)不是一家公司就可以包打天下,必須要建立產(chǎn)業(yè)生態(tài),不會(huì)形成寡頭?!蔽湫l(wèi)東這樣認(rèn)為。在王京京看來(lái),雖然bat也在語(yǔ)音識(shí)別方面發(fā)力,但語(yǔ)音識(shí)別創(chuàng)業(yè)公司更有條件深耕細(xì)分應(yīng)用領(lǐng)域,提供一體化解決方案,bat的重心更多是在偏通用型的語(yǔ)音技術(shù)以及服務(wù)自身業(yè)務(wù)布局上。有市場(chǎng),就會(huì)引來(lái)投資者,語(yǔ)音識(shí)別領(lǐng)域也不例外。事實(shí)上,語(yǔ)音識(shí)別領(lǐng)域的投資很早就開(kāi)始了,近幾年

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論