智能化語音行業(yè)發(fā)展分析實施報告終_第1頁
智能化語音行業(yè)發(fā)展分析實施報告終_第2頁
智能化語音行業(yè)發(fā)展分析實施報告終_第3頁
智能化語音行業(yè)發(fā)展分析實施報告終_第4頁
智能化語音行業(yè)發(fā)展分析實施報告終_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

..人工智能與語音識別行業(yè)分析報告序言人工智能的發(fā)展近50年來得到了明顯的提高,其交融了諸多學科。人工智能的研究在歷史上分為結(jié)構(gòu)派和功能派。結(jié)構(gòu)派也成為仿生學派或者生理學派,他們認為人工智能既然是使機器具有人的智能,就應(yīng)基于人的大腦模型的研究,至今仍處于研究階段。功能派也稱計算機派或者心理學派,他們認為計算機本身就具有數(shù)學邏輯演繹功能,表明了可以應(yīng)用計算機研究人的思維活動,模擬人類智能活動。功能派的研究分析將作為本文對人工智能分析的重點。人工智能所涉獵的應(yīng)用領(lǐng)域是非常廣泛的,主要有以下幾個方面:1、問題求解;2、邏輯推理與定理證明;3、自然語言理解;4、自動程序設(shè)計;5、專家系統(tǒng);6、機器人學。除上述這些研究領(lǐng)域之外,人工智能還有許多方面的應(yīng)用研究,如機器學習、模式識別、智能控制及檢索、機器學習及視覺、智能調(diào)度與指揮等等。語音識別的研究工作主要開始于二十世紀五十年代,從智能語音技術(shù)的發(fā)展歷程來看,應(yīng)用的技術(shù)推動力主要是語音技術(shù)核心算法和計算機芯片技術(shù)。語音合成技術(shù)在20XX時已達到用戶基本可接受的準實用水平,20XX開始獲得了較為廣泛的應(yīng)用。未來語音合成技術(shù)將從清晰度和自然度的要求上升至對個性化合成的要求,如對語音、語調(diào)、情緒的豐富性要求等。語音識別技術(shù)主要包括語意識別和聲紋識別。語音識別在技術(shù)原理上主要采取匹配識別和檢測識別兩種識別方式,關(guān)鍵技術(shù)包括選擇識別單元、特征參數(shù)提取、聲學模型及語言模型的建立等。語音識別技術(shù)目前在桌面系統(tǒng)、移動設(shè)備和嵌入式領(lǐng)域均有一定程度的應(yīng)用,未來的發(fā)展方向應(yīng)是無限詞匯量連續(xù)語句非特定人語音識別系統(tǒng)。綜合考慮目前的人工智能和語音識別與語音合成技術(shù)的能力和客戶接受度,目前企業(yè)級市場、車載語音市場、移動終端市場及教育娛樂市場有望在未來率先實現(xiàn)突破。我國目前呼叫中心語音市場剛剛啟動,市場規(guī)模在其后有快速增長;車載語音識別系統(tǒng)市場出現(xiàn)快速增長,市場規(guī)模有望從20XX的6430萬美元提升至20XX的2.1億美元,年均復合增長率約為26.7%;而移動終端語音市場和教育娛樂語音市場也同樣有較大發(fā)展?jié)摿?。目?高技術(shù)壁壘形成寡頭壟斷競爭格局。智能語音技術(shù)是人工智能的研究領(lǐng)域之一,其技術(shù)原理涉及聲學、語言學、數(shù)字信號處理、計算機科學等多個學科,同時智能語音技術(shù)的研究周期長、投入大,使得智能語音行業(yè)具有較高的進入壁壘。在全球范圍內(nèi),目前已形成寡頭壟斷競爭格局,僅有Nuance、IBM、微軟、Google、科大訊飛等少數(shù)廠商具備較強競爭力。目錄TOC\o"1-3"\h\u13863第一章人工智能的概述 -3-56631.1人工智能發(fā)展史 -3-254041.2人工智能的分類 -5-76211.3人工智能應(yīng)用與發(fā)展 -6-3516第二章人工智能的應(yīng)用 -7-39862.1人工智能技術(shù)在網(wǎng)絡(luò)電腦中的應(yīng)用 -7-172942.2因特網(wǎng)上的人工智能教育資源 -9-120532.3人工智能在虛擬克隆人方面的發(fā)展 -12-31294第三章語音識別行業(yè)概述 -14-171433.1語音識別技術(shù)的發(fā)展史 -14-3.2語音識別技術(shù)的概述 -15-122533.3語音識別面臨的問題與未來發(fā)展 -16-748第四章智能語音技術(shù)概述 -18-121984.1智能語音技術(shù)簡介 -18-77334.2語音合成技術(shù)簡介 -19-260第五章智能語音市場分析 -23-263835.1企業(yè)級語音市場加速發(fā)展 -24-5.2車載語音市場規(guī)模大幅提升-25-316745.3移動終端市場分析 -26-211895.4教育和娛樂市場分析 -27-4654第六章智能語音行業(yè)競爭分析 -30-151756.1市場競爭格局分析 -30-110496.2競爭產(chǎn)品舉例--SIRI〔IPHONE4S -31-第一章人工智能的概述1.1人工智能發(fā)展史人工智能〔ArtificialIntelligence,英文縮寫為AI,是一門綜合了計算機科學、生理學、哲學的交叉學科。人類之所以能夠有智慧是由于數(shù)十億個腦細胞不同的組織在一起工作,它們每一個都有不同的分工,這是天生的,而對于人工智能來說,我們需要讓組成機器的電線像我們的腦細胞一樣學會自己分工。1950年,英國科學家圖靈曾在一篇名為《計算機器與智能》的論文中提出一個簡單的判斷標準,這就是著名的圖靈測試:讓人和機器分別位于兩個房間,他們只可通話,不能相互看見。通過對話,如果人無法判斷另一方是人還是機器,那么這臺機器就可認為是有智能的。

世界各地對人工智能的研究很早就開始了,但對人工智能的真正實現(xiàn)要從計算機的誕生開始算起,這時人類才有可能以機器的實現(xiàn)人類的智能。AI這個英文單詞最早是在1956年的一次會議上提出的。經(jīng)過這幾十年的發(fā)展,人工智能正在以它巨大的力量影響著人們的生活。1941年由美國和德國兩國共同研制的第一臺計算機誕生了,從此以后人類存儲和處理信息的方法開始發(fā)生革命性的變化,計算機編程變得十分簡單,計算機理論的發(fā)展終于導致了人工智能理論的產(chǎn)生,解決了存儲信息和自動處理信息的方法。在1955的時候,香農(nóng)與人一起開發(fā)了TheLogicTheorist程序,它是一種采用樹形結(jié)構(gòu)的程序,在程序運行時,尋找與可能答案最接近的樹的分枝進行探索,以得到正確的答案。這個程序在人工智能的歷史上可以說是有重要地位的,它在學術(shù)上和社會上帶來的巨大的影響,以至于現(xiàn)在所采用的方法思想方法有許多還是來自于這個50年代的程序。1956年,作為人工智能領(lǐng)域另一位著名科學家的麥卡希召集了一次會議來討論人工智能未來的發(fā)展方向,從此人工智能的名字才正式確立,這次會議在人工智能歷史上不是巨大的成功,但是這次會議給人工智能奠基人相互交流的機會,并為未來人工智能的發(fā)展起了鋪墊的作用。在此以后,人工智能的重點開始變?yōu)榻嵱玫哪軌蜃孕薪鉀Q問題的系統(tǒng),并要求系統(tǒng)有自學習能力。在1957年,香農(nóng)和另一些人又開發(fā)了一個程序稱為GeneralProblemSolver<GPS>,它對Wiener的反饋理論有一個擴展,并能夠解決一些比較普遍的問題。別的科學家在努力開發(fā)系統(tǒng)時,某位<我記不清楚名字了,畢竟是外國人>科學家作出了一項重大的貢獻,他創(chuàng)建了表處理語言LISP,直到現(xiàn)在許多人工智能程序還在使用這種語言,它幾乎成了人工智能的代名詞,到了今天,LISP仍然在發(fā)展。

在1963年,麻省理工學院受到了美國政府和國防部的支持進行人工智能的研究,其后發(fā)展出的許多程序十分引人注目,麻省理工大學開發(fā)出了SHRDLU。在這個大發(fā)展的60年代,STUDENT系統(tǒng)可以解決代數(shù)問題,而SIR系統(tǒng)則開始理解簡單的英文句子了,SIR的出現(xiàn)導致了新學科的出現(xiàn):自然語言處理。在70年代出現(xiàn)的專家系統(tǒng)成了一個巨大的進步,他頭一次讓人知道計算機可以代替人類專家進行一些工作了,由于計算機硬件性能的提高,人工智能得以進行一系列重要的活動,如統(tǒng)計分析數(shù)據(jù),參與醫(yī)療診斷等等,它作為生活的重要方面開始改變?nèi)祟惿盍恕T诶碚摲矫?70年代也是大發(fā)展的一個時期,計算機開始有了簡單的思維和視覺,同時在70年代,另一個人工智能語言Prolog語言誕生了,它和LISP一起幾乎成了人工智能工作者不可缺少的工具。一直到70年代末形成的各種理論和相應(yīng)的技術(shù)奠定了人工智能的基礎(chǔ)。1.2人工智能的分類人工智能的研究在歷史上大致分為兩大派別:結(jié)構(gòu)派和功能派。結(jié)構(gòu)派也稱仿生學派或者生理學派,他們認為人工智能既然是使機器具有人的智能,就應(yīng)基于人的大腦模型的研究。他們依據(jù)1943年由生理專家McCulloch和數(shù)理邏輯學家Pitts創(chuàng)立的腦模型,即MP模型,開創(chuàng)了用電子裝置模仿人腦結(jié)構(gòu)和功能的新途徑。這一研究方法也叫做"白箱",即從對結(jié)構(gòu)的了解出發(fā),從大腦的神經(jīng)元開始,進而研究神經(jīng)網(wǎng)絡(luò)模型和腦模型,提出用計算機硬件模擬神經(jīng)網(wǎng)絡(luò),并提出多層網(wǎng)絡(luò)中的反向傳播算法,由此,從模型到算法,從理論分析到工程實現(xiàn),為神經(jīng)網(wǎng)絡(luò)計算機〔第六代計算機的研制打下了基礎(chǔ),開辟了人工智能的又一發(fā)展道路。這一派別的研究工作面臨的問題在于如何制作具有人腦模型的計算機,而人腦結(jié)構(gòu)本身就非常復雜,至今生理學界、醫(yī)學界還無法徹底搞清,建立腦模型是一項非常復雜而艱巨的工作,至今仍處于研究階段。但是,這一派別的指導思想是從問題的本質(zhì)出發(fā),因此它決定了今后人工智能的研究和發(fā)展方向。功能派也稱計算機派或者心理學派,他們認為計算機本身就具有數(shù)學邏輯演繹功能,表明了可以應(yīng)用計算機研究人的思維活動,模擬人類智能活動。他們不像結(jié)構(gòu)派那樣絞盡腦汁去研究腦模型,而是利用目前的計算機,從解決具體問題出發(fā),只要能夠獲得問題的正確求解。這一研究方法也叫做"黑箱",即只基于考查外部的輸入和輸出,只關(guān)心最后得出的結(jié)論正確與否。他們研究人工智能的領(lǐng)域是非常廣泛而且是行之有效的,從啟發(fā)式算法到專家系統(tǒng)再到知識工程理論與技術(shù)等等,并在80年代取得很大發(fā)展。1.3人工智能應(yīng)用與發(fā)展人工智能所涉獵的應(yīng)用領(lǐng)域是非常廣泛的,主要有以下幾個方面:問題求解。如不斷開發(fā)了能夠求解難題的下棋程序,如國際象棋。在下棋程序中應(yīng)用的某些技術(shù),如向前看幾步,把復雜的問題分解成一些比較容易的子問題等等,均發(fā)展演變?yōu)樗阉骱蛦栴}歸納這樣的人工智能基本技術(shù)。目前,該項目技術(shù)發(fā)展很快并且驚人,美國IBM公司的一臺名為"深藍"的計算機與國際象棋大師卡斯帕羅夫?qū)墨@得了勝利。這一事件,使世人驚呼"機器智能是否已達到或超過了人類智能。邏輯推理與定理證明。邏輯推理與定理證明是指不斷開發(fā)能夠?qū)δ承﹩栴}或事物進行推理證明的程序,就如同證明或推導數(shù)學公式一樣,這些程序能夠借助于對事實數(shù)據(jù)庫的操作來證明和作推理判斷。自然語言理解。目前已經(jīng)開發(fā)出能夠從內(nèi)部數(shù)據(jù)庫回答語音提出的問題的程序,這些程序通過閱讀文本材料,還能夠把其中的句子從一種語言翻譯為另一種語言,執(zhí)行用語音給出的指令和獲取知識等等。自動程序設(shè)計。自動程序設(shè)計這項研究的目的在于,使計算機自身,能夠根據(jù)各種不同目的和要求來自動編寫計算機程序,即可用高級語言編程,還可用英語描述算法。目前已經(jīng)可以自動編寫出一些簡單的程序。五、專家系統(tǒng)。一般來說,專家系統(tǒng)是一個智能計算機程序系統(tǒng),其內(nèi)部具有大量專家水平的某個領(lǐng)域知識與經(jīng)驗,能夠利用人類專家的知識和解決問題的方法來解決該領(lǐng)域的問題。換而言之,專家系統(tǒng)是一個具有大量專門知識和經(jīng)驗的程序系統(tǒng),它應(yīng)用人工智能技術(shù),根據(jù)某個領(lǐng)域一個或多個人類專家提供的知識和經(jīng)驗進行推理和判斷,模擬人類專家的決策過程,以解決那些需要專家決定的復雜問題。目前,這一領(lǐng)域的應(yīng)用是相當廣泛的,如醫(yī)療診斷,建筑工程設(shè)計,化學和地質(zhì)數(shù)據(jù)分析等等,其質(zhì)量已達到很高水平。機器人學。機器人學是人工智能研究的一重要領(lǐng)域,其中包括對操作機器人裝置程序的研究。這個領(lǐng)域所研究的問題,包括從機器人手臂的最佳移動到實現(xiàn)機器人的目標動作序列的規(guī)劃方法等等。目前,已經(jīng)制造出成千上萬個機器人,主要用于工業(yè)生產(chǎn)和軍事用途上。在工業(yè)生產(chǎn)方面,其智能水平普遍不高,如順利地通過周圍環(huán)境,操作電燈開關(guān)、玩具積木及餐具等物品,一個小孩就能很容易的做到,但設(shè)計一個能完成上述操作任務(wù)的機器人則很難。因此開發(fā)高智能機器人是一個重要研究方面。除上述這些研究領(lǐng)域之外,人工智能還有許多方面的應(yīng)用研究,如機器學習、模式識別、智能控制及檢索、機器學習及視覺、智能調(diào)度與指揮等等。這些領(lǐng)域的研究成果輝煌,使人嘆驚,相信隨著全球性高科技的不斷飛速發(fā)展,人工智能這一學科會更加日臻完善。然而,任何新生事物的成長都不是一帆風順的。人工智能自1956年問世以來,就引起人們的爭議,在社會上對人工智能的科學性有所懷疑,對人工智能的發(fā)展產(chǎn)生恐懼心理。甚至還有些人把人工智能視為異端邪說,因此,人工智能也是在比較艱難的環(huán)境中頑強地拼搏與成長的。盡管如此,真正的科學與任何其它真理一樣,是永遠無法壓制的。40多年來,人工智能獲得很大發(fā)展,它引起眾多科學的日益重視,已成為一門廣泛的交叉和前沿科學。第二章人工智能的應(yīng)用2.1人工智能技術(shù)在網(wǎng)絡(luò)電腦中的應(yīng)用人工智能在網(wǎng)絡(luò)電腦應(yīng)用的基本特征就是參與、互動、分享;參與是指網(wǎng)站的內(nèi)容由大家提供,互動是指網(wǎng)站會員之間的互動、會員與公眾的互動,其基本形態(tài)是朋友圈、文章評注等;分享是指大家收藏的內(nèi)容進行各種形式的輸出、交換,使內(nèi)容的價值最大化。音樂、圖片、文章等都是大家有收藏需要的內(nèi)容,這些內(nèi)容和大家的生活、工作、愛好、回憶等息息相關(guān)。如何將這些內(nèi)容有效地組織管理起來,使之成為真正的社會知識財富是人工智能的應(yīng)用一個方面。目前,對內(nèi)容的組織管理手段主要就是分類,一是目錄分類,二是tag分類〔標簽分類。要解決信息獲取的準確性問題,只在宏觀和中觀層面進行分類思考是不行的,必須進入語義理解層面才行,做到這一點,資料庫才能真正變成知識庫,也才能對后續(xù)的互動、分享提供更智能化的支持?;?常規(guī)的交友、評注完全是人工行為,基本效果是不錯的,但在很多情況下卻不能解決問題。如果使用上述的宏觀語義理解技術(shù),這個問題就可以得到很大程度上的解決;每個人的收藏興趣是通過你已經(jīng)收藏的內(nèi)容體現(xiàn)的,特別是收藏的內(nèi)容達到一定量級后這種體現(xiàn)就會非常準確;要找自己的"志同道合"者前提是自己要收藏一定數(shù)量的內(nèi)容,然后以自己的收藏興趣為條件讓系統(tǒng)自動為你查找和你的收藏興趣最接近的人就行了。有了這個功能,當你想建一個朋友圈時,當你想認識一些好朋友時,你就可以方便地找到大量的同興趣的候選者,有效解決互動對象的選擇問題?,F(xiàn)在的分享手段和途徑主要有:內(nèi)容訂閱〔帶tag過濾、人工推薦、Tag標記、RSS輸出、JavaScript輸出、API調(diào)用等,除tag手段外,其它的手段都和內(nèi)容本身無關(guān),只是提供了一種純碎的技術(shù)手段,而tag方式在前面也說過,僅僅解決了粗粒度的宏觀和中觀內(nèi)容過濾,準確性不夠。如果使用上述的宏觀語義理解技術(shù),內(nèi)容分享的準確性就會得到極大提高,基本應(yīng)用思路是根據(jù)每個人的自動收藏興趣由網(wǎng)站自動為其推薦新文章,實現(xiàn)個性化的自動按需推薦,使大家之間的內(nèi)容分享活動自動"跑"起來,并徹底解決垃圾推薦的難題。人工智能技術(shù)及其應(yīng)用方式和傳統(tǒng)的Web2.0技術(shù)及應(yīng)用方式是很好的補充關(guān)系,只有將兩者有效地結(jié)合在一起才能創(chuàng)造更大的應(yīng)用價值,才能給網(wǎng)民大眾帶來更好的應(yīng)用體驗。目前所知,只有一個叫[360doc個人圖書館]〔的Web2.0網(wǎng)站應(yīng)用了這項人工智能技術(shù),主要在4個方面進行了應(yīng)用:1、自動給文章生成簡潔、準確的摘要;2、自動在文章之間建立基于內(nèi)容的相關(guān)性連接;3、自動根據(jù)個人的收藏興趣為其推薦新文章;4、根據(jù)自己的收藏興趣查找"志同道合"者。上述所說的人工智能主要部分是語義理解這一部分,與這一部分有最大關(guān)聯(lián)的主要是搜索服務(wù)的提供商,google的論壇部分在一定程度上正在采用這種思路運作,只是現(xiàn)有的服務(wù)提供可能在便利程度上還不能達到,特別是針對中文系統(tǒng)的輻射更加薄弱。目前,有一個比較明朗的方向就是能夠提供一個基于興趣愛好的內(nèi)容豐富的可定制的平臺。一個以個人主頁<博客、微博、facebook等>為基底的可以便捷的尋找到個人興趣的操作平面,顯然在這一點上無論社區(qū)還是門戶網(wǎng)站的現(xiàn)有結(jié)構(gòu)和操作界面都不能適應(yīng)這一要求,隨身瀏覽的功能被實際的情況抑制。同時我們看到個人主頁這樣比較"規(guī)范"的界面可以很好的充當操作平面的功能,只是現(xiàn)在個人主頁本身結(jié)構(gòu)功能還比較簡單,只要針對個人主頁現(xiàn)在的界面進行部分改造就可以逐步向這個方面過渡。針對于社區(qū)本身具有的優(yōu)勢是論壇欄目分類本身已經(jīng)對于信息進行了一種分撿,各欄目內(nèi)部又有一定的分類,這對于內(nèi)容檢索來說具有相當?shù)暮锰?事實上如樓主所說的圖書網(wǎng)站為什么能夠比較好的應(yīng)用這種"人工智能"技術(shù)的一個主要原因就是"圖書"行業(yè)本身就具有比較好的分類檢索系統(tǒng),這對于語義識別是具有相當幫助的,相當于給語義識別檢索加上了一個很好的輔助檢索標準,這是具有相當意義的。2.2因特網(wǎng)上的人工智能教育資源因特網(wǎng)上豐富的人工智能教育資源為我國高中人工智能教育的開展提供了一個強有力的學習支持。雖然大多以國外網(wǎng)站居多,但教師若能結(jié)合本校實際情況和學生的特點對其合理利用,使之本土化、校本化,無疑能夠有效地促進人工智能教育的順利開展。課程標準中規(guī)定"人工智能初步模塊"由3部分內(nèi)容組成:知識及其表達,推理與專家系統(tǒng),人工智能語言與問題求解。下面將主要圍繞這三個主題,列舉幾個與人工智能教育相關(guān)的有代表性的資源網(wǎng)站。人工智能研究者俱樂部〔網(wǎng)址:ht這是為人工智能研究者提供的一個適合思想交流,技術(shù)切磋和資源互享的虛擬空間,主要由綜合討論、興趣小組〔當前包括機器人制作和語音識別兩個方面、資源共享、分類討論〔針對人工智能的不同組成模塊開辟獨立的討論組和網(wǎng)站聯(lián)盟幾個模塊組成。內(nèi)容更新快,資源豐富,可為開展人工智能教育的教師和學生提供該領(lǐng)域的實時發(fā)展動態(tài)和教學參考信息。XX大學遠程教育網(wǎng)絡(luò)課程《人工智能基礎(chǔ)》〔網(wǎng)址這是國內(nèi)教育資源的最大提供者——高等教育出版社,在全國抗擊"非典"時期,為了更好地服務(wù)于高等學校的教育,向高校師生提供的一門優(yōu)質(zhì)的網(wǎng)絡(luò)教學課程。它從工程應(yīng)用的角度系統(tǒng)地介紹了人工智能的基本原理、方法及其應(yīng)用技術(shù),并全面反映了國內(nèi)外研究和應(yīng)用的最新進展。全課程分三個部分:緒論,基礎(chǔ)篇和提高篇,分別適合不同學習階段的學生使用。美國人工智能協(xié)會<AmericanAssociationforArtificialIntelligence網(wǎng)址:美國人工智能協(xié)會〔AAAI成立于1979年,是個非盈利性的科學社團組織,主要致力于讓機器產(chǎn)生智慧思考和智能行為的研究。此外,提升公眾對人工智能的理解,對人工智能實踐人員的教學和培訓,為人工智能領(lǐng)域的研究者和投資者提供指導等也都是AAAI的實踐內(nèi)容。AAAI主要活動包括組織和創(chuàng)辦研討會,座談會和主題論壇;為所有會員發(fā)行季刊雜志,出版著作,會議錄和技術(shù)報告;為在人工智能領(lǐng)域作出貢獻的會員及有發(fā)展?jié)摿Φ膶W生授予榮譽和獎學金等。美國計算機協(xié)會學生雜志《十字路口》<ACMCrossroadsStudentMagazin網(wǎng)址:這是美國計算機協(xié)會的第一個電子出版物,主要為學生服務(wù)。讀者可以通過不同的索引方式來查找網(wǎng)站內(nèi)的所有文章和作品,例如,通過作者姓名,出版期號,專欄名稱,文章主題,相關(guān)圖片,專題評論,每周民意調(diào)查等。該網(wǎng)站鼓勵世界上所有的學生都能主動參與到這個網(wǎng)站的建設(shè)中來,積極擔任每期的學生作者、藝術(shù)設(shè)計,評論員或?qū)W生聯(lián)絡(luò)員,以共同推動《十字路口》電子雜志的發(fā)展。人工智能教育知識庫<AIEducationRepository網(wǎng)址:/~manaris/ai-education-repository/index.html該網(wǎng)站收錄了關(guān)于人工智能教材、教學大綱和教學設(shè)計范例等方面的信息,并且提供了與人工智能相關(guān)的教育論文,各主題的在線教程,適合課堂或?qū)嶒炇医虒W的工具軟件和環(huán)境,以及方便用戶相互交流人工智能教育心得與經(jīng)驗的虛擬空間。該網(wǎng)站的所有資源通過兩種方式來組織,第一種把資源從總體上分類,由人工智能教材信息、人工智能課程教學大綱、適合課堂或?qū)嶒炇医虒W的人工智能教育工具、其他相關(guān)資源四大部分構(gòu)成。第二種把資源按照特定主題來分類,包括專家系統(tǒng),模糊邏輯、知識表示、邏輯與推理、自然語言處理、神經(jīng)網(wǎng)絡(luò)、機器人、搜索和博弈、計算機視覺及其他相關(guān)主題,每一個主題都由概要、教程、工具和資源四個模塊組成。專家系統(tǒng)eXpertise2Go網(wǎng)站〔網(wǎng)址:專家系統(tǒng)是人工智能課程的重要組成內(nèi)容。高中階段對專家系統(tǒng)掌握的要求僅限于能演示或使用簡單的產(chǎn)生式專家系統(tǒng)軟件,以對專家系統(tǒng)有個感性認識;能使用一個簡易的專家系統(tǒng)外殼來自行開發(fā)簡單的專家系統(tǒng)。eXpertise2Go是個基于網(wǎng)絡(luò)的專家系統(tǒng)網(wǎng)站,它提供了多個面向用戶基于規(guī)則的專家系統(tǒng)實例,諸如,在線"PC產(chǎn)品顧問",汽車故障自動診斷助理,銀行放貸決策助理,數(shù)據(jù)分析技術(shù)助理等。此外,該網(wǎng)站還提供免費的e2gLite專家系統(tǒng)外殼下載,并且有在線教程,通過介紹專家系統(tǒng)的基本概念,基于規(guī)則的推理,對不確定事實的表示和處理及對什么是知識引擎的介紹到引導用戶設(shè)計并創(chuàng)建自己的知識庫,最后利用e2gLite專家系統(tǒng)外殼開發(fā)自己的專家系統(tǒng)。人工智能語言VisualProlog學習網(wǎng)站〔網(wǎng)址:VisualProlog是一種功能強大的人工智能邏輯編程語言,由Prolog開發(fā)中心設(shè)計,至今已發(fā)展到6.0版本。VisualProlog網(wǎng)站更新速度快,資源豐富。目前該網(wǎng)站提供了由VisualProlog開發(fā)的實例演示,VisualProlog個人版的軟件下載,在線教程,知識庫,常見問題解答等欄目。2.3人工智能在虛擬克隆人方面的發(fā)展人們花了大量的時間希望可以將人性搬到網(wǎng)絡(luò)上去,它是對未來發(fā)展的一種嘗試。當你不在線的時候,聊天機器人可以自動回答關(guān)于你的問題。說起人工智能就肯定要談到上個世紀六十年代的第一個虛擬人物Eliza中采用的人工智能技術(shù)。Eliza是麻省理工學院人工智能專家約瑟夫韋珍鮑姆在1966年模仿羅杰斯精神治療醫(yī)師而編寫的一個文字聊天程序。如果你對Eliza說:"我今天感覺有些不舒服。"那么她很快就會回應(yīng)你:"你是否樂意今天感到不舒服?"對于現(xiàn)代人來說,這個回應(yīng)顯然會立即讓對方掉頭而去。然而,使用Eliza軟件的許多人都相信或者至少暫時相信他們是在與真人對話?,F(xiàn)在,有一種新服務(wù)可以讓你自己設(shè)置Eliza并訓練它,讓它模仿你自己的個性。沒有人會誤以為它就是你,但是近年推出的MyCyberTwin卻可以在你不在的時候幫你做很多事情。如果你將cybertwin內(nèi)置到博客、網(wǎng)站或者MySpace檔案中,訪問者就可以通過會話了解你。你可以將各種實際資料和個性資料設(shè)置到你的cybertwin中。如果你認為訪問者可能會問你"星期六你打算做什么?"這樣的問題時,你可以訓練它回答"我打算與朋友一起去看哈里波特,你也一起來吧。目前MyCyberTwin還是一項免費的服務(wù),它是由澳大利亞悉尼的一家名為RelevanceNow的公司推出的,雖然現(xiàn)在它還處于測試階段,但是已經(jīng)擁有1.05萬余名用戶。當然,這個概念還是一個全新的概念。你的cybertwin與Eliza一樣,其核心中并沒有真正的智能,如果你沒有設(shè)定好各種問題的回答,它自己是不會回答的。然而,MyCyberTwin網(wǎng)站還提供了許多擴展工具來幫你預測各種可能的提問,比如人格測試、你對性、政治和宗教的觀點等。那些工具也都是免費的。RelevanceNow打算通過向會話使用量很大的用戶比如商業(yè)公司收取會話費的方式來營利,將MyCyberTwin授權(quán)給社群網(wǎng)站后,也許以后可以通過它為用戶提供有針對性的網(wǎng)絡(luò)廣告。3.4HCI人機交互

人機交互CHI<ComputerHumanInteraction>,國際上也稱<HCI,HumanComputerInteraction>是一門跨學科的研究,它的研究內(nèi)容很廣,包括心理學領(lǐng)域的認知科學,心理學;軟件工程領(lǐng)域的系統(tǒng)構(gòu)架技術(shù);信息處理領(lǐng)域的語音處理技術(shù)和圖像處理技術(shù);人工智能領(lǐng)域的智能控制技術(shù)等??偟膩碚f,人機交互本質(zhì)上是認知過程,人機交互理論是以認知科學為理論基礎(chǔ);人機交互系統(tǒng)是一個閉環(huán)系統(tǒng),人機交互研究是以系統(tǒng)科學作為人機交互研究的框架的方法學;同時,人機交互是以信息技術(shù)作為用戶界面的技術(shù)基礎(chǔ),通過信息系統(tǒng)的建模、形式化描述、整合算法、評估方法以及軟件框架等信息技術(shù)最終實現(xiàn)和應(yīng)用人機交互理論。HCI主要包含五個方面的主題:人機交互的特性;計算機的相關(guān)性;人的特性;計算機系統(tǒng)和界面架構(gòu);系統(tǒng)開發(fā)的規(guī)范和過程。

第三章語音識別行業(yè)概述3.1語音識別技術(shù)的發(fā)展史語音識別的研究工作大約開始于20世紀50年代,當時AT&TBell實驗室基于共振峰提取技術(shù)實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)——Audry系統(tǒng)。

60年代,計算機的應(yīng)用推動了語音識別的發(fā)展。這時期的重要成果是提出了動態(tài)時間規(guī)劃〔DP和線性預測分析技術(shù)〔LPC,其中后者較好地解決了語音信號產(chǎn)生模型的問題,對語音識別的發(fā)展產(chǎn)生了深遠影響。

70年代,語音識別領(lǐng)域取得了較大進展。在理論上,LP技術(shù)得到進一步發(fā)展,動態(tài)時間歸正技術(shù)〔DTW基本成熟,特別是提出了矢量量化〔VQ和隱馬爾可夫模型〔HMM理論。在實踐上,實現(xiàn)了基于線性預測倒譜和DTW技術(shù)的特定人孤立語音識別系統(tǒng)。

80年代,MFCC的參數(shù)提取技術(shù)和HMM模型的深入使用使得語音識別技術(shù)得到進一步的發(fā)展,語音識別的問題逐步在理論體系上得到了比較完整和準確的描述,同時在實踐上又逐步研發(fā)出效率較高的解決算法。進入90年代后,語音識別技術(shù)進一步成熟,并開始向市場提供產(chǎn)品。許多發(fā)達國家如美國、日本、韓國以及IBM、Apple、AT&T、Microsoft等公司都為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。同時漢語語音識別也越來越受到重視。IBM開發(fā)的ViaVoice和Microsoft開發(fā)的中文識別引擎都具有了相當高的漢語語音識別水平。進入21世紀,隨著消費類電子產(chǎn)品的普及,嵌入式語音處理技術(shù)發(fā)展迅速[2]。基于語音識別芯片的嵌入式產(chǎn)品也越來越多,如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語音識別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語音識別系統(tǒng)。我國語音識別研究一直緊跟國際水平,國家也很重視。國內(nèi)中科院的自動化所、聲學所以及清華大學等科研機構(gòu)和高校都在從事語音識別領(lǐng)域的研究和開發(fā)。國家863智能計算機專家組為語音識別技術(shù)研究專門立項,并取得了高水平的科研成果。我國中科院自動化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機對話系統(tǒng),其準確率和系統(tǒng)響應(yīng)率均可達90%以上。3.2語音識別技術(shù)概述

語音識別是解決機器"聽懂"人類語言的一項技術(shù)。作為智能計算機研究的主導方向和人機語音通信的關(guān)鍵技術(shù),語音識別技術(shù)一直受到各國科學界的廣泛關(guān)注。如今,隨著語音識別技術(shù)研究的突破,其對計算機發(fā)展和社會生活的重要性日益凸現(xiàn)出來。以語音識別技術(shù)開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語音通信系統(tǒng)等,幾乎深入到社會的每個行業(yè)和每個方面。

廣泛意義上的語音識別按照任務(wù)的不同可以分為4個方向:說話人識別、關(guān)鍵詞檢出、語言辨識和語音識別。說話人識別技術(shù)是以話音對說話人進行區(qū)別,從而進行身份鑒別和認證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場合,只關(guān)注那些包含特定詞的句子,例如對一些特殊人名、地名的電話監(jiān)聽等。語言辨識技術(shù)是通過分析處理一個語音片斷以判別其所屬語言種類的技術(shù),本質(zhì)上也是語音識別技術(shù)的一個方面。語音識別就是通常人們所說的以說話的內(nèi)容作為識別對象的技術(shù),它是4個方面中最重要和研究最廣泛的一個方向。從語音識別的流程處理來看,語音識別系統(tǒng)同樣可以分成前端和后端兩部分:前端處理音頻流,從而分隔出可能的發(fā)聲聲音片段,并將它們轉(zhuǎn)換成一系列能夠用計算機表示的數(shù)值;后端是一個專用的搜索引擎,它獲取前端產(chǎn)生的輸出并對三個數(shù)據(jù)庫〔聲學模型、語言模型和詞典進行搜索解碼,并給出最終的識別結(jié)果。語音識別的步驟可分為三步:第一步是根據(jù)識別系統(tǒng)的類型選擇識別方法,分析出所需要的語音特征參數(shù),并將這些參數(shù)作為標準模式由機器存儲起來,形成參考模式庫;第二步是語音識別的核心,采用選擇的語音識別方法進行模式匹配,具體內(nèi)容又可分別表現(xiàn)為模型的建立、訓練和識別三個部分;第三步,語音識別系統(tǒng)可以進行識別后處理,識別后處理通常是一個音字轉(zhuǎn)換過程,有可能包括更高層次的詞法、句法和文法處理,另外也可以作為某個具體任務(wù)的語法輸入。語音識別主要的技術(shù)評價指標包括:識別內(nèi)容限制〔連續(xù)語句還是命令詞、識別詞語容量〔孤立詞還是大詞匯量、識別正確率、識別使用人員限制〔針對特定人還是不限定使用者、魯棒性〔使用者口音適應(yīng)能力、抗環(huán)境噪聲能力。按照最為重要的指標識別內(nèi)容限制進行劃分,語音識別技術(shù)可分為大詞匯量連續(xù)語流識別技術(shù)和命令詞語音識別技術(shù)。命令詞語音識別技術(shù)作為現(xiàn)在應(yīng)用最為廣泛的語音識別技術(shù),按照應(yīng)用場景和核心性能可分為電話命令詞語音識別技術(shù)和嵌入式命令詞語音識別技術(shù)。中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于98%,對特定人語音識別系統(tǒng)的識別精度就更高,這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的需要。3.3語音識別面臨的問題與未來發(fā)展目前的語音識別技術(shù)并不完美,其主要局限有:〔1語音識別對環(huán)境依賴性較強,在某種環(huán)境下采集到的語音訓練系統(tǒng)只能在該環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;〔2Lombard效應(yīng)導致高噪聲環(huán)境下的語音識別困難,由于高噪音環(huán)境下人的發(fā)音變化很大,如聲音變高、語速變慢等,這些變化導致音調(diào)及共振峰的變化,從而使得語音識別的準確度顯著降低;〔3系統(tǒng)的適應(yīng)性差,主要表現(xiàn)在語音識別系統(tǒng)的性能受許多因素影響,如不同的說話人、說話方式、環(huán)境噪音、傳輸信道等,由于訓練與識別環(huán)境的差異,同一個識別系統(tǒng)對于不同的用戶、不同的使用需求、不同的聲學環(huán)境下性能差異可以達到30%,使得語音識別技術(shù)的應(yīng)用范圍受到很大限制。語音識別技術(shù)未來可能的發(fā)展方向有兩個:〔1語言模型從概率模型向以語言學為基礎(chǔ)的文法模型轉(zhuǎn)變,要使計算機真正理解人類的自然語言,就必須在這一點上取得進展,同時隨著硬件資源的不斷發(fā)展,一些核心算法如特征提取、搜索算法、自適應(yīng)算法等將有進一步改進的可能;〔2人工神經(jīng)網(wǎng)絡(luò)〔ANN技術(shù)在語音識別領(lǐng)域有可能實現(xiàn)突破,人工神經(jīng)網(wǎng)絡(luò)是由結(jié)點互連組成的計算網(wǎng)絡(luò),本質(zhì)上是對人類大腦神經(jīng)元活動的模擬,具有自學習能力、記憶、聯(lián)想、推理、概括能力和快速并行實現(xiàn)的特點,同時還具備自組織、自適應(yīng)的功能。人工神經(jīng)網(wǎng)絡(luò)技術(shù)的這些特點是HMM模型所不具備的,適合用于處理一些環(huán)境信息復雜、背景知識模糊、推理規(guī)則不明確的問題,因此對于噪聲環(huán)境下非特定人的語音識別問題來說是一種很好的解決方案,目前基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)的語音識別系統(tǒng)仍處于實驗室研究階段。語音作為當前通信系統(tǒng)中最自然的通信媒介,語音識別技術(shù)是非常重要的人機交互技術(shù)。隨著計算機和語音處理技術(shù)的發(fā)展,語音識別系統(tǒng)的實用性將進一步提高。應(yīng)用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識別產(chǎn)品<如聲控撥號電話、語音記事本等>的應(yīng)用,基于特定任務(wù)和環(huán)境的聽寫機也已經(jīng)進入應(yīng)用階段。這預示著語音識別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。隨著語音技術(shù)的進步和通信技術(shù)的飛速發(fā)展,語音識別技術(shù)將為網(wǎng)上會議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓等各個領(lǐng)域帶來極大的便利,其應(yīng)用和經(jīng)濟、社會效益前景非常良好。第四章智能語音技術(shù)概述4.1智能語音技術(shù)簡介核心算法和芯片技術(shù)共同推動語音技術(shù)應(yīng)用深化語音識別應(yīng)用決定智能語音行業(yè)未來成長。從智能語音技術(shù)的發(fā)展歷程來看,應(yīng)用的技術(shù)推動力主要是語音技術(shù)核心算法和計算機芯片技術(shù)。二十世紀末,建立在統(tǒng)計建模和機器學習理念基礎(chǔ)上的語音技術(shù)核心算法逐步成熟,基于HMM〔隱馬爾可夫模型的語音合成及識別技術(shù)在實用中占據(jù)了主導地位。計算機芯片技術(shù)則遵照摩爾定律,每18個月性能提升1倍,芯片運算能力的持續(xù)增長使得更為復雜的語音技術(shù)算法不斷得以實現(xiàn)。嵌入式芯片技術(shù)特別是SOC技術(shù)的發(fā)展及芯片成本的下降,有力推動了智能語音技術(shù)在移動設(shè)備中的應(yīng)用。智能語音技術(shù)是人工智能的研究領(lǐng)域之一,其技術(shù)原理涉及聲學、語言學、數(shù)字信號處理、計算機科學等多個學科。智能語音技術(shù)主要研究人機之間語音信息的處理問題,按機器在其中所發(fā)揮作用的不同,可分為語音合成和語音識別兩大類人機語音通信問題,如圖所示。從智能語音技術(shù)的發(fā)展歷程來看,其應(yīng)用的主要推動力之一是語音技術(shù)核心算法的不斷進步。上世紀九十年代,建立在統(tǒng)計建模和機器學習理念基礎(chǔ)之上的語音技術(shù)核心算法逐步成熟,基于HMM〔隱馬爾可夫模型的語音合成及識別技術(shù)在實用中逐漸占據(jù)了主導地位。如果未來核心算法能在自然語言理解上取得突破,則有望通過智能語音技術(shù)真正實現(xiàn)人機智能交互,從而使語音技術(shù)得到更加廣泛的應(yīng)用。推動智能語音技術(shù)進入實用的另一主要動力則是計算機芯片技術(shù)的不斷進步。摩爾定律是計算機芯片技術(shù)發(fā)展的經(jīng)驗性規(guī)律,其主要內(nèi)容是:在相同面積集成電路上可容納的晶體管數(shù)目,約每隔18個月便會增加一倍,即芯片性能將提升一倍,而價格則基本保持不變。摩爾定律從1975年提出至今,準確地預測了芯片技術(shù)的發(fā)展速度,以MIPS〔MillionInstructionsPerSecond,每秒百萬條指令為單位進行估算,IntelX86芯片的計算能力從1987年至今增長了約1600倍,而以ARM架構(gòu)為代表的嵌入式芯片計算能力從1987年至今也已增長了約500倍。隨著芯片運算能力的不斷增長,更為復雜的語音技術(shù)算法不斷得以實現(xiàn)。由于晶體管尺寸受量子效應(yīng)的制約,近年來摩爾定律的有效性開始減弱,但IC業(yè)界仍普遍預期摩爾定律至少在2015年之前將保持有效,特別是嵌入式芯片的計算能力仍將保持快速增長。嵌入式芯片技術(shù)特別是SOC技術(shù)的發(fā)展及芯片價格的不斷下降,將有力推動智能語音技術(shù)在移動設(shè)備市場的應(yīng)用。因此,我們認為即使短期內(nèi)智能語音技術(shù)核心算法不能有革命性突破,計算機芯片技術(shù)的發(fā)展也將推動語音技術(shù)的應(yīng)用進一步深化。由于語音合成技術(shù)和語音識別技術(shù)在技術(shù)原理和實現(xiàn)方法上存在較大差異,我們將分別針對這兩種技術(shù)進行介紹。4.2語音合成技術(shù)簡介語音合成技術(shù)是指利用機器生成語音,按照技術(shù)實現(xiàn)難度的高低,廣義的語音合成技術(shù)可以分為三個層次:〔1從文字到語音的合成〔TexttoSpeech,即TTS;〔2從概念到語音的合成〔ConcepttoSpeech;〔3從意圖到語音的合成〔IntentiontoSpeech。狹義的語音合成技術(shù)則是指文本語音轉(zhuǎn)化技術(shù)〔TTS,目前主流的語音合成技術(shù)主要是指TTS,我們在這里只針對狹義的語音合成技術(shù)進行討論。4.2.1語音合成技術(shù)發(fā)展史從語音合成技術(shù)的發(fā)展歷程來看,可大致分為三個階段,第一階段為上世紀三十年代至八十年代,以參數(shù)合成方法為主;第二階段為上世紀八十年代至九十年代,以波形拼接方法為主;第三階段則為上世紀末至現(xiàn)在,進一步發(fā)展出可訓練的TTS方法。圖3語音合成技術(shù)發(fā)展的三階段:語音合成技術(shù)研究起步于二十世紀三十年代。1939年,貝爾實驗室利用共振峰原理制作出第一個電子語音合成器,用一些類似白噪音的激勵產(chǎn)生非濁音信號,以周期性的激勵產(chǎn)生濁音信號,從而實現(xiàn)了用機器合成聲音,這被普遍視為語音合成技術(shù)的開端。1960年,G.Fant系統(tǒng)地闡述了語音產(chǎn)生的理論,推動了語音合成技術(shù)的進步。第一個完整的TTS系統(tǒng)得以實現(xiàn)。1980年,D.Klatt設(shè)計出串/并聯(lián)混合型共振峰合成器,使用串聯(lián)通道產(chǎn)生元音和濁輔音,并聯(lián)通道產(chǎn)生清輔音,還可以對聲源做各種選擇和調(diào)整以模擬不同的嗓音,是早期較為先進的語音合成系統(tǒng)。線性預測編碼技術(shù)〔LinearPredictionCoding,LPC成為這一階段最有效的語音分析技術(shù)之一,利用LPC技術(shù)可以對語音產(chǎn)生模型的參數(shù)進行準確估計。這一階段主要的技術(shù)思路是從模仿人體發(fā)聲機理入手進行語音合成,合成效果的清晰度和自然度都不高。二十世紀八十年代,語音合成技術(shù)進入了波形拼接方法階段,基音同步疊加的波形拼接方法PSOLA〔PitchSynchronousOverlapandAdd被提出,較好地解決了不同語音片段之間的拼接問題,從而有力的推動了波形拼接語音合成技術(shù)的發(fā)展。隨著計算機運算能力和存儲能力的迅猛發(fā)展,利用計算機合成語音越來越普遍,波形拼接方法逐漸發(fā)展成為基于大語料庫的單元挑選與波形拼接合成方法,其基本思想是根據(jù)輸入的文本分析信息,根據(jù)相關(guān)信息從預先錄制好的語音庫中挑選合適的單元,進行少量的調(diào)整后拼接得到最終的合成語音。由于最終的合成單元都是直接從音庫中復制過來的,PSOLA方法的最大優(yōu)勢就在于保持了原始發(fā)音人的音質(zhì),自然度有了明顯提高。從二十世紀末開始,統(tǒng)計建模方法引入到語音合成技術(shù)的研究當中,從而提出了可訓練的語音合成方法。該方法的基本思想是采用統(tǒng)計建模和機器學習的理念,通過給定的原始語音數(shù)據(jù)進行訓練并根據(jù)訓練結(jié)果來構(gòu)建語音合成系統(tǒng)。隨著聲學合成器性能的不斷提高,在原有訓練方法的基礎(chǔ)上進一步發(fā)展出了統(tǒng)計參數(shù)語音合成方法——基于HMM模型〔HiddenMarkovModel,隱馬爾可夫模型的語音合成方法?;贖MM模型的合成方法可以在不需要人工干預的情況下,構(gòu)建較小尺寸的合成系統(tǒng),而且對于不同的發(fā)音人和發(fā)音風格的依賴性也非常小,很適合應(yīng)用于嵌入式設(shè)備以及滿足多樣化語音合成需求,因此這種方法逐漸發(fā)展成為和大語料庫波形拼接方法相并列的主流合成方法。語音合成的具體實現(xiàn)過程可以劃分為前端文本分析和后端語音合成兩個步驟。前端文本分析主要包括兩項任務(wù):〔1進行文本的標準化,把原始文本中的數(shù)字、縮略語等轉(zhuǎn)換為對應(yīng)的標準詞;〔2進行語言處理即TTP〔texttophoneme轉(zhuǎn)換,為每一個字詞賦予一個語音腳本,初步定義其發(fā)音,并依據(jù)辭典規(guī)則對文本進行分割標記。后端則是通常意義上的合成器,負責將前端處理后的結(jié)果轉(zhuǎn)換成實際的聲音輸出,韻律處理可以作為其中一個模塊,集成到語音合成過程中。后端合成器是語音合成系統(tǒng)的核心部分,可以采用多種不同算法加以實現(xiàn),常見的語音合成方法主要有三種:〔1基于參數(shù)合成方法進行語音合成;〔2基于波形拼接技術(shù)進行語音合成;〔3基于HMM模型進行語音合成。圖4典型的語音合成流程圖:4.2.2語音合成技術(shù)的應(yīng)用語音合成技術(shù)在20XX時已達到用戶基本可接受的準實用水平,主要用于簡單信息〔如時間、金額、航班等的播報。伴隨著大語料庫合成技術(shù)的流行,20XX以來語音合成技術(shù)已發(fā)展到逼近自然人甚至播音員發(fā)音的水平,并從單一的廣播風格發(fā)展到多種語氣和語調(diào)的合成能力。隨著HMM語音合成技術(shù)的發(fā)展,嵌入式語音合成技術(shù)也逐步突破了對運算和存儲要求苛刻的嵌入式使用門檻,目前已經(jīng)可以在小資源環(huán)境〔1MB存儲資源和10MIPS運算資源下產(chǎn)生出清晰流暢的語音效果,從而使語音技術(shù)在車載導航、移動終端、教具等設(shè)備中的應(yīng)用門檻有效降低。未來語音合成技術(shù)將從清晰度和自然度的要求上升至對個性化合成的要求,如對語音、語調(diào)、情緒的豐富性要求等。第五章智能語音市場分析智能語音技術(shù)作為最自然的人機交互方法,其用途非常廣泛,從最終應(yīng)用前景來看,未來隨著技術(shù)進步和機器對人工替代程度的提高,只要是需要機器與人進行交互的場合均可運用智能語音技術(shù)。從全球市場來看,目前語音合成市場已較為成熟,滲透率較高;而語音識別市場則處于快速成長期,20XX首次突破了10億美元,Datamonitor估計20XX語音識別技術(shù)市場規(guī)模為26億美元。從地域分布來看,北美一直是全球最大的智能語音技術(shù)市場,20XX占據(jù)全球超過70%的市場份額,北美語音技術(shù)的采用也遠高于其他地區(qū),其中企業(yè)級語音市場約占語音市場79%的份額。嵌入式語音系統(tǒng)市場增長較快,根據(jù)Datamonitor的調(diào)查,20XX嵌入式語音技術(shù)市場規(guī)模為1.3億美元,預計20XX為5.0億美元左右,年均復合增長率約為40%。綜合考慮目前的技術(shù)能力〔語音技術(shù)核心算法和計算機芯片計算能力和客戶接受度,我們認為在未來幾年有望實現(xiàn)突破的主要有三大細分市場:企業(yè)級市場、車載語音市場及移動終端市場。主要智能語音技術(shù)應(yīng)用領(lǐng)域市場潛力和技術(shù)難度評估:5.1企業(yè)級語音市場加速發(fā)展智能語音技術(shù)在企業(yè)級市場主要是應(yīng)用于呼叫中心〔CallCenter,具體的應(yīng)用包括語音導航和聲紋識別兩種方式。呼叫中心又稱為客戶服務(wù)中心,是把計算機和電信技術(shù)集成在一起,形成的用電話與用戶溝通的手段。美國是全球呼叫中心產(chǎn)業(yè)最為成熟的國家,截至20XX底美國擁有超過290萬的呼叫中心座席,金融行業(yè)是呼叫中心應(yīng)用規(guī)模最大的行業(yè),座席數(shù)量達到了50萬以上。中國呼叫中心產(chǎn)業(yè)從20XX開始快速增長,截至20XX底,呼叫中心座席總數(shù)已超過50萬個,累計投資規(guī)模達超過500億元。從坐席數(shù)量的增長速度來看,20XX的座席增長速度明顯較20XX同比明顯上升。呼叫中心投資明顯回暖,為智能語音技術(shù)的引入打下良好基礎(chǔ)。呼叫中心市場采用語音技術(shù)的驅(qū)動力主要來自于四個方面:〔1語音技術(shù)可作為IVR系統(tǒng)的補充手段,彌補其在實際應(yīng)用中的缺陷;〔2語音技術(shù)可減少人工服務(wù)量,從而降低對客戶代表的需求,降低運營成本;〔3語音技術(shù)特別是語音導航技術(shù)的使用能有效改善客戶的用戶體驗;〔4聲紋識別技術(shù)的使用將顯著增強客戶賬戶的安全性。根據(jù)Oppenheimer&Co.的預測,受金融危機影響,未來3年全球呼叫中心語音識別市場將保持平穩(wěn)增長,增速約在5%-6%之間。從地域結(jié)構(gòu)來看增速則很不均衡,北美地區(qū)語音技術(shù)滲透率較高,目前約為30%,因此增速平穩(wěn);而中國市場幾乎是空白,仍處于市場培育和客戶習慣培養(yǎng)時期,未來將呈現(xiàn)快速增長態(tài)勢,主流廠商Nuance和科大訊飛均已開始加大這一市場的開拓力度。我們預計國內(nèi)呼叫中心的語音導航和聲紋識別市場有望于未來兩年內(nèi)啟動,市場規(guī)模在其后有快速增長至億元量級的可能。全球企業(yè)級語音識別市場規(guī)模保持平穩(wěn)增長圖:5.2車載語音市場規(guī)模大幅提升目前語音識別技術(shù)在車載語音市場主要應(yīng)用于汽車導航設(shè)備,可以通過避免手動操作導航設(shè)備而增強行駛過程中的安全性,未來語音技術(shù)可進一步滲透至其他汽車輔助電子設(shè)備中,如對汽車空調(diào)、車窗、影音系統(tǒng)等進行語音控制。汽車導航設(shè)備通??煞譃榍把b車載導航設(shè)備和PND導航設(shè)備。國內(nèi)前裝車載導航設(shè)備仍處于市場發(fā)展初期,從滲透率來看,20XX前裝車載導航系統(tǒng)的裝配率在日本已經(jīng)達到79%,在西歐約為13%,在北美約為10.2%,而在國內(nèi)2008年新車裝配率僅為3.7%,未來滲透率仍有較大提升空間。PND導航設(shè)備經(jīng)過過去幾年的高速發(fā)展,目前已進入相對平穩(wěn)增長階段,增速約為40%。汽車前裝導航設(shè)備市場仍有較大增長空間圖目前,語音合成技術(shù)在車載導航系統(tǒng)的使用已較為普遍,而語音識別技術(shù)的滲透率則相對較低。以Nuance為例,雖然全球前十大汽車制造商均已使用了Nuance的語音產(chǎn)品,但Nuance估計語音識別技術(shù)在汽車電子市場的滲透率仍不足10%。未來伴隨著前裝導航滲透率的大幅提高及語音識別技術(shù)的滲透率快速增長,車載語音市場規(guī)模有望顯著提升。根據(jù)Datamonitor的預計,車載語音識別系統(tǒng)市場從20XX開始出現(xiàn)快速增長,市場規(guī)模有望從20XX的6430萬美元提升至20XX的2.1億美元,五年年均復合增長率約為26.7%。5.3移動終端市場分析智能手機和平板電腦市場啟動提升語音技術(shù)滲透率。在最近幾年里,移動通信和互聯(lián)網(wǎng)是發(fā)展最快、市場潛力最大的兩大電信類業(yè)務(wù),隨著移動互聯(lián)網(wǎng)的逐漸成型,智能手機和平板電腦將成為移動互聯(lián)網(wǎng)的主要終端形式。20XX全球智能手機和平板電腦銷量同時啟動,未來3年仍將保持高速增長態(tài)勢。Google預計目前最新的Android設(shè)備大約有25%的搜索是通過語音進行的,而Datamonitor預計到20XX語音識別系統(tǒng)在全球移動終端市場的份額將是20XX的3倍,移動終端市場有望成為智能語音技術(shù)的又一快速增長市場。未來移動終端語音市場的增長動力主要來自于兩方面:一是作為觸摸屏和鍵盤等輸入設(shè)備的補充和完善,由于設(shè)備尺寸和重量的限制,觸摸屏是目前智能手機和平板電腦的主要輸入設(shè)備,但觸摸屏也存在輸入精確度不高、容易產(chǎn)生觸摸漂移等缺點,這為智能語音技術(shù)的應(yīng)用創(chuàng)造了空間;二是移動終端語音技術(shù)新應(yīng)用的不斷出現(xiàn),如語音秘書、語音播報、語音輸入法、語音聽寫系統(tǒng)等,國外市場上Nuance已推出了針對iPhone和iPad的語音識別軟件,Google也于20XX8月推出了基于Android系統(tǒng)的語音識別技術(shù),用戶可通過語音指令實現(xiàn)發(fā)送電子郵件、短信、撥打電話和獲得駕駛導航信息等功能,國內(nèi)市場上科大訊飛于20XX10月推出了基于Android系統(tǒng)的語音輸入法,近期有望進一步推出基于云計算技術(shù)的語音短信輸入產(chǎn)品,新應(yīng)用的不斷出現(xiàn)有助于提升語音技術(shù)在移動終端市場的滲透率。中國智能手機銷量有望保持快速增長圖:5.4教育和娛樂市場分析5.4.1教育市場語音教具與語音評測市場發(fā)展?jié)摿^大。根據(jù)國家統(tǒng)計局的數(shù)據(jù),截至20XX底,我國共有普通中學教師494.4萬人,其中英語教師人數(shù)約為120萬人。假定最終市場滲透率為40%,每套教具售價為2000元,則總體市場規(guī)模約為9.6億元,若考慮到語文教學及少數(shù)民族語言教學的需要,總體市場規(guī)模有望超過10億元。若語音教具進一步擴展至學生市場,根據(jù)教育部2009年底公布的統(tǒng)計數(shù)據(jù),全國共有中小學校35萬所、班級380萬個,按40%市場滲透率進行估算,"暢言"智能課堂教學機和智能語言教學平臺的市場總潛力將超過22億元。由于教具的采購需要由政府主管部門推動,受限于政府采購的決策鏈較長,教具市場的開拓周期較長,目前僅有XX、XX、XX等省有較大規(guī)模的應(yīng)用。語音評測技術(shù)是通過機器自動對語音進行發(fā)音水平評價、檢錯,并給出糾正指導的技術(shù),主要應(yīng)用于普通話和英語的教學及測試。國內(nèi)從20XX初開始進行語音評測技術(shù)的跟蹤和探索性研究,目前已經(jīng)可以很好的實現(xiàn)對文本朗讀的普通話評測工作,對于自由發(fā)言的發(fā)音評測是下一階段評測技術(shù)發(fā)展的一個方向。20XX9月,科大訊飛的計算機口語測試系統(tǒng)準確程度已經(jīng)達到了省級測試員的測試水平。針對中國人學習英語的評測技術(shù),也是近年來研究界和產(chǎn)業(yè)界關(guān)注的重點,科大訊飛和中科院自動化所均已取得了較好的研究成果,初步達到了對中小學生英語口語評價的需要??拼笥嶏w目前在語音教具市場和語音評測市場占據(jù)主導地位,面向中小學英語和普通話教學的"暢言智能有聲教具"業(yè)務(wù)穩(wěn)步拓展,并在多個省份開展試點;其普通話口語評測業(yè)務(wù)已進入20個省份,并在XX、XX、上海等7省份全面實施了計算機測試。5.4.2成本和設(shè)計制約語音技術(shù)在玩具市場的應(yīng)用我國是世界上最大的玩具制造國和出口國,現(xiàn)有玩具企業(yè)2萬余家,產(chǎn)量占世界總產(chǎn)量的70%以上。大中城市的消費者普遍可接受的玩具價格在100元以下,一些售價在1000元以上的高檔玩具同樣有市場。在中國玩具市場,毛絨玩具和兒童車最為暢銷,模型玩具、遙控玩具和塑膠玩具的銷量持續(xù)看好。有34%的城市消費者選購電子玩具,31%選擇智能型玩具,23%選擇高檔毛絨、布制玩具。農(nóng)村消費者以傳統(tǒng)的玩具類型為主,48%的農(nóng)村消費者愿意購買電動玩具,28%愿意購買拼裝玩具,24%愿意購買中、低檔毛絨、布制玩具。據(jù)中國玩具協(xié)會統(tǒng)計,約64%的成人消費者表示有興趣購買適合自己的玩具,估計成人休閑益智玩具市場每年約值500億元人民幣。傳統(tǒng)玩具的市場日趨下滑,而益智類、成人類玩具則呈現(xiàn)持續(xù)增長趨勢。我國玩具產(chǎn)業(yè)規(guī)模龐大語音識別技術(shù)以嵌入式芯片的方式應(yīng)用于各類玩具,會有很大的發(fā)展前景。據(jù)美國玩具研究所的報告分析,應(yīng)用于高科技電子玩具的核心技術(shù)往往能給該產(chǎn)品帶來5-6倍的利潤。缺乏有吸引力的玩具設(shè)計與成本較高是目前制約智能語音玩具大規(guī)模推廣的主要原因。目前市場上銷售的語音玩具多數(shù)是在毛絨玩具基礎(chǔ)上簡單植入語音芯片,娛樂性和益智性均較差,售價卻高達300元-700元,相比普通毛絨玩具數(shù)十元的售價價格較為昂貴,使得智能語音玩具對普通消費者的吸引力不足。我們預計隨著語音芯片成本的不斷下降和專業(yè)玩具設(shè)計廠商的加入,智能語音玩具市場有望出現(xiàn)快速增長。第六章智能語音行業(yè)競爭分析6.1市場競爭格局分析智能語音行業(yè)通過高技術(shù)壁壘形成寡頭壟斷的格局,智能語音技術(shù)的技術(shù)壁壘很高,需要企業(yè)在統(tǒng)計學、聲學、語言學、計算機科學等多個領(lǐng)域具有較強的綜合實力,同時智能語音技術(shù)的研究周期長、投入大,如IBM已在語音技術(shù)領(lǐng)域持續(xù)研發(fā)了近30年。20XX全球語音識別市場份額:國內(nèi)語音技術(shù)市場目前仍以語音合成為主,語音識別技術(shù)則處于市場導入期。國內(nèi)語音合成技術(shù)廠商主要有科大訊飛和捷通華聲,其中科大訊飛占據(jù)主導地位;語音識別技術(shù)廠商則主要有中科信利〔中科院聲學所、中科模識〔中科院自動化所和科大訊飛。Nuance以前對中國市場重視度不高,主要通過代理商進行產(chǎn)品銷售,目前已開始加大對中國語音市場的開拓力度,其投入重點集中于企業(yè)級市場和導航設(shè)備市場。科大訊飛在語音合成技術(shù)上具有世界領(lǐng)先地位,在語音識別技術(shù)上與N

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論