




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
碩士:基于web的salt語音識別技術(shù)應(yīng)用研究(終稿(完整版)資料(可以直接使用,可編輯優(yōu)秀版資料,歡迎下載)
碩士:基于web的salt語音識別技術(shù)應(yīng)用研究(終稿(完整版)資料(可以直接使用,可編輯優(yōu)秀版資料,歡迎下載)學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)江蘇大學(xué)可以將本學(xué)位論文的全部內(nèi)容或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□,在年解密后適用本授權(quán)書。本學(xué)位論文屬于不保密□。學(xué)位論文作者簽名: 指導(dǎo)教師簽名:年月日 年月日獨創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨立進行研究工作所取得的成果。除文中已注明引用的內(nèi)容以外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律結(jié)果由本人承擔。學(xué)位論文作者簽名:日期:年月日分類號 密級UDC 編號工程碩士學(xué)位論文基于WEB的SALT語音識別技術(shù)應(yīng)用研究TheApplicationandResearchofAutomaticSpeechRecognitionTechnologyBasedonSALT指導(dǎo)教師作者姓名申請學(xué)位級別碩士 學(xué)科(專業(yè))論文提交日期 論文答辯日期學(xué)位授予單位和日期答辯委員會主席評閱人______________摘要長久以來,人們都渴望以一種最簡單、最輕松的方式進行溝通。而隨著語音識別技術(shù)的飛速發(fā)展,人與計算機之間的溝通也變得越來越簡單。SALT(SpeechApplicationLanguageTags)技術(shù)是一項新興技術(shù),它是一種獨立平臺的標記語言,可以用于創(chuàng)建經(jīng)由語音平臺接入的應(yīng)用系統(tǒng)。語音識別擁有可觀的應(yīng)用前景,尤其在我們生活信息化越來越加深的今天,應(yīng)用于Web的語音識別技術(shù)作為一個語音識別應(yīng)用的熱點方向,也具有深遠廣闊的應(yīng)用前景。該技術(shù)在進行Web開發(fā)中,可以提供一種全新的解決思路,因此“基于WEB的SALT語音識別技術(shù)應(yīng)用研究”實例的實現(xiàn)是對這一新技術(shù)進行研究和實踐的很好的學(xué)習、應(yīng)用、檢驗、改進,甚至提高的過程。在本課題的研究中,主要完成了基于WEB具有語音識別功能并可以根據(jù)語音命令完成一定操作基本功能的語音應(yīng)答平臺系統(tǒng)的實現(xiàn),需要將SALT技術(shù)應(yīng)用于ASP.NET服務(wù)系統(tǒng)頁面之中。具體工作如下:(1)研究了經(jīng)典的HMM算法及其他算法,分析其算法性能的優(yōu)劣。(2)本文重點集中討論了基于SALT(SpeechApplicationLanguageTags)的語音識別應(yīng)用,介紹了語音合成技術(shù)、文語轉(zhuǎn)換系統(tǒng)的組成及其實現(xiàn)過程、自動語音識別技術(shù)、自動語音識別系統(tǒng)的組成及其實現(xiàn)過程,探討基于SALT的語音識別技術(shù)在軟硬件平臺上的實現(xiàn)以及實際應(yīng)用中的具體問題。(3)本文結(jié)合SALT論壇最新即將發(fā)布的SALT(語音應(yīng)用語言標記)技術(shù),提出了基于SALT的語音識別系統(tǒng)實現(xiàn)的體系結(jié)構(gòu),論述了具體的實現(xiàn)方案和方法,并結(jié)合中小企業(yè)實際情況,開發(fā)了一套語音識別示例系統(tǒng),初步實現(xiàn)了基于SALT技術(shù)的語音識別系統(tǒng)的開發(fā),并初步實現(xiàn)了基于Web的遠程部署,為下一步的工作打下一個較為可靠的基礎(chǔ)。系統(tǒng)開發(fā)集成環(huán)境包括:WindowsXP操作系統(tǒng)、Microsoft的C#、ASP.NET、ADO.NET和SALT1.1final版插件。關(guān)鍵詞:Web,語音識別,SALT,程序設(shè)計,ASP.NET
AbstractForalongtime,peoplehaveallwishedeagerlytocommunicateinakindofsimplest,mostrelaxedway.Andwiththedevelopmentatfullspeedoftherecognitiontechnologyofthepronunciation,thecommunicationbetweenpeopleandcomputerbecomessimplerandsimpler.SALT(SpeechApplicationLanguageTags)isamarkuplanguagethattakeserviceinopen,freepatentableaccess,independentofplatform,itisusedforcreatingthenewlyapplicationsystemthatiscutoverthroughspeechplatform.AutomaticSpeechRecognition(ASR)hasconsiderableandbrightfuture,whilemoreandmoreInformationTechnologyhasbeenusedinourdailylife.Andasahotdomain,ASRbasedonSALTalsowillbepopulareverywhere.ThetechnologyinourdevelopmentoftheWeb,youcanprovideuswithabrand-newideastosolve,"theSALTWEB-basedvoicerecognitiontechnologyappliedresearch"istherealizationofourexamplesofthisnewtechnologytostudyandpracticeofgoodStudy,application,testing,improvingandevenimprovetheprocess.Inthisstudyofthesubject,IhaveprimarilyresponsibleforWEB-basedspeechrecognitionfeaturesandcanoperatewithvoicecommandstocompletecertainbasicfunctionsofthevoiceresponsesystemplatformtherealizationoftheneedtoSALTtechnologyinASP.NETpagesoftheservicesystem.Majorworkisasfollows:(1)IstudiedclassicalHMMalgorithmandotheralgorithms,analysisthemeritsofitsalgorithm.(2)WithafocusontechnologyofSALT(SpeechApplicationsLanguageTags)thatSALTforumwillpublishrecently,thisessaybringsupthetotalstructureofAutomaticSpeechRecognition(ASR)systembasedonSALT,andexpoundsthetheoryschemeandmethodsofrealization.AnAutomaticSpeechRecognition(ASR)examplesystemhasbeendevelopedbasedontheactualcircumstancesatsmall-andmedium-sizedenterprises,whichhasprovidedasetofsoftwareforsmall-andmedium-sizedenterprisesthatconformstopracticeandsuitsthedemandincustomerservice.TheessayachievestheASRdevelopmentbasedonSALT,andfinishedthelong-distancearrangement,bringsareliablebaseforthecomingworkinthenextround.(3)Thissystemenvironmentinclude:OperatorSystemofWindowsXPandthedevelopmenttoolsoftheMicrosoftVisualC#.NET,ASP.NET,ADO.NET,andsoon.TheversionofSALT1.1finalisthesubjectivesoftwaretoolwhichisusedtodevelopthespeechinterfaceofthewebsystem.KEYWORD:Web,SpeechRecognize,SALT,Programming,ASP.NET
目錄TOC\o"1-3"\h\z第一章緒論 11.1研究背景 11.2研究現(xiàn)狀 21.3研究內(nèi)容 41.4全文的組織安排 5第2章語音識別技術(shù) 62.1語音識別的原理 62.2語音識別的基本算法 9概述 9模型的結(jié)構(gòu) 12前向和后向算法 14算法 15算法 162.3Internet中語音識別的應(yīng)用 172.4本章小結(jié) 18第3章基于WEBSALT語音識別 193.1SALT技術(shù) 19技術(shù)知識分析 19技術(shù)的優(yōu)越性 223.2基于WEBSALT語音識別的體系結(jié)構(gòu) 23體系結(jié)構(gòu) 23開發(fā)流程 253.3基于WebSalt語音識別的算法分析 273.4本章小結(jié) 29第四章基于WEBSALT語音識別系統(tǒng)的設(shè)計與實現(xiàn) 304.1系統(tǒng)功能分析 304.2系統(tǒng)總體模塊劃分 304.3使用技術(shù)及方法 31面向?qū)ο蟮募夹g(shù) 31并行工程設(shè)計 32采用VS.NET平臺及B/S結(jié)構(gòu)技術(shù) 32系統(tǒng)開發(fā)環(huán)境及運行環(huán)境的選擇 33開發(fā)平臺和Web服務(wù) 33開發(fā)工具和語言 34運行環(huán)境 354.4系統(tǒng)接口設(shè)計 35用戶界面設(shè)計 35接口應(yīng)用設(shè)計 364.5系統(tǒng)實現(xiàn) 36設(shè)計模式的應(yīng)用 36應(yīng)用程序的詳細設(shè)計 37語音識別系統(tǒng)語法(Grammer)設(shè)計 39語音識別系統(tǒng)的功能設(shè)計 404.6系統(tǒng)運行及特點 414.7運行測試評價 42測試環(huán)境 42運行測試 42測試結(jié)果分析 45測試結(jié)論 464.8本章小結(jié) 47第五章總論和展望 485.1結(jié)論 485.2進一步研究工作 495.3本章小結(jié) 49參考文獻 50致謝 54第一章緒論1.1研究背景在現(xiàn)代社會中,人們逐漸習慣借助計算機來完成各項事務(wù)。在這種形勢下,如何讓計算機智能化地與人通信,使人機交互更加自然方便成為現(xiàn)代計算機科學(xué)的一個重要的研究課題。語音是人際交流的最習慣、最自然的方式,它將成為人機交互方式的理想選擇。讓機器能聽會說,是人類由來已久的理想。語音技術(shù)主要包括語音合成技術(shù)和語音識別技術(shù)。語音合成技術(shù)解決機器說的問題,語音識別技術(shù)解決機器聽的問題。設(shè)計和開發(fā)的應(yīng)用實例或系統(tǒng)是語音技術(shù)商業(yè)化、社會化的重要手段,語音技術(shù)的應(yīng)用在當今社會有著重要的意義。首先政府開通的咨詢熱線、咨詢服務(wù)業(yè)對于語音技術(shù)的應(yīng)用期待己久。語音識別技術(shù)和語音合成技術(shù),再加上數(shù)據(jù)庫共同組成咨詢服務(wù)業(yè)務(wù)的解決方案。呼叫中心必須迅速地走上機器智能應(yīng)答和記錄的道路,否則,呼叫中心只能變成為一個美麗而不實際的神話,24小時的熱線服務(wù),不均勻的問訊量峰谷,日益增高的工資成本,坐席人員的培訓(xùn)與流失,很快就會使政府、企業(yè)不堪其負。機器的語音應(yīng)答,白動的問訊和需求記錄,將大幅度降低呼叫中心的投資及其運轉(zhuǎn)成本,將會受到各級政府、廣大中小企業(yè)的歡迎。其次,語音自然交互更具有其它信息終端不具備的優(yōu)勢,利用自然語音交互技術(shù),用戶不再需要一項一項的填寫Web的Form表單,不再需要痛苦的在小小的鍵盤上換著數(shù)字輸入名字和E-mail地址。基于關(guān)鍵字捕捉和自然語言處理技術(shù),用戶進入個人界面后可以輕松的說一句:“旅游信息,杭州”,相應(yīng)地計算機回應(yīng)“杭州”的有關(guān)信息,一切輕松自然而又隨意。再次,國際上衡量一個國家的咨詢服務(wù)業(yè)發(fā)展程度有一個參考值,即信息咨詢產(chǎn)值與電子產(chǎn)品工業(yè)產(chǎn)值的比率,這個比值在歐美日的平均水平是1:1強,而中國的這個比值是不到9%,香港、新加坡的平均水平是中國大陸的4倍左右。最后,廣闊的市場前景。美國的著名咨詢企業(yè)安達信公司曾報告指出,按照中國的市場化發(fā)展速度看,到2021年中國的信息咨詢業(yè)將達到100億美元,即1000億人民幣左右的規(guī)模。這還不包括各級政府、大中小企業(yè)自建的咨詢服務(wù)熱線,中國互聯(lián)網(wǎng)中心也預(yù)計語音產(chǎn)品及其咨詢業(yè)規(guī)模將達到1300億元。1.2研究現(xiàn)狀語音識別(AutomaticSpeechRecognition,ASR)的研究工作起始于上個世紀50年代,1952年貝爾實驗室的Davis,Biddulph和Balashek建立了一個與說話人有關(guān)的孤立英文數(shù)字語音識別系統(tǒng)[1,3]。在說話人和麥克風距離保持不變的情況下,該系統(tǒng)正確識別率達到了98%。1959年,美國Lincoln實驗室的Rorgie和Forgie[3]首次采用數(shù)字計算機識別英文的元音和以摩擦音開頭的孤立字,這標志著計算機語音識別時代的開始。60年代末70年代初,一系列里程碑似的基礎(chǔ)性突破為語音識別的發(fā)展奠定了基礎(chǔ)。在語音學(xué)方面,瑞典通信工程師Fant發(fā)表了著名的博士論文《語音產(chǎn)生的聲學(xué)理論》。在信號處理方面,線性預(yù)測編碼(LinearPredictionCoding,LPC)技術(shù)在70年代被日本學(xué)者Itakura[5]成功地應(yīng)用于語音識別,使語音信號的特征提取有了一次飛躍。前蘇聯(lián)科學(xué)家Vintsyuk60年代將動態(tài)規(guī)劃應(yīng)用于模式識別,成為語音識別方法的重要基礎(chǔ)。日本學(xué)者Sakoe和Chiba[6]提出了動態(tài)時間歸整(DynamicTimeWarpingDTW)技術(shù)用來解決語音識別中不等長語音的對整問題。語音信號線性預(yù)測編碼技術(shù)和動態(tài)時間歸整技術(shù),結(jié)合模板匹配原理,有效地解決了特定人、小詞匯表的孤立詞語音識別問題。美國于70年代實施了美國國防高級研究項目計劃(USDefenceAdvancedResearchProgramAgency,DARPR),對語音識別研究給予很大支持,DARPA采用有多個說話人發(fā)音的1000詞的語料庫,作為參加DARPR計劃的大學(xué)和公司研發(fā)的語音識別系統(tǒng)的性能評估語料庫。80年代以后,語音識別的任務(wù)開始由特定人孤立詞語音識別轉(zhuǎn)向非特定人、中等詞匯量的連續(xù)語音識別,識別的方法也逐漸從模板匹配方法轉(zhuǎn)變到統(tǒng)計模型方法。以隱馬爾可夫模型典型代表的統(tǒng)計方法,由于其在參數(shù)、結(jié)構(gòu)和訓(xùn)練方法的選擇上有很大的靈活性,逐漸成為語音識別技術(shù)的主流。HMM的理論基礎(chǔ)在1970年前后由Baum等人建立起來,隨后由CMU的Baker和IBM的Jelinek等人應(yīng)用于語音識別之中,HMM模型的廣泛應(yīng)用歸功于AT&TBell實驗室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,使世界各國從事語音處理的的研究者所了解和熟悉,進而成為公認的一個研究熱點。人工神經(jīng)網(wǎng)絡(luò)(ANN)[7,8]在語音識別中的應(yīng)用研究的也在這一時期興起。在此期間,美國國防部的DARPA計劃對語音識別研究起了巨大的推動作用,當時DARPA的相應(yīng)評估語料庫為100個帶不同方言的說話者、詞匯量為一千的ResourceManagement(RM)語料庫,參加DARPA計劃評測的各研究機構(gòu)都推出了各種識別系統(tǒng),如Carnegie-Mellon大學(xué)用VQ/HMM的方法實現(xiàn)了SPHINX系統(tǒng),這是第一個高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng)。Bell實驗室以Rabiner為首的小組對英語數(shù)字串識別作了大量的研究,成為小詞表語音識別的典范。90年代語音識別轉(zhuǎn)向大規(guī)模、非特定人自然語言的識別。1993年,DARPA采用華爾街雜志語料庫(WallStreetJournalCorpus)[9]進行語音識別系統(tǒng)評估,該語料庫包含兩萬個詞匯。另外還有Switchboard語料庫,它是個含有2.6萬個詞匯的自然交談?wù)Z音數(shù)據(jù)庫。1998年,DARPR用廣播新聞?wù)Z料作評估,這些語料來自英語電臺和電視新聞節(jié)目錄音,背景噪聲、說話人口音和失真等情況復(fù)雜,因此識別難度大。其中低噪聲部分評測結(jié)果劍橋大學(xué)的HTK[10,11]系統(tǒng)正確識別率最高,字錯誤率為7.8%,自然發(fā)音部分法國國家實驗室的LIMSI正確識別率最高,字錯誤率為14.4%。美國國家標準和技術(shù)協(xié)會(NationalInstituteofStandardsandTechnology,NIST)最近的語音識別系統(tǒng)評測是2001年的交談?wù)Z音識別,共有8個語音識別系統(tǒng)參加評測,其中劍橋大學(xué)的HTK系統(tǒng)正確識別率最高,三個測試集的字錯誤率分別為19.8%,24.5%,29.2%。這次評測還有中文系統(tǒng)的評比,評測語料庫為20個Callhome語料庫的對話,只有BBN公司參加,字錯誤率為49.9%,而BBN公司系統(tǒng)的英文識別率測試為第三名,可見漢語識別難度比英文識別難度大得多。目前語音識別已經(jīng)達到了一個相對高的水平,在穩(wěn)健語音識別、自適應(yīng)等方面也取得了豐碩的成果,正在從試驗室研究中走出來,進入了一個實用化的階段。語音識別研究水平的最重要的標志之一是非特定人大詞匯量連續(xù)語音識別的性能[12]。目前對于理想環(huán)境下的語音數(shù)據(jù),英國Cambridge大學(xué)的HTK系統(tǒng)的誤識率已達到5%以下:對于廣播語音,Cambridge大學(xué)的HTK系統(tǒng)正確誤識率達到16.2%;而對于大詞匯量的語音的識別,美國Carneigie-Mellon大學(xué)的系統(tǒng)詞誤識率為45.1%。這些系統(tǒng)代表著目前語音識別的最高水平。小詞匯表語音系統(tǒng)也具有廣泛的應(yīng)用價值,英語數(shù)字語音識別的串識別率己達到99%以上;而具有高混淆度的英語字母的識別率也達到了97%以上?;ヂ?lián)網(wǎng)和移動通訊技術(shù)的成熟給語音識別技術(shù)的發(fā)展和應(yīng)用帶來新的契機。IBM,Lucent,Motorola和AT&T四家公司于2000年用于語音瀏覽Internet的標記語言VoiceXML,現(xiàn)己被W3C組織接受為國際工業(yè)標準,在這個標準確立之后,許多廠家相繼推出語音門戶網(wǎng)站[13,14]。這樣人們就可以通過來上網(wǎng),利用語音來代替鍵盤輸入。國內(nèi)的語音識別研究開始于七十年代,從1987年起國家863智能計算機主題專家組為語音識別立項,經(jīng)過二十余年的發(fā)展,漢語語音識別也獲得了豐富的成果。越來越多的大學(xué)、科研院所加入到語音識別的研究中,比較著名的有清華大學(xué)電子工程系、計算機系、中科院自動化所、中科院聲學(xué)所、北京航空航天大學(xué)、北京郵電大學(xué)、西部工業(yè)大學(xué)、哈爾濱工業(yè)大學(xué)、復(fù)旦大學(xué)等等。1998年的863測試評比中,清華大學(xué)電子工程系以王作英教授為首的課題組完成的漢語連續(xù)語音識別系統(tǒng)的字識別率達到90%以上,代表了目前國內(nèi)的先進水平,在漢語小詞表語音識別及應(yīng)用方面,清華大學(xué)電子工程系以劉潤生教授為首的課題組已推出了基于非特定人漢語數(shù)碼語音識別的語音撥號機,并在從事語音識別專用芯片的設(shè)計研究[17,18]?,F(xiàn)在,不依賴對象、大詞匯量、連續(xù)語音識別的已經(jīng)成為研究重點和熱點,人們已經(jīng)向語音識別領(lǐng)域中最難的課題發(fā)起了挑戰(zhàn)。語音識別的終極目標就是同時解決語音識別中的這些難點。語音識別有多種任務(wù),在語音打字這一類任務(wù)中,要求識別器正確無誤地將口述語一言逐詞逐句地轉(zhuǎn)換為書面文字。在問訊、查詢和控制系統(tǒng)中,需要對用戶的要求做出正確相應(yīng)、而用戶在說話中常常帶有嗯、啊等語氣詞和一些不必要的添加話語,這時語音識別系統(tǒng)只需識別其中關(guān)鍵的詞條即可,這稱為關(guān)鍵詞確認技術(shù),其中多余的廢話被棄不用,更深一層則需要了解話語的語義信息,這不但對于進一步處理是必要的,而且對改善語音識別效果也是很有用的。語音的識別效果與說話時背景噪聲的強度以及說話者講話的清楚程度密切相關(guān)。當識別器在安靜的環(huán)境中工作時可以得到較好的效果,但是有的環(huán)境中存在強噪聲(例如汽車、飛機、工廠等)或者存在多人同時說話的嘈雜環(huán)境,識別器必須也能適應(yīng)這種情況。說話者的語音質(zhì)量取決于本人口齒是否清楚,也取決于是否采取合作的態(tài)度,這往往不是識別器所能控制的。1.3研究內(nèi)容
由于SALT技術(shù)是一項新推出的技術(shù),并且具有廣闊的應(yīng)用前景,該技術(shù)在我們進行Web開發(fā)中,可以為我們提供一種全新的解決思路,因此“基于WEB的SALT語音識別技術(shù)應(yīng)用研究”實例的實現(xiàn)是我們對這一新技術(shù)進行研究和實踐的很好的學(xué)習、應(yīng)用、檢驗、改進,甚至提高的過程。本課題主要研究基于WEB具有語音識別功能并可以根據(jù)語音命令完成一定操作基本功能的語音應(yīng)答平臺系統(tǒng)的實現(xiàn),需要將SALT技術(shù)應(yīng)用于ASP.NET服務(wù)系統(tǒng)頁面之中。此外,在理論分析、方案設(shè)計的基礎(chǔ)上,利用SALT技術(shù)的特點以及與現(xiàn)有成熟的HTML,XHTML技術(shù)的融合性,提供給后續(xù)工作深入時可以利用的可擴展性,未來可以開發(fā)適用于中小企業(yè)的一套基于SALT的IVR系統(tǒng),此種系統(tǒng)主要完成語音導(dǎo)航、信息咨詢、信息查詢、服務(wù)、服務(wù)、短信服務(wù)、E-mail服務(wù)、系統(tǒng)維護和統(tǒng)計報表等功能。1.4全文的組織安排根據(jù)研究的內(nèi)容,本論文共分為六章:第一章緒論:闡述課題的研究背景和意義、國內(nèi)外研究現(xiàn)狀以及本論文所要從事的工作第二章語音識別技術(shù):介紹語音識別的關(guān)鍵技術(shù)和算法,特別是近年來采用哪的識別算法,這些算法原理及各自的優(yōu)點和缺點的分析第三章基于WEBSALT語音識別:介紹SALT技術(shù),基于WEBSALT語音識別的體系結(jié)構(gòu)和語音識別算法分析第四章基于WEBSALT語音識別系統(tǒng)的設(shè)計與實現(xiàn)
第五章總結(jié)與展望
第2章語音識別技術(shù)在研究和分析各種語音信號處理技術(shù)之前,必須了解有關(guān)語音識別的一些基本算法。為了對語音信號進行數(shù)字處理,我們需要建立一個能夠精確描述語音產(chǎn)生過程和語音特征的基本算法,然后根據(jù)語音識別的算法建立一個既實用又便于分析的語音信號模型。2.1語音識別的原理語音識別系統(tǒng)本質(zhì)上屬于模式識別的范疇。根據(jù)模式識別的原理,未知語音的模式與己知語音的參考模式逐一進行比較和分析,最佳匹配的參考模式被作為識別的結(jié)果[19]。圖2-1就是根據(jù)模式識別匹配原理所構(gòu)成的語音識別系統(tǒng)的一個原理框圖:SKIPIF1<0圖2.1語音識別系統(tǒng)的原理框圖未知(待識別)語音經(jīng)過話筒變換成電信號(即圖中語音信號)后加在識別系統(tǒng)的輸入端,首先要經(jīng)過預(yù)處理,預(yù)處理包括反混疊失真濾波、預(yù)加重和端點檢測。經(jīng)過預(yù)處理后,語音信號的特征被提取出來。常用的特征包括:短時平均能量或幅度、短時平均過零率、短時自相關(guān)函數(shù)、線性預(yù)測系數(shù)、倒譜、共振峰等。根據(jù)實際需要選擇語音特征參數(shù),這些特征參數(shù)的時間序列便構(gòu)成了待識別語音的模式,將其與已經(jīng)存儲在計算機內(nèi)的參考模式逐一進行比較(模式匹配),獲得最佳匹配(由判決規(guī)則確定)的參考模式便是識別結(jié)果。參考模式是在系統(tǒng)使用前獲得并存儲起來的,為此,要輸入一系列已知語音信號,提取它們的特征作為參考模式,這一過程稱為訓(xùn)練過程。顯然,最佳匹配結(jié)果的獲得與特征的選擇、語音模型的好壞、模板是否準確都有直接的關(guān)系,這也是目前語音識別過程中的一個難點。語音信號分析大致可以分為時域分析和頻域分析[25,27]。時域分析的運算簡單,物理意義明確,但效果不佳,頻域分析雖然運算較為復(fù)雜,但是它對語音信號能夠更有效的處理,所以大部分語音分析都以頻域分析為主。在說話過程中,聲道的形狀是不斷發(fā)生變化的,所以語音信號在總體上是一種非平穩(wěn)過程。但由于聲道的變化是相對緩慢的,我們可以認為它在短時間內(nèi)不發(fā)生變化,所以我們又可以認為語音信號在短時間內(nèi)是平穩(wěn)的隨機信號。由此就產(chǎn)生了許多語音信號的短時分析和處理方法。語音信號分析又可以分為參數(shù)分析和非參數(shù)分析。參數(shù)分析法根據(jù)語音信號產(chǎn)生的模型(如聲管模型、共振峰模型等等)的理論,來分析和提取表征這些模型的特征參數(shù),而把不用模型化方法進行分析的方法都稱之為非參數(shù)法。非參數(shù)分析法包括時域分析法、頻域分析法和同態(tài)分析法。倒譜參數(shù)是對語音信號進行同態(tài)分析的結(jié)果。SKIPIF1<0圖2.2語音信息的編碼和解碼在語音識別系統(tǒng)中,通常假定語音是一種經(jīng)過編碼的信息流,如圖2-2所示。在對語音信號作分析和處理之前,必須先進行信號的預(yù)處理,它應(yīng)包括電壓放大、增益控制、反混淆濾波、模數(shù)變換、預(yù)加重等。在需要語音輸出的場合,還要進行數(shù)模變換和起平滑作用的模擬低通濾波器。具有良好的頻譜特性的傳聲器是保證語音輸入質(zhì)量的基礎(chǔ)。反混淆濾波器通常是帶通濾波器,采用帶通濾波器而不用低通濾波器的原因是為了排除工頻干擾(50HZ或60HZ),而帶通濾波器的高端截止頻率由采樣頻率決定。根據(jù)采樣定理,采樣頻率為f時,不引起混淆的信號最高頻率不得超過f/2,這也就是帶通濾波器的高端截止頻率[20,21,21]。作為預(yù)處理的另一部分是在A/D變換后加一個6dB/倍頻程的提升高頻特性的預(yù)加重數(shù)字濾波器。語音信號的平均功率譜受聲門激勵(12dB/倍頻程跌落)和口鼻輻射(6dB/倍頻程上升)的影響,總效果大約在200Hz到5000Hz按6dB/倍頻程跌落。預(yù)加重的目的就是要提升高頻部分,使語音信號的頻譜變得平坦,以抵消濁音語音中由于聲門波引起的頻譜幅度下跌,便于以后進行的頻域分析或聲道參數(shù)分析。預(yù)加重數(shù)字濾波器一般是一階FIR濾波器。語音信號本身的各種特點決定了語音識別的復(fù)雜性和艱巨性。這些特點包括語音的差異性,動態(tài)性,以及發(fā)音的連貫性等。語音的差異性可分為好多種。有生理因素的作用,如聲道長度、鼻腔形狀等。對同一個字,男性與女性、成人與兒童的發(fā)音就不相同;有環(huán)境因素的作用,如傳感器的位置和特性;也有社會因素的作用,如各地域的方言和語言習慣等;另外還受說話人心情的影響,一個人在喜怒哀樂不同情緒下,對同一個字的發(fā)音也會有所不同。此外,語言學(xué)因素的影響亦會造成發(fā)音的變化。比如語言的上下文不同,造成的連續(xù)說話時的協(xié)同發(fā)音現(xiàn)象[23,24]。語音的動態(tài)性就是語音信號的非平穩(wěn)隨機性,語音信息除了由音段和超音段兩種形式表征外,語音信號隨時間變化的動態(tài)特性也攜帶了大量的區(qū)分信息。對于許多音位來說,其動態(tài)變化對語音感知的作用比靜態(tài)部分更為重要。特別是輔音音位,構(gòu)成輔音音位的特點是阻礙和動態(tài),任何穩(wěn)定的孤立的分析都不能描述輔音的全貌,而語音中的短時爆發(fā)音素(5ms左右)常常在分幀分析時又的不到足夠的體現(xiàn)。發(fā)音的連貫性是指在連續(xù)發(fā)音中,從一個音位過渡到下一個音位時是連續(xù)的、平滑的,它們之間是模糊的,沒有明顯的分界線,從一個字結(jié)束到下一個字開始也沒有明顯的停頓。這必然造成音與音,字與字,詞與詞之間的分割困難。例如協(xié)同發(fā)音引起的參數(shù)會增加很多麻煩。因此,連續(xù)語音識別系統(tǒng)同孤立音節(jié)識別系統(tǒng)所面對的是截然不同的情況,它所要處理的問題要復(fù)雜得多,所遇到的困難也要大得多。由此可見,語音識別是一項非常艱巨的任務(wù),要想達到最終的目標,實現(xiàn)真正的人機對話,還有以下幾個方面的難題需要解決。首先,一個實用的語音識別系統(tǒng)應(yīng)具有良好的抗噪性、可移植性和適應(yīng)性,即可以適用于不同的噪聲環(huán)境,易于移植以適用不同的應(yīng)用,并能對外界變化自適應(yīng)(新的話者、環(huán)境、麥克風等等)。其次,現(xiàn)有的系統(tǒng)大都采用統(tǒng)計語言模型,但人是通過理解而聽懂的,況且遇到詞表外的詞匯時,系統(tǒng)也應(yīng)能正確識別。另外,一個好的語音識別系統(tǒng)應(yīng)能夠接受自然的語音輸入,并且應(yīng)能利用韻律信息來提高識別率。人們說話的語調(diào)、聲調(diào)、重音、節(jié)奏,乃至情感,都能表達不同的意思。這方面的工作還有很多要做,許多問題現(xiàn)在尚無答案。此外,人們對字和音索的感知還需要能反映發(fā)音器官運動的特征,通常這類特征是動態(tài)的。如何描述這種動態(tài),并將它同現(xiàn)有的特征參數(shù)結(jié)合到識別系統(tǒng)中,仍是一個沒有解決的問題。以上所說的各種對語音信號有影響的因素,主要是在聲學(xué)特性方面,而在語言模型和語言理解方面,語音識別就面臨著更大的挑戰(zhàn)。人們對于自身如何聽懂別人說話的過程,尤其是對大腦對于語言理解的過程知之甚少。雖然人工智能對于大腦智能的某些方面有了較好地描述,但實際上最近幾十年在語言理解方面,人工智能并沒有突破性的進展。語音識別開始是應(yīng)用人工智能中基于規(guī)則的、受限文法的語言模型,但其不能適應(yīng)語言中干變?nèi)f化的表達形式,而沒有被人們廣泛采用。取而代之的是基于統(tǒng)計的語言模型,并取得了較好的效果。但是很顯然基于統(tǒng)計的方法同樣不能很好地描述語言的行為規(guī)律,它只是人們在找不到更好的解決方法之前的權(quán)宜之計,它所能帶來的最好性能遠遠不能滿足人們的需要。所以在某種程度上可以說,目前影響語音識別發(fā)展最主要的瓶頸不在聲學(xué)模型,而在語言模型。而且一旦在這一方面出現(xiàn)重大突破,那么與此相關(guān)的語義理解、機器翻譯等領(lǐng)域都會有突飛猛進的發(fā)展。2.2語音識別的基本算法概述隱馬爾可夫模型[25,26](HiddenMarkovModels,簡稱HMM)作為語音依賴的一種統(tǒng)計模型,今天正在語音處理各個領(lǐng)域中獲得廣泛的應(yīng)用。自從1980年Baum和Babiner既等人提出HMM方法以來的20多年時間里,人們對HMM用于語音識別的研究從沒有停止過,并使HMM得到了很大的發(fā)展,如提出了半連續(xù)密度HMM模型、連續(xù)密度HMM模型以及訓(xùn)練和識別時使用的各種準則。由于HMM有一個有效的學(xué)習算法及解碼算法,今天,HMM方法是語音識別中最有效、應(yīng)用最為廣泛的方法,HMM的一些傳統(tǒng)缺點也通過不斷的改進得以克服,這方面的成功是顯著的。最早用在語音識別中的聲學(xué)匹配算法[27]是基于傳統(tǒng)模式識別理論的模板匹配法,如規(guī)則匹配法、基于時域、頻域二元特征的表格匹配法等。該方法在20世紀的50年代末到60年代中期十分盛行,而且各種模板匹配算法也層出不窮,但是由于語音信號的隨機性很大,即使同一個人在同一語境中發(fā)的同—個音,在不同時刻也不可能具有相同的時長,所以利用模扳匹配法無法取得令人滿意的識別結(jié)果。這正是Pierce在l969年給JASA編輯的信中(WitherSpeechRecognition)嚴厲批評當時語音識別技術(shù)粗劣的原因。到了20世紀70年代,Sakoe,Chiba等人首先將運籌學(xué)中的動態(tài)規(guī)劃技術(shù)(DynamicProgramming)引入到語音識別中,真正解決了輸入語音特征矢量序列與參考模板之間的時間對正和匹配問題。1976年,他們又對此技術(shù)進行了優(yōu)化,設(shè)計實現(xiàn)了一個以LPC系數(shù)為特征的語音識別系統(tǒng),并獲得了較好的識別結(jié)果。當時Sakoe等使用的技術(shù)正是我們今天所稱的DTW技術(shù)(DynamicTimeWarping)??梢哉fDTW技術(shù)的出現(xiàn)是語音識別的一個里程碑,它使語音識別技術(shù)空前活躍起來。同一時期,其它技術(shù)也紛至沓來,為語音識別注入了活力。同時,矢量量化技術(shù)也在語音識別中得到了廣泛的應(yīng)用,如有限狀態(tài)矢量量化FSVQ(FiniteStateVectorQuantization)[28],自適應(yīng)矢量量化AVQ(AdaptationVQ)[29],矢量預(yù)測量化VPQ(VectorPedictionQuantization)[30]等。20世紀60年代末和70年代初,Baum和他的同事在Markov模型理論方面做了相當多的工作,為基于HMM的語音識別方法奠定了基礎(chǔ)。70年代,Baker,Jelinek等人首先將基于HMM的統(tǒng)計方法用于語音識別中,其中Bakrt利用HMM來描述聲學(xué)序列,而Jelinek用它來描述語言序列。HMM在語音識別中的應(yīng)用可以說開創(chuàng)了語音識別技術(shù)發(fā)展中的第二個里程碑。但在當時,HMM技術(shù)并不被大多數(shù)人所理解,其主要原因是:①最早的有關(guān)HMM的文章主要刊登在一些數(shù)學(xué)期刊中,而從事語音識別的工程人員很少閱讀這些期刊;②在當時,缺乏全面介紹HMM技術(shù)的綜述性文章。直到20世紀80年代,Rabiner的一篇“ATutorialonHiddenMarkovModelsandSelectedApplicationinSpeechRecognition”才使眾多的語音識別研究人員真正理解了HMM的內(nèi)涵。從20世紀80年代中期至現(xiàn)在,在短短的20年中,HMM無論是從理論上還是從技術(shù)上,都取得了重大進步,并成了語音識別的主流算法。X.Huang提出了半連續(xù)HMM模型(SCHMM)[31,32,33],B.Juang,L.Rabinar等在保正訓(xùn)練過程收斂的條件下,將連續(xù)密度HMM中密度函數(shù)的約束由對數(shù)凹(LogarithmicConcavity)擴展到橢圓對稱(EllipticalSymmetry),并提出了基于高斯混合密度的HMM模型,擴充了密度函數(shù)選擇的自由度。P.Brown等在深入分析了基于最大似然準則(MaximumLiklihood)訓(xùn)練HMM模型參數(shù)理論上的不足后,提出了基于最大互信息準則(MaximumMutualInformation)的新的訓(xùn)練算法。與此同時,許多學(xué)者從不同角度還提出了另外一些新的訓(xùn)練算法,如最小區(qū)分信息準則[34](MinimumDiscriminativeInformation)、最小誤識率準則(MEE)[35]、最大后驗概率準則(MaximumAPosterior)[36]等。近十年是語音識別研究員活躍的十年,新的方法層出不窮。值得一提的是人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中的應(yīng)用。1986年,Meclelland和Elman等在TRACE系統(tǒng)中率先實現(xiàn)了利用ANN來對相鄰語音段相關(guān)信息的描述。1987年,LiPPmann等人對六種不同結(jié)構(gòu)的ANN在語音識別中的應(yīng)用進行了分析,探索了用ANN解決語音模板分類的機制和特點[23]。為了解決語音識別中的時長問題,Waibel等提出了時延神經(jīng)網(wǎng)絡(luò)IDNN((Time-DelayNeuralNetwork),Robinson提出了循環(huán)網(wǎng)絡(luò)RNN(RecurrentNN),Levin提出了HCNN(HiddenControlNN),Bourland提出了帶有上下文信息和反饋輸入的循環(huán)多層感知器等。但出入意料的是,盡管神經(jīng)網(wǎng)絡(luò)克服了HMM的許多不足,神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用并沒有起初人們想象的那樣樂觀,單獨使用神經(jīng)網(wǎng)絡(luò)并沒有達到比HMM更好的識別結(jié)果??傊?,盡管新的方法和思路不斷涌現(xiàn),但基于HMM的識別算法仍是當前語音識別的主流算法。隱馬爾可夫模型利用概率及統(tǒng)計范疇的成功地解決了:如何辨識具有不同參數(shù)的短時平穩(wěn)信號段,怎樣跟蹤它們之間的轉(zhuǎn)化等問題。在進行識別時,為每一個參考模型計算出產(chǎn)生測試觀察的概率,且測試信號(即輸入信號)按最大被識別為某個單詞。所以HMM對語音識別具有很重要的意義。HMM模型的結(jié)構(gòu)HMM的結(jié)構(gòu)主要有兩種,一種是各自循環(huán)的,另一種是從左至右的,如圖2.3所示,圖(a)是一種各自循環(huán)的HMM結(jié)構(gòu),可以應(yīng)用于說話人識別、語種辨識等場合,而圖(b)和圖(c)則分別是三轉(zhuǎn)移和二轉(zhuǎn)移的從左到右的HMM結(jié)構(gòu),語音識別系統(tǒng)一般都采用這種從左至右的HMM結(jié)構(gòu)。圖2.3HMM模型的結(jié)構(gòu)類型在確定了HMM模型的結(jié)構(gòu)后,一個HMM模型λ就可以用三個參數(shù)來完全描述了。它們是狀態(tài)的初始分布π、狀態(tài)的轉(zhuǎn)移概率矩陣A和狀態(tài)的輸出概率矩陣B,即λ=(π,A,B)。下面是這三個參數(shù)的定義:(l)π=[π1,π2,…,πN]為初始分布,用于描述觀察序列O在t=1時刻時所處狀態(tài)q1屬于模型中各狀態(tài)的概率分布,即:πi=P(q1=Si),i=1,2,…,N(2-1)滿足:SKIPIF1<0(2)A={aij|i,j=1,2,…,N}為狀態(tài)轉(zhuǎn)移概率矩陣,假設(shè)當前所處狀態(tài)qt只與前一時刻所處狀態(tài)qt-1有關(guān),即:aij=P(qt=sj|qt-1=Si,qt-2=sk,…)=P(qt=Sj|qt-1=si)(2-2)滿足:SKIPIF1<0(3)B=bj(Oi)是為觀測事件輸出概率矩陣,即狀態(tài)j時出現(xiàn)觀測事件Oi的概率。根據(jù)觀測事件Oi的形式,可以把HMM分為兩大類,也就是離散HMM(DHMM)和連續(xù)HMM(CHMM),DHMM對應(yīng)的輸出概率B是一個概率矩陣,而CHMM對應(yīng)的輸出概率B則是一個輸出概率密度函數(shù)。在DHMM中,觀測事件序列為符號序列,每一個觀測事件是一個符號,B是一個狀態(tài)概率矩陣:B={bj(k),j=1,2,…,M}(2-3)它滿足SKIPIF1<0,bj(K)表示第j個狀態(tài)的第K個符號的輸出概率。在CHMM中,觀測事件序列為矢量序列,每一個觀測事件是一個矢量,B是一個概率密度函數(shù):SKIPIF1<0(2-4)上面給出的是一個混合高斯密度函數(shù),其中Ni表示第i個高斯密度函數(shù)分量,M表示第j個狀態(tài)的高斯概率密度函數(shù)的個數(shù),cjl表示第j個狀態(tài)的第l個高斯密度函數(shù)分量的權(quán)值。高斯密度函數(shù)的形式如下:SKIPIF1<0(2-5)Oi表示觀察矢量ujl表示第j個狀態(tài),第l個高斯密度函數(shù)分量的均值矢量∑jl表示表示第j個狀態(tài),第1個高斯密度函數(shù)分量的協(xié)方差矩陣上面給出了HMM模型的定義,圖2.4是用HMM模型對詞匯“江蘇”的發(fā)音進行建模的一個例子。這里HMM模型采用了從左至右二轉(zhuǎn)移的結(jié)構(gòu),用了4個馬爾科夫狀態(tài)來描繪“江蘇”這個發(fā)音的過程,其中矢量序列O={O1,O2,O3,…OT}是對“江蘇”這段語音進行分幀后求得的特征矢量序列.對“江蘇”這個詞進行發(fā)音的過程中,大腦首先位于狀態(tài)S1(對應(yīng)的是音節(jié)“jiang’中聲母“j”的發(fā)音),并且在該狀態(tài)持續(xù)一段時間并輸出矢量序列O1,O2,O3,…On,然后跳轉(zhuǎn)到狀態(tài)S2(對應(yīng)的是音節(jié)“jiang’’中的韻母“iang”的發(fā)音),并在該狀態(tài)輸出矢量序列On,On+1,…Om,然后再跳轉(zhuǎn)到狀態(tài)S3,重復(fù)同樣的過程,直到發(fā)音完畢??梢钥吹剑竽X發(fā)音過程中所處的狀態(tài)S是隱含的,不可觀測的,通過這些隱含的狀態(tài)輸出的語音信號特征矢量序列O則是一個可觀察的序列,HMM通過這樣一個雙隨機過程,合理地模仿了人發(fā)音的過程。圖2.4用HMM模型對語音信號進行建模的例子前向和后向算法前向和后向算法用于解決HMM模型的第一個問題:給定觀察序列O=O1O2…OT和HMM模型λ=(π,A,B),計算觀察序列對HMM模型的輸出概率p(O|λ)最直接的求取方法如下:對一個固定的狀態(tài)序列Q=q1,q2,…,qT有:SKIPIF1<0(2-6)對于給定的λ,產(chǎn)生Q的概率為:SKIPIF1<0(2-7)上式的計算量非常大,現(xiàn)實中并不實用,因此需要一個高效的算法來計算,前向和后向算法就是解決問題的有效算法。(1)前向算法前向概率變量α被定義為αi(i)=P(O1,O2,…Ot,qt=θ|λ),表示已知HMM模型參數(shù)為λ的情況下,產(chǎn)生部分觀察序列{O1,O2,…Ot},并且在時刻t處于狀態(tài)θi的概率。則前向算法采用如下的遞推方式求p(O|λ):初始化:α1(i)=πibi(O1),1≤i≤N遞推:對于1≤t≤T-1,1≤j≤N有SKIPIF1<0(2-8)SKIPIF1<0(2-9)(2)后向算法后向概率變量β定義為βi(i)=p(Oi+1,Oi+2,…,OT,qt=θi|λ),表示已知HMM模型參數(shù)為λ的情況下,產(chǎn)生部分觀察序列{Oi+1,Oi+2,…,OT},并且在時刻t處于狀態(tài)θi的概率。則后向算法采用如下的遞推方式求p(O|λ):初始化:βT(i)=1,1≤i≤N遞推:對于t=T-1,T-2,…,1,1≤j≤N有SKIPIF1<0(2-10)SKIPIF1<0(2-11)前向概率變量α和后向概率變量β巧妙地將整個觀察系列對HMM模型的輸出概率分成兩個部分觀察序列的輸出概率的乘積,而且它們各自都有相應(yīng)的遞推公式,可以大大簡化計算。經(jīng)過分析,可以得到下面的輸出概率計算公式:SKIPIF1<0(2-12)前向概率變量a和后向概率變量聲在HMM算法中應(yīng)用非常普遍,Viterbi算法Viterbi算法用于解決HMM模型的第二個問題:給定觀察序列O=O1O2…OT和HMM模型λ=(π,A,B),找出產(chǎn)生該序列的最佳狀態(tài)序列Q=[q1,q2,…qN]。這其實就是HMM模型中的識別問題。假設(shè)系統(tǒng)在時刻t處于狀態(tài)I,即qt=i,而先前時刻的狀態(tài)為q1,q2,…qt-1可以任意選擇則可以找到一條從1到t的路徑,使得產(chǎn)生輸出序列O1O2…Ot的概率達到最大。將此概率最大值記為δt(i),有:SKIPIF1<0(2-13)則可以用如下的遞推方示求取最佳狀態(tài)序列Q:初始化:δt(i)=πib1(O1),1≤i≤Nψ1(i)=0遞推:對于2≤t≤T,1≤j≤N,有SKIPIF1<0SKIPIF1<0(2-14)可以看到,Viterbi算法用遞推的方式求取最佳狀態(tài)序列,它通過求取每一步的局部最優(yōu)值,得到最終的全局最優(yōu)值,每一步局部最優(yōu)的求取只與前一步的結(jié)果有關(guān),這是一種基于DP動態(tài)規(guī)劃的思想,能夠大大減少計算量,因此用Viterbi算法計算觀察序列在模型λ下的最大輸出概率非常有效。Baum-Welch算法Baum-Welch算法用于解決HMM模型的第三個問題,即給定觀察序列O=O1O2…OT,確定HMM模型λ=(π,A,B)的三個參數(shù),使在該HMM模型下產(chǎn)生該觀察序列的概率最大。為了對HMM模型的參數(shù)進行估計,人們提出了一系列的準則,如ML(MaximumLikelihood)最大似然度準則,MAP(MaximumaPosteriori)最大后驗概率準則,MCE(MinimumClassificationError)最小分類誤差等。Baumn-Welch算法就是基于ML準則的一種參數(shù)估計方法,在HMM識別系統(tǒng)中用的非常廣泛。定義εt(i,j)為給定序列O和模型λ時,HMM模型在t時刻處于i狀態(tài),t+1時刻處于j狀態(tài)的概率,即SKIPIF1<0(2-15)通過推導(dǎo),可以得到:SKIPIF1<0(2-16)2.3Internet中語音識別的應(yīng)用對于語音應(yīng)用來說,以往的語音應(yīng)用建立于簡單、封閉的交互機制上。其數(shù)據(jù)來源基本為事先的預(yù)制錄音,操作流程為簡單的菜單式按鍵選擇。隨著語音識別、語音合成等新的人機交互方式的成熟應(yīng)用,傳統(tǒng)的CTI系統(tǒng)具備了新的交互能力。而語音瀏覽正是為適應(yīng)這種新的交互方式和Internet應(yīng)用的結(jié)合而誕生的。語音瀏覽使傳統(tǒng)的簡單機成為了一種功能強大且操作簡單的數(shù)據(jù)訪問終端,將數(shù)據(jù)和交互建立于Internet瀏覽結(jié)構(gòu)之上,從而使機這樣簡單的設(shè)備可以比其它網(wǎng)絡(luò)終端更為容易和方便的暢游Internet。隨著通信的發(fā)展,人們幾乎無時無處不可以使用。這極大地方便人們,同時也為語音識別帶來了前所未有的挑戰(zhàn)。影響速度的因素有:網(wǎng)絡(luò)受帶寬的限制,基本算法復(fù)雜等因素影響識別的速度。我們不得不面對比桌面識別系統(tǒng)復(fù)雜得多的環(huán)境因素,影響識別率的因素也很多:信噪比很低的情況(如戶外用戶)、很多實際環(huán)境噪聲是高度非穩(wěn)態(tài)的、背景環(huán)境中存在其它講話者的話音以及用戶在不自覺中發(fā)音方式的改變(Lombard效應(yīng))等等。另外,和所有的手持設(shè)備一樣,語音的音質(zhì)與受話器的位置變化關(guān)系密切,并嚴重影響語音識別的結(jié)果。語音瀏覽類同于Internet與客戶端計算機之間的瀏覽機制。從而將龐大的最為普及的語音通訊網(wǎng)絡(luò)有機的融入了豐富的Internet中,使建立于數(shù)據(jù)網(wǎng)絡(luò)之上的應(yīng)用得到了最廣泛的延伸。為何語音應(yīng)用技術(shù)對于互聯(lián)網(wǎng)絡(luò)、信息技術(shù)如此重要?首先,人類的自然語音通過能夠被識別和理解,那么無疑是最適合的一種工具,用來提供大多數(shù)用戶在互聯(lián)網(wǎng)上所需求的信息和服務(wù)?;ヂ?lián)網(wǎng)提供了各種各樣的大量實用信息,但是這些信息并不是隨處可得的,用戶必須在家里或辦公室通過電腦聯(lián)網(wǎng)來獲得這些信息。消費者對于互聯(lián)網(wǎng)內(nèi)容和信息的大量需求促使各種生產(chǎn)廠商設(shè)計出各種各樣的產(chǎn)品,如PDA、等這些可隨身攜帶又能直接與網(wǎng)絡(luò)互聯(lián)的產(chǎn)品。WAP蜂窩等目前是最流行也是最符合要求的典型例子。這些設(shè)備的快速發(fā)展促使通過手持設(shè)備和來訪問互聯(lián)網(wǎng)的內(nèi)容是可以實現(xiàn)的。另外,隨著移動越來越小,越來越輕便,越來越便宜,以及移動電池使用時間越來越長,其所具備的便攜性遠勝于電腦。而伴隨移動通信技術(shù)的飛速發(fā)展,他們更具備了電腦不具備的優(yōu)勢,比如全球定位。用戶甚至可以在開車時方便的使用移動,甚至在不久的將來使用車載,通過車載來尋找相關(guān)的信息。語音具有其無與倫比的獨特優(yōu)勢,而且語音比鍵盤和閱讀更具有親切感。當然,圖像和文字依然很重要,將來會出現(xiàn)“多模式”的設(shè)備,可以以圖像和文字的方式進行,或以語音的方式進行,甚至可以混合語音和圖像信息。而這正是語音應(yīng)用技術(shù)帶來的美好前景。同樣,語音對于Internet也一樣重要。首先,基于語音瀏覽技術(shù)的語音應(yīng)用系統(tǒng)的開發(fā)很容易,應(yīng)用語音應(yīng)用技術(shù)可以輕松建立豐富、廉價和高效的Web應(yīng)用及其開發(fā)工具。其次,語音應(yīng)用系統(tǒng)很容易發(fā)布,不再需要建立一個指定的專用語音服務(wù)器,基于語音瀏覽機制的語音應(yīng)用可以放棄Internet上的任意一個地方,而用戶通過,可以像使用IE這樣的瀏覽器一樣進行查詢、書簽以及鏈接等其他Web的瀏覽方式。2.4本章小結(jié)本章從概念、分類以及特點等多個方面對語音識別技術(shù)進行了詳細的分析,介紹語音識別的關(guān)鍵技術(shù)和算法,并在此基礎(chǔ)上詳細闡述了Internet語音識別技術(shù)的要求,為下一章SALT技術(shù)的引入進行了有力的鋪墊。
第3章基于WEBSALT語音識別3.1SALT技術(shù)SALT(SpeechApplicationLanguageTags,語音應(yīng)用語言標記)作為對通常使用的Web編程語言的擴充,SALT規(guī)范定義了一組標記并且整合了W3C(全球網(wǎng)聯(lián)合會)和工ETF(因特網(wǎng)工程任務(wù)組)的現(xiàn)有標準。其目標使用領(lǐng)域是語音和多媒體Web應(yīng)用程序。有了它,PC、、、PDA以及PocketPC和最新推出的TabletPC等設(shè)備都可以訪問基于Web的信息、程序和服務(wù)。SALT技術(shù)知識分析SALT(語音應(yīng)用語言標記)是一種能為用戶與電子設(shè)備間的交互提供新方法的語音標記語言,是一種能為用戶與電子設(shè)備間的交互提供新方法的語音標記語言。SALT適用于語音驅(qū)動以及所謂的“多模式”Web應(yīng)用[39]──即那些將語音交互與傳統(tǒng)界面模式混合在一起的應(yīng)用。該技術(shù)能與可視及核心Web技術(shù)直接集成,并以人類所共有的語音—這種最自然、有效的用戶界面來提供豐富的設(shè)備應(yīng)用—包括移動、、桌面等。多模式應(yīng)用比單模式應(yīng)用能為終端用戶提供更多的東西:比如圖形用戶界面(GUI)以外的語音輸入等。由于今天的Web頁面能托管各種可視及多媒體組件,因此具有豐富的交互前景。讓我們來考慮幾種情況:使用PDA(個人數(shù)字助理)時,用戶一般不得不在一個微型鍵盤上費勁地敲擊以將數(shù)據(jù)輸進Web表格中,而PDA語音接口則使他們通過說話來直接將數(shù)據(jù)輸進表格中。在其他的移動情況中,比如在倉庫內(nèi)或正在駕駛時,用戶可能主要需要與他們的設(shè)備進行“不用眼睛”和/或“不用手”的交互。SALT語音接口可進行語音輸入及輸出來驅(qū)動應(yīng)用。在桌面或家庭設(shè)置中,許多應(yīng)用都可利用到語音這種額外的交互方式。SALT語音接口可為用戶界面提供極大豐富的功能,比如屏幕閱讀、語音網(wǎng)上沖浪、快速數(shù)據(jù)輸入以及“指向-點擊-說話”功能。有多種體系結(jié)構(gòu)可以支持用戶界面模式的匯集。SALT獨立地運行主機標記語言,亦即語音接口可被集成到任何適合使用標記的客戶機設(shè)備上。現(xiàn)有的Web基礎(chǔ)設(shè)施具有同樣的功能。利用SALT,Web頁面腳本及其他代碼可以訪問及控制語音功能,且SALT可以和任何當今或?qū)淼腤eb標準一起使用──包括HTML以超文本標記語言)、XHTML(可擴展超文本標記語言)、WML(無線標記語言)以及SM工以同步多媒體集成語言)等?,F(xiàn)在,開發(fā)商不是在用語音來加強可視頁面,就是在將可視界面完全移植到中。隨著時間的推移,他們將發(fā)現(xiàn)SALT是對他們技術(shù)集合的一種自然擴展。另外,語音業(yè)務(wù)是組件式的,也就是說,語音識別和/或語音合成既可以嵌入到設(shè)備中,又可以運行于遠程機器上。這使得小型設(shè)備一如移動等能利用遠程服務(wù)器上的資源來運行SALT應(yīng)用。而且,也可以將像語音文件及語法規(guī)則這樣的大型或動態(tài)資源駐存在遠程位置上。[40,41]致力于通過向諸如HTML和XHTML之類的標準,并向Web及IVR開發(fā)工具[42,43]提供擴展,以促進應(yīng)用軟件中的這種多模式能力和語音驅(qū)動接口。由于大批Web開發(fā)商對利用語音來創(chuàng)建多模式或用戶界面的可能性感到非常興奮,因此越來越多的應(yīng)用將以擁有語音及多模式的承諾來提交,從而為用戶提供一種最豐富而又最自然的Web交互方式[41]。商家們正在為各種平臺開發(fā)具有SALT功能的瀏覽器,例如微軟將很快為InternetExplorer,PocketInternetExplorer公布SALT插件以及SALT應(yīng)用服務(wù)器。微軟公司已經(jīng)發(fā)布了能夠無縫嵌入到該公司開發(fā)環(huán)境VisualStudio.NET中的支持SALT的語音開發(fā)工具包(SpeechApplicationSoftwareDevelopmentKit,SASDK)。SALT作為對通常使用的Web編程語言的擴充,SALT規(guī)范定義了一組標記并且整合了W3C(全球網(wǎng)聯(lián)合會)和IETF(因特網(wǎng)工程任務(wù)組)的現(xiàn)有標準。SALT規(guī)范的目標使用領(lǐng)域是語音和多媒體Web應(yīng)用程序。有了它,PC、、移動、PDA以及PocketPC和最新推出的TabletPC等設(shè)備都可以訪問基于Web的信息、程序和服務(wù)。根據(jù)國際知名專業(yè)市場研究調(diào)查公司In-Stat/MDR日前公布的一份調(diào)查研究結(jié)果顯示[44],SALT是一項技術(shù),它允許多種模式的通訊,例如輸入語音但輸出卻轉(zhuǎn)成數(shù)據(jù),它開啟了一個新的應(yīng)用與商機的世界。根據(jù)In-Stat/MDR調(diào)查,利用人類的語音,Intel的應(yīng)用將更加的簡便而友善,SALT將可使得語音識別(SpeechRecognition)的軟件與應(yīng)用,行動上網(wǎng)設(shè)備,與無線廣播服務(wù)(WirelessSubscriberAirtime)等的市場開始成長。下面是SALT技術(shù)對美國市場的總體影響排列示意圖:SKIPIF1<0圖3.1SALT在美國市場的影響SALT使您可以在網(wǎng)絡(luò)上存取任何東西,可以讓移動設(shè)備使用者進行輸出或是輸入,這種存取沒有SALT的技術(shù)是不可能達成的。通常在PDA或手提電腦上輸入是很不靈便的,而一般語音入口網(wǎng)站的服務(wù)內(nèi)容又有限,SALT采取最好的輸入與輸出的方法,它把兩者加以結(jié)合,一起而讓計算機環(huán)境變得有新的活力。SALT是一種能為用戶與電子設(shè)備間的交互提供新方法的語音標記語言。SALT適用于語音驅(qū)動以及所謂的“多模式”Web應(yīng)用—即那些將語音交互與傳統(tǒng)界面模式混合在一起的應(yīng)用。該技術(shù)能與可視為核心Web技術(shù)直接集成,并以人類所共有的語音—這種最自然、有效的用戶界面來提供豐富的設(shè)備應(yīng)用—包括移動設(shè)備、、桌面等。多模式應(yīng)用比單模式應(yīng)用能為終端用戶提供更多的東西:比如圖形用戶界面(GUI)以外的語音輸入等。由于今天的Web頁面能托管各種可視及多媒體組件,因此SALT具有豐富的發(fā)展前景。SALT作為對通常使用的Web編程語言的擴充,SALT規(guī)范定義了一組標記并且整合了W3C(全球網(wǎng)聯(lián)合會)和IETF(因特網(wǎng)工程任務(wù)組)的現(xiàn)有標準,其目標使用領(lǐng)域是語音和多媒體Web應(yīng)用程序。有了它,PC、、、PDA以及PocketPC和最新推出的TabletPC等設(shè)備都可以訪問基于Web的信息、程序和服務(wù)。SALT己經(jīng)定義了原始的標記集合,該集合擴展了目前廣為使用的WWW編程語言。因此開發(fā)人員能夠使用已經(jīng)習慣了的工具和技術(shù)向WWW內(nèi)容和應(yīng)用程序追加語音接口。在人機交互應(yīng)用中,通過追加SALT標記,能夠支持語音輸入和輸出功能。這些功能也能獨立地與諸如用輸入筆指著畫面時輸出語音等其它接口進行配合使用。SALT技術(shù)的優(yōu)越性微軟通過幾個關(guān)鍵點來描述該技術(shù)的優(yōu)越性:1)開放的標準SALT技術(shù)是一套典型的對HTML和XHTML進行擴展的技術(shù),通過這種技術(shù)的應(yīng)用可以對網(wǎng)絡(luò)服務(wù)提供語音支持。2)通用平臺3)節(jié)約成本對于開發(fā)周期,語音應(yīng)用往往受限于開發(fā)者的熟練程度。而微軟正在提供一個基于廣泛適用于微軟.NET技術(shù)的語音開發(fā)平臺,通過微軟VisualStudio.NET到語音應(yīng)用的發(fā)展而產(chǎn)生了網(wǎng)絡(luò)編程模式,并且在這方面投入大量的訓(xùn)練而不是培養(yǎng)6百萬語音應(yīng)用領(lǐng)域的開發(fā)者,這樣可以讓企業(yè)培養(yǎng)出大批有素質(zhì)的程序開發(fā)者,因此節(jié)約了成本。另外,由于該應(yīng)用是基于熟練的網(wǎng)絡(luò)編程,所有網(wǎng)絡(luò)開發(fā)者可以接受再訓(xùn)練來完成開發(fā)語音用戶接口。4)應(yīng)用廣泛微軟正在積極和ISV(獨立軟件開發(fā)商)合作進行基于SALT的應(yīng)用開發(fā)。在接下來的幾年里,在各項目應(yīng)用中優(yōu)先采用語音技術(shù)將會成為可能。以下為SALT技術(shù)的主要應(yīng)用:端末用戶可以隨時隨地使用基于SALT的應(yīng)用,并且可以同時支持任何使用語音、文本或圖像接口的設(shè)備。開發(fā)者可以在現(xiàn)存的HTML,XHTML,以及XML網(wǎng)頁中無縫接入語音模塊,使用他們一直熟悉的開發(fā)語言、技術(shù)以及現(xiàn)存工具來進行開發(fā)。商業(yè)上可以實現(xiàn)降低成本,也可以通過提供通用的基于Web的多種媒體交互應(yīng)用來降低其復(fù)雜度。另外,可以避免有時為了對每一種應(yīng)用有個性化的輸出而對現(xiàn)有Web的資金和人力的投入,及避免重復(fù)投資。服務(wù)提供商能夠提供支持更多Web服務(wù)的Web應(yīng)用,同時還將增加新的商機和更好的服務(wù)帶來的收入。5)擴展性利用SALT,Web頁面腳本及其他代碼可以訪問及控制語音功能,而且SALT可以和任何當今或?qū)淼腤eb標準一起使用—包括HTML(超文本標記語言)、XHTML(可擴展超文本標一記語言)、WML(無線標記語言)以及SMIL(同步多媒體集成語言)等。現(xiàn)在,開發(fā)商不是在用語音來加強可視頁面,就是在將可視界面完全移植到中。隨著時間的推移,他們將發(fā)現(xiàn)SALT是對他們技術(shù)集合的一種自然擴展。6)組件式語音業(yè)務(wù)是組件式的,也就是說,語音識別和/或語音合成既可以嵌入到設(shè)備中,又可以運行于遠程機器上。這使得小型設(shè)備(如移動等)能利用遠程服務(wù)器上的資源來運行SALT應(yīng)用。而且,也可以將像語音文件及語法規(guī)則這樣的大型或動態(tài)資源
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年內(nèi)江貨運資格證模擬考試題
- 物資領(lǐng)用與報廢管理表
- 2025年阿壩貨運資格證題庫在線練習
- 2025年孝感道路運輸貨運從業(yè)資格證模擬考試題庫
- 大數(shù)據(jù)分析平臺上的預(yù)測模型構(gòu)建
- 重大市場營銷活動策劃與執(zhí)行方案
- 企業(yè)規(guī)范化規(guī)章制度匯編
- 人力資源行業(yè)招聘與人力資源服務(wù)平臺開發(fā)方案
- 建筑工程安明施工協(xié)議書
- 2025年宜賓貨運從業(yè)資格考試題
- 戶外廣告制作安裝合同模板
- 污水處理廠SBR工藝的設(shè)計說明
- 2025年國家自然科學(xué)基金委員會招聘流動編制人員59人歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 歷史地理學(xué)研究-深度研究
- 2025江蘇太倉市城市建設(shè)投資集團限公司招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 2.2 學(xué)會管理情緒(同步課件)2024-2025學(xué)年七年級道德與法治下冊(統(tǒng)編版2024)
- 14磁極與方向(教學(xué)設(shè)計)-二年級科學(xué)下冊(教科版)
- 2024年義務(wù)教育2022年版《道德與法治課程標準》真題庫附答案
- 志愿服務(wù)證明(多模板)
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)教程PPT全套完整教學(xué)課件
- 凈身出戶離婚協(xié)議書(完善版)
評論
0/150
提交評論