




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、語音識別技術(shù)人工智能論文一:前沿語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。它是一門交叉學(xué)科,正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù)。語音識別 技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競爭性的新興高技術(shù)產(chǎn)業(yè)。二:語音識別技術(shù)概述語音識別技術(shù),也被稱為自動語音識別automatic speech recognition,(asr),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
2、語音識別技術(shù)的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語音識別是解決機(jī)器“聽懂”人類語言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識別技術(shù)一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識別技術(shù)研究的突破,其對計(jì)算機(jī)發(fā)展和社會生活的重要性日益凸現(xiàn)出來。以語音識別技術(shù)開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢
3、、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語音通信系統(tǒng)等,幾乎深入到社會的每個(gè)行業(yè)和每個(gè)方面。三語音識別的研究歷史 語音識別的研究工作始于20世紀(jì)50年代,1952年bell實(shí)驗(yàn)室開發(fā)的audry系統(tǒng)是第一個(gè)可以識別10個(gè)英文數(shù)字的語音識別系統(tǒng)。1959年,rorgie和forge采用數(shù)字計(jì)算機(jī)識別英文元音和孤立詞,從此開始了計(jì)算機(jī)語音識別。60年代,蘇聯(lián)的matin等提出了語音結(jié)束點(diǎn)的端點(diǎn)檢測,使語音識別水平明顯上升;vintsyuk提出了動態(tài)編程,這一提法在以后的識別中不可或缺。60年代末、70年代初的重要成果是提出了信號線性預(yù)測編碼(lpc)技術(shù)和動態(tài)時(shí)間規(guī)整(dtw)技術(shù),有
4、效地解決了語音信號的特征提取和不等長語音匹配問題;同時(shí)提出了矢量量化(vq)和隱馬爾可夫模型(hmm)理論。 80年代語音識別研究進(jìn)一步走向深入:hmm模型和人工神經(jīng)網(wǎng)絡(luò)(ann)在語音識別中成功應(yīng)用。1988年,fulee kai等用vq/i-imm方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語音識別系統(tǒng)sphinx。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)。 進(jìn)入90年代后,語音識別技術(shù)進(jìn)一步成熟,并開始向市場提供產(chǎn)品。許多發(fā)達(dá)國家如美國、日本、韓國以及ibm、apple、at&t、microsoft等公司都為語音識別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。同時(shí)漢語語音識別也越來越受到重
5、視。ibm開發(fā)的 viavoice和microsoft開發(fā)的中文識別引擎都具有了相當(dāng)高的漢語語音識別水平。 進(jìn)入21世紀(jì),隨著消費(fèi)類電子產(chǎn)品的普及,嵌入式語音處理技術(shù)發(fā)展迅速2?;谡Z音識別芯片的嵌入式產(chǎn)品也越來越多,如sensory公司的rsc系列語音識別芯片、infineon公司的unispeech和unilite語音芯片等,這些芯片在嵌入式硬件開發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語音識別軟件有:nuance、ibm的viavoice和microsoft的sapi以及開源軟件htk,這些軟件都是面向非特定人、大詞匯量的連續(xù)語音識別系統(tǒng)。四國內(nèi)研究歷史及現(xiàn)狀我國語音識別研究工作起
6、步于五十年代,但近年來發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計(jì)劃后,國家863智 能計(jì)算機(jī)專家組為語音識別技術(shù)研究專門立項(xiàng),每兩年滾動一次。我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢,并達(dá)到國際先進(jìn)水平。中科院自動化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室。電子工程系語音技術(shù)與專用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)
7、語音識別系統(tǒng)的識別精度,達(dá)到948(不定長數(shù)字串)和968(定長數(shù)字 串)。在有5的拒識率情況下,系統(tǒng)識別率可以達(dá)到969(不定長數(shù)字串)和987(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,其性能已經(jīng) 接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達(dá)到9873,前三選識別率達(dá)9996;并且可以識別普通話與四川話兩 種語言,達(dá)到實(shí)用要求。2000年7月在北京自然博物館新開設(shè)的動物展館中展出的具有語音識別口語對話功能“熊貓”,采用了我們研發(fā)非特定人連續(xù)語音識別系統(tǒng),在展覽館 這樣高噪聲的環(huán)境下,該識別系統(tǒng)的識別率也超過了98,達(dá)到實(shí)用要求。通過該系統(tǒng)觀眾與“熊貓”自然對
8、話可以了解熊貓的生活習(xí)慣、生理結(jié)構(gòu)等信息,其形 式生動、活潑,吸引了大量的學(xué)生與參觀者。 五、語音識別的幾種基本方法一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。 (1)基于語音學(xué)和聲學(xué)的方法該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復(fù)雜,現(xiàn)階段沒有達(dá)到實(shí)用的階段。 通常認(rèn)為常用語言中有有限個(gè)不同的語音基元,而且可以通過其語音信號的頻域或時(shí)域特性來區(qū)分。這樣該方法分為兩步實(shí)現(xiàn): 第一步,分段和標(biāo)號 把語音信號按時(shí)間分成離散的段,每段對應(yīng)一個(gè)或幾個(gè)語音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對每個(gè)
9、分段給出相近的語音標(biāo)號 第二步,得到詞序列 根據(jù)第一步所得語音標(biāo)號序列得到一個(gè)語音基元網(wǎng)格,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時(shí)進(jìn)行。 (2)模板匹配的方法模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實(shí)用階段。在模板匹配方法中,要經(jīng)過四個(gè)步驟:特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:動態(tài)時(shí)間規(guī)整(dtw)、隱馬爾可夫(hmm)理論、矢量量化(vq)技術(shù)。 1、動態(tài)時(shí)間規(guī)整(dtw) 語音信號的端點(diǎn)檢測是進(jìn)行語音識別中的一個(gè)基本步驟,它是特征訓(xùn)練和識別的基礎(chǔ)。所謂端點(diǎn)檢測就是在語音信號中的各種段落(如音素、音節(jié)、詞素)的始點(diǎn)和終點(diǎn)的位置,從語音信號中排除無聲段。在早期,
10、進(jìn)行端點(diǎn)檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代日本學(xué)者itakura提出了動態(tài)時(shí)間規(guī)整算法(dtw:dynamictimewarping)。算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。 2、隱馬爾可夫法(hmm) 隱馬爾可夫法(hmm)是70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實(shí)質(zhì)性的突破。hmm方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于hmm模型的。hmm是對語音信號的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看
11、作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的markov鏈來模擬語音信號統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實(shí)際上就是一個(gè)雙重隨機(jī)過程,語音信號本身是一個(gè)可觀測的時(shí)變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流??梢奾mm合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。 3、矢量量化(vq) 矢量量化(vectorquantization)是一種重要的信號壓縮方法。與hmm相比,矢量量化主要適
12、用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的k個(gè)樣點(diǎn)的每一幀,或有k個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個(gè)矢量,然后對矢量進(jìn)行量化。量化時(shí),將k維無限空間劃分為m個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號樣本中訓(xùn)練出好的碼書,從實(shí)際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量,實(shí)現(xiàn)最大可能的平均信噪比。 核心思想可以這樣理解:如果一個(gè)碼書是為某一特定的信源而優(yōu)化設(shè)計(jì)的,那么由這一信息源產(chǎn)生的信號與該碼書的平均量化失真就應(yīng)小于其他信息的信號與該碼書的平
13、均量化失真,也就是說編碼器本身存在區(qū)分能力。 在實(shí)際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。 (3)神經(jīng)網(wǎng)絡(luò)的方法利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語音識別方法。人工神經(jīng)網(wǎng)絡(luò)(ann)本質(zhì)上是一個(gè)自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由于存在訓(xùn)練、識別時(shí)間太長的缺點(diǎn),目前仍處于實(shí)驗(yàn)探索階段。 由于ann不能很好的描述語音信號的時(shí)間動態(tài)特
14、性,所以常把a(bǔ)nn與傳統(tǒng)識別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識別。 六、語音識別系統(tǒng)的結(jié)構(gòu)一個(gè)完整的基于統(tǒng)計(jì)的語音識別系統(tǒng)可大致分為三部分: (1)語音信號預(yù)處理與特征提取; (2)聲學(xué)模型與模式匹配; (3)語言模型與語言處理、 (1)語音信號預(yù)處理與特征提取選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。 單詞(句)單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。 音節(jié)單元多見于漢語語音識別,主要因?yàn)闈h語是單音節(jié)結(jié)構(gòu)的語言,而英語是多
15、音節(jié),并且漢語雖然有大約1300個(gè)音節(jié),但若不考慮聲調(diào),約有408個(gè)無調(diào)音節(jié),數(shù)量相對較少。因此,對于中、大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。 音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構(gòu)成,且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。 語音識別一個(gè)根本的問題是合理的選用特征。特征參數(shù)提取的目的
16、是對語音信號進(jìn)行分析處理,去掉與語音識別無關(guān)的冗余信息,獲得影響語音識別的重要信息,同時(shí)對語音信號進(jìn)行壓縮。在實(shí)際應(yīng)用中,語音信號的壓縮率介于10-100之間。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應(yīng)時(shí)間,計(jì)算量等。非特定人語音識別系統(tǒng)一般側(cè)重提取反映語義的特征參數(shù),盡量去除說話人的個(gè)人信息;而特定人語音識別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時(shí),盡量也包含說話人的個(gè)人信息。 線性預(yù)測(lp)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于lp技術(shù)提取的倒譜參數(shù)。但線性預(yù)測模型是純數(shù)學(xué)模型,沒有考慮人類
17、聽覺系統(tǒng)對語音的處理特點(diǎn)。 mel參數(shù)和基于感知線性預(yù)測(plp)分析提取的感知線性預(yù)測倒譜,在一定程度上模擬了人耳對語音的處理特點(diǎn),應(yīng)用了人耳聽覺感知方面的一些研究成果。實(shí)驗(yàn)證明,采用這種技術(shù),語音識別系統(tǒng)的性能有一定提高。從目前使用的情況來看,梅爾刻度式倒頻譜參數(shù)已逐漸取代原本常用的線性預(yù)測編碼導(dǎo)出的倒頻譜參數(shù),原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性(robustness)。 也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。 (2)聲學(xué)模型與模式匹配聲學(xué)模型通常是將獲取的語音特征使用訓(xùn)練算法進(jìn)行訓(xùn)練后產(chǎn)生。在識別時(shí)將輸入的語音特征
18、同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識別結(jié)果。 聲學(xué)模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大小(字發(fā)音模型、半音節(jié)模型或音素模型)對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率,以及靈活性有較大的影響。必須根據(jù)不同語言的特點(diǎn)、識別系統(tǒng)詞匯量的大小決定識別單元的大小。 以漢語為例: 漢語按音素的發(fā)音特征分類分為輔音、單元音、復(fù)元音、復(fù)鼻尾音四種,按音節(jié)結(jié)構(gòu)分類為聲母和韻母。并且由音素構(gòu)成聲母或韻母。有時(shí),將含有聲調(diào)的韻母稱為調(diào)母。由單個(gè)調(diào)母或由聲母
19、與調(diào)母拼音成為音節(jié)。漢語的一個(gè)音節(jié)就是漢語一個(gè)字的音,即音節(jié)字。由音節(jié)字構(gòu)成詞,最后再由詞構(gòu)成句子。 漢語聲母共有22個(gè),其中包括零聲母,韻母共有38個(gè)。按音素分類,漢語輔音共有22個(gè),單元音13個(gè),復(fù)元音13個(gè),復(fù)鼻尾音16個(gè)。 目前常用的聲學(xué)模型基元為聲韻母、音節(jié)或詞,根據(jù)實(shí)現(xiàn)目的不同來選取不同的基元。漢語加上語氣詞共有412個(gè)音節(jié),包括輕音字,共有1282個(gè)有調(diào)音節(jié)字,所以當(dāng)在小詞匯表孤立詞語音識別時(shí)常選用詞作為基元,在大詞匯表語音識別時(shí)常采用音節(jié)或聲韻母建模,而在連續(xù)語音識別時(shí),由于協(xié)同發(fā)音的影響,常采用聲韻母建模。 基于統(tǒng)計(jì)的語音識別模型常用的就是hmm模型(n,m,a,b),涉及到
20、hmm模型的相關(guān)理論包括模型的結(jié)構(gòu)選取、模型的初始化、模型參數(shù)的重估以及相應(yīng)的識別算法等。 (3)語言模型與語言處理語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語言模型,語言處理可以進(jìn)行語法、語義分析。 語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計(jì)語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識別系統(tǒng)的搜索空間,這有利
21、于提高系統(tǒng)的識別。七突出成果 近幾年來,特別是2009年以來,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進(jìn)的發(fā)展。1、技術(shù)新發(fā)展1)將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語音識別聲學(xué)模型訓(xùn)練,使用帶rbm預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),極大提高了聲學(xué)模型的準(zhǔn)確率。在此方面,微軟公司的研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(dnn)后,語音識別錯(cuò)誤率降低了30%,是近20年來語音識別技術(shù)方面最快的進(jìn)步。2)目前大多主流的語音識別解碼器已經(jīng)采用基于有限狀態(tài)機(jī)(wfst)的解碼網(wǎng)絡(luò),該解碼網(wǎng)絡(luò)可以把語言模型、詞典和聲學(xué)共享音字集統(tǒng)一集成為一個(gè)大的解碼網(wǎng)絡(luò),大大提
22、高了解碼的速度,為語音識別的實(shí)時(shí)應(yīng)用提供了基礎(chǔ)。3)隨著互聯(lián)網(wǎng)的快速發(fā)展,以及手機(jī)等移動終端的普及應(yīng)用,目前可以從多個(gè)渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語言模型和聲學(xué)模型成為可能。在語音識別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一,但是語料的標(biāo)注和分析需要長期的積累和沉淀,隨著大數(shù)據(jù)時(shí)代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度。2、技術(shù)新應(yīng)用近期,語音識別在移動終端上的應(yīng)用最為火熱,語音對話機(jī)器人、語音助手、互動工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開此方面的研究和應(yīng)用,目的是通
23、過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。目前,國外的應(yīng)用一直以蘋果的siri為龍頭。而國內(nèi)方面,科大訊飛、云知聲、盛大、捷通華聲、搜狗語音助手、紫冬口譯、百度語音等系統(tǒng)都采用了最新的語音識別技術(shù),市面上其他相關(guān)的產(chǎn)品也直接或間接嵌入了類似的技術(shù)。八語音識別主要有以下五個(gè)問題:對自然語言的識別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個(gè)理解語義的規(guī)則。語音信息量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個(gè)說話人在隨意說話和認(rèn)真說話時(shí)的語音信息是不同的。一個(gè)人的說話方式隨著時(shí)間變化。語音的模糊性。說話者在講話時(shí),不同的詞可能聽起來是相似的。這在英語和
24、漢語中常見。單個(gè)字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。環(huán)境噪聲和干擾對語音識別有嚴(yán)重影響,致使識別率低。十存在問題的解決方法。語音識別系統(tǒng)的性能受許多因素的影響,包括不同的說話人、說話方式、環(huán)境噪音、傳輸信道等等。提高系統(tǒng)魯棒性,是要提高系統(tǒng)克服這些因素影響的能力,使系統(tǒng)在不同的應(yīng)用環(huán)境、條件下性能穩(wěn)定;采用自適應(yīng)的方法,根據(jù)不同的影響來源,自動地、有針對性地對系統(tǒng)進(jìn)行調(diào)整,在使用中逐步提高性能。以下對影響系統(tǒng)性能的不同因素分別介紹解決辦法。解決辦法按針對語音特征的方法(以下稱特征方法)和模型調(diào)整的方法(以下稱模型方法)分為兩類。前者需要尋找更好的、高魯棒性的特征參數(shù),或是在現(xiàn)有的特征參數(shù)基礎(chǔ)上,加入一些特定的處理方法。后者是利用少量的自適應(yīng)語料來修正或變換原有的說話人無關(guān)(si)模型,從而使其成為說話人自適應(yīng)(sa)模型。說話人自適應(yīng)的特征方法有說話人規(guī)一化和說話人子空間法,模型方法有貝葉斯方法、變換法和模型合并法。語音系統(tǒng)中的噪聲,包括環(huán)境噪聲和錄音過程加入的電子噪聲。提高系統(tǒng)魯棒性的特征方法包括語音增強(qiáng)和尋找對噪聲干擾不敏感的特征,模型方法有并行模型組合pmc方法和在訓(xùn)練中人為加入噪聲。信道畸變包括錄音時(shí)話筒的距離、使用不同靈敏度的話筒、不同增益的前置放大和不同的濾波器設(shè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2《祖父的園子》教學(xué)設(shè)計(jì)-2023-2024學(xué)年語文五年級下冊統(tǒng)編版
- 2025中外合資經(jīng)營企業(yè)合同范本(升級版)
- 東莞市2025年度房地產(chǎn)投資信托基金合同參考范本
- 踏板摩托車座墊行業(yè)深度研究報(bào)告
- 4《買東西的學(xué)問-學(xué)會看包裝》(教學(xué)設(shè)計(jì))統(tǒng)編版道德與法治四年級下冊
- 2025年度二手農(nóng)用三輪車買賣與二手車交易平臺建設(shè)合同
- 什么是周長(教學(xué)設(shè)計(jì))-2024-2025學(xué)年三年級上冊數(shù)學(xué)蘇教版
- 2025年度城市軌道交通承包合同終止協(xié)議書范本
- 開學(xué)第一課第一課時(shí)地理初印象與學(xué)習(xí)內(nèi)容概覽教學(xué)設(shè)計(jì)2024-2025學(xué)年高中地理人教版(2019)必修一
- 2025年度安全門禁系統(tǒng)設(shè)備購銷及維護(hù)服務(wù)合同
- 中國胎兒心臟超聲檢查指南
- 學(xué)校教育中的品牌塑造與校園文化建設(shè)培訓(xùn)課件
- 濟(jì)南廣播電視臺面向社會招聘工作人員筆試參考題庫(共500題)答案詳解版
- 【公司會計(jì)信息化建設(shè)研究文獻(xiàn)綜述2000字】
- 滄州師范學(xué)院學(xué)士學(xué)位論文寫作指南2020版
- 【高中語文】《中國人民站起來了》課件40張+統(tǒng)編版高中語文選擇性必修上冊
- 手機(jī)歸屬地表格
- 項(xiàng)目團(tuán)隊(duì)管理課件
- 《職業(yè)教育》專業(yè)知識考試復(fù)習(xí)題庫及答案
- 江西2023公務(wù)員考試真題及答案
- 財(cái)務(wù)管理實(shí)務(wù)(第二版)高職PPT完整版全套教學(xué)課件
評論
0/150
提交評論