


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、淺析語音識(shí)別技術(shù)摘要:語音識(shí)別最為人機(jī)交互的重要技術(shù),成為人工智能領(lǐng)域研究的重點(diǎn),具 有重要的研究意義跟廣泛的應(yīng)用前景。本文簡(jiǎn)要闡述了語音識(shí)別的發(fā)展、原理、 過程。關(guān)鍵詞:人工交互;人工智能;語音識(shí)別引言:隨著信息技術(shù)的發(fā)展,人機(jī)交互成為新興課題。智能化研究的語音識(shí)別技 術(shù)成為人機(jī)交互必不可少的話題。人工智能領(lǐng)域的深度學(xué)習(xí)使語音識(shí)別技術(shù)更加 精準(zhǔn)可靠。語音識(shí)別技術(shù)不僅可以應(yīng)用到生活領(lǐng)域而且還可以用到軍事領(lǐng)域,從 而提高人們對(duì)信息的處理能力和工作效率1語音識(shí)別技術(shù)的發(fā)展20世紀(jì)50年代,這段時(shí)期以實(shí)現(xiàn)10個(gè)英文數(shù)字的語音識(shí)別為代表,這是 計(jì)算機(jī)語音識(shí)別的開端。20世紀(jì)60年代,取得了階段性建站,
2、解決了語音信號(hào)的提取問題。20世紀(jì)70年代,語音識(shí)別領(lǐng)域取得突破,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和和 DTW技術(shù)的語音識(shí)別系統(tǒng)。20世紀(jì)80年代,語音識(shí)別實(shí)驗(yàn)室階段取得巨大突破,從孤立詞匯到大量詞 匯、非特定人、連續(xù)語音等的改變。同時(shí),語音識(shí)別算法開始從模板匹配技術(shù)轉(zhuǎn) 向基于統(tǒng)計(jì)模型技術(shù),研究從微觀轉(zhuǎn)向宏觀,連理最優(yōu)的語音識(shí)別系統(tǒng)。20世紀(jì)90年代后,人工智能技術(shù)開始應(yīng)用于語音識(shí)別技術(shù),人工智能具有 自適應(yīng)性、魯棒性、學(xué)習(xí)特性等,在參數(shù)優(yōu)化、系統(tǒng)自適應(yīng)方面有了很大的進(jìn)展。 語音識(shí)別技術(shù)進(jìn)一步發(fā)展,開始實(shí)現(xiàn)語音識(shí)別技術(shù)的產(chǎn)品化。2語音識(shí)別概念及原理2.1語音識(shí)別概念語音識(shí)別簡(jiǎn)單來說就是將聲音信號(hào)轉(zhuǎn)化為文
3、字或者指令的過程。輸入語音 輸出識(shí)別結(jié)果。語音識(shí)別設(shè)計(jì)技術(shù)包括:人工智能、數(shù)字信號(hào)處理、概率論和信 息論、聲學(xué)、語言學(xué)、發(fā)聲機(jī)理和聽覺機(jī)理、認(rèn)知科學(xué)等學(xué)科領(lǐng)域技術(shù)。語音識(shí)別設(shè)計(jì)性能指標(biāo):詞匯表范圍:這是指機(jī)器能識(shí)別的單詞或詞組的范圍,如不作任何限制, 則可認(rèn)為詞匯表范圍是無限的。說話人限制:是僅能識(shí)別指定發(fā)話者的語音,還是對(duì)任何發(fā)話人的語音 都能識(shí)別。訓(xùn)練要求:使用前要不要訓(xùn)練,即是否讓機(jī)器先“聽一下給定的語音, 以及訓(xùn)練次數(shù)的多少。正確識(shí)別率:平均正確識(shí)別的百分?jǐn)?shù),它與前面三個(gè)指標(biāo)有關(guān)。2.2語音識(shí)別原理目前,主流的語音識(shí)別系統(tǒng)多采用統(tǒng)計(jì)模式識(shí)別技術(shù)。典型的基于統(tǒng)計(jì)模 式識(shí)別方法的語音識(shí)別系
4、統(tǒng)由以下幾個(gè)基本模塊所構(gòu)成信號(hào)處理及特征提取模塊。該模塊的主要任務(wù)是從輸入信號(hào)中提取特征, 供聲學(xué)模型處理。同時(shí),它一般也包括了一些信號(hào)處理技術(shù),以盡可能降低環(huán)境 噪聲、信道、說話人等因素對(duì)特征造成的影響。統(tǒng)計(jì)聲學(xué)模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進(jìn)行建模。發(fā) 音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實(shí)際提供了聲 學(xué)模型建模單元與語言模型建模單元間的映射。語言模型。語言模型對(duì)系統(tǒng)所針對(duì)的語言進(jìn)行建模。理論上,包括正則 語言,上下文無關(guān)文法在內(nèi)的各種語言模型都可以作為語言模型,但目前各種系 統(tǒng)普遍采用的還是基于統(tǒng)計(jì)的N元文法及其變體。解碼器。解碼器是語音識(shí)別系統(tǒng)的核心之
5、一,其任務(wù)是對(duì)輸入的信號(hào), 根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。3深度學(xué)習(xí)應(yīng)用于語音識(shí)別3.1語音識(shí)別流程3.1.1語音信號(hào)采集語音信號(hào)采集是語音信號(hào)處理的前提。語音通常通過話筒輸入計(jì)算機(jī)。話 筒將聲波轉(zhuǎn)換為電壓信號(hào),然后通過A/D裝置(如聲卡)進(jìn)行采樣,從而將連續(xù) 的電壓信號(hào)轉(zhuǎn)換為計(jì)算機(jī)能夠處理的數(shù)字信號(hào)。3.1.2語音信號(hào)預(yù)處理語音信號(hào)號(hào)在采集后首先要進(jìn)行濾波、A/D變換,預(yù)加重(Preemphasis)和 端點(diǎn)檢測(cè)等預(yù)處理,然后才能進(jìn)入識(shí)別、合成、增強(qiáng)等實(shí)際應(yīng)用。3.1.3語音信號(hào)的特征參數(shù)提取在語音識(shí)別中,常用線性預(yù)測(cè)編碼技術(shù)抽取語音特征。線性預(yù)測(cè)編碼的基本思
6、想是:語音信號(hào)采樣點(diǎn)之間存在相關(guān)性,可用過去的 若干采樣點(diǎn)的線性組合預(yù)測(cè)當(dāng)前和將來的采樣點(diǎn)值。線性琪測(cè)系數(shù)埽以通過使預(yù) 測(cè)信號(hào)和實(shí)際信號(hào)之間的均方誤差最小來唯一確定。語音線性預(yù)測(cè)系數(shù)作為語音信號(hào)的一種特征參數(shù),已經(jīng)廣泛應(yīng)用于語音處 理各個(gè)領(lǐng)域。3.1.4向置量化向量量化(VectorQuantization,VQ)技術(shù)是一種數(shù)據(jù)壓縮和編碼技術(shù)。經(jīng)過向 量量化的特征向量也可以作為后面隱馬爾可夫模型中的輸入觀察符號(hào)。向量量化的基本原理是將若十個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)向量(或者是從一幀語 音數(shù)據(jù)中提取的特征向量)在多維空間給予整體量化,從而可以在信息量損失較 小的情況下壓縮數(shù)據(jù)量。3.1.5語音識(shí)別當(dāng)提取
7、聲音特征集合以后,就可以識(shí)別這些特征所代表的單詞。識(shí)別系統(tǒng) 的輸入是從語音信號(hào)中提取出的特征參數(shù),如LPC預(yù)測(cè)編碼參數(shù),當(dāng)然,單詞對(duì) 應(yīng)于字母序列。語音識(shí)別所采用的方法一般有模板匹配法、隨機(jī)模型法和概率語 法分析法三種。這三種方法都是建立在最大似然決策貝葉斯(Bayes)判決的基礎(chǔ) 上的。(1)模板(template)匹配法在訓(xùn)練階段,用戶將詞匯表中的每一個(gè)詞依次說一遍,并且將其特征向量 作為模板存入模板庫(kù)。在識(shí)別階段,將輸入語音的特征向量序列,依次與模板庫(kù) 中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。(2)隨機(jī)模型法隨機(jī)模型法是目前語音識(shí)別研究的主流。其突出的代表是隱馬爾可夫模型。 隱馬爾可夫模型則用概率統(tǒng)計(jì)的方法來描述這樣一種時(shí)變的過程。概率語法分析法這種方法是用于大長(zhǎng)度范圍的連續(xù)語音識(shí)別。將區(qū)別性特征與來自構(gòu)詞、 句法、語義等語用約束相互結(jié)合,就可以構(gòu)成一個(gè)自底向上或自頂向下的交 互作用的知識(shí)系統(tǒng),不同層次的知識(shí)可以用若干規(guī)則來描述。4結(jié)束語隨著信息技術(shù)的發(fā)展和人們生活水平的提高,語音識(shí)別技術(shù)已經(jīng)成為趨勢(shì)。 伴隨著計(jì)算機(jī)軟硬件的發(fā)展,語音識(shí)別技術(shù)將會(huì)有著質(zhì)的飛躍。參考文獻(xiàn)程建軍.關(guān)于深度學(xué)習(xí)的語
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年軍隊(duì)文職人員招聘之軍隊(duì)文職教育學(xué)題庫(kù)與答案
- 2025年軍隊(duì)文職人員招聘之軍隊(duì)文職管理學(xué)與服務(wù)考試題庫(kù)
- 2021-2022學(xué)年廣東省廣州市白云區(qū)六校七年級(jí)(下)期中數(shù)學(xué)試卷(含答案)
- 企業(yè)級(jí)數(shù)據(jù)安全合規(guī)策略制定服務(wù)協(xié)議
- 網(wǎng)絡(luò)直播平臺(tái)合作項(xiàng)目表
- 四川省成都市武侯區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期期末生物學(xué)試題(含答案)
- 湖南省岳陽(yáng)市岳陽(yáng)縣2024-2025學(xué)年七年級(jí)上學(xué)期期末生物學(xué)試題(含答案)
- 語言學(xué)英語翻譯技能測(cè)試卷
- 濕地松采脂承包合同
- 團(tuán)隊(duì)目標(biāo)與績(jī)效考核表
- 專題17 全等三角形模型之奔馳模型解讀與提分精練(全國(guó))(解析版)
- 【課件】平行線的概念課件人教版(2024)+數(shù)學(xué)七年級(jí)下冊(cè)
- 智能制造能力成熟度模型(-CMMM-)介紹及評(píng)估方法分享
- 臨床康復(fù)??谱o(hù)士主導(dǎo)神經(jīng)重癥患者早期漸進(jìn)式離床活動(dòng)實(shí)踐應(yīng)用
- 《搜索引擎使用方法》課件
- DBJT14-100-2013 外墻外保溫應(yīng)用技術(shù)規(guī)程(改性酚醛泡沫板薄抹灰外墻外保溫系統(tǒng))
- 《兒科補(bǔ)液》課件
- 2024解析:第六章質(zhì)量和密度-講核心(解析版)
- 基爾霍夫定律課件(共17張課件)
- 形勢(shì)與政策(貴州財(cái)經(jīng)大學(xué))知到智慧樹章節(jié)答案
- 管道自動(dòng)焊培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論