![智能信息感知技術(shù) 課件 第七章 智能語音傳感技術(shù)_第1頁](http://file4.renrendoc.com/view4/M00/3D/01/wKhkGGah1YaALZJzAACfTJHC3Ec754.jpg)
![智能信息感知技術(shù) 課件 第七章 智能語音傳感技術(shù)_第2頁](http://file4.renrendoc.com/view4/M00/3D/01/wKhkGGah1YaALZJzAACfTJHC3Ec7542.jpg)
![智能信息感知技術(shù) 課件 第七章 智能語音傳感技術(shù)_第3頁](http://file4.renrendoc.com/view4/M00/3D/01/wKhkGGah1YaALZJzAACfTJHC3Ec7543.jpg)
![智能信息感知技術(shù) 課件 第七章 智能語音傳感技術(shù)_第4頁](http://file4.renrendoc.com/view4/M00/3D/01/wKhkGGah1YaALZJzAACfTJHC3Ec7544.jpg)
![智能信息感知技術(shù) 課件 第七章 智能語音傳感技術(shù)_第5頁](http://file4.renrendoc.com/view4/M00/3D/01/wKhkGGah1YaALZJzAACfTJHC3Ec7545.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
智能傳感技術(shù)——第七章
智能語音傳感技術(shù)目 錄27.1
智能語音傳感技術(shù)基礎(chǔ)常見的智能語音傳感技術(shù)智能語音數(shù)據(jù)處理技術(shù)智能語音傳感技術(shù)典型應(yīng)用7.1
智能語音傳感技術(shù)基礎(chǔ)7.1.1
傳統(tǒng)語音傳感器技術(shù)聲音是空氣或其他介質(zhì)的波動(dòng),是物體的撞擊、摩擦、運(yùn)動(dòng)產(chǎn)生的振動(dòng)以波的形式向外傳播的。根據(jù)物體振動(dòng)所產(chǎn)生波的頻率高低,分為聲波和超聲波。超聲波20k
Hz聲波3聲音傳感器是一種可以檢測(cè)、測(cè)量并顯示聲音波形的傳感器。7.1
智能語音傳感技術(shù)基礎(chǔ)7.1.1
傳統(tǒng)語音傳感器技術(shù)聲音傳感器(話筒、麥克風(fēng)),根據(jù)聲波引起的物體振動(dòng)(比如振動(dòng)膜)將其轉(zhuǎn)化為電信號(hào),從而實(shí)現(xiàn)聲波的檢測(cè)。純壓力式話筒速率式話簡(jiǎn)混合式話筒全方向性(振動(dòng)膜兩側(cè)開放)一定方向性(振動(dòng)膜單側(cè)開放)結(jié)構(gòu)分類47.1
智能語音傳感技術(shù)基礎(chǔ)7.1.1
傳統(tǒng)語音傳感器技術(shù)常用聲音傳感器原理介紹變磁阻式話筒5聲波使振動(dòng)膜發(fā)生振動(dòng),導(dǎo)致銜鐵在兩磁極之間運(yùn)動(dòng),銜鐵的運(yùn)動(dòng)將改變回路中的磁通,從而使磁鐵上纏繞的線圈產(chǎn)生感應(yīng)電壓。如果氣隙和銜鐵的形狀設(shè)計(jì)合理,則輸出感應(yīng)電壓具有很好的線性特性。7.1
智能語音傳感技術(shù)基礎(chǔ)7.1.1
傳統(tǒng)語音傳感器技術(shù)動(dòng)圈式話筒動(dòng)圈式話筒是一種更加專業(yè)的話筒,它將振動(dòng)膜和線圈整合在一條窄金屬條中,并放置在卡形磁鐵的兩個(gè)磁極之間。其輸出電壓和阻抗都很低,一般這種話筒都內(nèi)建變壓器或前置放大器。動(dòng)圈式話簡(jiǎn)具有很好的方向性,廣泛應(yīng)用于嘈雜場(chǎng)合的廣播系統(tǒng)中67.1
智能語音傳感技術(shù)基礎(chǔ)7.1.1
傳統(tǒng)語音傳感器技術(shù)駐極體話筒駐極體話筒是一種電容式聲音傳感器。駐極體相當(dāng)于永磁體,其中存在永久的靜電荷。話筒主要由一塊駐極體材料(一側(cè)鍍金屬膜用于連接引線)和單獨(dú)的振動(dòng)膜構(gòu)成。駐極體話筒具有體積小、結(jié)構(gòu)簡(jiǎn)單、電聲性能好、價(jià)格低的特點(diǎn),廣泛用于盒式錄音機(jī)、無線話筒及聲控等電路中。77.1
智能語音傳感技術(shù)基礎(chǔ)87.1.1
傳統(tǒng)語音傳感器技術(shù)壓電陶瓷片話筒壓電陶瓷片話筒是利用壓電陶瓷作為壓力敏感元件,進(jìn)行壓電轉(zhuǎn)換,實(shí)現(xiàn)對(duì)聲波振動(dòng)的感知。壓電陶瓷是一種人工合成材料,收到外界壓力時(shí)可以在兩面產(chǎn)生電荷,電荷量與壓力成正比。壓電陶瓷片的壓電效應(yīng)是可逆流的,在壓電陶瓷片上多加一個(gè)交變的電場(chǎng),陶瓷片就會(huì)時(shí)而變薄時(shí)而加厚,還會(huì)產(chǎn)生振動(dòng)以及發(fā)射聲波(壓電陶瓷蜂鳴器)。7.1
智能語音傳感技術(shù)基礎(chǔ)7.1.1
傳統(tǒng)語音傳感器技術(shù)硅微傳聲器(MEMS)微機(jī)電系統(tǒng)(MEMS,
Micro-Electro-Mechanical
System)MEMS麥克風(fēng)是利用硅薄膜來檢測(cè)聲壓的,MEMS麥克風(fēng)能夠在芯片上集成一個(gè)模數(shù)轉(zhuǎn)換器,形成具有數(shù)字輸出的麥克風(fēng)。MEMS麥克風(fēng)具有半導(dǎo)體產(chǎn)品的種種優(yōu)點(diǎn),最為重要的一個(gè)特性是,MEMS麥克風(fēng)容易實(shí)現(xiàn)數(shù)字化,從而削除了傳輸噪音。目前主要應(yīng)用在手機(jī)中,
數(shù)碼相機(jī)、MP3播放器和PDA、耳機(jī)和助聽器等領(lǐng)域也正在從駐極體式麥克風(fēng)向MEMS過渡。97.1
智能語音傳感技術(shù)基礎(chǔ)7.1.1
傳統(tǒng)語音傳感器技術(shù)主要技術(shù)指標(biāo)聲音傳感器的技術(shù)指標(biāo)主要包括:靈敏度、頻率響應(yīng)、動(dòng)態(tài)范圍、指向性、重復(fù)性和何尺寸等。駐極體聲音傳感器的靈敏度有自由場(chǎng)靈敏度、聲壓靈敏度和擴(kuò)散場(chǎng)靈敏度之分。(1)自由場(chǎng)靈敏度是聲音傳感器輸出端的開路電壓和置人前所在處的自由聲場(chǎng)聲壓之比。(2)聲壓靈敏度采用的是作用在聲音傳感器膜片上的實(shí)際電壓,同一個(gè)聲音傳感器,聲壓靈敏度小于自由場(chǎng)靈敏度,且在高頻時(shí)下降明顯。(3)擴(kuò)散場(chǎng)靈敏度則是指聲音傳感器受到來自各不同方向,無規(guī)則場(chǎng)聲壓的均勻激勵(lì),其輸出與聲音傳感器所處的方位無關(guān)。107.1
智能語音傳感技術(shù)基礎(chǔ)7.1.2
智能語音傳感技術(shù)智能語音傳感技術(shù)系統(tǒng)在傳統(tǒng)的聲音傳感器的基礎(chǔ)上加入智能語音處理的相關(guān)技術(shù),實(shí)現(xiàn)的功能不僅僅是將語音捕捉下來,而是感知到語音中包含的有用信息并將其應(yīng)用于實(shí)際問題。117.1
智能語音傳感技術(shù)基礎(chǔ)7.1.2
智能語音傳感技術(shù)127.1
智能語音傳感技術(shù)基礎(chǔ)137.1.2
智能語音傳感技術(shù)(1)語音信號(hào)采集:通過聲音傳感器捕獲語音信號(hào),輸入后端的處理器中。此時(shí),獲得的語音信號(hào)為模擬信號(hào),需要在下一階段進(jìn)行必要的處理,才能進(jìn)行進(jìn)一步的智能分析。(2)語音預(yù)處理:初步獲取的語音信號(hào)是連續(xù)的時(shí)序信號(hào),其中可能包括采集過程中引入的噪聲,并且連續(xù)信號(hào)不方便我們進(jìn)行后續(xù)的數(shù)字化處理過程。因此,在智能語音分析之前必須對(duì)采集的語音信號(hào)進(jìn)行預(yù)處理步驟,其中主要包含:預(yù)加重處理、加窗分幀處理、端點(diǎn)檢測(cè)等。7.1
智能語音傳感技術(shù)基礎(chǔ)7.1.2
智能語音傳感技術(shù)預(yù)加重處理
:信號(hào)傳輸線表現(xiàn)出來的是低通濾波特性,傳輸過程中信號(hào)的高頻成分衰減大,低頻成分衰減少。預(yù)加重技術(shù)的思想就是在傳輸線的始端增強(qiáng)信號(hào)的高頻成分,以補(bǔ)償高頻分量在傳輸過程中的過大衰減。我們知道,信號(hào)頻率的高低主要是由信號(hào)電平變化的速度決定的,所以信號(hào)的高頻分量主要出現(xiàn)在信號(hào)的上升沿和下降沿處,預(yù)加重技術(shù)就是增強(qiáng)信號(hào)上升沿和下降沿處的幅度。為了消除發(fā)聲過程中,聲帶和嘴唇造成的效應(yīng),來補(bǔ)償語音信號(hào)受到發(fā)音系統(tǒng)所壓抑的高頻部分,并且能凸顯高頻的共振峰。預(yù)加重處理一般通過加高通濾波實(shí)現(xiàn)。147.1
智能語音傳感技術(shù)基礎(chǔ)157.1.2
智能語音傳感技術(shù)加窗分幀:傅里葉變換要求輸入的信號(hào)是平穩(wěn)的,語音信號(hào)在宏觀上是不平穩(wěn)的,在微觀上是平穩(wěn)的,這就可以把語音信號(hào)分為一些短段來進(jìn)行處理,每一個(gè)短段稱為一幀。分幀可通過可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法實(shí)現(xiàn)。每一個(gè)短時(shí)語音幀看成平穩(wěn)的隨機(jī)信號(hào),利用數(shù)字信號(hào)處理技術(shù)來提取語音特征參數(shù)。在進(jìn)行處理時(shí),按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取下一幀,最后得到由每一幀參數(shù)組成的語音特征參數(shù)的時(shí)間序列。7.1
智能語音傳感技術(shù)基礎(chǔ)167.1.2
智能語音傳感技術(shù)不同的窗函數(shù)在頻域的響應(yīng)的不同對(duì)導(dǎo)致處理信號(hào)頻譜時(shí)也不近相同,常用的有矩形窗、漢明窗、漢寧窗等。窗函數(shù)的選擇會(huì)對(duì)語音信號(hào)的頻譜的泄露產(chǎn)生不同的影響,也會(huì)對(duì)后面的特征提取的參數(shù)的保真性有很大影響。選擇的窗函數(shù)盡可能滿足減少語音信號(hào)的頻譜側(cè)漏,而頻譜的泄漏取決于窗函數(shù)頻譜兩側(cè)主瓣和旁瓣。7.1
智能語音傳感技術(shù)基礎(chǔ)7.1.2
智能語音傳感技術(shù)端點(diǎn)檢測(cè)(語音活動(dòng)檢測(cè))
:一段語音信號(hào)可以分為無聲段(包含背景噪聲)和語音段(包含清音和濁音)。端點(diǎn)檢測(cè)的目的是檢測(cè)出一段語音信號(hào)的起點(diǎn)和終點(diǎn),去掉靜音的部分,去掉噪聲的部分,找到一段語音真正有效的內(nèi)容。177.1
智能語音傳感技術(shù)基礎(chǔ)187.1.2
智能語音傳感技術(shù)基于閾值的方法:通過提取時(shí)域(短時(shí)能量、短期過零率等)或頻域(MFCC、譜熵等)特征,通過合理的設(shè)置門限,達(dá)到區(qū)分語音和非語音的目的。
端點(diǎn)檢測(cè),
也叫語音活動(dòng)檢測(cè),
Voice
ActivityDetection,這是傳統(tǒng)的
VAD
方法VAD,它的目的是對(duì)語音和非語音的區(qū)域進(jìn)行區(qū)分。通俗來理解,端點(diǎn)檢測(cè)就是為了從帶有噪聲的語音中準(zhǔn)確的定位出語音的開始點(diǎn),和結(jié)束點(diǎn),去掉靜音的部分,去掉噪聲的部分。7.1
智能語音傳感技術(shù)基礎(chǔ)197.1.2
智能語音傳感技術(shù)基于分類模型的方法:可以將語音檢測(cè)視作語音/非語音的兩分類問題,進(jìn)而用機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,達(dá)到檢測(cè)語音的目的?;诼晫W(xué)模型的方法:可以利用一個(gè)完整的聲學(xué)模型(建模單元的粒度可以很粗),在解碼的基礎(chǔ),通過全局信息,判別語音段和非語音段。7.1
智能語音傳感技術(shù)基礎(chǔ)7.1.2
智能語音傳感技術(shù)語音增強(qiáng):較強(qiáng)的噪聲會(huì)嚴(yán)重影響語音信號(hào)的質(zhì)量,對(duì)語音信號(hào)的特征提取帶來較大誤差,所以在預(yù)處理階段會(huì)對(duì)語音信號(hào)進(jìn)行增強(qiáng)。常用方法有譜減法、維納濾波法、小波去噪法、子空間法等。207.1
智能語音傳感技術(shù)基礎(chǔ)217.1.2
智能語音傳感技術(shù)語音增強(qiáng):譜減法顧名思義,譜減法,就是用帶噪信號(hào)的頻譜減去噪聲信號(hào)的頻譜。譜減法基于一個(gè)簡(jiǎn)單的假設(shè):假設(shè)語音中的噪聲只有加性噪聲,只要將帶噪語音譜減去噪聲譜,就可以得到純凈語音,這么做的前提是噪聲信號(hào)是平穩(wěn)的或者緩慢變化的。提出這個(gè)假設(shè)就是基于短時(shí)譜(25ms),就是頻譜在短時(shí)間內(nèi)是平穩(wěn)不變的。維納濾波法Wiener濾波是第二次世界大戰(zhàn)中,為了解決火力控制系統(tǒng)精確跟蹤問題,Wiener相繼提出了平穩(wěn)隨機(jī)過程的最優(yōu)線性濾波理論,首次將數(shù)理統(tǒng)計(jì)知識(shí)和線性系統(tǒng)理論聯(lián)系起來,形成了對(duì)隨機(jī)信號(hào)作平滑,濾波和預(yù)測(cè)的最新估計(jì)理論。在此后的發(fā)展中,Wiener濾波被應(yīng)用于更多的領(lǐng)域,并沿用至今。7.1
智能語音傳感技術(shù)基礎(chǔ)7.1.2
智能語音傳感技術(shù)語音增強(qiáng):小波去噪法在數(shù)學(xué)上,小波去噪問題的本質(zhì)是一個(gè)函數(shù)逼近問題,即如何在由小波母函數(shù)伸縮和平移版本所展成的函數(shù)空間中,根據(jù)提出的衡量準(zhǔn)則,尋找對(duì)原信號(hào)的最佳逼近,以完成原信號(hào)和噪聲信號(hào)的區(qū)分。
也就是尋找從實(shí)際信號(hào)空間到小波函數(shù)空間的最佳映射,以便得到原信號(hào)的最佳恢復(fù)。從信號(hào)學(xué)的角度看,小波去噪是一個(gè)信號(hào)濾波的問題,而且盡管在很大程度上小波去噪可以看成是低通濾波,但是由于在去噪后還能成功地保留信號(hào)特征,所以在這一點(diǎn)上又優(yōu)于傳統(tǒng)的低通濾波器。由此可見,小波去噪實(shí)際上是特征提取和低通濾波功能的綜合,其流程框圖如圖所示。227.1
智能語音傳感技術(shù)基礎(chǔ)237.1.2
智能語音傳感技術(shù)語音增強(qiáng):子空間法子空間法是先對(duì)每個(gè)麥克風(fēng)陣元的信號(hào)使用單通道子空間或利用輸入信號(hào)的相關(guān)矩陣子空間構(gòu)建信號(hào)子空間,然后采用固定波束形成或自適應(yīng)波束形成實(shí)現(xiàn)語音增強(qiáng)。這種算法分別由Hansen和Asano于1997年提出,并在之后的幾年里被其他學(xué)者不斷完善,比如Doclo等提出的基于廣義奇異值分解的波束形成法。 子空間法最大的缺點(diǎn)是計(jì)算復(fù)雜度太大,難于實(shí)時(shí)應(yīng)用于數(shù)字信號(hào)處理。7.1
智能語音傳感技術(shù)基礎(chǔ)247.1.2
智能語音傳感技術(shù)(3)智能語音分析:廣義上來講智能語音技術(shù)有各種各樣的定義,一般來說有語音識(shí)別、聲紋識(shí)別、語音合成和智能翻譯等。語音識(shí)別:通過特征提取得到的聲學(xué)模型,在搜索空間中與詞典或語言模型進(jìn)行匹配。聲紋識(shí)別:通過聲音來做對(duì)人的識(shí)別和認(rèn)證,應(yīng)用于需要人的發(fā)聲媒介來控制命令的場(chǎng)景。語音合成:把文字轉(zhuǎn)化成擬人化的聲音,完成人機(jī)語音交互的閉環(huán),滿足多種場(chǎng)景對(duì)不同聲音的需求。智能翻譯:通過分析句子語法和結(jié)構(gòu),以及單詞和詞組進(jìn)行翻譯工作。7.1
智能語音傳感技術(shù)基礎(chǔ)7.1.2
智能語音傳感技術(shù)(4)系統(tǒng)輸出: 將結(jié)果輸出到各個(gè)應(yīng)用終端,來實(shí)現(xiàn)諸多功能。257.2
常見的智能語音傳感技術(shù)267.2.1
智能語音問答系統(tǒng)智能語音問答系統(tǒng)綜合運(yùn)用了知識(shí)表示、信息檢索、自然語言處理等技術(shù)。智能語音問答系統(tǒng)能夠使用戶以自然語言提問的形式而不是關(guān)鍵詞的組合,提出信息查詢需求,系統(tǒng)依據(jù)對(duì)問題進(jìn)行分析,從各種數(shù)據(jù)資源中自動(dòng)找出準(zhǔn)確的答案
這里加入概述性的描述性文字(總述功能及應(yīng)用)從系統(tǒng)功能上講,智能語音問答系統(tǒng)分為開放域自動(dòng)問答和限定域自動(dòng)問答。7.2
常見的智能語音傳感技術(shù)7.2.1
智能語音問答系統(tǒng)智能語音問答系統(tǒng)總體架構(gòu)277.2
常見的智能語音傳感技術(shù)7.2.1
智能語音問答系統(tǒng)語音識(shí)別功能模塊構(gòu)建流程287.2
常見的智能語音傳感技術(shù)系統(tǒng)終端7.2.1
智能語音問答系統(tǒng)語義理解功能模塊構(gòu)建方法語義理解主要提供一種問答句式解析功能,能夠?qū)⒄Z音識(shí)別模塊生成的文本信息與語義模板進(jìn)行匹配,得到使用者關(guān)心的重要信息。語義模型語義標(biāo)注+語義預(yù)測(cè)系統(tǒng)終端語義PK語義信息關(guān)鍵詞及類型297.2
常見的智能語音傳感技術(shù)關(guān)鍵詞信息關(guān)鍵詞類型數(shù)據(jù)庫界面展示實(shí)體關(guān)鍵詞實(shí)體關(guān)鍵詞7.2.1
智能語音問答系統(tǒng)關(guān)鍵詞檢索功能模塊構(gòu)建方法關(guān)鍵詞檢索功能主要是將從語義理解模塊獲得的關(guān)鍵詞信息及其類型對(duì)應(yīng)到具體的實(shí)體及其關(guān)系的名稱,并與對(duì)應(yīng)的實(shí)體模型相匹配,最后到數(shù)據(jù)庫中查詢并展示相應(yīng)的信息。307.2
常見的智能語音傳感技術(shù)7.2.2
智能語音情感分析系統(tǒng)智能語音情感分析是人機(jī)交互中的重要研究領(lǐng)域,能使機(jī)器理解人類的情感狀態(tài),增強(qiáng)人機(jī)交互過程中的準(zhǔn)確性及舒適性。如何理解語音中的情感因素?如何通過語音表達(dá)不同情感?317.2
常見的智能語音傳感技術(shù)327.2.2
智能語音情感分析系統(tǒng)智能語音情感分析方法類別直接利用語音特征進(jìn)行情感分析常用語音特征包括能量、音高、過零率、共振峰、語譜圖、梅爾倒譜系數(shù)等。將語音轉(zhuǎn)換為文本進(jìn)行情感分析語音+文本進(jìn)行情感分析7.2
常見的智能語音傳感技術(shù)7.2.2
智能語音情感分析系統(tǒng)(1)建立情感分析語料庫(問題導(dǎo)向)(2)基于情感分析語料庫訓(xùn)練模型(svm、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)模型、決策樹等)(3)
利用模型對(duì)語音數(shù)據(jù)進(jìn)行情感分析語音資料數(shù)據(jù)清洗語音情感特征提取文本情感特征提取語音文本轉(zhuǎn)換情感分類模型情感分析結(jié)果337.2
常見的智能語音傳感技術(shù)347.2.2
智能語音情感分析系統(tǒng)智能語音情感分析系統(tǒng)“青鸞”——中國(guó)移動(dòng)“青鸞”系統(tǒng)基于海量熱線語音數(shù)據(jù)進(jìn)行智能情感分析,輸出關(guān)鍵標(biāo)簽和結(jié)構(gòu)化情感分類,生成個(gè)性化語音理解分析報(bào)告,提供語音結(jié)構(gòu)化檢索、情感語義理解、認(rèn)知方案生成、業(yè)務(wù)運(yùn)營(yíng)決策輔助等能力,面向分析、推薦、維系、預(yù)測(cè)四大類場(chǎng)景進(jìn)行應(yīng)用,并通過數(shù)據(jù)可視化運(yùn)營(yíng)分析界面方式進(jìn)行展示。精益運(yùn)營(yíng)潛在客戶挖掘、推薦解釋感知監(jiān)控面向無線和家寬場(chǎng)景,實(shí)現(xiàn)智能評(píng)測(cè)預(yù)警和效果跟蹤主要實(shí)現(xiàn)功能滿意度提升從資費(fèi)、無線、寬帶各方面來進(jìn)行滿意度精確調(diào)查用戶體驗(yàn)分析綜合語音分析、文本分析、準(zhǔn)確獲得用戶體驗(yàn)信息7.2
常見的智能語音傳感技術(shù)7.2.3
智能語音控制系統(tǒng)智能語音控制系統(tǒng)在目前很多場(chǎng)景中被應(yīng)用,例如智能駕駛、智能家居、智能機(jī)器人控制等。執(zhí)語 指 指 行音
令
令
相輸 抽 匹 應(yīng)入 取 配 操作357.2
常見的智能語音傳感技術(shù)7.2.3
智能語音控制系統(tǒng)福特領(lǐng)界語音控制功能實(shí)測(cè)小度音箱+智能家居367.3
智能語音數(shù)據(jù)處理技術(shù)377.3.1
語音特征提取語音特征提取的目的是提取語音信號(hào)中能代表語音特征的信息,減少語音識(shí)別時(shí)所要處理的數(shù)據(jù)量。特征提取是語音信號(hào)處理的前提和基礎(chǔ),只有分析出可以代表語音信號(hào)本質(zhì)特征的參數(shù),才能對(duì)這些參數(shù)進(jìn)行高效的語音通信、語音合成和語音識(shí)別等處理,并且語音合成的好壞語音識(shí)別率的高低,也都取決于語音特征提取的準(zhǔn)確性和魯棒性。7.3
智能語音數(shù)據(jù)處理技術(shù)387.3.1
語音特征提取目前流行的語音學(xué)特征提取方法主要有兩類:1)采用傳統(tǒng)特征,從原始音頻文件中提取信號(hào)特征,捕獲最原始的不同類型的聲學(xué)特征,從而判定該特征所屬的語音學(xué)任務(wù)類型;2)將傳統(tǒng)特征與深度學(xué)習(xí)模型相融合, 在交叉領(lǐng)域中突出特征的重點(diǎn),由于不同任務(wù)的側(cè)重點(diǎn)不同,融合的方式體現(xiàn)出了多樣化、個(gè)性化的特點(diǎn)。7.3
智能語音數(shù)據(jù)處理技術(shù)7.3.1
語音特征提取常見聲學(xué)特征39頻譜類特征MFCC(一階差分和二階差分的MFCC參數(shù)組)MFCC:
/xmdxcsj/article/details/51228791線性預(yù)測(cè)倒譜系數(shù)(LPCC)梅爾刻度濾波器組過濾(logMel)……7.3
智能語音數(shù)據(jù)處理技術(shù)7.3.1
語音特征提取基于深度學(xué)習(xí)的語音特征提取深度學(xué)習(xí)方法可以從不同層次的輸入中學(xué)習(xí)有效的語音信號(hào)的非線性表現(xiàn)形式,目前已經(jīng)被廣泛應(yīng)用于聲紋識(shí)別、語音識(shí)別和情感識(shí)別。407.3
智能語音數(shù)據(jù)處理技術(shù)417.3.2
語音增強(qiáng)語音增強(qiáng)是指當(dāng)語音信號(hào)被各種各樣的噪聲干擾、甚至淹沒后,從噪聲背景中提取有用的語音信號(hào),抑制、降低噪聲干擾的技術(shù)。語音增強(qiáng)涉及的應(yīng)用領(lǐng)域十分廣泛,包括語音通話、電話會(huì)議、場(chǎng)景錄音、軍事竊聽、助聽器設(shè)備和語音識(shí)別設(shè)備等語音增強(qiáng)方法的分類按照其運(yùn)用方法的不同可以分成兩大類:數(shù)字信號(hào)處理的語音增強(qiáng)方法和基于機(jī)器學(xué)習(xí)的語音增強(qiáng)方法按照其通道數(shù)目的不同可以劃分為:?jiǎn)瓮ǖ勒Z音增強(qiáng)方法和麥克風(fēng)陣列的語音增強(qiáng)方法7.3
智能語音數(shù)據(jù)處理技術(shù)7.3.2
語音增強(qiáng)427.3
智能語音數(shù)據(jù)處理技術(shù)7.3.2
語音增強(qiáng)麥克風(fēng)陣列的語音增強(qiáng)由于利用了更多的麥克風(fēng),考慮了信號(hào)的空間信息,因此在抑制特定方向的干擾、進(jìn)行語音分離等方面,比單通道的語音增強(qiáng)更有優(yōu)勢(shì)。主流的麥克風(fēng)陣列方法有:固定波束形成的方法和自適應(yīng)波束形成的方法。437.3
智能語音數(shù)據(jù)處理技術(shù)7.3.2
語音增強(qiáng)基于掩碼的深度學(xué)習(xí)法447.3
智能語音數(shù)據(jù)處理技術(shù)7.3.3
語音識(shí)別語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的一種技術(shù)。457.3
智能語音數(shù)據(jù)處理技術(shù)467.3.3
語音識(shí)別20世紀(jì)50年代,AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。60年代末70年代初,語音信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,解決了語音信號(hào)的特征提取和不等長(zhǎng)匹配問題。(主要模板匹配法)20世紀(jì)80年代末,突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語音識(shí)別系統(tǒng)。(統(tǒng)計(jì)模型及神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用于語音識(shí)別)7.3
智能語音數(shù)據(jù)處理技術(shù)477.3.3
語音識(shí)別20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對(duì)語音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。IBM公司推出的ViaVoiceDragonSystem公司的NaturallySpeakingNuance公司的NuanceVoicePlatform語音平臺(tái)Microsoft的Whisper,Sun的VoiceTone等語音識(shí)別技術(shù)前世今生7.3
智能語音數(shù)據(jù)處理技術(shù)487.3.3
語音識(shí)別我國(guó)語音識(shí)別研究工作起步于五十年代,但近年來發(fā)展很快。目前,我國(guó)語音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,在漢語語音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國(guó)科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。2002年,“天語”中文語音系列產(chǎn)品——PattekASR,結(jié)束了中文語音識(shí)別產(chǎn)品被外國(guó)公司壟斷的歷史。7.3
智能語音數(shù)據(jù)處理技術(shù)497.3.3
語音識(shí)別語音識(shí)別技術(shù)分類按詞匯量大小,可以分為小詞表、中詞表和大詞表以及無限詞匯量語音識(shí)別;按發(fā)音方式,有孤立詞、連接詞和連續(xù)語音的語音識(shí)別;按說話人適應(yīng)范圍,有特定說話人、限定人和非特定說話人的語音識(shí)別;按照任務(wù)的不同:說話人識(shí)別、關(guān)鍵詞檢出、語音辨識(shí),和連續(xù)語音識(shí)別。7.3
智能語音數(shù)據(jù)處理技術(shù)507.3.3
語音識(shí)別常用語音識(shí)別的方法有三種:基于語音學(xué)和聲學(xué)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。(1)基于語音學(xué)和聲學(xué)的方法在語音識(shí)別技術(shù)提出開始就有了這方面的研究,但由于其模型及語音知識(shí)過于復(fù)雜,現(xiàn)階段沒有達(dá)到實(shí)用的階段。① 分段和標(biāo)號(hào),把語音信號(hào)按時(shí)間分成離散的段,每段對(duì)應(yīng)一個(gè)或幾個(gè)語音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對(duì)每個(gè)分段給出相近的語音標(biāo)號(hào)。② 得到詞序列,根據(jù)第一步所得語音標(biāo)號(hào)序列得到一個(gè)語音基元網(wǎng)格,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時(shí)進(jìn)行。7.3
智能語音數(shù)據(jù)處理技術(shù)517.3.3
語音識(shí)別(2)模板匹配的方法模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實(shí)用階段。在模板匹配方法中,要經(jīng)過四個(gè)步驟:特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。動(dòng)態(tài)時(shí)間規(guī)整(DTW)把未知量均勻的升長(zhǎng)或縮短,直到與參考模式的長(zhǎng)度一致。在這一過程中,未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以使其特征與模型特征對(duì)正。7.3
智能語音數(shù)據(jù)處理技術(shù)527.3.3
語音識(shí)別隱馬爾可夫法(HMM)HMM方法現(xiàn)已成為語音識(shí)別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于HMM模型的。HMM是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測(cè)的。7.3
智能語音數(shù)據(jù)處理技術(shù)537.3.3
語音識(shí)別矢量量化(VQ)與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識(shí)別中。將語音信號(hào)波形的k個(gè)樣點(diǎn)的每一幀,或有k個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個(gè)矢量,然后對(duì)矢量進(jìn)行量化。量化時(shí),將k維無限空間劃分為M個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。其中最關(guān)鍵的就是設(shè)計(jì)矢量量化器。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書。7.3
智能語音數(shù)據(jù)處理技術(shù)547.3.3
語音識(shí)別(3)神經(jīng)網(wǎng)絡(luò)的方法利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語音識(shí)別方法。深度學(xué)習(xí)最早應(yīng)用于語音識(shí)別問題時(shí)的作用是替代GMM-HMM框架中的高斯混合模型,負(fù)責(zé)聲學(xué)模型的建模,即DNN-HMM結(jié)構(gòu)。在這種結(jié)構(gòu)里,深層神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)計(jì)算音頻幀屬于某一聲學(xué)狀態(tài)的概率或者是提取出聲音的特征,其余的部分和GMM-HMM結(jié)構(gòu)相同。目前,常用于語音識(shí)別的深度學(xué)習(xí)模型有自動(dòng)編碼器(
Auto-encoder,AE)
、深度神經(jīng)網(wǎng)絡(luò)(
Deep
Neural
Network,DNN)
、卷積神經(jīng)網(wǎng)絡(luò)(
Convolutional
Neural
Network,CNN)
和遞歸神經(jīng)網(wǎng)絡(luò)(
Recurrent
Neural
Network,RNN)
等。7.3
智能語音數(shù)據(jù)處理技術(shù)7.3.3
語音識(shí)別CTC(Connectionisttemporal
classification)CTC模型常與深度學(xué)習(xí)結(jié)合進(jìn)行端到端的語音識(shí)別。傳統(tǒng)的語音識(shí)別的聲學(xué)模型訓(xùn)練,對(duì)于每一幀的數(shù)據(jù),需要知道對(duì)應(yīng)的label才能進(jìn)行有效的訓(xùn)練,在訓(xùn)練數(shù)據(jù)之前需要做語音對(duì)齊的預(yù)處理。采用CTC作為損失函數(shù)的聲學(xué)模型訓(xùn)練,是一種完全端到端的聲學(xué)模型訓(xùn)練,不需要預(yù)先對(duì)數(shù)據(jù)做對(duì)齊,只需要一個(gè)輸入序列和一個(gè)輸出序列即可以訓(xùn)練,并直接輸出序列預(yù)測(cè)的概率,不需要外部的后處理。557.3
智能語音數(shù)據(jù)處理技術(shù)7.3.4
聲紋識(shí)別56每個(gè)人的語音聲學(xué)特征既有相對(duì)穩(wěn)定性,又有變異性,不是絕對(duì)的、一成不變的。聲紋識(shí)別的優(yōu)點(diǎn):易采集非接觸式聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低準(zhǔn)確度高。聲紋識(shí)別(VoiceprintRecognition,
VPR),也稱為說話人識(shí)別(Speaker
Recognition)。包括說話人辨認(rèn)(Speaker
Identification)
和說話人確認(rèn)(Speaker
Verification)。聲紋(Voiceprint),是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜,是由波長(zhǎng)、頻率以及強(qiáng)度等百余種特征維度組成的生物特征,具有穩(wěn)定性、可測(cè)量性、唯一性等特點(diǎn)。7.3
智能語音數(shù)據(jù)處理技術(shù)577.3.4
聲紋識(shí)別兩個(gè)人的聲紋圖譜的差異性主要體現(xiàn)在如下方面:共鳴方式特征:咽腔共鳴、鼻腔共鳴和口腔共鳴嗓音純度特征:不同人的嗓音,純度一般是不一樣的,粗略地可分為高純度(明亮)、低純度(沙?。┖椭械燃兌热齻€(gè)等級(jí)平均音高特征:平均音高的高低就是一般所說的嗓音是高亢還是低沉音域特征:音域的高低就是通常所說的聲音飽滿還是干癟不同人的聲音在語譜圖中共振峰的分布情況不同,聲紋識(shí)別正是通過比對(duì)兩段語音的說話人在相同音素上的發(fā)聲來判斷是否為同一個(gè)人,從而實(shí)現(xiàn)“聞聲識(shí)人”的功能。7.3
智能語音數(shù)據(jù)處理技術(shù)7.3.4
聲紋識(shí)別587.3
智能語音數(shù)據(jù)處理技術(shù)597.3.4
聲紋識(shí)別聲紋識(shí)別系統(tǒng)根據(jù)是否規(guī)定輸入語音文本可以分為:文本相關(guān)的(Text-Dependent)和文本無關(guān)的(Text-Independent)兩種。文本相關(guān)聲紋識(shí)別系統(tǒng):要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無法正確識(shí)別該用戶。文本無關(guān)的聲紋識(shí)別系統(tǒng):不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便,可應(yīng)用范圍較寬。7.3
智能語音數(shù)據(jù)處理技術(shù)607.3.4
聲紋識(shí)別典
型
的
聲
紋
識(shí)
別
模
型
可
以
分
為
兩
種
:
template model
和stochastic
model,即模板模型和隨機(jī)模型(非參數(shù)模型和參數(shù)模型)。模板模型(非參數(shù)模型)將訓(xùn)練特征參數(shù)和測(cè)試的特征參數(shù)進(jìn)行比較,兩者之間的失真(
distortion
)
作為相似度。
例如VQ
(
Vectorquantization矢量量化)模型和動(dòng)態(tài)時(shí)間規(guī)整法DTW(dynamic
timewarping)模型。隨機(jī)模型(參數(shù)模型)用一個(gè)概率密度函數(shù)來模擬說話人,訓(xùn)練過程用于預(yù)測(cè)概率密度函數(shù)的參數(shù),匹配過程通過計(jì)算相應(yīng)模型的測(cè)試語句的相似度來完成。例如(GMM和HMM)高斯混合模型和隱馬爾科夫模型。7.3
智能語音數(shù)據(jù)處理技術(shù)617.3.5
語音情感識(shí)別自動(dòng)語音情感識(shí)別則是計(jì)算機(jī)對(duì)人類上述情感感知和理解過程的模擬,它的任務(wù)就是從采集到的語音信號(hào)中提取表達(dá)情感的聲學(xué)特征,并找出這些聲學(xué)特征與人類情感的映射關(guān)系。語音情感識(shí)別相關(guān)研究出現(xiàn)在20世紀(jì)80年代中期,它們開創(chuàng)了使用聲學(xué)統(tǒng)計(jì)特征進(jìn)行情感分類的先河。1985年Minsky教授提出“讓計(jì)算機(jī)具有情感能力”觀點(diǎn)。在20世紀(jì)80年代末至90年代初期,麻省理工學(xué)院多媒體實(shí)驗(yàn)室構(gòu)造了一個(gè)“情感編輯器”。1999年,Moriyama提出語音和情感之間的線性關(guān)聯(lián)模型。進(jìn)入21世紀(jì)以來,語音情感識(shí)別研究被賦予了更多的迫切要求,發(fā)展步伐逐步加快,國(guó)際期刊、會(huì)議及相關(guān)賽事也不斷增加。7.3
智能語音數(shù)據(jù)處理技術(shù)627.3.5
語音情感識(shí)別國(guó)際著名的研究組織:貝爾法斯特女王大學(xué)Cowie和Douglas-Cowie領(lǐng)導(dǎo)的情感語音小組;麻省理工大學(xué)Picard領(lǐng)導(dǎo)的媒體研究實(shí)驗(yàn)室;慕尼黑工業(yè)大學(xué)Schuller負(fù)責(zé)的人機(jī)語
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 稠州中學(xué)教育集團(tuán)人教版八年級(jí)上冊(cè)歷史與社會(huì)第二單元綜合探究二 從宗教景觀看文化的多樣性教學(xué)設(shè)計(jì)
- 2024-2025學(xué)年新教材高中政治課時(shí)作業(yè)4社會(huì)主義制度在中國(guó)的確立含解析新人教版必修第一冊(cè)
- 2024-2025學(xué)年高中歷史專題7俄國(guó)農(nóng)奴制改革2自上而下的改革練習(xí)人民版選修1
- 2025年聚合物多元醇(POP)合作協(xié)議書
- 古詩詞誦讀《擬行路難(其四) 》教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版高中語文選擇性必修下冊(cè)
- 第4單元《分?jǐn)?shù)的意義和性質(zhì)》異分母分?jǐn)?shù)的大小比較 教學(xué)設(shè)計(jì)-2024-2025學(xué)年小學(xué)數(shù)學(xué)五年級(jí)下冊(cè)同步教學(xué)(蘇教版)
- 第17課《短文兩篇》教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版語文七年級(jí)下冊(cè)標(biāo)簽標(biāo)題
- 2025年文化科技主題公園項(xiàng)目發(fā)展計(jì)劃
- 教育碩士中期檢查報(bào)告范文
- 第八單元數(shù)學(xué)建模 建立統(tǒng)計(jì)模型進(jìn)行預(yù)測(cè)教學(xué)設(shè)計(jì)-2024-2025學(xué)年高二下學(xué)期數(shù)學(xué)人教A版(2019)選擇性必修第三冊(cè)
- 學(xué)校保潔服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 青島中國(guó)(山東)自由貿(mào)易試驗(yàn)區(qū)青島片區(qū)(青島前灣綜合保稅區(qū))管理委員會(huì)選聘35人筆試歷年參考題庫附帶答案詳解
- 《社區(qū)工作者培訓(xùn)課件 新浪版》
- 中國(guó)國(guó)際大學(xué)生創(chuàng)新大賽與“挑戰(zhàn)杯”大學(xué)生創(chuàng)業(yè)計(jì)劃競(jìng)賽(第十一章)大學(xué)生創(chuàng)新創(chuàng)業(yè)教程
- 《建筑基坑工程監(jiān)測(cè)技術(shù)標(biāo)準(zhǔn)》(50497-2019)
- 部編版五年級(jí)語文下冊(cè)全冊(cè)教材分析
- 02成文信息控制程序
- 《石油庫設(shè)計(jì)規(guī)范》修訂2022-07
- 奧太焊機(jī)維修教材 MZ系列_圖文
- 淺談如何抓好中學(xué)政教工作
- 乳品廠潔凈區(qū)環(huán)境衛(wèi)生行為規(guī)范
評(píng)論
0/150
提交評(píng)論