




已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
I摘要語音信號處理是研究用數(shù)字信號處理技術(shù)和語音學知識對語音信號進行處理的新興的學科,是目前發(fā)展最為迅速的信息科學研究領(lǐng)域的核心技術(shù)之一。通過語音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形式。數(shù)字信號處理(DigitalSignalProcessing,簡稱 DSP)是利用計算機或?qū)S锰幚碓O(shè)備,以數(shù)字形式對信號進行采集、變換、濾波、估值、增強、壓縮、識別等處理,以得到符合人們需要的信號形式。Matlab 語言是一種數(shù)據(jù)分析和處理功能十分強大的計算機應用軟件,它可以將聲音文件變換為離散的數(shù)據(jù)文件,然后利用其強大的矩陣運算能力處理數(shù)據(jù),如數(shù)字濾波、傅里葉變換、時域和頻域分析、聲音回放以及各種圖的呈現(xiàn)等,它的信號處理與分析工具箱為語音信號分析提供了十分豐富的功能函數(shù),利用這些功能函數(shù)可以快捷而又方便地完成語音信號的處理和分析以及信號的可視化,使人機交互更加便捷。信號處理是 Matlab 重要應用的領(lǐng)域之一。本設(shè)計針對現(xiàn)在大部分語音處理軟件內(nèi)容繁多、操作不便等問題,采用MATLAB7.0 綜合運用 GUI 界面設(shè)計、各種函數(shù)調(diào)用等來實現(xiàn)語音信號的變頻、傅里葉變換及濾波,程序界面簡練,操作簡便,具有一定的實際應用意義。關(guān)鍵字:Matlab,語音信號,傅里葉變換,信號處理11 緒 論1.1 課題的背景與意義通過語音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息的形式。語言是人類持有的功能。聲音是人類常用的工具,是相互傳遞信息的最主要的手段。因此,語音信號是人們構(gòu)成思想疏通和感情交流的最主要的途徑。并且,由于語言和語音與人的智力活動密切相關(guān),與社會文化和進步緊密相連,所以它具有最大的信息容量和最高的智能水平?,F(xiàn)在,人類已開始進入了信息化時代,用現(xiàn)代手段研究語音信號,使人們能更加有效地產(chǎn)生、傳輸、存儲、獲取和應用語音信息,這對于促進社會的發(fā)展具有十分重要的意義。讓計算機能聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。隨著計算機越來越向便攜化方向發(fā)展,隨著計算環(huán)境的日趨復雜化,人們越來越迫切要求擺脫鍵盤的束縛而代之以語音輸人這樣便于使用的、自然的、人性化的輸人方式。作為高科技應用領(lǐng)域的研究熱點,語音信號采集與分析從理論的研究到產(chǎn)品的開發(fā)已經(jīng)走過了幾十個春秋并且取得了長遠的進步。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理。工業(yè)生產(chǎn)部門的語聲控制,電話、電信系統(tǒng)的自動撥號、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實際應用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應用程序的用戶界面??梢姡Z音信號采集與分析的研究將是一項極具市場價值和挑戰(zhàn)性的工作。我們今天進行這一領(lǐng)域的研究與開拓就是要讓語音信號處理技術(shù)走入人們的日常生活當中,并不斷朝更高目標而努力。語音信號采集與分析之所以能夠那樣長期地、深深地吸引廣大科學工作者去不斷地對其進行研究和探討,除了它的實用性之外,另一個重要原因是,它始終與當時信息科學中最活躍的前沿學科保持密切的聯(lián)系,并且一起發(fā)展。語音信號采集與分析是以語音語言學和數(shù)字信號處理為基礎(chǔ)而形成的一門涉及面很廣的綜合性學科,與心理、生理學、計算機科學、通信與信息科學以及模式識別和人工智能等學科都有著非常密切的關(guān)系。對語音信號采集與分析的研究一直是數(shù)字信號處理技術(shù)發(fā)展的重要推動力量。因為許多處理的新方法的提出,首先是在語音信號處理中獲得成功,然后再推廣到其他領(lǐng)域。1.2 國內(nèi)外研究現(xiàn)狀語音信號的采集與分析作為一個重要的研究領(lǐng)域,已經(jīng)有很長的研究歷史。2但是它的快速發(fā)展可以說是從 1940 年前后 Dudley 的聲碼器(vocoder)和 potter等人的可見語音(Visible Speech)開始的。1952 年貝爾(Bell)實驗室的 Davis等人首次研制成功能識別十個英語數(shù)字的實驗裝置。1956 年 Olson 和 Belar 等人采用 8 個帶通濾波器組提取頻譜參數(shù)作為語音的特征,研制成功一臺簡單的語音打字機。20 世紀 60 年代初由于 Faut 和 Steven 的努力,奠定了語音生成理論的基礎(chǔ),在此基礎(chǔ)上語音合成的研究得到了扎實的進展。20 世紀 60 年代中期形成的一系列數(shù)字信號處理方法和技術(shù),如數(shù)字濾波器、快速博里葉變換(FFT)等成為語音信號數(shù)字處理的理論和技術(shù)基礎(chǔ)。在方法上,隨著電子計算機的發(fā)展,以往的以硬件為中心的研究逐漸轉(zhuǎn)化為以軟件為主的處理研究。然而,在語音識別領(lǐng)域內(nèi),初期有幾種語音打字機的研究也很活躍,但后來已全部停了下來,這說明了當時人們對話音識別難度的認識得到了加深。所以 1969 年美國貝爾研究所的 Pierce 感嘆地說“語音識別向何處去?”。到了 1970 年,好似反駁 Pierce 的批評,單詞識別裝置開始了實用化階段,其后實用化的進程進一步高漲,實用機的生產(chǎn)銷售也上了軌道。此外社會上所宣傳的聲紋(Voice Print)識別,即說話人識別的研究也扎扎實實地開展起來,并很快達到了實用化的階段。到了 1971 年,以美國 ARPA(American Research Projects Agency)為主導的“語音理解系統(tǒng)”的研究計劃也開始起步。這個研究計劃不僅在美國園內(nèi),而且對世界各國都產(chǎn)生了很大的影響,它促進了連續(xù)語音識別研究的興起。歷時五年的龐大的 ARPA 研究計劃,雖然在語音理解、語言統(tǒng)計模型等方面的研究積累了一些經(jīng)驗,取得了許多成果,但沒能達到巨大投資應得的成果,在 1976 年停了下來,進入了深刻的反省階段。但是,在整個 20 世紀70 年代還是有幾項研究成果對語音信號處理技術(shù)的進步和發(fā)展產(chǎn)生了重大的影響。這就是 20 世紀 70 年代初由板倉(Itakura)提出的動態(tài)時間規(guī)整(DTW)技術(shù),使語音識別研究在匹配算法方面開辟了新思路;20 世紀 70 年代中期線性預測技術(shù)(LPC)被用于語音信號處理,此后隱馬爾可夫模型法(HNMM)也獲得初步成功,該技術(shù)后來在語音信號處理的多個方面獲得巨大成功;20 世紀 70 年代未,Linda、Buzo、Gray 和 Markel 等人首次解決了矢量量化(VQ)碼書生成的方法,并首先將矢量量化技術(shù)用于語音編碼獲得成功。從此矢量量化技術(shù)不僅在語音識別、語音編碼和說話人識別等方面發(fā)揮了重要作用,而且很快推廣到其他許多領(lǐng)域。因此,20 世紀 80 年代開始出現(xiàn)的語音信號處理技術(shù)產(chǎn)品化的熱潮,與上述語音信號處理新技術(shù)的推動作用是分不開的。20 世紀 80 年代,由于矢量量化、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)等相繼被應用于語音信號處理,并經(jīng)過不斷改進與完善,使得語音信號處理技術(shù)產(chǎn)生了突破性的進展。其中,隱馬爾可夫模型作為語音信號的一種統(tǒng)計模型,在語音3信號處理的各個領(lǐng)域中獲得了廣泛的應用。其理論基礎(chǔ)是 1970 年前后,由 Baum等人建立起來的,隨后,由美國卡內(nèi)基梅隆大學(CMU)的 Baker 和美國 IBM 公司的 Jelinek 等人將其應用到語音識別中。由于美國貝爾實驗室的 Babiner 等人在20 世紀 80 年代中期,對隱馬爾可夫模型深人淺出的介紹,才使世界各國從事語音信號處理的研究人員了解和熟悉,進而成為一個公認的研究熱點,也是目前語音識別等的主流研究途徑。進入 20 世紀 90 年代以來,語音信號采集與分析在實用化方面取得了許多實質(zhì)性的研究進展。其中,語音識別逐漸由實驗室走向?qū)嵱没?。一方面,對聲學語音學統(tǒng)計模型的研究逐漸深入,魯棒的語音識別、基于語音段的建模方法及隱馬爾可夫模型與人工神經(jīng)網(wǎng)絡(luò)的結(jié)合成為研究的熱點。另一方面,為了語音識別實用化的需要,講者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題倍受關(guān)注。1.3 數(shù)字信號處理(DSP)簡介數(shù)字信號處理(DigitalSignalProcessing,簡稱 DSP)是一門涉及許多學科而又廣泛應用于許多領(lǐng)域的新興學科。20 世紀 60 年代以來,隨著計算機和信息技術(shù)的飛速發(fā)展,數(shù)字信號處理技術(shù)應運而生并得到迅速的發(fā)展。在過去的二十多年時間里,數(shù)字信號處理已經(jīng)在通信等領(lǐng)域得到極為廣泛的應用。數(shù)字信號處理是利用計算機或?qū)S锰幚碓O(shè)備,以數(shù)字形式對信號進行采集、變換、濾波、估值、增強、壓縮、識別等處理,以得到符合人們需要的信號形式。數(shù)字信號處理是圍繞著數(shù)字信號處理的理論、實現(xiàn)和應用等幾個方面發(fā)展起來的。數(shù)字信號處理在理論上的發(fā)展推動了數(shù)字信號處理應用的發(fā)展。反過來,數(shù)字信號處理的應用又促進了數(shù)字信號處理理論的提高。而數(shù)字信號處理的實現(xiàn)則是理論和應用之間的橋梁。數(shù)字信號處理是以眾多學科為理論基礎(chǔ)的,它所涉及的范圍極其廣泛。例如,在數(shù)學領(lǐng)域,微積分、概率統(tǒng)計、隨機過程、數(shù)值分析等都是數(shù)字信號處理的基本工具,與網(wǎng)絡(luò)理論、信號與系統(tǒng)、控制論、通信理論、故障診斷等也密切相關(guān)。近來新興的一些學科,如人工智能、模式識別、神經(jīng)網(wǎng)絡(luò)等,都與數(shù)字信號處理密不可分。可以說,數(shù)字信號處理是把許多經(jīng)典的理論體系作為自己的理論基礎(chǔ),同時又使自己成為一系列新興學科的理論基礎(chǔ)。41.4 本文主要工作本文簡要介紹了語音信號采集與分析的發(fā)展史以及語音信號的特征、采集與分析方法,并通過 PC 機錄制自己的一段聲音,運用 Matlab 進行仿真分析,最后加入噪聲進行濾波處理,比較濾波前后的變化。第 2 章主要介紹語音信號的特點與采集,仿真主要是驗證奈奎斯特定理。第 3 章主要是對語音信號進行時域、頻域上的分析,如短時功率譜,短時能量,短時平均過零率,語譜圖分析等等。第4 章是對語音信號的綜合和分析,包括語音信號的調(diào)制、疊加和濾波。52 語音信號的特點與采集2.1 語音信號的特點通過對大量語音信號的觀察和分析發(fā)現(xiàn),語音信號主要有下面兩個特點:在頻域內(nèi),語音信號的頻譜分量主要集中在 3003400Hz 的范圍內(nèi)。利 1用這個特點,可以用一個防混迭的帶通濾波器將此范圍內(nèi)的語音信號頻率分量取出,然后按 8kHz 的采樣率對語音信號進行采樣,就可以得到離散的語音信號。在時域內(nèi),語音信號具有“短時性”的特點,即在總體上,語音信號的 2特征是隨著時間而變化的,但在一段較短的時間間隔內(nèi),語音信號保持平穩(wěn)。在濁音段表現(xiàn)出周期信號的特征,在清音段表現(xiàn)出隨機噪聲的特征。下面是一段語音信號的時域波形圖(圖 2-1)和頻域圖(圖 2-2),由這兩個圖可以看出語音信號的兩個特點。0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5-0.8-0.6-0.4-0.200.20.40.6Time(s) 0 0.5 1 1.5 2 2.5x 10400.050.10.150.20.250.30.350.40.45Frequency(Hz)圖 2-1 語音信號時域波形圖 圖 2-2 語音信號頻域波形圖2.2 語音信號的采集在將語音信號進行數(shù)字化前,必須先進行防混疊預濾波,預濾波的目的有兩個: 抑制輸入信導各領(lǐng)域分量中頻率超出 fs/2 的所有分量(f s 為采樣頻率),以 1防止混疊干擾。 抑制 50Hz 的電源工頻干擾。這樣,預濾波器必須是一個帶通 2濾波器,設(shè)其上、下截止頻率分別是 fH 和 fL,則對于絕大多數(shù)語音編譯碼器,fH=3400Hz、f L60100Hz 、采樣率為 fs8kHz;而對丁語音識別而言,當用于電話用戶時,指標與語音編譯碼器相同。當使用要求較高或很高的場合時fH 4500Hz 或 8000Hz、f L60Hz、f s10kHz 或 20kHz。6為了將原始模擬語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數(shù)字語音信號。采樣也稱抽樣,是信號在時間上的離散化,即按照一定時間間隔t 在模擬信號(t)上逐點采取其瞬時值。采樣時必須要注意滿足奈奎斯特定理,即采樣頻率 fs 必須以高于受測信號的最高頻率兩倍以上的速度進行取樣,才能正確地重建波形,它是通過采樣脈沖和模擬信號相乘來實現(xiàn)的。下圖時一段語音信號在采樣頻率 44.1KHz 情況下的頻譜圖。0 1 2 3 4 5 6x 104-0.4-0.200.20.4 低低低低0 0.5 1 1.5 2 2.5x 104050100150200圖 2-3 原始信號時域波形圖和頻域波形圖由圖可知,這段語音信號的頻率主要集中在 1KHz 左右,當采樣頻率為44.1KHz 時,由于采樣頻率比較大,所以采樣點數(shù)就越密,所得離散信號就越逼近于原信號,頻譜也沒有發(fā)生混疊。70 1 2 3 4 5 6x 104-0.200.20.40.6 低低低低低低0 5000 10000 1500011.522.53圖 2-4 抽取后的信號時域波形圖和頻域波形圖對上述信號進行 1/80 采樣頻率抽取,即采樣頻率變?yōu)閷⒔?500Hz 時,由于采樣頻率比較小,所以采樣點數(shù)就稀疏,所得離散信號就越偏離于原信號,頻譜也發(fā)生了混疊。在采樣的過程中應注意采樣間隔的選擇和信號混淆:對模擬信號采樣首先要確定采樣間隔。如何合理選擇t 涉及到許多需要考慮的技術(shù)因素。一般而言,采樣頻率越高,采樣點數(shù)就越密,所得離散信號就越逼近于原信號。但過高的采樣頻率并不可取,對固定長度(T)的信號,采集到過大的數(shù)據(jù)量(N=T/t),給計算機增加不必要的計算工作量和存儲空間;若數(shù)據(jù)量(N)限
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省淮安市本年度(2025)小學一年級數(shù)學統(tǒng)編版階段練習(下學期)試卷及答案
- 2025-2030年中國散熱排風機市場運行新形勢與投資前景報告
- 大學生要如何網(wǎng)絡(luò)安全防范論文
- 英語中國文化閱讀教學設(shè)計
- 2025屆江蘇省徐州一中高三六校第一次聯(lián)考英語試卷含解析
- 湖南省長沙市岳麓區(qū)湖南師范大學附中2025屆高三(最后沖刺)英語試卷含解析
- 職業(yè)技能鑒定初級光纖通信模擬題及參考答案
- 【9道 一?!?025年4月邯鄲市邯山區(qū)七校聯(lián)考中考一模道法試卷含答案
- 北京市第五十七中學2024-2025學年高二下學期期中考試英語試題(原卷版+解析版)
- 稀有金屬礦選礦廠安全生產(chǎn)標準化實施指南考核試卷
- 寵物疾病與公共衛(wèi)生 人畜共患病
- 殺蟲劑對生物的影響(課件)三年級科學下冊冀人版
- 教科版四年級下冊科學《植物的生長變化》單元解讀
- 年產(chǎn)吲哚美辛的生產(chǎn)設(shè)計設(shè)計說明書
- 學校安全事故應急處置流程圖
- 車位租賃合同證明書
- GB/T 3091-2015低壓流體輸送用焊接鋼管
- 廣東省國家公務員錄用體檢表
- GB/T 19582.2-2008基于Modbus協(xié)議的工業(yè)自動化網(wǎng)絡(luò)規(guī)范第2部分:Modbus協(xié)議在串行鏈路上的實現(xiàn)指南
- GB/T 12686-2017草甘膦原藥
- 細胞的能量“貨幣”ATP說課課件-高一上學期生物人教版必修1
評論
0/150
提交評論