




已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
語音信號處理綜述摘要:隨著信息技術的發(fā)展,語音信號處理技術不斷地融入到各個領域。作為21世紀信息技術領域最重要的科學技術之一,它成為了人機接口的關鍵技術,并且越來越受到人們的重視。本文介紹了國內外語音技術的相關發(fā)展及該技術在通訊,家具,導航等領域的應用。并對他們的語音技術的優(yōu)缺點進行了總結。關鍵詞: 語音技術 通訊 Review of Speech Signal ProcessingAbstract: With the development of information technology, the Automatic Speech Recognition (ASR) constantly into the fields. The ASR which is one the most important technology in information fields and it is the key technology of the man-machine interface, and which is more and more appreciated by people. The text introduces the development and application in communication, household and navigation of the ASR. I summer the advantages and disadvantages of their ASR.Key words: ASR communication一、 研究語音信號處理技術的背景及其意義隨著人們進入信息時代,人們的生活、學習、工作領域也越來越智能化。作為人和這些領域溝通的關鍵接口,語音信號處理技術自然引起里人們的足夠重視。該技術就是讓機器通過識別和理解把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒壖夹g。通過該技術人們可以不通過鍵盤的輸入過程而直接通過語音進行操作,并且語音技術的應用已經成為一個具有競爭性的新興高技術產業(yè)。如今,語音技術相關產品已經成為了我們生活的一部分,它的作用越來越被重視,人們對當前語音技術的提高也是越來越期待。二、語音處理系統(tǒng)的分類(1)按發(fā)音方式分為孤立詞、連接詞和連續(xù)語音的語音識別系統(tǒng)。語音識別系統(tǒng)可能要求說話者 以單字、單詞、或是短語為發(fā)音單位,其間就必須要略微停頓,否則識別就會有問題。以前 的語音識別系統(tǒng),幾乎都是以單字或單詞為單位的孤立語音識別系統(tǒng),隨著連續(xù)語音識別技 術漸趨成熟,連續(xù)詞和連續(xù)語音這個最自然的說話方式,將成為語音識別系統(tǒng)的主流。(2)按詞 匯量大小分為小詞表、中詞表和大詞表以及無限詞匯量語音識別系統(tǒng)。如果語音識別系統(tǒng)只 為你進行電話拔號,那它只要能聽懂10個數字就行了,這屬于小詞匯量語音識別系統(tǒng);如果 它是為你自動轉接話務,那它還應識別單位名、人名和時間等成千上百的詞和字,這屬于中 等詞匯量語音識別系統(tǒng);如果它是把1篇口述的演講報告轉換成為文字,這屬于大詞匯量語 音識別系統(tǒng)。(3)按說話人適應范圍分為特定人、限定人和非特定人語音識別系統(tǒng)。特定人系統(tǒng) 是指系統(tǒng)在使用前必須由用戶輸入大量的發(fā)音數據、對其進行訓練。非特定人系統(tǒng)則試圖達 到在系統(tǒng)構建成功之后,用戶需要事先輸入大量的訓練數據,即可使用的目的。三、 語音信號處理技術研究現狀語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的系統(tǒng),它是第一個可以識別十個英文數字的語音識別系統(tǒng)。但真正取得實質性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。這首先是因為計算機技術的發(fā)展為語音識別的實現提供了硬件和軟件的可能,更重要的是語音信號線性預測編碼(LPC)技術和動態(tài)時間規(guī)整(DTW)技術的提出,有效的解決了語音信號的特征提取和等長匹配問題。這一時期的語音識別主要基于模板匹配原理,研究的領域局限在特定人,小詞匯表的孤立詞識別,實現了基于線性預測倒譜和DTW技術的特定人孤立詞語音識別系統(tǒng);同時提出了矢量量化(VQ)和馬爾可夫模型(HMM)理論。隨著應用領域的擴大,小詞匯表、特定人、孤立詞等這些對語音識別的約束條件需要放寬,與此同時也帶來了許多新的問題:第一,詞匯表的擴大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語音中,各個音素、音節(jié)以及詞之間沒有明顯的邊界,各個發(fā)音單位存在受上下文強烈影響的協同發(fā)音(Co-articulation)現象;第三,非特定人識別時,不同的人說相同的話相應的聲學特征有很大的差異,即使相同的人在不同的時間、生理、心理狀態(tài)下,說同樣內容的話也會有很大的差異;第四,識別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。實驗室語音識別研究的巨大突破產生于20世紀80年代末:人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個特性都集成在一個系統(tǒng)中,比較典型的是卡耐基梅隆大學的Sphinx系統(tǒng),它是第一個高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng)。這一時期,語音識別研究進一步走向深入,其顯著特征是HMM模型和人工神經元網絡(ANN)在語音識別中的成功應用。HMM模型的廣泛應用應歸功于等科學家的努力,他們把原本艱澀的HMM純數學模型工程化,從而為更多研究者了解和認識,從而使統(tǒng)計方法成為了語音識別技術的主流。統(tǒng)計方法將研究者的視線從微觀轉向宏觀,不再刻意追求語音特征的細化,而是更多地從整體平均(統(tǒng)計)的角度來建立最佳的語音識別系統(tǒng)。在聲學模型方面,以Markov鏈為基礎的語音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語音信號短時穩(wěn)定、長時時變的特性,并且能根據一些基本建模單元構造成連續(xù)語音的句子模型,達到了比較高的建模精度和建模靈活性。在語言層面上,通過統(tǒng)計真實大規(guī)模語料的詞之間同現概率即N元統(tǒng)計模型來區(qū)分識別帶來的模糊音和同音詞。另外,人工神經網絡方法、基于文法規(guī)則的語言處理機制等也在語音識別中得到了應用。20世紀90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統(tǒng)的實用化研究投以巨資。語音識別技術有一個很好的評估機制,那就是識別的準確率,而這項指標在20世紀90年代中后期實驗室研究中得到了不斷的提高。其中IBM公司于1997年開發(fā)出漢語語音識別系統(tǒng),次年又開發(fā)出可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng)ViaVoice98。它帶有一個32,000詞的基本詞匯表,可以擴展到65,000詞,還包括辦公常用詞條,具有“糾錯機制”,其平均識別率可以達到95%。該系統(tǒng)對新聞語音識別具有較高的精度,是目前具有代表性的漢語連續(xù)語音識別系統(tǒng)。我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實驗室逐步走向實用。從1987年開始執(zhí)行國家863計劃后,國家863智能計算機專家組為語音識別技術研究專門立項。目前中科院自動化所、聲學所、清華大學、北京大學那個上的高校及研究單位在大詞匯連續(xù)語音識別系統(tǒng)上的研究水平已經接近國際先進指標。其中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。清華大學電子工程系語音技術與專用芯片設計課題組,研發(fā)的非特定人漢語數碼串連續(xù)語音識別系統(tǒng)的識別精度,達到94.8%(數字串)和96.8%(定長數字串)。在有5%的情況下,系統(tǒng)識別率可以達到96.9%(長數字串)和98.7%(定長數字串),這是目前國際最好的識別結果之一,其性能已經接近實用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達到98.73%,前三選識別率達99.96%;并且可以識別普通話與四川語言,達到實用要求。此外,中科大訊飛輸入法在語音信號處理方面也達到了國際先進水平。中科院自動化所及其所屬模式科技公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應用的“天語”中文語音系列產品,結束了中文語音識別產品自1998年以來一直由國外公司壟斷的歷史。電子科技大學鐘林鵬等人優(yōu)化了語音信號檢測方法之一的功率譜算法,從而使語音信號檢測更加精準。山東大學王京輝等人通過對合成語音進行適當語音參數控制和調整從而改變了二次譜提取基頻算法,提高了基頻提取的準確度,進一步提出了一種新的機遇改進二次普的語音時長規(guī)整算法,該算法在保持語音質量的同時,有效降低了整體計算復雜度。作者軟件采用VC+和MATLAB混合編程思想,利用該軟件可以實現語音變速和變聲處理兩功能。哈爾濱工業(yè)大學游大濤等人通過優(yōu)化聲學特征的魯棒特征提取算法改進了在噪音條件下的語音識別技術,此外作者還提出了在魯棒性方面優(yōu)于MFCC和PLP的檢測方法基于聲源分離機制的語音活動性檢測方法。大連理工大學汪林等人提出了近似個性HRFT的主管選擇法、基于對數幅度誤差最小化的CAPZ模型、基于共極點/零點(CAPZ)模型串生消除法、結合盲源分離和波束形成的聯合分離等方法,這些方法有效改善了語音信號處理技術在噪音環(huán)境下的語音識別能力和盲源分離處理能力。北京交通大學王杏等人提出了基于改進噪聲估計和幅度補償的改進譜減法,該方法在消除噪聲的同時能有效避免冤信號收到損傷從而影響混疊語音的分離。四、語音信號處理的應用語音信號處理技術室計算機智能接口與人機交互的重要手段之一。其應用市場前景廣泛,在一些應用領域中正迅速成為一個關鍵的具有競爭力的技術。如聲控電話轉換、聲控語音撥號系統(tǒng)、聲控智能玩具、信息網絡查詢、工業(yè)控制、家庭服務、通訊服務、旅行服務、醫(yī)療服務、銀行服務等等。語音識別技術還可以用于自動口語翻譯,及通過口語識別技術、及其翻譯技術、語音合成技術等相結合,可將一種語言的輸入語音翻譯為另一種語言的語音輸出,實現跨語言的交流。目前美歐及日本、韓國、中國都在開張相關技術的研究,并實現了應用。五、結論及展望如今語音信號處理技術已經取得了很大進步,但是目前還是存在很多問題,如說話人發(fā)音方式的變化、語音變短、背景噪音、信道失衡等等,有鑒于此,仍然有諸多方面需要進一步探究和完善。(1)目前使用的語言模型只是一種概率模型,沒有用到以語言學為基礎的文法模型,因此需要計算機準確理解人類語言,需要優(yōu)化吸血方法。如特征提取、搜索算法、自適應算法等等。(2)在一些詞匯識別方面,計算機所呈現的語音模型太過局限。例如當用戶輸入“信噪比”這個詞匯,計算機會顯示其錯誤或者不規(guī)范。此外,現實世界的聲音是多種多樣的,當發(fā)音和標準聲音區(qū)別區(qū)別較大時,計算機或設備將不能識別或者說識別錯誤。(3)語音端點檢測受背景噪音的影響很大,這就需要進一步改進技術或方法使其受環(huán)境影響更小。(4)不同的特征之間按一定的法則組合后對識別率具有影響,因此還需要優(yōu)化相應的算法減小影響。(5)在語音時長規(guī)整技術研究中,有待進一步研究正弦模型,從而改善語音合成等技術。隨著人們對語音技術的需求和重視,語音信號處理技術必將快速發(fā)展和具有很大的提高,其應用的范圍也會越來越大,并且語音技術的應用價值需要人們繼續(xù)發(fā)現和挖掘。參考文獻1 易克初.語音信號處理M.哈爾濱工業(yè)大學出版社2 王炳錫.實用語音識別基礎M.國防工業(yè)出版社3 韓紀慶,呂明,鄭鐵然.語音信號處理M.清華大學出版社4 李晉.語音信號端點檢測算法研究D.湖南師范大學5 何姣.帶噪語音信號基音檢測技術研究:碩士學位論文電子科技大學6 趙力.語音信號處理.機械電子工業(yè)出版社7 鐘林鵬.說話人識別系統(tǒng)中的語音信號處理技術研究:碩士學位論文.電子科技大學8 張雄偉,陳亮,楊吉斌.現代語音處理技術及應用.機械電子工程出版社9 李萱.語音特征參數提取方法研究:碩士學位論文. 西安電子科技大學10 王京輝.語音處理信號技術研究:碩士學位論文.山東大學11 楊瑩春.說話人特征及模型研究:博士后論文.浙江大學12 陳硯圃.聽覺感知及其在語音增強中的應用研究:博士學位論文.西安交通大學13 游大濤.基于聽覺機理的魯棒特征提取及在說話人識別中的應用:博士學位論文.哈爾濱工業(yè)大學14 汪林.多通道語音信號處理中的關鍵技術研究:博士學位論文.大連理工大學15 王杏.帶噪混疊語音信號盲分離方法研究:碩士學位論文. 北京交通大學16 劉建強.非平穩(wěn)環(huán)境中的盲源分離算法研究.西安電子科技大學17 Li Q, Huang Y. An auditory-based feature extraction algorithm for r
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CAQI 12-2016家用和類似用途飲用水處理裝置用管接件
- T/CANSI 6-2019船用中空螺旋槳
- 阿亮java面試題及答案
- 河池衛(wèi)校面試題及答案
- 高升??荚囶}及答案
- 人類健康課件
- 販賣會考試題及答案
- 產品面試題模板及答案
- 婚慶公司服務管理制度
- T/CAEPI 39-2021石油化工企業(yè)場地地下水污染防治技術指南
- 2023版煤礦安全管理人員考試題庫及解析
- 2025年標準育兒嫂合同樣本
- 互聯網金融(同濟大學)知到智慧樹章節(jié)測試課后答案2024年秋同濟大學
- 2025年江蘇鹽城市燕舞集團有限公司招聘筆試參考題庫含答案解析
- 整體施工勞務服務方案
- 黃金管理制度
- 2025年貴州盤江精煤股份有限公司招聘筆試參考題庫含答案解析
- 2025年上半年陜西西安市事業(yè)單位招聘高層次及緊缺特殊專業(yè)人才690人重點基礎提升(共500題)附帶答案詳解-1
- 2025年四川涼山道德與法制中考試卷
- 江蘇省淮陰區(qū)2025屆高三下第一次測試數學試題含解析
- 人工智能賦能教師數字素養(yǎng)提升
評論
0/150
提交評論