語音信號(hào)處理第3版-第1講

上傳人：w*** IP屬地：湖北上傳時(shí)間：2024-09-10 格式：PPT 頁數(shù)：22 大?。?.24MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩17頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

語音信號(hào)處理SpeechSignalProcessing課程簡介總學(xué)時(shí)：48，理論課學(xué)時(shí)：38，實(shí)驗(yàn)課學(xué)時(shí)：10，學(xué)分：3適用于通信工程、電子信息工程等專業(yè)先修課程：信號(hào)與系統(tǒng)、數(shù)字信號(hào)處理、概率統(tǒng)計(jì)

期末考試（開卷，占80%）

實(shí)驗(yàn)考核（實(shí)驗(yàn)完成情況、實(shí)驗(yàn)報(bào)告撰寫情況，占10%）

平時(shí)考核（課堂表現(xiàn)、自主學(xué)習(xí)情況，占10%）課程考核方式語音信號(hào)處理是一門綜合性學(xué)科，涉及的領(lǐng)域非常廣泛：聲學(xué)、語音學(xué)、信號(hào)處理、數(shù)學(xué)、人工智能、模式識(shí)別，甚至心理學(xué)、生物學(xué)等。教材及主要參考資料教材：趙力.語音信號(hào)處理（第3版）,北京：機(jī)械工業(yè)出版社,2016.5主要參考資料：

張雪.數(shù)字語音處理及MATLAB仿真,北京：電子工業(yè)出版社,2010

何強(qiáng)何英.MATLAB擴(kuò)展編程,北京：清華大學(xué)出版社,2002主要軟件及工具箱

MatLab,CoolEditor,VisualStudio2008/2010VoiceBox,HTK,SpeechSDK等工具箱主要研究機(jī)構(gòu)國外：卡耐基梅隆大學(xué)，劍橋大學(xué)，愛丁堡大學(xué)，謝菲爾德大學(xué)，華盛頓大學(xué)，加州大學(xué)，哥倫比亞大學(xué)，麻省理工學(xué)院，帝國理工學(xué)院，IBM，微軟、Nuance等國內(nèi)：科大訊飛，清華大學(xué)，中科院聲學(xué)所和自動(dòng)化所，哈工大，東南大學(xué)，華南理工大學(xué)等本課程的主要內(nèi)容緒論 2 語音信號(hào)處理基礎(chǔ)知識(shí)2矢量量化技術(shù)2語音信號(hào)分析4語音信號(hào)特征提取技術(shù)4

語音增強(qiáng) 4 語音識(shí)別 4 說話人識(shí)別4

語音編碼4 語音合成與轉(zhuǎn)換4 語音信息隱藏41.1概述1.2語音識(shí)別發(fā)展概況1.3語音編碼發(fā)展概況1.4語音合成發(fā)展概況1.5語音處理的其他分支第1章緒論噪聲環(huán)境下語音處理系統(tǒng)性能急劇下降說話人發(fā)音方式、口音變化等將導(dǎo)致系統(tǒng)性能下降

訓(xùn)練和測(cè)試數(shù)據(jù)差異較大時(shí)，系統(tǒng)性能將下降……車載語音：汽車導(dǎo)航、空調(diào)、車窗、影音等的語音控制呼叫中心：交互式語音應(yīng)答的補(bǔ)充、服務(wù)質(zhì)量評(píng)估、增強(qiáng)安全性等

移動(dòng)終端：語音秘書、語音播報(bào)、語音輸入法、語音聽寫系統(tǒng) 教育和娛樂：語音教具、語音（普通話）評(píng)測(cè)、智能語音家電和玩具公共安全及服務(wù)：語音監(jiān)聽與跟蹤、家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)等卡耐基梅隆大學(xué)、劍橋大學(xué)、愛丁堡大學(xué)、華盛頓大學(xué)、清華大學(xué)、中科大、中科院等一直從事語音處理研究

2011年蘋果公司推出Siri(Iphone4S的語音控制功能)2010年科大訊飛推出新一代“語音云”平臺(tái)2011年騰訊公司推出QQ云語音面板Nuance,Google,微軟,IBM,百度,盛大,華為等也投入巨資為什么要學(xué)習(xí)和研究語音信號(hào)處理技術(shù)？

第1章緒論1.1概述語音是最自然、最有效、最方便的人機(jī)（人與人）交互手段

國內(nèi)外各大公司（研究機(jī)構(gòu)）一直從事語音信號(hào)處理研究

語音信號(hào)處理技術(shù)用途非常廣泛

語音信號(hào)處理技術(shù)遠(yuǎn)未成熟，需進(jìn)一步改進(jìn)語音信號(hào)處理技術(shù)始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系，并且一起發(fā)展比如：機(jī)器學(xué)習(xí)、小波分析、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、人工智能等人的言語過程

想說說出傳輸接收理解語音合成語音編碼語音識(shí)別說話人識(shí)別計(jì)算機(jī)第1章緒論1.1概述語音識(shí)別和語音合成是實(shí)現(xiàn)人機(jī)語音通信，建立一個(gè)有聽和說能力的口語系統(tǒng)所必需的兩項(xiàng)關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話能力，是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要競爭市場。第1章緒論1.1概述語音信號(hào)處理的主要分支

語音識(shí)別SpeechRecognition語音合成SpeechSynthesis語音編碼SpeechCoding

對(duì)模擬的語音信號(hào)進(jìn)行編碼，將模擬信號(hào)轉(zhuǎn)化成數(shù)字信號(hào)，從而降低傳輸碼率并進(jìn)行數(shù)字傳輸。分為波形編碼、參量編碼（音源編碼）和混合編碼。利用計(jì)算機(jī)和一些專門裝置模擬人，制造語音的技術(shù)。TTS（文語轉(zhuǎn)換）技術(shù)隸屬于語音合成。語音識(shí)別原理框圖讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。主要包括特征提取、模式匹配及模型訓(xùn)練技術(shù)。語音信號(hào)處理發(fā)展概況：起步很早、尚未完全成熟1791年，WolfgangvonKempelen構(gòu)建了語音機(jī)器1835年，CharlesWheatstone改進(jìn)了語音機(jī)器第1章緒論B.H.Juang#&LawrenceR.Rabiner.AutomaticSpeechRecognition–ABriefHistoryoftheTechnologyDevelopment,20041.1概述1870年代，電話發(fā)明之爭第1章緒論1.1概述安東尼奧·梅烏奇AntonioMeucci

(1808–1889)亞歷山大·格拉漢姆·貝爾AlexanderGrahamBell(1847-1922)伊萊沙·格雷ElishaGray1835-1901對(duì)于大多數(shù)人來說，每當(dāng)提到電話的發(fā)明，一定會(huì)聯(lián)想到貝爾。然而，一個(gè)叫伊萊沙·格雷的人就曾與貝爾展開過關(guān)于電話專利權(quán)的法律訴訟。格雷與貝爾在同一天申報(bào)了專利，由于比貝爾晚一點(diǎn)申報(bào)（只晚了2個(gè)小時(shí)左右），最終敗訴。事實(shí)上，梅烏奇于1860年代就已對(duì)電話機(jī)進(jìn)行了原創(chuàng)性的發(fā)明創(chuàng)造，比貝爾和格雷早10多年。由于經(jīng)濟(jì)困窘等原因，19世紀(jì)70年代，梅烏奇并沒有贏得與貝爾的電話機(jī)專利爭奪戰(zhàn)。在其逝世113年后，美國議會(huì)認(rèn)定梅烏奇為電話機(jī)的發(fā)明者。真理得以昭然，梅烏奇實(shí)至名歸。誰是電話的真正發(fā)明者？AblockschematicofHomerDudley’sVODERB.H.Juang#&LawrenceR.Rabiner.AutomaticSpeechRecognition–ABriefHistoryoftheTechnologyDevelopment,2004第1章緒論1.1概述1939年，H.Dudley研制成功第一個(gè)聲碼器打破了以前的“波形原則”，提出了一種全新的語音通信技術(shù)，即提取參數(shù)加以傳輸，在收端重新合成語音。其后，產(chǎn)生“語音參數(shù)模型”的思想1942年，Bell實(shí)驗(yàn)室發(fā)明了語譜儀1948年，美國Haskin實(shí)驗(yàn)室研制成功“語圖回放機(jī)”1952年，Bell實(shí)驗(yàn)室研制成識(shí)別十個(gè)英語數(shù)字識(shí)別器1956年，Olson和Belar等人研制出語音打字機(jī)1960年代以后，隨著計(jì)算機(jī)技術(shù)的發(fā)展，語音信號(hào)處理技術(shù)獲得了長足的進(jìn)步，計(jì)算機(jī)模擬實(shí)驗(yàn)取代了硬件研制的傳統(tǒng)做法。各種突破性的思想不斷涌現(xiàn)第1章緒論1.1概述1960年，Denes等人用計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)語音識(shí)別，引入了時(shí)間歸正算法改進(jìn)匹配性能1970年代起，人工智能技術(shù)開始引入到語音識(shí)別中。美國國防部ARPA組織了有CMU等五個(gè)單位參加的一項(xiàng)大規(guī)模語音識(shí)別和理解研究計(jì)劃1970年代中，日本學(xué)者Sakoe提出的動(dòng)態(tài)時(shí)間彎折算法對(duì)小詞表的研究獲得了成功，從而掀起了語音識(shí)別的研究熱潮第1章緒論1.2語音識(shí)別發(fā)展概況誰先提出動(dòng)態(tài)時(shí)間彎折（DTW）算法？

1960年代末期，蘇聯(lián)學(xué)者Vintsyuk提出了采用動(dòng)態(tài)規(guī)劃方法解決兩個(gè)語音的時(shí)間對(duì)準(zhǔn)問題其研究不為學(xué)術(shù)界的廣大研究者所知道1980年代，學(xué)術(shù)界才知道Vintsyuk當(dāng)初的工作；而DTW已廣為人知第1章緒論1.2語音識(shí)別發(fā)展概況是采用動(dòng)態(tài)規(guī)劃技術(shù)將一個(gè)復(fù)雜的全局最優(yōu)化問題轉(zhuǎn)化為許多局部最優(yōu)化問題，一步一步地進(jìn)行決策1970年代末，基于矢量量化碼本生成的LBG算法被提出，矢量量化技術(shù)廣泛應(yīng)用于語音識(shí)別、語音編碼和說話人識(shí)別中1970年代末至80年代初，Baker等將隱馬爾可夫模型(HiddenMarkovModel)技術(shù)應(yīng)用到語音識(shí)別中1985年IBM公司研制了5000詞英語聽寫機(jī)Tangora-5，80年代末完成的Tangora-20能識(shí)別的詞匯達(dá)到了20000，識(shí)別率達(dá)到了94.6%第1章緒論1.2語音識(shí)別發(fā)展概況LBG算法通過訓(xùn)練矢量集和一定的迭代算法來逼近最優(yōu)的再生碼本1990年代初，CMU的LeeKaifu完成的非特定人連續(xù)語音識(shí)別系統(tǒng)SPHINX是最有代表性的，它能識(shí)別997個(gè)詞匯的連續(xù)語音，識(shí)別率達(dá)到95.8%1997年，IBM推出的漢語聽寫機(jī)Viavoice為語音識(shí)別在漢字輸入方面的實(shí)際應(yīng)用開辟了新的道路1999年，Intel推出語音識(shí)別軟件開發(fā)包Spark3.0MicrosoftVoice及基于.net的語音識(shí)別引擎目前，在語音識(shí)別的系統(tǒng)框架方面并沒有什么重大突破。但是，在語音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展第1章緒論1.2語音識(shí)別發(fā)展概況1988年，李開復(fù)獲卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)博士學(xué)位。他的博士論文是世界上第一個(gè)“非特定人連續(xù)語音識(shí)別系統(tǒng)”。1988年，《商業(yè)周刊》授予該系統(tǒng)“最重要科學(xué)創(chuàng)新獎(jiǎng)”。在校期間，李開復(fù)還開發(fā)了“奧賽羅”（黑白棋）人機(jī)對(duì)弈系統(tǒng)，因?yàn)?988年擊敗了世界團(tuán)體冠軍美國隊(duì)的一名成員而名噪一時(shí)。1970年代起，國外就開始研究計(jì)算機(jī)網(wǎng)絡(luò)上的語音通信，主要是基于ARPANET網(wǎng)絡(luò)平臺(tái)進(jìn)行研究1974年，首次分組語音實(shí)驗(yàn)是在美國西海岸南加州大學(xué)和東海岸的林肯實(shí)驗(yàn)室間進(jìn)行，數(shù)碼率為9.6kb/s

1975年1月，美國實(shí)現(xiàn)使用LPC聲碼器的分組語音電話會(huì)議1980年代，集中在局域網(wǎng)上的語音通信，最早的實(shí)驗(yàn)是由英國劍橋大學(xué)于1982年在10Mb/s的劍橋環(huán)形網(wǎng)上進(jìn)行的第1章緒論1.3語音編碼發(fā)展概況1988年，美國公布了一個(gè)4.8kb/s的碼激勵(lì)線性預(yù)測(cè)編碼（CELP）語音編碼標(biāo)準(zhǔn)算法進(jìn)入1990年代，隨著Internet的興起和語音編碼技術(shù)的發(fā)展，IP分組語音通信技術(shù)獲得了突破性的進(jìn)展。如網(wǎng)絡(luò)游戲，語音聊天，IP電話技術(shù)1990年代中期，出現(xiàn)了很多被廣泛使用的語音編碼國際標(biāo)準(zhǔn)，如數(shù)碼率為5.3/6.4kb/s的G.723.1、數(shù)碼率為8kb/s的G.729等目前，主要集中在4kbit/s碼率以下的高音質(zhì)、低延遲的聲碼器，提高在噪聲信道中低碼率編碼器的性能第1章緒論1.3語音編碼發(fā)展概況第1章緒論1.4語音合成發(fā)展概況1939年，貝爾實(shí)驗(yàn)室利用共振峰原理制作出第一個(gè)電子語音合成器1960年，G.Fant系統(tǒng)地闡述了語音產(chǎn)生的理論，推動(dòng)了語音合成技術(shù)的進(jìn)步1968年，第一個(gè)完整的TTS系統(tǒng)得以實(shí)現(xiàn)1980年，D.Klatt設(shè)計(jì)出串/并聯(lián)混合型共振峰合成器1980年代，基音同步疊加的波形拼接方法PSOLA被提出第1章緒論1.4語音合成發(fā)展概況20世紀(jì)末，提出了可訓(xùn)練的語音合成方法——基于HMM的合成方法目前，語音合成系統(tǒng)具有了很高的可懂度，但自然度還不盡人意說話人識(shí)別說話人日志語種辨識(shí)語音轉(zhuǎn)換語音隱藏語音情感識(shí)別語音增強(qiáng)語音搜索SpeakerRecognition，又稱聲紋識(shí)別、話者識(shí)別。通過對(duì)語音信號(hào)的分析和處理，提取代表說話人個(gè)性信息的特征，計(jì)算機(jī)就能夠自動(dòng)地鑒別說話人的身份。主要分為：SpeakerIdentification和SpeakerVerification。SpeechRetrieval，一種新穎的搜索技術(shù)，代替原來的鍵盤或手寫輸入，用戶可以使用語音進(jìn)行檢索和查詢。SpeechHiding，利用語音信號(hào)中存在的冗余及人類感知系統(tǒng)的特性，在不影響原始語音信息感知質(zhì)量的前提下，把額外的信息隱藏到原始語音中的一種技術(shù)。EmotionRecognition，計(jì)算機(jī)對(duì)語音信號(hào)進(jìn)行分析和處理，從而得出說話人的情感狀態(tài)（憤怒、悲傷、高興、恐懼等）。Vo

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

語音信號(hào)處理第3版-第1講

文檔簡介

溫馨提示

最新文檔

評(píng)論

語音信號(hào)處理第3版-第1講

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔