語音信號(hào)處理第3版-第1講_第1頁
語音信號(hào)處理第3版-第1講_第2頁
語音信號(hào)處理第3版-第1講_第3頁
語音信號(hào)處理第3版-第1講_第4頁
語音信號(hào)處理第3版-第1講_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

語音信號(hào)處理SpeechSignalProcessing課程簡介總學(xué)時(shí):48,理論課學(xué)時(shí):38,實(shí)驗(yàn)課學(xué)時(shí):10,學(xué)分:3適用于通信工程、電子信息工程等專業(yè)先修課程:信號(hào)與系統(tǒng)、數(shù)字信號(hào)處理、概率統(tǒng)計(jì)

期末考試(開卷,占80%)

實(shí)驗(yàn)考核(實(shí)驗(yàn)完成情況、實(shí)驗(yàn)報(bào)告撰寫情況,占10%)

平時(shí)考核(課堂表現(xiàn)、自主學(xué)習(xí)情況,占10%)課程考核方式語音信號(hào)處理是一門綜合性學(xué)科,涉及的領(lǐng)域非常廣泛:聲學(xué)、語音學(xué)、信號(hào)處理、數(shù)學(xué)、人工智能、模式識(shí)別,甚至心理學(xué)、生物學(xué)等。教材及主要參考資料教材:趙力.語音信號(hào)處理(第3版),北京:機(jī)械工業(yè)出版社,2016.5主要參考資料:

張雪.數(shù)字語音處理及MATLAB仿真,北京:電子工業(yè)出版社,2010

何強(qiáng)何英.MATLAB擴(kuò)展編程,北京:清華大學(xué)出版社,2002主要軟件及工具箱

MatLab,CoolEditor,VisualStudio2008/2010VoiceBox,HTK,SpeechSDK等工具箱主要研究機(jī)構(gòu)國外:卡耐基梅隆大學(xué),劍橋大學(xué),愛丁堡大學(xué),謝菲爾德大學(xué),華盛頓大學(xué),加州大學(xué),哥倫比亞大學(xué),麻省理工學(xué)院,帝國理工學(xué)院,IBM,微軟、Nuance等國內(nèi):科大訊飛,清華大學(xué),中科院聲學(xué)所和自動(dòng)化所,哈工大,東南大學(xué),華南理工大學(xué)等本課程的主要內(nèi)容緒論 2 語音信號(hào)處理基礎(chǔ)知識(shí)2矢量量化技術(shù)2語音信號(hào)分析4語音信號(hào)特征提取技術(shù)4

語音增強(qiáng) 4 語音識(shí)別 4 說話人識(shí)別4

語音編碼4 語音合成與轉(zhuǎn)換4 語音信息隱藏41.1概述1.2語音識(shí)別發(fā)展概況1.3語音編碼發(fā)展概況1.4語音合成發(fā)展概況1.5語音處理的其他分支第1章緒論噪聲環(huán)境下語音處理系統(tǒng)性能急劇下降說話人發(fā)音方式、口音變化等將導(dǎo)致系統(tǒng)性能下降

訓(xùn)練和測(cè)試數(shù)據(jù)差異較大時(shí),系統(tǒng)性能將下降……車載語音:汽車導(dǎo)航、空調(diào)、車窗、影音等的語音控制呼叫中心:交互式語音應(yīng)答的補(bǔ)充、服務(wù)質(zhì)量評(píng)估、增強(qiáng)安全性等

移動(dòng)終端:語音秘書、語音播報(bào)、語音輸入法、語音聽寫系統(tǒng) 教育和娛樂:語音教具、語音(普通話)評(píng)測(cè)、智能語音家電和玩具公共安全及服務(wù):語音監(jiān)聽與跟蹤、家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)等卡耐基梅隆大學(xué)、劍橋大學(xué)、愛丁堡大學(xué)、華盛頓大學(xué)、清華大學(xué)、中科大、中科院等一直從事語音處理研究

2011年蘋果公司推出Siri(Iphone4S的語音控制功能)2010年科大訊飛推出新一代“語音云”平臺(tái)2011年騰訊公司推出QQ云語音面板Nuance,Google,微軟,IBM,百度,盛大,華為等也投入巨資為什么要學(xué)習(xí)和研究語音信號(hào)處理技術(shù)?

第1章緒論1.1概述語音是最自然、最有效、最方便的人機(jī)(人與人)交互手段

國內(nèi)外各大公司(研究機(jī)構(gòu))一直從事語音信號(hào)處理研究

語音信號(hào)處理技術(shù)用途非常廣泛

語音信號(hào)處理技術(shù)遠(yuǎn)未成熟,需進(jìn)一步改進(jìn)語音信號(hào)處理技術(shù)始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系,并且一起發(fā)展比如:機(jī)器學(xué)習(xí)、小波分析、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、人工智能等人的言語過程

想說說出傳輸接收理解語音合成語音編碼語音識(shí)別說話人識(shí)別計(jì)算機(jī)第1章緒論1.1概述語音識(shí)別和語音合成是實(shí)現(xiàn)人機(jī)語音通信,建立一個(gè)有聽和說能力的口語系統(tǒng)所必需的兩項(xiàng)關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話能力,是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要競爭市場。第1章緒論1.1概述語音信號(hào)處理的主要分支

語音識(shí)別SpeechRecognition語音合成SpeechSynthesis語音編碼SpeechCoding

對(duì)模擬的語音信號(hào)進(jìn)行編碼,將模擬信號(hào)轉(zhuǎn)化成數(shù)字信號(hào),從而降低傳輸碼率并進(jìn)行數(shù)字傳輸。分為波形編碼、參量編碼(音源編碼)和混合編碼。利用計(jì)算機(jī)和一些專門裝置模擬人,制造語音的技術(shù)。TTS(文語轉(zhuǎn)換)技術(shù)隸屬于語音合成。語音識(shí)別原理框圖讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。主要包括特征提取、模式匹配及模型訓(xùn)練技術(shù)。語音信號(hào)處理發(fā)展概況:起步很早、尚未完全成熟1791年,WolfgangvonKempelen構(gòu)建了語音機(jī)器1835年,CharlesWheatstone改進(jìn)了語音機(jī)器第1章緒論B.H.Juang#&LawrenceR.Rabiner.AutomaticSpeechRecognition–ABriefHistoryoftheTechnologyDevelopment,20041.1概述1870年代,電話發(fā)明之爭第1章緒論1.1概述安東尼奧·梅烏奇AntonioMeucci

(1808–1889)亞歷山大·格拉漢姆·貝爾AlexanderGrahamBell(1847-1922)伊萊沙·格雷ElishaGray1835-1901對(duì)于大多數(shù)人來說,每當(dāng)提到電話的發(fā)明,一定會(huì)聯(lián)想到貝爾。然而,一個(gè)叫伊萊沙·格雷的人就曾與貝爾展開過關(guān)于電話專利權(quán)的法律訴訟。格雷與貝爾在同一天申報(bào)了專利,由于比貝爾晚一點(diǎn)申報(bào)(只晚了2個(gè)小時(shí)左右),最終敗訴。事實(shí)上,梅烏奇于1860年代就已對(duì)電話機(jī)進(jìn)行了原創(chuàng)性的發(fā)明創(chuàng)造,比貝爾和格雷早10多年。由于經(jīng)濟(jì)困窘等原因,19世紀(jì)70年代,梅烏奇并沒有贏得與貝爾的電話機(jī)專利爭奪戰(zhàn)。在其逝世113年后,美國議會(huì)認(rèn)定梅烏奇為電話機(jī)的發(fā)明者。真理得以昭然,梅烏奇實(shí)至名歸。誰是電話的真正發(fā)明者?AblockschematicofHomerDudley’sVODERB.H.Juang#&LawrenceR.Rabiner.AutomaticSpeechRecognition–ABriefHistoryoftheTechnologyDevelopment,2004第1章緒論1.1概述1939年,H.Dudley研制成功第一個(gè)聲碼器打破了以前的“波形原則”,提出了一種全新的語音通信技術(shù),即提取參數(shù)加以傳輸,在收端重新合成語音。其后,產(chǎn)生“語音參數(shù)模型”的思想1942年,Bell實(shí)驗(yàn)室發(fā)明了語譜儀1948年,美國Haskin實(shí)驗(yàn)室研制成功“語圖回放機(jī)”1952年,Bell實(shí)驗(yàn)室研制成識(shí)別十個(gè)英語數(shù)字識(shí)別器1956年,Olson和Belar等人研制出語音打字機(jī)1960年代以后,隨著計(jì)算機(jī)技術(shù)的發(fā)展,語音信號(hào)處理技術(shù)獲得了長足的進(jìn)步,計(jì)算機(jī)模擬實(shí)驗(yàn)取代了硬件研制的傳統(tǒng)做法。各種突破性的思想不斷涌現(xiàn)第1章緒論1.1概述1960年,Denes等人用計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)語音識(shí)別,引入了時(shí)間歸正算法改進(jìn)匹配性能1970年代起,人工智能技術(shù)開始引入到語音識(shí)別中。美國國防部ARPA組織了有CMU等五個(gè)單位參加的一項(xiàng)大規(guī)模語音識(shí)別和理解研究計(jì)劃1970年代中,日本學(xué)者Sakoe提出的動(dòng)態(tài)時(shí)間彎折算法對(duì)小詞表的研究獲得了成功,從而掀起了語音識(shí)別的研究熱潮第1章緒論1.2語音識(shí)別發(fā)展概況誰先提出動(dòng)態(tài)時(shí)間彎折(DTW)算法?

1960年代末期,蘇聯(lián)學(xué)者Vintsyuk提出了采用動(dòng)態(tài)規(guī)劃方法解決兩個(gè)語音的時(shí)間對(duì)準(zhǔn)問題其研究不為學(xué)術(shù)界的廣大研究者所知道1980年代,學(xué)術(shù)界才知道Vintsyuk當(dāng)初的工作;而DTW已廣為人知第1章緒論1.2語音識(shí)別發(fā)展概況是采用動(dòng)態(tài)規(guī)劃技術(shù)將一個(gè)復(fù)雜的全局最優(yōu)化問題轉(zhuǎn)化為許多局部最優(yōu)化問題,一步一步地進(jìn)行決策1970年代末,基于矢量量化碼本生成的LBG算法被提出,矢量量化技術(shù)廣泛應(yīng)用于語音識(shí)別、語音編碼和說話人識(shí)別中1970年代末至80年代初,Baker等將隱馬爾可夫模型(HiddenMarkovModel)技術(shù)應(yīng)用到語音識(shí)別中1985年IBM公司研制了5000詞英語聽寫機(jī)Tangora-5,80年代末完成的Tangora-20能識(shí)別的詞匯達(dá)到了20000,識(shí)別率達(dá)到了94.6%第1章緒論1.2語音識(shí)別發(fā)展概況LBG算法通過訓(xùn)練矢量集和一定的迭代算法來逼近最優(yōu)的再生碼本1990年代初,CMU的LeeKaifu完成的非特定人連續(xù)語音識(shí)別系統(tǒng)SPHINX是最有代表性的,它能識(shí)別997個(gè)詞匯的連續(xù)語音,識(shí)別率達(dá)到95.8%1997年,IBM推出的漢語聽寫機(jī)Viavoice為語音識(shí)別在漢字輸入方面的實(shí)際應(yīng)用開辟了新的道路1999年,Intel推出語音識(shí)別軟件開發(fā)包Spark3.0MicrosoftVoice及基于.net的語音識(shí)別引擎目前,在語音識(shí)別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展第1章緒論1.2語音識(shí)別發(fā)展概況1988年,李開復(fù)獲卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)博士學(xué)位。他的博士論文是世界上第一個(gè)“非特定人連續(xù)語音識(shí)別系統(tǒng)”。1988年,《商業(yè)周刊》授予該系統(tǒng)“最重要科學(xué)創(chuàng)新獎(jiǎng)”。在校期間,李開復(fù)還開發(fā)了“奧賽羅”(黑白棋)人機(jī)對(duì)弈系統(tǒng),因?yàn)?988年擊敗了世界團(tuán)體冠軍美國隊(duì)的一名成員而名噪一時(shí)。1970年代起,國外就開始研究計(jì)算機(jī)網(wǎng)絡(luò)上的語音通信,主要是基于ARPANET網(wǎng)絡(luò)平臺(tái)進(jìn)行研究1974年,首次分組語音實(shí)驗(yàn)是在美國西海岸南加州大學(xué)和東海岸的林肯實(shí)驗(yàn)室間進(jìn)行,數(shù)碼率為9.6kb/s

1975年1月,美國實(shí)現(xiàn)使用LPC聲碼器的分組語音電話會(huì)議1980年代,集中在局域網(wǎng)上的語音通信,最早的實(shí)驗(yàn)是由英國劍橋大學(xué)于1982年在10Mb/s的劍橋環(huán)形網(wǎng)上進(jìn)行的第1章緒論1.3語音編碼發(fā)展概況1988年,美國公布了一個(gè)4.8kb/s的碼激勵(lì)線性預(yù)測(cè)編碼(CELP)語音編碼標(biāo)準(zhǔn)算法進(jìn)入1990年代,隨著Internet的興起和語音編碼技術(shù)的發(fā)展,IP分組語音通信技術(shù)獲得了突破性的進(jìn)展。如網(wǎng)絡(luò)游戲,語音聊天,IP電話技術(shù)1990年代中期,出現(xiàn)了很多被廣泛使用的語音編碼國際標(biāo)準(zhǔn),如數(shù)碼率為5.3/6.4kb/s的G.723.1、數(shù)碼率為8kb/s的G.729等目前,主要集中在4kbit/s碼率以下的高音質(zhì)、低延遲的聲碼器,提高在噪聲信道中低碼率編碼器的性能第1章緒論1.3語音編碼發(fā)展概況第1章緒論1.4語音合成發(fā)展概況1939年,貝爾實(shí)驗(yàn)室利用共振峰原理制作出第一個(gè)電子語音合成器1960年,G.Fant系統(tǒng)地闡述了語音產(chǎn)生的理論,推動(dòng)了語音合成技術(shù)的進(jìn)步1968年,第一個(gè)完整的TTS系統(tǒng)得以實(shí)現(xiàn)1980年,D.Klatt設(shè)計(jì)出串/并聯(lián)混合型共振峰合成器1980年代,基音同步疊加的波形拼接方法PSOLA被提出第1章緒論1.4語音合成發(fā)展概況20世紀(jì)末,提出了可訓(xùn)練的語音合成方法——基于HMM的合成方法目前,語音合成系統(tǒng)具有了很高的可懂度,但自然度還不盡人意說話人識(shí)別說話人日志語種辨識(shí)語音轉(zhuǎn)換語音隱藏語音情感識(shí)別語音增強(qiáng)語音搜索SpeakerRecognition,又稱聲紋識(shí)別、話者識(shí)別。通過對(duì)語音信號(hào)的分析和處理,提取代表說話人個(gè)性信息的特征,計(jì)算機(jī)就能夠自動(dòng)地鑒別說話人的身份。主要分為:SpeakerIdentification和SpeakerVerification。SpeechRetrieval,一種新穎的搜索技術(shù),代替原來的鍵盤或手寫輸入,用戶可以使用語音進(jìn)行檢索和查詢。SpeechHiding,利用語音信號(hào)中存在的冗余及人類感知系統(tǒng)的特性,在不影響原始語音信息感知質(zhì)量的前提下,把額外的信息隱藏到原始語音中的一種技術(shù)。EmotionRecognition,計(jì)算機(jī)對(duì)語音信號(hào)進(jìn)行分析和處理,從而得出說話人的情感狀態(tài)(憤怒、悲傷、高興、恐懼等)。Vo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論