淺論語音編碼_第1頁
淺論語音編碼_第2頁
淺論語音編碼_第3頁
淺論語音編碼_第4頁
淺論語音編碼_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 語語 音音 編編 碼碼 制作人制作人 :110421227 戴福山戴福山一、概述一、概述二二、語音編碼的理論基礎語音編碼的理論基礎三、語音編碼技術原理及應用三、語音編碼技術原理及應用四、語音編碼的發(fā)展方向四、語音編碼的發(fā)展方向一、概述一、概述 語音編碼是將模擬語音信號數(shù)字化的手段.語音信號數(shù)字化后, 可以作為數(shù)字數(shù)據(jù)來傳輸、存儲、或處理,因而具有一般數(shù)字信號的優(yōu)點。 話音數(shù)字化的技術基本可以分為兩大類: 第一類方法是在盡可能遵循原波形的前提下, 將模擬波形進行數(shù)字化編碼。其中三種最常用的技術是脈沖編碼調(diào)制( CP M )、差分P C M ( D P C M ) 和增量調(diào)制( M ) ; 第二

2、類方法是對模擬波形進行一定處理, 但僅對話音和收聽過程中能收聽到的話音部分進行編碼。第二類語音數(shù)字化方法主要與用于窄帶傳輸系統(tǒng)或有限容量的數(shù)字存儲設備的話音編解碼器有關。采用該類技術的設備一般被稱為聲碼器( 語音編碼器) 。聲碼器技術現(xiàn)在正開始展開應用, 特別是用于幀中繼和IP 上等語音。 二二、語音編碼的理論基礎語音編碼的理論基礎2.1 2.1 語音編碼的目的語音編碼的目的 為了使信號適于處理、傳輸和存儲, 我們需要對語音信號進行壓縮,語音編碼就是要在保證語音質(zhì)量的前提下得到盡可能少的數(shù)據(jù), 所以也常把語音編碼叫做語音壓縮編碼。2.2 2.2 語音壓縮編碼的可行性語音壓縮編碼的可行性 (1)

3、語音信號中存在大量冗余信息 (2)人耳中存在“聽覺掩蔽( Auditory Masking) ”效應, 三、語音編碼技術原理及應用 3.1語音編碼的技術分類 波形編碼聲碼器(參數(shù)編碼)混合編碼語音編碼技術感知編碼3.1.1 3.1.1 波形編碼波形編碼 波形編碼針對語音波形進行的, 這種方法在降低量化每個語音樣本比特數(shù)的同時又保持了相對良好的語音質(zhì)量.波形編碼包括時域編碼和頻域編碼。(1 1)時域編碼)時域編碼 時域編碼主要有脈沖編碼調(diào)制(PCM)、差分脈碼調(diào)制(DPCM)、增量調(diào)制(M)、自適應差分脈碼調(diào)制(ADPCM)、自適應增量調(diào)制(ADM)、自適應預測編碼(APC)等。 (2)頻域編碼

4、頻域編碼主要方式子帶編碼(SBC)自適應變換編碼(ATC)返回返回3.1.2 聲碼器(參量編碼) 所謂聲碼器是根據(jù)發(fā)音模型, 分析并提取語音信號的特征參數(shù), 且只傳送能夠合成語音信息的參數(shù), 不需要再現(xiàn)原語音的波形, 由于模型參數(shù)相對于語音信號而言數(shù)據(jù)量非常小, 所以參量編碼的編碼率很低, 但利用這種編碼方法得到的語音質(zhì)量不理想。典型的聲碼器有譜帶式、共振峰式和按線性預測分析(LPC)所組成的聲碼器等。圖2 是線性預測編碼器。返回返回3.1.3 混合編碼 由于前面兩類編碼方法各有優(yōu)缺點, 所以后來的研究者更多的是考慮如何將它們綜合起來以形成一種性能更優(yōu)的編碼算法, 混合編碼就是基于這種想法被提

5、出的。其代表是一類稱之為“按分析合成” (ABS) 的方法, 采用聽覺加權技術, 在閉環(huán)的基礎上尋找主觀意義上失真最小的激勵矢量.由于采用的激勵信號模型不同, 這類方法派生出多種新的編碼方法,典型的方法有剩余激勵線性預測編碼(RELP), 多脈沖激勵線性預測編碼(MPC), 碼激勵線性預測編碼(CELP)。圖3為RPE-LTP編碼器的原理框圖。返回返回3.1.4 感知編碼 大部分的編碼技術還融合了人類聽覺系統(tǒng)的心理聲學原理, 即感知器編碼技術。這種編碼方法利用了人耳聽覺的心理聲學特性, 凡是人耳感覺不到的成分不編碼、不傳送, 從而達到降低數(shù)據(jù)量而又不影響聲音質(zhì)量的目的( 見圖4) 。返回返回3

6、.2 語音編碼標準及應用 實際應用的語音編碼算法將會綜合考慮各種因素, 糅合以上各類編碼方法得到的, 以期得到特定條件下最佳的編碼性能。經(jīng)過多年的發(fā)展,目前已有多個技術標準, 并應用于不同的領域。詳見下表:四、語音編碼的發(fā)展方向 當前語音編碼總體上有三個大的發(fā)展方向。一個方向是語音編碼進一步低速率化。另一方向是變速率語音編碼。當然, 還有一個發(fā)展方向就是語音不壓縮。 當然, 語音編碼除了上述三個總體的發(fā)展方向以外,尋找最佳的語音激勵模型和對人類聽覺系統(tǒng)機理的不斷認識將是近一段時間內(nèi)的基礎性研究工作。 極低速率語音編碼是指比特率低于2400 bit/s的語音編解碼器。在保密通信、語音郵件、網(wǎng)絡通

7、信、IP電話等領域有廣泛的應用前景。特別是在信息化戰(zhàn)場上廣泛應用于單兵作戰(zhàn)通信設備上。 變速率語音編碼是指在通信過程中, 通信系統(tǒng)根據(jù)需要動態(tài)地調(diào)整語音編碼速率, 在合成語音質(zhì)量和系統(tǒng)容量中取得靈活的折衷, 最大限度地發(fā)揮系統(tǒng)的效能。在當前應用廣泛、前景廣闊的碼分多址( CDMA )移動通信系統(tǒng)中, 采用的變速率語音編碼算法對于系統(tǒng)的容量和通話質(zhì)量有非常重要的影響。隨著技術的成熟, 它的應用領域也越來越廣闊, 不僅限于移動通信系統(tǒng), 在IP電話、互聯(lián)網(wǎng)和衛(wèi)星通信中都有很好的應用前景。 不壓縮語音編碼主要應用于地面微波通信和光纖通信系統(tǒng)中。 極低速率語音編碼和變速率語音編碼是當前語音編碼的主要發(fā)展方向。但也有一些通信系統(tǒng)仍然采用不壓縮語音編碼。這是因為目前傳輸帶寬增長很快, 特別是光纖通信的發(fā)展, 使得傳輸成本大幅度下降, 為語音編碼付出的費用與所節(jié)省的傳輸費用相比變得不合算了, 語音不壓縮傳輸所需費用反而更低。因此這些系統(tǒng)就采用了不壓縮的語音編碼算法, 大多數(shù)直接利用PCM 編碼進行傳輸。這樣可以保證很高的語音通信質(zhì)量和比較簡單的通信設備, 大大地降低了通信費用。 語音編碼是語音信號處理的一個重要方面, 它和通信領域聯(lián)系最為密切。而語音識別、語音合成、語音增強等方面在理論和方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論