淺論語音編碼_第1頁
淺論語音編碼_第2頁
淺論語音編碼_第3頁
淺論語音編碼_第4頁
淺論語音編碼_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

淺論語音編碼戴福山(長春理工大學110421227)摘要:本文主要介紹了語音編碼的理論根底、方法的分類和幾種典型的語音編碼方法,分析了各種方法的特點及應(yīng)用環(huán)境,同時簡要分析了當前語音編碼總體上三個大的開展方向:極低速率語音編碼、變速率語音編碼和不壓縮語音編碼,并說明了它們的應(yīng)用領(lǐng)域。關(guān)鍵詞:語音編碼語音編碼典型方法語音編碼的開展方向引言語音編碼是將模擬語音信號數(shù)字化的手段.語音信號數(shù)字化后,可以作為數(shù)字數(shù)據(jù)來傳輸、存儲或處理,因而具有一般數(shù)字信號的優(yōu)點。在近半個世紀的研究中,各國研究人員做出了大量努力,從人類的發(fā)生機理、聽覺機理、心理因素以及語音信號的時域特性、頻域特性等多個方面進行了大量研究,從不同角度提出了多種信號編碼方法。一、概述語音編碼是將模擬語音信號數(shù)字化的手段.語音信號數(shù)字化后,可以作為數(shù)字數(shù)據(jù)來傳輸、存儲、或處理,因而具有一般數(shù)字信號的優(yōu)點。話音數(shù)字化的技術(shù)根本可以分為兩大類:第一類方法是在盡可能遵循原波形的前提下,將模擬波形進行數(shù)字化編碼。其中三種最常用的技術(shù)是脈沖編碼調(diào)制(CPM)差分PCM(DPCM)和增量調(diào)制(△M);第二類方法是對模擬波形進行一定處理,但僅對話音和收聽過程中能收聽到的話音局部進行編碼。第二類語音數(shù)字化方法主要與用于窄帶傳輸系統(tǒng)或有限容量的數(shù)字存儲設(shè)備的話音編解碼器有關(guān)。采用該類技術(shù)的設(shè)備一般被稱為聲碼器(語音編碼器)。聲碼器技術(shù)現(xiàn)在正開始展開應(yīng)用,特別是用于幀中繼和IP上等語音。近年來,由于數(shù)字信號處理器體系結(jié)構(gòu)和人類說話與識別方面研究的進步,使話音編解碼技術(shù)得到迅速的開展。新的編解碼技術(shù)不僅提供模擬轉(zhuǎn)換,而且提供復(fù)雜的預(yù)測模式,可以分析話音輸入,并用最少帶寬傳輸話音。二語音編碼的理論根底2.1語音編碼的目的為了使信號適于處理、傳輸和存儲,我們需要對語音信號進行壓縮,語音編碼就是要在保證語音質(zhì)量的前提下得到盡可能少的數(shù)據(jù),所以也常把語音編碼叫做語音壓縮編碼。2.2語音壓縮編碼的可行性〔1〕語音信號中存在大量冗余信息,即:語音信號樣本件具有很強的相關(guān)性;濁音語音段具有準周期特性;聲道的形狀及其變化的速率有限;傳輸碼元的概率分布非均勻。〔2〕人耳對聲音信號中的局部信息不敏感,即人耳對聲音中的低頻成分比高頻成分敏感;人耳對語音信號的相位特征不敏感;人耳中存在“聽覺掩蔽(AuditoryMasking)”效應(yīng),即某一聲音引起聽覺器官對另一聲音的敏感度下降。掩蔽的程度取決于掩蔽聲的強度及掩蔽聲與被掩蔽聲之間的頻率關(guān)系。正是由于這些原因的存在,我們才可以對語音信號進行各種各樣的處理,理論研究和實際應(yīng)用中出現(xiàn)的各種編碼技術(shù)都是以此為根底的。語音編碼技術(shù)原理及應(yīng)用3.1語音編碼的技術(shù)分類語音編碼主要有三種方式:波形編碼、聲碼器和混合編碼,而近年來“感知編碼”也逐漸開始步入實際應(yīng)用行列,通常把編碼速率低于64kbps的語音編碼方式稱為語音壓縮編碼技術(shù).,下面分別介紹這四種編碼方法。波形編碼波形編碼針對語音波形進行的,這種方法在降低量化每個語音樣本比特數(shù)的同時又保持了相對良好的語音質(zhì)量.波形編碼包括時域編碼和頻域編碼?!?〕時域編碼時域編碼主要有脈沖編碼調(diào)制(PCM)、差分脈碼調(diào)制(DPCM)、增量調(diào)制(ΔM)、自適應(yīng)差分脈碼調(diào)制(ADPCM)、自適應(yīng)增量調(diào)制(ADM)、自適應(yīng)預(yù)測編碼(APC)等。線性PCM是用同等的量化級進行量化,沒有利用聲音的性質(zhì),所以信息沒有得到壓縮,對數(shù)PCM利用了語音信號幅度的統(tǒng)計特性,對幅度按對數(shù)變換壓縮,將壓縮的結(jié)果作線性編碼,在接收端解碼時,按指數(shù)擴展,這種方法在數(shù)字通信中得到了廣泛的應(yīng)用,PCM最大缺點是數(shù)碼率高,在傳輸時所占頻帶較寬。差分脈碼調(diào)制(DPCM)是根據(jù)相鄰采樣值的差值信號進行編碼,圖1是DPCM原理方框圖。ADPCM是在DPCM的根底上開展起來的,其量化器與預(yù)測器的參數(shù)能根據(jù)輸入信號的統(tǒng)計特性自適應(yīng)于最正確或接近于最正確參數(shù)狀態(tài).ADPCM是語音編碼中復(fù)雜程度較低的一種方法。增量調(diào)制是根據(jù)信號的瞬值是否增大或減小,即根據(jù)增量編碼,用一位二進制碼序列對模擬信號進行編碼.這種方法簡單,實現(xiàn)容易,但由于量階固定,量化噪聲功率固定,所以當信號下降時,信噪比(SNR)下降.為了改良這種方法的動態(tài)范圍,引進了自適應(yīng)技術(shù),讓量階的大小隨輸入信號的統(tǒng)計特性變化而變,這種方法稱為自適應(yīng)增量調(diào)制(ADM)。,APC是根據(jù)語音的統(tǒng)計特性,由過去的采樣值精確預(yù)測出當前樣值的一種編碼方法,它是通過自適應(yīng)預(yù)測器來提高預(yù)測精度的,預(yù)測得越精確,編碼速率越低。頻域編碼.頻域編碼方式主要有子帶編碼(SBC)和自適應(yīng)變換編碼(ATC)SBC是利用帶通濾波器將語音頻帶分成假設(shè)干子帶,并且分別進行采樣、編碼,編碼方式可以用ADPCM或ADM,SBC速率可以到達9.6kbps.可變SBC可使子帶的設(shè)計不固定,而是隨共振峰變化,使編碼速率進一步提高,這種方式在速率為4.8kbps時可具有相當于7.2kbps的固定SBC的語音質(zhì)量.ATC是先將語音信號在時間上分段,每一段信號一般有64~512個采樣,再將每段時域語音數(shù)據(jù)經(jīng)正交變換轉(zhuǎn)換到頻域,得到相應(yīng)的各組頻域系數(shù),然后分別對每一組系數(shù)的每個分量單獨量化、編碼和傳輸,在接收端解碼得到的每組系數(shù)再進行頻域至時域的反變換,恢復(fù)時段信號,最后將各時段連接成語音信號,ATC編碼在速率為12~16kbps可得到優(yōu)質(zhì)語音.3.1.2聲碼器所謂聲碼器是根據(jù)發(fā)音模型,分析并提取語音信號的特征參數(shù),且只傳送能夠合成語音信息的參數(shù),不需要再現(xiàn)原語音的波形,由于模型參數(shù)相對于語音信號而言數(shù)據(jù)量非常小,所以參量編碼的編碼率很低,但利用這種編碼方法得到的語音質(zhì)量不理想。典型的聲碼器有譜帶式、共振峰式和按線性預(yù)測分析(LPC)所組成的聲碼器等。圖2是線性預(yù)測編碼器。3.1.3混合編碼由于前面兩類編碼方法各有優(yōu)缺點,所以后來的研究者更多的是考慮如何將它們綜合起來以形成一種性能更優(yōu)的編碼算法,混合編碼就是基于這種想法被提出的。其代表是一類稱之為“按分析合成”(ABS)的方法,采用聽覺加權(quán)技術(shù),在閉環(huán)的根底上尋找主觀意義上失真最小的鼓勵矢量.由于采用的鼓勵信號模型不同,這類方法派生出多種新的編碼方法,典型的方法有剩余鼓勵線性預(yù)測編碼(RELP),多脈沖鼓勵線性預(yù)測編碼(MPC),碼鼓勵線性預(yù)測編碼(CELP)。圖3為RPE-LTP編碼器的原理框圖。3.1.4感知編碼大局部的編碼技術(shù)還融合了人類聽覺系統(tǒng)的心理聲學原理,即感知器編碼技術(shù)。這種編碼方法利用了人耳聽覺的心理聲學特性,但凡人耳感覺不到的成分不編碼、不傳送,從而到達降低數(shù)據(jù)量而又不影響聲音質(zhì)量的目的(見圖4)。

圖5語音質(zhì)量與編碼速率關(guān)系3.2語音編碼

圖5語音質(zhì)量與編碼速率關(guān)系語音質(zhì)量與編碼速率的關(guān)系如圖5所示。64kbps的PCM編碼方法可以得到高質(zhì)量的語音,利用波形相關(guān)性及頻譜特性可以將其壓縮到24~32kbps,進一步在利用音調(diào)結(jié)構(gòu)的同時,進行噪聲整形,可以壓縮到9.6kbps.但是如果降低的比特數(shù)超過上述數(shù)目,語音質(zhì)量將急劇劣化,聲碼可以使比特數(shù)減少較多,但語音質(zhì)量欠佳?;旌暇幋a將波形編碼和聲碼器結(jié)合起來,在編碼速率較低的情況下獲得較好語音質(zhì)量。3.4語音編碼標準及應(yīng)用實際應(yīng)用的語音編碼算法將會綜合考慮各種因素,糅合以上各類編碼方法得到的,以期得到特定條件下最正確的編碼性能。經(jīng)過多年的開展,目前已有多個技術(shù)標準,并應(yīng)用于不同的領(lǐng)域。詳見下表:四、語音編碼的開展方向

當前語音編碼總體上有三個大的開展方向。一個方向是語音編碼進一步低速率化。另一方向是變速率語音編碼。當然,還有一個開展方向就是語音不壓縮。這是因為目前傳輸帶寬增長很快,傳輸本錢大幅度下降,為語音編碼付出的費用與所節(jié)省的傳輸費用相比變得不合算了,語音不壓縮傳輸所需費用反而更低。

4.1語音編碼開展方向——極低速率語音編碼4.1.1極低速率語音編碼極低速率語音編碼是指比特率低于2400bit/s的語音編解碼器。在保密通信、語音郵件、網(wǎng)絡(luò)通信、IP等領(lǐng)域有廣泛的應(yīng)用前景。特別是在信息化戰(zhàn)場上廣泛應(yīng)用于單兵作戰(zhàn)通信設(shè)備上。4.1.2極低速率語音編碼開展的必要性在現(xiàn)代通信中,信道利用的有效性和經(jīng)濟性仍是研究的重要目標。極低速率語音編碼技術(shù)是語音通信中不可缺少的一個研究方向。在實際通信中,有些信道難以擴寬且質(zhì)量很差,如短波信道;有的信道正被廣泛使用,短期內(nèi)難以更新;有些特殊條件下的通信,如強干擾下的軍事通信等,還有些昂貴的信道,節(jié)省的每一個比特都意味著經(jīng)濟上的好處。在這些條件下,極低速率語音編碼極具吸引力。隨著數(shù)字通信業(yè)務(wù)的開展,高質(zhì)量的極低速率語音編碼技術(shù)將成為研究的熱點。4.2語音編碼開展方向——變速率語音編碼4.2.1變速率語音編碼變速率語音編碼是指在通信過程中,通信系統(tǒng)根據(jù)需要動態(tài)地調(diào)整語音編碼速率,在合成語音質(zhì)量和系統(tǒng)容量中取得靈活的折衷,最大限度地發(fā)揮系統(tǒng)的效能。在當前應(yīng)用廣泛、前景廣闊的碼分多址(CDMA)移動通信系統(tǒng)中,采用的變速率語音編碼算法對于系統(tǒng)的容量和通話質(zhì)量有非常重要的影響。隨著技術(shù)的成熟,它的應(yīng)用領(lǐng)域也越來越廣闊,不僅限于移動通信系統(tǒng),在IP、互聯(lián)網(wǎng)和衛(wèi)星通信中都有很好的應(yīng)用前景。4.2.2變速率語音編碼開展的必要性傳統(tǒng)的語音編碼總體來講,較高速率的編碼算法對話音質(zhì)量較易保證,但占用網(wǎng)絡(luò)資源較大;較低速率的編碼算法占用網(wǎng)絡(luò)資源小,但對話音質(zhì)量較難保證。近年來,通信系統(tǒng)開展迅速,隨著移動通信的開展,尤其是第三代移動通信的開展,對語音壓縮編碼算法提出了更高的要求,不但要求編碼碼率較低以增加系統(tǒng)容量,而且要求合成音質(zhì)較高以保證通話質(zhì)量。用傳統(tǒng)的編碼方式,很難同時滿足這兩個要求。在這種形勢下,提出了變速率語音壓縮編碼的方法。它可以根據(jù)需要動態(tài)地調(diào)整編碼速率,在合成語音質(zhì)量和系統(tǒng)容量二者中取得靈活的折衷,最大限度地發(fā)揮系統(tǒng)的效能。4.3語音編碼開展方向——不壓縮語音編碼極低速率語音編碼和變速率語音編碼是當前語音編碼的主要開展方向。但也有一些通信系統(tǒng)仍然采用不壓縮語音編碼。這是因為目前傳輸帶寬增長很快,特別是光纖通信的開展,使得傳輸本錢大幅度下降,為語音編碼付出的費用與所節(jié)省的傳輸費用相比變得不合算了,語音不壓縮傳輸所需費用反而更低。因此這些系統(tǒng)就采用了不壓縮的語音編碼算法,大多數(shù)直接利用PCM編碼進行傳輸。這樣可以保證很高的語音通信質(zhì)量和比擬簡單的通信設(shè)備,大大地降低了通信費用。不壓縮語音編碼主要應(yīng)用于地面微波通信和光纖通信系統(tǒng)中。當然,語音編碼除了上述三個總體的開展方向以外,尋找最正確的語音鼓勵模型和對人類聽覺系統(tǒng)機理的不斷認識將是近一段時間內(nèi)的根底性研究工作。結(jié)語語音編碼是語音信號處理的一個重要方面,它和通信領(lǐng)域聯(lián)系最為密切。而語音識別、語音合成、語音增強等方面在理論和方法上與語音編碼有很多相通之處。因此,系統(tǒng)、全面地了解當今語音編碼的開展方向,對語音通信領(lǐng)域工作的開展具有重要意義。語音編碼是一個人們熟知的領(lǐng)域,又是一個新穎的領(lǐng)域,隨著信息時代的到來對語音編碼提出了新的要求,語音編碼技術(shù)定將進一步開展。參考文獻[1]王文星,語音編碼技術(shù)的分析與應(yīng)用,焦作工學院學報(自然科學版),2002年5月[2]何春榮,淺析語音編碼的三個開展方向,成都紡織高等??茖W校學報,2008年1月[3]周波、許萌,數(shù)字語音編碼技術(shù)研究,科技情報開發(fā)與經(jīng)濟,2008年第18卷第3期[4]張學英,數(shù)字語音處理及matlab仿真,電子工業(yè)出版社,2014年[5]陳學藝、凌朝東、陳哲平、楊驍,MELP在數(shù)字對講機基帶系統(tǒng)中的應(yīng)用【J】,通信技術(shù),2012年[6]趙翠、周遙、毛鑫萍、馬永陽,基于先行預(yù)測的自適應(yīng)語音壓縮感知【J】,杭州電子科技大學學報,2012〔04〕[7][8]梁彥霞.低速率多帶鼓勵線性預(yù)測語音編碼技術(shù)的研究[D].西安電子科技大學2011[9]魏麗英簡析語音編碼長春工業(yè)大學人文信息學院;2010-11-05[10]計哲低速率語音編碼算法研究清華大學2011-04-01[11]何洪華超低速率語音編碼算法研究清華大學2011-05-01[12]劉華;高飛燕;李軍紅ACELP語音編碼算法改良與仿真中國自動化學會控制理論專業(yè)委員會B卷2011-07-22[13]張輝;陳小云G.729語音編碼算法的分析及其基于ARM9的優(yōu)化實現(xiàn)長春理工大學學報(自然科學版)2011-09-15[14]石寧數(shù)字通信中的語音編碼技術(shù)無線互聯(lián)科技2011-09-15[15]杜剛;王慶揚;王月珍移動網(wǎng)語音編碼技術(shù)分析及演進2012全國無線及移動通信學術(shù)大會論文集〔下〕2012-09-01[16]周嘉偉自適應(yīng)多速率語音編碼算法的改良和實現(xiàn)西安電子科技大學2013-03-01[17]蔡楊基于PLP分析的CELP編碼華東理工大學2012-12-23

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論