淺論語(yǔ)音編碼講解_第1頁(yè)
淺論語(yǔ)音編碼講解_第2頁(yè)
淺論語(yǔ)音編碼講解_第3頁(yè)
淺論語(yǔ)音編碼講解_第4頁(yè)
淺論語(yǔ)音編碼講解_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

淺論語(yǔ)音編碼戴福山(長(zhǎng)春理工大學(xué))摘要:本文重要介紹了語(yǔ)音編碼的理論基礎(chǔ)、辦法的分類和幾個(gè)典型的語(yǔ)音編碼辦法,分析了多個(gè)辦法的特點(diǎn)及應(yīng)用環(huán)境,同時(shí)簡(jiǎn)要分析了現(xiàn)在語(yǔ)音編碼總體上三個(gè)大的發(fā)展方向:極低速率語(yǔ)音編碼、變速率語(yǔ)音編碼和不壓縮語(yǔ)音編碼,并闡明了它們的應(yīng)用領(lǐng)域。核心詞:語(yǔ)音編碼語(yǔ)音編碼典型辦法語(yǔ)音編碼的發(fā)展方向引言語(yǔ)音編碼是將模擬語(yǔ)音信號(hào)數(shù)字化的手段.語(yǔ)音信號(hào)數(shù)字化后,能夠作為數(shù)字?jǐn)?shù)據(jù)來傳輸、存儲(chǔ)或解決,因而含有普通數(shù)字信號(hào)的優(yōu)點(diǎn)。在近半個(gè)世紀(jì)的研究中,各國(guó)研究人員做出了大量努力,從人類的發(fā)生機(jī)理、聽覺機(jī)理、心理因素以及語(yǔ)音信號(hào)的時(shí)域特性、頻域特性等多個(gè)方面進(jìn)行了大量研究,從不同角度提出了多個(gè)信號(hào)編碼辦法。一、概述語(yǔ)音編碼是將模擬語(yǔ)音信號(hào)數(shù)字化的手段.語(yǔ)音信號(hào)數(shù)字化后,能夠作為數(shù)字?jǐn)?shù)據(jù)來傳輸、存儲(chǔ)、或解決,因而含有普通數(shù)字信號(hào)的優(yōu)點(diǎn)。

話音數(shù)字化的技術(shù)基本能夠分為兩大類:第一類辦法是在盡量遵照原波形的前提下,將模擬波形進(jìn)行數(shù)字化編碼。其中三種最慣用的技術(shù)是脈沖編碼調(diào)制(CPM)差分PCM(DPCM)和增量調(diào)制(△M);第二類辦法是對(duì)模擬波形進(jìn)行一定解決,但僅對(duì)話音和收聽過程中能收聽到的話音部分進(jìn)行編碼。第二類語(yǔ)音數(shù)字化辦法重要與用于窄帶傳輸系統(tǒng)或有限容量的數(shù)字存儲(chǔ)設(shè)備的話音編解碼器有關(guān)。采用該類技術(shù)的設(shè)備普通被稱為聲碼器(語(yǔ)音編碼器)。聲碼器技術(shù)現(xiàn)在正開始展開應(yīng)用,特別是用于幀中繼和IP上等語(yǔ)音。近年來,由于數(shù)字信號(hào)解決器體系構(gòu)造和人類說話與識(shí)別方面研究的進(jìn)步,使話音編解碼技術(shù)得到快速的發(fā)展。新的編解碼技術(shù)不僅提供模擬轉(zhuǎn)換,并且提供復(fù)雜的預(yù)測(cè)模式,能夠分析話音輸入,并用最少帶寬傳輸話音。二語(yǔ)音編碼的理論基礎(chǔ)2.1語(yǔ)音編碼的目的為了使信號(hào)適于解決、傳輸和存儲(chǔ),我們需要對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮,語(yǔ)音編碼就是要在確保語(yǔ)音質(zhì)量的前提下得到盡量少的數(shù)據(jù),因此也常把語(yǔ)音編碼叫做語(yǔ)音壓縮編碼。2.2語(yǔ)音壓縮編碼的可行性(1)語(yǔ)音信號(hào)中存在大量冗余信息,即:語(yǔ)音信號(hào)樣本件含有很強(qiáng)的有關(guān)性;濁音語(yǔ)音段含有準(zhǔn)周期特性;聲道的形狀及其變化的速率有限;傳輸碼元的概率分布非均勻。(2)人耳對(duì)聲音信號(hào)中的部分信息不敏感,即人耳對(duì)聲音中的低頻成分比高頻成分敏感;人耳對(duì)語(yǔ)音信號(hào)的相位特性不敏感;人耳中存在“聽覺掩蔽(AuditoryMasking)”效應(yīng),即某一聲音引發(fā)聽覺器官對(duì)另一聲音的敏感度下降。掩蔽的程度取決于掩蔽聲的強(qiáng)度及掩蔽聲與被掩蔽聲之間的頻率關(guān)系。正是由于這些因素的存在,我們才能夠?qū)φZ(yǔ)音信號(hào)進(jìn)行多個(gè)各樣的解決,理論研究和實(shí)際應(yīng)用中出現(xiàn)的多個(gè)編碼技術(shù)都是以此為基礎(chǔ)的。語(yǔ)音編碼技術(shù)原理及應(yīng)用3.1語(yǔ)音編碼的技術(shù)分類語(yǔ)音編碼重要有三種方式:波形編碼、聲碼器和混合編碼,而近年來“感知編碼”也逐步開始步入實(shí)際應(yīng)用行列,普通把編碼速率低于64kbps的語(yǔ)音編碼方式稱為語(yǔ)音壓縮編碼技術(shù).,下面分別介紹這四種編碼辦法。3.1.1波形編碼波形編碼針對(duì)語(yǔ)音波形進(jìn)行的,這種辦法在減少量化每個(gè)語(yǔ)音樣本比特?cái)?shù)的同時(shí)又保持了相對(duì)良好的語(yǔ)音質(zhì)量.波形編碼涉及時(shí)域編碼和頻域編碼。(1)時(shí)域編碼時(shí)域編碼重要有脈沖編碼調(diào)制(PCM)、差分脈碼調(diào)制(DPCM)、增量調(diào)制(ΔM)、自適應(yīng)差分脈碼調(diào)制(ADPCM)、自適應(yīng)增量調(diào)制(ADM)、自適應(yīng)預(yù)測(cè)編碼(APC)等。線性PCM是用同等的量化級(jí)進(jìn)行量化,沒有運(yùn)用聲音的性質(zhì),因此信息沒有得到壓縮,對(duì)數(shù)PCM運(yùn)用了語(yǔ)音信號(hào)幅度的統(tǒng)計(jì)特性,對(duì)幅度按對(duì)數(shù)變換壓縮,將壓縮的成果作線性編碼,在接受端解碼時(shí),按指數(shù)擴(kuò)展,這種辦法在數(shù)字電話通信中得到了廣泛的應(yīng)用,PCM最大缺點(diǎn)是數(shù)碼率高,在傳輸時(shí)所占頻帶較寬。差分脈碼調(diào)制(DPCM)是根據(jù)相鄰采樣值的差值信號(hào)進(jìn)行編碼,圖1是DPCM原理方框圖。ADPCM是在DPCM的基礎(chǔ)上發(fā)展起來的,其量化器與預(yù)測(cè)器的參數(shù)能根據(jù)輸入信號(hào)的統(tǒng)計(jì)特性自適應(yīng)于最佳或靠近于最佳參數(shù)狀態(tài).ADPCM是語(yǔ)音編碼中復(fù)雜程度較低的一種辦法。增量調(diào)制是根據(jù)信號(hào)的瞬值與否增大或減小,即根據(jù)增量編碼,用一位二進(jìn)制碼序列對(duì)模擬信號(hào)進(jìn)行編碼.這種辦法簡(jiǎn)樸,實(shí)現(xiàn)容易,但由于量階固定,量化噪聲功率固定,因此當(dāng)信號(hào)下降時(shí),信噪比(SNR)下降.為了改善這種辦法的動(dòng)態(tài)范疇,引進(jìn)了自適應(yīng)技術(shù),讓量階的大小隨輸入信號(hào)的統(tǒng)計(jì)特性變化而變,這種辦法稱為自適應(yīng)增量調(diào)制(ADM)。,APC是根據(jù)語(yǔ)音的統(tǒng)計(jì)特性,由過去的采樣值精確預(yù)測(cè)出現(xiàn)在樣值的一種編碼辦法,它是通過自適應(yīng)預(yù)測(cè)器來提高預(yù)測(cè)精度的,預(yù)測(cè)得越精確,編碼速率越低。頻域編碼.頻域編碼方式重要有子帶編碼(SBC)和自適應(yīng)變換編碼(ATC)SBC是運(yùn)用帶通濾波器將語(yǔ)音頻帶分成若干子帶,并且分別進(jìn)行采樣、編碼,編碼方式能夠用ADPCM或ADM,SBC速率能夠達(dá)成9.6kbps.可變SBC可使子帶的設(shè)計(jì)不固定,而是隨共振峰變化,使編碼速率進(jìn)一步提高,這種方式在速率為4.8kbps時(shí)可含有相稱于7.2kbps的固定SBC的語(yǔ)音質(zhì)量.ATC是先將語(yǔ)音信號(hào)在時(shí)間上分段,每一段信號(hào)普通有64~512個(gè)采樣,再將每段時(shí)域語(yǔ)音數(shù)據(jù)經(jīng)正交變換轉(zhuǎn)換到頻域,得到對(duì)應(yīng)的各組頻域系數(shù),然后分別對(duì)每一組系數(shù)的每個(gè)分量單獨(dú)量化、編碼和傳輸,在接受端解碼得到的每組系數(shù)再進(jìn)行頻域至?xí)r域的反變換,恢復(fù)時(shí)段信號(hào),最后將各時(shí)段連接成語(yǔ)音信號(hào),ATC編碼在速率為12~16kbps可得到優(yōu)質(zhì)語(yǔ)音.3.1.2聲碼器所謂聲碼器是根據(jù)發(fā)音模型,分析并提取語(yǔ)音信號(hào)的特性參數(shù),且只傳送能夠合成語(yǔ)音信息的參數(shù),不需要再現(xiàn)原語(yǔ)音的波形,由于模型參數(shù)相對(duì)于語(yǔ)音信號(hào)而言數(shù)據(jù)量非常小,因此參量編碼的編碼率很低,但運(yùn)用這種編碼辦法得到的語(yǔ)音質(zhì)量不抱負(fù)。典型的聲碼器有譜帶式、共振峰式和按線性預(yù)測(cè)分析(LPC)所構(gòu)成的聲碼器等。圖2是線性預(yù)測(cè)編碼器。3.1.3混合編碼由于前面兩類編碼辦法各有優(yōu)缺點(diǎn),因此后來的研究者更多的是考慮如何將它們綜合起來以形成一種性能更優(yōu)的編碼算法,混合編碼就是基于這種想法被提出的。其代表是一類稱之為“按分析合成”(ABS)的辦法,采用聽覺加權(quán)技術(shù),在閉環(huán)的基礎(chǔ)上尋找主觀意義上失真最小的激勵(lì)矢量.由于采用的激勵(lì)信號(hào)模型不同,這類辦法派生出多個(gè)新的編碼辦法,典型的辦法有剩余激勵(lì)線性預(yù)測(cè)編碼(RELP),多脈沖激勵(lì)線性預(yù)測(cè)編碼(MPC),碼激勵(lì)線性預(yù)測(cè)編碼(CELP)。圖3為RPE-LTP編碼器的原理框圖。3.1.4感知編碼大部分的編碼技術(shù)還融合了人類聽覺系統(tǒng)的心理聲學(xué)原理,即感知器編碼技術(shù)。這種編碼辦法運(yùn)用了人耳聽覺的心理聲學(xué)特性,但凡人耳感覺不到的成分不編碼、不傳送,從而達(dá)成減少數(shù)據(jù)量而又不影響聲音質(zhì)量的目的(見圖4)。

圖5語(yǔ)音質(zhì)量與編碼速率關(guān)系3.2語(yǔ)音編碼

圖5語(yǔ)音質(zhì)量與編碼速率關(guān)系語(yǔ)音質(zhì)量與編碼速率的關(guān)系如圖5所示。64kbps的PCM編碼辦法能夠得到高質(zhì)量的語(yǔ)音,運(yùn)用波形有關(guān)性及頻譜特性能夠?qū)⑵鋲嚎s到24~32kbps,進(jìn)一步在運(yùn)用音調(diào)構(gòu)造的同時(shí),進(jìn)行噪聲整形,能夠壓縮到9.6kbps.但是如果減少的比特?cái)?shù)超過上述數(shù)目,語(yǔ)音質(zhì)量將急劇劣化,聲碼能夠使比特?cái)?shù)減少較多,但語(yǔ)音質(zhì)量欠佳。混合編碼將波形編碼和聲碼器結(jié)合起來,在編碼速率較低的狀況下獲得較好語(yǔ)音質(zhì)量。3.4語(yǔ)音編碼原則及應(yīng)用實(shí)際應(yīng)用的語(yǔ)音編碼算法將會(huì)綜合考慮多個(gè)因素,糅合以上各類編碼辦法得到的,以期得到特定條件下最佳的編碼性能。通過數(shù)年的發(fā)展,現(xiàn)在已有多個(gè)技術(shù)原則,并應(yīng)用于不同的領(lǐng)域。詳見下表:四、語(yǔ)音編碼的發(fā)展方向

現(xiàn)在語(yǔ)音編碼總體上有三個(gè)大的發(fā)展方向。一種方向是語(yǔ)音編碼進(jìn)一步低速率化。另一方向是變速率語(yǔ)音編碼。固然,尚有一種發(fā)展方向就是語(yǔ)音不壓縮。這是由于現(xiàn)在傳輸帶寬增加很快,傳輸成本大幅度下降,為語(yǔ)音編碼付出的費(fèi)用與所節(jié)省的傳輸費(fèi)用相比變得不合算了,語(yǔ)音不壓縮傳輸所需費(fèi)用反而更低。

4.1語(yǔ)音編碼發(fā)展方向——極低速率語(yǔ)音編碼4.1.1極低速率語(yǔ)音編碼極低速率語(yǔ)音編碼是指比特率低于2400bit/s的語(yǔ)音編解碼器。在保密通信、語(yǔ)音郵件、網(wǎng)絡(luò)通信、IP電話等領(lǐng)域有廣泛的應(yīng)用前景。特別是在信息化戰(zhàn)場(chǎng)上廣泛應(yīng)用于單兵作戰(zhàn)通信設(shè)備上。4.1.2極低速率語(yǔ)音編碼發(fā)展的必要性在當(dāng)代通信中,信道運(yùn)用的有效性和經(jīng)濟(jì)性仍是研究的重要目的。極低速率語(yǔ)音編碼技術(shù)是語(yǔ)音通信中不可缺少的一種研究方向。在實(shí)際通信中,有些信道難以擴(kuò)寬且質(zhì)量很差,如短波信道;有的信道正被廣泛使用,短期內(nèi)難以更新;有些特殊條件下的通信,如強(qiáng)干擾下的軍事通信等,尚有些昂貴的信道,節(jié)省的每一種比特都意味著經(jīng)濟(jì)上的好處。在這些條件下,極低速率語(yǔ)音編碼極具吸引力。隨著數(shù)字通信業(yè)務(wù)的發(fā)展,高質(zhì)量的極低速率語(yǔ)音編碼技術(shù)將成為研究的熱點(diǎn)。4.2語(yǔ)音編碼發(fā)展方向——變速率語(yǔ)音編碼4.2.1變速率語(yǔ)音編碼變速率語(yǔ)音編碼是指在通信過程中,通信系統(tǒng)根據(jù)需要?jiǎng)討B(tài)地調(diào)節(jié)語(yǔ)音編碼速率,在合成語(yǔ)音質(zhì)量和系統(tǒng)容量中獲得靈活的折衷,最大程度地發(fā)揮系統(tǒng)的效能。在現(xiàn)在應(yīng)用廣泛、前景廣闊的碼分多址(CDMA)移動(dòng)通信系統(tǒng)中,采用的變速率語(yǔ)音編碼算法對(duì)于系統(tǒng)的容量和通話質(zhì)量有非常重要的影響。隨著技術(shù)的成熟,它的應(yīng)用領(lǐng)域也越來越廣闊,不僅限于移動(dòng)通信系統(tǒng),在IP電話、互聯(lián)網(wǎng)和衛(wèi)星通信中都有較好的應(yīng)用前景。4.2.2變速率語(yǔ)音編碼發(fā)展的必要性傳統(tǒng)的語(yǔ)音編碼總體來講,較高速率的編碼算法對(duì)話音質(zhì)量較易確保,但占用網(wǎng)絡(luò)資源較大;較低速率的編碼算法占用網(wǎng)絡(luò)資源小,但對(duì)話音質(zhì)量較難確保。近年來,通信系統(tǒng)發(fā)展快速,隨著移動(dòng)通信的發(fā)展,特別是第三代移動(dòng)通信的發(fā)展,對(duì)語(yǔ)音壓縮編碼算法提出了更高的規(guī)定,不僅規(guī)定編碼碼率較低以增加系統(tǒng)容量,并且規(guī)定合成音質(zhì)較高以確保通話質(zhì)量。用傳統(tǒng)的編碼方式,很難同時(shí)滿足這兩個(gè)規(guī)定。在這種形勢(shì)下,提出了變速率語(yǔ)音壓縮編碼的辦法。它能夠根據(jù)需要?jiǎng)討B(tài)地調(diào)節(jié)編碼速率,在合成語(yǔ)音質(zhì)量和系統(tǒng)容量?jī)烧咧蝎@得靈活的折衷,最大程度地發(fā)揮系統(tǒng)的效能。4.3語(yǔ)音編碼發(fā)展方向——不壓縮語(yǔ)音編碼極低速率語(yǔ)音編碼和變速率語(yǔ)音編碼是現(xiàn)在語(yǔ)音編碼的重要發(fā)展方向。但也有某些通信系統(tǒng)仍然采用不壓縮語(yǔ)音編碼。這是由于現(xiàn)在傳輸帶寬增加很快,特別是光纖通信的發(fā)展,使得傳輸成本大幅度下降,為語(yǔ)音編碼付出的費(fèi)用與所節(jié)省的傳輸費(fèi)用相比變得不合算了,語(yǔ)音不壓縮傳輸所需費(fèi)用反而更低。因此這些系統(tǒng)就采用了不壓縮的語(yǔ)音編碼算法,大多數(shù)直接運(yùn)用PCM編碼進(jìn)行傳輸。這樣能夠確保很高的語(yǔ)音通信質(zhì)量和比較簡(jiǎn)樸的通信設(shè)備,大大地減少了通信費(fèi)用。不壓縮語(yǔ)音編碼重要應(yīng)用于地面微波通信和光纖通信系統(tǒng)中。

固然,語(yǔ)音編碼除了上述三個(gè)總體的發(fā)展方向以外,尋找最佳的語(yǔ)音激勵(lì)模型和對(duì)人類聽覺系統(tǒng)機(jī)理的不停認(rèn)識(shí)將是近一段時(shí)間內(nèi)的基礎(chǔ)性研究工作。結(jié)語(yǔ)語(yǔ)音編碼是語(yǔ)音信號(hào)解決的一種重要方面,它和通信領(lǐng)域聯(lián)系最為親密。而語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音增強(qiáng)等方面在理論和辦法上與語(yǔ)音編碼有諸多相通之處。因此,系統(tǒng)、全方面地理解當(dāng)今語(yǔ)音編碼的發(fā)展方向,對(duì)語(yǔ)音通信領(lǐng)域工作的開展含有重要意義。語(yǔ)音編碼是一種人們熟知的領(lǐng)域,又是一種新穎的領(lǐng)域,隨著信息時(shí)代的到來對(duì)語(yǔ)音編碼提出了新的規(guī)定,語(yǔ)音編碼技術(shù)定將進(jìn)一步發(fā)展。參考文獻(xiàn)[1]王文星,語(yǔ)音編碼技術(shù)的分析與應(yīng)用,焦作工學(xué)院學(xué)報(bào)(自然科學(xué)版),5月[2]何春榮,淺析語(yǔ)音編碼的三個(gè)發(fā)展方向,成都紡織高等??茖W(xué)校學(xué)報(bào),1月[3]周波、許萌,數(shù)字語(yǔ)音編碼技術(shù)研究,科技情報(bào)開發(fā)與經(jīng)濟(jì),第18卷第3期[4]張學(xué)英,數(shù)字語(yǔ)音解決及matlab仿真,電子工業(yè)出版社,[5]陳學(xué)藝、凌朝東、陳哲平、楊驍,MELP在數(shù)字對(duì)講機(jī)基帶系統(tǒng)中的應(yīng)用【J】,通信技術(shù),

[6]趙翠、周遙、毛鑫萍、馬永陽(yáng),基于先行預(yù)測(cè)的自適應(yīng)語(yǔ)音壓縮感知【J】,杭州電子科技大學(xué)學(xué)報(bào),(04)[7][8]梁彥霞.低速率多帶激勵(lì)線性預(yù)測(cè)語(yǔ)音編碼技術(shù)的研究[D].西安電子科技大學(xué)[9]魏麗英簡(jiǎn)析語(yǔ)音編碼長(zhǎng)春工業(yè)大學(xué)人文信息學(xué)院;-11-05[10]計(jì)哲低速率語(yǔ)音編碼算法研究清華大學(xué)-04-01[11]何洪華超低速率語(yǔ)音編碼算法研究

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論