基于DSP語音信號線性與非線性量化相互轉(zhuǎn)化的新方法_第1頁
基于DSP語音信號線性與非線性量化相互轉(zhuǎn)化的新方法_第2頁
基于DSP語音信號線性與非線性量化相互轉(zhuǎn)化的新方法_第3頁
基于DSP語音信號線性與非線性量化相互轉(zhuǎn)化的新方法_第4頁
基于DSP語音信號線性與非線性量化相互轉(zhuǎn)化的新方法_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、摘要隨著通信、計算機(jī)網(wǎng)絡(luò)等技術(shù)的飛速發(fā)展,語音壓縮編碼技術(shù)得到了快速發(fā)展和廣泛應(yīng)用。尤其是最近20年,語音壓縮編碼技術(shù)在移動通信、衛(wèi)星通信、多媒體技術(shù)以及IP電話通信中得到普遍應(yīng)用,起著舉足輕重的作用。人們相互交流的信息量也在不斷地急劇增加,龐大的語音信號數(shù)據(jù)給存儲和傳輸帶來了巨大的的壓力,使得信道資源變得愈加寶貴。因此,語音壓縮和語音編碼技術(shù)顯得越來越重要。本課題是基于DSP語音信號線性與非線性量化相互轉(zhuǎn)化的新方法,通過DSP將采集到的語音信號進(jìn)行壓縮算法的處理。最后通過外設(shè)輸出壓縮后的語音信號。最終實現(xiàn)語音信號的采集、壓縮與回放。本論文根據(jù)系統(tǒng)的功能需求,完成了該系統(tǒng)的算法研究,軟硬件的設(shè)

2、計。設(shè)計出了A律編解碼的軟件流程框圖,在以TMS320VC5502為處理器的硬件開發(fā)平臺上實現(xiàn)了語音信號的A律壓縮解壓算法,并給出了壓縮程序流程圖。關(guān)鍵詞: 語音壓縮編碼,線性與非線性量化轉(zhuǎn)化,DSPAbstractWith the communications, computer networks of rapid development, voice compression coding technology has been rapid of development and wide of application. Especially in the last 20 years, spe

3、ech coding technology was widely application in the mobile communications, satellite communications, multimedia and IP telephony technology, it plays a pivotal role. People mutually exchanging information is increasing dramatically, huge voice signal data to the storage and transmission brought huge

4、 pressure, it makes channel resources become more and more valuable. Therefore, speech compress and speech coding technology is becoming more and more important.This topic is based on the DSP of voice compression algorithm design and implementation. The collected voice signal use compression algorit

5、hm to treat by DSP. The speech signal after compression is output by external equipments finally. It has realized the speech signal collection、compression and playback finally. According to the system's functional requirements, this papers complete hardware and software design of the system. A l

6、aw designed a flow chart of the software codec in order to TMS320VC5502 processor hardware development platform for the realization of the speech signal on the A-law compression decompression algorithms, And give the compression process flow diagram. Key Words:Speech Coding,Transformation of linear

7、and nonlinear quantization ,DSP引 言語音是人類相互進(jìn)行交流時使用最多、最自然、最基本也是最重要的信息載體。語音的產(chǎn)生是一個復(fù)雜的過程,包括心理和生理等方面的一系列動作。由于其特殊的作用,人們歷來十分重視對語音信號和語音通信的研究。近十幾年來語音技術(shù)在人們實際需要的推動下快速的發(fā)展起來,語音技術(shù)是一個跨學(xué)科、涉及面廣的綜合學(xué)科,包括聲學(xué)、語音學(xué)、生理學(xué)、心理學(xué)、數(shù)字信號處理、信息工程、通信理論、電子科學(xué)、模式識別、人工智能等眾多學(xué)科,而且許多對語音數(shù)字信號處理有促進(jìn)作用的學(xué)科如神經(jīng)網(wǎng)路、小波理論、遺傳算法、進(jìn)化算法、模糊理論、混沌理論等也在蓬勃發(fā)展。隨著當(dāng)今世界數(shù)

8、字技術(shù)的飛速發(fā)展,數(shù)字業(yè)務(wù)量的急劇增長,如何在提供高質(zhì)量語音的基礎(chǔ)上用最低的碼率來傳送和儲存數(shù)字語音信號,以增加現(xiàn)有信道的帶寬利用率、安全性以及降低成本等已越來越受到人們的重視。在高度信息化的今天,語音處理的一系列技術(shù)及應(yīng)用已經(jīng)成為信息社會不可或缺的重要組成部分。目前的語音壓縮專用芯片價格較高,并且采用語音壓縮專用芯片的設(shè)備在信號處理的靈活性,功能擴(kuò)展等方面受到很大的限制,很難加入一些新的功能或者算法。而使用 DSP 來自主開發(fā)實現(xiàn)語音壓縮算法卻可以使這一成本大大降低,同時可以方便地實現(xiàn)算法的更新,從而能夠在不更換硬件的情況下實現(xiàn)功能的升級。再者,隨著信息技術(shù)的發(fā)展,信道資源顯得更加寶貴,為了

9、在有限的信道內(nèi)進(jìn)行更多的信息傳輸,必須對語音信號進(jìn)行壓縮。因此,本論文研究的課題是基于DSP語音信號線性與非線性量化相互轉(zhuǎn)化的新方法。1緒 論1.1課題的背景1876 年電話的發(fā)明可以認(rèn)為是現(xiàn)代語音壓縮編碼、傳輸?shù)鹊拈_端,在本世紀(jì)得到迅速普及應(yīng)用,至今已有百余年的歷史。隨著科學(xué)技術(shù)的進(jìn)步,語音信號的處理與發(fā)展已經(jīng)歷了三個主要階段。 第一階段:20 世紀(jì) 30 年代以前,語音信號的處理與傳輸均是以模擬的形式進(jìn)行,1937 年 A.H.Reeves 提出了脈沖編碼調(diào)制(PCM)理論,開創(chuàng)了語音數(shù)字化通信的歷程。數(shù)字化語音在傳輸與存儲可靠性、抗干擾、速交換、易保密等各方面都遠(yuǎn)勝于模擬語音。PCM 標(biāo)

10、準(zhǔn)是電話設(shè)備中第一種被采用的技術(shù),它是一種波形編碼方法,是將時間域信號直接變換為數(shù)字代碼,力圖使重建語音波形保持原語音信號的波形形狀。第二階段:1939 年,美國人 Dudley 研制成功第一個聲碼器,從此奠定了語音產(chǎn)生模型的基礎(chǔ),這一工作在語音信號處理領(lǐng)域具有劃時代的意義。從此,語音處理開始了參數(shù)編碼的研究。它通過對語音信號進(jìn)行分析,提取參數(shù)來對參數(shù)進(jìn)行編碼,在接收端能夠用解碼后的參數(shù)重構(gòu)語音信號。參數(shù)編碼主要是從聽覺感知的角度注重語音的重現(xiàn),即讓解碼語音聽起來與輸入語音是相同,而不是保證其波形相同。這種編碼方式一般對碼率的要求要比波形編碼低很多,但只能達(dá)到合成語音的質(zhì)量,即使碼率提高到與波

11、形編碼相當(dāng)時,語音質(zhì)量也不如波形編碼。應(yīng)用廣泛的線性預(yù)測 LPC(Linear Predictive Coding)聲碼器是典型的語音參數(shù)編碼器。最新的參數(shù)編碼器有正弦變換編碼器、波形內(nèi)插編碼器等1。第三階段:20 世紀(jì) 70 年代中期,特別是 20 世紀(jì) 80 年代以來,語音編碼技術(shù)有了突破性的進(jìn)展,一些非常有效的處理辦法被提出,產(chǎn)生了新一代的參數(shù)編碼算法,也就是混合編碼?;旌暇幋a克服了參數(shù)編碼激勵形式過于簡單的缺點,成功地將波形編碼和參數(shù)編碼兩者的優(yōu)點結(jié)合起來,在 4kbps到l6kbps 的數(shù)碼率上能夠得到高質(zhì)量的合成語音。既利用了語音產(chǎn)生模型,通過對模型參數(shù)進(jìn)行編碼,減少被編碼對象的動

12、態(tài)范圍和數(shù)據(jù)量,又使編碼過程產(chǎn)生接近原始語音波形的合成語音,以保留說話人的各種自然特征,提高了語音質(zhì)量。得到最廣泛研究的混合編碼算法是基于線性預(yù)測技術(shù)的分析合成編碼方法LPABS(Linear Prediction Analysis-By Synthesis)。從最初的 64kbps 的標(biāo)準(zhǔn) PCM 波形編碼器到現(xiàn)在 4kbps 以下的參量編碼的聲碼器,語音壓縮編碼在幾十年里得到迅速發(fā)展。進(jìn)入 90 年代以來,在無線電話方面 GSM 又逐步替代傳統(tǒng)的模擬無線電話系統(tǒng)。近年來,隨著 Internet網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)通信由單純的數(shù)據(jù)信息向多媒體方向發(fā)展,移動通信也正向第三代移動通信方向發(fā)展,高效

13、優(yōu)質(zhì)語音編碼成為這些新穎通信系統(tǒng)的基本也是關(guān)鍵的技術(shù)之一。在中國,語音和語言處理技術(shù)的研發(fā)略晚于國外。中國科學(xué)院聲學(xué)研究所的俞鐵城教授應(yīng)該說是中國最早涉足這一領(lǐng)域的人之一,他于 1977 年在物理學(xué)報發(fā)表了全國第一篇關(guān)于語音識別的論文。清華大學(xué)語音技術(shù)中心緊隨其后,語音界老前輩方棣棠教授、吳文虎教授于 1979 年創(chuàng)立語音技術(shù)中心(原名語音實驗室),現(xiàn)已有 28 年的歷史。隨后,全國各地從事這方面研究的機(jī)構(gòu)越來越多,比較著名的有清華大學(xué)電子工程系、中國科學(xué)院自動化研究所、中國科技大學(xué)、中國社會科學(xué)院語言研究所(在語音學(xué)研究方面,吳宗濟(jì)先生的起步更早)、北京大學(xué)、哈爾濱工業(yè)大學(xué)等等。在這些頂尖學(xué)

14、術(shù)機(jī)構(gòu)的帶動下,中國的語音和語言處理技術(shù)得到很大發(fā)展,并逐步在國際上引起注意。1.2課題的意義隨著通信、計算機(jī)網(wǎng)絡(luò)等技術(shù)的飛速發(fā)展,語音壓縮編碼技術(shù)得到了快速發(fā)展和廣泛應(yīng)用,尤其是最近20年,語音壓縮編碼技術(shù)在移動通信、衛(wèi)星通信、多媒體技術(shù)以及IP電話通信中得到普遍應(yīng)用,起著舉足輕重的作用。人們享受著信息化帶來的方便和快捷,數(shù)字廣播電視、互聯(lián)網(wǎng)、通訊和各種數(shù)碼音樂產(chǎn)品正改變著我們的生活。與此同時,人們相互交流的信息量也在不斷地急劇增加,龐大的語音信號數(shù)據(jù)給存儲和傳輸帶來了巨大的的壓力,使得信道資源變得愈加寶貴。因此,語音壓縮和語音編碼技術(shù)顯得越來越重要。語音壓縮編碼技術(shù)的類別語音編碼就是將模擬

15、語音信號數(shù)字化,數(shù)字化之后可以作為數(shù)字信號傳輸、存儲或處理,可以充分利用數(shù)字信號處理的各種技術(shù)。為了減小存儲空間或降低傳輸比特率節(jié)省帶寬,還需要對數(shù)字化之后的語音信號進(jìn)行壓縮編碼,這就是語音壓縮編碼技術(shù)。它可以對原始數(shù)字語音信號PCM碼流運(yùn)用適當(dāng)?shù)臄?shù)字信號處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼或信源編碼。它必須具有相應(yīng)的逆變換,稱為解壓縮或解碼。信源編碼的任務(wù)主要是解決數(shù)據(jù)存儲、交換、傳輸?shù)挠行詥栴},通過對信源數(shù)據(jù)率的壓縮,力求用最少的數(shù)碼傳遞最大的信息量。采用語音壓縮和語音編碼技術(shù)可以在保證音質(zhì)的同時,大大地減少數(shù)據(jù)傳輸量,節(jié)省傳輸所需

16、要的帶寬。總之,語音壓縮技術(shù)的出現(xiàn)與應(yīng)用為人類帶來了深遠(yuǎn)的影響,人們?nèi)缃褚焉钤谝粋€幾乎語音壓縮的世界之中,而語音壓縮技術(shù)則稱得上是應(yīng)用最為廣泛的數(shù)字技術(shù)之一,CD、 VCD等早已走進(jìn)千家萬戶,數(shù)字化廣播正在全球范圍內(nèi)逐步得到開展,正是這些與廣大消費(fèi)者密切相關(guān)的產(chǎn)品及應(yīng)用成為了本文將要介紹的主題:語音壓縮算法的設(shè)計與實現(xiàn)2。1.3語音壓縮編碼的國際標(biāo)準(zhǔn)由于數(shù)字語音編碼技術(shù)具有廣闊的應(yīng)用范圍和良好的市場前景,從 20 世紀(jì) 80 年代開始,國際上著名的通信研究機(jī)構(gòu)和大學(xué)均大力開展高音質(zhì)低碼率語音編碼技術(shù)的研究,取得了大批成果,因此語音編碼技術(shù)的標(biāo)準(zhǔn)化工作顯得十分重要。國際電信聯(lián)盟 (ITU)在語

17、音編碼技術(shù)的標(biāo)準(zhǔn)化方面做了大量的工作,制訂了很多標(biāo)準(zhǔn),并逐漸受到業(yè)界的認(rèn)同。其中比較典型的有 G.711, G.721, G.728, G.729 等標(biāo)準(zhǔn)。1.G.711 標(biāo)準(zhǔn)最早的語音編碼方案是 PCM 編碼,它的碼率是 64kbps。對語音信號按8kHz 進(jìn)行采樣,再對每一個樣本做 8bit 的標(biāo)量量化。雖然它的碼率很高,但處理程序簡單,話音質(zhì)量非常好,在電話網(wǎng)中廣為使用。它被 ITU-T 定為G.711 標(biāo)準(zhǔn)。2.G.721 標(biāo)準(zhǔn)G.711 標(biāo)準(zhǔn)產(chǎn)生后,人們將大量的精力投向了語音壓縮編碼的研究。經(jīng)過多年的研究,科學(xué)家們提出了一種旨在消除語音信號樣本間的相關(guān)性的線性預(yù)測編碼算法。它可以在基

18、本保證音質(zhì)的情況下,編碼率有較大的壓縮。利用當(dāng)時還處于雛形的線性預(yù)測方法,科學(xué)家們成功開發(fā)出了編碼率為 32kbps(相對于 PCM 碼,它被壓縮了一半)的增量調(diào)制編碼 ADPCM(Adaptive differencePCM)方案,音質(zhì)略次于 PCM 編碼,可懂度和自然度都不錯,立即受到人們的青睞。它被 ITU-T 定為 G.721 標(biāo)準(zhǔn)。3.G.728 標(biāo)準(zhǔn)低碼率、短時延、高質(zhì)量是人們期望的目標(biāo),波形編碼的局限性,決定了其編碼率不可能降的太低,為了進(jìn)一步降低編碼率,必須選用參數(shù)編碼和混合編碼技術(shù)。ITU-T 于 1992 公布 G.728 標(biāo)準(zhǔn),編碼速率為 16kbit/s,算法延時小于

19、2ms,語音質(zhì)量可達(dá) MOS 4 分以上,與 G.711 音質(zhì)基本相當(dāng),主要應(yīng)用于可視電話、存儲和轉(zhuǎn)發(fā)系統(tǒng)、數(shù)字移動無線系統(tǒng)、數(shù)字插空設(shè)備、語音信息錄音、分組化語音等領(lǐng)域。4.G.729 標(biāo)準(zhǔn)保持高音質(zhì)就是要使合成語音和原始語音的均方誤差始終小到不易察覺。在 此 前 提 下 , 通 過 改 進(jìn) 算 法 , 達(dá) 到 進(jìn) 一 步 壓 縮 編 碼 率 的 目 的 。 CS-ACELP(Conjugate-Structure Algebraic Code Excited Linear Prediction)算法就是該思路的歷史產(chǎn)物。它實現(xiàn)了 8kbps 的碼率,所達(dá)到的語音質(zhì)量一點也不亞于G.721

20、標(biāo)準(zhǔn),但卻比 G.721 標(biāo)準(zhǔn)的編碼率壓縮了整四倍。ITU-T 在 1996 年將CS-ACELP 算法制定為 G.729 標(biāo)準(zhǔn)3。在實際選擇語音壓縮標(biāo)準(zhǔn)時,要綜合考慮帶寬、時延、算法復(fù)雜度等各種因素。1.3語音壓縮編解碼概述在現(xiàn)代通信中,作為組成通信系統(tǒng)的最基本單元之一的信源,如果不經(jīng)過任何處理,會存在大量的冗余成分,直接經(jīng)信道進(jìn)行傳輸將會造成帶寬的極大浪費(fèi)。所以,信源需要先經(jīng)過壓縮處理,即信源編碼,然后再經(jīng)信道傳輸。語音信號是通信系統(tǒng)中使用最多的信源之一,它是模擬信號,而現(xiàn)代通信系統(tǒng)基本上都是數(shù)字通信系統(tǒng),所以必須先對該模擬信號進(jìn)行模數(shù)轉(zhuǎn)換,將其數(shù)字化;數(shù)字化后的語音信號,再經(jīng)過壓縮處理后

21、方可進(jìn)行傳輸和存儲。在接收端,對信號進(jìn)行解壓縮處理和D/A轉(zhuǎn)換,還原成原始的模擬語音信號。這就是語音編解碼技術(shù)。模擬語音信號數(shù)字化后再進(jìn)行壓縮編碼處理,可減小存儲空間或降低傳輸比特率,從而節(jié)省傳輸帶寬。語音編解碼技術(shù)的方法歸納起來,主要分為三大類,即波形編碼、參數(shù)編碼和混合編碼。波形編碼是最簡單且應(yīng)用最早的語音編碼方法,它實施簡單、性能優(yōu)良,但是其編碼比特率最高,在16kbps到64kbps之間,且一般很難再進(jìn)一步下降,G.711的A律或u律、G.721和G.726標(biāo)準(zhǔn)均屬于波形編碼;參數(shù)編碼的語音編碼速率較低,基本上在2kbps到4.8kbps之間,語音的可懂度較好,但音質(zhì)較差,只能達(dá)到合成

22、語音質(zhì)量,且其聲碼器對環(huán)境噪聲比較敏感,其次是算法復(fù)雜度較高,G.729、G.723.1標(biāo)準(zhǔn)和碼激勵線性預(yù)測(CELP)等均為參數(shù)編碼;混合編碼吸收了波形編碼和參數(shù)編碼各自的優(yōu)點并克服它們的缺點,在較低的比特率上獲得較高的語音質(zhì)量,其比特率一般在4kbps-16kbps之間,多脈沖激勵線性預(yù)測編碼(MPLPC),規(guī)則脈沖激勵線性預(yù)測編碼(RPELPC)和碼本激勵線性預(yù)測編碼(CELP)等都屬于混合編碼3,4,5。最早的語音編解碼標(biāo)準(zhǔn)是1972年CCITT提出的G.711標(biāo)準(zhǔn),即64kbps的脈沖編碼調(diào)制(PCM)。到目前為止,標(biāo)準(zhǔn)PCM系統(tǒng)仍然占據(jù)著統(tǒng)治地位,被廣泛應(yīng)用在數(shù)字通信、數(shù)字交換機(jī)等

23、領(lǐng)域,El標(biāo)準(zhǔn)接口中采用的即是歐洲的30路脈沖編碼調(diào)制PCM。隨后,CCITT又公布了G.721標(biāo)準(zhǔn),即32kbps的自適應(yīng)脈沖差分編碼ADPCM,在達(dá)到和PCM相同語音質(zhì)量的基礎(chǔ)上,它具有更優(yōu)良的抗誤碼性能,并且速率降低一半。接著,ITU又提出了子帶自適應(yīng)差分脈沖編碼G.722,16kbps的短時延遲碼激勵線性預(yù)測G.728標(biāo)準(zhǔn),8kbps的共軛結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測編碼G.729標(biāo)準(zhǔn)以及具有兩種編碼速率的G.723。l標(biāo)準(zhǔn)(5.3kbps和6.3kbps,高速率采用多脈沖最大似然量化MPMLQ技術(shù),低速率采用代數(shù)碼本激勵線性預(yù)測ACELP技術(shù))等5,6,7。2語音壓縮的理論依據(jù)與算法2.1

24、語音壓縮的理論依據(jù)語音通信經(jīng)歷了從模擬信號到數(shù)字信號的發(fā)展過程,最初電話通信傳輸?shù)氖钦Z音模擬信號,傳輸?shù)男什桓撸覀鬏敳皇翘貏e可靠、高效。因為模擬信號在傳輸一段距離后會減弱,當(dāng)信號變?nèi)鯐r,必須對它們定期放大。這種信號放大既加強(qiáng)了語音信號,也加強(qiáng)了背景線路噪聲,要將復(fù)雜的模擬語音信號和傳輸噪聲區(qū)分開來是很困難的。為了進(jìn)一步提高語音的傳輸質(zhì)量和存儲效率,克服模擬傳輸?shù)娜秉c,人們又引入了語音信號數(shù)字處理技術(shù),對語音信號進(jìn)行數(shù)字化處理。數(shù)字信號只有“1”和“0”兩種狀態(tài),易于同噪聲區(qū)分開,不易發(fā)生畸變,而且易于存儲和遠(yuǎn)距離傳輸。但是語音信號在數(shù)字化之后,比特率卻大幅上升,也就是每秒需要更多的比特數(shù)

25、去存儲或傳輸,這樣就使成本提高。隨著信息技術(shù)的發(fā)展,信道資源顯得更加寶貴,為了在有限的信道內(nèi)進(jìn)行更多的信息傳輸,必須對語音信號進(jìn)行壓縮。對語音信號進(jìn)行壓縮編碼的基本依據(jù)是語音信號的冗余度和人的聽覺感知機(jī)理。語音信號存在多種多樣的冗余,可分別從時間域和頻率域描述。從時間域分析:幅度的非均勻分布,即語音中的小幅度樣本出現(xiàn)的概率高,且通話中會有間隙信息,主要集中在低功率上;語音信號采樣數(shù)據(jù)間存在相關(guān)性,相鄰的樣本間有很強(qiáng)的相關(guān)性,如果采樣率提高,相關(guān)性將更強(qiáng);濁音語音段具有準(zhǔn)周期性,波形顯示出周期間的信息冗余,對語音濁音部分編碼最有效的方法之一是對一個音調(diào)間隔波形來編碼,并以其作為同樣聲音中其他基音

26、段的參照;語音間隙,實際語音通信中,存在通話間隙,通話分析表明,全雙工話路的典型效率約為通話時間的 40%,即靜止系數(shù)為 0.6;長時自相關(guān),除了樣本間、同期間的相關(guān)外,在較長的時間間隔上,語音信號也存在相關(guān)。從頻率域分析:非均勻的長時功率譜密度,從相當(dāng)長的時間內(nèi)統(tǒng)計平均,語音信號的功率譜呈現(xiàn)強(qiáng)烈的非平坦性,這說明語音信號對給定的頻段利用不充分,存在固定的冗余度;語音特有的短時功率譜密度,語音信號的短時功率譜在某些頻率上出現(xiàn)峰值,而在另一些頻率上出現(xiàn)谷值,這些峰值頻率是能量較大的頻率,稱為共振峰,共振峰頻率由低到高依次排列為第一共振峰、第二共振峰等,語音特征主要由前三個共振峰頻率決定,隨著頻率

27、的增高,對整個功率譜的影響會快速遞減。語音壓縮的第二個依據(jù)是利用人類聽覺的感知機(jī)理,其影響主要表現(xiàn)在三個方面: 1.人類的聽覺系統(tǒng)對聲音具有“掩蔽”效應(yīng),即一個強(qiáng)音能夠抑制另一個同時存在的弱音的聽覺,利用這一性質(zhì)可以抑制與信號同時存在的量化噪聲。2.人耳對不同頻段聲音的敏感程度不同。人的聽覺對低頻語音比較敏感,而對高頻語音不太敏感,這主要是因為濁音的周期和共振峰。3.人耳對語音信號的相位變化不敏感。通過對人耳做短時的頻率分析,表明人耳對信號的音調(diào)很敏感,但對信號相位感知不敏感。人耳聽不到或感知極不靈敏的語音信號都可以認(rèn)為是冗余,可以利用這些特性進(jìn)行語音數(shù)據(jù)壓縮。對語音信號進(jìn)行數(shù)字化和壓縮,既可

28、以提高語音傳輸?shù)馁|(zhì)量,又能提高傳輸?shù)男?,所以對語音壓縮編碼技術(shù)的研究一直是一個熱點,特別是近十多年來,語音編碼技術(shù)取得了突飛猛進(jìn)的發(fā)展,出現(xiàn)了多個國際標(biāo)準(zhǔn)和區(qū)域標(biāo)準(zhǔn),己具備比較完善的理論和技術(shù)體系,隨著高速信號處理器的誕生,使多種算法復(fù)雜、計算量很大的編碼技術(shù)的實時化變得容易起來,語音壓縮編碼進(jìn)入實用階段。2.2語音信號產(chǎn)生的數(shù)字模型建立語音信號的數(shù)字模型對于語音處理具有重要的意義。人們對語音信號進(jìn)行大量的分析、模擬和實驗以后,得出了語音信號產(chǎn)生的數(shù)字模型8。它是指利用數(shù)字技術(shù)來模擬語音信號的產(chǎn)生,也就是利用數(shù)字信號處理技術(shù)來實現(xiàn)發(fā)音器官的模擬。為了使?jié)嵋舻臎_激信號具有聲門脈沖的實際波形,還

29、需要使上述的沖激序列通過一個聲門脈沖模型濾波器 G(z)。其傳輸函數(shù)表示為: (2.1)基音頻率聲門脈沖模型脈沖周期發(fā)生器聲道模型 Av聲道參數(shù) 輻射模型 隨機(jī)噪聲發(fā)生器 Au圖2.1 語音信號的數(shù)字模型該模型包括三個部分:激勵源、聲道模型和輻射模型9。激勵源分為濁音和清音兩種,按照濁音/清音開關(guān)所處的位置來決定產(chǎn)生的語音是濁音還是清音。濁音時,激勵信號由一個周期脈沖發(fā)生器產(chǎn)生,產(chǎn)生的序列是一個頻率等于基音頻率的沖激序列。對聲門波形的頻譜分析表明,其幅度頻譜按每倍頻程 12dB 的速度遞減,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成的濁音激勵信號頻譜很接近于聲門脈沖的頻譜,乘系

30、數(shù) Av 的作用是調(diào)節(jié)濁音信號的幅度。清音時,激勵信號由一個隨機(jī)噪聲發(fā)生器產(chǎn)生??稍O(shè)定其平均值為 0,其自相關(guān)函數(shù)是一個單位沖激函數(shù)。這表明它的任何兩個不同樣點都不相關(guān)且其均方差值為 1。此外,還假定它的幅度具有正態(tài)概率分布。乘系數(shù) Au 的作用是調(diào)節(jié)清音信號的幅度10。聲道模型 V(z)給出了離散時域的聲道傳輸函數(shù),把實際聲道作為一個變截面聲管加以研究,采用流體力學(xué)的方法可以導(dǎo)出,在大多數(shù)情況下 V(z)是一個全極點函數(shù)。因此,V(z)可以表示為: (2.2)式中,a0=1,ai為實數(shù)。這里,把截面積連續(xù)變化的聲管近似為 p 段短聲管的串聯(lián),每段短聲管的截面積是不變的,p 稱為這個全極點濾波

31、器的階。顯然,p值取得越大,模型的傳輸函數(shù)與聲道實際傳輸函數(shù)的吻合程度就越高。一般地,對大多數(shù)實際應(yīng)用而言,p 值取 812。若 p 取偶數(shù),一般有 p/2 對共軛極點,極點的頻率分別與語音的各個共振峰相對應(yīng)。輻射模型 R(z)與嘴型有關(guān),一般可以表示為: (2.3)在這個模型中,除了 G(z)和 R(z)保持不變以外,基音頻率、Av、Au、清/濁音開關(guān)的位置以及聲道模型中的參數(shù)都是隨時間而變化的。對于聲道參數(shù)而言,在 1030ms 的時間間隔內(nèi)可以認(rèn)為它們保持不變,因此語音的短時分析幀長一般取為 1030ms 左右。對激勵源參數(shù),大部分情況下這一結(jié)論是正確的。需要全部論文的可以加我QQ呀 除

32、了論文還有 電路圖、源程序清單、外文文獻(xiàn)、外文翻譯、測試源工程文件等1.3語音壓縮編解碼概述在現(xiàn)代通信中,作為組成通信系統(tǒng)的最基本單元之一的信源,如果不經(jīng)過任何處理,會存在大量的冗余成分,直接經(jīng)信道進(jìn)行傳輸將會造成帶寬的極大浪費(fèi)。所以,信源需要先經(jīng)過壓縮處理,即信源編碼,然后再經(jīng)信道傳輸。語音信號是通信系統(tǒng)中使用最多的信源之一,它是模擬信號,而現(xiàn)代通信系統(tǒng)基本上都是數(shù)字通信系統(tǒng),所以必須先對該模擬信號進(jìn)行模數(shù)轉(zhuǎn)換,將其數(shù)字化;數(shù)字化后的語音信號,再經(jīng)過壓縮處理后方可進(jìn)行傳輸和存儲。在接收端,對信號進(jìn)行解壓縮處理和D/A轉(zhuǎn)換,還原成原始的模擬語音信號。這就是語音編解碼技術(shù)。模擬語音信號數(shù)字化后再

33、進(jìn)行壓縮編碼處理,可減小存儲空間或降低傳輸比特率,從而節(jié)省傳輸帶寬。語音編解碼技術(shù)的方法歸納起來,主要分為三大類,即波形編碼、參數(shù)編碼和混合編碼。波形編碼是最簡單且應(yīng)用最早的語音編碼方法,它實施簡單、性能優(yōu)良,但是其編碼比特率最高,在16kbps到64kbps之間,且一般很難再進(jìn)一步下降,G.711的A律或u律、G.721和G.726標(biāo)準(zhǔn)均屬于波形編碼;參數(shù)編碼的語音編碼速率較低,基本上在2kbps到4.8kbps之間,語音的可懂度較好,但音質(zhì)較差,只能達(dá)到合成語音質(zhì)量,且其聲碼器對環(huán)境噪聲比較敏感,其次是算法復(fù)雜度較高,G.729、G.723.1標(biāo)準(zhǔn)和碼激勵線性預(yù)測(CELP)等均為參數(shù)編碼

34、;混合編碼吸收了波形編碼和參數(shù)編碼各自的優(yōu)點并克服它們的缺點,在較低的比特率上獲得較高的語音質(zhì)量,其比特率一般在4kbps-16kbps之間,多脈沖激勵線性預(yù)測編碼(MPLPC),規(guī)則脈沖激勵線性預(yù)測編碼(RPELPC)和碼本激勵線性預(yù)測編碼(CELP)等都屬于混合編碼3,4,5。最早的語音編解碼標(biāo)準(zhǔn)是1972年CCITT提出的G.711標(biāo)準(zhǔn),即64kbps的脈沖編碼調(diào)制(PCM)。到目前為止,標(biāo)準(zhǔn)PCM系統(tǒng)仍然占據(jù)著統(tǒng)治地位,被廣泛應(yīng)用在數(shù)字通信、數(shù)字交換機(jī)等領(lǐng)域,El標(biāo)準(zhǔn)接口中采用的即是歐洲的30路脈沖編碼調(diào)制PCM。隨后,CCITT又公布了G.721標(biāo)準(zhǔn),即32kbps的自適應(yīng)脈沖差分編

35、碼ADPCM,在達(dá)到和PCM相同語音質(zhì)量的基礎(chǔ)上,它具有更優(yōu)良的抗誤碼性能,并且速率降低一半。接著,ITU又提出了子帶自適應(yīng)差分脈沖編碼G.722,16kbps的短時延遲碼激勵線性預(yù)測G.728標(biāo)準(zhǔn),8kbps的共軛結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測編碼G.729標(biāo)準(zhǔn)以及具有兩種編碼速率的G.723。l標(biāo)準(zhǔn)(5.3kbps和6.3kbps,高速率采用多脈沖最大似然量化MPMLQ技術(shù),低速率采用代數(shù)碼本激勵線性預(yù)測ACELP技術(shù))等5,6,7。2語音壓縮的理論依據(jù)與算法2.1語音壓縮的理論依據(jù)語音通信經(jīng)歷了從模擬信號到數(shù)字信號的發(fā)展過程,最初電話通信傳輸?shù)氖钦Z音模擬信號,傳輸?shù)男什桓撸覀鬏敳皇翘貏e可靠

36、、高效。因為模擬信號在傳輸一段距離后會減弱,當(dāng)信號變?nèi)鯐r,必須對它們定期放大。這種信號放大既加強(qiáng)了語音信號,也加強(qiáng)了背景線路噪聲,要將復(fù)雜的模擬語音信號和傳輸噪聲區(qū)分開來是很困難的。為了進(jìn)一步提高語音的傳輸質(zhì)量和存儲效率,克服模擬傳輸?shù)娜秉c,人們又引入了語音信號數(shù)字處理技術(shù),對語音信號進(jìn)行數(shù)字化處理。數(shù)字信號只有“1”和“0”兩種狀態(tài),易于同噪聲區(qū)分開,不易發(fā)生畸變,而且易于存儲和遠(yuǎn)距離傳輸。但是語音信號在數(shù)字化之后,比特率卻大幅上升,也就是每秒需要更多的比特數(shù)去存儲或傳輸,這樣就使成本提高。隨著信息技術(shù)的發(fā)展,信道資源顯得更加寶貴,為了在有限的信道內(nèi)進(jìn)行更多的信息傳輸,必須對語音信號進(jìn)行壓縮

37、。對語音信號進(jìn)行壓縮編碼的基本依據(jù)是語音信號的冗余度和人的聽覺感知機(jī)理。語音信號存在多種多樣的冗余,可分別從時間域和頻率域描述。從時間域分析:幅度的非均勻分布,即語音中的小幅度樣本出現(xiàn)的概率高,且通話中會有間隙信息,主要集中在低功率上;語音信號采樣數(shù)據(jù)間存在相關(guān)性,相鄰的樣本間有很強(qiáng)的相關(guān)性,如果采樣率提高,相關(guān)性將更強(qiáng);濁音語音段具有準(zhǔn)周期性,波形顯示出周期間的信息冗余,對語音濁音部分編碼最有效的方法之一是對一個音調(diào)間隔波形來編碼,并以其作為同樣聲音中其他基音段的參照;語音間隙,實際語音通信中,存在通話間隙,通話分析表明,全雙工話路的典型效率約為通話時間的 40%,即靜止系數(shù)為 0.6;長時

38、自相關(guān),除了樣本間、同期間的相關(guān)外,在較長的時間間隔上,語音信號也存在相關(guān)。從頻率域分析:非均勻的長時功率譜密度,從相當(dāng)長的時間內(nèi)統(tǒng)計平均,語音信號的功率譜呈現(xiàn)強(qiáng)烈的非平坦性,這說明語音信號對給定的頻段利用不充分,存在固定的冗余度;語音特有的短時功率譜密度,語音信號的短時功率譜在某些頻率上出現(xiàn)峰值,而在另一些頻率上出現(xiàn)谷值,這些峰值頻率是能量較大的頻率,稱為共振峰,共振峰頻率由低到高依次排列為第一共振峰、第二共振峰等,語音特征主要由前三個共振峰頻率決定,隨著頻率的增高,對整個功率譜的影響會快速遞減。語音壓縮的第二個依據(jù)是利用人類聽覺的感知機(jī)理,其影響主要表現(xiàn)在三個方面: 1.人類的聽覺系統(tǒng)對聲

39、音具有“掩蔽”效應(yīng),即一個強(qiáng)音能夠抑制另一個同時存在的弱音的聽覺,利用這一性質(zhì)可以抑制與信號同時存在的量化噪聲。2.人耳對不同頻段聲音的敏感程度不同。人的聽覺對低頻語音比較敏感,而對高頻語音不太敏感,這主要是因為濁音的周期和共振峰。3.人耳對語音信號的相位變化不敏感。通過對人耳做短時的頻率分析,表明人耳對信號的音調(diào)很敏感,但對信號相位感知不敏感。人耳聽不到或感知極不靈敏的語音信號都可以認(rèn)為是冗余,可以利用這些特性進(jìn)行語音數(shù)據(jù)壓縮。對語音信號進(jìn)行數(shù)字化和壓縮,既可以提高語音傳輸?shù)馁|(zhì)量,又能提高傳輸?shù)男?,所以對語音壓縮編碼技術(shù)的研究一直是一個熱點,特別是近十多年來,語音編碼技術(shù)取得了突飛猛進(jìn)的發(fā)

40、展,出現(xiàn)了多個國際標(biāo)準(zhǔn)和區(qū)域標(biāo)準(zhǔn),己具備比較完善的理論和技術(shù)體系,隨著高速信號處理器的誕生,使多種算法復(fù)雜、計算量很大的編碼技術(shù)的實時化變得容易起來,語音壓縮編碼進(jìn)入實用階段。2.2語音信號產(chǎn)生的數(shù)字模型建立語音信號的數(shù)字模型對于語音處理具有重要的意義。人們對語音信號進(jìn)行大量的分析、模擬和實驗以后,得出了語音信號產(chǎn)生的數(shù)字模型8。它是指利用數(shù)字技術(shù)來模擬語音信號的產(chǎn)生,也就是利用數(shù)字信號處理技術(shù)來實現(xiàn)發(fā)音器官的模擬。為了使?jié)嵋舻臎_激信號具有聲門脈沖的實際波形,還需要使上述的沖激序列通過一個聲門脈沖模型濾波器 G(z)。其傳輸函數(shù)表示為: (2.1)基音頻率聲門脈沖模型脈沖周期發(fā)生器聲道模型 A

41、v聲道參數(shù) 輻射模型 隨機(jī)噪聲發(fā)生器 Au圖2.1 語音信號的數(shù)字模型該模型包括三個部分:激勵源、聲道模型和輻射模型9。激勵源分為濁音和清音兩種,按照濁音/清音開關(guān)所處的位置來決定產(chǎn)生的語音是濁音還是清音。濁音時,激勵信號由一個周期脈沖發(fā)生器產(chǎn)生,產(chǎn)生的序列是一個頻率等于基音頻率的沖激序列。對聲門波形的頻譜分析表明,其幅度頻譜按每倍頻程 12dB 的速度遞減,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成的濁音激勵信號頻譜很接近于聲門脈沖的頻譜,乘系數(shù) Av 的作用是調(diào)節(jié)濁音信號的幅度。清音時,激勵信號由一個隨機(jī)噪聲發(fā)生器產(chǎn)生??稍O(shè)定其平均值為 0,其自相關(guān)函數(shù)是一個單位沖激函數(shù)。

42、這表明它的任何兩個不同樣點都不相關(guān)且其均方差值為 1。此外,還假定它的幅度具有正態(tài)概率分布。乘系數(shù) Au 的作用是調(diào)節(jié)清音信號的幅度10。聲道模型 V(z)給出了離散時域的聲道傳輸函數(shù),把實際聲道作為一個變截面聲管加以研究,采用流體力學(xué)的方法可以導(dǎo)出,在大多數(shù)情況下 V(z)是一個全極點函數(shù)。因此,V(z)可以表示為: (2.2)式中,a0=1,ai為實數(shù)。這里,把截面積連續(xù)變化的聲管近似為 p 段短聲管的串聯(lián),每段短聲管的截面積是不變的,p 稱為這個全極點濾波器的階。顯然,p值取得越大,模型的傳輸函數(shù)與聲道實際傳輸函數(shù)的吻合程度就越高。一般地,對大多數(shù)實際應(yīng)用而言,p 值取 812。若 p

43、取偶數(shù),一般有 p/2 對共軛極點,極點的頻率分別與語音的各個共振峰相對應(yīng)。輻射模型 R(z)與嘴型有關(guān),一般可以表示為: (2.3)在這個模型中,除了 G(z)和 R(z)保持不變以外,基音頻率、Av、Au、清/濁音開關(guān)的位置以及聲道模型中的參數(shù)都是隨時間而變化的。對于聲道參數(shù)而言,在 1030ms 的時間間隔內(nèi)可以認(rèn)為它們保持不變,因此語音的短時分析幀長一般取為 1030ms 左右。對激勵源參數(shù),大部分情況下這一結(jié)論是正確的。1.3語音壓縮編解碼概述在現(xiàn)代通信中,作為組成通信系統(tǒng)的最基本單元之一的信源,如果不經(jīng)過任何處理,會存在大量的冗余成分,直接經(jīng)信道進(jìn)行傳輸將會造成帶寬的極大浪費(fèi)。所以

44、,信源需要先經(jīng)過壓縮處理,即信源編碼,然后再經(jīng)信道傳輸。語音信號是通信系統(tǒng)中使用最多的信源之一,它是模擬信號,而現(xiàn)代通信系統(tǒng)基本上都是數(shù)字通信系統(tǒng),所以必須先對該模擬信號進(jìn)行模數(shù)轉(zhuǎn)換,將其數(shù)字化;數(shù)字化后的語音信號,再經(jīng)過壓縮處理后方可進(jìn)行傳輸和存儲。在接收端,對信號進(jìn)行解壓縮處理和D/A轉(zhuǎn)換,還原成原始的模擬語音信號。這就是語音編解碼技術(shù)。模擬語音信號數(shù)字化后再進(jìn)行壓縮編碼處理,可減小存儲空間或降低傳輸比特率,從而節(jié)省傳輸帶寬。語音編解碼技術(shù)的方法歸納起來,主要分為三大類,即波形編碼、參數(shù)編碼和混合編碼。波形編碼是最簡單且應(yīng)用最早的語音編碼方法,它實施簡單、性能優(yōu)良,但是其編碼比特率最高,在

45、16kbps到64kbps之間,且一般很難再進(jìn)一步下降,G.711的A律或u律、G.721和G.726標(biāo)準(zhǔn)均屬于波形編碼;參數(shù)編碼的語音編碼速率較低,基本上在2kbps到4.8kbps之間,語音的可懂度較好,但音質(zhì)較差,只能達(dá)到合成語音質(zhì)量,且其聲碼器對環(huán)境噪聲比較敏感,其次是算法復(fù)雜度較高,G.729、G.723.1標(biāo)準(zhǔn)和碼激勵線性預(yù)測(CELP)等均為參數(shù)編碼;混合編碼吸收了波形編碼和參數(shù)編碼各自的優(yōu)點并克服它們的缺點,在較低的比特率上獲得較高的語音質(zhì)量,其比特率一般在4kbps-16kbps之間,多脈沖激勵線性預(yù)測編碼(MPLPC),規(guī)則脈沖激勵線性預(yù)測編碼(RPELPC)和碼本激勵線性

46、預(yù)測編碼(CELP)等都屬于混合編碼3,4,5。最早的語音編解碼標(biāo)準(zhǔn)是1972年CCITT提出的G.711標(biāo)準(zhǔn),即64kbps的脈沖編碼調(diào)制(PCM)。到目前為止,標(biāo)準(zhǔn)PCM系統(tǒng)仍然占據(jù)著統(tǒng)治地位,被廣泛應(yīng)用在數(shù)字通信、數(shù)字交換機(jī)等領(lǐng)域,El標(biāo)準(zhǔn)接口中采用的即是歐洲的30路脈沖編碼調(diào)制PCM。隨后,CCITT又公布了G.721標(biāo)準(zhǔn),即32kbps的自適應(yīng)脈沖差分編碼ADPCM,在達(dá)到和PCM相同語音質(zhì)量的基礎(chǔ)上,它具有更優(yōu)良的抗誤碼性能,并且速率降低一半。接著,ITU又提出了子帶自適應(yīng)差分脈沖編碼G.722,16kbps的短時延遲碼激勵線性預(yù)測G.728標(biāo)準(zhǔn),8kbps的共軛結(jié)構(gòu)代數(shù)碼激勵線性

47、預(yù)測編碼G.729標(biāo)準(zhǔn)以及具有兩種編碼速率的G.723。l標(biāo)準(zhǔn)(5.3kbps和6.3kbps,高速率采用多脈沖最大似然量化MPMLQ技術(shù),低速率采用代數(shù)碼本激勵線性預(yù)測ACELP技術(shù))等5,6,7。2語音壓縮的理論依據(jù)與算法2.1語音壓縮的理論依據(jù)語音通信經(jīng)歷了從模擬信號到數(shù)字信號的發(fā)展過程,最初電話通信傳輸?shù)氖钦Z音模擬信號,傳輸?shù)男什桓?,而且傳輸不是特別可靠、高效。因為模擬信號在傳輸一段距離后會減弱,當(dāng)信號變?nèi)鯐r,必須對它們定期放大。這種信號放大既加強(qiáng)了語音信號,也加強(qiáng)了背景線路噪聲,要將復(fù)雜的模擬語音信號和傳輸噪聲區(qū)分開來是很困難的。為了進(jìn)一步提高語音的傳輸質(zhì)量和存儲效率,克服模擬傳輸

48、的缺點,人們又引入了語音信號數(shù)字處理技術(shù),對語音信號進(jìn)行數(shù)字化處理。數(shù)字信號只有“1”和“0”兩種狀態(tài),易于同噪聲區(qū)分開,不易發(fā)生畸變,而且易于存儲和遠(yuǎn)距離傳輸。但是語音信號在數(shù)字化之后,比特率卻大幅上升,也就是每秒需要更多的比特數(shù)去存儲或傳輸,這樣就使成本提高。隨著信息技術(shù)的發(fā)展,信道資源顯得更加寶貴,為了在有限的信道內(nèi)進(jìn)行更多的信息傳輸,必須對語音信號進(jìn)行壓縮。對語音信號進(jìn)行壓縮編碼的基本依據(jù)是語音信號的冗余度和人的聽覺感知機(jī)理。語音信號存在多種多樣的冗余,可分別從時間域和頻率域描述。從時間域分析:幅度的非均勻分布,即語音中的小幅度樣本出現(xiàn)的概率高,且通話中會有間隙信息,主要集中在低功率上

49、;語音信號采樣數(shù)據(jù)間存在相關(guān)性,相鄰的樣本間有很強(qiáng)的相關(guān)性,如果采樣率提高,相關(guān)性將更強(qiáng);濁音語音段具有準(zhǔn)周期性,波形顯示出周期間的信息冗余,對語音濁音部分編碼最有效的方法之一是對一個音調(diào)間隔波形來編碼,并以其作為同樣聲音中其他基音段的參照;語音間隙,實際語音通信中,存在通話間隙,通話分析表明,全雙工話路的典型效率約為通話時間的 40%,即靜止系數(shù)為 0.6;長時自相關(guān),除了樣本間、同期間的相關(guān)外,在較長的時間間隔上,語音信號也存在相關(guān)。從頻率域分析:非均勻的長時功率譜密度,從相當(dāng)長的時間內(nèi)統(tǒng)計平均,語音信號的功率譜呈現(xiàn)強(qiáng)烈的非平坦性,這說明語音信號對給定的頻段利用不充分,存在固定的冗余度;語

50、音特有的短時功率譜密度,語音信號的短時功率譜在某些頻率上出現(xiàn)峰值,而在另一些頻率上出現(xiàn)谷值,這些峰值頻率是能量較大的頻率,稱為共振峰,共振峰頻率由低到高依次排列為第一共振峰、第二共振峰等,語音特征主要由前三個共振峰頻率決定,隨著頻率的增高,對整個功率譜的影響會快速遞減。語音壓縮的第二個依據(jù)是利用人類聽覺的感知機(jī)理,其影響主要表現(xiàn)在三個方面: 1.人類的聽覺系統(tǒng)對聲音具有“掩蔽”效應(yīng),即一個強(qiáng)音能夠抑制另一個同時存在的弱音的聽覺,利用這一性質(zhì)可以抑制與信號同時存在的量化噪聲。2.人耳對不同頻段聲音的敏感程度不同。人的聽覺對低頻語音比較敏感,而對高頻語音不太敏感,這主要是因為濁音的周期和共振峰。3

51、.人耳對語音信號的相位變化不敏感。通過對人耳做短時的頻率分析,表明人耳對信號的音調(diào)很敏感,但對信號相位感知不敏感。人耳聽不到或感知極不靈敏的語音信號都可以認(rèn)為是冗余,可以利用這些特性進(jìn)行語音數(shù)據(jù)壓縮。對語音信號進(jìn)行數(shù)字化和壓縮,既可以提高語音傳輸?shù)馁|(zhì)量,又能提高傳輸?shù)男?,所以對語音壓縮編碼技術(shù)的研究一直是一個熱點,特別是近十多年來,語音編碼技術(shù)取得了突飛猛進(jìn)的發(fā)展,出現(xiàn)了多個國際標(biāo)準(zhǔn)和區(qū)域標(biāo)準(zhǔn),己具備比較完善的理論和技術(shù)體系,隨著高速信號處理器的誕生,使多種算法復(fù)雜、計算量很大的編碼技術(shù)的實時化變得容易起來,語音壓縮編碼進(jìn)入實用階段。2.2語音信號產(chǎn)生的數(shù)字模型建立語音信號的數(shù)字模型對于語音

52、處理具有重要的意義。人們對語音信號進(jìn)行大量的分析、模擬和實驗以后,得出了語音信號產(chǎn)生的數(shù)字模型8。它是指利用數(shù)字技術(shù)來模擬語音信號的產(chǎn)生,也就是利用數(shù)字信號處理技術(shù)來實現(xiàn)發(fā)音器官的模擬。為了使?jié)嵋舻臎_激信號具有聲門脈沖的實際波形,還需要使上述的沖激序列通過一個聲門脈沖模型濾波器 G(z)。其傳輸函數(shù)表示為: (2.1)基音頻率聲門脈沖模型脈沖周期發(fā)生器聲道模型 Av聲道參數(shù) 輻射模型 隨機(jī)噪聲發(fā)生器 Au圖2.1 語音信號的數(shù)字模型該模型包括三個部分:激勵源、聲道模型和輻射模型9。激勵源分為濁音和清音兩種,按照濁音/清音開關(guān)所處的位置來決定產(chǎn)生的語音是濁音還是清音。濁音時,激勵信號由一個周期脈

53、沖發(fā)生器產(chǎn)生,產(chǎn)生的序列是一個頻率等于基音頻率的沖激序列。對聲門波形的頻譜分析表明,其幅度頻譜按每倍頻程 12dB 的速度遞減,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成的濁音激勵信號頻譜很接近于聲門脈沖的頻譜,乘系數(shù) Av 的作用是調(diào)節(jié)濁音信號的幅度。清音時,激勵信號由一個隨機(jī)噪聲發(fā)生器產(chǎn)生??稍O(shè)定其平均值為 0,其自相關(guān)函數(shù)是一個單位沖激函數(shù)。這表明它的任何兩個不同樣點都不相關(guān)且其均方差值為 1。此外,還假定它的幅度具有正態(tài)概率分布。乘系數(shù) Au 的作用是調(diào)節(jié)清音信號的幅度10。聲道模型 V(z)給出了離散時域的聲道傳輸函數(shù),把實際聲道作為一個變截面聲管加以研究,采用流體力

54、學(xué)的方法可以導(dǎo)出,在大多數(shù)情況下 V(z)是一個全極點函數(shù)。因此,V(z)可以表示為: (2.2)式中,a0=1,ai為實數(shù)。這里,把截面積連續(xù)變化的聲管近似為 p 段短聲管的串聯(lián),每段短聲管的截面積是不變的,p 稱為這個全極點濾波器的階。顯然,p值取得越大,模型的傳輸函數(shù)與聲道實際傳輸函數(shù)的吻合程度就越高。一般地,對大多數(shù)實際應(yīng)用而言,p 值取 812。若 p 取偶數(shù),一般有 p/2 對共軛極點,極點的頻率分別與語音的各個共振峰相對應(yīng)。輻射模型 R(z)與嘴型有關(guān),一般可以表示為: (2.3)在這個模型中,除了 G(z)和 R(z)保持不變以外,基音頻率、Av、Au、清/濁音開關(guān)的位置以及聲

55、道模型中的參數(shù)都是隨時間而變化的。對于聲道參數(shù)而言,在 1030ms 的時間間隔內(nèi)可以認(rèn)為它們保持不變,因此語音的短時分析幀長一般取為 1030ms 左右。對激勵源參數(shù),大部分情況下這一結(jié)論是正確的。1.3語音壓縮編解碼概述在現(xiàn)代通信中,作為組成通信系統(tǒng)的最基本單元之一的信源,如果不經(jīng)過任何處理,會存在大量的冗余成分,直接經(jīng)信道進(jìn)行傳輸將會造成帶寬的極大浪費(fèi)。所以,信源需要先經(jīng)過壓縮處理,即信源編碼,然后再經(jīng)信道傳輸。語音信號是通信系統(tǒng)中使用最多的信源之一,它是模擬信號,而現(xiàn)代通信系統(tǒng)基本上都是數(shù)字通信系統(tǒng),所以必須先對該模擬信號進(jìn)行模數(shù)轉(zhuǎn)換,將其數(shù)字化;數(shù)字化后的語音信號,再經(jīng)過壓縮處理后方

56、可進(jìn)行傳輸和存儲。在接收端,對信號進(jìn)行解壓縮處理和D/A轉(zhuǎn)換,還原成原始的模擬語音信號。這就是語音編解碼技術(shù)。模擬語音信號數(shù)字化后再進(jìn)行壓縮編碼處理,可減小存儲空間或降低傳輸比特率,從而節(jié)省傳輸帶寬。語音編解碼技術(shù)的方法歸納起來,主要分為三大類,即波形編碼、參數(shù)編碼和混合編碼。波形編碼是最簡單且應(yīng)用最早的語音編碼方法,它實施簡單、性能優(yōu)良,但是其編碼比特率最高,在16kbps到64kbps之間,且一般很難再進(jìn)一步下降,G.711的A律或u律、G.721和G.726標(biāo)準(zhǔn)均屬于波形編碼;參數(shù)編碼的語音編碼速率較低,基本上在2kbps到4.8kbps之間,語音的可懂度較好,但音質(zhì)較差,只能達(dá)到合成語音質(zhì)量,且其聲碼器對環(huán)境噪聲比較敏感,其次是算法復(fù)雜度較高,G.729、G.723.1標(biāo)準(zhǔn)和碼激勵線性預(yù)測(CELP)等均為參數(shù)編碼;混合編碼吸收了波形編碼和參數(shù)編碼各自的優(yōu)點并克服它們的缺點,在較低的比特率上獲得較高的語音質(zhì)量,其比特率一般在4kbps-16kbps之間,多脈沖激勵線性預(yù)測編碼(MPLPC),規(guī)則脈沖激勵線性預(yù)測編碼(RPELPC)和碼本激勵線性預(yù)測編碼(CELP)等都屬于混合編碼3,4,5。最早的語音編解碼標(biāo)準(zhǔn)是1972年CCITT提出的G.711標(biāo)準(zhǔn),即64kbps的脈沖編碼調(diào)制(PCM)。到目前為止,標(biāo)準(zhǔn)PCM系統(tǒng)仍然占據(jù)著統(tǒng)治

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論