第十四講語音信號處理第7章_第1頁
第十四講語音信號處理第7章_第2頁
第十四講語音信號處理第7章_第3頁
第十四講語音信號處理第7章_第4頁
第十四講語音信號處理第7章_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

7.1概述7.2語音信號壓縮編碼原理和系統(tǒng)壓縮評價7.3語音信號的波形編碼7.4語音信號的參數(shù)編碼7.5語音信號的混合編碼第七章語音編碼7.1概述語音編碼(SpeechCoding)從信息論角度看,信源編碼是要以最少的數(shù)碼表示信源所發(fā)的信號,語音編碼屬于信源編碼的范疇。語音編碼通過減少傳輸碼率(或存儲量),來達到提高傳輸(或存儲)效率的目的。語音編碼分為三類:*波形編碼:重建后的語音時域信號的波形與原語音信號保持一致。*參數(shù)編碼:通過建立語音信號的產(chǎn)生模型,提取其特征參數(shù)來編碼,波形上不要求與原信號匹配,又稱聲碼器技術。*混合編碼:有機結合以上兩種編碼方式,基于語音產(chǎn)生模型的假定并采用分析合并技術。三種編碼方式的比較波形編碼參數(shù)編碼混合編碼編碼信息波形模型參數(shù)綜合比特率9.6~64Kbps2.4~9.6Kbps16~24Kbps優(yōu)點適應能力強,語音質(zhì)量好有效降低了編碼比特率語音質(zhì)量明顯提高缺點隨著量化粗糙語音質(zhì)量下降合成語音質(zhì)量低,處理復雜度高編碼速率明顯上升典型代表自適應差分編碼調(diào)制(ADPCM)LPC-10、LPC-10E多脈沖激勵線性預測編碼(MPLPC)規(guī)則脈沖激勵線性預測編碼(RPE-LPC)7.2語音信號壓縮編碼原理和系統(tǒng)壓縮評價

語音信號中存在著冗余度(包括時域與頻域),人的聽覺感知機理也有很多可以利用的特點。語音信號壓縮編碼之所以可行,正是因為這兩種情況的存在。

語音編碼依據(jù)之一:語音信號冗余度基本時域冗余:語音信號幅度非均勻分布性語音信號樣本間的強相關性濁音語音段具有的準周期性聲道形狀及其變化的緩慢性靜止系數(shù)(即語音間隙性)

基本頻域冗余:從長時間的功率譜密度來看,語音信號具有強烈的非平坦性,存在著固定的冗余度。而且高頻能量通常較低,恰好對應于時域上的相鄰樣本相關性。從短時功率譜密度來看,語音信號在不同頻率交替出現(xiàn)峰值(共振峰)與谷值。整個功率譜的細節(jié)基于基音頻率形成高次諧波結構。

語音編碼依據(jù)之二:人的聽覺特點人類聽覺系統(tǒng)存在著掩蔽效應,即高聲級單音會明顯掩蔽臨近頻率聲音。對于不同頻段的聲音,人耳的敏感程度不盡相同。人類對于語音信號的周期性(即音調(diào))極為敏感,但對信號的相位卻充耳不聞。語音編碼中的幾項關鍵技術線性預測

線性預測傳送整個反應過程變化的參數(shù),其出發(fā)點在于跟蹤波形的產(chǎn)生過程而非波形本身?;谌珮O點模型假設,使得語音信號編碼的比特率得到有效的降低。語音信號中存在的兩點相關性樣點間的短時相關性相鄰基音周期之間的長時相關性

激勵發(fā)生器1

————P(z)1

————A(z)合成語音語音信號合成模型圖示其中信號源為預測余量信號,1/P(z)為長時預測濾波器,1/A(z)為短時預測濾波器。語音信號的短時相關性可用一個全極點模型來描述,其傳輸函數(shù)H(z)為:短時預測系數(shù)濾波器階數(shù)而濾波器是語音信號長時相關性的模型,其一般形式為:延時參數(shù)(基音周期)長時預測系數(shù)合成分析合成分析原理

合成分析在編碼器中加入綜合器,并將其與分析器結合從而產(chǎn)生與譯碼器端相同的語音,而后根據(jù)誤差原理調(diào)整使得誤差最小化。合成分析背景

16Kbps以下的高質(zhì)量語音編碼在當今得到極大關注,使得傳統(tǒng)的量化方法對誤差最小化已無能為力。因此,合成分析的方法被引入。感覺加權濾波器產(chǎn)生背景:理論與現(xiàn)實的出入

對于低碼率(4~16Kbps)的語音編碼,理論上的最小均方誤差(MMSE)在實際應用時卻因為人的聽覺特點而障礙重重。在這種背景下,根據(jù)人耳的掩蔽效應設計的感覺加權濾波器得到了廣泛的應用。在實際應用中,共振峰處的噪聲相對于能量較低處的頻段更加不易被察覺,故高能量段處的誤差要求不高。因此,感覺加權濾波器被提出,用以衡量語音間的誤差。

此時,只需在高頻段處較大,低頻段處較小,就可以升高不敏感的高頻段的誤差,同時降低較敏感的低頻段的誤差,從而達到目的。抽樣頻率重建語音傅立葉變換原始語音傅立葉變換誤差表示其傳遞函數(shù)為:

的作用就是使實際信號誤差的譜呈現(xiàn)與語音信號類似的包絡形狀,從而在掩蔽效應的作用下在主觀聽覺上產(chǎn)生較好的效果。加權因子預測系數(shù)語音壓縮系統(tǒng)的性能評判指標較為重要的性能評價準則編碼速率(比特率),決定了編碼器工作時占用的信道帶寬,要求盡可能降低。編碼器的頑健性,要求良好。編碼器的時延,要求最小化。誤碼容限,要求保持較高值。算法復雜度(包括運算復雜度與內(nèi)存要求),影響硬件成本,盡可能降低。算法可擴展性,越高越好。適用于低比特率語音編碼質(zhì)量的評價

計算較簡單,但沒有考慮實際情況,故適用于高比特率語音編碼質(zhì)量的評價7.3語音信號的波形編碼波形編碼波形編碼是語音編碼系統(tǒng)在早期所廣泛采用的方法,它把語音信號當成普通的波形信號來處理從而保持原波形形狀。波形編碼適應能力強,合成語音質(zhì)量好,但比特率過高,編碼的效率也不盡如人意。幾種典型的波形編碼:脈沖編碼調(diào)制(PCM)自適應預測編碼自適應增量調(diào)制(ADM)自適應差分脈沖編碼調(diào)制(ADPCM)子帶編碼(SBC)脈沖編碼調(diào)制形式一:均勻PCM

最簡單最原始的波形編碼方式,沒有運用壓縮技術,產(chǎn)生的比特率也極高,故在當今運用極少。形式二:非均勻PCM將信號進行非線性變換后再均勻量化,變換后信號具有均勻概率密度分布。編碼時常采用對數(shù)變換壓縮(譯碼時指數(shù)擴展)。非線性壓縮均勻量化編碼解碼非線性擴張非線性壓縮擴張的非均勻量化器A律壓縮擴張技術(中國標準)

μ律壓縮擴張技術(北美及日本標準)

形式三:自適應PCM

無論是均勻或是非均勻PCM,量化間隔總是隨著量化器的確定而固定。而自適應PCM引入的自適應幅值變化概念使得量化間隔Δ可以匹配于輸入信號方差,或是量化器增益G可以隨著幅值而變化,從而使信號能量在量化前恒定。Q【·】編碼器解碼器匹配自適應編碼器Q【·】X解碼器+匹配自適應兩種自適應方法的原理

按照自適應參數(shù)的來源劃分Q【·】編碼器解碼器自適應系統(tǒng)Q【·】編碼器自適應系統(tǒng)解碼器自適應系統(tǒng)反饋自適應前饋自適應前饋自適應是計算信號有效值并決定最合適的量化間隔,用此間隔控制量化器,并將量化間隔信息發(fā)送給接收端。反饋自適應是由編碼器輸出來決定量化間隔,而在接收端由量化傳輸來的幅度信息自動生成量化間隔。無須將量化間隔傳送到信道中去,但對誤差的靈敏度要求較高。自適應預測編碼LPC計算-預測器系數(shù)發(fā)端收端自適應預測編碼器(APC)利用線性預測來改進編碼中的量化器性能根據(jù)信號量化噪聲比的定義:信號平均能量預測誤差平均能量量化噪聲平均能量

由此可知引入線性預測后,SNR可得到改善。預測增益自適應增量調(diào)制(ADM)

增量調(diào)制的基本方案:

增量調(diào)制方式將下一個語音信號與當前語音信號比較,如果高于當前值則系統(tǒng)編碼1,否則系統(tǒng)編碼0.

自適應增量調(diào)制的工作方式:自適應增量調(diào)制隨輸入波形自適應的改變量化階梯的大小,在信號平均斜率大時自動增大量化階梯,反之減小。

自適應差分脈沖編碼調(diào)制(ADPCM)

差分脈沖編碼調(diào)制(DPCM):

不同于DM的一位編碼,DPCM多位量化對兩個采樣點之間的差分信號利用多位量化進行編碼,使信息量得到壓縮的同時降低了信道負載。

+量化+預測發(fā)送端+預測接收端+

但采用固定的高階預測,改善效果并不明顯,于是,高階自適應預測作為相應的解決方式被提出,自適應預測器隨著語音特征變化不斷更新預測系數(shù),從而獲得更高的預測增益。-量化預測系數(shù)自適應+預測后向自適應預測編碼結構框圖:子帶編碼(SBC)子帶編碼原理:

子帶編碼屬于頻域編碼,它首先將語音信號通過帶通濾波器分割為若干頻帶(子帶),而后對子帶信號進行頻譜平移變?yōu)榛鶐盘枺倮媚慰固厮俾食闃?,最后進行編碼處理。

子帶編碼優(yōu)點:分帶后可去除信號相關性,獲得與時域一樣的效果。不同子帶擁有不同比特數(shù),可獲得更佳主觀聽音質(zhì)量。各子帶間量化噪音相互獨立互不干擾。

自適應變換編碼(ATC)

編碼原理:

自適應變換編碼利用正交變換將信號由時域變換到另外一個域,使變換域系數(shù)密集化,從而使信號相鄰樣本間冗余度得到降低。

正交變換DCT的優(yōu)點:頻域變換明顯,較易控制量化噪聲頻率范圍。兼顧性能與計算量,不需要傳輸特征矢量。變換效率高于DFT,且在頻域區(qū)的畸變更小。

7.4語音信號的參數(shù)編碼參數(shù)編碼針對語音信號的特征參數(shù)來編碼,只適用于語音信號。實際應用中一般采用的實現(xiàn)設備是線性預測聲碼器。線性預測分析器編碼器音調(diào)檢測器線性預測合成器解碼器信道LPC聲碼器框圖LPC參數(shù)的變換與量化①反射系數(shù):

對反射系數(shù)的值在【-1,1】區(qū)間一般進行非線性量化,另外比特數(shù)分配應遞減。②對數(shù)面積比:針對對數(shù)面積比的方式是最為有效的編碼方式,很適合數(shù)字編碼與傳輸:其中Ai為面積函數(shù),通過上式可知幅度均勻分布,可以采用均勻量化。

變幀率LPC聲碼器

為降低LPC聲碼器的速率,應用了變幀速率編碼(VFR)技術的變幀率LPC聲碼器應運產(chǎn)生。通過付出編解碼復雜化與時延的代價,變幀率LPC聲碼器可明顯降低傳輸數(shù)碼率同時保持音質(zhì)。LPC-10編碼器

LPC-10利用簡單的二元激勵取代余量信號,在2.4kbps的速率上得到了清晰的合成語音,在當代長期被作為標準算法使用。但因為激勵信號選取的影響,抗噪能力與自然度仍不盡如人意。7.5語音信號的混合編碼20世紀80年代后期,綜合了參數(shù)編碼低比特率與波形編碼高語音質(zhì)量優(yōu)點的混合編碼得到廣泛的使用。它在假定語音產(chǎn)生模型的同時將模型參數(shù)編碼,吸收了兩者的優(yōu)點。合成編碼方法(LPAS)是目前最廣泛研究的語音編碼算法,它通過線性預測確定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論