




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、音頻編解碼技術語音編解碼概述語音編解碼概述 (a) 波形編碼器 不利用生成語音信號的任何知識來產生一種重構信號,波形編碼器會盡可能重構出包括背景噪音在內的模擬波形。由于波形編碼器作用于所有輸入信號,因此會產生高質量的樣值。特點是復雜度低,在數(shù)據(jù)速率16kb/s以上時,質量很好,例如, ITU-T G.711規(guī)范(PCM)用的比特率為64kbps。 Time domain approach: PCM (pulse code modulation), DPCM, ADPCM Frequency domain approach: SBC(sub-band coding), ATC(adaptive
2、transform coding) 語音編碼器類型語音編碼器類型語音編解碼概述語音編解碼概述 (b) 聲碼器聲碼器(vocoder)也稱為音源編譯碼器,它試圖在話音波形信號中提取生成話音的參數(shù),通過這些參數(shù)和話音生成模型重構出語音。線性預測編碼(LPC)用來獲取一時變數(shù)字濾波器的參數(shù)。這個濾波器用來模擬說話人的聲道輸出。 聲碼器 (vecoder) 時變?yōu)V波器 (time-varying filter) 命令 基本激勵 它的音質很低,增加數(shù)據(jù)率對提高音質基本無用, 廣泛用于軍事保密通訊. 語音編碼器類型語音編碼器類型語音編解碼概述語音編解碼概述 試圖填補波形編碼和音源編碼的間隔: wavefo
3、rm coding不能解決低于16kb/s下的音質問題, source coding可壓縮到2.4kb/s或更低,但音質不自然。 時域合成-分析編碼器(analysis-by-synthesis, ABS)。它和音源編碼器的主要區(qū)別: 不使用2個狀態(tài)(有聲/無聲)的模型來尋找濾波器的輸入激勵信號,而是要尋找這樣一種激勵信號,使得這種信號產生的波形盡可能接近原始話音波形. 語音編碼器類型語音編碼器類型(1)(1)語音編解碼概述語音編解碼概述 (c) 混合編碼器目前常用的語音編碼器是混合編碼器,它融合了波形編碼器和聲碼器的長處。它的另一特點是它工作在非常低的比特率(416 kbps)?;旌暇幋a器采
4、用合成分析(AbS)技術。 (c.1)線性預測合成分析編碼器: 前向自適應LPAS編碼器:8 kbps G.729編碼器和6.3 kbps 與5.3 kbps G.723.1編碼器 后向自適應LPAS編碼:16 kbps G.728低時延碼激勵線性預測 (c.2)參數(shù)語音編碼器:2.4 kbps 混合激勵線性預測編碼 語音編碼器類型語音編碼器類型(2)(2)語音編解碼概述語音編解碼概述 語音編碼器的主要功能就是把用戶語音的PCM(脈沖編碼調制)樣值編碼成少量的比特(幀)。這種方法使得語音在鏈路產生誤碼、網絡抖動和突發(fā)傳輸時具有魯棒性(Robustness)。在接收端,語音幀先被解碼為PCM語音
5、樣值,然后再轉換成語音波形。 語音編解碼目的語音編解碼目的語音編解碼概述語音編解碼概述 幀大小: 幀的大小表示語音流量的時間長度,也稱為幀時延。幀是語音信號的分立部件,且每幀是根據(jù)語音樣點更新的。本章所介紹的編解碼器都是一次處理一幀。每幀信息放在各語音分組中,并傳送給接收端。 處理時延: 它表示在編解碼器中對一幀語音做編碼算法處理時所需的時間。它通常簡單的計入幀時延。處理時延也稱為算法時延。 前視時延: 編碼器為了對當前幀的編碼提供幫助而檢查下一幀的一定長度,此長度就稱為前視時延。前視的想法是為了利用相鄰語音幀之間的密切相關性。 幀長度: 這個值表示經編碼處理后的字節(jié)數(shù)(不包括幀頭)。 語音編
6、碼器評價語音編碼器評價語音編解碼概述語音編解碼概述 語音比特率: 當編解碼器的輸入是標準脈沖編碼調制的語音碼流(比特率為64 kbit/s)時,編解碼器的輸出速率。 DSP MIPS: 此值是指支持特定編碼器的D S P處理器的最低速度。 RAM需求: 它描述了支持特定的編碼過程所需要RAM的大小。 編碼器工作所需的時間: 是指編碼器的緩存及處理時間,稱為單向系統(tǒng)時延。其值=幀大小+ 處理時延+ 前視時延。顯然,解碼時延也非常重要。實際上,解碼時延大約是編碼時延的一半。 語音編碼器評價(續(xù))語音編碼器評價(續(xù))音頻編解碼標準音頻編解碼標準 語音編解碼標準 其它音頻編解碼標準 DTMF Tran
7、smitters and Receivers標準 回聲消除相關標準音頻編解碼標準音頻編解碼標準 語音編解碼標準 其它音頻編解碼標準 DTMF Transmitters and Receivers標準 回聲消除相關標準音頻編解碼標準音頻編解碼標準 語音編解碼標準 ITU-T Recommendation G.711 ITU-T Recommendation G.723.1 & Annex A ITU-T Recommendation G.728 & Annex G ITU-T Recommendation G.729 & Annex A B 音頻編解碼標準音頻編解碼標準
8、語音編解碼標準參數(shù)對照音頻編解碼標準音頻編解碼標準Bit rates時延時延ms支持靜音壓支持靜音壓縮縮編碼類型G.71164 kbit/s0.125 是是(Appendix II)PCMG.723.15.3 & 6.3 kbit/s37.5是是(Annex A) ACELP & MP-MLQG.72816 kbit/s0.625 否否LD-CELPG.7298 kbit/s15是是(Annex B) CSA-CELP 音頻編解碼標準各參數(shù)對照PCM(Pulse Code Modulation)模擬信號低通防失真濾波器波形編碼器PCM樣本量化器采樣: 均勻采樣量化: 均勻量化,
9、非均勻量化(大信號采用大間隔,小信號小間隔) PCM在通信中主要用于時分多路復用和頻分多路復用.語音壓縮ADPCM自適應差分脈碼調制波形編碼方案自適應:自動壓擴差分:僅對樣本之間的變化編碼每個樣本的速率與比特:32 Kbps = 8 Kbps x 4 bits/sample24 Kbps = 8 Kbps x 3 bits/sample16 Kbps = 8 Kbps x 2 bits/sampleCELP: 碼激勵線性預估 進入編碼器的信號從8比特PCM轉換成16比特線性PCM樣本 編碼器使用電碼本。電碼本用反饋信息對語音波形不斷地分析,“學習”和預估 白噪聲生成器“激勵”編碼器 數(shù)字結果(
10、參數(shù))被傳送到遠端碼器進行語音波形的合成和生成CS-ACELP: 共軛結構代數(shù)碼激勵線性預估 使用 DSP 80個16比特線性PCM數(shù)據(jù)樣本幀(10M)進入10個8比特碼字 增加一個“向前”的5毫秒 噪音降低和音調合成過濾增加到處理要求中 8 Kbps 的數(shù)據(jù)速率LD-CELP: 低延遲碼激勵線性預估 與CSA-CELP相似,但 LD CELP使用較小的電碼本,并以16 Kbps 操作使延遲減小到25毫秒(無“向前”) 從8-kHz輸入語音的每五個樣本中產生10比特的碼字 四個10比特的碼字被稱為一個“子幀”,它大約需要2.5毫秒進行編碼 兩個“子幀”結合到一個5毫秒的碼組中進行傳輸DM an
11、d ADM (Adaptive Delta Modulation)SBC(Sub-Band Coding) and SB-ADPCMLPC (Linear Predictive Coding)其它語音編碼類型音頻編解碼標準音頻編解碼標準 語音編解碼標準 其它音頻編解碼標準 DTMF Transmitters and Receivers標準 回聲消除相關標準 當前國際上主流的新一代視音頻編解碼軟件技術標準是國際運動圖像專家組于1999年公布的MPEG4技術標準,將逐漸取代現(xiàn)有的MPEG1(VCD)、MPEG2(DVD)標準。MPEG4主要為了實現(xiàn)在有線、移動網絡上傳輸互動的視音頻內容,目前世界主
12、要公司的編解碼軟件都支持MPEG4標準。雖然微軟等幾個公司在發(fā)展自己的技術和標準,但都脫不開MPEG4標準底層的基礎專利技術。MPEG4等編解碼技術的革命,極大地擴展了數(shù)字多媒體的應用市場。 音頻編解碼標準其它音頻編解碼標準MPEG中音頻編碼標準(1) 編碼器的輸入和解碼器的輸出與現(xiàn)存的PCM標準兼容 ISO/IEC 11172-3(MPEG1音頻)的采樣率為32kHz,44.1kHz和48kHz 。根據(jù)應用需要,可以使用不同層次的編碼系統(tǒng)。 Layer 包括將數(shù)字音頻變成32個子帶的基本映射。將數(shù)據(jù)格式化成塊的固定分段。決定自適應位分配的心理聲學模型。利用塊壓擴和格式化的量化器。理論上,層編
13、碼/解碼的最少延時約為19ms。 Layer 提供了為分配,縮放因子和抽樣的附加編碼。使用了不同的幀格式。這層理論上的最小編碼/解碼延時約為35ms。 Layer 采用混合帶通濾波器來提高頻率分辨率。它增加了差值量化(非均勻)、自適應分段和量化值的熵編碼。這層理論上的最小編碼/解碼延時為59ms。聯(lián)合立體聲編碼作為一個附加特征,能夠加入到任何一層中。 音頻編解碼標準其它音頻編解碼標準杜比數(shù)字音頻技術 (1)AC-3編碼和解碼 AC-3音頻編碼標準的起源是DOLBY AC-1。AC-1應用的編碼技術是自適應增量調制(ADM),它把20kHz的寬帶立體聲音頻信號編碼成512kbps的數(shù)據(jù)流。AC-
14、1曾在電視和調頻廣播上得到廣泛應用。1990年DOLBY實驗室推出了立體聲編碼標準AC-2,它采用類似MDCT的重疊窗口的快速傅立葉變換(FFT)編碼技術,其數(shù)據(jù)率在256kbps以下。AC-2被應用在PC聲卡和綜合業(yè)務數(shù)字網等方面。 1992年DOLBY實驗室在AC-2的基礎上,有開發(fā)了DOLBY AC-3的數(shù)字音頻編碼技術。AC-3提供了五個聲道的從20Hz的全通帶頻響,即正前方的左(L)、中(C)和右(R),后邊的兩個獨立的環(huán)繞聲通道左后(LS)和右后(RS)。AC-3同時還提供了一個100Hz以下的超低音聲道供用戶選用,以彌補低音之不足。因為此聲道僅為輔助而已,故定為0.1聲道。所以A
15、C-3被稱為5.1聲道。AC-3將這6個聲道進行數(shù)字編碼,并將它們壓縮成一個通道,而它的比特率僅是320kbps。 音頻編解碼標準其它音頻編解碼標準杜比數(shù)字音頻技術 (2)杜比杜比 E是一種專業(yè)音頻編碼技術,用于輔助廣播和其它一些兩聲道設備傳輸多聲道的音頻信息。杜比E可以通過一對AES/EBU或者一對數(shù)字VTR音軌,給后期制作和發(fā)行提供多達8個聲道的廣播級質量的音頻信息。另外,杜比E的優(yōu)點還在于經過它編碼的信息可以被編輯、解碼、編碼再解碼,經過多次編解碼轉換而沒有可察覺的音質降低。 MLP Lossless是一個真正的“無損”編碼系統(tǒng),DVD-Audio 中采用的壓縮技術,可對PCM數(shù)據(jù)進行完
16、美地復制,不同于“有損”的感性編碼的杜比數(shù)字技術。MLP Lossless有效地將磁盤空間擴充了一倍,而沒有影響高解析度的PCM音質,從而使DVD-Audio 光盤可以同時攜帶同一節(jié)目的立體聲和多聲道版本。所有DVD-Audio播放機必須具備MLP Lossless解碼功能。 音頻編解碼標準其它音頻編解碼標準杜比數(shù)字音頻技術 (3)高級音頻編碼 (AAC)是一種高質量感性音頻編碼技術,應用于廣播和網絡音樂下載。AAC的編碼效率優(yōu)于MP3,以更低的比特率提供更高質量的音頻信號。這項技術是由四個工業(yè)界的領導者(AT&T,杜比實驗室,F(xiàn)raunhofer IIS以及索尼公司)共同開發(fā),將其標
17、準化為一個ISO/IEC的規(guī)范。作為MP3的繼任者,AAC現(xiàn)在已經獲得了越來越多軟硬件生產商的支持。 音頻編解碼標準其它音頻編解碼標準音頻編解碼技術音頻編解碼技術 回聲抵消EC 混音 背景噪聲抑制ANS 靜音壓縮 自動增益控制AGC 唇音同步 包丟失隱藏PLC 音頻編解碼技術音頻編解碼技術 混音混音混音就是把兩個以上的聲音(文件形式或碼流形式)混合為一個。目前,混音主要有硬件合成和軟件疊加這兩種方法。為了防止混音后的溢出問題,一般采用的算法是累加取平均值,這種方法會產生聲強失真現(xiàn)象。加權疊加的算法可以有效解決這個問題,加權系數(shù)的優(yōu)化成為這個算法的關鍵。 在多方會議時,混音還有一個策略的問題。
18、音頻編解碼技術音頻編解碼技術 回聲消除回聲消除 AEC(adaptive echo canceller)是對揚聲器信號與由它產生的多路徑回聲的相關性為基礎,建立遠端信號的語音模型,利用它對回聲進行估計,并不斷地修改濾波器的系數(shù),使得估計值更加逼近真實的回聲。 然后,將回聲估計值從話筒的輸入信號中減去,從而達到消除回聲的目的,AEC還將話筒的輸入與揚聲器過去的值相比較,從而消除延長延遲的多次反射的聲學回聲。 根椐存儲器存放的過去的揚聲器的輸出值的多少,AEC可以消除各種延遲的回聲 。音頻編解碼技術音頻編解碼技術 回聲消除回聲消除回聲產生的因素1.混雜傳輸2.電話3.路由器4.服務質量QoS音頻編
19、解碼技術音頻編解碼技術 背景噪聲抑制背景噪聲抑制 背景噪音抑制的英文縮寫為ANS(Automatic Noise Suppression)。 ANS可探測出背景固定頻率的雜音并消除背景噪音,例如:風扇、空調聲自動濾除。呈現(xiàn)出與會者清晰的聲音。 音頻編解碼技術音頻編解碼技術 靜音壓縮靜音壓縮 它利用了在總會話時間中靜音時間占了大約50%這一事實。其基本思路是在靜音期間減少傳送的比特數(shù),從而節(jié)省了所需傳輸?shù)目偙忍財?shù)。在電話網中,多年來對模擬語音信號都是用時間分配語音插值(TASI, Time-Assigned Speech Interpolation)方法進行處理。這一技術也就是將其他語音信號或者
20、數(shù)據(jù)信號放置在談話的靜音期間內,從而為多信道鏈路提供附加容量?,F(xiàn)今, TASI已被運用于數(shù)字信號中并被賦予新名稱其中的一個例子就是時分多址(TDMA, Time Division Multiple Access)。簡要地講,TDMA是將通常的信號劃分成很小的、數(shù)字化的片段(slots即時隙)。這些時隙和其他時隙一起在一個信道中進行時分復用。音頻編解碼技術音頻編解碼技術 靜音壓縮技術的幾個概念靜音壓縮技術的幾個概念VAD: Voice Activity Detection SID : Silence Insertion DescriptorDTX: Discontinuous Transmiss
21、ion CNG: Comfort Noise Generator Voice “Spurt” SilencePink NoiseTimeVoice Activity(PowerLevel) SID BufferSIDHang TimerNo Voice Traffic SentB/W Saved- 54 dbm- 31 dbmVoice “Spurt” 音頻編解碼技術音頻編解碼技術 靜音壓縮之語音活動識別靜音壓縮之語音活動識別音頻編解碼技術音頻編解碼技術 自動增益控制自動增益控制AGCAGC AGC可以自動調麥克風的收音量,使與會者收到一定的音量水平,不會因發(fā)言者與麥克風的距離改變時,聲音有忽
22、大忽小聲的缺點。 AGC可分為模擬AGC和數(shù)字AGC電路。AGC環(huán)路可以放在模擬與數(shù)字電路之間,增益控制算法在數(shù)字部分來實現(xiàn),合適的增益設置反饋給模擬可變增益放大器(VGA)。AGC電路的實現(xiàn)有前饋、反饋和混合環(huán)路等三種,分別如圖1、2、3所示。 音頻編解碼技術音頻編解碼技術 自動增益控制自動增益控制AGCAGC音頻編解碼技術音頻編解碼技術 唇音同步唇音同步 唇音同步是指語音和畫面播放的時間差小于一定范圍。它實際上是一個牽涉多種技術的綜合問題,包括編解碼時延,網絡QOS等等。這里只針對關鍵的一個因素進行闡述:Internet是基于分組交換的傳輸技術,因此會出現(xiàn)語音包不會等時到達目的地的現(xiàn)象,表
23、現(xiàn)在語音不連貫。這就需要先對語音包進行排隊,經過動態(tài)調整后使語音穩(wěn)定輸出。一般采用jitter buffer等技術,使語音流暢清晰。 音頻編解碼技術音頻編解碼技術 包丟失隱藏包丟失隱藏(PLCPLC) 包丟失隱藏(PLC)算法也被稱為幀消除隱藏算法,它隱藏了音頻系統(tǒng)的傳輸包丟失現(xiàn)象。很多基于CELP算法的語音編碼器都把PLC算法寫入它們的算法中。 PLC的目標:是產生一個合成的語音信號以替代在接收的碼流中丟失(消除)的數(shù)據(jù)。理想情況下,合成的信號會有和丟失信號同樣的音質和頻譜特性,并且不會產生不自然的偽音。 PLC算法的依據(jù):由于語音信號通常是局部靜止的,所以可以利用以前的信號來產生對丟失語音
24、段合理近似。 PLC應用條件:丟失的包不是很長;丟失的包不發(fā)生在快速變化的區(qū)域內。在滿足 PLC應用條件的前提下,包丟失可以完全被隱藏。音頻編解碼技術音頻編解碼技術 包丟失隱藏包丟失隱藏PLCPLC( (圖圖) ) T1535210-00InputAfter 10 msConcealedOriginal音頻編解碼標準音頻編解碼標準 語音編解碼標準 其它音頻編解碼標準 DTMF Transmitters and Receivers標準 回聲消除相關標準音頻編解碼標準音頻編解碼標準DTMFDTMF的檢測和產生的檢測和產生音頻編解碼標準音頻編解碼標準 DTMF Transmitters and Re
25、ceivers標準 ITU-T Recommendation Q.23 & Q.24 ETSI ES 201 235-1,2,3 音頻編解碼標準音頻編解碼標準 語音編解碼標準 其它音頻編解碼標準 DTMF Transmitters and Receivers標準 回聲抵消相關標準音頻編解碼標準音頻編解碼標準 回聲消除相關標準 ITU-T Recommendation G.167:適用于通信終端設備上的聲學回聲消除 ITU-T Recommendation G.165 ITU-T Recommendation G.168-DIGITAL NETWORK ECHO CANCELLERS音頻
26、編解碼技術的發(fā)展音頻編解碼技術的發(fā)展 編解碼器的發(fā)展趨勢 可分級的碼率和編碼質量 編解碼效率 編解碼復雜度音頻編解碼技術的發(fā)展音頻編解碼技術的發(fā)展 PCM編碼方式所產生的數(shù)據(jù)量太大,存儲和傳輸都既不方便也不經濟因此需要開發(fā)一種新的編碼方式,它應該使用較少的數(shù)據(jù)量,而又不會導致音質的主觀聽感有明顯的下降。這種編碼方式被稱為“感知型編碼(Perceptual Coding)”。感知型編碼技術以心理聲學原理為基礎,只記錄那些能被人的聽覺所感知的聲音信號,從而達到減少數(shù)據(jù)量的同時不損害實際聽感的目的。 它利用了這樣一條心理聲學原理:較強的聲音信號可以掩蔽臨近頻段中較弱的信號。換言之,如果在某一頻段中出
27、現(xiàn)了一個較強的信號,那么該頻段中所有低于某一門檻值的信號都將被強信號掩蔽掉,成為人耳不可聞的信號。濾除該弱信號將不會對音質產生不良影響,而且能減少編碼后的數(shù)據(jù)量,所以可以把它們作為噪聲信號來對待。 感知型編碼(Perceptual Coding)音頻編解碼技術的發(fā)展音頻編解碼技術的發(fā)展 PCM編碼方式所產生的數(shù)據(jù)量太大,存儲和傳輸都既不方便也不經濟因此需要開發(fā)一種新的編碼方式,它應該使用較少的數(shù)據(jù)量,而又不會導致音質的主觀聽感有明顯的下降。這種編碼方式被稱為“感知型編碼(Perceptual Coding)”。感知型編碼技術以心理聲學原理為基礎,只記錄那些能被人的聽覺所感知的聲音信號,從而達到減少數(shù)據(jù)量的同時不損害實際聽感
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 婚前財產債務不動產約定協(xié)議
- 2025型鋼便橋租賃合同
- 2025供暖設備及配件供貨合同
- 2025集體土地使用權合同
- 公司合作解散協(xié)議書
- 不給補繳社保協(xié)議書
- 2025年03月國家應急管理部化學品登記中心擬聘人員筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 宮斗片項目風險分析和評估報告
- 鎮(zhèn)江市高等??茖W校《大數(shù)據(jù)庫》2023-2024學年第二學期期末試卷
- 新疆大學《食品發(fā)酵與釀造工藝學實驗》2023-2024學年第二學期期末試卷
- 安全生產教育培訓制度管理辦法
- 抽油井檢泵作業(yè)課件
- 2022年06月2022年廣東肇慶廣寧縣司法局招考聘用政府雇員名師點撥卷V答案詳解版(3套版)
- 《HSK標準教程3》第5課課件
- HSK標準教程4上第1課課件
- 民俗學概論 第一章 概述課件
- 養(yǎng)老機構行政值班查房記錄表格
- 干粉滅火器點檢記錄表(樣表)
- 伍光和自然地理學4版知識點總結課后答案
- 110kv變電站電氣主接線設計資料全
- 華中科技大學版五年級信息技術教案
評論
0/150
提交評論