語音的壓縮編碼.ppt

上傳人：x*** IP屬地：四川上傳時間：2019-07-02 格式：PPT 頁數(shù)：48 大?。?71.50KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩43頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第13章語音的壓縮編碼,內(nèi)容,一、引言二、數(shù)字語音的波形編碼三、數(shù)字語音的參數(shù)編碼四、數(shù)字語音的混合編碼,一、引言,數(shù)字語音壓縮編碼的可能性,聲音信號中包含有大量的冗余信息鄰近樣本之間有很大的相關(guān)性周期之間的相關(guān)性基音之間的相關(guān)性長時（幾十秒）自相關(guān)性話音間歇（靜音）可以利用人的聽覺感知特性進(jìn)行壓縮, 可以利用語音信號的生成機(jī)理進(jìn)行數(shù)據(jù)壓縮。,語音壓縮編碼方法分類,波形編碼 (Perception model-based compression) 優(yōu)點(diǎn) : 通用、音頻質(zhì)量較高缺點(diǎn) : 很難獲得較大的壓縮比示例 : PCM, ADPCM, SBC 參數(shù)編碼,源編碼 (Production model-based compression) 優(yōu)點(diǎn): 壓縮比較大缺點(diǎn): 信號源必須已知示例: LPC 混合編碼(Hybrid compression) 示例 : CELP,三類語音編碼器性能比較,數(shù)字語音編碼標(biāo)準(zhǔn),標(biāo)準(zhǔn) 方法比特率質(zhì)量時間應(yīng)用 G.711 PCM 64 4.4 1972 PSTN ANSI 1015 LPC-10 2.4 2.7 1976 保密通信 G.721 ADPCM 32 4.1 1984 PSTN GSM(歐洲蜂窩通信) RPE-CELP 13 3.6 1991 ANSI 1016 CELP 4.8 3.2 1991 G.728 低延時CD-CELP 16 4.0 1992 IS 54(北美TDMA) VSELP 8 3.5 1992 IS 96(北美CDMA) QCELP 1-8 3.4 1993 日本蜂窩通信 VSELP 6.8 3.3 1993 G.729A CS-ACELP 8 4.2 1995 IP電話 G.723.1(H.323, H.324) ACELP 6.3 3.98 1995 IP電話半速率GSM(歐洲蜂窩通信) AMR 5-6 3.4 1995 新的低速率ANSI標(biāo)準(zhǔn) MELP 2.4 3.3 1996,二、數(shù)字語音的波形編碼,波形編譯碼器,算法比較簡單，容易實(shí)現(xiàn)，低延遲，壓縮效率不高，數(shù)據(jù)速率在16 kbps以上，聲音質(zhì)量相當(dāng)好，通用性好，適用于任意類型的數(shù)字聲音，很成熟，有一系列國際標(biāo)準(zhǔn)： CCITT G.711 PCM 64kb/s CCITT G.721 ADPCM 32Kb/s CCITT G.726 ADPCM 48, 32, 24, 16 Kb/s 已廣泛應(yīng)用于電話語音的中繼線傳輸,CCITT G.711 (脈沖編碼調(diào)制) Pulse Code Modulation (PCM) of Voice Frequency,編碼過程：,分析：方法簡單，易實(shí)時處理，語音質(zhì)量好，壓縮效率不高，碼率為64kbps。,碼率104 kbps,碼率 8位 x 8k64 kbps,對數(shù)變換 F=ln(x),目的 : 適應(yīng)聽覺的非線性特性；壓縮數(shù)據(jù)。,北美和日本等地區(qū) （律壓擴(kuò)算法）,壓擴(kuò)算法的實(shí)現(xiàn),x(n): 線性碼(1+12位) F(n): PCM碼(1+7位) 0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y Z 0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z 0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d e f g 1 1 1 W X Y Z,PCM 的應(yīng)用,應(yīng)用于數(shù)字聲音的編輯處理（多媒體計(jì)算機(jī)）應(yīng)用于聲音的傳輸（通信）: 長途電話 (8 KHz x 8 bit x 1), 時分多路復(fù)用TDM (time-division multiplexing) 應(yīng)用于全頻帶數(shù)字聲音的表示/存儲: CD-DA（CD唱片），DAT (44.1 KHz x 16 bit x 2),ADPCM自適應(yīng)差分脈沖編碼調(diào)制 (Adaptive Differential PCM),原理：聲音信號具有很強(qiáng)的相關(guān)性，可從已知信號來預(yù)測未知信號, 即使用前面的樣本預(yù)測當(dāng)前的樣本，實(shí)際樣本值與預(yù)測值之間的誤差往往很小。利用自適應(yīng)的思想改變量化階的大小，即使用小的量化階(step-size)去編碼小的差值，使用大的量化階去編碼大的差值，效果：量化位數(shù)可以顯著減少，從而降低了總的碼率。,增量調(diào)制(DM),量化器 Q,( m階線性預(yù)測，A1, A2, . , Am可自動修正。),實(shí)際樣本值,線性預(yù)測公式： Xn = A1*Xn-1 + A2*Xn-2 + . + Am*Xn-m,利用樣本與樣本之間存在的相關(guān)性進(jìn)行編碼，即根據(jù)前面的樣本估算當(dāng)前樣本的大小，然后對預(yù)測誤差進(jìn)行量化編碼。,差分脈沖編碼調(diào)制 DPCM,130，150，140，200，230 f 130, 130, 142, 144, 167 e 0, 20, -2, 56, 63 e 0, 24, -8, 56, 56 f 130, 154, 134, 200, 223,舉例,自適應(yīng)脈沖編碼調(diào)制(APCM),根據(jù)輸入樣本幅度的大小來改變量化階大小。可以是瞬時自適應(yīng)，即量化階的大小每隔幾個樣本就改變，也可以是音節(jié)自適應(yīng)，即量化階的大小在較長時間周期里發(fā)生變化。,量化器 Q,樣本值,量化器 Q,13位自然碼的數(shù)字語音樣本,CCITT G.721 ADPCM編碼器,6階自適應(yīng)線性預(yù)測， 4位的自適應(yīng)量化器，輸出碼率： 8k x 4 = 32 kbps,ADPCM 小結(jié),PCM話音質(zhì)量 4.5級 ADPCM話音質(zhì)量 4.34級,碼率降低一倍(32 kbps)。 ADPCM應(yīng)用：數(shù)字語音通信多媒體應(yīng)用中的語音（解說詞）,Sub-band coding (子帶編碼),基本原理：利用帶通濾波器(BPF)把聲音信號按頻率范圍劃分成幾個組成部分(子頻帶，子帶) 低頻部分能量較集中，量化精度要高，取樣頻率可稍低。高頻部分是摩擦音、噪音，量化精度可低些，但取樣頻率要稍高。不同子頻帶作不同的ADPCM編碼處理，然后再復(fù)合在一起。,模式1：聲音64kbps；輔助數(shù)據(jù) 0 模式2：聲音56kbps；輔助數(shù)據(jù) 8 kbps 模式3：聲音48kbps；輔助數(shù)據(jù) 16kbps,G.722: 64 kbps的聲音子帶編碼,二、數(shù)字語音的參數(shù)編碼,參數(shù)編碼(源編碼)的設(shè)計(jì)思想,分析人的發(fā)聲器官的結(jié)構(gòu)及語音生成的原理，建立語音生成的物理(數(shù)學(xué))模型，編碼時：從話音波形信號中提取生成該話音的參數(shù)；解碼時：根據(jù)語音生成模型,使用這些參數(shù)合成原始話音。,語音生成過程（1）,空氣由肺部呼出，經(jīng)過聲帶，送入聲道，最后從嘴唇呼出，產(chǎn)生聲音。聲音信號具有短期相關(guān)性(持續(xù)時間1 ms左右) 聲道是一個諧振腔，說話時，聲道形狀不斷變化，引起諧振頻率改變，大約10 100 ms改變一次；聲道可以看作為具有共振特性的一個濾波器，由于聲道形狀變化比較慢，因此該濾波器的轉(zhuǎn)移函數(shù)(transfer function)只需要每20ms左右時間修改一次。,語音生成過程（2）,聲道濾波器由肺部空氣經(jīng)過聲帶而激勵，根據(jù)激勵的模式，語音可分成2類：,濁音（時間域）,濁音Voiced sounds （聲帶震動，產(chǎn)生準(zhǔn)周期的空氣脈沖激勵信號，送入聲道）,清音（時間域）,清音Unvoiced sounds（聲帶不振動，聲門始終處于“開”狀態(tài)，送入聲道的空氣激勵信號是一種無周期性的噪音信號）,語音生成的聲道濾波器模型(1),語音生成的聲道濾波器模型(2),LPC模型= (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T),語音是一個近似的短時(1030ms)平穩(wěn)隨機(jī)過程，LPC模型的參數(shù)A = (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T)變化比較慢, 大約每20ms變化一次；假設(shè)語音信號的取樣頻率為8kHz，將每秒鐘分成50幀，每幀 20ms(其中有20x8=160個樣本) ，每一幀的所有信號近似地滿足同一模型，即每一幀語音可以使用同一組參數(shù)來表示: 濁音還是清音（1位）濁音的基頻T（6位）音源的幅度G（5位）線性濾波器的參數(shù)（10個參數(shù)，每個參數(shù)6位，共60位）,語音的參數(shù)編碼（LPC分析）從已知的數(shù)字語音信號中提取參數(shù),所以，每秒總碼率為：50 x 72 bits = 3600 bps = 3.6kbps,如何確定LPC的系數(shù)(1),對聲音波形的編碼實(shí)際就轉(zhuǎn)化為如何提取語音生成模型的參數(shù)，經(jīng)典的方法是線性預(yù)測編碼LPC。每一個樣本都用過去10個樣本的線性組合來預(yù)測： spre(n) = - a1s(n-1)+a2s(n-2)+a10s(n-10) 樣本s(n)的預(yù)測誤差為: e(n) = s(n) - spre(n) = s(n) + a1s(n-1)+a2s(n-2) +a10s(n-10),問題：對給定的一幀信號s(n) ，n=0159，怎樣選擇系數(shù)ai 使得預(yù)測誤差e(n)的平方和為最??？即 E=s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)2 最小為此，上式對a1, a2, , a10 分別求偏導(dǎo)數(shù)得到一組差分方程 dE/da1 =0, s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)s(n-1)=0 dE/da2 0, s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)s(n-2)=0 , dE/da10 0, s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)s(n-10)=0,如何確定LPC的系數(shù)(2),求解系數(shù) ai的線性方程組,R(1,1) R(1,2) R(1, 3) R(1,10) a1 -R(0,1) R(2,1) R(2,2) R(2, 3) R(2,10) a2 -R(0,2) R(3,1) R(3,2) R(3, 3) R(3,10) a3 -R(0,3) . . . . . . . . . R(10,1)R(10,2) R(10, 3) R(10,10) a10 -R(0,10),如何確定LPC的系數(shù)(3) 如何確定其他3個參數(shù)(V/UV,G,T),濁音/清音的判定比較困難，不正確的分類會大大降低語音質(zhì)量使用語音信號過零點(diǎn)的數(shù)目來判定； i12,140 基音周期T的估計(jì) 是生成高品質(zhì)、高清晰語音的關(guān)鍵常用方法：SIFT基音檢測法，AMDF基音檢測法激勵信號的增益G,例1 2.4kb/s LPC語音編碼器,20ms作為1幀，按幀進(jìn)行編碼 LPC系數(shù)的比特分配為：34 bit 增益G ：7 bit 濁音/清音及濁音的基音周期T：7 bit 碼率: 48x502.4kb/s,例 LPC-10編碼器(ANSI 1015 , 2.4kb/s),22.5ms作為1幀，以幀為單位進(jìn)行編碼， LPC系數(shù)共10位，采用協(xié)方差方法計(jì)算，濁音的基音周期T采用平均幅值差分函數(shù)(AMDF)計(jì)算，共60個值，范圍51.3-400Hz，半對數(shù)表示，激勵信號：濁音采用標(biāo)準(zhǔn)化的存儲波形碼率：54 x 1000/22.5 = 2.4 kb/s,波形編碼與參數(shù)編碼的比較,波形編碼參數(shù)編碼 1 碼率高碼率低 2 音質(zhì)好音質(zhì)差 3 算法簡單算法復(fù)雜 4 可處理任何聲音信號僅處理語音信號參數(shù)編碼的數(shù)據(jù)率在2-4 kbps左右，產(chǎn)生的語音雖然可以聽懂，但其質(zhì)量遠(yuǎn)遠(yuǎn)低于波形編碼。盡管它的音質(zhì)比較低，但它的保密性能好，因此這種編譯碼器一直用在軍事上.,三、數(shù)字語音的混合編碼,參數(shù)編碼的不足,參數(shù)編碼在降低碼率方面有很大突破，但語音質(zhì)量尚不理想；原因是語音生成模型中的激勵信號的處理過于簡單：不是清音就是濁音；實(shí)際上有些是濁音、清音的混合；濁音的激勵信號是周期性的，實(shí)際上是準(zhǔn)周期性的；,脈沖序列發(fā)生器,隨機(jī)噪聲發(fā)生器,基音周期,(聲帶振動),(聲帶不振動),音源幅度,音源幅度,濁音,清音,改進(jìn)思路：設(shè)計(jì)更好的激勵信號。,混合編碼的原理,思路: 使用合成-分析法AbS(Analysis-by-Synthesis)來改進(jìn)參數(shù)編碼, 其中聲道濾波器模型仍與LPC編碼器中的相同，但不使用兩個狀態(tài)(有聲/無聲)的模型作為濾波器的輸入激勵信號，而是增加反饋，調(diào)節(jié)激勵信號u(n), 使語音輸入信號s(n)與重建的語音信號誤差e(n)為最小。,編碼器通過“合成”許多不同的近似值來“分析”輸入話音信號，所以稱為“合成-分析編碼器”。）,激勵信號生成的方法：多脈沖線性預(yù)測編碼MPLPC(multiple pulse LPC) 等間隔脈沖激勵RPE (regular-pulse excited) 碼激勵線性預(yù)測CELP (code excited linear predictive),最佳激勵信號u(n)的生成方法,多脈沖線性預(yù)測編碼 MPLPC,將原始語音分為20ms長度的幀, 對每一幀計(jì)算出LPC的系數(shù)；假設(shè)激勵信號由k個脈沖組成，每個脈沖的幅度和位置待定；從第1個脈沖開始，確定其幅度和位置；若1，i-1個脈沖的幅度和位置已經(jīng)確定，則確定第i個脈沖的幅度與位置；上述過程重復(fù)k次，結(jié)束。,等間隔脈沖激勵LPC編碼器 Regular-Pulse Excited LPC,每一幀使用4組激勵信號(即每5 ms有1組激勵信號), 每一組激勵信號使用13個脈沖，間隔時間相同，編碼器每5ms計(jì)算一次激勵信號的參數(shù)（第1個激勵脈沖的位置和所有其他脈沖的幅度），目標(biāo)是使40-120個樣本范圍的預(yù)測誤差序列的自相關(guān)達(dá)到最大：,每20ms進(jìn)行一次短時預(yù)測，確定LPC的系數(shù)（共36比特）,每20ms需4x56+36=260bit, 碼率0.26x50=13kb/s,例 GSM (13kbps)語音編碼器 (Global System for Mobile communications),每5ms產(chǎn)生一組由13個脈沖組成的激勵信號序列(56bit),每5ms計(jì)算一次，使40-120個樣本范圍的短時預(yù)測誤差序列的自相關(guān)達(dá)到最大,LPC濾波器有8個系數(shù)，共36bit，每20 ms 計(jì)算一次,每20ms生成4x56+36=260bit, 碼率0.26x50=13kb/s,碼激勵線性預(yù)測編碼器 ( CELP，Code Excited LPC ),CELP算法, 1985提出。使用有限數(shù)量的激勵信號存儲在存儲器中(稱為碼本)，以替代多脈沖激勵。選用哪一個激勵信號由碼本的索引項(xiàng)指出，其增益項(xiàng)用來擴(kuò)展它的功率。在CELP基礎(chǔ)上制定的話音編碼標(biāo)準(zhǔn): 美國的 ANSI的 4.8 kbps codec ITU的“l(fā)ow-delay 16 kbps codec,演示（1）,“A lathe is a big tool. Grab every dish of sugar.“ 原始聲音（PCM） ADPCM CELP LD-CELP CS-ACELP LPC-10,演示（2）,格式碼率 1 min = Sample 11,025Hz 16bit PCM 176.4kbs 1292k 11k16bitpcm.wav 8000Hz 16bit PCM 128kbs 937.5k 8k16bitpcm.wav 11,025Hz 8bit PCM 88.2kbs 646k 11k8bitpcm.

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音的壓縮編碼.ppt

文檔簡介

溫馨提示

最新文檔

評論

語音的壓縮編碼.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔