語音的壓縮編碼.ppt_第1頁
語音的壓縮編碼.ppt_第2頁
語音的壓縮編碼.ppt_第3頁
語音的壓縮編碼.ppt_第4頁
語音的壓縮編碼.ppt_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第13章 語音的壓縮編碼,內(nèi)容,一、引言 二、數(shù)字語音的波形編碼 三、數(shù)字語音的參數(shù)編碼 四、數(shù)字語音的混合編碼,一、引 言,數(shù)字語音壓縮編碼的可能性,聲音信號中包含有大量的冗余信息 鄰近樣本之間有很大的相關(guān)性 周期之間的相關(guān)性 基音之間的相關(guān)性 長時(幾十秒)自相關(guān)性 話音間歇(靜音) 可以利用人的聽覺感知特性進(jìn)行壓縮, 可以利用語音信號的生成機(jī)理進(jìn)行數(shù)據(jù)壓縮。,語音壓縮編碼方法分類,波形編碼 (Perception model-based compression) 優(yōu)點(diǎn) : 通用、音頻質(zhì)量較高 缺點(diǎn) : 很難獲得較大的壓縮比 示例 : PCM, ADPCM, SBC 參數(shù)編碼,源編碼 (Production model-based compression) 優(yōu)點(diǎn): 壓縮比較大 缺點(diǎn): 信號源必須已知 示例: LPC 混合編碼(Hybrid compression) 示例 : CELP,三類語音編碼器性能比較,數(shù)字語音編碼標(biāo)準(zhǔn),標(biāo)準(zhǔn) 方法 比特率 質(zhì)量 時間 應(yīng)用 G.711 PCM 64 4.4 1972 PSTN ANSI 1015 LPC-10 2.4 2.7 1976 保密通信 G.721 ADPCM 32 4.1 1984 PSTN GSM(歐洲蜂窩通信) RPE-CELP 13 3.6 1991 ANSI 1016 CELP 4.8 3.2 1991 G.728 低延時CD-CELP 16 4.0 1992 IS 54(北美TDMA) VSELP 8 3.5 1992 IS 96(北美CDMA) QCELP 1-8 3.4 1993 日本蜂窩通信 VSELP 6.8 3.3 1993 G.729A CS-ACELP 8 4.2 1995 IP電話 G.723.1(H.323, H.324) ACELP 6.3 3.98 1995 IP電話 半速率GSM(歐洲蜂窩通信) AMR 5-6 3.4 1995 新的低速率ANSI標(biāo)準(zhǔn) MELP 2.4 3.3 1996,二、數(shù)字語音的波形編碼,波形編譯碼器,算法比較簡單,容易實(shí)現(xiàn),低延遲, 壓縮效率不高,數(shù)據(jù)速率在16 kbps以上, 聲音質(zhì)量相當(dāng)好, 通用性好,適用于任意類型的數(shù)字聲音, 很成熟,有一系列國際標(biāo)準(zhǔn): CCITT G.711 PCM 64kb/s CCITT G.721 ADPCM 32Kb/s CCITT G.726 ADPCM 48, 32, 24, 16 Kb/s 已廣泛應(yīng)用于電話語音的中繼線傳輸,CCITT G.711 (脈沖編碼調(diào)制) Pulse Code Modulation (PCM) of Voice Frequency,編碼過程:,分析: 方法簡單,易實(shí)時處理, 語音質(zhì)量好, 壓縮效率不高,碼率為64kbps。,碼率104 kbps,碼率 8位 x 8k64 kbps,對數(shù)變換 F=ln(x),目的 : 適應(yīng)聽覺的非線性特性;壓縮數(shù)據(jù)。,北美和日本等地區(qū) ( 律壓擴(kuò)算法),壓擴(kuò)算法的實(shí)現(xiàn),x(n): 線性碼(1+12位) F(n): PCM碼(1+7位) 0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y Z 0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z 0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d e f g 1 1 1 W X Y Z,PCM 的應(yīng)用,應(yīng)用于數(shù)字聲音的編輯處理(多媒體計(jì)算機(jī)) 應(yīng)用于聲音的傳輸(通信): 長途電話 (8 KHz x 8 bit x 1), 時分多路復(fù)用TDM (time-division multiplexing) 應(yīng)用于全頻帶數(shù)字聲音的表示/存儲: CD-DA(CD唱片),DAT (44.1 KHz x 16 bit x 2),ADPCM自適應(yīng)差分脈沖編碼調(diào)制 (Adaptive Differential PCM),原理: 聲音信號具有很強(qiáng)的相關(guān)性,可從已知信號來預(yù)測未知信號, 即使用前面的樣本預(yù)測當(dāng)前的樣本,實(shí)際樣本值與預(yù)測值之間的誤差往往很小。 利用自適應(yīng)的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值, 效果:量化位數(shù)可以顯著減少,從而降低了總的碼率。,增量調(diào)制(DM),量化器 Q,( m階線性預(yù)測,A1, A2, . , Am可自動修正。),實(shí)際樣本值,線性預(yù)測公式: Xn = A1*Xn-1 + A2*Xn-2 + . + Am*Xn-m,利用樣本與樣本之間存在的相關(guān)性進(jìn)行編碼,即根據(jù)前面的樣本估算當(dāng)前樣本的大小,然后對預(yù)測誤差進(jìn)行量化編碼。,差分脈沖編碼調(diào)制 DPCM,130,150,140,200,230 f 130, 130, 142, 144, 167 e 0, 20, -2, 56, 63 e 0, 24, -8, 56, 56 f 130, 154, 134, 200, 223,舉例,自適應(yīng)脈沖編碼調(diào)制(APCM),根據(jù)輸入樣本幅度的大小來改變量化階大小。 可以是瞬時自適應(yīng),即量化階的大小每隔幾個樣本就改變,也可以是音節(jié)自適應(yīng),即量化階的大小在較長時間周期里發(fā)生變化。,量化器 Q,樣本值,量化器 Q,13位自然碼的數(shù)字語音樣本,CCITT G.721 ADPCM編碼器,6階自適應(yīng)線性預(yù)測, 4位的自適應(yīng)量化器, 輸出碼率: 8k x 4 = 32 kbps,ADPCM 小結(jié),PCM話音質(zhì)量 4.5級 ADPCM話音質(zhì)量 4.34級,碼率降低一倍(32 kbps)。 ADPCM應(yīng)用: 數(shù)字語音通信 多媒體應(yīng)用中的語音(解說詞),Sub-band coding (子帶編碼),基本原理: 利用帶通濾波器(BPF)把聲音信號按頻率范圍劃分成幾個組成部分(子頻帶,子帶) 低頻部分能量較集中,量化精度要高,取樣頻率可稍低。 高頻部分是摩擦音、噪音,量化精度可低些,但取樣頻率要稍高。 不同子頻帶作不同的ADPCM編碼處理,然后再復(fù)合在一起。,模式1:聲音64kbps;輔助數(shù)據(jù) 0 模式2:聲音56kbps;輔助數(shù)據(jù) 8 kbps 模式3:聲音48kbps;輔助數(shù)據(jù) 16kbps,G.722: 64 kbps的聲音子帶編碼,二、數(shù)字語音的參數(shù)編碼,參數(shù)編碼(源編碼)的設(shè)計(jì)思想,分析人的發(fā)聲器官的結(jié)構(gòu)及語音生成的原理, 建立語音生成的物理(數(shù)學(xué))模型, 編碼時:從話音波形信號中提取生成該話音的參數(shù); 解碼時:根據(jù)語音生成模型,使用這些參數(shù)合成原始話音。,語音生成過程(1),空氣由肺部呼出,經(jīng)過聲帶,送入聲道,最后從嘴唇呼出,產(chǎn)生聲音。 聲音信號具有短期相關(guān)性(持續(xù)時間1 ms左右) 聲道是一個諧振腔,說話時,聲道形狀不斷變化,引起諧振頻率改變,大約10 100 ms改變一次; 聲道可以看作為具有共振特性的一個濾波器,由于聲道形狀變化比較慢,因此該濾波器的轉(zhuǎn)移函數(shù)(transfer function)只需要每20ms左右時間修改一次。,語音生成過程(2),聲道濾波器由肺部空氣經(jīng)過聲帶而激勵,根據(jù)激勵的模式,語音可分成2類:,濁音(時間域),濁音Voiced sounds (聲帶震動,產(chǎn)生準(zhǔn)周期的空氣脈沖激勵信號,送入聲道),清音(時間域),清音Unvoiced sounds(聲帶不振動,聲門始終處于“開”狀態(tài),送入聲道的空氣激勵信號是一種無周期性的噪音信號),語音生成的聲道濾波器模型(1),語音生成的聲道濾波器模型(2),LPC模型= (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T),語音是一個近似的短時(1030ms)平穩(wěn)隨機(jī)過程,LPC模型的參數(shù)A = (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T)變化比較慢, 大約每20ms變化一次; 假設(shè)語音信號的取樣頻率為8kHz,將每秒鐘分成50幀,每幀 20ms(其中有20x8=160個樣本) ,每一幀的所有信號近似地滿足同一模型,即每一幀語音可以使用同一組參數(shù)來表示: 濁音還是清音(1位) 濁音的基頻T(6位) 音源的幅度G(5位) 線性濾波器的參數(shù)(10個參數(shù),每個參數(shù)6位,共60位),語音的參數(shù)編碼(LPC分析) 從已知的數(shù)字語音信號中提取參數(shù),所以,每秒總碼率為:50 x 72 bits = 3600 bps = 3.6kbps,如何確定LPC的系數(shù)(1),對聲音波形的編碼實(shí)際就轉(zhuǎn)化為如何提取語音生成模型的參數(shù),經(jīng)典的方法是線性預(yù)測編碼LPC。 每一個樣本都用過去10個樣本的線性組合來預(yù)測: spre(n) = - a1s(n-1)+a2s(n-2)+a10s(n-10) 樣本s(n)的預(yù)測誤差為: e(n) = s(n) - spre(n) = s(n) + a1s(n-1)+a2s(n-2) +a10s(n-10),問題:對給定的一幀信號s(n) ,n=0159,怎樣選擇系數(shù)ai 使得預(yù)測誤差e(n)的平方和為最??? 即 E=s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)2 最小 為此,上式對a1, a2, , a10 分別求偏導(dǎo)數(shù)得到一組差分方程 dE/da1 =0, s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)s(n-1)=0 dE/da2 0, s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)s(n-2)=0 , dE/da10 0, s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)s(n-10)=0,如何確定LPC的系數(shù)(2),求解系數(shù) ai的線性方程組,R(1,1) R(1,2) R(1, 3) R(1,10) a1 -R(0,1) R(2,1) R(2,2) R(2, 3) R(2,10) a2 -R(0,2) R(3,1) R(3,2) R(3, 3) R(3,10) a3 -R(0,3) . . . . . . . . . R(10,1)R(10,2) R(10, 3) R(10,10) a10 -R(0,10),如何確定LPC的系數(shù)(3) 如何確定其他3個參數(shù)(V/UV,G,T),濁音/清音的判定 比較困難,不正確的分類會大大降低語音質(zhì)量 使用語音信號過零點(diǎn)的數(shù)目來判定; i12,140 基音周期T的估計(jì) 是生成高品質(zhì)、高清晰語音的關(guān)鍵 常用方法:SIFT基音檢測法,AMDF基音檢測法 激勵信號的增益G,例1 2.4kb/s LPC語音編碼器,20ms作為1幀,按幀進(jìn)行編碼 LPC系數(shù)的比特分配為:34 bit 增益G :7 bit 濁音/清音及濁音的基音周期T:7 bit 碼率: 48x502.4kb/s,例 LPC-10編碼器(ANSI 1015 , 2.4kb/s),22.5ms作為1幀,以幀為單位進(jìn)行編碼, LPC系數(shù)共10位,采用協(xié)方差方法計(jì)算, 濁音的基音周期T采用平均幅值差分函數(shù)(AMDF)計(jì)算,共60個值,范圍51.3-400Hz,半對數(shù)表示, 激勵信號:濁音采用標(biāo)準(zhǔn)化的存儲波形 碼率:54 x 1000/22.5 = 2.4 kb/s,波形編碼與參數(shù)編碼的比較,波形編碼 參數(shù)編碼 1 碼率高 碼率低 2 音質(zhì)好 音質(zhì)差 3 算法簡單 算法復(fù)雜 4 可處理任何聲音信號 僅處理語音信號 參數(shù)編碼的數(shù)據(jù)率在2-4 kbps左右,產(chǎn)生的語音雖然可以聽懂,但其質(zhì)量遠(yuǎn)遠(yuǎn)低于波形編碼。盡管它的音質(zhì)比較低,但它的保密性能好,因此這種編譯碼器一直用在軍事上.,三、數(shù)字語音的混合編碼,參數(shù)編碼的不足,參數(shù)編碼在降低碼率方面有很大突破,但語音質(zhì)量尚不理想;原因是語音生成模型中的激勵信號的處理過于簡單: 不是清音就是濁音;實(shí)際上有些是濁音、清音的混合; 濁音的激勵信號是周期性的,實(shí)際上是準(zhǔn)周期性的;,脈沖序列發(fā)生器,隨機(jī)噪聲發(fā)生器,基音周期,(聲帶振動),(聲帶不振動),音源幅度,音源幅度,濁音,清音,改進(jìn)思路:設(shè)計(jì)更好的激勵信號。,混合編碼的原理,思路: 使用合成-分析法AbS(Analysis-by-Synthesis)來改進(jìn)參數(shù)編碼, 其中聲道濾波器模型仍與LPC編碼器中的相同,但不使用兩個狀態(tài)(有聲/無聲)的模型作為濾波器的輸入激勵信號,而是增加反饋,調(diào)節(jié)激勵信號u(n), 使語音輸入信號s(n)與重建的語音信號誤差e(n)為最小。,編碼器通過“合成”許多不同的近似值來“分析”輸入話音信號,所以稱為“合成-分析編碼器”。),激勵信號生成的方法: 多脈沖線性預(yù)測編碼MPLPC(multiple pulse LPC) 等間隔脈沖激勵RPE (regular-pulse excited) 碼激勵線性預(yù)測CELP (code excited linear predictive),最佳激勵信號u(n)的生成方法,多脈沖線性預(yù)測編碼 MPLPC,將原始語音分為20ms長度的幀, 對每一幀計(jì)算出LPC的系數(shù); 假設(shè)激勵信號由k個脈沖組成,每個脈沖的幅度和位置待定; 從第1個脈沖開始,確定其幅度和位置; 若1,i-1個脈沖的幅度和位置已經(jīng)確定,則確定第i個脈沖的幅度與位置; 上述過程重復(fù)k次,結(jié)束。,等間隔脈沖激勵LPC編碼器 Regular-Pulse Excited LPC,每一幀使用4組激勵信號(即每5 ms有1組激勵信號), 每一組激勵信號使用13個脈沖,間隔時間相同, 編碼器每5ms計(jì)算一次激勵信號的參數(shù)(第1個激勵脈沖的位置和所有其他脈沖的幅度),目標(biāo)是使40-120個樣本范圍的預(yù)測誤差序列的自相關(guān)達(dá)到最大:,每20ms進(jìn)行一次短時預(yù)測,確定LPC的系數(shù)(共36比特),每20ms需4x56+36=260bit, 碼率0.26x50=13kb/s,例 GSM (13kbps)語音編碼器 (Global System for Mobile communications),每5ms產(chǎn)生一組由13個脈沖組成的激勵信號序列(56bit),每5ms計(jì)算一次,使40-120個樣本范圍的短時預(yù)測誤差序列的自相關(guān)達(dá)到最大,LPC濾波器有8個系數(shù),共36bit,每20 ms 計(jì)算一次,每20ms生成4x56+36=260bit, 碼率0.26x50=13kb/s,碼激勵線性預(yù)測編碼器 ( CELP,Code Excited LPC ),CELP算法, 1985提出。使用有限數(shù)量的激勵信號存儲在存儲器中(稱為碼本),以替代多脈沖激勵。選用哪一個激勵信號由碼本的索引項(xiàng)指出,其增益項(xiàng)用來擴(kuò)展它的功率。 在CELP基礎(chǔ)上制定的話音編碼標(biāo)準(zhǔn): 美國的 ANSI的 4.8 kbps codec ITU的“l(fā)ow-delay 16 kbps codec,演 示(1),“A lathe is a big tool. Grab every dish of sugar.“ 原始聲音(PCM) ADPCM CELP LD-CELP CS-ACELP LPC-10,演 示(2),格式 碼率 1 min = Sample 11,025Hz 16bit PCM 176.4kbs 1292k 11k16bitpcm.wav 8000Hz 16bit PCM 128kbs 937.5k 8k16bitpcm.wav 11,025Hz 8bit PCM 88.2kbs 646k 11k8bitpcm.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論