![(通信與信息系統(tǒng)專業(yè)論文)低碼率波形內(nèi)插語音編碼算法研究及其仿真.pdf_第1頁](http://file.renrendoc.com/FileRoot1/2019-12/10/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec1.gif)
![(通信與信息系統(tǒng)專業(yè)論文)低碼率波形內(nèi)插語音編碼算法研究及其仿真.pdf_第2頁](http://file.renrendoc.com/FileRoot1/2019-12/10/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec2.gif)
![(通信與信息系統(tǒng)專業(yè)論文)低碼率波形內(nèi)插語音編碼算法研究及其仿真.pdf_第3頁](http://file.renrendoc.com/FileRoot1/2019-12/10/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec3.gif)
![(通信與信息系統(tǒng)專業(yè)論文)低碼率波形內(nèi)插語音編碼算法研究及其仿真.pdf_第4頁](http://file.renrendoc.com/FileRoot1/2019-12/10/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec4.gif)
![(通信與信息系統(tǒng)專業(yè)論文)低碼率波形內(nèi)插語音編碼算法研究及其仿真.pdf_第5頁](http://file.renrendoc.com/FileRoot1/2019-12/10/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec/b9d0472b-4dae-4a36-b7b7-48c6d8ef56ec5.gif)
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀
(通信與信息系統(tǒng)專業(yè)論文)低碼率波形內(nèi)插語音編碼算法研究及其仿真.pdf.pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
摘要 摘要 本文旨在以國際流行的低碼率語音編碼算法為背景,概要地說明了低碼率語 音編碼算法的分類和大概的研究情況,并以波形內(nèi)插語音編碼算法為重點,系統(tǒng) 而深入地介紹了有關(guān)波形內(nèi)插語音編碼算法的基本理論和主要研究方向。在對波 形內(nèi)插語音編碼主要算法進行了深入研究的基礎(chǔ)上,本文作者依據(jù)現(xiàn)在語音編碼 領(lǐng)域出現(xiàn)的新技術(shù)和作者本身對波形內(nèi)插算法的一些新想法,對波形內(nèi)插語音編 碼算法中的一個研究方向上的算法作出了一定程度上的改進,試圖使得新算法在 計算復(fù)雜度和語音合成質(zhì)量方面都比原來的算法更有優(yōu)勢。通過仿真實驗,改進 算法的目的已被證實達到。但是改進算法仍是作為一個純濁音的語音編碼算法, 與清音分開編碼,使得它還保留有原來算法的局限性。 本文的研究工作主要包括以下幾個方面; 1 低碼率語音編碼的研究概況及其幾種主要算法的介紹。首先給出了語音編 碼算法的分類和對應(yīng)的國際標準,跟著分別對低碼率語音編碼各算法的起源,編 解碼的原理框圖以及主要應(yīng)用方向等進行了分析。 2 波形內(nèi)插語音編碼算法的研究。詳細地介紹了波形內(nèi)插算法的基本原理和 它的兩個主流研究算法,并用c 代碼分別實現(xiàn)了這兩個算法的濁音編碼部分。在 分別對兩個研究方向的算法進行了功能分析和算法比較的基礎(chǔ)上,指出了它們的 不足,同時為后面即將提出的改進的波形內(nèi)插語音編碼算法指明了改進方向。 3 改進的波形內(nèi)插算法的研究。具體說明了改進算法的基本原理和實施流 程,并對改進算法進行了仿真。仿真結(jié)果證明了改進算法的有效性,同時也指出 了該改進算法由其實現(xiàn)原理的限制而存在的內(nèi)在缺陷。 論文的最后對整個的研究工作進行了總結(jié),并提出了波形內(nèi)插語音編碼算法 將來的研究重點和發(fā)展方向。 關(guān)鍵詞:波形內(nèi)插;原型波形內(nèi)插;特征波形內(nèi)插;原型周期波形;特征波形 華南理工大學(xué)碩士學(xué)位論文 a b s t r a c t t h i sp a p e ri n t r o d u c e st h ec l a s s i f i c a t i o na n dt h er e s e a r c hc o n d i t i o no fl o w - b i t - r a t e s p e e c hc o d i n ga l g o r i t h m sb r i e f l y w i t ht h ee m p h a s i su p o n t h ew a v e f o r mi n t e r p o l a t i o n s p e e c h c o d i n ga l g o r i t h m ,i t e l a b o r a t e st h eb a s i c t h e o r y a n dt h em a i nr e s e a r c h d i r e c t i o n so ft h ew a v e f o r mi n t e r p o l a t i o ns p e e c hc o d i n ga l g o r i t h m o nt h eb a s i so ft h e r e s e a r c ho nt h ew a v e f o r mi n t e r p o l a t i o na l g o r i t h m ,t h ea u t h o rp r o p o s e dam o d i f i e d a l g o r i t h ma c c o r d i n g t os o m en e wi d e a sf o rt h ew a v e f o r mi n t e r p o l a t i o na l g o r i t h ma n d s o m en e wt e c h n i q u e si nt h es p e e c hc o d i n g t h ep a p e rs t r i v e st od e m o n s t r a t et h e m o d i f i e da l g o r i t h ma d v a n t a g e o u si n t h e c o m p u t a t i o nc o m p l e x i t y a n dt h e s p e e c h q u a l i t y t h e m o d i f i e d a l g o r i t h m h a sb e e n p r o v e d e f f e c t i v e b y t h es i m u l a t i o n e x p e r i m e n t s b u t t h em o d i f i e da l g o r i t h mi ss t i l lap u r e - v o c a ls p e e c hc o d i n ga l g o r i t h m , i tm u s tw o r kw i t h o u tc o n s o n a n t t h a tm a d et h em o d i f i e da l g o r i t h mr e t a i n st h e l i m i t a t i o no ft h eo r i g i n a la l g o r i t h m t h er e s e a r c hw o r ko ft h ep a p e ri se m b o d i e da sf o l l o w i n g 1 t h ei n t r o d u c t i o na b o u tt h eg e n e r a lr e s e a r c hc o n d i t i o na n dt h em a i na l g o r i t h m s o ft h el o w b i t r a t es p e e c hc o d i n g f i r s t l y , t h ep a p e rl i s t st h ec l a s s i f i c a t i o n sa n dt h e c o r r e s p o n d i n gi n t e r n a t i o n a l s t a n d a r d so ft h es p e e c hc o d i n ga l g o r i t h m s s e c o n d l y ,i t a n a l y s e st h es o u r c e ,t h ec o d i n gt h e o r y a n dt h em a i na p p l i c a t i o nd i r e c t i o n so ft h e l o w b i t r a t es p e e c hc o d i n ga l g o r i t h m sr e s p e c t i v e l y 2 r e s e a r c ho i lt h ew a v e f o r mi n t e r p o l a t i o na l g o r i t h m t h ep a p e re x p a n d so nt h e b a s i ct h e o r ya n dt h et w om a i nr e s e a r c hd i r e c t i o n so ft h ew a v e f o r mi n t e r p o l a t i o n s p e e c h c o d i n ga l g o r i t h m ,a n d s i m u l a t e st h e i rv o i c e d n e s s p a r t w i t hcc o d e f u r t h e r m o r e ,i tm a k e sa l g o r i t h mc o m p a r i s o nb e t w e e nt h et w od i r e c t i o n sa n d c o n d u c t s t h ef u n c t i o n a la n a l y s i sa b o u tt h et w oc o r r e s p o n d i n gc o d e r sr e s p e c t i v e l y h e n c et h e p a p e rp o i n t so u t t h es h o r t c o m i n g so ft h et w or e s e a r c hd i r e c t i o n sa n dt h ei m p r o v e m e n t o ft h em o d i f i e dw a v e f o r mi n t e r p o l a t i o na l g o r i t h m 3 r e s e a r c ho nt h em o d i f i e dw a v e f o r m t h ep a p e rs p e c i f i e st h eb a s i ct h e o r ya n d t h ee x e c u t i o nf l o wo ft h em o d i f i e da l g o r i t h m ,a n dt h e nc a r r i e so u te m u l a t i o no n t h e m o d i f i e da l g o r i t h m t h ee m u l a t i o nr e s u l th a sp r o v e dt h em o d i f i e da l g o r i t h mw o r k w h i l ei ts h o w st h es h o r t c o m i n g so ft h em o d i f i e da l g o r i t h ma sw e l l f i n a l l yt h ep a p e rs u m m a r i z e s t h ew h o l er e s e a r c hw o r k ,a n dd i s c u s s e st h e r e s e a r c hf o c u sa n dt h ed e v e l o p m e n tf u t u r eo f t h ew a v e f o r mi n t e r p o l a t i o ns p e e c h c o d i n ga l g o r i t h m k e y w o r d :w a v e f o r mi n t e r p o l a t i o n ;p w i ;c w i ;p c w :c w i 華南理工大學(xué) 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研 究所取得的研究成果。除了文中特別加以標注引用的內(nèi)容外,本論文 不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。對本文的研 究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完 全意識到本聲明的法律后果由本人承擔(dān)。 作者簽名:鴦諺診 日期:。即) f 年r 月,口日 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定, 同意學(xué)校保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和電子版, 允許論文被查閱和借閱。本人授權(quán)華南理工大學(xué)可以將本學(xué)位論文的 全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃 描等復(fù)制手段保存和匯編本學(xué)位論文。 保密口,在年解密后適用本授權(quán)書。 本學(xué)位論文屬于, 不保密彩 ( 請在以上相應(yīng)方框內(nèi)打“”) 日期:吱,口弘年r 月,口日 日期:洲年r 月f 口日 第一章緒論 第一章緒論 1 1 語音編碼算法的分類及其標準化 語音編碼主要分為三類:波形編碼、參數(shù)編碼和混合編碼。波形編碼力圖使 重建的語音波形能夠保持原語音波形的波形形狀,具有適應(yīng)能力強、語音質(zhì)量高 等優(yōu)點,但也有致命的缺點就是比特率高,一般在6 4 1 6 k b s 范圍內(nèi),當碼率降 低時其性能會迅速下降,編碼效率不高。參數(shù)編碼則主要通過提取語音信號的特 征參數(shù),并對特征參數(shù)進行編碼,目標在于保持原語音的語意,這使得重建語音 的波形跟原始語音波形有較大的差別,直接導(dǎo)致合成語音的自然度低、質(zhì)量差。 但是參數(shù)編碼與波形編碼相比,其優(yōu)勢在于編碼的速率可以很低,低至在2 4 1 2 k b s 的范圍。而混合編碼則克服了波形編碼和參數(shù)編碼的缺點,同時結(jié)合了兩 者的優(yōu)點,從而能在較低的碼率上獲得高自然度的合成語音。 由于人們強烈需要對通信方式實行共同化,從而語音編碼算法的標準化受到 了公眾的關(guān)注。語音編碼算法經(jīng)過多年的研究與試用,其中很多的編碼算法都已 被標準化,并進入了實用性階段。因為參數(shù)編碼得到的音質(zhì)難以達到通話要求, 所以在當前來說,語音編碼算法的標準主要是波形編碼和混合編碼方面的。已被 標準化的語音編碼算法按不同的算法類型分,主要有 1 波形編碼:g 7 u6 4 k b s 的p c m ( p u l s e c o d em o d u l a t i o n 脈沖編碼調(diào)制) ; g 7 2 1 ,g 7 2 3 ,g 7 2 6 和g 7 2 7 的a d p c m ( a d a p t i v ed i f f e r e n t i a lp c m 自適應(yīng)差分 脈沖編碼調(diào)制) ;g 7 2 27 k h z 音頻編碼。 2 參數(shù)編碼:f s l 0 1 52 4 k b i t sl p c ( l i n e a rp r e d i c t i o nc o d i n g 線性預(yù)測編 碼) 1 0 ( e ) t 5 i 。 3 混合編碼:g s m 1 3 k b s r p e l t p ( r e g u l a r p u l s e e x c i t e d l o n g t e r m p r e d i c t i o n 長時預(yù)測的規(guī)則脈沖激勵) 編碼器【6 l ;f s l 0 1 64 8 k b sc e l p ( c o d e e x c i t e d l i n e a rp r e d i c t i o n 碼激勵線性預(yù)測) 【7 l ;g 7 2 81 6 k b sl d c e l p ( l o wd e l a yc e l p 低 延時碼激勵線性預(yù)測) ;i s 5 48 k b sv s e l p ( v e c t o rs u m e x c i t e dl i n e a rp r e d i c t i o n 矢量和激勵線性預(yù)澳l j ) t g l ;g s m 半速率語音編碼器【i “;j d c ( j a p a n e s ed i g i t a lc e l l u l a r 日本數(shù)字蜂窩】6 7 k b sv s e l p 1 1 ;j d c 半速率3 6 k b sp s i c e l p ( p i t c hs y n c h r o n o u s i n n o v a t i o n c o d ee x c i t e dl i n e a rp r e d i c t i o n 基音同步更新碼激勵線性預(yù)測) 1 ;g 7 2 9 8 k b sc s a c e l p ( c o n j u g a t es t r u c t u r e a l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c t i o n 共 華南理工大學(xué)碩士學(xué)位論文 軛結(jié)構(gòu)一代數(shù)碼本激勵線性預(yù)測編碼) l ;g 7 2 3 15 3 6 3 k b sa c e l p 3 j ;i s 9 6 8 5 k b s q c e l p ( q u a l c o o mc e l p q u a l c o o m 通信公司的專利c e l p 語音編碼標 準) 1 ;3 g p p 的第三代移動通信自適應(yīng)多碼率語音編碼標準a m r w b ( a d a p t i v e m u l t i r a t ew i d e b a n d ,也即g 7 2 2 2 ) 1 1 5 1 1 1 6 1 。 1 2 低碼率語音編碼算法的主要研究方向 隨著社會信息化的發(fā)展,有限的頻率資源要用于無限的業(yè)務(wù)需求,使得頻率 資源愈加緊張,人們急切地盼望著更低碼率的語音編碼算法的出現(xiàn),因此,低碼 率,較低碼率的語音壓縮算法正是當前語音編碼算法的研究焦點。低碼率語音編碼 算法主要有四個研究方向: 多帶激勵m b e ( m u l t i b a n de x c i t a t i o n ) 編碼 正弦變換編碼s t c ( s i n u s o i d a lt r a n s f o r mc o d i n g ) 混合激勵線性預(yù)測m e l p ( m i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n ) 編碼 波形內(nèi)插w i ( w a v e f o r mi n t e r p o l a t i o n ) 編碼 m b e 和s t c 均是基于正弦合成分析模型s a s m ( s i n u s o i d a l a n a l y s i s ,s y n t h e s i s m o d e l s ) 的語音編碼算法,m e l p 則是基于二元激勵模型的線性預(yù)測編碼算法, w i 為基于s a s m 和線性預(yù)測模型的混合型編碼算法。 1 3 低碼率語音編碼各個主要算法的基本原理 1 3 1 多帶激勵編碼 m b e 算法是在8 0 年代由g r i f f i nd 。w 博士提出。m b e 編碼器是一個不用預(yù) 測殘差的完全的參數(shù)語音編碼器,工作在頻域里。與l p c 算法所采用的二元激勵 模型不同,它并不是簡單地將一幀語音判定為濁音或是清音,而是按基音各諧波 頻率,將一幀語音的頻譜分成若干個諧波帶,再以若干個諧波帶為一組進行分帶, 分別對各帶進行v u 判決,總的激勵信號由各帶激勵信號相加構(gòu)成。對于濁音帶, 用以基音周期為周期的脈沖序列譜作為激勵信號頻譜;對于清音帶,則使用白噪 聲譜作為激勵信號頻譜。它考慮到了某段語音的激勵信號是周期( 濁音) 和類噪 聲( 清音) 能量的混合情況1 1 7 】。正是這種在激勵模型中附加自由度的做法使得 m b e 語音模型的重建語音質(zhì)量高于傳統(tǒng)的語音模型,另外,還使得m b e 語音模 型在背景噪聲面前有堅韌性。 在一個短時間隔內(nèi),一個加窗語音段j 。( ,1 ) 的傅立葉變換s w ( 功被模型化為譜 2 第一章緒論 包絡(luò)h 。,( 國) 和激勵譜e 。( 甜) 的乘積。譜包絡(luò)是原語音譜的平滑部分,對于每組基 頻諧波,激勵譜由基頻和清,濁判決信息來確定,即把清音頻率區(qū)域的隨機噪聲功 率譜段與濁音頻率區(qū)域的周期功率譜段相組合來獲得激勵譜。周期譜完全由基頻 尸( 國) 所決定。清濁音信息通過頻率相關(guān)法使得具有隨機功率譜的諧波譜最大來 獲得。假定人耳能夠區(qū)分基頻諧波支配的頻率區(qū)域和其他噪聲能量支配的頻率區(qū) 域,則可以從隨機噪聲中分離出濁音語音。另外,編碼參數(shù)的確定使用了 a b s ( a n a l y s i s b y s y n t h e s i s 合成分析) 法,即使原語音譜與合成語音譜的均方誤差 最小。數(shù)學(xué)處理則使用了f f t ( f a s t f o u r i e r t r a n s f o r m 傅立葉變換) 或d c t ( d i s c r e t e c o s i n et r a n s f o r m 離散余弦變換) 技術(shù)。 m b e 的編譯原理框圖如下所示 輸 基頻 清濁信息 諧波幅度 圖1 1m b e 編碼器 f i g 1 - 1m b e e n c o d e r 圖1 - 2 m b e 解碼器 f i g 1 2m b e d e c o d e r 輸出語音 華南理工大學(xué)碩士學(xué)位論文 由于m b e 編碼器不需要殘差信號,而且它也不需要碼書,所以有低的計算 復(fù)雜度。它在2 4 k b s 的數(shù)碼率時仍能保持語音的可懂度和自然度。由m b e 編碼 器演變出的i m b e ( i m p r o v e dm b e 改進的m b e ) 和a m b e ( a d v a n c e dm b e 先進的 m b e ) 編碼器已經(jīng)被商業(yè)化,這些a m b e 和i m b e 硬件產(chǎn)品具有糾錯、有聲無聲 檢測、d t m f ( d o u b l e t o n e m u l t i f r e q u e n c y 雙音多頻) 檢測,合成、回波抵消和軟判 決譯碼等功能,可用于蜂窩電話、p c s ( p e r s o n a lc o m m u n i c a t i o n ss e r v i c e 個人通信 業(yè)務(wù)) 、衛(wèi)星通信、數(shù)字移動無線電、保密通信、話音多路復(fù)用、話音郵寄、多媒 體應(yīng)用和會議電視等。其中,i m b e 技術(shù)被選為幾種應(yīng)用的語音編碼標準之一。 1 3 2 正弦變換編碼 最早的s t c 編碼器由美國的林肯實驗室發(fā)明,碼率范圍為9 6 k b s1 2 k b s 。 s t c 編碼器不是波形編碼器,但是采用了使用由正弦波的幅度、頻率和相位表征 的分析,合成技術(shù)的正弦模型。s t c 編碼器的合成語音是由簡諧相關(guān)的正弦波組 成,對于頻率使用諧波模型,對于正弦波幅度使用基音自適應(yīng)幅度包絡(luò),對于f 弦波相位使用濁音度相關(guān)模型m ,。下圖給出了s t c 的編譯原理圖。 圖1 - 3s t c 編譯原理圖 f i g 1 - 3s t cc o m p i l a t i o nt h e o r y 由于基本的正弦波分析,合成系統(tǒng)能夠產(chǎn)生高質(zhì)量的語音信號,當給定足夠高 的數(shù)據(jù)速率時,可使編碼器的性能任意接近于基本系統(tǒng)的要求。當使用基于正弦 波的基音估計器時,用正弦波的諧波組產(chǎn)生非常高質(zhì)量的合成語音是可能的,其 編碼語音的質(zhì)量取決于對正弦波幅度和相位高保真編碼的能力。正弦波參數(shù)提供 4 第一章緒論 了語音信號的頻域分解,更容易利用聽覺機理的感性特征達到編碼效率。另外, 頻域表達也考慮了后濾波器設(shè)計的可選擇性方案。正如其他低碼率編碼器一樣, 后濾波器在s t c 編碼器得到無抑制的合成正弦波語音是非常重要的。最后,頻域 表達還提供了將激勵譜分帶的方便基礎(chǔ),以至于可作多帶濁音度判決,考慮了混 合濁音度激勵。這將改善合成語音的自然度,增加了語音信號在附加噪聲中的堅 韌性。 正弦模型除了提供開發(fā)參數(shù)聲碼器的基礎(chǔ)外,也可以與波形編碼方法相結(jié)合, 得到一類波形內(nèi)插聲碼器的產(chǎn)生。在滿足低碼率高質(zhì)量合成語音要求的方面來說, 正弦模型方法對于低速率語音編碼是一個主要的趨勢。其原理圖如下: 頻率 相位 幅度 圖l 一4j 下弦模型分析端 f i g 1 - 4s i n u s o i d a lm o d e l a n a l y z e r 幅度 頻率 r 翟j ! 二 t ,1 、 :匭蠶刮蓁i 簪l i i l o + 一,妊n 7 、掣 理攀 + t 曩互= 圖1 - 5j 下弦模型合成端 f i g 1 - 5s i n u s o i d a lm o d e ls y n t h e s i z e r 1 3 3 混合激勵線性預(yù)測編碼 m e l p 編碼器是由美國的m c c r e e a v 博士提出的,目的是針對傳統(tǒng)的基音激 勵l p c 聲碼器中,簡單的脈沖串沒有能力產(chǎn)生各種濁音語音,導(dǎo)致合成語音帶有 機械性或蜂嗚性的現(xiàn)象。 m e l p 編碼器使用了混合激勵模型,能模仿較豐富的可能語音特征集合,從 而產(chǎn)生了更自然的語音,即使在是嚴重的背景噪聲環(huán)境里也是堅韌的。m e l p 編 碼器采用傳統(tǒng)的l p c 參數(shù)模型為基礎(chǔ),但也引入了四個附加特征:混合激勵、非 5 華南理工大學(xué)碩士學(xué)位論文 周期脈沖、脈沖散布、自適應(yīng)譜濾波m ,。混合激勵用多帶混合模型實現(xiàn),主要作 用是減少與l p c 聲碼器相聯(lián)系的嗡嗡聲,尤其是在寬頻聲學(xué)噪聲里。非周期脈沖 常用于語音信號的濁音和清音間的過渡區(qū)域,主要作用是排除濁音度過強而引起 的偶然的音調(diào)噪聲。脈沖散布通過基于譜平整的三角脈沖的固定脈沖散布濾波器 來實現(xiàn)的,從而在一個周期內(nèi)起到了展開激勵能量的作用,減少了合成語音的粗 糙質(zhì)量。自適應(yīng)譜濾波器以l p c 聲道濾波器的極點為基礎(chǔ),用于增強合成語音的 共振峰結(jié)構(gòu),改善了合成波形和自然帶通波形問的匹配,產(chǎn)生更自然的輸出語音。 其合成語音模型的原理圖如下: i 壅卜噸! 奠i 卜 蜜爭一 圖1 - 6 m e l p 分析端 f i g 1 6m e l p a n a l y s i z e r 蔓 嚯虱爹堙懣卜 圖1 7 m e l p 合成端 f i g 1 - 7m e l ps y n t h e s i z e r m e l p 聲碼器已被美國國防部數(shù)字聲音處理協(xié)會選擇為2 4 k b s 語音編碼的聯(lián) 邦標準。m e l p 聲碼器還可用于民用,如在無線通信、i n t e r n e t 電話,以及語音郵 寄系統(tǒng)等,但其語音質(zhì)量有待進一步的改善。 1 3 4 波形內(nèi)插編碼 1 9 9 1 年美國的a t & t 貝爾實驗室的k l e i j n w b 博士提出了原型波形內(nèi)插p w i ( p r o t o t y p ew a v e f o r mi n t e r p 0 1 a t i o n ) 語音編碼算法。該算法原理是在一定的時間 6 第一章緒論 范圍之內(nèi)( 如2 0 3 0 m s ) 以慢漸變的基音周期波形為基礎(chǔ),在濁音幀里提取和傳 送一段原型波形,用線性插值恢復(fù)未傳送的信號t :0 1 。由于p w i 有著明顯的局限性, 那就是需要和c e l p 編碼器組合才能實現(xiàn)一個完整的編碼系統(tǒng),導(dǎo)致清濁音不同 編碼模式轉(zhuǎn)換處附近產(chǎn)生較大的聽覺失真;并且p w i 算法復(fù)雜,在硬件上難以實 時實現(xiàn)。所以k l e i j n w b 博士又提出了另一種波形內(nèi)插算法一特征波形內(nèi)插c w i ( c h a r a c t e r i s t i cw a v e f o r mi n t e r p o l a t i o n ) 語音編碼算法。該方法將語音信號視為 漸變的特征波形,當語音信號為明顯的濁音時波形慢漸變,當語音信號為明顯的 清音時波形快漸變,借助簡單的非自適應(yīng)濾波器將特征波形分解為慢漸變和快漸 變波形兩個部分,分別對它們進行編碼,既有效地提高了編碼效率,又避免了清 濁判決帶來的影響【2 l ,。p w i 和c w i 算法都是目前很有潛力的低速率語音編碼算 法,正為國際上的許多研究機構(gòu)所集中研究開發(fā)著,期望能在低速率上產(chǎn)生通信 質(zhì)量的重建語音。 1 4 波形內(nèi)插語音編碼算法 波形內(nèi)插w i ( w a v e f o r m i n t e r p o l a t i o n ) 語音編碼是由k l e i j nw b 博士提出, 經(jīng)近十年研究發(fā)展起來的一種低速率語音編碼算法,具有在低碼率卻具備高自然 度質(zhì)量的語音的特點。它利用了語音特征的感覺重要性,允許信號的有效壓縮, 促進了低速率語音編碼算法的發(fā)展,己成為語音編碼領(lǐng)域研究的熱點。 傳統(tǒng)的合成分析語音編碼算法在4 8 k b s 以上己獲得好的語音質(zhì)量,如c e l p 算法。這些方法由波形的匹配過程重建語音信號,即在逐幀分析的基礎(chǔ)上變得譜 加權(quán)s n r ( r a t i oo fs i g n a la n dn o i s e ) 最大。當比特率下降時,由于沒有足夠多 的比特數(shù)來精確地描述一個波形,波形匹配的準確性下降,c e l p 算法會帶來很 大的量化噪聲,致使重建信號有噪聲特征,重建語音的質(zhì)量將嚴重下降。 要在低碼率提供高質(zhì)量的語音信號壓縮,必須利用語音信號的內(nèi)在周期性和 信號的展開本質(zhì),而不是依靠c e l p 的互相關(guān)技術(shù)來產(chǎn)生周期。w i 算法提供了這 兩種屬性,通過表示信號或更經(jīng)常表示的是l p 殘差信號作為一個基音周期的展 開式( 眾所周知的是原型波形或是特征波形) 。這個描述語音信號基音周期的明確 方法使人聯(lián)想到第一代的話音編碼算法。但是,盡管w i 利用了許多熟悉的概念, 例如l p 編碼和序列l(wèi) s f 量化,大部分概念對語音編碼來說都是新的。原信號或 殘差到一個相位對準的特征波形的展開表面的轉(zhuǎn)換,以及為了量化,該表面到近 乎獨立的緩變和快變表面的序列分解也許是w i 編碼的最大不同特征。另外,這 種技術(shù)在低碼率通過平滑內(nèi)插幾乎它的所有參數(shù)獲得了高的質(zhì)量。同樣地這種技 術(shù)需要仔細地考慮各種事件例如基音加倍。這個技術(shù)是一個真正的混合語音編碼 7 華南理工大學(xué)碩士學(xué)位論文 算法,在時域和離散頻域都進行分析。尤其是原型波形傅立葉分解的使用允許了 有效的相位對準,和不同基音周期的特征波形之間的內(nèi)插1 2 2 1 。正是波形內(nèi)插語音 編碼算法的這些新穎特點使它能在眾多的語音壓縮編碼算法中脫穎而出,成為國 際上語音壓縮編碼的研究熱點。 1 5 本文的主要研究內(nèi)容和章節(jié)安排 本文對兩種主要的波形內(nèi)插語音編碼算法和它們的實施流程分別進行了詳細 的說明,重點研究了波形內(nèi)插編碼算法中的原型波形內(nèi)插算法,并就其不足之處 提出了改進方案。全文共分四章,主要結(jié)構(gòu)如下: 第一章為緒論,對低速率語音編碼算法的研究概況、國際標準以及主流算法 作了簡要的介紹,并獨立一節(jié)特別介紹波形內(nèi)插語音編碼算法。 第二章詳細分析了波形內(nèi)插語音編碼算法之一一原型波形內(nèi)插算法的工作原 理和實現(xiàn)過程,對原型波形內(nèi)插算法所得到的編碼器做了功能分析,并在此基礎(chǔ) 上指出了該算法的不足之處。 第三章具體說明了波形內(nèi)插語音編碼算法之一一特征波形內(nèi)插算法的基本思 想和實現(xiàn)過程,同樣她的對由特征波形內(nèi)插算法所實現(xiàn)的編碼器做了功能分析, 并在前一章所做的原型波形內(nèi)插編碼器的性能分析的基礎(chǔ)上。對兩個不同的算法 進行了比較。 第四章重點研究了基于原型波形內(nèi)插算法的改進算法,依次給出了它的原理 框圖、實現(xiàn)流程、以及仿真結(jié)果,并對改進算法的仿真結(jié)果作出了分析。仿真結(jié) 果證明了改進算法在保持計算復(fù)雜度基本不變的情況下,所合成的濁音語音的波 形形狀準確度和周期性準確度均明顯優(yōu)于原來的p w i 算法。 最后是全文的結(jié)論,主要總結(jié)了作者的研究工作,并提出了今后進一步在本 研究方向進行研究工作的展望。 1 6 本章小結(jié) 本章主要概述了語音編碼算法,尤其是低速率語音編碼算法當前在國際上的 研究概況,以及它們主流的研究方向和算法原理,并重點介紹了波形內(nèi)插語音編 碼算法的算法特點。 8 第二章原型波形內(nèi)插語音編碼算法 第二章原型波形內(nèi)插語音編碼算法 2 1 基本思想 濁音語音具有高水平的周期性特征,可以看作是慢變化的基音周期波形p c w ( p i t c hc y c l ew a v e f o r m ) 的連接。原型波形內(nèi)插方法就利用了濁音語音的這種周期 性,試圖在低比特速率重現(xiàn)濁音語音信號的周期性水平。它每隔2 0 3 0 m s 提取 一單個有代表性的基音周期波形,并稱這個基音周期波形為原型波形p w ( p r o t o t y p ew a v e f o r m ) ,傳送描述這個p w 的信息,然后在更新點處對p w 的長 度和形狀進行線性內(nèi)插得到重建的語音信號 2 3 1 。所以,語音信號是由減樣的p c w 序列重建的,內(nèi)插過程得到了平滑漸變的p c w ,重建語音保持了濁音語音的周期 性水平。對提取的原型波形進行編碼,再利用原型波形內(nèi)插方法重建未經(jīng)編碼的 信號,將大大降低編碼率。p w i 方法能在4 k b s 以下的編碼速率上獲得優(yōu)良的濁 音語音質(zhì)量,并能與c e l p 算法相組合對清音語音編碼。 在低速率語音編碼中,對語音信號周期性特征的不適當修正會導(dǎo)致合成語音 信號中常見的三類失真:噪聲、回聲、音調(diào)的人工產(chǎn)物。音調(diào)的人工產(chǎn)物指的是 重建語音信號的周期性水平高于原始語音信號的周期性水平?;芈暤囊鹗怯捎?重建語音中相繼的p c w 缺少相位一致性。噪聲則大部分是由于量化失真而引起。 這些失真強調(diào)了p c w 動態(tài)性的重要性【2 4 1 。波形動態(tài)意味著尋找一種p c w 隨時間 漸變的規(guī)則或模式。在波形編碼器中,比特率的減少將導(dǎo)致波形的不準確描述, 重建語音中的波形動態(tài)變成了依賴于聲碼器中所使用的語音模型?;谶@個理由, p w i 方法則是提供平滑的p c w ,因為平滑的p c w 表達了濁音語音中最常見的波 形動態(tài)。p w i 的附加特征使波形動態(tài)自適應(yīng)于原始語音信號,在目前的方法中, 這些動態(tài)由兩個頻率相關(guān)參數(shù)表達,一個是介于相鄰p c w 間的相關(guān),另一個是 間隔為2 0 3 0 m s 的p c w 間的相關(guān)。通過強制重建信號,使重建信號中的這兩個 相關(guān)值類似于原信號中獲得的相關(guān)值,可以保持波形的動態(tài)。 2 2 基本原理 2 2 1 瞬時激勵波形及其內(nèi)插 p w 的表達及內(nèi)插必須以濁音語音信號的基本性質(zhì)為基礎(chǔ)。濁音語音的短時 譜可以粗略地分為譜包絡(luò)和譜的精細結(jié)構(gòu)兩部分,譜包絡(luò)由聲道形狀確定,譜的 精細結(jié)構(gòu)由來自聲帶的周期激勵信號確定。p w i 方法假定聲道的形狀相對于聲帶 9 華南理工大學(xué)碩士學(xué)位論文 產(chǎn)生的激勵信號獨立變化,所以在進行p w 內(nèi)插前,要分離共振峰結(jié)構(gòu)和激勵信 號,其中,激勵波形和它的基音周期為一方面,共振峰結(jié)構(gòu)為另一個方面,這兩 個方面獨立插值,然后利用共振峰結(jié)構(gòu)和內(nèi)插的激勵信號產(chǎn)生語音信號。 為了獲得高質(zhì)量的濁音語音,內(nèi)插方法應(yīng)使激勵信號保持連續(xù)性,并有一個 平滑的基音輪廓。因為濁音語音的激勵信號近似是周期的,所以數(shù)學(xué)上它能近似 為一個具有時變參數(shù)( 傅立葉級數(shù)系數(shù)和基音周期) 的周期函數(shù)( 傅立葉級數(shù)) 。 對于一個長度為p 的單個一維原型波形,其離散時間傅立葉級數(shù)表示為 咖,= 。勢印s c 下2 n l b n m 曲c 爭,p 陋- , 式中,p 為基音周期, a t j 和 b t ) 為傅立葉級數(shù)系數(shù)。 有了上面單個原型波形表達式后,只要對公式( 2 - 1 ) 中的參數(shù)附加一個時間 標號t ,就可以得到原型波形序列的二維表達。這時公式( 2 - 1 ) 可重寫為 刪= l p 薈( t ) t ”c o s 喏m m 案,o m s p p 2 , 式中,系數(shù) a t ( d 口t ( t ) ) 和基音周期p ( 力是時變的。 現(xiàn)在式( 2 - 2 ) 是一個二維信號表示,其中t 和小是運動的變量,沿m 軸顯 示的是單個的原型波形,而原型波形的形狀沿時間軸t 漸變。然而式( 2 - 2 ) 的長 度取決于p ( f ) ,不同時刻的原型波形可能有不同的長度。為了方便,所有的原型 波形要歸一化為同樣的長度。 ( 2 3 ) s ( f ,咖:l 9 c o 2 【j a ( f ) c 。s ( 七糾+ b ( r ) s i n ( 七咖】 o 烈) 2 石( 2 - 4 ) 以這種方法,所有的原型波形有同樣的長度勘。基音周期的歸一化使得礦與 周期函數(shù)s ( f ,糾的最低諧波相位一致,所以稱礦為瞬時激勵波形的相位。 1 0 絲刪一 媯 艫 式塒 第二章原型波形內(nèi)插語音編碼算法 對于濁音語音,瞬時激勵波形s ( t ,妒) 和基音周期p ( f ) 在時間軸上慢漸變,所以 它們能在間隔2 0 3 0 m s 的范圍內(nèi)插值。p w i 編碼器利用了這個事實,在每一更 新區(qū)間僅僅傳送一個瞬時激勵波形和它的基音周期,所傳送的瞬時激勵波形構(gòu)成 了重建語音的原型激勵波形p e w ( p r o t o t y p ee x c i t a t i o nw a v e f o r m ) 。設(shè)當前插值 區(qū)間的分界修正時刻為k 和k + j 。為了使內(nèi)插簡便,2 個原型波形應(yīng)該具有相近 的相位,則原型波形s ( t 。,伊) 和j ( f 。,咖的線性內(nèi)插得到重建的瞬時波形為 s ( t ,妒) = 【1 一口o ) 】s ( f 。,諺+ c t ( t ) s ( t 。+ l ,咖t 。t t ,+ l( 2 - 5 ) 式中,口( f ) 為從c t ( t 。) = o f o a ( t “) = 1 的單調(diào)遞增內(nèi)插函數(shù)。值得注意的是,2 個原型波形之所以能以這種簡單方式內(nèi)插,是因為它們有同樣的歸一化基音周期。 基音周期p ( f ) 的內(nèi)插方法和瞬時波形的內(nèi)插方法相同 p ( t ) = 【1 一覷f ) 】p ( ) + f l ( t ) p ( t + 1 ) t 。s t s t 。+ l( 2 - 6 ) 此處的f l ( t ) 為從f l ( t 。) = o 到f l ( t 。) = 1 的單調(diào)遞增內(nèi)插函數(shù)。為了方便起見, 對p ( f ) 和瞬時波形s ( f ,咖內(nèi)插時可以使用相同的插值函數(shù)口( f ) 。 使每一時刻的瞬時波形有正確的基音周期,然后連接這些無窮小的瞬時波形, 可以重建信號s ( f ) ,即 印一似f ) 】鋤礎(chǔ)h 焉刎 公式( 2 - 7 ) 描述了連續(xù)插值方法的基本原理。 2 2 2p c w 波形動態(tài)的自適應(yīng) ( 2 - 7 ) 按式( 2 - 7 ) 進行的p w 內(nèi)插產(chǎn)生了平滑漸變的p c w ,它表現(xiàn)了濁音語音信 號中最普通形式的p c w 波形動態(tài)。然而,如果缺少波形動態(tài)自適應(yīng),則將產(chǎn)生 兩類失真:第一類失真是由低比特率對p w 的不準確量化而引起的,這時所傳送 的原型激勵波形的形狀將產(chǎn)生大的波動,重建信號聽起來有回聲;當原語音信號 中包含大量的送氣噪聲時,會有第二類失真出現(xiàn),即用太多的周期性恢復(fù)這種語 音信號時,在重建語音信號中會出現(xiàn)音調(diào)的人工產(chǎn)物。 在p w i 算法中,為了說明信號的改變是由瞬時波形的漸變引起,而不是由噪 聲引起,采用信號改變比s c r ( s i g n a l t o c h a n g er a t i o ) 來作為不同時刻激勵波 華南理工大學(xué)碩士學(xué)位論文 形的相似性測度。為了保證波形動態(tài)類似于原語音信號,p w i 方法要求在不同的 時間分隔處,要保持瞬時波形間的s c r 不變。為此,p w i 算法引入了長時s c r 和短時s c r 。長時s c r 對應(yīng)于p w 間的信號改變比,而短時s c r 對應(yīng)于相鄰p c w 間的信號改變比。 定義s c r :兩個瞬時波形v ( t ,糾和w ( f 。,妒) ,設(shè)定前者為原信號,兩個瞬時波 形v ( ,勸和w ( f 。,糾之間的內(nèi)積為 = r 4 v ( f l ,糾w ( t m , 糾d 礦 ( 2 8 ) 首先定義函數(shù)巨【,】如下: e c v c 。,妒x w c k ,咖,= c - 一:了石i 石習(xí)專i ;之i 鼉芝:j :害;:品石:而,。1 c z 一9 , 三【,】關(guān)于兩個瞬時波形對稱,可以將它看成是相關(guān)系數(shù)的單調(diào)函數(shù)。 則可得到s c r 的定義:兩個瞬時波形中的一個進行相位移位而得到的三【,】的最 大值,即 s c r v ( t t ,咖,v ( t 。,勸】= a r g m a x 置 v ( t t ,咖,v ( t 。,妒+ 眇) 1 0 s 2 石( 2 1 0 ) 長時s c r 定義為間隔2 0 3 0 m s 的p c w 間的s c r ,這個間隔與編碼系統(tǒng)的 修正速率相同。經(jīng)實驗證明,制約長時s c r 雖然使量化的原型波形的s n r 降低, 但抑制了回聲,增強了重建信號的感性質(zhì)量。 長時s c r 的約束過程如下:首先,測量相繼的、未量化的原型波形的s c r : 其次,強制量化的原型波形的s c r 與這個值接近。為了減少可察覺的回聲,在測 量長時s c r 之前,原型激勵中必須加入原始語音信號的平坦共振峰結(jié)構(gòu)( 譜包 絡(luò)) 。 令 ( f ) 為譜加權(quán)濾波器的脈沖響應(yīng),日【】為與 ( f ) 相聯(lián)系的濾波運算,則對 于瞬時激勵波形s ( t ,糾,其譜加權(quán)的瞬時激勵波形為 地棚= 耶“刪= r 附m 一等刪f 1 2 ( 2 1 1 ) 第二章原型波形內(nèi)插語音編碼算法 需要注意的是當估計s c r 時,兩個瞬時波形所用的譜加權(quán)和基音周期p 必須 一致。 令v ( f 。,諺為當前已經(jīng)量化和譜加權(quán)的原型激勵波形。一般地,這個波形能 被分解成兩種成分,一種成分為與原來量化和譜加權(quán)的原型激勵波形v ( ,糾平 行,另一種成分與v ( f 。,妒) 正交,即 v ( f “,勸= y ,+ y 。, = o = o( 2 - 1 2 ) 則根據(jù),。和y 。的相對比例調(diào)整長時s c r ,這可以借助一個比例因數(shù)z 來完成, 即 州圳= 彬p + ( 1 - 1 2 ) 剝苦而。 ( 2 1 3 ) 當= 1 時表示沒有調(diào)整長時s c r 。如果原信號的長時s c r 值為a ,則當v ( f 卅,糾 使用如下值時,重建信號的長時s c r 等于a : z = 【1 一a - 1 】2 【1 + , t j 2 ( 2 一1 4 ) 上式的長時s c r 是針對整個信號頻帶的,而公式( 2 - 1 1 ) 能被用于選擇特定 頻帶,在每個所要求的頻帶內(nèi),增加比特率可保持重建信號的長時s c r 與原信號 的長時s c r 一致。 對于基頻非常低的講話者,若在p w 的描述中加入長時s c r ,可以得到非常 好質(zhì)量的合成語音。然而,對短基音周期的講話者,由于插值方法在某些語音段 加入了太多的短時周期性,在描述波形動態(tài)的時候,必須考慮瞬時波形間的短時 相關(guān)性。這種相關(guān)可以用短時s c r 確定。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 經(jīng)營酒吧合同
- 股份制改革流程文書模板與指導(dǎo)
- 汽車美容店合作協(xié)議書年
- 委托培訓(xùn)協(xié)議書
- 質(zhì)量管理體系培訓(xùn)指導(dǎo)書
- 2025年青海貨運從業(yè)資證孝試模似題庫
- 小學(xué)三年級數(shù)學(xué)加減乘除混合口算
- 2025年黔東南道路貨運駕駛員從業(yè)資格證考試題庫
- 2025年上海貨車叢業(yè)資格證考試題
- 2025年汕頭貨運從業(yè)資格證怎么考試
- 《環(huán)境管理學(xué)》教案
- 2025年蛇年年度營銷日歷營銷建議【2025營銷日歷】
- (一模)寧波市2024學(xué)年第一學(xué)期高考模擬考試 數(shù)學(xué)試卷(含答案)
- 攝影入門課程-攝影基礎(chǔ)與技巧全面解析
- 冀少版小學(xué)二年級下冊音樂教案
- 【龍集鎮(zhèn)稻蝦綜合種養(yǎng)面臨的問題及優(yōu)化建議探析(論文)13000字】
- 父母贈與子女農(nóng)村土地協(xié)議書范本
- 《師范硬筆書法教程(第2版)》全套教學(xué)課件
- 中國聯(lián)通H248技術(shù)規(guī)范
- 集團母子公司協(xié)議書
- 孫權(quán)勸學(xué)省公共課一等獎全國賽課獲獎?wù)n件
評論
0/150
提交評論