




免費預覽已結(jié)束,剩余1頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大連理工大學碩士學位論文 摘要 在現(xiàn)代信息技術(shù)中,語音信號處理技術(shù)發(fā)揮著越來越重要的作用。而語音信號預處 理是語音信號處理中不可或缺的環(huán)節(jié),它能夠提高語音信號處理的效果。本文詳細闡述 了語音信號預處理技術(shù)中的幾項關(guān)鍵技術(shù),包括:放大和自動電平控制、自適應噪音抑 制、高電平補償、h o w l i n g 抑制等。 自動電平控制( a u t o m a t i cl e v e lc o n t r o l ,a l c ) 技術(shù)是為了改善語音信號劇烈波動 而提出的一種跟蹤調(diào)整語音信號電平至最優(yōu)值的方法。該方法用于終端。它的具體實現(xiàn) 分為兩部分:第一部分是基于兩級動態(tài)的v a d 檢測,第二部分是r m s 自動增益控制。 自適應噪聲抑制是指從帶噪語音信號中提取盡可能純凈的原始語音。本文在經(jīng)典的 譜減法的基礎(chǔ)上作了改進,利用人耳的掩蔽效應減小“音樂噪音 ,實現(xiàn)了改進的最小 控制譜減法。 本文利用人耳的聽覺特性,提出了一種基于等響度曲線函數(shù)的高電平補償方法。該 方法首先通過語音激活檢測w a d ) 技術(shù)判斷出語音幀,然后通過等響度曲線【l 】與語音信 號的聲壓級求得電平補償參數(shù),并對語音幀的高頻和低頻進行相應的補償,以得到主觀 聽覺上的等響效果。 本文通過分析h o w l i n g 的形成條件,提出了一種破壞這種條件的隨機相位h o w l i n g 抑制方法。該方法先用p o l y p h a s ei i r 濾波器將語音信號劃分為子帶信號,再利用l m s 自適應陷波濾波器檢測對各個子帶信號是否有h o w l i n g 的存在,判斷出h o w l i n g 之后便 利用隨機相位系統(tǒng)對其進行抑制。 以上各個語音預處理功能模塊既具有獨立的處理功能,又可以串聯(lián)到一起以達到一 個完整的功能。這樣可以有針對性地對具有不同問題的語音信號調(diào)用不同的模塊,實現(xiàn) 不同的效果。 關(guān)鍵詞:自動電平控制;入耳掩蔽效應;高電平補償;h o w l i n g 抑制 大連理工大學碩士學位論文 t h ep r e t r e a t m e n to ft h es p e e c hs i g n a lb a s e do nm o d u l e s a b s t r a c t i nm o d e mi n f o r m a t i o nt e c h n o l o g y ,t h ep r o c e s s i n go ft h es p e e c hs i g n a li sb e c o m i n gm o r e a n dm o r ei m p o r t a n t , i nw h i c ht h ep r e t r e a t m e n to ft h es p e e c hs i g n a li st h en e c e s s a r yp a r t r w i l l i m p r o v et h eq u a l i t yo ft h ep r o c e s so ft h es p e e c hs i g n a l i tm a i n l yc o n s i s t so ft h e a u t o m a t i cl e v e lc o n t r o l ,a d a p t i v en o i s es u p p r e s s i o n , h i l g hl e v e lc o m p e n s a t i o na n dh o w l i n g s u p p r e s s i o n , w h i c ha r et h ek e yt e c h n o l o g yi nt h i sp a p e r a u t o m a t i cl e v e lc o n t r o l ( a l c ) i sm a i n l yu s e dt oc o n t r o lt h es t r o n gf l u c t u a t i o no f s p e e c h s i g n a l i ta d j u s t st h el e v e lo ft h es p e e c hs i g n a lt ot h eb e s tv a l u et i m e l y a l cm a i n l yc o n t a i n s t w op a r t s o n ei st w oc l a s s e s d y n a m i cv a d ,t h eo t h e ri sa u t o m a t i cg a i nc o n t r o lb a s eo nr m s a d a p t i v en o i s es u p p r e s s i o ni su s e dt op i c ku pt h er e l a t i v e l yp u r es p e e c hs i g n a lf r o mt h e s p e e c hs i g n a lw i t hn o i s e i nt h i sp a p e r , t h e r ea r es o m ei m p r o v e m e n t sb a s e do nt h es p e c t r a l s u b t r a c t i o n ,s u c ha se l i m i n a t i n gt h e m u s i cn o i s e b ym a s kl i n e ,c s 眥 yo u tt h en o i s e s u p p r e s s i o nb yl e a s tc o n t r 0 1 i na d v a n t a g eo ft h eh e a r i n gc h a r a c t e r i s t i c s ,ah i g hl e v e lc o m p o s i t i o nb a s e do ne q u a l s o u n d l i n ef u n c t i o n si s p r o p o s e d n l i sm e t h o dt h es p e e c hf r a m e sa r ec h o s eb yv a df i r s t ,t h e n c a l c u l a t et h ep a r a m e t e r so ft h el e v e lc o m p o s i t i o n a tl a s t , c o m p o s i t i n gt h eh i 曲f r e q u e n c ya n d l o wf r e q u e n c yo ft h es p e e c hs i g n a lm u l t i p l i e db yt h ep a r a m e t e r s s ot h ee q u a ls o u n di s o b t a i n e d p h a s er a n d o m i z e dt e c h n i q u ei sp r o p o s e dt h r o u g ha n a l y z i n gh o wt of o r mt h eh o w l i n g f i r s t , p u tt h eo r i g i n a ls i g n a li n t op o l y p h a s ei i rf i l t e r st og e tt h es u b b a n ds i g n a l ;s e c o n d ,t h ee x i t s o fh o w l i n gi sd e t e c t e db yl m s a d a p t i v en o a hf i l t e r ;i ft h er e s u l t so ft h ed e t e c t i o ni sh o w l i n g e x i t i n g ,r e s t r a i ni tb yp h a s er a n d o m i z e dt e c h n i q u e t h em o d u l e so ft h ep r e t r e a t m e n to ft h es p e e c hs i g n a lm e n t i o n e da b o v en o to n l yc a n p r o c e s ss e p a r a t e l y ,b u ta l s oc a nw o r kt o g e t h e ra saw h o l es y s t e m s oi tw i l lu s ed i f f e r e n t m o d u l e sa c c o r d i n gt od i f f e r e n ts i t u a t i o n st oa c h i e v et h ed i f f e r e n ta i m s k e yw o r d s :a l c ;h i d i n gf u n c t i o n ;h l c ;h o w l i n gs u p p r e s s i o n 大連理工大學碩士研究生學位論文 大連理工大學學位論文版權(quán)使用授權(quán)書 本人完全了解學校有關(guān)學位論文知識產(chǎn)權(quán)的規(guī)定,在校攻讀學位期間 論文工作的知識產(chǎn)權(quán)屬于大連理工大學,允許論文被查閱和借閱。學校有 權(quán)保留論文并向國家有關(guān)部門或機構(gòu)送交論文的復印件和電子版,可以將 本學位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、 縮印、或掃描等復制手段保存和匯編本學位論文。 學位論文題目鹽亟型塑盟盤疊二顯墨i 塾竺速墾些 作者簽名: 導師簽名: 日期:丑年j 月上e 1 日期:竺2 年月上日日期:竺2 年j 月上日 大連理工大學學位論文獨創(chuàng)性聲明 作者鄭重聲明:所呈交的學位論文,是本人在導師的指導下進行研究 工作所取得的成果。盡我所知,除文中已經(jīng)注明引用內(nèi)容和致謝的地方外, 本論文不包含其他個人或集體已經(jīng)發(fā)表的研究成果,也不包含其他已申請 學位或其他用途使用過的成果。與我一同工作的同志對本研究所做的貢獻 均已在論文中做了明確的說明并表示了謝意。 若有不實之處,本人愿意承擔相關(guān)法律責任。 學位論文題目:基王搓迭焦的適童焦曼亟處理塞拯 作者簽名:量塑釜二_ 一日期:三竺t 年上月乒日 大連理工大學碩士學位論文 1緒論 1 1應用背景 隨著人們進入數(shù)字信息時代,數(shù)字語音通信在生產(chǎn)和生活等各方面起到越來越重要 的作用。然而在數(shù)字語音通信中,背景噪聲的干擾、信號傳輸?shù)膿p耗以及語音信號的正 反饋所引起的信號不穩(wěn)定,使得很多語音處理系統(tǒng)的性能急劇下降。例如語音編解碼系 統(tǒng)中,信道噪聲與線路噪聲污染的影響是十分大的,又例如線路電平的不匹配造成音量 大小不一等等。為了消除現(xiàn)實環(huán)境的數(shù)字語音對人們主觀聽覺造成的負面影響,對語音 預處理技術(shù)及其實用化的研究是非常有必要的。語音預處理技術(shù)是數(shù)字語音信號處理的 重要分支,已經(jīng)廣泛應用于無線電話、電話會議與場景錄音等領(lǐng)域。通過各個方面的預 處理可以大大改善原系統(tǒng)在外界環(huán)境干擾條件下的性能,提高語音通信質(zhì)量。 語音預處理的目的就是為了在保持語音可懂度和清晰度的前提下,對語音信號進行 時域或頻域的變換與處理,從而使語音在音強、音長、音調(diào)、音質(zhì)與純凈度等方面得到 一定程度的提升。實用語音預處理系統(tǒng)主要包括噪聲消除系統(tǒng)、電平控制系統(tǒng)和回聲控 制系統(tǒng)等。噪聲消除系統(tǒng)的作用是檢測并降低語音信號中的背景噪聲,提高語音的純凈 度:電平控制系統(tǒng)則能穩(wěn)定信號傳輸電平,使雙端或多端語音的音強與音質(zhì)維持在一定 的水平上;回聲控制系統(tǒng)則針對擴聲系統(tǒng)中回聲所引起的正反饋放大現(xiàn)象,采用自適應 濾波等方法進行回聲對消,也起到提高語音純凈度的作用。本文研究的重點是數(shù)字通信 中的實用自動電平控制系統(tǒng),自適應噪聲消除系統(tǒng),高電平補償系統(tǒng)和h o w l i n g 抑制系 統(tǒng)。 1 2 語音分析方法 語音信號分析是語音信號處理的前提和基礎(chǔ),只有分析出可表示語音信號本質(zhì)特性 的參數(shù),才有可能利用這些參數(shù)進行高效的語音通信、語音合成和語音識別等處理。根 據(jù)所分析參數(shù)的不同性質(zhì),可將語音信號分析分為時域分析、頻域分析、同態(tài)分析、線 性預測分析等i l j 。 ( 1 ) 時域分析方法 語音信號的時域分析就是分析和提取語音信號的時域參數(shù),是一種比較直觀的分析 方法。時域分析通常用于最基本的參數(shù)分析及應用,如語音的分割、預處理與分類等, 其實現(xiàn)簡單、運算量也較小。 基于模塊化的語音信號預處理 語音信號的時域參數(shù)有短時能量、短時過零率、短時自相關(guān)以及短時平均幅度差等, 這是語音信號的一組最基本的短時參數(shù),在各種語音信號數(shù)字處理中都要應用。為了使 語音信號的短時能量與幅度變化相對平滑,在計算這些參數(shù)時使用的一般是矩形窗或漢 明窗。 ( 2 ) 頻域分析方法 從廣義上講,語音信號的頻域分析包括語音信號的頻譜、功率譜、倒頻譜、頻譜包 絡分析等。常用的頻域分析方法包括傅立葉變換法等。因為語音信號是一個非平穩(wěn)過程, 因此適用于周期、非瞬變或平穩(wěn)隨機信號的標準傅立葉變換不能用來直接分析,麗應該 用短時傅立葉變換進行頻譜分析,相應的頻譜稱為“短時譜 。 對第刀幀語音信號毛( 聊) 進行傅立葉變換,其定義如下: j 一l 以。歸) = 毛( 腳) e 一腳 m = o 其中n 為變換點數(shù),短時傅立葉變換實際就是窗選信號的標準傅立葉變換。選取不同的 窗口函數(shù),就會得到不同的傅立葉變換結(jié)果。 如令角頻率彩= 2 萬七,則可得離散的短時傅立葉變換以( 七) 。在語音信號數(shù)字處 理中,一般采用矗( 所) 的離散傅立葉變換來替代以0 歸) ,并且可以用高效的快速傅立葉 變換算法完成由而( 所) 至以( 后) 的轉(zhuǎn)換。為了符合人耳的聽覺特性,提高語音信號處理 系統(tǒng)的性能,還可以進一步將實際的線性頻譜轉(zhuǎn)化為臨界帶頻譜矢量,從而根據(jù)人耳對 頻率高低的非線性心理感受反映語音短時幅度譜的特征。 ( 3 ) 同態(tài)分析【4 】 同態(tài)分析實現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理,即解卷。對語音信號進行 解卷,可將語音信號的聲門激勵信息及聲道響應信息分離開來,從而求得聲道共振特征 和基音周期,用于語音編碼、合成與識別等。 許多語音信號并不是加性信號,而是聲門激勵和聲道沖擊響應的卷積性信號,同態(tài) 信號處理可以將這類非線性問題轉(zhuǎn)化為線性問題,在線性空間完成運算后再逆變換為卷 積信號。 對卷積信號x ( 甩) = x l ( n ) * x 2 ( n ) 進行如下運算處理: i z 【x ( ”) 】= 五( z ) j 巴( z ) i n x ( z ) = i n 五( z ) + i n 五= 五 ( 1 2 ) l z - 【x ( z ) 】= z 卅【墨( z ) + 五( z ) 】= 毫( 刀) + 島( 胛) = 曼( 刀) 大連理工大學碩士學位論文 由于疊) 是加性信號,所以可對其進行需要的線性處理。例如在兩個信號互不交替 的情況下,將聲門激勵信號和聲道沖擊響應分離開來。最后只需對分離信號進行逆變換 與指數(shù)運算即可恢復原來的卷積信號。 ( 4 ) 線性預測分析 線性預測【2 】分析的基本思想是:由于語音樣點之間存在相關(guān)性,所以可以用過去的 樣點值來預測現(xiàn)在或未來的樣點值,即一個語音的抽樣能夠用過去若干個語音抽樣或它 們的線性組合來逼近。通過使實際語音抽樣和線性預測抽樣之間的誤差在某個準則下達 到最小值來決定唯一的一組預測系數(shù)。現(xiàn)代語音編碼的聲道模型參數(shù)估計大多都基于線 性預測分析方法。 1 3 心理聲學的概述 心理聲學一詞似乎很令人費解,其實很簡單,它就是指“人腦解釋聲音的方式”。壓 縮音頻的所有形式都是用功能強大的算法將我們聽不到的音頻信息去掉。例如,如果我 扯著嗓子喊一聲,同時輕輕地踏一下腳,您就會聽到我的喊聲,但可能聽不到我踏腳的 聲音。通過去掉踏腳聲,就會減少信息量,減小文件的大小,但聽起來卻沒有區(qū)別。 心理聲學模型【3 1 是對人聽感的統(tǒng)計性質(zhì)的數(shù)學表述模型,它解釋人各種聽感的生理 原理。由于人耳聽覺系統(tǒng)復雜,人類迄今為止對它的機理和聽覺特性的某些問題總是還 不能從生理解剖角度完全解釋清楚。所以,對人耳聽覺特性的研究目前僅限于在心理聲 學和語言聲學內(nèi)進行。人耳對不同強度和不同頻率聲音的一定聽覺范圍稱為聲域。在人 耳的聲域范圍內(nèi),聲音聽覺心理的主觀感受主要有響度、音高、音色等特征和掩蔽效應、 高頻定位等特性。其中響度、音度、音色可以在主觀上用來描述具有振幅、頻率和相位 三個物理是的任何復雜的聲音,故又稱為聲音“三要素”【6 】;而對于多種音源場合的人耳 掩蔽效應等特性尤為重要,它是心理聲學的基礎(chǔ)。 心理聲學的幾個基本概念 ( 1 ) 等響度曲線【5 j 人的聽覺的靈敏度隨著頻率而改變。即通常兩個功率一樣但頻率不同的音調(diào)聽起來 并不一樣響。通過等響度曲線,我們可以看出,入耳對1 k h z 的頻率最靈敏,即在1 k h z 下能被察覺出來的聲音壓力水平( 響度) ,在其他頻率下并不能被察覺。這就給在一些不 太靈敏的頻率下失真提供了條件。 ( 2 ) 屏蔽l 7 j 基于模塊化的語音信號預處理 我們上高中物理時學過屏蔽,就是強的聲音信號把弱的聲音信號覆蓋,導致我們無 法察覺。而且,當兩個聲音在時間和頻率上很接近時,屏蔽效應就會很強。因此,我們 可以在編碼時對被屏蔽的部分不編碼、不傳送。這樣,音質(zhì)依然沒有大的損失,入耳也 不易察覺。 ( 3 ) 臨界頻帶哺】 對于人類的聽覺來說,對聲音的感知特性并不是以線形頻率為尺度來變化的( 人的 聽覺還沒那么好) ,而是可以用被稱為臨界頻帶的一系列有限的頻段來表達。簡單的說, 把整個頻帶劃分成幾段,在這每個頻段里,人耳的聽覺感知是相同的,即心理聲學特性 都是一樣的。 1 4 自動電平控制的理論背景 自動電平控銅 ( a u t o m a t i cl e v e lc o n t r o l ,簡稱a l c ) 由兩部分組成:語音激活檢測單 元和自動增益控制單元。這種a l c 技術(shù)可以實時、自動地調(diào)整裝置增益變化( 放大或衰 減) ,使傳輸電路中的信號電平保持在預設值附近。該技術(shù)還可以通過改變信號的頻率 響應或者頻譜內(nèi)容來使信號電平得到變化。 a l e 系統(tǒng)處理的信號是不連續(xù)的,例如在通話過程中,人講話是間斷的。當通話處 于空話階段,傳送的信號只含有噪聲,這些噪聲可能是背景環(huán)境噪聲,也可能是某些語 音編碼器輸出的舒適噪聲。即使不能從語音中分離噪聲,系統(tǒng)也應能在空話時控制a l c 操作,不對噪聲或靜音進行電平控制;一旦再次檢測到有伴隨噪聲的語音,a l c 裝置應 被再次激活。 上述分析使用的方法就是語音激活檢測( v a d ) 。該方法通過檢測輸入信號的特性, 在噪聲環(huán)境下分辨當前語音信號是語音還是靜音,并做出判決指示( v a d 的指令輸出) 。 雖然v a d 的判決指示只是個開關(guān)量,但其對整個a l c 系統(tǒng)的控制優(yōu)劣起到了非常重要 的作用。v a d 主要是利用人類語音的統(tǒng)計特性,如幅度、能量、準周期性、過零率、 頻域特性等,按照最大似然的原則進行判決。各種算法的基本思想就是提取某種能夠區(qū) 分語音和噪聲的語音特征參數(shù);或?qū)φZ音信號加以變換,得到對語音和噪聲有明顯差別 的結(jié)果,從而找出二者的分界點。還可以同時利用多個語音特征進行語音檢測1 9 j 。 按照協(xié)議規(guī)定,a l c 系統(tǒng)在不影響傳輸信號尤其是語音的質(zhì)量的前提下,采用信號 增益控制,根據(jù)指定的輸出電平,自動調(diào)整輸入信號電平的大小。 1 5 噪聲消除的應用背景和分類 人們在語音通信過程中不可避免地會受到來自周圍環(huán)境、傳輸媒介引入的噪聲、通 信設備內(nèi)部電噪聲乃至其它講話者的干擾。這些干擾最終將使接收者接收到的語音已非 一6 一 大連理工大學碩士學位論文 純凈的原始語音信號,而是受噪聲污染的帶噪語音信號。 由于噪聲污染使許多語音處理系統(tǒng)的性能急劇惡化。在噪聲環(huán)境中尤其是強噪聲環(huán) 境,語音識別系統(tǒng)的識別率將受到嚴重影響。語音編碼,特別是參數(shù)編碼( 如:聲碼器) , 當模型參數(shù)的提取受到混雜在語音中背景噪聲嚴重干擾時,重建語音的質(zhì)量將急劇惡 化,甚至變得完全不可懂。在上述情況下,消噪作為一種預處理手段已經(jīng)在語音處理中 必不可少了。 由于干擾的隨機性,從帶噪語音中提取完全純凈的語音幾乎不可能。單信道語音消 噪方法種類繁多,它們都是根據(jù)噪音信號和語音信號的特征作具有針對性的研究。 對各種方法加以概括,大致將語音增強【1 1 1 方法分成如下五類: ( 1 ) 參數(shù)方法:如維納濾波、梳狀濾波器、卡爾曼濾波器等。此類方法依賴于使用的語 言生成模型( 例如a r 模型) ,需要提取模型參數(shù)( 如基音周期、l p c 系數(shù)) ,常使用疊 代方法。如果實際噪聲或語音條件與模型有較大差距或提出模型參數(shù)有困難,這類 方法容易失效。 ( 2 ) 非參數(shù)方法:如譜減法、自適應濾波等。因為不需要從帶噪信號中估計模型參數(shù), 非參數(shù)方法應用范圍廣,限制較少。也因為約束條件少,沒有利用可能的統(tǒng)計信息, 結(jié)果一般不是最優(yōu)的。 ( 3 ) 統(tǒng)計方法:如隱馬爾科夫模型、純凈語音譜和帶噪語音譜對應映射、極大后驗概率 估計( m a p m a x i m u ma - p o s t e d o d ) 、最小均方誤差估計( m m s e m i n i m u mm e s _ ns q u a r e e r r o r ) 等。統(tǒng)計方法較多地利用了語音和噪聲的統(tǒng)計特性,一般需要建立模型庫。 ( 4 ) 多通道方法:如噪聲抵消法、延遲相加波束形成器( d e l a y s u mb e a m f o r m e r ) 、自 適應波束形成器( a d a p t i v eb e a m f o r r n e 0 、后濾波波束形成器( p o s t - f i l t e r i n gb e a m f o r m e r ) 、獨立分量分析( i c a i n d e p e n d e n tc o m p o n e n ta n a l y s i s ) 等。多通道方法利用 了更多的信息,包括空間信息,可以更好地濾除噪聲、分離語音,但對硬件設備要 求高,算法一般較復雜。 ( 5 ) 其他方法:如小波濾波、卡維南一洛維變換、人工神經(jīng)網(wǎng)絡等。這些方法不像前幾 類方法那樣成熟。 這些方法間沒有太大的內(nèi)在聯(lián)系,各自有各自的優(yōu)缺點。其中譜減法適用于平穩(wěn)噪 聲背景或者緩慢變化的非平穩(wěn)噪聲環(huán)境,且無需知道噪聲的先驗知識,以其簡單有效而 深受人們的重視。本文就是基于譜減法的一種改進方法,利用聽覺掩蔽的作用來減小音 樂噪音的影響。 基于模塊化的語音信號預處理 1 6 自激的形成及孔p s f j 方法的概述 在擴聲系統(tǒng)中如圖4 1 所示,常存在正反饋而產(chǎn)生的振蕩,即自激【1 3 j 。按照振蕩形成 的原理,一個系統(tǒng)只有在滿足以下兩個條件時才能形成振蕩,即振幅平衡條件和相位平衡 條件例。所謂振幅平衡就是當某頻率的反饋信號幅度大于此頻率原先輸入信號的幅度時 引起的振蕩,或者說,系統(tǒng)對某頻率的閉環(huán)電壓放大倍數(shù)大于1 。所謂相位平衡是當某頻率 的反饋信號與此頻率輸入信號同相位時引起的振蕩,即必須構(gòu)成正反饋才能引起振蕩。 在寬頻帶的噪音環(huán)境中,很容易產(chǎn)生滿足振蕩條件的信號頻率點進入傳聲器變成電 信號,并且通過從調(diào)音臺到功率放大器等設備的放大,再經(jīng)過揚聲器系統(tǒng)變成聲信號輻 射出來,經(jīng)過某個途徑重新回到傳聲器,由于此頻率信號在整個擴聲系統(tǒng)中的閉環(huán)電壓 放大倍數(shù)已滿足大于1 的條件,所以再次進入傳聲器時,就比原先進入傳聲器的信號幅 度要大,那么經(jīng)過一個新的循環(huán)后在幅度上比第一次從揚聲器出來后返回傳聲器的信號 幅度大一些,如此一個循環(huán)、一個循環(huán)地反復放大,信號幅度也越來越大。通過若干次 循環(huán)后,從揚聲器輻射出來的聲音已達到可以感覺到的響度,此時就覺察到嘯叫的苗頭 糾。繼續(xù)循環(huán)下去,聲音會越來越大,最后達到不能忍受的程度。當然這個過程比電子 電路中振蕩形成的時間要長得多。因為在擴聲系統(tǒng)的閉環(huán)中有一個揚聲器輻射出來的聲 信號從揚聲器系統(tǒng)經(jīng)過空間傳播,或者再加上傳播到某個界面后反射出來的聲波再在空 間傳播后到達傳聲器這個過程,而聲波在空間傳播的速度比較低,按照每秒傳播3 4 0m 的速度計算,如果揚聲器輻射出來的聲波通過某個途徑返回到傳聲器需要走1 7m 路程的 話,并且不考慮電信號在設備電路中傳播所需的時間,一個閉環(huán)循環(huán)需要5 0m s 。假設閉 環(huán)增益為ld b ,也就是閉環(huán)電壓放大倍數(shù)為1 1 2 ,稍大于l ,假定最初進入傳聲器的該頻 率噪聲信號聲壓級為2 0d b ,則達n 6 0d b 這個已經(jīng)能聽出嘯叫苗頭的聲壓級需要循環(huán)4 0 次,即需要2s 。這時如果不盡快將系統(tǒng)對此頻率的閉環(huán)電壓放大倍數(shù)拉下來,使之閉環(huán) 電壓放大倍數(shù)降到小于1 ,就形成了嘯叫聲。 “c “氌由 i o u db - p e a l l c a ) s ) a s t c r n 圖1 1 音頻放大系統(tǒng)中的反饋 f i g 1 1 t h ef e e d b a c ko fa u d i oa m p l i f ys y s t e m 引起擴聲系統(tǒng)自激的條件:一是某一反饋頻率的相位與輸入頻率的相位相同:二 是反饋的量要足夠大。要防止聲反饋就必須抑制它產(chǎn)生自激的條件,通常抑制嘯叫的方 一8 一 大連理工大學碩士學位論文 法i b j 有: ( 1 ) 在擴聲系統(tǒng)設計、安裝時采取措施,盡量減小可能的聲反饋。例如選擇頻率響應平 直的電聲器件;利用電聲器件的指向性降低聲反饋;利用均衡技術(shù)抑制聲反饋等。 ( 2 ) 利用中心頻率位于嘯叫頻率點處的陷波濾波器對輸入信號進行陷波處理,降低發(fā)生 嘯叫頻率點處的開環(huán)增益,抑制聲反饋量。該方法簡單有效,但對音質(zhì)有影響。 ( 3 ) 采用移頻技術(shù),破壞嘯叫的相位條件。然而這種方法的嘯叫抑制效果并不好,常常 控制了一個頻率點的嘯叫,系統(tǒng)又會在另外一個頻率點嘯叫經(jīng)試驗表明,當移頻較 大時,一句話的結(jié)尾處會出現(xiàn)金屬拖尾聲,對音質(zhì)有一定的影響。 ( 4 ) 采用自適應回音抵消器,通過消除揚聲器到傳聲器的回音來抑制嘯叫。該方法效 果很好,同時也不會對語音音質(zhì)產(chǎn)生任何影響,但是其算法很復雜。因此,實現(xiàn)所 需要硬件成本很高。 ( 5 ) 隨機相位抑制嘯叫方法,這也是本文所用的方法。這個方法利用了人類對語音相位 不太敏感的特點,破壞產(chǎn)生自激的條件,從而達到抑制嘯叫的作用。這個方法也可 以提高傳輸增益。 1 7 高電平補償?shù)膽帽尘?人的耳朵聽覺頻率可以從2 0 h z 2 0 k h z ,它的下端次聲波和它高端超聲波是聽不到 的。人們把2 0 h z 2 0 k h z 之間的頻率劃分為幾個區(qū),如高中低三個區(qū)【1 4 1 。不同的說話人 發(fā)出聲音的頻率范圍也不同。男人的聲音整體比女人聲音的頻率范圍低,同一個人發(fā)出 不同的音時,頻率值也不同。因為人耳所具有的特殊結(jié)構(gòu),對于不同的頻率范圍,語音 信號的主觀感覺也不同,所以才會出現(xiàn)當一個人用同樣功率大小的聲音說話時,對方聽不 清楚某個字或某個音的狀況。等響度控制是一種帶補償?shù)囊袅靠刂破鳌K苎a償人耳在 不同音量情況下對頻率特性的主觀差異,使音量不論開大開小,聽覺感受只是聲音的響 度發(fā)生變化,而其頻響不變。聲音的響度與聲壓有關(guān)。一般情況下,聲壓較高,響度也 越大。但人耳對不同頻率聲音的響度主觀感覺是不同的。在音量較低的情況下,總是對 中音比較敏感,而對低音和高音的比較遲鈍,而且音量越低,這種情況越顯著。 從聲學的角度來看,這一領(lǐng)域的研究人員通過長時間的實踐研究,得出了等響度曲 線,找出了其中的規(guī)律。本文主要研究通過將等響度曲線的各點與語音信號的頻域范圍 的聲壓級各點加權(quán)來得到主觀聽覺上的等響效果。 一9 一 基于模塊化的語音信號預處理 1 8 本文工作 本文首先介紹了語音信號處理的基本分析方法,并概述了心理聲學對語音信號處理 的影響。然后,分別介紹了語音預處理的幾個模塊,其中為自動電平控制,自適應噪聲 抑制,自激抑制,高電平補償?shù)幕驹恚瑢崿F(xiàn)方法和性能分析評估。 本章是概述,本文的其他章節(jié)安排如下: 第二章介紹了自動電平控制方法中的兩部分實現(xiàn),其中v a d 的原理與d b m o 的 計算,以及該方法的性能分析。 第三章簡介了譜減法和聽覺掩蔽的基本原理,以及將其應用到其中的改進消噪法 的實現(xiàn)和評估。 第四章介紹了h o w l i n g 的形成和隨機相位的h o w l i n g 抑制方法的實現(xiàn)與仿真評估。 第五章介紹了等響度曲線的概念以及高電平補償?shù)膶崿F(xiàn)方法與結(jié)果分析。 最后部分是對全文工作的概括和總結(jié),以及對語音信號預處理系統(tǒng)的下一步研究方向的 展望。 大連理工大學碩士學位論文 2 自動電平控制 2 1 基于r m s 自動電平控制方法的提出 自動增益控制( a u t o m a t i cg a i nc o n t r o l ,a g c ) 技術(shù)在數(shù)字通信、語音處理、測試設 備等多方面的應用十分廣泛【i 引。傳統(tǒng)的自動增益控制都是用模擬電路實現(xiàn),其性能很大 程度上受電路本身如響應時間、動態(tài)范圍等的限制。在a g c 系統(tǒng)中使用數(shù)字信號處理 方法,可避免控制電路的影響,設計靈活、精度高、控制范圍大,更有效地提高自動增 益控制的性能。 對于經(jīng)過通信傳輸或者放大系統(tǒng)的語音信號幅度經(jīng)常發(fā)生很大波動這種現(xiàn)象,a l c 系統(tǒng)通過實現(xiàn)一種優(yōu)化語音信號電平的方法,提高語音質(zhì)量。自動電平控制( a u t o m a t i c l e v e lc o n t r o l ,a l c ) 與自動增益控制都是為了把信號電平調(diào)整至最優(yōu)值【l5 1 ,但前者主要 用于語音信號處理上;傳統(tǒng)a g c 則是連續(xù)地調(diào)整系統(tǒng)增益以控制傳輸信號幅度。 本文的a l c 系統(tǒng)是建立在語音激活檢鋇u ( v a d ) 基礎(chǔ)上的實時調(diào)整語音信號電平的 技術(shù)。首先,根據(jù)語音信號的短時平穩(wěn)性,將語音信號分段處理。利用語音幀之間的相 關(guān)性,計算出當前幀與相鄰幀的長時功率值,再與預設值作比較得到增益值,用這個值 調(diào)整當前幀的電平。由于人的語音信號是不連續(xù)的,存在非語音幀的情況。如果不考慮 語音幀和靜音幀的分類,直接計算增益值,就會將噪音信號幀作為參考計算進去。但背 景噪音與語音信號間沒有必然的相關(guān)性,這樣直接計算反而會引起語音信號的不穩(wěn)定。 所以在自動增益控制之前加一個v a d 檢測部分,先將語音信號分成兩類,語音幀和靜音 幀。再以歸類為語音幀的信號作為參考計算長時功率值與一個標準值進行比較調(diào)整。如 果遇到靜音幀則可忽略,利用其前一個語音幀作為下一個語音幀的調(diào)整參數(shù)。調(diào)整趨勢 圖如圖2 1 ,結(jié)構(gòu)圖如圖2 2 ,。 一一:二:二二:= = - 判決門限 一一一一一一 一 圖2 1調(diào)整的趨勢圖 f i g 2 1 t h et r e n do ft h ea d j u s t i n gp r o c e s s 基于模塊化的語音信號預處理 圖2 2 自動電平控制的結(jié)構(gòu)圖 f i g 2 2 t h es t r u c t u r eo f a u t o m a t i cl e v e lc o n t r o l 2 2 兩級動態(tài)v a d 檢測 2 2 1 基本的v a d 檢測參數(shù) v a d ( v o i c ea c t i v i t yd e t e c t o r ) 語音激活檢測,是指采用一定的信號處理技術(shù)檢測信號 是否是語音信號,或信號中是否含有語音信號。v a d 的主要方法是利用人類語音的統(tǒng)計 特性,如幅度,能量,過零率,準周期性,頻率特性等,按照最大似然的原則進行判決 1 1 6 j 。各種算法的基本思想是提取某種能夠區(qū)分語音和噪聲的語音特征參數(shù),或?qū)ζ浼右?變換,得到對語音和噪聲有明顯差別的結(jié)果,從而找出兩者的分界點,或依據(jù)多個語音 特征進行語音檢測。 下面將分析各種經(jīng)典檢測算法提取特征參數(shù)【1 6 1 刀的有效性及其優(yōu)劣。 1 短時能量檢測 通常在信噪比較高的情況下,語音的能量總是要大于背景噪聲的能量,所以短時能 量檢測就利用語音和噪聲能量上的差別進行檢測。如果語音能量大于閾值,就判斷為語 音,反之判為靜音,判斷過程如下 e = s 2 ( f ) w z 一f )( 2 1 ) z = - o o 其中,s ( f ) 是語音信號,w ( n ) 是短時窗設定一個判決門限口,則判決結(jié)果為 大連理工大學碩士學位論文 l o 萇: 億2 , 但它不能非常有效地檢測清音,即可能存在漏檢的現(xiàn)象,將能量小的語音判為靜音, 或把能量大的噪音誤判為語音。 2 短時自相關(guān)函數(shù)檢測 短時自相關(guān)函數(shù)是語音信號時域分析的一個重要參量,利用語音和噪聲在相關(guān)性上 不同這個特性進行區(qū)別檢測。大多情況下背景噪聲是一種準白噪聲,其相關(guān)度極低,而 語音是具有高度相關(guān)性的信號,并且相關(guān)性與信號的能量無關(guān),所以當信號的能量大小 接近或低于背景噪聲時,通過自相關(guān)檢測也能很好的分別語音和靜音。 r ( 七) = s ( i ) w ( n - i ) s ( i + k ) w ( n - i - k ) ( 2 3 ) 這里,窗長為0 刀n - i 。它的判斷過程同短時能量類似,它的判決門限是利用前 2 0 幀計算得到: r 咒= 麗1 - vr ( f ) ( 2 4 ) 咒2 麗去r u ) 蟛4 但是由于清音的相關(guān)性也較小,有時會被判為噪聲,所以在以清音開始或結(jié)束的語 音中使用短時自相關(guān)函數(shù)進行檢測可能會產(chǎn)生斷斷續(xù)續(xù)的感覺。 3 短時平均過零率檢測 語音信號是寬帶信號,應用短時平均過零率的表示方法可以得到語音信號譜特性的 粗略估計。因為濁音語音能量約集中在3 k i - i z 以下,而清音語音的多數(shù)能量是出現(xiàn)在較高 的頻率上,高頻具有較高的過零率,而低頻則較低。而噪聲的過零率一般沒有規(guī)律,是 隨機分布的,過零率大小介于清音與濁音之間。大量的實驗數(shù)據(jù)說明,清音的短時平均 過零率均值為4 7 過零1 0 m s 。濁音的短時平均過零率均值為1 4 過零1 0 m s 1 8 1 。用短時過零 率算法檢測時,通常是通過計算每幀信號的過零率z ( n ) 再將它與設定的閾值相比較, 即 唧m = 二。= 億5 , z ( 刀) = s g n 【x ( f ) 卜s g n x ( f 1 ) 】i ( 2 6 ) 基于模塊化的語音信號預處理 利用過零率作檢測所得到的結(jié)果如下 0 5 0 旬5 柏 2 0 0 u i 一 l f r t l ” 一 , 【 耳 如圖2 4 所示,在背景噪聲環(huán)境下,背景噪聲的過零率明顯大于濁音信號,我們可以 判斷出當前幀是否為語音信號。但是由于混合語音中清音的過零率與噪聲相當,所以很 多時候無法判斷出以清音作為起點或者終點的語音。所以在某些語音環(huán)境中只使用過零 率檢測可能正確率不會很高。 4 短時平均幅度差函數(shù) 短時自相關(guān)函數(shù)是語音時域分析的一個重要參數(shù),但其運算量很大,對硬件要求也 較高。而短時平均幅度差函數(shù)與自相關(guān)函數(shù)有相似的作用,例如判斷清音段和濁音段, 但是運算量和對硬件的要求可以降低很多。短時平均幅度差函數(shù)定義為: c ( 七) = i 1 i x o + 歷) 嵋( 聊) 一x ( 療+ 朋+ 七) ( 所+ 七) i ( 2 7 ) 式中,尺= l x ( 刀) l 是信號x ) 的平均值。這里使用矩形窗作為窗函數(shù),兩個窗長度不 n = 0 同,這樣,上式可簡化為: 大連理工大學碩士學位論文 馳) = 去簍m 叫樅) i ,七- 0 l ,一,一l ( 2 8 ) 由于短時平均幅度差函數(shù)只需要加、減法和取絕對值的運算,硬件實現(xiàn)較為簡單。 0 一j l 】 l 眥。址一。山h i 芬 r 一?r l r r 一 開 耵1f i - 圖2 6 語音信號的幅度差 f i g 2 6 s h o r t - t i m ea v e r a g em a g n i t u d ed i f f e r e n c e 綜上,各個參數(shù)的性能指標歸納如下表。 表2 1 各種檢測算法及性能指標 t a b l e 2 1a l lk i n d so fd e t e c t i o na l g o r i t h m sa n dp e r f o r m a n c ep a r a m e t e r s 性能指標 計算 區(qū)分清濁音有效性區(qū)分清噪音有效性 檢測算法復雜度純凈語音混合語音純凈語音混合語音 短時能量 簡單一般較低一般很低 短時自相關(guān) 復雜較高一般較高一般 短時平均過零率簡單很高很高較低較低 短時平均幅度差簡單較高較高較高一般 基于模塊化的語音信號預處理 2 2 2 基于過零率和平均幅度差的二級動態(tài)語音激活檢測算法 由于語音和噪音的多樣性和各種靜音檢測算法提取的特征參數(shù)不同,使用單一的靜 音檢測算法在很多情況下并不能有效檢測靜音和語音;而多級靜音檢測算法綜合多種特 征參數(shù),檢測效果比單一檢測要好得多。但是每增加一級檢測算法就增加一定計算量和 算法復雜度,導致處理時延增加,兩在一定級數(shù)以后檢測精度也不再增加,所以多級靜 音檢測的級數(shù)也不宜太多,一般選取2 、3 級為宜。 本文使用兩級檢測算法,從上表可以看出當短時能量在強噪聲環(huán)境下進行檢測時, 效果很差,不適合實際應用。短時平均過零率具有很強的區(qū)分清濁音的能力,可以將其 作為第一級檢測,根據(jù)濁音的過零率遠小于噪聲的前提條件,直接將濁音部分判斷為語 音。對于當清音的過零率與噪音的過零率比較接近的情況,將短時平均幅度差函數(shù)作為 第二級檢測以提高清音在混合語音中檢測的準確率。短時自相關(guān)檢測算法性能較好,但 計算復雜度較大,而短時平均幅度差函數(shù)不僅可以達到與短時自相關(guān)函數(shù)相近的檢測效 果,而且計算簡單,所以選擇短時平均幅度差函數(shù)作為第二級檢測算法,如圖2 7 所示。 首先,對語音信號進行分幀,利用前2 0 幀計算出短時平均過零率和短時平均幅度 差的判斷閾值的初始值,即 2 0 = 去z ( 刀) ( 2 9 ) un = l 1 1 2 0 r f = 熹c ( 刀) ( 2 1 0 ) l v 開= l 其中n 為語音幀數(shù)。 第二,對輸入信號幀作第一級檢測,利用式( 2 5 ) 、( 2 6 ) 計算出該幀的過零率與閾值 比較。當大于閾值時,進入第二級檢測;當小于閾值時,直接輸出v a d 判斷為l 。 第三,用式( 2 8 ) 計算進入第二級的信號幀,讓它與閾值作比較。大于閾值時,v a d 輸出l :小于閾值時,v a d 輸出o 。 因為背景環(huán)境具有隨機性,為使判斷更加準確,在每次檢測到靜音幀時,就更新背 景噪聲的過零率和短時平均幅度差的判決門限。這樣的v a d 檢測在變化的環(huán)境中就更 具有魯棒性。 大連理工大學碩士學位論文 初始語音 i 信號分段 1r 閾值初始化 圖2 7v a d 檢測算法的結(jié)構(gòu)圖 f i g 2 7 t h es t r u c t u r eo fv a da l g o r i t h m 2 2 3 動態(tài)二級m a d 檢測的性能分析 作為自動電平控制的前提條件,這部分性能的好壞直接影響到整個自動電平控制的 性能的好壞。要實現(xiàn)實時的調(diào)整信號電平的功能,就應該盡量減小v a d 檢測所帶來的時 延。該動態(tài)的二級檢測算法就是從減小計算量,抗變化噪聲環(huán)境的角度設計的。如圖2 8 所示,這是一段信噪比為9 2 d b 的語音信號,從圖中可以看出,該方法檢測具有較高的 分辨率,能檢測出語音信號間的間斷部分。但該方法對于語音信號末端的緩變部分會有 一些損失,在a l c 系統(tǒng)中影響不大。 大連理工大學碩士學位論文 做,雖然計算簡單,時延小,但也存在著風險。如果噪音能量很大,則很可能沒辦法準 確判斷出參數(shù)計算幀,所以也不適合。 第三,采用v a d 檢測,先判斷出語音幀,再根據(jù)語音幀之間的相關(guān)性,利用前一語 音幀算得的調(diào)整參數(shù)幀,調(diào)整當前幀。如果判斷出不是語音幀,則可使用上一次存儲的 參數(shù)調(diào)整。直到下一個有效的語音幀更新的參數(shù)。這個方法很容易使調(diào)整參數(shù)變化太快, 而使語音信號失真。 2 4 2r m 8 增益控制算法的實現(xiàn) a l c 系統(tǒng)必須具備以下技術(shù)特性: ( 1 ) 實時、自動地調(diào)整系統(tǒng)增益,控制話路中的信號以接近目標電平值傳輸。 ( 2 ) 可區(qū)分噪聲與有用信號,僅對有效語音信號進行電平控制。 本文實現(xiàn)的是基于r m s 功率比較的自動增益控制算法,在保證語音質(zhì)量的同時實現(xiàn) 自動電平控制,如圖2 1 所示。對經(jīng)v a d 檢測被判斷為語音信號的各幀作r m s 功率估計, 即 1 , 2 丘= 寺i 以( ,z ) l k = l 2 一 ( 2 1 2 ) 療= l 是每幀語音的樣點總數(shù),以( ,z ) 是信號樣點幅值,k 代表輸入的幀序號。式( 2 1 2 ) 計算 的單幀語音功率用于更新長時r m s 功率估計值s ( k ) s ( k ) = o t s ( k - 1 ) + ( 1 - a ) x :,s ( o ) = 0 ( 2 1 3 ) 功率平滑因子0 口 l ,口值越大,最近輸入的一幀語音能量對s ( 七) 影響越小,此時s ( 七) 變換趨于平緩,更利于反映較長時間內(nèi)的信號能量均值。但口取值非常接近l 時,s ( k ) 的 變化相當緩慢而無法體現(xiàn)語音的瞬時變化,反而造成控制處理失真。 為求得功率估計與目標電平的偏差,要先將功率值轉(zhuǎn)換到與目標電平相應的對數(shù) 域,即 d b s ( k ) = 1 0 l g s ( k ) ( 2 1 4 ) 利用目標電平與功率估計均值的偏差,可計算a g c 的增益因子 g ( 尼) = g ( k 1 ) + ( 卜) 1 0 卜冊) | ,2 0 ( 2 1 5 ) 其中,g ( k ) 是當前一幀語音的增益。目標電平t 以d b 為單位,丁與d b s ( k ) 兩者的差值 基于模塊化的語音信號預處理 以及增益平滑因
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 運載火箭綠色制造考核試卷
- 海底管道工程考核試卷
- 賽事期間的運動員反興奮劑教育與檢測考核試卷
- 紡織品生產(chǎn)流程優(yōu)化考試考核試卷
- 環(huán)境監(jiān)測儀器儀表的能效比評估考核試卷
- 纖維原料的質(zhì)量控制與產(chǎn)品安全考核試卷
- 網(wǎng)絡安全與入侵檢測系統(tǒng)考核試卷
- 輪胎耐久性測試與評估方法考核試卷
- 肉類加工廠的環(huán)境友好型生產(chǎn)實踐考核試卷
- 營養(yǎng)保健品市場品牌擴張考核試卷
- CG造型基礎(chǔ)與創(chuàng)作進階篇
- 紀昌學射的課件
- 泌尿外科良性前列腺增生“一病一品”
- 市場部經(jīng)理崗位職責
- 花木蘭短劇劇本英文版
- 教育部研究生、本科、高職學科分類及專業(yè)目錄
- Unit+2+Lesson+3+Getting+To+The+Top 高中英語北師大版(2019)選擇性必修第一冊
- 查勘定損溝通談判技巧
- 籃球賽計分表模板
- 如何預防性侵害(公開課)
- boschqbasics博世價值流課件
評論
0/150
提交評論