版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、v1月20號晚上七點-九點,四工A107v選擇題(2分,10題)v填空題(1分,15題)v文字解釋(4分,5題)v簡答題(9分,5題)沒有計算題。語音信號處理 洪弘2第一章1.語音信號處理的實質(zhì):是研究用數(shù)字信號處理技術(shù)對語音信號進行處理的一門學科。2.語音信號處理的目的:v通過處理得到一些反映語音信號重要特征的語音參數(shù),以便高效地傳輸或儲存語音信號所包含的信息。v通過對語音信號進行某種運算,以達到某種要求。33.語音信號數(shù)字表示的優(yōu)點v數(shù)字技術(shù)能完成許多很復雜的信號處理工作;v語音可以看成是音素的組合,具有離散的性質(zhì),特別適合于數(shù)字處理;v數(shù)字系統(tǒng)具有高可靠性、價廉、緊湊、快速等特點,很容易
2、完成實時處理任務;v數(shù)字語音適于在強干擾信道中傳輸,易于和數(shù)據(jù)一起在通信網(wǎng)中傳輸,也易于進行加密傳輸。第02章基礎(chǔ)知識4第2章 語音信號基礎(chǔ)知識v聲音是一種波,振動頻率在2020 000 Hz之間。 20HZ以下:次聲波 20 000HZ以上:超聲波第02章基礎(chǔ)知識51. 人類的語言器官v人體發(fā)音器官肺、氣管、喉(包括聲帶)和聲道v肺是語音產(chǎn)生的能源所在;v聲帶為產(chǎn)生語音提供主要的激勵源;v聲道是指聲門至嘴唇的所有器官:咽、鼻腔 、口腔等,它們具有非均勻截面,它們具有非均勻截面,且隨時間變化,起共鳴器(或諧振器)且隨時間變化,起共鳴器(或諧振器)的作用。的作用。1 1、人類的語言器官、人類的語
3、言器官第02章基礎(chǔ)知識62.語音產(chǎn)生過程肺聲帶聲道直流氣流聲音嘴唇聲壓波速度波能源激勵源諧振源輻射源交流氣流2 2、語音信號產(chǎn)生過程、語音信號產(chǎn)生過程語音的形成過程空氣由肺部排入喉部,經(jīng)過聲帶進入聲道,最后由嘴輻射出聲波,形成語音。第02章基礎(chǔ)知識72.語音產(chǎn)生過程濁音(Voiced sounds) :聲帶繃緊,氣流通過時會使得開口變成一開一閉的周期性動作,這時候就造成周期性的激發(fā)氣流,如a,o;清音(Unvoiced or Fricative sounds) :聲帶完全舒展,聲道某部位收縮形成一個狹窄的通道,產(chǎn)生空氣湍流,如t,d;爆破音:聲帶完全舒展,聲道的某部位完全閉合,一旦閉合點突然開
4、啟,空氣壓力快速釋放 ,如b,p。2 2、語音信號產(chǎn)生過程、語音信號產(chǎn)生過程第02章基礎(chǔ)知識8語音的兩個重要聲學特性:語音的兩個重要聲學特性:基音頻率,共振峰基音頻率,共振峰濁音的基音頻率基音頻率(F0):由聲帶的尺寸、特性和聲帶所受張力決定,其值等于聲帶張開和閉合一次的時間的倒數(shù)。聲帶張開和閉合一次的時間的倒數(shù)。人類基音頻率的范圍在80500 Hz左右。共振峰共振峰(Fn , n=1,2,.):聲道是一個諧振腔,它放大聲音氣流聲道是一個諧振腔,它放大聲音氣流的某些頻率分量而衰減其他頻率分量,被放大的頻率我們的某些頻率分量而衰減其他頻率分量,被放大的頻率我們稱之為共振峰或共振峰頻率。稱之為共振
5、峰或共振峰頻率。聲道具有的一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個峰的頻帶寬度 。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸,因而不同的語音對應于一組不同的共振峰參數(shù)。實際應用中,頭三個共振峰最重要,越多越精確。2 2、語音信號產(chǎn)生過程、語音信號產(chǎn)生過程第02章基礎(chǔ)知識9v共振峰是聲道的重要聲學特性。聲道對于一個激勵信號的響應,可以用一個含有多對極點的線性系統(tǒng)來近似描述。每對極點都對應一個共振峰頻率。這個線性系統(tǒng)的頻率響應特性稱為共振峰特性,它決定信號頻譜的總輪廓,或稱譜包絡(luò)。v語音的頻率特性主要是由共振峰決定的。而聲道的共振峰特性決定所發(fā)聲音的頻譜特性,即音色。 v
6、元音的音色和區(qū)別特征主要取決于聲道的共振峰特性。共振峰特性可以從語音信號頻譜分析得到的幅頻特性觀察到。 v在聲學語音學中通??紤]F1和F2,但在語音識別技術(shù)中至少要考慮三個共振峰,而在語音合成技術(shù)中考慮五個共振峰是最為現(xiàn)實的。v聲波的共振也稱為共鳴。聲道截面積隨縱向位置而改變的函數(shù),稱為聲道截面積函數(shù),它決定共振峰的特性。 第02章基礎(chǔ)知識103. 語音信號產(chǎn)生的數(shù)字模型下圖是一個完整的語音信號產(chǎn)生的數(shù)字模型:3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型第02章基礎(chǔ)知識11 由此模型框圖,我們可將語音信號看成準周期序列或隨機噪聲序列作為激勵的線性非移變系統(tǒng)的輸出,此模型可分為三個部分
7、:激勵模型、聲道模型、輻射模型激勵模型 根據(jù)發(fā)濁音和發(fā)清音的機理又分為:(a)濁音激勵 (b)清音激勵3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型第02章基礎(chǔ)知識12(a)濁音激勵 由前面所講發(fā)音過程可知,發(fā)濁音時聲帶不斷地張開和閉合將產(chǎn)生間歇的準周期性脈沖波,其周期為基音周期,單個脈沖的波形類似于斜三角波,故數(shù)字模型中可用周期為T0單位取樣序列串作為聲門脈沖模型g(n)的輸入,其輸出就是濁音激勵。 由于人類語音的頻率范圍主要集中在300Hz3400Hz,數(shù)字模型中的信號取樣率一般為8KHz。3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型(1)激勵模型 第02章基礎(chǔ)知識13
8、由圖可見,它是一個低通濾波器低通濾波器。頻率分析表明,其幅度譜按12 dB/倍頻程的速率衰減。如果將其表示為Z變換的全極模型全極模型的形式,有G(z)1/ (1-g1z-1)(1-g2z-1) 如果g1和g2的值都接近于1,則由此形成的激勵信號頻譜很接近于聲門脈沖的頻譜。顯然,上式表明斜三角波可描述為一個二階極點的模型斜三角波可描述為一個二階極點的模型。需要指出,不同人、不同語音,其聲門脈沖的形狀不一定相同,但在語音合成中對其形狀要求不很苛刻,只要其傅里葉變換有近似的特性就可以了。 第02章基礎(chǔ)知識14 周期性的斜三角波脈沖可看做加權(quán)的單位脈沖串激勵上述單個斜三角脈沖的結(jié)果。而周期沖激序列及幅
9、值因子可表示成下面的Z變換形式 E(z)AV/(1-z-1) (2-5)所以整個激勵模型可表示為U(z)G(z)E(z)AV/(1-z-1) 1/ (1-g1z-1)(1-g2z-1) (2-6)3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型 第02章基礎(chǔ)知識15(b)清音激勵發(fā)清音時聲道被阻礙形成湍流,所以可把清音激勵模擬成隨機白噪聲。此處用均值為0方差為1并在幅值上為平穩(wěn)分布的序列,具體實現(xiàn)時可采用隨機噪聲發(fā)生器來產(chǎn)生此序列。3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型 第02章基礎(chǔ)知識16聲道模型兩種建模方法:聲管模型,共振峰模型共振峰模型將聲道視為一個諧振腔,按此原則
10、導出。 基于各種音素發(fā)音的不同諧振特點可建立起三種實用的共振峰模型:(a)級聯(lián)型 (b)并聯(lián)型 (c)混合型3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型(2) 聲道模型 第02章基礎(chǔ)知識17(a)級聯(lián)型:適用于一般單元音,認為聲道是一組串聯(lián)的二階諧振器:PkkkzaGzV11)(這是一個全極點模型,極點就是這個多項式的根:011Pkkkza若P為偶數(shù),解其根會得到共扼復數(shù)(conjugate complex)的根,表示成:2/11*1)1)(1 (Piiizpzp3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型(2) 聲道模型 第02章基礎(chǔ)知識182/1112/111)()(P
11、iiiPiizczbGzVGzVTFjTiiieep2*F=1/T - 取樣頻率 i/ - 共振峰的頻寬。Fi是 - 共振峰(formant)的中心頻率TFjTiiieep2這樣分解則每一個二階因式均對應一個共振峰,其幅頻特性是典型的二階諧振特性,諧振中心頻率值等于共振峰。若把語音的各個共振峰所對應的二階系統(tǒng)級聯(lián)起來就形成了一個完整的級聯(lián)型聲道模型,且具有明顯的諧振特性。3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型 第02章基礎(chǔ)知識19(b)并聯(lián)型適用于鼻音、復合元音及大部分輔音,發(fā)這些音時發(fā)音腔體具有反諧振特性,必須在模型中加入零點以減弱諧振強度,故要考慮用零、極點模型:2/121
12、2/11)()(PiiiiPiizCzBAzVzVPkkkRrrrzazbzV101)(通常PR,假設(shè)分子與分母無公因子且分母無重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個二階因式對應一個共振峰。每個二階諧振器的幅度可單獨控制。3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型第02章基礎(chǔ)知識20 前面兩種共振峰模型各自都只能適用于部分語音,級聯(lián)或并聯(lián)的級數(shù)取決于聲道的長度,一般成人取3到5級。級聯(lián)型結(jié)構(gòu)較為簡單,并聯(lián)型各諧振器幅度可獨立控制,綜合考慮兩者的優(yōu)缺點可將兩種共振峰模型有機地結(jié)合起來就得到一種較為完備的共振峰模型。3 3、語音信號產(chǎn)生的數(shù)字模型、語
13、音信號產(chǎn)生的數(shù)字模型(2) 聲道模型 第02章基礎(chǔ)知識21(c)混合型 我們可以根據(jù)發(fā)音的需要自動切換串聯(lián)或并聯(lián)通路,此外并聯(lián)部分還有一條直通路徑,其幅度控制因子為AB,這是專為一些頻譜特性較為平坦的音素如f、p、b而考慮的,以增強反諧振特性。3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型(2) 聲道模型 第02章基礎(chǔ)知識22在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出來,到達聽者耳朵的這段過程,聲音信號會衰減,而且有高通濾波的特性,我們常用一個一階的數(shù)字高通濾波器擬這個現(xiàn)象,這個濾波器又叫做輻射模型(radiation model)3 3、語音信號產(chǎn)生的數(shù)字模型、語音信號產(chǎn)生的數(shù)字模型(3
14、) 輻射模型 第02章基礎(chǔ)知識234. 語音信號的特性4 4、語音信號的特性、語音信號的特性圖3-1 人的說話過程分為五個階段第02章基礎(chǔ)知識244.2 語音的聲學特性1. 物理屬性音色、音調(diào)、音強和音長;音色:也叫音質(zhì),是一種聲音區(qū)別于另一種聲音的基本特征,是由聲道的位置和形狀決定。音調(diào):聲音的高低,決定于聲波的頻率的高低,而聲波頻率的高低又由語音的基音頻率F0所決定。F0高則音調(diào)高,低則音調(diào)低。一般說來,老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強:聲音的強弱,由聲波的振幅所決定。音長:聲音的長短,取決于發(fā)音時間的長短。4 4、語音信號的特性、語音信號的特性第02章基礎(chǔ)知識254.2 語
15、音的聲學特性2. 語音的構(gòu)成音節(jié)(syllable) 、音素音素(phoneme):語音發(fā)音的最小單位。我國傳統(tǒng)分類元音(韻母):是當聲帶振動發(fā)出的聲音氣流在聲道中不受阻礙,這種情況下產(chǎn)生的語音稱為元音。元音屬于濁音。輔音(聲母):從聲門呼出的聲音氣流,在聲道通路中某一部分封閉起來或受到阻礙不能暢通,為克服發(fā)音器官的這種阻礙而產(chǎn)生的語音稱為輔音。4 4、語音信號的特性、語音信號的特性第02章基礎(chǔ)知識264.2 語音的聲學特性 漢語語音的特點聲、韻、調(diào),音節(jié)在漢語中占有主要地位,它是由聲母、韻母和聲調(diào)聲母、韻母和聲調(diào)按一定的方式構(gòu)成的,是語言的最小使用單位;音節(jié)結(jié)構(gòu)簡單,與其它語言相比漢語語音音
16、節(jié)和音素都很少。4 4、語音信號的特性、語音信號的特性第02章基礎(chǔ)知識274.3語音的時間波形和頻譜特性窄頻帶的語譜圖(narrowband spectrograms) 寬窗寬窗語譜圖的產(chǎn)生是用傅里葉轉(zhuǎn)換(Fourier transform),當我們用較長的分析窗口(analysis windows),約20ms,對應頻寬約為45 Hz,得到的頻率分辨率較高,頻譜上可以看到諧振的成分。在語譜圖上呈現(xiàn)等距的黑白相間橫線條,其間距就是基頻(F0) 。4 4、語音信號的特性、語音信號的特性第02章基礎(chǔ)知識284.3語音的時間波形和頻譜特性寬頻帶的語譜圖(wideband spectrograms)
17、窄窗窄窗 若是在轉(zhuǎn)換演算時用較少的取樣點,分析窗口大約3ms ,對應頻寬約300 Hz,則頻譜上看不到諧振成分,在語譜圖上看不到等距的黑白相間。頻率分辨率較低,反而是時軸上的分辨率較高,看到明顯的垂直線條。4 4、語音信號的特性、語音信號的特性第02章基礎(chǔ)知識29語音通信Speech Communication5 5、語音感知、語音感知第02章基礎(chǔ)知識305. 人類的聽覺功能人類在分辨聲音時,是取決于頻域上的分辨率,聽覺器官等于是將時域的聲音波形轉(zhuǎn)換成在頻域的頻譜,能否聽到聲音或分辨聲音,是取決于音強(intensity)與頻譜(spectrum)。人耳對于1 kHz到5 kHz的聲音最為敏感
18、,但是對于1 kHz以下與5 kHz以上的聲音,就要較大的音強才聽得到。5 5、語音感知、語音感知第02章基礎(chǔ)知識315. 人類的聽覺功能掩蔽效應(masking effect) 當某一頻率的聲音,有一特定音強存在時,另一個不同頻率的聲音要將音強提高才會被聽到,這就是聽覺掩蔽效應。分類 頻率掩蔽:同時存在的聲音,常常是低頻的聲音傾向于掩蔽掉高頻的聲音,這是一種頻率掩蔽的現(xiàn)象。 時間掩蔽: 某一段時間存在一個聲音,在此聲音剛結(jié)束的一小段時間內(nèi),其它的聲音會聽不見這種掩蔽現(xiàn)象叫做時間掩蔽。 這個現(xiàn)象也會發(fā)生在此存在聲音之前,這是由于聲音在聽覺器官中傳遞時延遲所造成的。5 5、語音感知、語音感知第0
19、2章基礎(chǔ)知識32響度與響度級響度響度(Loudness,L)是一種主觀心理量,人類主觀感覺到的聲音強弱程是一種主觀心理量,人類主觀感覺到的聲音強弱程度度響度級是表示響度的主觀量,它是以 1000 Hz的純音作為基準,其噪聲聽起來與該純音一樣響時,就把這個純音的聲壓級稱為該噪聲的響度級,單位為方( phon )。例如一個噪聲與聲壓級是 85 分貝的 1000 赫茲純音一樣響,則該噪聲的響度級就是 85 方。響度級是一個相對量,不能直接進行加減運算,為了計算絕對值和百分比,引入一個響度單位宋( Sone )。 1 宋是頻率為 1000 赫茲、聲壓級為 40 分貝的純音的感覺反應量,即: 40 方為
20、 1 宋。響度級每增加 10 方,響度相應改變 1 倍, 50 方為 2 宋, 60 方為 4 宋,等等。5 5、語音感知、語音感知貫穿于語音分析全過程的是貫穿于語音分析全過程的是“短時分析技術(shù)短時分析技術(shù)” 語音信號從整體來看其特征及表征其本質(zhì)特語音信號從整體來看其特征及表征其本質(zhì)特征的參數(shù)均是隨時間而變化的,所以它是一個征的參數(shù)均是隨時間而變化的,所以它是一個非平非平衡態(tài)過程衡態(tài)過程,不能用處理平衡信號的數(shù)字信號處理技,不能用處理平衡信號的數(shù)字信號處理技術(shù)對其進行分析處理。術(shù)對其進行分析處理。 但是在一個短時間范圍內(nèi)(一般認為在但是在一個短時間范圍內(nèi)(一般認為在10-10-30ms30ms
21、的短時間內(nèi)),其特性基本保持不變即相對穩(wěn)的短時間內(nèi)),其特性基本保持不變即相對穩(wěn)定,因而可以將其看作是一個準穩(wěn)態(tài)過程,即語音定,因而可以將其看作是一個準穩(wěn)態(tài)過程,即語音信號具有信號具有短時平穩(wěn)性短時平穩(wěn)性。3.2 3.2 語音信號的數(shù)字化和預處理語音信號的數(shù)字化和預處理 v語音信號的語音信號的數(shù)字化數(shù)字化一般包括放大及增益控制、反混疊濾波、采樣、一般包括放大及增益控制、反混疊濾波、采樣、A/DA/D變換及編碼(一般就是變換及編碼(一般就是PCMPCM碼);碼); 預處理一般包括預加重,加窗和分幀預處理一般包括預加重,加窗和分幀帶 通 濾波器自動增益控制(AGC)模 / 數(shù) 轉(zhuǎn) 換(A/D)脈沖
22、編碼調(diào)制(PCM)語音信號存入計算機 預濾波的目的有兩個:預濾波的目的有兩個: 抑制輸入信號各頻域分量中頻率超出抑制輸入信號各頻域分量中頻率超出fs/2fs/2的所有分量(的所有分量(fsfs)為采樣頻率,)為采樣頻率,以防止混疊干擾。以防止混疊干擾。 抑制抑制50Hz50Hz的電源工頻干擾。的電源工頻干擾。v量化后的信號值與原信號值之間的差值稱為量化后的信號值與原信號值之間的差值稱為量化誤差量化誤差,又稱為,又稱為量化噪聲量化噪聲。v量化噪聲符合具有下列特征的統(tǒng)計模型:量化噪聲符合具有下列特征的統(tǒng)計模型: 它是平穩(wěn)的白噪聲過程它是平穩(wěn)的白噪聲過程 量化噪聲與輸入信號不相關(guān)量化噪聲與輸入信號不
23、相關(guān) 量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布矩形窗與漢明窗的比較矩形窗與漢明窗的比較窗類型旁瓣峰值主瓣寬度最小阻帶衰減矩形窗-134/N-21漢明窗-418/N-53從表從表3-1中我們可以看出,漢明窗的主瓣寬度比矩形窗大一中我們可以看出,漢明窗的主瓣寬度比矩形窗大一倍,即帶寬約增加一倍,同時其帶外衰減也比矩形窗大一倍,即帶寬約增加一倍,同時其帶外衰減也比矩形窗大一倍多。矩形窗的譜平滑性能較好,但損失了高頻成分,使倍多。矩形窗的譜平滑性能較好,但損失了高頻成分,使波形細節(jié)丟失;而漢明窗則相反,從這一方面來看,漢明波形細節(jié)丟失;而漢明
24、窗則相反,從這一方面來看,漢明窗比矩形窗更為合適。因此,對語音信號的短時分析來說,窗比矩形窗更為合適。因此,對語音信號的短時分析來說,窗口的形狀是至關(guān)重要的。例如,選用不同的窗口將使時窗口的形狀是至關(guān)重要的。例如,選用不同的窗口將使時域分析參數(shù)的短時平均能量的平均結(jié)果不同。域分析參數(shù)的短時平均能量的平均結(jié)果不同。3.3 3.3 語音信號的時域分析語音信號的時域分析v時域分析分為:時域分析分為:1.1.短時能量及短時平均幅度分析短時能量及短時平均幅度分析2.2.短時過零率分析短時過零率分析3.3.短時相關(guān)分析短時相關(guān)分析注意基本原理和思想,如何區(qū)分。注意基本原理和思想,如何區(qū)分。 短時能量及短時
25、平均幅度分析短時能量及短時平均幅度分析v 如圖如圖3-23-2所示,設(shè)語音波形時域信號為所示,設(shè)語音波形時域信號為x(t)x(t)、加窗分幀處理、加窗分幀處理后得到的第后得到的第n n幀語音信號為幀語音信號為x xn n(m),(m),則則x xn n(m)(m)滿足下式:滿足下式:x xn n(m)=(m)x(n+m)(m)=(m)x(n+m)v其中,其中,n=0,1T,2T,n=0,1T,2T,并且并且N N為幀長,為幀長,T T為幀移長度。為幀移長度。v設(shè)第設(shè)第n n幀語音信號幀語音信號x xn n(m)(m)的的短時能量短時能量用用E En n表示,則其計算公式表示,則其計算公式如下:
26、如下:其它值mNmm, 0) 1(0, 1)(102)(NmnnmxE 短時能量及短時平均幅度分析短時能量及短時平均幅度分析 短時能量及短時平均幅度分析短時能量及短時平均幅度分析vE En n是一個度量語音信號幅度值變化的函數(shù),但它有一個缺陷,是一個度量語音信號幅度值變化的函數(shù),但它有一個缺陷,即它對高電平非常敏感(因為它計算時用的是信號的平方即它對高電平非常敏感(因為它計算時用的是信號的平方) )。為此,可采用另一個度量語音信號幅度值變化的函數(shù),即為此,可采用另一個度量語音信號幅度值變化的函數(shù),即短短時平均幅度函數(shù)時平均幅度函數(shù)M Mn n,它定義為:,它定義為:vM Mn n也是一幀語音信
27、號能量大小的表征,它與也是一幀語音信號能量大小的表征,它與E En n的區(qū)別在于計的區(qū)別在于計算時小取樣值和大取樣值不會因取平方而造成較大差異,在算時小取樣值和大取樣值不會因取平方而造成較大差異,在某些應用領(lǐng)域中會帶來一些好處。某些應用領(lǐng)域中會帶來一些好處。10)(NmnnmxM 短時過零率分析短時過零率分析v短時過零率表示一幀語音中語音信號波形穿過橫軸短時過零率表示一幀語音中語音信號波形穿過橫軸( (零電平零電平) )的次數(shù)。過零分析是語音時域分析中最簡單的一種。對于連的次數(shù)。過零分析是語音時域分析中最簡單的一種。對于連續(xù)語音信號,過零即意味著時域波形通過時間軸;而對于離續(xù)語音信號,過零即意
28、味著時域波形通過時間軸;而對于離散信號,如果相鄰的取樣值改變符號則稱為過零。過零率就散信號,如果相鄰的取樣值改變符號則稱為過零。過零率就是樣本改變符號的次數(shù)。是樣本改變符號的次數(shù)。v定義語音信號定義語音信號x xn n(m)(m)的的短時過零率短時過零率Z Zn n為:為:v式中,式中,sgnsgn是符號函數(shù),即是符號函數(shù),即10)1(sgn)(sgn21NmnnnmxmxZ) 0(, 1) 0(, 1sgnxxx 短時過零率分析短時過零率分析v利用短時平均過零率還可以從背景噪聲中找出語音信號,可利用短時平均過零率還可以從背景噪聲中找出語音信號,可用于判斷寂靜無聲段和有聲段的起點和終點位置。在
29、孤立詞用于判斷寂靜無聲段和有聲段的起點和終點位置。在孤立詞的語音識別中,必須要在一連串連續(xù)的語音信號中進行適當?shù)恼Z音識別中,必須要在一連串連續(xù)的語音信號中進行適當分割,用以確定一個一個單詞的語音信號,即找出每一個單分割,用以確定一個一個單詞的語音信號,即找出每一個單詞的開始和終止位置,這在語音處理中是一個基本問題。此詞的開始和終止位置,這在語音處理中是一個基本問題。此時,在背景噪聲較小時用平均能量識別較為有效,而在背景時,在背景噪聲較小時用平均能量識別較為有效,而在背景噪聲較大時用平均過零率識別較為有效。但是研究表明,在噪聲較大時用平均過零率識別較為有效。但是研究表明,在以某些音為開始或結(jié)尾時
30、,如當弱摩擦音(如以某些音為開始或結(jié)尾時,如當弱摩擦音(如ff、hh等音等音素素) )、弱爆破音、弱爆破音( (如如pp、tt、kk等音素等音素) )為語音的開頭或結(jié)為語音的開頭或結(jié)尾;以鼻音尾;以鼻音( (如如ngng、nn、mm等音素等音素) )為語音的結(jié)尾時,只為語音的結(jié)尾時,只用其中一個參量來判別語音的起點和終點是有困難的,必須用其中一個參量來判別語音的起點和終點是有困難的,必須同時使用這兩個參數(shù)。同時使用這兩個參數(shù)。 短時相關(guān)分析短時相關(guān)分析v相關(guān)分析是一種常用的時域波形分析方法,并有自相關(guān)和互相關(guān)分析是一種常用的時域波形分析方法,并有自相關(guān)和互相關(guān)之分。這里主要討論自相關(guān)函數(shù)。相關(guān)
31、之分。這里主要討論自相關(guān)函數(shù)。自相關(guān)函數(shù)自相關(guān)函數(shù)具有一些具有一些性質(zhì),如它是偶函數(shù);假設(shè)序列具有周期性,則其自相關(guān)函性質(zhì),如它是偶函數(shù);假設(shè)序列具有周期性,則其自相關(guān)函數(shù)也是同周期的周期函數(shù)等。我們可以把自相關(guān)函數(shù)的這些數(shù)也是同周期的周期函數(shù)等。我們可以把自相關(guān)函數(shù)的這些性質(zhì)應用于語音信號的時域分析中。例如,對濁音語音可以性質(zhì)應用于語音信號的時域分析中。例如,對濁音語音可以用自相關(guān)函數(shù)求出語音波形序列的基音周期。此外,在進行用自相關(guān)函數(shù)求出語音波形序列的基音周期。此外,在進行語信號的線性預測分析時,也要用到自相關(guān)函數(shù)。和其他語語信號的線性預測分析時,也要用到自相關(guān)函數(shù)。和其他語音參數(shù)一樣,在
32、語音信號分析中,我們分析的是音參數(shù)一樣,在語音信號分析中,我們分析的是短時自相關(guān)短時自相關(guān)函數(shù)函數(shù)。 1 1短時自相關(guān)函數(shù)短時自相關(guān)函數(shù)v定義語音信號定義語音信號x xn n(m)(m)的的短時自相關(guān)函數(shù)短時自相關(guān)函數(shù)R Rn n(k)(k)的計算式如下:的計算式如下:v這里這里K K是最大的延遲點數(shù)。是最大的延遲點數(shù)。v短時自相關(guān)函數(shù)具有以下短時自相關(guān)函數(shù)具有以下性質(zhì)性質(zhì):v(1)(1)如果如果x xn n(m)(m)是周期的是周期的( (設(shè)周期為設(shè)周期為N)N),則自相關(guān)函數(shù)是同周,則自相關(guān)函數(shù)是同周期的周期函數(shù),即期的周期函數(shù),即R Rn n(k)=R(k)=Rn n(k+N(k+Np
33、p) )。v(2)R(2)Rn n(k)(k)是偶函數(shù),即是偶函數(shù),即R Rn n(k)=R(k)=Rn n(-k)(-k)。v(3)(3)當當k=0k=0時,自相關(guān)函數(shù)具有最大值,即時,自相關(guān)函數(shù)具有最大值,即R Rn n(0)|R(0)|Rn n(k)|(k)|,并且并且R Rn n(0)(0)等于確定性信號序列的能量或隨機性序列的平均等于確定性信號序列的能量或隨機性序列的平均功率。功率。KkkmxmxkRkNmnnn0 , )()()(10 2.2.修正的短時自相關(guān)函數(shù)修正的短時自相關(guān)函數(shù)v修正的短時自相關(guān)函數(shù)是用兩個長度不同的窗口,截取兩個修正的短時自相關(guān)函數(shù)是用兩個長度不同的窗口,截
34、取兩個不等長的序列進行乘積和,兩個窗口的長度相差最大的延遲不等長的序列進行乘積和,兩個窗口的長度相差最大的延遲點數(shù)點數(shù)K K。這樣就能始終保持乘積和的項數(shù)不變,即始終為短。這樣就能始終保持乘積和的項數(shù)不變,即始終為短窗的長度。窗的長度。修正的短時自相關(guān)函數(shù)修正的短時自相關(guān)函數(shù)定義為:定義為: 其中,其中,KkkmxmxkRNmnnn0 , )()()(10其它值mNmm, 0) 1(0, 1)()0(),()()(Kkmnxmmxn)10(),()( )(KNkmnxmmxn其它值mKNmm, 0)1(0, 1)( 2 2修正的短時自相關(guān)函數(shù)修正的短時自相關(guān)函數(shù) 短時平均幅度差函數(shù)短時平均幅度
35、差函數(shù)v短時自相關(guān)函數(shù)短時自相關(guān)函數(shù)是語音信號時域分析的重要參量。但是,計是語音信號時域分析的重要參量。但是,計算自相關(guān)函數(shù)的運算量很大,其原因是乘法運算所需要的時算自相關(guān)函數(shù)的運算量很大,其原因是乘法運算所需要的時間較長。利用快速傅里葉變換間較長。利用快速傅里葉變換(FFT)(FFT)等簡化計算方法都無法等簡化計算方法都無法避免乘法運算。為了避免乘法,一個簡單的方法就是利用差避免乘法運算。為了避免乘法,一個簡單的方法就是利用差值。為此常常采用另一種與自相關(guān)函數(shù)有類似作用的參量,值。為此常常采用另一種與自相關(guān)函數(shù)有類似作用的參量,即即短時平均幅度差函數(shù)短時平均幅度差函數(shù)(AMDF)(AMDF)
36、。v平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進行語音分析,是基于平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進行語音分析,是基于這樣一個事實:如果信號是完全的周期信號這樣一個事實:如果信號是完全的周期信號( (設(shè)周期為設(shè)周期為N Np p) ),則相距為周期的整數(shù)倍的樣點上的幅值是相等的,差值為零。則相距為周期的整數(shù)倍的樣點上的幅值是相等的,差值為零。 短時平均幅度差函數(shù)短時平均幅度差函數(shù)v即:即:v對于實際的語音信號,對于實際的語音信號,d(n)d(n)雖不為零,但其值很小。這些極雖不為零,但其值很小。這些極小值將出現(xiàn)在整數(shù)倍周期的位置上。為此,可定義小值將出現(xiàn)在整數(shù)倍周期的位置上。為此,可定義短時平均短時平均
37、幅度差函數(shù)幅度差函數(shù):v可以證明平均幅度差函數(shù)和自相關(guān)函數(shù)有密切的關(guān)系,兩者可以證明平均幅度差函數(shù)和自相關(guān)函數(shù)有密切的關(guān)系,兩者之間的關(guān)系可由下式表達:之間的關(guān)系可由下式表達:,.)2, 0( , 0)()()(ppNNkknxnxndkNmnnnkmxmxkF10)()()(2/1)()0()(2)(kRRkkFnnn 短時平均幅度差函數(shù)短時平均幅度差函數(shù)3.4 3.4 語音信號的頻域分析語音信號的頻域分析v語音信號的頻域分析包括語音信號的頻譜、功率譜、倒頻譜、語音信號的頻域分析包括語音信號的頻譜、功率譜、倒頻譜、頻譜包絡(luò)分析等,而常用的頻域分析方法有帶通濾波器組法、頻譜包絡(luò)分析等,而常用的
38、頻域分析方法有帶通濾波器組法、傅里葉變換法、線性預測法等幾種。傅里葉變換法、線性預測法等幾種。v因為語音波是一個非平穩(wěn)過程,因此適用于周期、瞬變或平因為語音波是一個非平穩(wěn)過程,因此適用于周期、瞬變或平穩(wěn)隨機信號的標準傅里葉變換不能用來直接表示語音信號,穩(wěn)隨機信號的標準傅里葉變換不能用來直接表示語音信號,而應該用短時傅里葉變換對語音信號的頻譜進行分析,相應而應該用短時傅里葉變換對語音信號的頻譜進行分析,相應的頻譜稱為的頻譜稱為“短時譜短時譜”。3.5 3.5 語音信號的倒譜分析語音信號的倒譜分析v語音信號的倒譜分析就是求取語音倒譜特征參數(shù)的過程,它語音信號的倒譜分析就是求取語音倒譜特征參數(shù)的過程
39、,它可以通過同態(tài)處理來實現(xiàn)。同態(tài)信號處理也稱為同態(tài)濾波,可以通過同態(tài)處理來實現(xiàn)。同態(tài)信號處理也稱為同態(tài)濾波,它實現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理,即解卷。它實現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理,即解卷。對語音信號進行解卷,可將語音信號的聲門激勵信息及聲道對語音信號進行解卷,可將語音信號的聲門激勵信息及聲道響應信息分離開來,從而求得聲道共振特征和基音周期,用響應信息分離開來,從而求得聲道共振特征和基音周期,用于語音編碼、合成、識別等。于語音編碼、合成、識別等。v對語音信號進行解卷,求取倒譜特征參數(shù)的方法有兩種,一對語音信號進行解卷,求取倒譜特征參數(shù)的方法有兩種,一種是線性預測分析,一種
40、是同態(tài)分析處理。種是線性預測分析,一種是同態(tài)分析處理。 語音信號倒譜分析實例語音信號倒譜分析實例2 2MELMEL頻率倒譜參數(shù)(頻率倒譜參數(shù)(MFCCMFCC)v與普通實際頻率倒譜分析不同,與普通實際頻率倒譜分析不同,MFCCMFCC(Mel-Frequency Mel-Frequency Cepstral CoefficentsCepstral Coefficents,簡稱,簡稱MFCCMFCC)的分析著眼于人耳的聽)的分析著眼于人耳的聽覺特性,因為,人耳所聽到的聲音的高低與聲音的頻率并不覺特性,因為,人耳所聽到的聲音的高低與聲音的頻率并不成線性正比關(guān)系,而用成線性正比關(guān)系,而用MelMel
41、頻率尺度則更符合人耳的聽覺特頻率尺度則更符合人耳的聽覺特性。所謂性。所謂MelMel頻率尺度,它的值大體上對應于實際頻率的對頻率尺度,它的值大體上對應于實際頻率的對數(shù)分布關(guān)系。數(shù)分布關(guān)系。MelMel頻率與實際頻率的具體關(guān)系可用式(頻率與實際頻率的具體關(guān)系可用式(3-893-89)表示:表示:v這里,實際頻率的單位是這里,實際頻率的單位是HzHz。)700/1lg(2595)(ffMel 語音信號倒譜分析實例語音信號倒譜分析實例3.6 3.6 語音信號的線性預測分析語音信號的線性預測分析v線性預測分析線性預測分析的基本思想是:由于語音樣點之間存的基本思想是:由于語音樣點之間存在相關(guān)性,所以可以
42、用過去的樣點值來預測現(xiàn)在或在相關(guān)性,所以可以用過去的樣點值來預測現(xiàn)在或未來的樣點值,即一個語音的抽樣能夠用過去若干未來的樣點值,即一個語音的抽樣能夠用過去若干個語音抽樣或它們的線性組合來逼近。通過使實際個語音抽樣或它們的線性組合來逼近。通過使實際語音抽樣和線性預測抽樣之間的誤差在某個準則下語音抽樣和線性預測抽樣之間的誤差在某個準則下達到最小值來決定唯一的一組預測系數(shù)。而這組預達到最小值來決定唯一的一組預測系數(shù)。而這組預測系數(shù)就反映了語音信號的特性,可以作為語音信測系數(shù)就反映了語音信號的特性,可以作為語音信號特征參數(shù)用于語音識別、語音合成等。號特征參數(shù)用于語音識別、語音合成等。3.7 3.7 基
43、音周期估計基音周期估計v基音檢測算法,如基音檢測算法,如自相關(guān)函數(shù)自相關(guān)函數(shù)(ACF)(ACF)法、峰值法、峰值提取算法提取算法(PPA)(PPA)、平均度差函數(shù)、平均度差函數(shù)(AMDF)(AMDF)法、并法、并行處理技術(shù)、倒譜法、行處理技術(shù)、倒譜法、SIFTSIFT、譜圖法、小波、譜圖法、小波法法等等。等等。3.8 3.8 共振峰估計共振峰估計v方法:方法: 帶通濾波器組法帶通濾波器組法 倒譜法倒譜法量化分為兩類:量化分為兩類: * * 標量量化標量量化:將取樣后的信號值逐個地:將取樣后的信號值逐個地進行量化。進行量化。 * * 矢量量化矢量量化:將若干取樣信號分成一組,:將若干取樣信號分成
44、一組,即構(gòu)成一個矢量,然后對此矢量一次進行即構(gòu)成一個矢量,然后對此矢量一次進行量化。量化。采用矢量量化的效果優(yōu)于標量量化的原因?采用矢量量化的效果優(yōu)于標量量化的原因? 矢量量化能有效的應用矢量中各分量矢量量化能有效的應用矢量中各分量之間的四種相互關(guān)聯(lián)性質(zhì)來消除數(shù)據(jù)中的之間的四種相互關(guān)聯(lián)性質(zhì)來消除數(shù)據(jù)中的冗余度。這四種相互關(guān)聯(lián)的性質(zhì)是線性依冗余度。這四種相互關(guān)聯(lián)的性質(zhì)是線性依賴賴( (相關(guān)性相關(guān)性) )、非線性依賴、非線性依賴( (統(tǒng)計不獨立統(tǒng)計不獨立) )、概率密度函數(shù)的形狀和矢量量化的維數(shù),概率密度函數(shù)的形狀和矢量量化的維數(shù),而標量量化僅能利用線性依賴和概率密度而標量量化僅能利用線性依賴和概
45、率密度函數(shù)的形狀來消除冗余度。函數(shù)的形狀來消除冗余度。矢量量化研究的目的?矢量量化研究的目的? 針對特定的信息源和矢量維數(shù),設(shè)計針對特定的信息源和矢量維數(shù),設(shè)計出一種最優(yōu)化的量化器,在出一種最優(yōu)化的量化器,在R(量化速(量化速率)一定的情況下,給出的量化失真盡率)一定的情況下,給出的量化失真盡可能接近可能接近D(R)(最小量化失真最小量化失真)。圖圖7-2 7-2 矢量量化系統(tǒng)的組成矢量量化系統(tǒng)的組成 工作過程工作過程:v在編碼端在編碼端,輸入矢量,輸入矢量X Xi i與碼書中的每一個碼字進行與碼書中的每一個碼字進行比較,分別計算出它們的失真。搜索到失真最小的比較,分別計算出它們的失真。搜索到
46、失真最小的碼字碼字 的序號的序號 (或該碼字所在碼書中的地(或該碼字所在碼書中的地址),這些序號就作為傳輸或存儲的參數(shù)。址),這些序號就作為傳輸或存儲的參數(shù)。v在恢復時在恢復時,根據(jù)此序號從恢復端的碼書中找出相應,根據(jù)此序號從恢復端的碼書中找出相應的碼字的碼字 。由于兩本碼書完全相同,此時失真。由于兩本碼書完全相同,此時失真最小,所以最小,所以 就是輸入矢量就是輸入矢量X Xi i的重構(gòu)矢量。的重構(gòu)矢量。 minjYjminjYminjY 失真測度(距離測度):是將輸入矢量失真測度(距離測度):是將輸入矢量Xi用碼本重構(gòu)矢量用碼本重構(gòu)矢量Yi來表征時所產(chǎn)來表征時所產(chǎn)生的誤差或失真的度量方法,它
47、可以描述兩個或多個模型矢量間的相似生的誤差或失真的度量方法,它可以描述兩個或多個模型矢量間的相似程度程度矢量量化特點:矢量量化特點:傳輸存儲的不是矢量本身而是其序號,所以傳輸存儲的不是矢量本身而是其序號,所以據(jù)有高保密性能據(jù)有高保密性能收發(fā)兩端沒有反饋回路,因此比較穩(wěn)定收發(fā)兩端沒有反饋回路,因此比較穩(wěn)定矢量量化器的關(guān)鍵是編碼器的設(shè)計,譯碼器矢量量化器的關(guān)鍵是編碼器的設(shè)計,譯碼器只是簡單的的查表過程。只是簡單的的查表過程。失真度選擇必須具備的特性失真度選擇必須具備的特性v必須在主觀評價上有意義,即小的失真應該對應于必須在主觀評價上有意義,即小的失真應該對應于好的主觀語音質(zhì)量;好的主觀語音質(zhì)量;v
48、必須是易于處理的,即在數(shù)學上易于實現(xiàn),這樣可必須是易于處理的,即在數(shù)學上易于實現(xiàn),這樣可以用于實際的矢量量化器的設(shè)計;以用于實際的矢量量化器的設(shè)計;v平均失真存在并且可以計算;平均失真存在并且可以計算;v易于硬件實現(xiàn)易于硬件實現(xiàn) 失真測度主要有均方誤差失真測度(即歐氏距失真測度主要有均方誤差失真測度(即歐氏距離)、加權(quán)的均方誤差失真測度、板倉齋藤離)、加權(quán)的均方誤差失真測度、板倉齋藤(ItakuraItakuraSaitoSaito)距離,似然比失真測度等,還)距離,似然比失真測度等,還有人提出的所謂的有人提出的所謂的“主觀的主觀的”失真測度。失真測度。4.5 4.5 降低復雜度的矢量量化系統(tǒng)
49、降低復雜度的矢量量化系統(tǒng) 矢量量化系統(tǒng)主要由編碼器和譯碼器組成矢量量化系統(tǒng)主要由編碼器和譯碼器組成:編碼器主要由碼書搜索算法和碼書構(gòu)成,編碼器主要由碼書搜索算法和碼書構(gòu)成,譯碼器由查表方法和碼書構(gòu)成。譯碼器由查表方法和碼書構(gòu)成。 矢量量化器的研究主要圍繞降低速率、減少失真和矢量量化器的研究主要圍繞降低速率、減少失真和降低復雜度展開。降低復雜度展開。 降低復雜度的設(shè)計方法大致分為兩類:降低復雜度的設(shè)計方法大致分為兩類:一類是無記憶的矢量量化器,一類是無記憶的矢量量化器,另一類是有記憶的矢量量化器另一類是有記憶的矢量量化器。隱馬爾可夫模型隱馬爾可夫模型(HMM)(HMM)是一個輸出符號序列是一個輸
50、出符號序列的統(tǒng)計模型,具有的統(tǒng)計模型,具有NN個狀態(tài),它按一定的周期個狀態(tài),它按一定的周期從一個狀態(tài)轉(zhuǎn)移到另一個狀態(tài),每次轉(zhuǎn)移時,從一個狀態(tài)轉(zhuǎn)移到另一個狀態(tài),每次轉(zhuǎn)移時,輸出一個符號。轉(zhuǎn)移到哪一個狀態(tài),轉(zhuǎn)移時輸輸出一個符號。轉(zhuǎn)移到哪一個狀態(tài),轉(zhuǎn)移時輸出什么符號,分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時的出什么符號,分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時的輸出概率來決定。因為只能觀測到輸出符號序輸出概率來決定。因為只能觀測到輸出符號序列,而不能觀測到狀態(tài)轉(zhuǎn)移序列(即模型輸出列,而不能觀測到狀態(tài)轉(zhuǎn)移序列(即模型輸出符號序列時,是通過了哪些狀態(tài)路徑,不能知符號序列時,是通過了哪些狀態(tài)路徑,不能知道),所以稱為隱藏的馬爾可夫模
51、型。道),所以稱為隱藏的馬爾可夫模型。 v是要以最少的數(shù)碼表示信源所發(fā)的信號,語音編碼屬于信源是要以最少的數(shù)碼表示信源所發(fā)的信號,語音編碼屬于信源編碼的范疇。語音編碼通過減少傳輸碼率(或存儲量),來編碼的范疇。語音編碼通過減少傳輸碼率(或存儲量),來達到提高傳輸(或存儲)效率的目的。作為傳輸語音的壓縮達到提高傳輸(或存儲)效率的目的。作為傳輸語音的壓縮技術(shù),語音編碼在通信史上一直都扮演著極為重要的角色。技術(shù),語音編碼在通信史上一直都扮演著極為重要的角色。v語音編碼分為三類:語音編碼分為三類: * * 波形編碼:重建后的語音時域信號的波形與原語音信號保波形編碼:重建后的語音時域信號的波形與原語音
52、信號保持一致。持一致。 * * 參數(shù)編碼:通過建立語音信號的產(chǎn)生模型,提取其特征參參數(shù)編碼:通過建立語音信號的產(chǎn)生模型,提取其特征參數(shù)來編碼,波形上不要求與原信號匹配,又稱聲碼器技術(shù)。數(shù)來編碼,波形上不要求與原信號匹配,又稱聲碼器技術(shù)。 * * 混合編碼混合編碼:有機結(jié)合以上兩種編碼方式,基于語音產(chǎn)生模:有機結(jié)合以上兩種編碼方式,基于語音產(chǎn)生模型的假定并采用分析合并技術(shù)。型的假定并采用分析合并技術(shù)。v語音編碼(語音編碼(Speech CodingSpeech Coding) 從信息論角度看,信源編碼從信息論角度看,信源編碼三種編碼方式的比較三種編碼方式的比較波形編碼參數(shù)編碼混合編碼編碼信息波形
53、模型參數(shù)綜合比特率9.664Kbps2.49.6Kbps1624Kbps優(yōu)點適應能力強,語音質(zhì)量好有效降低了編碼比特率語音質(zhì)量明顯提高缺點隨著量化粗糙語音質(zhì)量下降合成語音質(zhì)量低,處理復雜度高編碼速率明顯上升典型代表自適應差分編碼調(diào)制(ADPCM)LPC- 10、LPC- 10E 多脈沖激勵線性預測編碼(MPLPC)規(guī)則脈沖激勵線性預測編碼(RPE-LPC)語音編碼發(fā)展史語音編碼發(fā)展史v早期的聲碼器基于對語音信號基音周期與頻譜的分析,主要包括通道聲碼器,共振峰聲通道聲碼器,共振峰聲碼器與模式匹配聲碼器。碼器與模式匹配聲碼器。 語音編碼依據(jù)之一:語音信號冗余度語音編碼依據(jù)之一:語音信號冗余度 基本
54、基本時域時域冗余:冗余:u語音信號幅度非均勻分布性語音信號幅度非均勻分布性u語音信號樣本間的強相關(guān)性語音信號樣本間的強相關(guān)性u濁音語音段具有的準周期性濁音語音段具有的準周期性u聲道形狀及其變化的緩慢性聲道形狀及其變化的緩慢性u靜止系數(shù)靜止系數(shù) (即語音間隙性)(即語音間隙性) 基本基本頻域頻域冗余:冗余:u從長時間的功率譜密度來看,語音信號具有從長時間的功率譜密度來看,語音信號具有強烈的非平坦型,存在著固定的冗余度。而強烈的非平坦型,存在著固定的冗余度。而且高頻能量通常較低,恰好對應于時域上的且高頻能量通常較低,恰好對應于時域上的相鄰樣本相關(guān)性。相鄰樣本相關(guān)性。u從短時功率譜密度來看,語音信號
55、在不同頻從短時功率譜密度來看,語音信號在不同頻率交替出現(xiàn)峰值(共振峰)與谷值。整個功率交替出現(xiàn)峰值(共振峰)與谷值。整個功率譜的細節(jié)基于基音頻率形成高次諧波結(jié)構(gòu)。率譜的細節(jié)基于基音頻率形成高次諧波結(jié)構(gòu)。 語音編碼依據(jù)之二:人的聽覺特點語音編碼依據(jù)之二:人的聽覺特點n人類聽覺系統(tǒng)存在著掩蔽系統(tǒng),即高聲級單人類聽覺系統(tǒng)存在著掩蔽系統(tǒng),即高聲級單音會明顯掩蔽臨近頻率聲音。音會明顯掩蔽臨近頻率聲音。n對于不同頻段的聲音,人耳的敏感程度不盡對于不同頻段的聲音,人耳的敏感程度不盡相同,對低頻端比較敏感(基頻、共振峰所相同,對低頻端比較敏感(基頻、共振峰所集中在這里),對高頻端不太敏感。集中在這里),對高頻
56、端不太敏感。n人類對于語音信號的周期性(即音調(diào))極為人類對于語音信號的周期性(即音調(diào))極為敏感,但對信號的相位卻充耳不聞,這與理敏感,但對信號的相位卻充耳不聞,這與理論分類存在差異。論分類存在差異。n人耳聽覺特性對語音幅度分辨率是有限的。人耳聽覺特性對語音幅度分辨率是有限的。語音壓縮系統(tǒng)的性能評判指標語音壓縮系統(tǒng)的性能評判指標較為重要的性能評價準則較為重要的性能評價準則l編碼速率(比特率),決定了編碼器工作時占用的信道編碼速率(比特率),決定了編碼器工作時占用的信道帶寬,要求盡可能降低。帶寬,要求盡可能降低。l編碼器的完健性,要求良好。編碼器的完健性,要求良好。l編碼器的時延,要求最小化。編碼
57、器的時延,要求最小化。l誤碼容限,要求保持較高值。誤碼容限,要求保持較高值。l算法復雜度(包括運算復雜度與內(nèi)存要求),影響硬件算法復雜度(包括運算復雜度與內(nèi)存要求),影響硬件成本,盡可能降低。成本,盡可能降低。l算法可擴展性,越高越好。算法可擴展性,越高越好。 6.3 6.3 語音信號的波形編碼語音信號的波形編碼v波形編碼波形編碼 波形編碼是語音編碼系統(tǒng)在早期所廣泛采用的方波形編碼是語音編碼系統(tǒng)在早期所廣泛采用的方法,它把語音信號當成普通的波形信號來處理從而保持原波法,它把語音信號當成普通的波形信號來處理從而保持原波形形狀。形形狀。 波形編碼適應能力強,合成語音質(zhì)量好,但比特率過高,波形編碼適
58、應能力強,合成語音質(zhì)量好,但比特率過高,編碼的效率也不盡如人意。編碼的效率也不盡如人意。v幾種典型的波形編碼:幾種典型的波形編碼:l脈沖編碼調(diào)制(脈沖編碼調(diào)制(PCMPCM)l自適應預測編碼自適應預測編碼l自適應增量調(diào)制(自適應增量調(diào)制(ADMADM)l自適應差分脈沖編碼調(diào)制(自適應差分脈沖編碼調(diào)制(ADPCMADPCM)l子帶編碼(子帶編碼(SBCSBC)自適應增量調(diào)制(自適應增量調(diào)制(ADMADM) 增量調(diào)制的基本方案:增量調(diào)制的基本方案: 增量調(diào)制方式將下一個語音信號與當前語音信號增量調(diào)制方式將下一個語音信號與當前語音信號比較,如果高與當前值則系統(tǒng)則編碼比較,如果高與當前值則系統(tǒng)則編碼1
59、 1,否則系統(tǒng)編,否則系統(tǒng)編碼碼0.0. 自適應增量調(diào)制的工作方式:自適應增量調(diào)制的工作方式: 自適應增量調(diào)制隨輸入波形自適應的改變量化自適應增量調(diào)制隨輸入波形自適應的改變量化階梯的大小,在信號平均斜率大時自動增大量化階梯,階梯的大小,在信號平均斜率大時自動增大量化階梯,反之減小。反之減小。 自適應差分脈沖編碼調(diào)制(自適應差分脈沖編碼調(diào)制(ADPCMADPCM) 差分脈沖編碼調(diào)制(差分脈沖編碼調(diào)制(DPCMDPCM):): 不同于不同于DMDM的一位編碼,的一位編碼,DPCMDPCM多位量化對兩個采樣多位量化對兩個采樣之間的差分信號利用多位量化進行編碼,使信息量得之間的差分信號利用多位量化進行
60、編碼,使信息量得到壓縮的同時降低了信道負載。到壓縮的同時降低了信道負載。 子帶編碼(子帶編碼(SBCSBC)子帶編碼原理:子帶編碼原理: 子帶編碼屬于頻域編碼,它首先將語音信號通過帶通子帶編碼屬于頻域編碼,它首先將語音信號通過帶通濾波器分割為若干頻帶(子帶),而后對子帶信號進行濾波器分割為若干頻帶(子帶),而后對子帶信號進行頻譜平移變?yōu)榛鶐盘?,再利用奈奎斯特速率抽樣,最頻譜平移變?yōu)榛鶐盘?,再利用奈奎斯特速率抽樣,最后進行編碼處理后進行編碼處理。 子帶編碼優(yōu)點:子帶編碼優(yōu)點:l分帶后可去除信號相關(guān)性,獲得與時域一樣的效果。分帶后可去除信號相關(guān)性,獲得與時域一樣的效果。l不同子帶擁有不同比特數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 租賃合同范例稅費約定
- 過程審計合同范例
- 媽媽洗衣加盟合同范例
- 聘請代教師合同范例
- 法律 購車貸款合同范例
- 美業(yè)股東合同范例
- 參展補貼合同范例
- 家政物品供貨合同范例
- 報稅公司合同范例
- 疫情期間寫合同范例
- 重型燃氣輪機
- 史記年表·十二諸侯年表
- 配網(wǎng)規(guī)劃工作思路
- 項目復盤報告PPT通用模板
- 心理統(tǒng)計學考研歷年真題及答案
- 《校長人大代表述職報告》
- 專項法律服務方案
- 辦公樓室內(nèi)精裝修工程施工組織設(shè)計方案(同名74275)
- 2023年諸暨市提前招生選拔考試科學試卷
- 標準化預制梁場驗收表
- GB/T 39604-2020社會責任管理體系要求及使用指南
評論
0/150
提交評論