語音信號(hào)處理第3版第2講_第1頁
語音信號(hào)處理第3版第2講_第2頁
語音信號(hào)處理第3版第2講_第3頁
語音信號(hào)處理第3版第2講_第4頁
語音信號(hào)處理第3版第2講_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2.1語音發(fā)音及感知系統(tǒng)2.2語音信號(hào)生成的數(shù)學(xué)模型2.3語音基本概念與參數(shù)2.4語音信號(hào)的數(shù)字化和預(yù)處理2.5語音信號(hào)的應(yīng)用第2章語音信號(hào)處理的基礎(chǔ)知識(shí)語音信號(hào)處理:研究用數(shù)字信號(hào)處理技術(shù)對(duì)語音信號(hào)進(jìn)行處理的一門學(xué)科目的:(1)通過處理得到一些反映語音信號(hào)重要特征的語音參數(shù),以便高效地傳輸或存儲(chǔ)語音信號(hào)信息(2)通過處理的某種運(yùn)算已達(dá)到某種用途的要求第2章語音信號(hào)處理的基礎(chǔ)知識(shí)人們講話時(shí)發(fā)出的話語叫語音,它是一種聲音,具有稱為聲學(xué)特征的物理特性。語音(Speech)是聲音(Acoustic)和語言(Language)的組合體??梢赃@樣定義語音:語音是由一連串的音組成語言的聲音。

人的發(fā)音器官包括:肺、氣管、喉(包括聲帶)、咽、鼻和口。喉的部分為聲門。從聲門到嘴唇的呼氣通道叫做聲道,聲道形狀的不斷改變。發(fā)出不同的語音。

2.1語音發(fā)音及感知系統(tǒng)語音是由肺至唇各種器官作用而發(fā)出的,其作用的方式有3種:(1)把肺部呼出的直氣流變?yōu)橐粼矗?)對(duì)音源起共振和反共振的作用,使之帶有音色(3)從唇或鼻向空間輻射對(duì)發(fā)音影響最大的是聲帶,每開啟和閉合一次的時(shí)間即聲帶的共振周期,就是音調(diào)周期或基音周期,其倒數(shù)為基音頻率(其范圍隨發(fā)音人的性別、年齡而定)。E.g.老年男性偏低,小孩和青年女性偏高基音頻率決定了聲音頻率的高低,頻率快則音調(diào)高,頻率慢則音調(diào)低。2.1語音發(fā)音及感知系統(tǒng)人的聽覺系統(tǒng)是一個(gè)十分巧妙的音頻信號(hào)處理器。主要完成聲音的采集、頻率分解、聲能轉(zhuǎn)換、聲音加工和分析以及感覺聲音的音色、音調(diào)、音強(qiáng)、判斷方位等功能。聽覺具有選擇性:能被人耳聽到的聲音取決于聲音的強(qiáng)度和頻率范圍。(一般人可以感覺到20Hz~20kHz,強(qiáng)度為-5dB~130dB的聲音信號(hào))聽覺具有掩蔽效應(yīng):指在一個(gè)強(qiáng)信號(hào)附近,弱信號(hào)將變得不可聞,被掩蔽掉了。2.1語音發(fā)音及感知系統(tǒng)

2.2語音信號(hào)生成的數(shù)學(xué)模型理想的模型是線性的和時(shí)不變的。語音信號(hào)是非平穩(wěn)隨機(jī)過程,其特性是隨著時(shí)間變化的,所以模型中的參數(shù)應(yīng)該是隨時(shí)間而變化的。但語音信號(hào)特性隨著時(shí)間變化是很緩慢的。所以可以作出一些合理的假設(shè),將語音信號(hào)分為一些相繼的短段進(jìn)行處理,在這些短段中可以認(rèn)為語音信號(hào)特性是不隨著時(shí)間變化的平穩(wěn)隨機(jī)過程。這樣在這些短段時(shí)間內(nèi)表示語音信號(hào)時(shí),可以采用線性時(shí)不變模型。

激勵(lì)模型激勵(lì)模型一般分成濁音激勵(lì)和清音激勵(lì)來討論。濁音激勵(lì)模型:由于聲帶不斷張開和關(guān)閉,將產(chǎn)生間歇的脈沖波。這個(gè)脈沖波的波形類似于斜三角形的脈沖,它的數(shù)學(xué)表達(dá)式如下:

式中,N1為斜三角波上升部分的時(shí)間,N2為其下降部分的時(shí)間。激勵(lì)模型濁音激勵(lì):?jiǎn)蝹€(gè)斜三角波的Z變換的全極模型的形式是:

c是常數(shù)。上式表示斜三角波形可描述為一個(gè)二極點(diǎn)模型。斜三角波形串可視為加權(quán)了單位脈沖串激勵(lì)上述單個(gè)斜三角波模型的結(jié)果。激勵(lì)模型單位脈沖串及幅值因子則可表示成下面的z變換形式:

所以,整個(gè)濁音激勵(lì)模型可表示為:

也就是說濁音激勵(lì)波是一個(gè)以基音周期為周期的斜三角脈沖串。幅值因子激勵(lì)模型清音激勵(lì)模型:模擬成隨機(jī)白噪聲,實(shí)際中一般使用均值為0,方差為1,并在時(shí)間(幅值)上為白色分布的序列

聲道模型——聲道部分的模型目前最常用的有2種建模方法。(1)是把聲道視為由多個(gè)等長(zhǎng)的不同截面積的管子串聯(lián)而成的系統(tǒng),即“聲管模型”。(2)是把聲道視為一個(gè)諧振腔,即“共振峰模型”。

共振峰模型,把聲道視為一個(gè)諧振腔。共振峰就是這個(gè)腔體的諧振頻率,表達(dá)式:

i=1,2,…表示共振峰序號(hào),c為聲速,L為聲管長(zhǎng)度基于物理聲學(xué)的共振峰理論,可以建立起三種實(shí)用的共振峰模型:級(jí)聯(lián)型、并聯(lián)型和混合型。

聲道模型級(jí)聯(lián)型聲道是一組串聯(lián)的二階諧振器。從共振峰理論來看,整個(gè)聲道具有多個(gè)諧振頻率和多個(gè)反諧振頻率,所以它可被模擬為一個(gè)零極點(diǎn)的數(shù)學(xué)模型;但對(duì)于一般元音,則用全極點(diǎn)模型就可以了。它的傳輸函數(shù)可分解表示為多個(gè)二階極點(diǎn)的網(wǎng)絡(luò)的串聯(lián):

聲道模型級(jí)聯(lián)型幅值因子級(jí)聯(lián)型共振峰模型若10個(gè)極點(diǎn),則可以表示為5個(gè)二階極點(diǎn)的網(wǎng)絡(luò)串聯(lián),即聲道可以模擬成下圖所示的模型聲道模型并聯(lián)型對(duì)于非一般元音以及大部分輔音,必須考慮采用零極點(diǎn)模型。此時(shí),模型的傳輸函數(shù)如下:

上式可分解為如下部分分式之和的形式:這就是并聯(lián)型的共振峰模型。如圖2-21所示(M=5)。聲道模型并聯(lián)型圖2-21并聯(lián)型共振峰模型聲道模型混合型上述兩種模型中,級(jí)聯(lián)型比較簡(jiǎn)單,可以用于描述一般元音。當(dāng)鼻化元音或鼻腔參與共振,以及阻塞音或摩擦音等情況時(shí),級(jí)聯(lián)模型就不能勝任了。這時(shí)腔體具有反諧振特性,必須考慮加入零點(diǎn),使之成為零極點(diǎn)模型。對(duì)于鼻音、塞音、擦音以及塞擦音等都可以適用。正因?yàn)槿绱?,將?jí)聯(lián)模型和并聯(lián)模型結(jié)合起來的混合模型也許是比較完備的一種共振峰模型。聲道模型混合型共振峰模型

為頻譜特性比較平坦的音素而考慮輻射模型從聲道模型輸出的是速度波

,而語音信號(hào)是聲壓波

,二者之倒比稱為輻射阻抗

。它表征口唇的輻射效應(yīng),也包括圓形的頭部的繞射效應(yīng)等。如果認(rèn)為口唇張開的面積遠(yuǎn)小于頭部的表面積,則可近似地看成平板開槽輻射的情況。此時(shí),可推導(dǎo)出輻射阻抗的公式如下:

式中,是口唇張開時(shí)的開口半徑,是聲波傳播速度。輻射模型由輻射引起的能量損耗正比于輻射阻抗的實(shí)部,所以輻射模型是一階類高通濾波器。在實(shí)際信號(hào)分析時(shí),常用所謂的“預(yù)加重技術(shù)”,即在取樣之后,插入一個(gè)一階的高通濾波器。這樣,只剩下聲道部分,便于聲道參數(shù)的分析在語音合成時(shí),再進(jìn)行“去加重”處理,就可以恢復(fù)原來的語音語音信號(hào)的數(shù)學(xué)模型

綜上所述,完整的語音信號(hào)的數(shù)字模型可以用三個(gè)子模型:激勵(lì)模型、聲道模型和輻射模型的串聯(lián)來表示。如圖所示:

它的傳輸函數(shù)可以表示為:聲壓:定量描述聲波的基本物理量,是由聲擾動(dòng)產(chǎn)生的逾量壓強(qiáng),是空間位置和時(shí)間的函數(shù)有效聲壓:通常講的聲壓指的是有效聲壓,即在一定時(shí)間間隔內(nèi)將瞬時(shí)聲壓對(duì)時(shí)間求方均根值所得,計(jì)算公式為:2.3語音基本概念與參數(shù)語音長(zhǎng)度離散點(diǎn)數(shù)語音信號(hào)的采樣點(diǎn)聲壓級(jí)(SoundpressureLevel,SPL):聲音的有效聲壓與基準(zhǔn)聲音之比,取以10為底的對(duì)數(shù),在乘以20,即為聲壓級(jí),用表示,單位dB.在空氣中參考聲壓一般取2.3語音基本概念與參數(shù)聲強(qiáng):聲音在單位時(shí)間內(nèi)作用在與其傳遞方向垂直的單位面積上的能量聲強(qiáng)級(jí)(IntensityLevel,IL)用聲強(qiáng)的物理學(xué)單位表示聲音強(qiáng)弱很不方便,當(dāng)人耳聽到兩個(gè)強(qiáng)度不同的聲音時(shí),感覺的大小大致上與兩個(gè)聲強(qiáng)比值的對(duì)數(shù)成比例。用對(duì)數(shù)尺度來表示聲音強(qiáng)度的等級(jí),單位dB參考聲強(qiáng)取值2.3語音基本概念與參數(shù)聲壓與聲強(qiáng)的關(guān)系:對(duì)于球面波和平面波,聲壓和聲強(qiáng)的關(guān)系表達(dá)為:空氣中,空氣密度與聲速的乘積,稱為空氣對(duì)聲波的特性阻抗,單位,瑞利2.3語音基本概念與參數(shù)響度:描述聲音的響亮程度,表示人耳對(duì)聲音的主觀感受,單位宋,定義為聲壓級(jí)為40dB的1kHz純音的響度為1宋頻率與音高:以Hz為單位所測(cè)得的物理量——頻率,對(duì)聽者來說感知為心理量——音高,即用人的主觀感覺來評(píng)價(jià)所聽到的聲音時(shí)高調(diào)還是低調(diào)。音高隨頻率的增加而提高。2.3語音基本概念與參數(shù)

語音信號(hào)的數(shù)字化一般包括放大及增益控制、反混疊濾波、采樣、A/D變換及編碼(一般就是PCM碼);預(yù)處理一般包括預(yù)加重、加窗和分幀等。在分析處理之前必須把要分析的語音信號(hào)部分從輸入信號(hào)中找出來這項(xiàng)工作叫做語音信號(hào)的端點(diǎn)檢測(cè)。2.4語音信號(hào)的數(shù)字化和預(yù)處理帶通濾波器自動(dòng)增益控制(AGC)模/數(shù)轉(zhuǎn)換(A/D)脈沖編碼調(diào)制(PCM)語音信號(hào)存入計(jì)算機(jī)

預(yù)濾波、采樣、A/D變換預(yù)濾波的目的有兩個(gè):抑制輸入信號(hào)各頻域分量中頻率超出fs/2的所有分量(fs)為采樣頻率,以防止混疊干擾。抑制50Hz的電源工頻干擾。這樣,預(yù)濾波器必須是一個(gè)帶通濾波器,設(shè)其上、下截止頻率分別是fH和fL:絕大多數(shù)語音編譯碼器:fH=3400Hz,fL=60-100Hz,fS=8kHz要求較高的場(chǎng)合fH=4500HzfL=60Hz采樣率fS=10kHz

預(yù)濾波、采樣、A/D變換語音信號(hào)經(jīng)過預(yù)濾波和采樣后,由A/D變換器變換為二進(jìn)制數(shù)字碼。A/D變換中要對(duì)信號(hào)進(jìn)行量化,量化不可避免地會(huì)產(chǎn)生誤差。量化后的信號(hào)值與原信號(hào)值之間的差值稱為量化誤差,又稱為量化噪聲。若信號(hào)波形的變化足夠大,或量化間隔Δ足夠小時(shí),可以證明量化噪聲符合具有下列特征的統(tǒng)計(jì)模型:①它是平穩(wěn)的白噪聲過程

②量化噪聲與輸入信號(hào)不相關(guān)③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布

預(yù)濾波、采樣、A/D變換若用σx2表示輸入語音信號(hào)的方差,2Xmax表示信號(hào)的峰值,B表示量化字長(zhǎng),σe2表示噪聲序列的方差,可以證明量化信噪比SNR(信號(hào)與量化噪聲的功率比)為:假設(shè)語音信號(hào)的幅度符合Laplacian分布,此時(shí)信號(hào)幅度超過4σx的概率很小,只有0.35%,因而可取Xmax=4σx,則上式表明量化器中的每bit字長(zhǎng)對(duì)SNR的貢獻(xiàn)為6dB。語音輸入——輸出過程:對(duì)重構(gòu)的語音波形的高次諧波起平滑作用去掉高次諧波失真。反混疊濾波語音輸入A/D變換分析處理傳輸或存儲(chǔ)合成處理D/A變換平滑濾波語音輸出

預(yù)處理已數(shù)字化的語音信號(hào)序列將依次存入一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論