廣州大學數(shù)字語音復習資料(復好了必過)

上傳人：0*** IP屬地：湖北上傳時間：2023-02-03 格式：PPT 頁數(shù)：67 大?。?89KB 積分：30 舉報 版權申訴

已閱讀5頁，還剩62頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

數(shù)字語音處理總復習語音信號處理的實質學科基礎

以語音語言學和數(shù)字信號處理為基礎而形成的一門涉及面很廣的學科,與語言學、聲學、認知科學、心理學、生理學、計算機科學、通信與信息科學、模式識別和人工智能等學科均有密切的關系。用數(shù)字化的方法進行語音的傳送、存儲、合成、識別和增強等技術是整個數(shù)字化通信網(wǎng)中最重要最基本的組成部分。

語音信號的數(shù)字處理方法語音信號的特點—短時平穩(wěn)性短時時域處理方法—短時能量、短時平均過零率以及短時自相關函數(shù)計算短時頻域分析—短時傅立葉分析線性預測技術—本質上屬于時域分析方法，但其結果可以是頻域參數(shù)倒譜和同態(tài)分析、矢量量化和隱馬爾可夫模型語音壓縮和編碼—語音通信數(shù)字化；語音合成—自動報站、自動報時、自動警告、電話自動查詢和語音提示等；語音識別—聲控應用、自動口語翻譯；說話人識別—安全加密、銀行信息電話查詢服務以及破案和法庭取證；語音增強—通常作為語音處理的前端。語音信號處理技術的應用5Goldwave (audioeditor)EspsXwaves (routines+visual.)Praat (speechanalysis)Wavesurfer (speecheditor)Transcriber (annotationtool)Matlab (generalpurposesoft)OGIspeechtools (routines+app.dev.)…winpitch,pitchworks,phonedit,cooledit,Cooledit,SFS,Nerowaveedit…..一些常用的語音波形分析與處理的軟件語音信號處理基礎知識肺聲帶聲道直流氣流聲音嘴唇聲壓波速度波能源激勵源諧振源輻射源交流氣流語音產生過程2.語音產生過程語音的形成過程—空氣由肺部排入喉部，經(jīng)過聲帶進入聲道，最后由嘴輻射出聲波，形成語音。濁音(Voicedsounds)：聲帶繃緊，氣流通過時會使得開口變成一開一閉的周期性動作，這時候就造成周期性的激發(fā)氣流，如a，o；清音（UnvoicedorFricativesounds）：聲帶完全舒展，聲道某部位收縮形成一個狹窄的通道，產生空氣湍流，如t，d；爆破音：聲帶完全舒展，聲道的某部位完全閉合，一旦閉合點突然開啟，空氣壓力快速釋放，如b，p。能被人耳聽到，它的振動頻率在20～20000Hz之間

2.語音產生過程語音的兩個重要聲學特性：濁音的基音頻率(F0)：由聲帶的尺寸、特性和聲帶所受張力決定，其值等于聲帶張開和閉合一次的時間的倒數(shù)。人類基音頻率的范圍在80～500Hz左右。共振峰(Fn,n=1,2,...)：聲道是一個諧振腔，它放大聲音氣流的某些頻率分量而衰減其他頻率分量，被放大的頻率我們稱之為共振峰或共振峰頻率。聲道具有的一組共振峰，聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個峰的頻帶寬度。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸，因而不同的語音對應于一組不同的共振峰參數(shù)。實際應用中，頭三個共振峰最重要,越多越精確。語音信號產生的數(shù)字模型在研究了發(fā)聲器官和語音的產生過程以后，便可以建立一個離散時域的語音信號產生的數(shù)字模型，它將是我們將數(shù)字信號處理技術應用于語音信號的基礎。下圖是一個完整的語音信號產生的數(shù)字模型：數(shù)字語音信號表示（RepresentationsofSpeechSignals）(1)激勵模型由此模型框圖，我們可將語音信號看成準周期序列或隨機噪聲序列作為激勵的線性非移變系統(tǒng)的輸出，此模型可分為三個部分：激勵模型、聲道模型、輻射模型激勵模型根據(jù)發(fā)濁音和發(fā)清音的機理又分為：(a)濁音激勵(b)清音激勵(a)濁音激勵由前面所講發(fā)音過程可知，發(fā)濁音時聲帶不斷地張開和閉合將產生間歇的準周期性脈沖波，其周期為基音周期，單個脈沖的波形類似于斜三角波，故數(shù)字模型中可用周期為T0單位取樣序列串作為聲門脈沖模型g(n)的輸入，其輸出就是濁音激勵。由于人類語音的頻率范圍主要集中在300Hz~3400Hz，數(shù)字模型中的信號取樣率一般為8KHz。3、語音信號產生的數(shù)字模型(1)激勵模型由圖可見，它是一個低通濾波器。頻率分析表明，其幅度譜按12dB/倍頻程的速率衰減。如果將其表示為Z變換的全極模型的形式，有G(z)＝1/(1-g1z-1)(1-g2z-1)如果g1和g2的值都接近于1，則由此形成的激勵信號頻譜很接近于聲門脈沖的頻譜。顯然，上式表明斜三角波可描述為一個二階極點的模型。需要指出，不同人、不同語音，其聲門脈沖的形狀不一定相同，但在語音合成中對其形狀要求不很苛刻，只要其傅里葉變換有近似的特性就可以了。

周期性的斜三角波脈沖可看做加權的單位脈沖串激勵上述單個斜三角脈沖的結果。而周期沖激序列及幅值因子可表示成下面的Z變換形式E(z)＝AV/(1-z-1)(2-5)所以整個激勵模型可表示為U(z)＝G(z)E(z)＝AV/(1-z-1)·1/(1-g1z-1)(1-g2z-1)(2-6)(1)激勵模型(b)清音激勵發(fā)清音時聲道被阻礙形成湍流，所以可把清音激勵模擬成隨機白噪聲。此處用均值為0方差為1并在幅值上為平穩(wěn)分布的序列,具體實現(xiàn)時可采用隨機噪聲發(fā)生器來產生此序列。(1)激勵模型(2)聲道模型兩種建模方法：(a)聲管模型(b)共振峰模型共振峰模型將聲道視為一個諧振腔，按此原則導出?；诟鞣N音素發(fā)音的不同諧振特點可建立起三種實用的共振峰模型：(a)級聯(lián)型(b)并聯(lián)型(c)混合型(2)聲道模型(a)級聯(lián)型：適用于一般單元音,認為聲道是一組串聯(lián)的二階諧振器：這是一個全極點模型，極點就是這個多項式的根：若P為偶數(shù)，解其根會得到共扼復數(shù)(conjugatecomplex)的根，表示成：(2)聲道模型F=1/T--取樣頻率

i/--共振峰的頻寬。Fi是--共振峰(formant)的中心頻率這樣分解則每一個二階因式均對應一個共振峰，其幅頻特性是典型的二階諧振特性，諧振中心頻率值等于共振峰。若把語音的各個共振峰所對應的二階系統(tǒng)級聯(lián)起來就形成了一個完整的級聯(lián)型聲道模型，且具有明顯的諧振特性。(2)聲道模型(b)并聯(lián)型適用于鼻音、復合元音及大部分輔音，發(fā)這些音時發(fā)音腔體具有反諧振特性，必須在模型中加入零點以減弱諧振強度，故要考慮用零、極點模型：通常P>R，假設分子與分母無公因子且分母無重根，則此式可分解為以下部分分式之和的形式：這就是并聯(lián)型共振峰模型，每一個二階因式對應一個共振峰。每個二階諧振器的幅度可單獨控制。(2)聲道模型前面兩種共振峰模型各自都只能適用于部分語音，級聯(lián)或并聯(lián)的級數(shù)取決于聲道的長度，一般成人取3到5級。級聯(lián)型結構較為簡單，并聯(lián)型各諧振器幅度可獨立控制,綜合考慮兩者的優(yōu)缺點可將兩種共振峰模型有機地結合起來就得到一種較為完備的共振峰模型。(2)聲道模型在發(fā)音腔道內形成的氣流經(jīng)由嘴唇端輻射出來，到達聽者耳朵的這段過程，聲音信號會衰減，而且有高通濾波的特性，我們常用一個一階的數(shù)字高通濾波器擬這個現(xiàn)象，這個濾波器又叫做輻射模型(radiationmodel)，其數(shù)學式如下完整的數(shù)字模型的系統(tǒng)函數(shù)由激勵模型、聲道模型和輻射模型的級聯(lián)來表示：(3)輻射模型(c)混合型我們可以根據(jù)發(fā)音的需要自動切換串聯(lián)或并聯(lián)通路，此外并聯(lián)部分還有一條直通路徑，其幅度控制因子為AB，這是專為一些頻譜特性較為平坦的音素如[f]、[p]、[b]而考慮的，以增強反諧振特性。(2)聲道模型人類的聽覺功能掩蔽效應(maskingeffect)當一個聲音存在時，它會將另一個聲音的感知臨界值提高，也就是說當某一頻率的聲音，有一特定音強存在時，另一個不同頻率的聲音要將音強提高才會被聽到，這就是聽覺掩蔽效應。

同時存在的聲音，常常是低頻的聲音傾向于掩蔽掉高頻的聲音，這是一種頻率掩蔽(frequencymasking)的現(xiàn)象。某一段時間存在一個聲音，在此聲音剛結束的一小段時間內，其它的聲音會聽不見這種掩蔽現(xiàn)象叫做時間掩蔽(temporalmasking)。這個現(xiàn)象也會發(fā)生在此存在聲音之前，這是由于聲音在聽覺器官中傳遞時延遲所造成的。短時分析技術：語音信號有時變特性，是一個非平穩(wěn)的隨機過程。但在一個短時間范圍內其特性基本保持不變。即語音的“短時平穩(wěn)性”。“短時分析”，即對語音信號流采用分段處理。將其分為一段一段來分析，其中每一段稱為一“幀”，由于語音通常在10～30ms之內是保持相對平穩(wěn)的，因而幀長一般取為10～30ms。注：對于某些要求較高的研究領域或應用場合(如語音識別)，應該考慮語音信號是時變或非平穩(wěn)的，此時應采用“隱馬爾可夫模型”3.1語音信號的短時處理方法

加窗取語音幀對于一段語音的離散時間信號x(m)，用一個固定長度的窗口(window)套上去，只看窗口內的信號，對這些信號做計算，用以求出在這窗口內的語音特征(speechfeatures)。這樣的處理方式，就叫加窗(windowing)，而套上去的這一段語音即稱為語音幀(frame)。通常窗口的長度是取10~40毫秒(ms)，這樣一段語音信號，足以計算出語音的特征參數(shù)(featureparameters)。窗口的移動距離，大約會取5~20ms，讓前后的語音幀有部分重疊，這樣能觀察到語音特征改變的延續(xù)性以保證分析的準確性。3.1語音信號的短時處理方法

加窗取語音幀3.1語音信號的短時處理方法

加窗取語音幀假設加窗的長度為N，在時域中可以寫成(3-13)將窗函數(shù)w(m)乘在語音信號中的某一個時間點上，(3-14)n是加窗位置標示，可以看出只有當m在n-N+1<m<n之間，才不會是0，也就是x(m)在n-N+1<m<n這一時段中被取出，作為一個語音幀。常用短時分析技術短時能量短時平均幅度短時過零率短時自相關函數(shù)短時平均幅度差函數(shù)短時頻譜短時功率譜3.2短時能量和短時平均幅度振幅越大則能量越大，通常用以下方式計算語音能量短時平均能量函數(shù) －變換T[]是指平方和運算；－兩種計算方法：（3-17）

3.2短時能量和短時平均幅度振幅越大則能量越大，通常用以下方式計算語音能量短時平均能量函數(shù) －變換T[]是指平方和運算；－兩種計算方法：

（3-18）

－h(huán)(n)是無限沖激響應濾波器時，短時能量可遞推計算得到

3.2短時能量和短時平均幅度短時平均幅度－變換T[]是取絕對值求和運算；－兩種計算方法：

或

3.3短時平均過零率計算一個語音幀內單位時間越過零線的平均次數(shù)，可以得出其短時平均過零率(zerocrossingrate)或短時平均過零數(shù)。聲帶振動時，是在發(fā)濁音，所以過零率低，聲帶不振動時，是在發(fā)清音，所以過零率就高，沒有聲音時若有噪音存在，也會有較高的過零率。過零：信號波形穿越時間軸或零值線；對于離散時間信號而言就是相鄰的取樣值符號改變。平均過零率：單位時間（或單位樣本）內過零的次數(shù)。3.3短時平均過零率變換T[]相當于平均過零率計算；短時平均過零率的計算方法：3.3短時平均過零率實際應用——區(qū)分清、濁音3.4短時自相關函數(shù)相關分析：1)自相關2)互相關語音信號處理的相關分析：短時自相關函數(shù)短時自相關函數(shù)應用：分析語音信號的同步性和周期性?；仡櫞_定性信號序列自相關函數(shù)：3.4短時自相關函數(shù)序列自相關函數(shù)的性質：1)若此序列是周期的(周期為Np)，則R(k)=R(k+Np)2)R(k)=R(-k)3)R(0)≥│R(k)│4)R(0)等于確定性信號序列的能量或隨機序列的平均功率由性質1)、3)可知濁音的自相關函數(shù)周期性出現(xiàn)峰值點，且周期為基音周期。3.4短時自相關函數(shù)短時自相關函數(shù)的定義計算方法：

－優(yōu)點：在只需計算少數(shù)幾個滯后時間的自相關值時；窗函數(shù)選擇適當時，可得到遞推計算方法Rn(k)＝＝[x(n)x(n-k)］*hk(n)短時自相關函數(shù)可看做序列［x(n)x(n-k)］通過單位函數(shù)響應為hk(n)的數(shù)字濾波器的輸出3.4短時自相關函數(shù)3.4短時自相關函數(shù)由圖3-18(a)、(b)可見:對應于濁音語音的自相關函數(shù)，具有一定的周期性。在相隔一定的取樣后，自相關函數(shù)達到最大值。圖3-18(c)上自相關函數(shù)沒有很強的周期峰值，表明在信號中缺乏周期性，這種清音語音的自相關函數(shù)有一個類似噪聲的高頻波形，有點像清音信號。3.4短時自相關函數(shù)4.2.1短時傅立葉變換--定義定義：短時傅立葉變換也叫短時譜（加窗的方式）短時譜的特點：1)時變性：既是角頻率ω的函數(shù)又是時間n的函數(shù)2)周期性：是關于ω的周期函數(shù)，周期為2π短時傅立葉變換主要用于語音分析合成系統(tǒng)，由其逆變換可以精確地恢復語音波形；短時傅里葉變換是窗選語音信號的標準傅里葉變換。下標n區(qū)別于標準的傅里葉變換。w(n-m)是窗口函數(shù)序列。不同的窗口函數(shù)序列，將得到不同的傅里葉變換的結果。短時傅里葉變換有兩個自變量：n和ω，所以它既是關于時間n的離散函數(shù)，又是關于角頻率ω的連續(xù)函數(shù)。與離散傅里葉變換和連續(xù)傅里葉變換的關系一樣，若令ω＝2πk/N，則得離散的短時傅里葉變換,它實際上是在頻域的取樣。4.2.1短時傅立葉變換--定義這兩個公式都有兩種解釋：①當n固定不變時，它們是序列w(n-m)x(m)(-∞＜m＜∞)的標準傅里葉變換或標準的離散傅里葉變換。此時與標準傅里葉變換具有相同的性質，而Xn(k)與標準的離散傅里葉變換具有相同的特性。②當ω或k固定時，和Xn(k)看做是時間n的函數(shù)。它們是信號序列和窗口函數(shù)序列的卷積，此時窗口的作用相當于一個濾波器。4.2.1短時傅立葉變換--定義4.2.1短時傅立葉變換--定義頻率分辨率Δf、取樣周期T、加窗寬度N三者關系：窗形狀對短時傅立葉變換的影響－矩形窗——主瓣窄，衰減慢；－漢明窗——主瓣寬，衰減快；窗寬對短時頻譜的影響－窗寬長——頻率分辨率高，能看到頻譜快變化；－窗寬短——頻率分辨率低，看不到頻譜的快變化；結論:窗口寬度與短時傅里葉變換特性之間的關系用窄窗可得到好的時間分辨率用寬窗可以得到好的頻率分辨率。但由于采用窗的目的是要限制分析的時間以使其中波形的特性沒有顯著變化，因而要折衷考慮。

4.2.2短時傅立葉變換--標準傅里葉變換的解釋語譜圖實際上是一種動態(tài)的頻譜。語譜圖的縱軸為頻率，橫軸為時間。任一給定頻率成分在給定時刻的強弱用點的黑白度來表示，頻譜值大則記錄得濃黑一些，反之則淺淡一些。用語譜圖分析語音又稱為語譜分析，記錄語譜圖的儀器就是語譜儀。語譜儀實際上是使一個帶通濾濾器的中心頻率發(fā)生連續(xù)變化，來進行語音的頻率分析。帶通濾波器有兩種帶寬：窄帶為45Hz，寬帶為300Hz。窄帶語譜圖有良好的頻率分辨率及較差的時間分辨率；而寬帶語譜圖具有良好的時間分辨率及較差的頻率分辨率。窄帶語譜圖中的時間座標方向表示的是基音及其各次諧波；而寬帶語譜圖給出語音的共振峰頻率及清輔音的能量匯集區(qū)；這里，共振峰呈現(xiàn)為黑色的條紋。4.5語譜圖所有元音的特征都是強度變化的規(guī)則的垂直條紋。條紋的起點相當于聲門脈沖的起點，條紋之間的距離表示基音周期。條紋越密表示基音頻率越高，例如“Ten”中的［ε］音；而基音周期在“the”字中［e］音時達到最大。4.5語譜圖聲道的共振峰表示基音脈沖的某些頻率成分被加強，這在語譜圖上呈現(xiàn)為條紋區(qū)更寬更黑。摩擦音如［ｓ］、［ｚ］呈現(xiàn)不規(guī)則的條紋，主要在2.5kHz以上；這些條紋表示存在寬帶噪聲。“suburbs”開始的［s］音明顯表示它有最大的能量和最高的頻率成分，而結尾部分的［ｚｓ］的能量和頻率僅次于［s］。4.5語譜圖同態(tài)信號處理也稱為同態(tài)濾波，它實現(xiàn)了將卷積關系變換為求和關系的分離處理。為了分離加性組合信號，常采用線性濾波方法。為了分離非加性組合(如乘積性或卷積性組合)信號，常采用同態(tài)濾波技術。同態(tài)濾波是一種非線性濾波，但它服從廣義疊加原理。對語音信號進行同態(tài)分析后將得到其倒譜參數(shù)，所以同態(tài)分析也稱為倒譜分析。由于對語音信號分析是以幀為單位進行的，所以得到的是短時倒譜參數(shù)。無論是對于語音通信、語音合成還是語音識別倒譜參數(shù)優(yōu)點：所含的信息比其他參數(shù)多，也就是說語音質量好、識別正確率高；倒譜參數(shù)缺點：是運算量較大。盡管如此，倒譜分析仍是一種有效的語音信號分析方法。5.1概述5.2同態(tài)信號處理的基本原理卷積特征子系統(tǒng)：圖5-2同態(tài)系統(tǒng)的組成5.2同態(tài)信號處理的基本原理加性信號的Z變換或逆Z變換仍然是加性信號，因而這種時域信號可以用線性系統(tǒng)處理。5.2同態(tài)信號處理的基本原理

線性系統(tǒng)

5.2同態(tài)信號處理的基本原理卷積逆特征子系統(tǒng)：經(jīng)過線性處理后，若將其恢復為卷積性信號，可以通過逆特征系統(tǒng)，它是特征系統(tǒng)的逆變換。線性預測分析的基本思想是：由于語音樣點之間存在相關性，所以可以用過去的樣點值來預測現(xiàn)在或未來的樣點值，即一個語音的抽樣能夠用過去若干個語音抽樣或它們的線性組合來逼近。通過使實際語音抽樣和線性預測抽樣之間的誤差在某個準則下達到最小值來決定唯一的一組預測系數(shù)。而這組預測系數(shù)就反映了語音信號的特性，可以作為語音信號特征參數(shù)用于語音識別、語音合成等。語音信號數(shù)學模型：

語音信號可以看成準周期脈沖或白噪聲激勵一個線性時不變系統(tǒng)所產生的輸出。H（z）u(n)s(n)信號s(n)的模型化s(n)為模型的輸出。當s(n)為確定信號時,u(n)采用單位沖激序列；當s(n)為隨機信號,u(n)是為白噪聲序列6.2線性預測分析的基本原理模型系統(tǒng)函數(shù)H(z)

語音信號產生：線性預測分析就是根據(jù)已知信號s(n)對各參數(shù)和增益G進行估計。在這里為線性預測系數(shù)這里采用的是全極點模型又稱“AR模型”，各系數(shù)和增益G為模型參數(shù)。這樣信號就可以用有限數(shù)目的參數(shù)構成的信號模型來表示。

線性預測模型采用全極點模型的原因：全極點模型容易計算，對全極點模型做參數(shù)估計是對線性方程組的求解過程，而含有有限零點則是解非線性方程。6.3語音信號的線性預測分析沖激串發(fā)生器隨機噪聲發(fā)生器基音周期時變數(shù)字濾波器濁音/清音開關聲道參數(shù)Gs(n)u(n)1.語音信號模型注：語音產生模型里，輻射、聲道以及聲門激勵的全部效應簡化為一個時變數(shù)字濾波器等效。系統(tǒng)函數(shù)其中p為預測階數(shù)，G為聲道濾波器增益。由此有上述語音抽樣s(n)和激勵信號u(n)之間的差分關系式線性預測原理：當前語音信號s(n),可以用過去p個語音信號s(n-i

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

廣州大學數(shù)字語音復習資料(復好了必過)

文檔簡介

溫馨提示

最新文檔

評論

廣州大學數(shù)字語音復習資料(復好了必過)

文檔簡介

溫馨提示

最新文檔

評論

相關文檔