版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三章 語音信號的短時時域分析 3.1 概述13.2 語音信號的預處理3.3 短時平均能量 33.4 短時平均幅度函數(shù) 43.5 短時平均過零率 5 3.6 短時自相關分析 62 3.7 基于能量和過零率的語音端點檢測7 3.8 基音周期估值 8第1頁,共76頁。3.1 概述 語音信號是一種非平穩(wěn)的時變信號,它攜帶著各種信息。在語音編碼、語音合成、語音識別和語音增強等語音處理中都需要提取語音中包含的各種信息。 語音處理的目的:對語音信號進行分析,提取特征參數(shù),用于后續(xù)處理;加工語音信號。 總之,語音信號分析的目的就在于方便有效的提取并表示語音信號所攜帶的信息。 第2頁,共76頁。 根據所分析的
2、參數(shù)類型,語音信號分析可以分成時域分析和變換域(頻域、倒譜域)分析。其中時域分析方法是最簡單、最直觀的方法,它直接對語音信號的時域波形進行分析,提取的特征參數(shù)主要有語音的短時能量和平均幅度、短時平均過零率、短時自相關函數(shù)和短時平均幅度差函數(shù)等。第3頁,共76頁。3.2 語音信號的預處理 在對語音信號進行數(shù)字處理之前,首先要將模擬語音信號s(t) 離散化為s(n). 實際中獲得數(shù)字語音的途徑一般有兩種,正式的和非正式的。 正式的是指大公司或語音研究機構發(fā)布的被大家認可的語音數(shù)據庫,非正式的則是研究者個人用錄音軟件或硬件電路加麥克風隨時隨地錄制的一些發(fā)音或語句。第4頁,共76頁。 語音信號的頻率范
3、圍通常是3003400Hz,一般情況下取采樣率為8kHz即可。本書的數(shù)字語音處理對象為語音數(shù)據文件,是已經數(shù)字化了的語音。 有了語音數(shù)據文件后,對語音的預處理包括:預加重、加窗分幀等。第5頁,共76頁。3.2.1 語音信號的預加重處理 預加重目的:為了對語音的高頻部分進行加重,去除口唇輻射的影響,增加語音的高頻分辨率??赏ㄟ^一階FIR高通數(shù)字濾波器來實現(xiàn):設n時刻的語音采樣值為x(n) ,經過預加重處理后的結果為 第6頁,共76頁。高通濾波器的幅頻特性和相頻特性如下 第7頁,共76頁。預加重前和預加重后的一段語音信號時域波形 第8頁,共76頁。 預加重前和預加重后的一段語音信號頻譜 第9頁,共
4、76頁。3.2.2 語音信號的加窗處理 由于發(fā)音器官的慣性運動,可以認為在一小段時間里(一般為10ms30ms)語音信號近似不變,即語音信號具有短時平穩(wěn)性。這樣,可以把語音信號分為一些短段(稱為分析幀)來進行處理。 第10頁,共76頁。 語音信號的分幀實現(xiàn)方法: 采用可移動的有限長度窗口進行加權的方法來實現(xiàn)的。一般每秒的幀數(shù)約為33100幀。 分幀一般采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取為01/2。 第11頁,共76頁。圖3.3給出了幀移與幀長示意圖。 第12頁,共76頁。加窗常用的兩種方法:矩形窗,窗函數(shù)如下
5、:漢明(Hamming)窗,窗函數(shù)如下 第13頁,共76頁。矩形窗及其頻譜如下第14頁,共76頁。漢明窗及其頻譜如下思考:兩種窗效果有何異同?第15頁,共76頁。加窗方法示意圖: 第16頁,共76頁。窗長的選擇 一般選取100200。原因如下: 當窗較寬時,平滑作用大,能量變化不大,故反映不出能量的變化。 當窗較窄時,沒有平滑作用,反映了能量的快變細節(jié),而看不出包絡的變化。 第17頁,共76頁。 語音信號的分幀處理,實際上就是對各幀進行某種變換或運算。設這種變換或運算用T 表示,x(n)為輸入語音信號,w(n)為窗序列,h(n)是與w(n)有關的濾波器,則各幀經處理后的輸出可以表示為: 第18
6、頁,共76頁。幾種常見的短時處理方法是:1.對應于能量;2.,對應于平均過零率;3.對應于自相關函數(shù) ;第19頁,共76頁。3.3 短時平均能量 1短時平均能量定義定義n時刻某語音信號的短時平均能量En為: 當窗函數(shù)為矩形窗時,有第20頁,共76頁。若令 則短時平均能量可以寫成: 第21頁,共76頁。2. En特點:En反映語音信號的幅度或能量隨時間緩慢變化的規(guī)律 。3. 窗的長短對于能否由短時能量反映語音信號的幅度變化,起著決定性影響。 如果窗選得很長,En不能反映語音信號幅度變化。 窗選得太窄,En將不夠平滑。 通常,當取樣頻率為10kHz時,選擇窗寬度N=100200是比較合適的。第22
7、頁,共76頁。不同矩形窗長N時的短時能量函數(shù) 第23頁,共76頁。 短時平均能量的主要用途如下: 1)可以作為區(qū)分清音和濁音的特征參數(shù)。 2)在信噪比較高的情況下,短時能量還可以作為區(qū)分有聲和無聲的依據。 3)可以作為輔助的特征參數(shù)用于語音識別中。第24頁,共76頁。MATLAB的具體實現(xiàn)如下 :1、用Cooledit讀入語音“我到北京去”。2、將讀入的語音文件wav保存為txt文件,設置采樣率為8kHz,16位,單聲道。3、把保存的文件zqq.txt讀入Matlab。fid=fopen(zqq.txt,rt); x=fscanf(fid,%f);fclose(fid);4、對采集到的語音樣點
8、值進行分幀。第25頁,共76頁。3.4 短時平均幅度函數(shù) 為了克服短時能量函數(shù)計算x2 ( m ) 的缺點,定義了短時平均幅度函數(shù):第26頁,共76頁。 Mn與En的比較: 1. Mn能較好地反映清音范圍內的幅度變化; 2. Mn所能反映幅度變化的動態(tài)范圍比En好; 3. Mn反映清音和濁音之間的電平差次于En。 第27頁,共76頁。短時平均幅度函數(shù)隨矩形窗窗長N變化的情況第28頁,共76頁。3.5 短時平均過零率 1. 定義 在離散時間語音信號情況下,如果相鄰的采樣具有不同的代數(shù)符號就稱為發(fā)生了過零。單位時間內過零的次數(shù)就稱為過零率。短時平均過零率的定義為 第29頁,共76頁。在上式中,用1
9、/2N 作為幅值,是考慮了對該窗口范圍內的過零數(shù)取平均的意思。 第30頁,共76頁。 考慮到w(n-m)的非零值范圍為n-m0,即mn,以及 n-mN-1,故mn-N+1,因此短時平均過零率可以改寫為:(定義式)第31頁,共76頁。2. 實現(xiàn)短時平均過零率第32頁,共76頁。女聲“我到北京去”的短時平均過零次數(shù)的變化曲線:第33頁,共76頁。3. 應用 清音過零率高,濁音過零率低。 局限性:濁音和清音重疊區(qū)域只根據短時平均過零率不可能明確地判別清、濁音。第34頁,共76頁。端點檢測 端點檢測目的:從包含語音的一段信號中確定出語音的起點及結束點。 有效的端點檢測不僅能使處理時間減到最少,而且能抑
10、制無聲段的噪聲干擾,提高語音處理的質量。第35頁,共76頁。3.6 短時自相關分析 3.6.1 短時自相關函數(shù) 時域離散確定信號的自相關函數(shù)定義為: 時域離散隨機信號的自相關函數(shù)定義為: 周期為P的周期信號滿足: 第36頁,共76頁。 自相關函數(shù)具有下述性質: (1) 對稱性 R(k)= R(-k) (2) 在k = 0處為最大值,即對于所有k來說, |R(k)|R(0) (3) 對于確定信號,R(0)對應于能量 對于隨機信號,R(0)對應于平均功率 第37頁,共76頁。 采用短時分析方法,定義語音信號短時自相關函數(shù)為 因為所以3.6.2 語音信號的短時自相關函數(shù) 第38頁,共76頁。定義 (
11、3-18)那么短時自相關函數(shù)可以寫成: 上式表明,序列經過一個沖激響應為的數(shù)字濾波器濾波即得到短時自相關函數(shù) 第39頁,共76頁。第40頁,共76頁。也可采用直接運算的方法,令則可得:上式可以寫成 第41頁,共76頁。濁音的短時自相關函數(shù) 第42頁,共76頁。清音的短時自相關函數(shù) 第43頁,共76頁。濁音和清音的短時自相關函數(shù)有如下幾個特點:1)短時自相關函數(shù)可以很明顯的反映出濁音信號的周期性。2)清音的短時自相關函數(shù)沒有周期性,也不具有明顯突出的峰值,其性質類似于噪聲。3)不同的窗對短時自相關函數(shù)結果有一定的影響。第44頁,共76頁。圖3.16 不同矩形窗長時的短時自相關函數(shù)第45頁,共76
12、頁。3.6.3 修正的短時自相關函數(shù)修正的短時自相關函數(shù),其定義如下 第46頁,共76頁。式中,K為k的最大值,即0kK。要使為非零值,必須使 考慮到,可得 修正的短時自相關函數(shù)可以寫成: 第47頁,共76頁。因為求和上限是N-1,與k無關,故當k增加時,值不下降 . 第48頁,共76頁。3.6.4 短時平均幅度差函數(shù) 一個周期為P的周期信號,在k=0,P, 2P, 時, 對于濁音語音,在基音周期的整數(shù)倍上,d(n)總是很小,但不是零,因此,我們可以定義短時平均幅度差函數(shù)AMDF為 第49頁,共76頁。使用矩形窗時,短時平均幅度差函數(shù)可寫成:與之間的關系為:第50頁,共76頁。3.7 基于能量
13、和過零率的語音端點檢測 語音端點檢測就是指從包含語音的一段信號中確定出語音的起始點和結束點。 正確的端點檢測對于語音識別和語音編碼系統(tǒng)都有重要的意義。 本節(jié)介紹基于能量和過零率的語音端點檢測方法兩級判決法及程序實現(xiàn)。 第51頁,共76頁。 兩級判決法示意圖 第52頁,共76頁。 采用雙門限比較法的兩級判決法,具體如下 第一級判決: 1. 先根據語音短時能量的輪廓選取一個較高的門限T1,進行一次粗判:語音起止點位于該門限與短時能量包絡交點所對應的時間間隔之外(即AB段之外)。 2. 根據背景噪聲的平均能量確定一個較低的門限T2,并從A點往左、從B點往右搜索,分別找到短時能量包絡與門限T2相交的兩
14、個點C和D,于是CD段就是用雙門限方法根據短時能量所判定的語音段。 第53頁,共76頁。 第二級判決: 以短時平均過零率為標準,從C點往左和從D點往右搜索,找到短時平均過零率低于某個門限T3的兩點E和F,這便是語音段的起止點。門限T3是由背景噪聲的平均過零率所確定的。 注意:門限T2,T3都是由背景噪聲特性確定的,因此,在進行起止點判決前,T1,T2,T3,三個門限值的確定還應當通過多次實驗。第54頁,共76頁。 基于MATLAB程序實現(xiàn)能量與過零率的端點檢測算法步驟如下: (1)語音信號x(n)進行分幀處理。 (2)得到語音的短時幀能量。 (3)計算每一幀語音的過零率,得到短時幀過零率。 (
15、4)考察語音的平均能量設置一個較高的門限T1,用以確定語音開始,然后根據背景噪聲的平均能量確定一個稍低的門限T2,用以確定第一級語音結束點。第二級判決同樣根據背景噪聲平均過零率ZN,設置一個門限T3,判斷語音前端清音和后端尾音。第55頁,共76頁。3.8 基音周期估值 基音周期估值在語音信號處理應用中具有十分重要的作用。本節(jié)介紹語音信號基音周期估值最基本的兩種方法: 基于短時自相關法的基音周期估值 基于短時平均幅度差函數(shù)法的基音周期估值 第56頁,共76頁。3.8.1 基于短時自相關法的基音周期估值 語音的濁音信號具有準周期性,其自相關函數(shù)在基音周期的整數(shù)倍處取最大值。計算兩相鄰最大峰值間的距
16、離,就可以估計出基音周期。 為了突出反映基音周期的信息,同時壓縮其他無關信息,減小運算量,自相關計算之前需要對語音信號進行適當預處理。第57頁,共76頁。 預處理的兩種方法 第一種方法:先對語音信號進行低通濾波,再進行自相關計算。 第二種方法:先對語音信號進行中心削波處理,再進行自相關計算。常用的有兩種削波函數(shù),下面分別介紹。 1.中心削波 中心削波函數(shù)為 第58頁,共76頁。削波后的序列用短時自相關函數(shù)估計基音周期,在基音周期處峰值更加尖銳,可減少倍頻或半頻錯誤。 第59頁,共76頁。削波前后語音信號對比圖及修正自相關對比圖 第60頁,共76頁。 2三電平削波 為了克服短時自相關函數(shù)計算量大
17、的問題,在中心削波法的基礎上,還可以采用三電平削波法,削波函數(shù)如下式第61頁,共76頁。 經削波后的取樣值僅有三種可能情況,即+1,0,-1。顯然,這種信號的短時自相關函數(shù)的計算實際上是不需要乘法運算的,這就大大節(jié)省了計算時間。 第62頁,共76頁。第63頁,共76頁。第64頁,共76頁。3.8.2 基于短時平均幅度差函數(shù)AMDF法的基音周期估值 對于濁音語音,在基音周期的整數(shù)倍上的幅度差值不是零,但總是很小,因此,可以通過計算短時平均幅度差函數(shù)中兩相鄰谷值間的距離來進行基音周期估值。這里使用修正的短時平均幅度差函數(shù)并加矩形窗,得到: 第65頁,共76頁。 AMDF函數(shù)與短時自相關函數(shù)的不同是
18、: 自相關函數(shù)進行基音周期估計時尋找的是最大峰值點的位置,而AMDF尋找的是它的最小谷值點的位置。由于清音沒有周期性,所以它的自相關函數(shù)和平均幅度差函數(shù)均不具有準周期性的峰值或谷值。 第66頁,共76頁。第67頁,共76頁。3.8.3 基音周期估值的后處理 在提取基音時,無論采用哪種方法提取的基音頻率軌跡與真實的基音頻率軌跡都不可能完全吻合。實際情況是大部分段落吻合,而在一些局部段落和區(qū)域中有一個或幾個基音頻率估計值偏離,甚至遠離正常軌跡,通常是偏離到正常值的2倍或1/2處,即實際基音頻率的倍頻或分頻處,稱這種偏離點為基音軌跡的“野點”。 為了去除 “野點”,常用的平滑技術主要有:中值濾波平滑處理、線性平滑、動態(tài)規(guī)劃平滑處理。 第68頁,共76頁。 1. 中值平滑處理 基本原理:設x(n)為輸入信號,y(n)為中值濾波器的輸出,采用一滑動窗,則n0處的輸出值y(n0)就是將窗的中心移到n0處時窗內輸入樣點的中值。即在n0點的左右各取L個樣點。連同被平滑點共同構成一組信號采樣值(共(2L+1)個樣值),然后將這(2L+1)個樣值按大小次序排成一隊,取此隊列中的中間者作為平滑器的輸出。L值一般取為1或2,即中值平滑的“窗口”一般包括3至5個樣值,稱為3點或5點中值平滑。第69頁,共76頁。2. 線性平滑處理線性平滑是用滑動窗進行線性濾波處理 為2L+1點平滑
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療衛(wèi)生小知識
- 師德師風集中整治學習個人心得體會董光詩
- 基于Landsat-8影像的近岸海域水質等級遙感監(jiān)測研究
- 二零二五年度個人知識產權代理傭金協(xié)議3篇
- 現(xiàn)代農業(yè)產業(yè)園建設與發(fā)展策略
- 二零二五年度綠色建筑項目建議書編制委托合同6篇
- 二零二五年度鋼管行業(yè)安全生產責任承包合同
- 二零二五年度企業(yè)年鑒編撰與發(fā)布合同范本3篇
- 二零二五年度建筑工程土石方運輸及臨時堆場租賃合同3篇
- 如何進行有針對性的復習
- 黑龍江省哈爾濱市2024屆中考數(shù)學試卷(含答案)
- 高三日語一輪復習助詞「と」的用法課件
- 無子女離婚協(xié)議書范文百度網盤
- 一年級數(shù)學個位數(shù)加減法口算練習題大全(連加法-連減法-連加減法直接打印版)
- 五年級上冊數(shù)學試題試卷(8篇)
- 五年級上冊小數(shù)遞等式計算200道及答案
- 冀教版五年級下冊數(shù)學全冊教學課件
- 安全個人承諾書范文個人承諾書范文
- 遠視儲備培訓課件
- 【可行性報告】2023年虛擬演播室制作設備相關行業(yè)可行性分析報告
- 帶拼音生字本模板(可A4打印)
評論
0/150
提交評論