版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
現(xiàn)代語音信號處理(Python版)
思考題參考答案
2章語音信號處理的基礎(chǔ)知識
1、人的發(fā)音器官有哪些?人耳聽覺外周和聽覺中樞的功能是什么?
答:
1)人的發(fā)音器官包括:肺、氣管、喉(包括聲帶)、咽、鼻和口。
2)聽覺外周指的是位于腦及腦干以外的結(jié)構(gòu),包括外耳、中耳、內(nèi)耳和蝸神經(jīng),主要
完成聲音采集、頻率分解以及聲能轉(zhuǎn)換等功能;聽覺中樞包含位于聽神經(jīng)以上的所有聽覺結(jié)
構(gòu),對聲音有加工和分析的作用,主要包括感覺聲音的音色、音調(diào)、音強、判斷方位等功能,
還承擔與語言中樞聯(lián)系和實現(xiàn)聽覺反射的功能。
2、人耳聽覺的掩蔽效應分為哪幾種?掩蔽效應對研究語音信號處理系統(tǒng)有什么啟示?
答:
1)掩蔽效應分為同時掩蔽和短時掩蔽。(1)同時掩蔽是指同時存在的一個
弱信號和一個強信號頻率接近時,強信號會提高弱信號的聽閥,當弱信號的聽閥
被升高到一定程度時就會導致這個弱信號變得不可聞。一般來說,對于同時掩
蔽,掩蔽聲愈強,掩蔽作用愈大;掩蔽聲與被掩蔽聲的頻率靠得愈近,掩蔽效果
愈顯著。兩者頻率相同時掩蔽效果最大。(2)當A聲和B聲不同時出現(xiàn)時也存在
掩蔽作用,稱為短時掩蔽。短時掩蔽又分為后
向掩蔽和前向掩蔽。掩蔽聲B即使消失后,其掩蔽作用仍將持續(xù)一段時間,
約0.5?2秒,這是由于人耳的存儲效應所致,這種效應稱為后向效應。若被掩蔽
聲A出現(xiàn)后,相隔0.05?0.2秒之內(nèi)出現(xiàn)了掩蔽聲B,它也會對A起掩蔽作
用,這是由于A聲尚未被人所反應接受而強大的B聲已來臨所致,這種掩蔽稱為
前向掩蔽。
2)MP3等壓縮編碼便是聽覺掩蔽的重要應用,在這些編碼中只突出記錄了人
耳朵較為敏感的中頻段聲音,而對較高和較低的頻率的聲音則簡略記錄,從而大
大壓縮了所需的存儲空間。
3、根據(jù)發(fā)音器官和語音產(chǎn)生機理,語音生成系統(tǒng)可分成哪個部分?各有什么特點?
答:
語音生成系統(tǒng)分成三個部分,在聲門(聲帶)以下,稱為“聲門子系統(tǒng)”,
它負責產(chǎn)生激勵振動,是“激勵系統(tǒng)”;從聲門到嘴唇的呼氣通道是聲道,是
“聲道系統(tǒng)”;語音從嘴唇輻射出去,所以嘴唇以外是“輻射系統(tǒng)”。
4、語音信號的數(shù)學模型包括哪些子模型?激勵模型是怎樣推導出來的?輻射模型又是怎樣推
導出來的?它們各屬于什么性質(zhì)的濾波器?
答:
完整的語音信號的數(shù)字模型可以用三個子模型:激勵模型、聲道模型和輻射模型的串聯(lián)
來表示。傳輸函數(shù)”(z)可表示為:
”(z)=A?U(z”(z)R(z)
1)激勵模型一般分成濁音激勵和清音激勵。發(fā)濁音時,由于聲帶不斷張開和
關(guān)閉,將產(chǎn)生間歇的脈沖波。這個脈沖波的波形類似于斜三角形的脈沖。它的數(shù)學
表達式如下:
f(l/2)[l-cos(^n/7'l)J,0<n<T,
g(〃)=Jcos[15-G/27;],r,<?<T,+7;
[o,其他
式中,刀為斜三角波上升部分的時間,(為其下降部分的時間。單個斜三角波波
形的頻譜G(〃")是一個低通濾波器。它的Z變換的全極模型的形式是:
G(z)=-------1------
(l-e-cTz-')2
這里,c是一個常數(shù)。因此,斜三角波形串可視為加權(quán)單位脈沖串激勵上述單
個斜三角波模型的結(jié)果。而該單位脈沖串及幅值因子則可表示成下面的z變換形式:
FT
所以,整個濁音激勵模型可表示為:
A1
~~-(1
cT
i-z-e-z-'y
也就是說濁音激勵波是一個以基音周期為周期的斜三角脈沖串。
2)從聲道模型輸出的是速度波與(〃),而語音信號是聲壓波pj〃),二者之倒
比稱為輻射阻抗Z,。該阻抗表征口唇的輻射效應,也包括圓形的頭部的繞射效應
等。如果認為口唇張開的面積遠小于頭部的表面積,則可近似地看成平板開槽輻射的
情況.此時,輻射阻抗的公式如下:
(Q)—
Rr+jQL,
式中,R=123-,L=—,這里,a是口唇張開時的開口半徑,c是聲波傳播
r9乃2'3兀c
速度。
由于輻射引起的能量損耗正比于輻射阻抗的實部,所以輻射模型是一階類高通濾
波器。由于除了沖激脈沖串模型E(z)之外,斜三角波模型是二階低通而輻射
模型是一階高通,所以,在實際信號分析時,常用所謂“預加重技術(shù)”,即在取
樣后插入一個一階的高通濾波器。此時,只剩下聲道部分,就便于聲道參數(shù)的分
析了。在語音合成時再進行“去加重”處理,就可以恢復原來的語音。常用的預
加重因子為U-(R(l)z-'/R(0))]。這里,/?(〃)是信號S(〃)的自相關(guān)函數(shù)。通常對于
濁音,/?(1)//?(0)?1;而對于清音,則該值可取得很小。
5、什么是響度?是如何定義的?
答:
響度屬于心理范疇即人耳辨別聲音由強到弱的等級概念。對于響度的心理感
受,一般用單位宋(Sone)來度量,并定義1kHz、40dB的純音的響度為1宋。響度
的相對量稱為響度級,它表示的是某響度與基準響度比值的對數(shù)值,單位為方
(phon),即當人耳感到某聲音與1kHz單一頻率的純音同樣響時,該聲音聲壓級的
分貝數(shù)即為其響度級。
6、什么是音高?與頻率的關(guān)系如何?
答;
1)頻率與音高:以Hz為單位所測得的物理量一一頻率,在聽者來說感知為
心理量一一音高,即用人的主觀感覺來評價所聽到的聲音是高調(diào)還是低調(diào)??陀^
上音高大小主要取決于聲波基頻的高低,頻率高則音調(diào)高,反之則低,單位用赫
茲(Hz)表示。主觀感覺的音高單位是“美(Mel)”,通常定義響度為40方的1kHz
純音的音高為1000美。赫茲與“美”同樣是表示音高的兩個不同概念而又有聯(lián)系
的單位。
2)主觀音高與客觀音高的關(guān)系是:
W=2595*lg(l+//700)
7、在語音信號參數(shù)分析前為什么要進行預處理,有哪些預處理過程?
答:
1)預處理的目的是去除干擾,更好的呈現(xiàn)語音信號或者是后繼實際應用做的特殊前
置處理。比如預濾波,其作用有兩個:①抑制輸入信號各頻域分量中頻率超出£/2的所
有分量(工為采樣頻率),以防止混疊干擾。②抑制50Hz的電源工頻干擾。2)預處理
包括預濾波、分幀加窗、預加重等過程。
8、語譜圖有何特點?為什么采用語譜圖來表征語音信號?
答:
1)語譜圖是一種三維頻譜,它是表示語音頻譜隨時間變化的圖形,其縱軸
為頻率,橫軸為時間,任一給定頻率成分在給定時刻的強弱用相應點的灰度或色
調(diào)的濃淡來表示。
2)采用語譜圖來表征語音信號是因為語譜圖包含了大量的與語音特性有關(guān)的
信息、,它綜合了頻譜圖和時域波形的特點,明顯地顯示出語音頻譜隨時間的變化
情況,或者說是一種動態(tài)的頻譜。語譜圖的實際應用之一是可用于確定不同的講
話人。
第3章語音信號分析方法
1、語音信號為什么需要分幀處理?幀長的選擇有什么依據(jù)?
答:
1)因為語音信號從整體來看其特性及表征其本質(zhì)特征的參數(shù)均是隨時間而
變化的,所以它是一個非平穩(wěn)態(tài)過程,不能用處理平穩(wěn)信號的數(shù)字信號處理技術(shù)
對其進行分析處理。但是在一個短時間范圍內(nèi)(一般認為在10ms?30ms的短時
間內(nèi)),其特性基本保持不變即相對穩(wěn)定。所以,在短時間范圍內(nèi)可以將語音信
號看作是一個準穩(wěn)態(tài)過程,即短時平穩(wěn)性。任何語音信號的分析和處理必須建立
在“短時”基礎(chǔ)上,即進行“短時分析”,將語音信號分為一段一段來分析其特
征參數(shù)。
2)對于語音信號處理來說,一般每秒約取33~100幀,視實際情況而定.分
幀一般采用交疊分段的方法,這是為了保證幀與幀之間平滑過渡,保持其連續(xù)
性。前一幀和后一幀的交疊部分稱為幀疊。幀疊與幀長的比值一般取為0?l/2o
2、短時能量和短時過零率的定義是什么?常用的有哪幾種窗口?
答:
1)短時能量:設第〃幀語音信號士(相)的短時能量用E“表示,則其計算公式如下:
N-1
m=0
短時過零率:短時過零率表示一幀語音中信號波形穿過橫軸(零電平)的次
數(shù)。對于連續(xù)語音信號,過零即意味著時域波形通過時間軸;而對于離散信號,
如果相鄰的取樣值改變符號則稱為過零。過零率就是樣本改變符號的次數(shù)。
定義語音信號X,(加)的短時過零率Z,,為:
1N-\
Z"=3>sgn[x?(⑼]-sgn區(qū)(m-l)]|
式中,sgn[]是符號函數(shù)。
2)常用的窗函數(shù)有矩形窗、漢明窗、布萊克曼窗等。
3、短時自相關(guān)函數(shù)和短時平均幅差函數(shù)的定義及其用途是什么?在選擇窗口函數(shù)時應考慮
什么問題?
答:
1)語音信號演(〃?)的短時自相關(guān)函數(shù)為凡,(%)的計算式如下:
N-1-k
R”(k)=£xn(m)xn(fn+k)(0<k<K)
tn=O
這里,K是最大的延遲點數(shù)。自相關(guān)函數(shù)可用于求出濁音的基音周期,也可用于語音
信號的線性預測分析。
短時平均幅度差函數(shù)可定義為:
N-k+]
工仕)=E
m=1
為了避免乘法,常常采用平均幅度差函數(shù)代替自相關(guān)函數(shù)進行語音分析。2)選擇窗
口函數(shù)時應考慮的問題:在選擇窗口時,一方面,窗長至少應大于兩個基音
周期,否則找不到自相關(guān)函數(shù)的第一個最大值點。另一方面,窗長也要盡可能小,否則將
影響短時性。因此,長基音周期要用寬窗,短基音周期要用窄窗。
4、如何利用FFT求語音信號的短時譜?如何提高短時譜的頻率分辨率?什么是語音信號的
功率譜,為什么在語音信號數(shù)字處理中,功率譜具有重要意義?
答:
1)短時譜定義:對第〃幀語音信號光,,(〃?)進行離散時域傅里葉變換,可得到短時傅
N-1
里葉變換:X”(e2)=Zx(m)w(n-m)e-jMn。
m=0
2)增加點數(shù)的同時增加有效數(shù)據(jù)長度才能使分辨率越好。
3)功率譜為自相關(guān)函數(shù)的傅立葉變換
N-\
P,O=ZR,,(k)e-j旗
1k=-N+\I
R(k)=_8X("2+Z)X*(〃2)=—X
“NEn〃N”〃
1'in=-<x>1
4)功率譜從能量的觀點對信號進行研究,給出了區(qū)別于時域的功率描述方法,常應用
于統(tǒng)計信號處理。
5、請敘述同態(tài)信號處理的基本原理(分解和特征系統(tǒng))。倒譜的求法及語音信號兩個分量
的倒譜性質(zhì)是什么?
答:
1)同態(tài)信號處理也稱為同態(tài)濾波,它實現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理,
即解卷。一般同態(tài)系統(tǒng)可分解為三個部分,兩個特征子系統(tǒng)(取決于信號的組合規(guī)則)和
一個線性子系統(tǒng)(取決于處理的要求),如圖所示。
第一個子系統(tǒng)完成將卷積性信號轉(zhuǎn)化為加性信號的運算,即對信
X(〃)=X](")*%2(〃)進行如下運算處理:
(l)Z|ix(n)lj=X(z)=Xi(z).X2(z)
zX(修/\
fZ-VZ)
vJH7
Z1=?=
.
2
12
第二個子系統(tǒng)是一個普通線性系統(tǒng),滿足線性疊加原理,用于對加性信號進行線性變換。
由于£(〃)為加性信號,所以第二個子系統(tǒng)可對其進行需要的線性處理得到y(tǒng)(〃)。
第三個子系統(tǒng)是逆特征系統(tǒng),通過對);(〃)=%(〃)+?(〃)進行逆變換,使其恢復為
卷積性信號,處理如下:\z\/\式0
)()
1l(
z\7\7Z
z1yy
-()z=Z+
(2H
y/
3-l7
xL
H22
ra\
le!瑞
/x*自
2)倒譜求法:設\/Xf>)
X-\z
M/)=ln|x(/)+jargp(*)],
只考慮反(e,3)的實部,得:
c(〃)=廣??.。)]
式中,c(〃)是光(〃)對數(shù)幅值譜的逆傅里葉變換,稱為倒頻譜,簡稱倒譜。由于濁
音信號的倒譜中存在著峰值,出現(xiàn)位置等于該語音段的基音周期,而清音的倒
譜中則不存在峰值?因此,利用這個特性就可以判斷清濁音或者估計濁音的基音周期。
6、什么是復倒譜?什么是倒譜?已知復倒譜怎樣求倒譜?已知倒譜怎樣求復倒譜,有什么
條件限制?
答:
1)復倒譜:£(〃)=ZT「[lnZfx(〃)]jl」
2)倒譜:設(*)]
X〔J,則對其取對數(shù)得:
**)=ln|x(e,3)+jarg*("。)],
只考慮戈(e”")的實部,得c(〃)=尸]ln|X(e”)],c(〃)是x(〃)對數(shù)幅值譜的逆
傅里葉變換,稱為倒頻譜,簡稱倒譜
3)首先將復倒譜9(〃)表示成一個偶對稱序列£(〃)和一個奇對稱序列寸()(〃)之和:
xXn)=xe(n)+xo(n)
其中,xe(n)-xe(-n),xo(n)=-xo(-n),則
1
總(〃)=—[/(〃)+x(-?)1
x/n)=1[An)-x(-?)]
2
由于一個偶對稱序列的DTFT是一個實函數(shù),而一個奇對稱序列的DTFT是一個虛函數(shù),
對照X(ejm)=ln|x(e"")|+/arglX%'")]便可以得到:
總(〃)=F-,[Re[X(e;(B)]]=尸[in|X?。)|]
而由c(〃)=bT[ln|x(eW)|]可得:
以〃)3[中(/。)|]=只
所以有
c⑺=總=1[/(〃)+x(.-ri)]
2
這樣,由一(〃)即可求得c(〃)。
4)已知一個實數(shù)序列x(〃)的倒譜c(〃),那么當/(〃)必須滿足一定的條件時,也可用
來求出復倒譜An)o例如An)是一個因果序列,該條件可表示為:
x(ti)—x(n)w(n)
其中,〃(〃)是一個單位階躍函數(shù)??梢钥闯?,在滿足此條件時,c(〃)=意=1[三(〃)
2
+X”(T?)]可以表示成下列形式:
>()
2
c(n)—\x(ri),n=0
-Z(-?),n<Q
12
因此,立即得到:
2c(n),n>0
=Jc("),〃=0
0,/i<0
如果9(")是一個反因果序列,即滿足下列條件:
x(ri)=x(h)M(-?)
則可以導出:
0,n>0
x"(〃)=《c(〃),〃=O
2c(〃),n<0
可以證明,只有當/(九)是一個因果最小相位序列時,才是一個因果穩(wěn)定序列。此時,
尤(〃)應滿足兩個條件:1)x(n)=x(n)u(n);2)X(Z)=Z[x(〃)]的零極點都應該在單位圓
之內(nèi)。第二個條件之所以必要是因為戈(Z)等于X(Z)的自然對數(shù),因而X(Z)的零極點皆成
為戈(Z)的極點。因此,只有當X(Z)的零極點皆在單位圓內(nèi)時才能使戈(Z)的極點全在單位
圓內(nèi),從而保證是一個因果穩(wěn)定序列。當x(〃)是一個反因果最大相位序列時,以“)才
是一個反因果穩(wěn)定序列。它的條件與前一個情況正好完全相反。只有武〃)是因果最小相位
序列或反因果最大相位序列,便可以由c(〃)算出京〃)。
7、如何將信號模型化為模型參數(shù)?最常用的是什么模型?什么叫做線性預測和線性預測方
程式以及如何求解它們?
答:
1)對一個簡單的語音模型來說,假設系統(tǒng)的輸入e(〃)是語音激勵,s(〃)是輸出語
音。此時模型的系統(tǒng)函數(shù)〃(z)可以寫成有理分式的形式:
q
1+£瓦z"
i=l
該系統(tǒng)對應的輸入與輸出之間的時域關(guān)系為:
pq
s(〃)=+
i=l1=0
式中,系數(shù)4,%及增益因子G是模型的參數(shù),而。和。是選定的模型的階數(shù)。因而
信號可以用有限數(shù)目的參數(shù)構(gòu)成的模型來表示。
2)最常用的模型是全極點模型
3)線性預測分析的基本思想是由于語音樣點之間存在相關(guān)性,所以可以用過去的樣點
值來預測現(xiàn)在或未來的樣點值,即一個語音的抽樣能夠用過去若干個語音抽樣或它們的線
性組合來逼近。通過使實際語音抽樣和線性預測抽樣之間的誤差在某個準則下達到最小值
來決定唯一的一組預測系數(shù)。
p
線性預測方程式為。(/,0)=>>*(〃)(1<J<P)
對于線性預測參數(shù)4?的求解,有自相關(guān)法和協(xié)相關(guān)法兩種經(jīng)典解法,另外還有效率較
高的格型法等。8、什么叫做線譜對,它有什么特點,它是如何推導出來的,
有什么用途?答:
1)線譜對分析也是一種線性預測分析方法,只是它求解的模型參數(shù)是“線譜對"(LSP)。
主要特點:(1)LSP參數(shù)都在單位圓上且降序排列;(2)與LSP參數(shù)對應的LSF升序排列,
且尸(z)和。屹)的根相互交替出現(xiàn),這可使與LSP參數(shù)對應的LPC濾波器的穩(wěn)定性得到保證。
上述特性保證了在單位圓上,任何時候P⑸和0(z)不可能同時為零;(3)LSP參數(shù)具有相
對獨立的性質(zhì)。如果某個特定的LSP參數(shù)中只移動其中任意一個線譜頻率的位置,那么它所
對應的頻譜只在附近與原始語音頻譜有差異,而在其它LSP頻率上則變化很小。這樣有利于
LSP參數(shù)的量化和內(nèi)插;(4)LSP參數(shù)能夠反映聲道幅度譜的特點,在幅度大的地方分布較
密,反之較疏。這樣就相當于反映出了幅度譜中的共振峰特性;(5)相鄰幀LSP參數(shù)之間
都具有較強的相關(guān)性,便于語音編碼時幀間參數(shù)的內(nèi)插。
2)LSP作為線性預測參數(shù)的一種表示形式,可通過求解p+1階對稱和反對稱多項式的
共規(guī)復根得到。其中,p+1階對稱和反對稱多項式表示如下:
P(z)=A(z)+z_(p+I)A(z'1)
Q(z)=A(z)-Z-")A(ZT)
其中,zY"i)A(zT)=z-(E-年-。一取但-----apz'?
可以推出:
-1-2-/,-(/)+1)
P(z)=1-(6+ap)z-(a2+ap_l)z----(?,+a/,)z+z
Q(z)=l-(4-與尸-(—ap-\)z'----(a?-al>\z~p-z^p+>^
p(z)、Q(z)分別為對稱和反對稱的實系數(shù)多項式,它們都有共金復根??梢宰C明,當
A(z)的根位于單位圓內(nèi)時,P(z)和Q(z)的根都位于單位圓上,而且相互交替出現(xiàn)。如果階
數(shù)P是偶數(shù),則P(z)和Q(z)各有一個實根,其中P(z)有一個根z=-l,Q(z)有一個根z=l。
如果階數(shù)P是奇數(shù),則P(z)有兩個根z=T,z=l,Q(z)沒有實根。此處假定p是偶
數(shù),這樣P(z)和Q(z)各有p/2個共軌復根位于單位圓上,共規(guī)復根的形式為z,=e±總,
設P(z)的零點為e士為,Q(z)的零點為則滿足:
0〈①i<4<…<a>pl2<6pa<n
其中,@,a分別為p⑵和Q(Z)的第i個根。
_1_|_-1/2-1-2
p/n2(l-z^)(l-ze^)=(l+z)i>(l-2cosiyz+z)
[]i
^/=l_1_2
-IZ一一z,-聞)=(1,,^(l-2cos6>z+z)
2(X-7p/u2
式中,cos@和cos,,(i=1,2,…,p/2)是LSP系數(shù)在余弦域的表示;3,g則是與
LSP系數(shù)對應的線譜頻率。
9、線譜對參數(shù)與線性預測系數(shù)如何轉(zhuǎn)換?答:
LPC到LSP參數(shù)的轉(zhuǎn)換為
,()3H(;)(“)H(「,)
P--1—zeJ1i-i-j/=1-2ocos69z+z~
1+z;-11e
n陽M')(°)FI(,)
Q'〈zJ=l-z-'eJll-z-'e-J'=1-2cos^z-1+z-2
1-ZHI(=i
從LPC到LSP參數(shù)的轉(zhuǎn)換過程,其實就是上面兩式等于零時的cos?和cos4的值。
LSP參數(shù)到LPC的轉(zhuǎn)換為
出=(|0.5Pi(i)+0.5q,(i)i=l,2,...,p/2
[|05p,(p+1—z)-0.5^1(/?+1-z)z=p/2+1,...,p
10、什么叫做MFCC和LPCC?如何求解它們?
答:
1)MFCC:梅爾頻率倒譜系數(shù)。MFCC的計算一般會經(jīng)過幾個步驟,包括預加重,分
幀,加窗,快速傅里葉變換(FFT),梅爾濾波器組,離散余弦變換(DCT)。求解步驟如下:
具體步驟可以參考教材相關(guān)內(nèi)容.
2)LPCC:線性預測倒譜系數(shù)。LPC系數(shù)是線性預測分析的基本參數(shù),可以把這些系數(shù)
變換為其他參數(shù),以得到語音的其它替代表示方法。LPC系數(shù)可以轉(zhuǎn)換為LPC系統(tǒng)沖激響應
的復倒譜。
設通過線性預測分析得到的聲道模型系統(tǒng)函數(shù)為:
”(z)=~~7
1+£4-
1=1
其沖激響應為力(〃),設/?”(〃)表示/?(〃)的復倒譜,則有:
00
方(z)=lnH(z)=E3(〃)zf
W=I
將”⑵代入并將其兩邊對Z-I求導數(shù),有
(I+Ea*z")Z—=一2如二*‘
Jl=ln=\hl
令上式左右兩邊的常數(shù)項和Z-I各次基的系數(shù)分別相等,從而可由4.求出/?'(〃):
6(0)=0
h(y)=_%
n-l|
〃(〃)=一6一4(1一“/〃)4%(〃—左)(iw〃vp)j
、(\-k/n)ah(ti-k)(鹿〉p)
力(〃)p
k=\J
按上式求得的復倒譜始(〃)稱之為LPC復倒譜。求得復倒譜/?”(〃)后,由
c(〃)=L[h(n)+//(-〃)]即可立即求出倒譜c(〃)。但是,這個倒譜c(〃)是實際頻率尺度的
2
倒譜系數(shù)(稱為LPC倒譜系數(shù)(LPCC))。
第4章語音信號特征提取技術(shù)
1、為什么要進行端點檢測?端點檢測容易受什么因素影響?
答:
1)端點檢測在語音信號處理中占有十分重要的地位,直接影響著系統(tǒng)的性能。語音端
點檢測是指從一段語音信號中準確的找出語音信號的起始點和結(jié)束點,它的目的是為了使有
效的語音信號和無用的噪聲信號得以分離,因此在語音識別、語音增強、語音編碼、回聲抵
消等系統(tǒng)中得到廣泛應用。
2)容易受背景噪聲的影響。
2、常用的端點檢測算法有哪些?各有什么優(yōu)缺點?答:
1)目前端點檢測方法大體上可以分成兩類:一類是基于閾值的方法,該方法根據(jù)語音
信號和噪聲信號的不同特征,提取每一段語音信號的特征,然后把這些特征值與設定的閾值
進行比較,從而達到語音端點檢測的目的。此類方法原理簡單,運算方便,所以被人們廣泛
使用;另一類方法是基于模式識別的方法,需要估計語音信號和噪聲信號的模型參數(shù)來進行
檢測。由于基于模式識別的方法自身復雜度高,運算量大,因此很難被人們應用到實時語音
信號系統(tǒng)中去。
2)優(yōu)缺點:在高信噪比的條件下,上述方法大部分都能正常工作,端點檢測的準確率
都比較高。但是隨著信噪比的降低,基于能量和基于倒譜距離的語音端點檢測方法檢測準確
率急速降低。
3、常用的基音周期檢測方法有哪些?敘述它們的工作原理和框圖。
答:
倒譜法:由于語音x(i)是由聲門脈沖激勵“⑺經(jīng)聲道響應V⑺濾波而得,即
x(i)="(i)*v(z)o設這三個量的倒譜分別為X(0'?"(0'v(i),則有x(0=U(i)+v\i)o由于在
倒譜域中?(0和/(/)是相對分離的,說明包含有基音信息的聲脈沖倒譜可與聲道響應倒譜分
離,因此從倒頻譜域分離“電后恢復出“⑴,可從中求出基音周期。在計算出倒譜后,就在
倒頻率為P-P之間尋找倒譜函數(shù)的最大值,倒譜函數(shù)最大值對應的樣本點數(shù)就是當前
幀語音信號符基署周期1(〃),基音頻率為尸*)=//T(〃)。
自相關(guān)法:短時自端關(guān)法基音檢測主要總利用.時各相關(guān)函數(shù)的性質(zhì),通過比較原始信
號及其延遲后信號間的類似性來確定基音周期。歸一化自相關(guān)函數(shù)的最大幅值是b其它延
遲量時,幅值都小于1?如果延遲量等于基音周期,那兩個信號具有最大類似性;或直接找
出短時自相關(guān)函數(shù)的兩個最大值間的距離,即作為基音周期的初估值。和倒譜法尋找最大值
一樣,用相關(guān)函數(shù)法時也在P-P間尋找歸一化相關(guān)函數(shù)的最大值,最大值對應的延遲
minmax
量就是基音周期。
線性預測法:信號值x?(ni)與線性預測值x?(m)之差稱為線性預測誤差,用e,,⑺)表示,
即en(/n)=x?(w)-=x?(m)--〃),由于線性預測誤差已經(jīng)去除了共振峰的響
應,其倒譜能把聲道的影響減到最二、。所以,將線性預測誤差號⑺)表示通過倒譜運算也可
以提取基音周期。
4、為什么要進行基音檢測的后處理?在后處理中常用的有哪幾種基音軌跡平滑方法?
答:
1)無論采用哪一種基音檢測算法都可能產(chǎn)生基音檢測錯誤,使求得的基音周期軌跡中
有一個或幾個基音周期估值偏離了正常軌跡(通常是偏離到正常值的2倍或1/2),這種偏
離點稱為基音軌跡的“野點”。
2)中值平滑處理,線性平滑處理,組合平滑處理
5、為什么共振峰檢測有重要意義?常用的共振峰檢測方法有哪些?敘述其工作原理。
答:
1)共振峰參數(shù)包括共振峰頻率、頻帶寬度和幅值,包含在語音頻譜的包絡中。語音信
號共振峰估計在語音信號合成、語音信號自動識別和低比特率語音信號傳輸?shù)确矫娑计鹬?/p>
重要作用,所以共振峰檢測有重要意義。
2)倒譜法:具體步驟如下:
①對語音信號x(i)進行預加重,并進行加窗和分幀,然后做傅里葉變換。
N-I
Xi(k)=£xi(n)e--
n=0
這里,i代表第i幀。
②求取X,伏)的倒譜;
2
^(?)=vlog'x'aR'
Nk=0
③給倒譜信號后(〃)加窗〃(”),得
此處的窗函數(shù)和倒頻率的分辨率有關(guān),即和采樣頻率及FFT長度有關(guān)。其定義為:
[1n<n0-l&n>N-n0+l
h(n)=〈w[0,N-1]
[0n0-l<n<N-n0+l
④求取似")的包絡線
JV-I
H;(k)=£h.)efN
〃=0
⑤在包絡線上尋找極大值,獲得相應的共振峰參數(shù)。
線性預測法:預測誤差濾波器A(z)的表示為:
A(z)=l
/=!
求其多項式復根可精確的確定共振峰的中心頻率和帶寬。
設z,=為任意復根值,則其共輾值z;=、-w也是一個根。設與Z,對應的共振峰頻
率為F,3dB帶寬為B,則F及B與Z之間的關(guān)系為
iiiii
[2萬巴/工=a
其中人為采樣頻率,所以
B:=_ln『fs/兀
因為預測誤差濾波器階數(shù)?是預先設定的,所以復共物對的數(shù)量最多是p/2。因為不
屬于共振峰的額外極點的帶寬遠大于共振峰帶寬,所以比較容易剔除非共振峰極點。
6、試編寫譜距離法進行端點檢測的Python函數(shù),并編程進行驗證。答:
請參考附帶的Python程序。
7、試編寫倒譜法進行基音周期檢測的Python函數(shù),并編程進行驗證。答:
請參考附帶的Python程序。
第5章神經(jīng)網(wǎng)絡與深度學習
1、對比生物神經(jīng)元,簡述人工神經(jīng)網(wǎng)絡的組成特點。
答:
人工神經(jīng)網(wǎng)絡與生物神經(jīng)元類似,由多個節(jié)點(人工神經(jīng)元)相互連接而成,可以用
來對數(shù)據(jù)之間的復雜關(guān)系進行建模。不同節(jié)點之間的連接被賦予了不同的權(quán)重,每個權(quán)重
代表了一個節(jié)點對另一個節(jié)點的影響大小。每個節(jié)點代表一種特定函數(shù),來自其他節(jié)點的
信息經(jīng)過其相應的權(quán)重綜合計算,輸入到一個激勵函數(shù)中并得到一個新的活性值(興奮或
抑制)。從系統(tǒng)觀點看,人工神經(jīng)元網(wǎng)絡是由大量神經(jīng)元通過極其豐富和完善的連接而構(gòu)
成的自適應非線性動態(tài)系統(tǒng)。
2、激活函數(shù)有那些重要性質(zhì)?
答:
為了增強網(wǎng)絡的表示能力和學習能力,激活函數(shù)需要具備以下幾點性質(zhì):
(1)連續(xù)并可導(允許少數(shù)點上不可導)的非線性函數(shù)??蓪У募せ詈瘮?shù)可以直接利
用數(shù)值優(yōu)化的方法來學習網(wǎng)絡參數(shù)。
(2)激活函數(shù)及其導函數(shù)要盡可能的簡單,有利于提高網(wǎng)絡計算效率。
(3)激活函數(shù)的導函數(shù)的值域要在一個合適的區(qū)間內(nèi),不能太大也不能太小,否則會
影響訓練的效率和穩(wěn)定性。
3、如果用全連接前饋網(wǎng)絡來處理圖像時,會存在什么問題?
答:
(1)參數(shù)太多:隨著隱藏層神經(jīng)元數(shù)量的增多,參數(shù)的規(guī)模也會急劇增加。這會導致
整個神經(jīng)網(wǎng)絡的訓練效率會非常低,也很容易出現(xiàn)過擬合。
(2)局部不變性特征:自然圖像中的物體都具有局部不變性特征,比如在尺度縮放、
平移、旋轉(zhuǎn)等操作不影響其語義信息。而全連接前饋網(wǎng)絡很難提取這些局部不變特征,一
般需要進行數(shù)據(jù)增強來提高性能。
4、卷積神經(jīng)網(wǎng)絡的基本構(gòu)成有哪些,簡述其結(jié)構(gòu)特點。答:
目前的卷積神經(jīng)網(wǎng)絡一般是由卷積層、池化層和全連接層交叉堆疊而成的前饋神經(jīng)網(wǎng)
絡,使用反向傳播算法進行訓練。卷積神經(jīng)網(wǎng)絡有三個結(jié)構(gòu)上的特性:局部連接,權(quán)重共
享以及池化。這些特性使得卷積神經(jīng)網(wǎng)絡具有一定程度上的平移、縮放和旋轉(zhuǎn)不變性。和
前饋神經(jīng)網(wǎng)絡相比,卷積神經(jīng)網(wǎng)絡的參數(shù)更少。
5,池化層的作用是什么?答:
池化層也叫子采樣層,其作用是進行特征選擇,降低特征數(shù)量,并從而減少參數(shù)量。
6、簡單描述循環(huán)神經(jīng)網(wǎng)絡的梯度消失問題及其解決方法。
答:
由于循環(huán)神經(jīng)網(wǎng)絡經(jīng)常使用非線性激活函數(shù)為logistic函數(shù)或tanh函數(shù)作為非線性
激活函數(shù),其導數(shù)值都小于1;并且權(quán)重矩陣也不會太大,因此如果時間間隔過大,則損
失的倒數(shù)會趨向于0,因此出現(xiàn)梯度消失問題。
梯度消失是循環(huán)網(wǎng)絡的主要問題。除了使用一些優(yōu)化技巧外,更有效的方式就是改變
模型,使相鄰隱層狀態(tài)之間為線性依賴關(guān)系,且權(quán)重系數(shù)為1,這樣就不存在梯度爆炸或
消失問題。但是,這種改變也丟失了神經(jīng)元在反饋邊上的非線性激活的性質(zhì),因此降低了
模型的表示能力。
7、針對梯度消失或爆炸問題,LSTM網(wǎng)絡做了哪些改進?
答:
長短期記憶(LongShort-TermMemory,LSTM)網(wǎng)絡是循環(huán)神經(jīng)網(wǎng)絡的一個變體,可
以有效地解決簡單循環(huán)神經(jīng)網(wǎng)絡的梯度爆炸或消失問題。主要改進在以下兩
個方面:
1)LSTM網(wǎng)絡引入一個新的內(nèi)部狀態(tài)專門進行線性的循環(huán)信息傳遞,同時(非線性)
輸出信息給隱藏層的外部狀態(tài)。
2)LSTM網(wǎng)絡引入門機制來控制信息傳遞的路徑。LSTM網(wǎng)絡中的“門”是一種“軟”
門,取值在(0,1)之間,表示以一定的比例運行信息通過。
LSTM網(wǎng)絡中三個門的作用為:
>遺忘門控制上一個時刻的內(nèi)部狀態(tài)需要遺忘多少信息。
>輸入門控制當前時刻的候選狀態(tài)有多少信息需要保存。
>輸出門控制當前時刻的內(nèi)部狀態(tài)有多少信息需要輸出給外部狀態(tài)。
第6章語音增強
1、什么是語音增強抗噪聲技術(shù)?利用語音增強解決噪聲污染的問題,主要是從哪個角度來
提高語音處理系統(tǒng)的抗噪聲能力的?
答:
1)語音增強抗噪聲技術(shù)是通過估計有噪語音信號的噪聲特性來去除噪聲信號,然后通
過消除噪聲分量來提供干凈的語音信號的技術(shù)。
2)主要是從以下角度來提高語音處理系統(tǒng)的抗噪聲能力:
①采用語音增強算法提高語音識別系統(tǒng)前端處理的抗噪聲能力,提高輸入信號的信噪
比;
②尋找穩(wěn)健的耐噪聲的語音特征參數(shù);
③基于模型參數(shù)適應化的噪聲補償算法。
2、混疊在語音信號中的噪聲一般如何分類?什么叫加法性噪聲和乘法性噪聲?什么叫平穩(wěn)
噪聲和非平穩(wěn)噪聲?
答:
1)混疊在語音信號中的噪聲按類別分為加性噪聲和乘性噪聲,按性質(zhì)可分為平穩(wěn)噪聲
和非平穩(wěn)噪聲。
2)加法性噪聲通常分為沖激噪聲、周期噪聲、寬帶噪聲、語音干擾噪聲等,它們與信
號的關(guān)系是相加,不管有沒有信號,噪聲都存在。
乘法性噪聲主要是混響及電器線路干擾等,一般由信道不理想引起,它們與信號的關(guān)
系是相乘,隨信號存在而存在。
3)平穩(wěn)噪聲的統(tǒng)計特性不隨時間變化;非平穩(wěn)噪聲的統(tǒng)計特性隨時間變化而變化。
3、什么是人耳的掩蔽效應?怎樣可以把人耳的掩蔽效應應用到語音系統(tǒng)的抗噪聲處理中?
人耳的自動分離語音和噪聲的能力與什么有關(guān)?能否把這種原理應用到語音系統(tǒng)的抗噪聲
處理中?
答:
1)人耳的掩蔽效應是指當同時存在兩個聲音時,聲強較低的頻率成分會受到聲強較高
的頻率成分的影響,不易被人耳感知到。
2)將聽覺掩蔽模型與譜減、維納降噪等方法結(jié)合起來,進一步提高降噪效果,以有效
掩蔽噪聲和最大限度地保留語音。
3)人耳的自動分離語音和噪聲的能力與人的雙耳輸入效應有關(guān).
4)能。因為語音信號能夠掩蔽與其同時進入聽覺系統(tǒng)的一部分能量較小的噪聲信號,
使得這部分噪聲不為人感知,可在復雜環(huán)境中獲取特定的語音信號。
4、為什么對加法性噪聲的處理是語音增強抗噪聲技術(shù)的基礎(chǔ)?怎樣能夠把乘性噪聲變換成
加性噪聲來處理?
答:
1)一般通信中把加法性噪聲看成是系統(tǒng)的背景噪聲,背景噪聲的存在不僅嚴重破壞了
語音信號原有的模型參數(shù)和聲學特性,導致許多語音處理系統(tǒng)服務質(zhì)量的降低,而且會影
響系統(tǒng)輸出語音的可懂度,使聽眾產(chǎn)生聽覺疲勞。對加性噪聲進行處理,從帶噪聲語音信
號中提取盡可能的純凈的原始語音,改善語音質(zhì)量提高語音可懂度,是語音增強的有效的
基本方法。
2)乘性噪聲在時域和語音是卷積關(guān)系,可以通過某種變換如同態(tài)濾波,轉(zhuǎn)變?yōu)榧有栽?/p>
聲。
5、利用譜減法語音增強技術(shù)解決噪聲污染的問題時,在最后通過IFFT恢復時域語音信號
時,對相位譜信息是怎么處理的?為什么可以這樣處理?
答:
1)直接用帶噪語音信號的相位譜來代替估計之后的語音信號的相位譜。
2)因為人耳對相位變化不敏感,所以可用帶噪語音信號的相位譜來代替估計之后的語
音信號的相位譜來恢復降噪后的語音信號。
6、利用譜減法語音增強技術(shù)處理非平穩(wěn)噪聲時,應怎樣更新噪聲功率值?如果減除過度或
過少時,將會產(chǎn)生什么后果?
答:
1)對非平穩(wěn)噪聲信號進行加窗分幀處理,并通過發(fā)聲前的所謂“寂靜段”可求出該噪
聲段的功率值。
2)噪聲功率譜減除過度或過少均會影響最終降噪后的語音時域信號的還原效果,減除
過度會使還原譜失真,減除過少不能有效減少噪聲殘留,無法削弱“音樂噪聲”。
7、什么是Weiner濾波?怎樣利用Weiner濾波法進行語音增強?答:
1)Weiner濾波是使估計誤差(定義為期望響應與濾波器實際輸出之差)均方值最小
化的濾波方法。2)基本方法:
設帶噪語音信號為
x(n)=s(n)+v(ri)
其中,x(n)表示帶噪信號,可〃)表示噪聲,則經(jīng)過維納濾波器〃5)的輸出響應y(n)為
y(〃)=x(n)*h(n)=^h(rn)x(n-"?)
理論上,X(")通過線性系統(tǒng)以〃)后得到的y(〃)應盡量接近于s(〃),因此M")為s(〃)
的估計值,可用/(〃)表示。
s'(〃)按最小均方誤差準則使sp)和s(〃)的均方誤差&=E[e2(〃)]=E[{s(〃)—「(〃)『]達到
最小。對/?(〃)求J的偏導數(shù)使之為零,整理可得
E[s(n)x(n-m)-]/?(/)E{x("-1)x(〃-,*)}]=0
已知,s(〃)和尤(〃)是聯(lián)合寬平穩(wěn)的。令x(〃)的自相關(guān)函數(shù)為
Rr(m-l)=E{x(n-m)x{n-I)},s(〃)與x(〃)的互相關(guān)函數(shù)為R,m)=E(s(n)x(n-m)],則
整理為
1)=R.(m)
如果已知&(〃?)和R、(〃LO,那么解此方程即可求的維納濾波器的沖激響應。
將上式寫成卷積形式并轉(zhuǎn)換到頻域,可得
因此,維納濾波器的頻率響應為
“C=P"(e川)
一(*)
相應的系統(tǒng)函數(shù)為
2(")
式中,PS,")為x(〃)的功率譜密度;P(〃”)為x(〃)與s(")的互功率譜密度。
XSX
由于v(〃)與s(〃)互不相關(guān),即&(0)=0,則可得
匕(e,3)=R(/)
一(〃'”)=R(〃”')+R(e")
此時,系統(tǒng)函數(shù)可變?yōu)?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冷卻設備和裝置產(chǎn)品供應鏈分析
- 動物輔助療法行業(yè)相關(guān)項目經(jīng)營管理報告
- 寵物推車產(chǎn)業(yè)鏈招商引資的調(diào)研報告
- 刺激益生菌生長的膳食補充劑產(chǎn)業(yè)鏈招商引資的調(diào)研報告
- 剃胡膏產(chǎn)品供應鏈分析
- 河南省豫西北教研聯(lián)盟(許洛平)2024-2025學年高三第一次質(zhì)量檢測數(shù)學試題 含解析
- 厚紙板產(chǎn)業(yè)鏈招商引資的調(diào)研報告
- 電動鋸產(chǎn)品供應鏈分析
- 數(shù)據(jù)處理設備用印刷電路接口卡產(chǎn)品供應鏈分析
- 創(chuàng)意雕塑藝術(shù)行業(yè)營銷策略方案
- 汽車機械基礎(chǔ):汽車常用軸系零部件
- 麥當勞的企業(yè)發(fā)展戰(zhàn)略
- 技能成才強國有我主題班會
- 民用建筑電線電纜防火技術(shù)規(guī)程DBJ-T 15-226-2021
- MOOC 信息安全導論-青島大學 中國大學慕課答案
- 心房顫動診斷和治療中國指南(2023) 解讀
- 單孔胸腔鏡手術(shù)肺結(jié)節(jié)
- 2024年返聘退休人員合同
- 中頻爐停水停電應急專項預案
- 幼兒園主題探究活動
- MOOC 電氣測量與信號處理-北京理工大學 中國大學慕課答案
評論
0/150
提交評論