語(yǔ)音信號(hào)處理 第4版 第3章 語(yǔ)音信號(hào)處理的常用算法 思考題答案_第1頁(yè)
語(yǔ)音信號(hào)處理 第4版 第3章 語(yǔ)音信號(hào)處理的常用算法 思考題答案_第2頁(yè)
語(yǔ)音信號(hào)處理 第4版 第3章 語(yǔ)音信號(hào)處理的常用算法 思考題答案_第3頁(yè)
語(yǔ)音信號(hào)處理 第4版 第3章 語(yǔ)音信號(hào)處理的常用算法 思考題答案_第4頁(yè)
語(yǔ)音信號(hào)處理 第4版 第3章 語(yǔ)音信號(hào)處理的常用算法 思考題答案_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章語(yǔ)音信號(hào)處理的常用算法思考題答案什么叫矢量量化,它在語(yǔ)音信號(hào)處理中有什么用途?什么叫碼本、碼本尺寸和碼矢(或碼字)?如何分配矢量量化的各項(xiàng)技術(shù)指標(biāo)?矢量量化是對(duì)矢量進(jìn)行量化,它把矢量空間分成若干個(gè)小區(qū)域,每個(gè)小區(qū)域?qū)ふ乙粋€(gè)代表矢量,量化時(shí)落入小區(qū)域的矢量就用這個(gè)代表矢量代替,或者叫作被量化為這個(gè)代表矢量。在語(yǔ)音編碼方面,在原來(lái)編碼速率為2.4kbit/s的線性預(yù)測(cè)聲碼器基礎(chǔ)上,將每幀的10個(gè)反射系數(shù)加以10維的矢量量化,就可使編碼速率降低到800bit/s,而語(yǔ)音質(zhì)量基本未下降;又如分段聲碼器,由于采用了矢量量化,可以使編碼速率降低到150bit/s;在語(yǔ)音識(shí)別、說(shuō)話人識(shí)別等方面,矢量量化研究也得到很快的發(fā)展。矢量量化器里每個(gè)子空間的代表矢量就成為碼字,所有代表矢量組成的集合稱為碼本,碼本尺寸是該集合的大小。根據(jù)香農(nóng)信息論,矢量維數(shù)越長(zhǎng)優(yōu)度越好。顯然,矢量量化的過(guò)程與標(biāo)量量化相似。在標(biāo)量量化時(shí),在一維的零至無(wú)窮大值之間設(shè)置若干個(gè)量化階梯,當(dāng)某輸入信號(hào)的幅度值落在某相鄰的兩個(gè)量化階梯之間時(shí),就被量化為兩階梯的中心值。與此相對(duì)應(yīng)在矢量量化時(shí),則將K維無(wú)限空間劃分為J塊區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。當(dāng)然,矢量量化與標(biāo)量量化一樣,是會(huì)產(chǎn)生量化誤差的(即量化噪聲),但只要碼本尺寸足夠大,量化誤差就會(huì)足夠小。另外,合理選擇碼本的碼字也可以降低誤差,這就是碼本優(yōu)化的問(wèn)題。什么叫失真測(cè)度,理想的失真測(cè)度應(yīng)具有什么特性?常用的有哪幾種失真測(cè)度,它們都是如何定義的?各有什么用途?失真測(cè)度(距離測(cè)度)是將輸入矢量Xi用碼本重構(gòu)矢量Yj來(lái)表征時(shí)所產(chǎn)生的誤差或失真的度量方法,它可以描述兩個(gè)或多個(gè)模型矢量間的相似程度。失真測(cè)度的選擇的好壞將直接影響到聚類(lèi)效果和量化精度,進(jìn)而影響到語(yǔ)音信號(hào)矢量量化處理系統(tǒng)的性能。主要包括線性預(yù)測(cè)失真測(cè)度和識(shí)別失真測(cè)度。當(dāng)語(yǔ)音信號(hào)特征矢量是用線性預(yù)測(cè)方法求出的LPC系數(shù)時(shí),為了比較用這種參數(shù)表征的矢量,不宜直接使用歐氏距離。因?yàn)閮H由預(yù)測(cè)器系數(shù)的差值不能完全表征這兩個(gè)語(yǔ)音信息的差別。此時(shí)應(yīng)該直接用由這些系數(shù)所描述的信號(hào)模型的功率譜來(lái)進(jìn)行比較。將矢量量化技術(shù)用于語(yǔ)音識(shí)別時(shí),對(duì)失真測(cè)度還應(yīng)該有其他一些考慮,如果僅僅靠功率譜作為失真比較的參數(shù),則識(shí)別的性能將不夠理想,此時(shí)可采用識(shí)別失真測(cè)度。如何設(shè)計(jì)最佳矢量量化器?什么叫LBG算法?如何用程序加以實(shí)現(xiàn)?怎樣設(shè)計(jì)初始碼本,并用來(lái)訓(xùn)練碼本?選擇了合適的失真測(cè)度后,就可進(jìn)行矢量量化器的最佳設(shè)計(jì)。所謂最佳設(shè)計(jì),就是從大量信號(hào)樣本中訓(xùn)練出好的碼本;從實(shí)際效果出發(fā)尋找到好的失真測(cè)度定義公式;用最少的搜索和計(jì)算失真的運(yùn)算量,來(lái)實(shí)現(xiàn)最大可能的平均信噪比。LBG算法的步驟如下:矢量量化存在量化誤差,通常減小量化誤差的思路有哪些?對(duì)應(yīng)于這些思路,有哪些具體的實(shí)現(xiàn)方法?矢量量化與標(biāo)量量化一樣,會(huì)產(chǎn)生量化誤差(即量化噪聲),但只要碼本尺寸足夠大,量化誤差就會(huì)足夠小。另外,合理選擇碼本的碼字也可以降低誤差,這就是碼本優(yōu)化的問(wèn)題。什么叫馬爾可夫鏈?什么叫隱過(guò)程?什么叫隱馬爾可夫過(guò)程?為什么說(shuō)語(yǔ)音信號(hào)可以看成隱馬爾可夫過(guò)程?隱馬爾可夫模型有哪些模型參數(shù)?請(qǐng)敘述這些參數(shù)的含義。在較短的時(shí)間內(nèi)用線性模型參數(shù)來(lái)表示,然后,再將許多線性模型在時(shí)間上串接起來(lái),這就是馬爾可夫鏈。HMM是一個(gè)輸出符號(hào)序列的統(tǒng)計(jì)模型,具有N個(gè)狀態(tài)S1,S2,…,SN,它按一定的周期從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài),每次轉(zhuǎn)移時(shí),輸出一個(gè)符號(hào)。轉(zhuǎn)移到哪一個(gè)狀態(tài),轉(zhuǎn)移時(shí)輸出什么符號(hào),分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時(shí)的輸出概率來(lái)決定。因?yàn)橹荒苡^測(cè)到輸出符號(hào)序列,而不能觀測(cè)到狀態(tài)轉(zhuǎn)移序列(即模型輸出符號(hào)序列時(shí),是通過(guò)了哪些狀態(tài)路徑,不能知道),所以稱為隱馬爾可夫模型。HMM用于語(yǔ)音信號(hào)建模時(shí),是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,它是數(shù)學(xué)上的雙重隨機(jī)過(guò)程:一個(gè)是具有有限狀態(tài)數(shù)的Markov鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程,另一個(gè)是與Markov鏈的每一狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程。前者通過(guò)后者表現(xiàn)出來(lái),但前者的具體參數(shù)(如狀態(tài)序列)是不可觀測(cè)的。人的言語(yǔ)過(guò)程實(shí)際上就是一個(gè)雙重隨機(jī)過(guò)程,語(yǔ)音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列,是由大腦根據(jù)語(yǔ)法知識(shí)和言語(yǔ)需要(不可觀測(cè)的狀態(tài))發(fā)出的音素的參數(shù)流??梢?jiàn),HMM合理地模仿了這一過(guò)程,很好地描述了語(yǔ)音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性,是一種較為理想的語(yǔ)音信號(hào)模型。HMM可由六個(gè)模型參數(shù)來(lái)定義,具體含義見(jiàn)教材第33頁(yè)。給定一個(gè)輸出符號(hào)序列,怎樣計(jì)算HMM對(duì)于該符號(hào)序列的輸出似然概率?用前向—后向算法來(lái)計(jì)算HMM對(duì)于該符號(hào)序列的輸出似然概率,具體參見(jiàn)教材第35-36頁(yè)。為了應(yīng)用HMM,有哪些基本算法?什么是前向-后向算法?它是怎樣解決似然概率的計(jì)算問(wèn)題的?敘述前向-后向算法的工作原理及其節(jié)約運(yùn)算量的原因。HMM有三個(gè)基本算法,具體如下:前向—后向算法用以計(jì)算HMM對(duì)于該符號(hào)序列的輸出似然概率,具體參見(jiàn)教材第35-36頁(yè)。什么是Viterbi算法?Viterbi算法是為了解決什么問(wèn)題的?Viterbi算法的基本過(guò)程如下:簡(jiǎn)述Baum-Welch算法的基本原理Baum-Welch算法利用遞歸的思想,使P(O|M)局部放大,最后得到優(yōu)化的模型參數(shù)M={A,B,π}。具體過(guò)程參見(jiàn)教材第37-38頁(yè)。深度學(xué)習(xí)的優(yōu)缺點(diǎn)各是什么?深度學(xué)習(xí)模型的主要優(yōu)點(diǎn)表現(xiàn)在以下幾方面。(1)學(xué)習(xí)能力強(qiáng),在很多任務(wù)中性能優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。(2)適應(yīng)性好:深度學(xué)習(xí)模型的網(wǎng)絡(luò)層數(shù)多,理論上可以映射到任意函數(shù)。(3)數(shù)據(jù)驅(qū)動(dòng)、上限高:深度學(xué)習(xí)高度依賴數(shù)據(jù),數(shù)據(jù)量越大,它的表現(xiàn)就越好。深度學(xué)習(xí)也存在如下的缺點(diǎn):(1)計(jì)算量大:深度學(xué)習(xí)需要大量的數(shù)據(jù)與算力支持。(2)硬件需求高:普通的CPU無(wú)法滿足深度學(xué)習(xí)模型和算法的運(yùn)算需求。(3)模型設(shè)計(jì)復(fù)雜:需要投入大量的人力物力與時(shí)間來(lái)開(kāi)發(fā)新的模型。DNN、RNN和CNN各自有哪些特點(diǎn)?DNN是深度學(xué)習(xí)最基本的模型之一,它針對(duì)單層感知機(jī)難以應(yīng)對(duì)復(fù)雜非線性函數(shù)的困難,將其在深度上做了有效拓展。因此,DNN是具有多個(gè)隱藏層和多個(gè)輸出的網(wǎng)絡(luò),可以擬合復(fù)雜的非線性函數(shù),模型的靈活性也大幅增強(qiáng)。在DNN中,各神經(jīng)元分別屬于不同的層,每一層的神經(jīng)元可以接收前一層神經(jīng)元的信號(hào),并產(chǎn)生信號(hào)輸出到下一層。DNN具有結(jié)構(gòu)復(fù)雜、層次分明等特征,能夠更好地?cái)M合輸入和輸出之間復(fù)雜的關(guān)系,挖掘出隱藏在數(shù)據(jù)中的深層次信息。RNN在DNN上擴(kuò)展,通過(guò)加入循環(huán)連接使模型具有記憶能力。RNN由具有環(huán)路的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)組成,其神經(jīng)元不僅可以接收其他神經(jīng)元的信息,也可以接收自身的信息。與DNN相比,RNN更符合生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),能夠更好地處理時(shí)序數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),在語(yǔ)音識(shí)別、自然語(yǔ)言處理等任務(wù)上得到了廣泛的應(yīng)用。CNN與DNN的區(qū)別在于,CNN中的神經(jīng)元之間并非全連接,而是局部連接,即CNN中卷積層的某個(gè)神經(jīng)元的輸出并不取決于輸入特征圖中的所有神經(jīng)元的輸入,而是僅由卷積核對(duì)應(yīng)位置的神經(jīng)元的輸入決定。正是由于這種局部連接的特點(diǎn),使得CNN能夠很好地捕捉輸入特征圖中的局部特征;同時(shí),在進(jìn)行卷積計(jì)算時(shí),卷積核在輸入特征圖的不同位置其權(quán)值參數(shù)是不變的,并且通常將卷積層和池化層結(jié)合使用,這樣使得CNN的計(jì)算復(fù)雜度顯著降低,大大拓展了其應(yīng)用領(lǐng)域。在深度學(xué)習(xí)中,長(zhǎng)程依賴問(wèn)題指的是什么?有哪些方法可以解決這個(gè)問(wèn)題,是如何解決的?雖然理論上簡(jiǎn)單RNN可以通過(guò)參數(shù)更新,自循環(huán)地學(xué)習(xí)長(zhǎng)時(shí)序數(shù)據(jù)間的關(guān)聯(lián)性,但仍存在由序列長(zhǎng)度增大所帶來(lái)的梯度消失或爆炸問(wèn)題。本質(zhì)上RNN只能學(xué)到短期的“記憶”,即,時(shí)刻t的輸出yt只與一定時(shí)間間隔k內(nèi)的輸入有關(guān),當(dāng)時(shí)間間隔過(guò)長(zhǎng)時(shí),RNN就難以準(zhǔn)確描述關(guān)聯(lián)性,這也稱為RNN長(zhǎng)程依賴問(wèn)題。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是RNN的一個(gè)變體。為了緩解RNN的長(zhǎng)程依賴問(wèn)題,LSTM中引入了門(mén)控單元,通過(guò)選擇性地遺忘過(guò)去時(shí)刻的累積信息來(lái)更新網(wǎng)絡(luò)參數(shù)。推導(dǎo)LSTM網(wǎng)絡(luò)中參數(shù)的梯度,并分析其避免梯度消失的效果。LSTM的基本原理詳見(jiàn)教材第44頁(yè),需要結(jié)合其原理推導(dǎo)參數(shù)梯度。CNN是如何簡(jiǎn)化參數(shù),提高訓(xùn)練效率的?CNN結(jié)構(gòu)中隱藏層之間使用的是部分連接,即所謂的卷積層,而且為了進(jìn)一步降低模型的計(jì)算復(fù)雜度,一般需要使用池化層結(jié)構(gòu)對(duì)卷積層的輸出進(jìn)行處理。在CNN計(jì)算過(guò)程中,首先通過(guò)輸入層向模型中輸入數(shù)據(jù),然后經(jīng)過(guò)卷積層對(duì)數(shù)據(jù)做進(jìn)一步處理,逐層提取更抽象的特征,緊接著對(duì)輸出特征圖使用池化層達(dá)到特征降維的作用,按照該方式對(duì)卷積層和池化層進(jìn)行多次堆疊,最后經(jīng)過(guò)全連接的輸出層完成回歸、分類(lèi)等任務(wù);此外,每層網(wǎng)絡(luò)的輸出還需要經(jīng)過(guò)激活函數(shù)的映射,從而使模型具有更強(qiáng)的表達(dá)能力。設(shè)計(jì)轉(zhuǎn)置卷積、微步卷積及空洞卷積的目的是什么?(1)轉(zhuǎn)置卷積:在一些任務(wù)中,需要將低維特征映射到高維特征,此時(shí)則需要轉(zhuǎn)置卷積。具體地,假設(shè)有一個(gè)轉(zhuǎn)換矩陣W,將一個(gè)高維向量映射為一個(gè)低維向量,那么可以很容易地通過(guò)對(duì)W進(jìn)行轉(zhuǎn)置來(lái)實(shí)現(xiàn)從低維到高維的反向映射。也可以將卷積操作寫(xiě)成矩陣變換的形式,通過(guò)轉(zhuǎn)置卷積操作對(duì)應(yīng)的矩陣,就能實(shí)現(xiàn)將低維特征到高維特征的卷積操作。(2)微步卷積:可以通過(guò)增加卷積操作的步長(zhǎng)S>1來(lái)實(shí)現(xiàn)對(duì)輸入特征的下采樣操作,從而大幅降低特征維數(shù)。同樣,也可以通過(guò)減少轉(zhuǎn)置卷積的步長(zhǎng)S<1來(lái)實(shí)現(xiàn)上采樣操作,從而大幅

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論