數(shù)字語(yǔ)音處理課件_第1頁(yè)
數(shù)字語(yǔ)音處理課件_第2頁(yè)
數(shù)字語(yǔ)音處理課件_第3頁(yè)
數(shù)字語(yǔ)音處理課件_第4頁(yè)
數(shù)字語(yǔ)音處理課件_第5頁(yè)
已閱讀5頁(yè),還剩70頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)字語(yǔ)音處理數(shù)字語(yǔ)音處理數(shù)字語(yǔ)音處理數(shù)字語(yǔ)音處理數(shù)字語(yǔ)音處理教學(xué)大綱教學(xué)大綱n課程名稱:數(shù)字語(yǔ)音處理n課程英文名稱:DIGITAL SPEECH PROCESSINGn總學(xué)時(shí):32 n講課學(xué)時(shí):32n學(xué) 分:2n開(kāi)課單位:信息學(xué)部通信工程系n授課對(duì)象:電子信息工程專業(yè)及通信工程專業(yè) n先修課程:信號(hào)與系統(tǒng) 數(shù)字信號(hào)處理基礎(chǔ)數(shù)字語(yǔ)音處理數(shù)字語(yǔ)音處理數(shù)字語(yǔ)音處理教學(xué)大綱教學(xué)大綱n教材:數(shù)字語(yǔ)音處理,姚天任編,華中科技大學(xué)出版社,1992n教學(xué)參考書:n語(yǔ)音信號(hào)數(shù)字處理,楊行峻、遲惠生編,電子工業(yè)出版社n語(yǔ)音信號(hào)處理,易克初等編,國(guó)防工業(yè)出版社,2000n教學(xué)目的:本課程作為本科生的一門選修課,主要

2、向?qū)W生系統(tǒng)地介紹語(yǔ)音信號(hào)處理中的基本理論、方法,包括:語(yǔ)音信號(hào)的編碼壓縮技術(shù)、語(yǔ)音識(shí)別技術(shù)、語(yǔ)音合成技術(shù)。通過(guò)本課程的學(xué)習(xí)使學(xué)生掌握本課程的基本方法,開(kāi)闊視野,為今后從事相關(guān)的研究開(kāi)發(fā)工作奠定基礎(chǔ)。 數(shù)字語(yǔ)音處理學(xué)時(shí)安排學(xué)時(shí)安排n第一章 緒論(共1學(xué)時(shí))語(yǔ)音信號(hào)處理的發(fā)展歷史,語(yǔ)音信號(hào)處理的分類,語(yǔ)音識(shí)別技術(shù)的分類。n第二章 語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(共2學(xué)時(shí))發(fā)音器官的生理、語(yǔ)音信號(hào)的產(chǎn)生模型n第三章 語(yǔ)音波形的數(shù)字編碼(共4學(xué)時(shí))語(yǔ)音編碼的基本方法, 子帶編碼。n第四章 短時(shí)時(shí)域處理技術(shù)(共4學(xué)時(shí))短時(shí)能量、短時(shí)平均幅度、短時(shí)平均過(guò)零率、短時(shí)自相關(guān)函數(shù)數(shù)字語(yǔ)音處理學(xué)時(shí)安排學(xué)時(shí)安排n第五章 短

3、時(shí)傅里葉分析(共4學(xué)時(shí))n第六章 語(yǔ)音信號(hào)的線性預(yù)測(cè)(共3學(xué)時(shí))線性預(yù)測(cè)分析基本原理,基于自相關(guān)的線性預(yù)測(cè)分析。n第七章 語(yǔ)音信號(hào)的同態(tài)預(yù)測(cè)和倒譜分析(共4學(xué)時(shí))n第八章 矢量量化(共4學(xué)時(shí))矢量量化的基本原理、特征矢量及畸變準(zhǔn)則的選擇,LBG算法。n第九章 隱馬爾科夫模型(共4學(xué)時(shí))n第十章數(shù)字語(yǔ)音處理的應(yīng)用(共2學(xué)時(shí)) 數(shù)字語(yǔ)音處理考核方式n方式1:n平時(shí):小測(cè)驗(yàn)4次,占總成績(jī)的70%-80%n期末:總結(jié)報(bào)告,占總成績(jī)的20%-30%n方式2:n平時(shí):報(bào)告1份,占總成績(jī)的20%-30%n期末:閉卷考試,總成績(jī)的70%-80%數(shù)字語(yǔ)音處理1.緒論n語(yǔ)音信號(hào)處理的研究?jī)?nèi)容n語(yǔ)音信號(hào)處理的發(fā)展歷

4、史n講授內(nèi)容數(shù)字語(yǔ)音處理語(yǔ)音信號(hào)處理的研究?jī)?nèi)容n語(yǔ)音信號(hào)的數(shù)字表示方法n波形表示:n參數(shù)表示:n語(yǔ)音信號(hào)處理的方法和技術(shù)n時(shí)域、頻域和變換域n語(yǔ)音信號(hào)處理的應(yīng)用n識(shí)別、合成、壓縮、增強(qiáng)數(shù)字語(yǔ)音處理語(yǔ)音信號(hào)的數(shù)字表示方法n如何選擇表示方法?n保存消息內(nèi)容n便于傳輸和貯存n便于變換和處理n不能嚴(yán)重?fù)p害消息內(nèi)容數(shù)字語(yǔ)音處理波形表示法n波形表示法取樣數(shù)字語(yǔ)音處理波形表示法量化后的波形數(shù)字語(yǔ)音處理參數(shù)表示法n參數(shù)表示法:語(yǔ)音信號(hào)看成是某個(gè)模型在一定激勵(lì)作用下產(chǎn)生的輸出,而激勵(lì)源和模型的參數(shù)便作為語(yǔ)音信號(hào)的表示。W=f(A,B) A激勵(lì),B模型參數(shù)例:產(chǎn)生“信息學(xué)部”的語(yǔ)音信號(hào)W=f(信息學(xué)部,140)數(shù)

5、字語(yǔ)音處理語(yǔ)音信號(hào)處理的方法和技術(shù)n時(shí)域(時(shí)變信號(hào),但短時(shí)平穩(wěn))n短時(shí)處理技術(shù)n短時(shí)能量n短時(shí)平均過(guò)零率n短時(shí)自相關(guān)n頻域n短時(shí)傅里葉分析n變換域n小波變換數(shù)字語(yǔ)音處理語(yǔ)音信號(hào)處理的應(yīng)用n語(yǔ)音壓縮和編碼:語(yǔ)音通信數(shù)字化;n語(yǔ)音合成:自動(dòng)報(bào)站、自動(dòng)報(bào)時(shí)、自動(dòng)警告、電話自動(dòng)查詢和語(yǔ)音提示等;n語(yǔ)音識(shí)別:聲控應(yīng)用、自動(dòng)口語(yǔ)翻譯;n說(shuō)話認(rèn)識(shí)別:安全加密、銀行信息電話查詢服務(wù)以及破案和法庭取證;n語(yǔ)音增強(qiáng):通常作為語(yǔ)音處理的前端。 數(shù)字語(yǔ)音處理n1874年電話的發(fā)明,貝爾(Bell);n1939年聲碼器的研制成功語(yǔ)音是由人的聲帶振動(dòng)而產(chǎn)生的聲源(載波)受到運(yùn)動(dòng)的聲道控制(調(diào)制)產(chǎn)生的;語(yǔ)音處理的發(fā)展歷史

6、(1)數(shù)字語(yǔ)音處理語(yǔ)音處理的發(fā)展歷史(2)n1947年貝爾實(shí)驗(yàn)室發(fā)明語(yǔ)譜圖儀語(yǔ)音信號(hào)研究的開(kāi)始;一男性說(shuō)“歡迎光臨”的寬帶語(yǔ)譜圖數(shù)字語(yǔ)音處理語(yǔ)音處理的發(fā)展歷史(3)n50年代第一臺(tái)口授打字機(jī)和英語(yǔ)單詞語(yǔ)音識(shí)別器;n60年代出現(xiàn)了第一臺(tái)以數(shù)字計(jì)算機(jī)為基礎(chǔ)的孤立詞語(yǔ)音識(shí)別器和有限連續(xù)語(yǔ)音識(shí)別器;n70年代動(dòng)態(tài)規(guī)劃技術(shù)、隱馬爾可夫模型、線性預(yù)測(cè)技術(shù)和矢量量化碼書生成方法用于語(yǔ)音編碼和識(shí)別;n80、90年代語(yǔ)音處理技術(shù)產(chǎn)品化IBM Tangora-5和Tangora-20英語(yǔ)聽(tīng)寫機(jī),Dragon Dictate 詞匯翻譯系統(tǒng)(70000),漢語(yǔ)聽(tīng)寫機(jī)。CMU語(yǔ)音組研制成功SPHINX系統(tǒng)(997,95

7、.8%);n國(guó)內(nèi),清華大學(xué)、中科院聲學(xué)所和中科院自動(dòng)化所在漢語(yǔ)聽(tīng)寫機(jī)漢語(yǔ)聽(tīng)寫機(jī)研究方面有一定成果。數(shù)字語(yǔ)音處理講授內(nèi)容n語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型n語(yǔ)音信號(hào)處理方法n語(yǔ)音波形編碼方法n短時(shí)處理方法(時(shí)頻域)n線性預(yù)測(cè)、倒譜、矢量量化n隱含馬爾科夫模型(HMM)n語(yǔ)音信號(hào)處理的應(yīng)用n語(yǔ)音壓縮、合成、識(shí)別、增強(qiáng)數(shù)字語(yǔ)音處理2.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型n人類語(yǔ)音的產(chǎn)生n過(guò)程復(fù)雜n信息豐富多樣n至今尚未找到理想模型來(lái)描述語(yǔ)音產(chǎn)生過(guò)程nFant于1960年提出的線性模型是模擬語(yǔ)音主要特征的比較成功的模型之一n人類發(fā)音的生理過(guò)程n語(yǔ)音信號(hào)的聲學(xué)特性數(shù)字語(yǔ)音處理2.1人類的語(yǔ)言器官n人體發(fā)音器官肺、氣管、肺、氣管

8、、喉(包括聲帶)和聲道喉(包括聲帶)和聲道n肺肺是語(yǔ)音產(chǎn)生的能源所在;n聲帶聲帶為產(chǎn)生語(yǔ)音提供主要的激勵(lì)源;聲道是指聲門至嘴唇的所有器官:n咽、鼻腔咽、鼻腔 、口腔、口腔等,它們具有非均勻截面,且隨時(shí)間變化,起共鳴器(或諧振器)的作用。鼻齒齦上唇牙齒下唇下顎骨舌骨甲狀軟骨氣管鼻咽軟腭口腔小舌舌根會(huì)厭喉管聲帶環(huán)狀軟骨食道鼻腔硬腭舌尖部舌中部舌后部數(shù)字語(yǔ)音處理 人類的語(yǔ)言器官 (a)閉合狀態(tài) 濁音 (b)張開(kāi)狀態(tài)清音甲狀腺軟骨數(shù)字語(yǔ)音處理2.2語(yǔ)音產(chǎn)生過(guò)程(1)n濁音產(chǎn)生機(jī)理n濁音聲帶繃緊,氣流使聲帶產(chǎn)生張弛振動(dòng),即聲帶將周期性的啟開(kāi)和閉合。例如: a,o,e。n聲帶開(kāi)啟:氣流從聲門噴射出來(lái),形成

9、脈沖。 n聲帶閉合:對(duì)應(yīng)于脈沖序列的間隙期。開(kāi)啟閉合數(shù)字語(yǔ)音處理2.2語(yǔ)音產(chǎn)生過(guò)程(2)n清音和爆破音產(chǎn)生機(jī)理n清音聲帶完全舒展,聲道某個(gè)部位收縮形成的狹窄通道,氣流被迫以高速通過(guò),并在附近產(chǎn)生空氣的湍流,形成摩擦音(清音),例如:s、x。n爆破音聲帶完全舒展,聲道某個(gè)部位完全閉合,氣流遇阻產(chǎn)生壓力,一旦閉合點(diǎn)突然開(kāi)啟便會(huì)讓氣壓快速釋放,形成爆破音,例如:b、p。數(shù)字語(yǔ)音處理2.2語(yǔ)音產(chǎn)生過(guò)程(3)n語(yǔ)音:空氣流激勵(lì)聲道產(chǎn)生激勵(lì)源聲道氣流數(shù)字語(yǔ)音處理2.2語(yǔ)音產(chǎn)生過(guò)程(4)n激勵(lì)源n濁音:位于聲門處的準(zhǔn)周期脈沖,由聲帶振動(dòng)形成。n脈沖周期、脈沖寬度以及脈沖形狀與聲帶的長(zhǎng)度、厚度及張力等參數(shù)有關(guān)

10、。n聲帶越短、厚度越薄、張力越大,聽(tīng)起來(lái)的感覺(jué)的音調(diào)越高。n清音:位于聲道的某個(gè)收縮區(qū)的聲音湍流(類似于噪聲)n爆破音:位于聲道某個(gè)閉合點(diǎn)處建立起來(lái)的氣壓及其突然釋放。數(shù)字語(yǔ)音處理2.2聲道n聲道:一根具有非均勻截面的聲管,在發(fā)音時(shí)起著共鳴器的作用。數(shù)字語(yǔ)音處理2.2共振峰(formant): n聲道是一個(gè)諧振腔,當(dāng)激勵(lì)的頻率達(dá)到至聲道的固有頻率,則聲道會(huì)以最大的振幅振蕩,此時(shí)的頻率稱之為共振峰或共振峰頻率。n聲道具有一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個(gè)峰的頻帶寬度 。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸,因而不同的語(yǔ)音對(duì)應(yīng)于一組不同的共振峰參數(shù)。n實(shí)際應(yīng)用

11、中,頭三個(gè)共振峰最重要。數(shù)字語(yǔ)音處理2.2共振峰與語(yǔ)譜圖一男性說(shuō)“歡迎光臨”的寬帶語(yǔ)譜圖數(shù)字語(yǔ)音處理2.2共振峰的計(jì)算 理想狀態(tài)下共振峰的計(jì)算:假設(shè)聲道截面是均勻的(此時(shí)可把聲道看作一個(gè)粗細(xì)均勻的圓筒),從喉到唇的距離L=17 cm,音速c=340 m/s,則共振峰將發(fā)生在:HzLccFHzLccFHzLccF前三個(gè)共振峰:n為第n個(gè)共振峰的波長(zhǎng)LcncFnnn250045,150043500101743404, 2 , 1)(4123322211計(jì)算)(數(shù)字語(yǔ)音處理2.3 語(yǔ)音信號(hào)的線性產(chǎn)生模型在研究了發(fā)聲器官和語(yǔ)音的產(chǎn)生過(guò)程以后,便可以建立一個(gè)離散時(shí)域的語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型數(shù)字模型,它將

12、是我們將數(shù)字信號(hào)處理技術(shù)應(yīng)用于語(yǔ)音信號(hào)的基礎(chǔ)基礎(chǔ)。下圖是一個(gè)完整的語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型:數(shù)字語(yǔ)音處理2.3 語(yǔ)音信號(hào)的線性產(chǎn)生模型由此模型框圖,我們可將語(yǔ)音信號(hào)看成準(zhǔn)周期序列或隨機(jī)噪聲序列作為激勵(lì)的線性非移變系統(tǒng)的輸出,此模型可分為三個(gè)部分:(1)激勵(lì)模型(2)聲道模型(3)輻射模型數(shù)字語(yǔ)音處理2.3.1 激勵(lì)模型n濁音濁音激勵(lì)模型: 發(fā)濁音時(shí)聲帶繃緊,聲帶不斷張開(kāi)和關(guān)閉產(chǎn)生的脈沖波,類似于斜三角波斜三角波n清音清音激勵(lì)模型:聲帶處于松弛狀態(tài),不發(fā)生振動(dòng),氣流通過(guò)聲門直接進(jìn)入聲道,氣流被阻礙形成湍流,相當(dāng)于隨機(jī)白噪聲 數(shù)字語(yǔ)音處理2.3.1 激勵(lì)模型(a)濁音激勵(lì) 數(shù)字模型中可用周期為T0單

13、位取樣序列串作為聲門脈沖模型g(n)的輸入輸入,其輸出就是濁音濁音激勵(lì)激勵(lì)。 由于人類語(yǔ)音的頻率范圍主要集中在300Hz3400Hz,數(shù)字模型中的信號(hào)取樣率一般為8KHz。數(shù)字語(yǔ)音處理2.3.1 激勵(lì)模型otherwiseKnLLKLnLnLnng, 0,)(2)(cos0),cos1 (21)( )GunL為三角波斜上升時(shí)間,K為斜三角波下降時(shí)間,兩者均為整數(shù)則 激勵(lì)激勵(lì)為: 是一個(gè)以基音周期T0為周期的斜三角波脈沖串序列。( )( )( )GvunA x ng n聲門脈沖模型聲門脈沖模型數(shù)字語(yǔ)音處理2.3.1 激勵(lì)模型由左邊的頻譜圖可知聲門脈沖模型是一個(gè)低通濾波器,一個(gè)二級(jí)點(diǎn)模型。量的參數(shù)

14、是調(diào)節(jié)濁音的幅值或能vvAzAzE,1)(1)1)(1 (11)()()(1,)1)(1 (1)(12111211211zgzgzAzEzGzUggzgzgzGv都接近數(shù)字語(yǔ)音處理2.3.1 激勵(lì)模型(b)清音激勵(lì)清音激勵(lì) 在發(fā)清音時(shí),聲帶處于松弛狀態(tài),不發(fā)生振動(dòng),氣流通過(guò)聲門直接進(jìn)入聲道,所有的清輔音都屬于這種情況。無(wú)論是擦音還是塞音,聲道都被阻礙形成湍流,所以激勵(lì)信號(hào)相當(dāng)于隨機(jī)白噪聲。實(shí)際上可以用均值為0,均方差為1并在幅值上為平穩(wěn)分布的序列,具體實(shí)現(xiàn)時(shí)可采用隨隨機(jī)噪聲發(fā)生器機(jī)噪聲發(fā)生器來(lái)產(chǎn)生此序列。數(shù)字語(yǔ)音處理激勵(lì)模型n應(yīng)該指出,單純的將語(yǔ)音信號(hào)分成受周期脈沖激勵(lì)和受噪音激勵(lì)兩種情況,與

15、實(shí)際情況不完全相符。有時(shí)即便將兩種激勵(lì)情況按照一定比例疊加,也不能刻畫某些語(yǔ)音,如濁擦音。n模型的內(nèi)部結(jié)構(gòu)并不和語(yǔ)音產(chǎn)生的物理過(guò)程一致,這種模型和真實(shí)模型只是在輸出處等效。n模型是“短時(shí)的”,其中G(Z)和R(Z)不變,而基音頻率、清濁開(kāi)關(guān)、增益、聲道參數(shù)ak都是時(shí)變的;聲道參數(shù)在1030ms的范圍內(nèi)近似不變;激勵(lì)參數(shù)在5ms左右近似不變。n語(yǔ)音信號(hào)處理的兩個(gè)基本問(wèn)題:語(yǔ)音分析與合成,都是基于這個(gè)模型來(lái)實(shí)現(xiàn)的。n還有更復(fù)雜更精細(xì)的模型。數(shù)字語(yǔ)音處理2.3.2 聲道模型兩種建模方法:(a)聲管模型聲管模型(b)共振峰模型共振峰模型共振峰模型將聲道視為一個(gè)諧振腔,基于各種音素發(fā)音的不同諧振特點(diǎn)可建

16、立起三種實(shí)用的共振峰模型:(a)級(jí)聯(lián)型 (b)并聯(lián)型 (c)混合型由于人耳聽(tīng)覺(jué)的柯蒂氏器官的毛細(xì)胞是按照頻率感受來(lái)排列其位置的,所以共振峰模型共振峰模型很有效,經(jīng)常被使用。數(shù)字語(yǔ)音處理2.3.2 聲道模型共振峰模型1、級(jí)聯(lián)型:、級(jí)聯(lián)型:適用于一般單元音,認(rèn)為聲道是一組串聯(lián)的二階諧振器:PkkkzaGzV11)(這是一個(gè)全極點(diǎn)模型,極點(diǎn)就是這個(gè)多項(xiàng)式的根:011Pkkkza若P為偶數(shù),解其根會(huì)得到共扼復(fù)數(shù)(conjugate complex)的根,表示成:2/11*1)1)(1 (Piiizpzp數(shù)字語(yǔ)音處理2.3.2 聲道模型共振峰模型2/1212/111)()(PiiiPiizczbGzVG

17、zV上式中,P是全極點(diǎn)濾波器的階,一般在8-12范圍內(nèi)取值,它的每一對(duì)極點(diǎn)對(duì)應(yīng)一個(gè)共振峰。a為聲道模型參數(shù),它隨聲道的調(diào)音運(yùn)動(dòng)而不斷變化。數(shù)字語(yǔ)音處理2.3.2 聲道模型共振峰模型2、并聯(lián)型并聯(lián)型適用于鼻音、復(fù)合元音及大部分輔音,發(fā)這些音時(shí)發(fā)音腔體具有反諧振特性,必須在模型中加入零點(diǎn)以減弱諧振強(qiáng)度,故要考慮用零、極點(diǎn)模型:2/1212/11)()(PiiiiPiizCzBAzVzVPkkkRrrrzazbzV101)(通常PR,假設(shè)分子與分母無(wú)公因子且分母無(wú)重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個(gè)二階因式對(duì)應(yīng)一個(gè)共振峰。每個(gè)二階諧振器的幅度可單獨(dú)控制。數(shù)字語(yǔ)音

18、處理數(shù)字語(yǔ)音處理2.3.2 聲道模型共振峰模型 前面兩種共振峰模型各自都只能適用于部分語(yǔ)音,級(jí)聯(lián)或并聯(lián)的級(jí)數(shù)取決于聲道的長(zhǎng)度,一般成人取3到5級(jí)。 級(jí)聯(lián)型結(jié)構(gòu)較為簡(jiǎn)單,并聯(lián)型各諧振器幅度可獨(dú)立控制,綜合考慮兩者的優(yōu)缺點(diǎn)可將兩種共振峰模型有機(jī)地結(jié)合起來(lái)就得到一種較為完備的共振峰模型。數(shù)字語(yǔ)音處理混合型共振峰模型并聯(lián)部分,從第一到第五共振峰的幅度都可以獨(dú)立的進(jìn)行控制和調(diào)節(jié),用來(lái)模擬輔音頻譜特性中的能量集中區(qū)。此外,在并聯(lián)部分還有一條直通路徑,其幅度為控制因子AB,這是專門為一些頻譜特性比較平坦的音素(如f,p,b等)而考慮的。數(shù)字語(yǔ)音處理2.3.3 輻射模型 在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出

19、來(lái),到達(dá)聽(tīng)者耳朵的這段過(guò)程,聲音信號(hào)會(huì)衰減,而且有高通濾波高通濾波的特性。 常用一個(gè)一階的數(shù)字高通濾波器數(shù)字高通濾波器模擬這個(gè)現(xiàn)象,這個(gè)濾波器又叫做輻射模型輻射模型(radiation model):1, 1),1 ()(1rrrzzR數(shù)字語(yǔ)音處理完整的數(shù)字模型的系統(tǒng)函數(shù):)()()()(zRzVzUzH激勵(lì)模型激勵(lì)模型聲道模型聲道模型輻射模型輻射模型數(shù)字語(yǔ)音處理2.3 語(yǔ)音信號(hào)的線性產(chǎn)生模型小結(jié)1. 語(yǔ)音產(chǎn)生的線性模型并非最完備的模型,因?yàn)樗鼘?duì)一些音是不適用的如濁音中的摩擦音,這種音要有發(fā)濁音和清音的兩種激勵(lì),而不是簡(jiǎn)單的疊加關(guān)系,對(duì)這些音我們可用更精確的模型來(lái)模擬。 2. 語(yǔ)音產(chǎn)生的數(shù)字模

20、型中增益控制(對(duì)Av或AN)代表了輸出語(yǔ)音的音響強(qiáng)度;時(shí)變線性系統(tǒng)主要用來(lái)模擬聲道的特性;3. 數(shù)字語(yǔ)音處理中兩個(gè)基本問(wèn)題,語(yǔ)音分析和語(yǔ)音合語(yǔ)音分析和語(yǔ)音合成成,都是基于這個(gè)模型來(lái)實(shí)現(xiàn)的;4. 線性產(chǎn)生模型的特點(diǎn):n系統(tǒng)參數(shù)固定不變短時(shí)分析;n全極點(diǎn)性質(zhì)零點(diǎn)可由多個(gè)極點(diǎn)逼近;n激勵(lì)源和聲道互相獨(dú)立適用于大多數(shù)數(shù)字語(yǔ)音處理。數(shù)字語(yǔ)音處理2.4 語(yǔ)音信號(hào)的特性語(yǔ)音學(xué)和語(yǔ)言學(xué)概要語(yǔ)音的聲學(xué)特性語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音信號(hào)的統(tǒng)計(jì)特性數(shù)字語(yǔ)音處理2.4.1語(yǔ)言學(xué)和語(yǔ)音學(xué)概要對(duì)語(yǔ)音學(xué)和語(yǔ)言學(xué)的詳盡討論對(duì)我們來(lái)講離題太遠(yuǎn),但是對(duì)語(yǔ)音信號(hào)加以處理以改善或提取信息時(shí),如果我們對(duì)語(yǔ)音信號(hào)的結(jié)構(gòu)(信號(hào)中信息編碼

21、的方法)有盡可能多的知識(shí)則是很有幫助的。 1. 語(yǔ)言學(xué):是以人類的語(yǔ)言為研究對(duì)象的一門科學(xué),主要對(duì)控制語(yǔ)音中各個(gè)音的排列規(guī)則及其含義進(jìn)行研究。語(yǔ)言(Language)是從千百萬(wàn)個(gè)人的言語(yǔ)(Speech)中概括總結(jié)出來(lái)的規(guī)律性的符號(hào)系統(tǒng)。所以,研究語(yǔ)言首先要了解一下人的言語(yǔ)(說(shuō)話)過(guò)程。數(shù)字語(yǔ)音處理2.4.1語(yǔ)言學(xué)和語(yǔ)音學(xué)概要人的說(shuō)話過(guò)程分為五個(gè)階段(1)想說(shuō)階段:人的說(shuō)話首先是客觀現(xiàn)實(shí)在大腦中的反映,經(jīng)大腦的決策產(chǎn)生了說(shuō)話的動(dòng)機(jī);接著講話神經(jīng)中樞選擇恰當(dāng)?shù)膯卧~、短語(yǔ)以及按語(yǔ)法規(guī)則的組合,以表達(dá)他想說(shuō)的內(nèi)容和情感。這個(gè)階段與大腦中樞的活動(dòng)有關(guān)。(2)說(shuō)出階段:由上階段中樞的決策,以脈沖形式向發(fā)音

22、器官發(fā)出指令,使它們各自相關(guān)的肌肉協(xié)調(diào)地動(dòng)作發(fā)出聲音來(lái)。另外還開(kāi)動(dòng)另一個(gè)“反饋系統(tǒng)”即講話者的聽(tīng)覺(jué)系統(tǒng),來(lái)幫助修正語(yǔ)音。(3)傳送階段:說(shuō)出來(lái)的話語(yǔ)是一連串的聲波,憑借空氣為媒介傳到聽(tīng)話者耳中。(4)接收階段:聽(tīng)話者從外耳收集到的聲波信息,經(jīng)過(guò)中耳的放大作用,到達(dá)內(nèi)耳,經(jīng)內(nèi)耳基底內(nèi)膜振動(dòng)轉(zhuǎn)化為耳蝸內(nèi)的毛細(xì)胞的電位變化,由聽(tīng)覺(jué)神經(jīng)傳給大腦。(5)理解階段:講話者大腦聽(tīng)覺(jué)神經(jīng)中樞收到脈沖信息后,辨認(rèn)出說(shuō)話的人及其所說(shuō)的信息,從而聽(tīng)懂講話者的話。數(shù)字語(yǔ)音處理2.4.1語(yǔ)言學(xué)和語(yǔ)音學(xué)概要 從五個(gè)階段來(lái)看,言語(yǔ)的過(guò)程包含著相當(dāng)復(fù)雜的因素,其中有心理的、生理的、物理的以及個(gè)人的和社會(huì)的因素。這里,個(gè)人的因

23、素還指講話者的口音和用詞造句的特色以及聽(tīng)話者的聽(tīng)音和理解能力;社會(huì)的因素則是指講話者和聽(tīng)話音對(duì)用于進(jìn)行交際的手段有共同的理解的社會(huì)基礎(chǔ)。 語(yǔ)言是從言語(yǔ)中概括出來(lái)的一個(gè)符號(hào)系統(tǒng)。包括形式和內(nèi)容兩個(gè)方面,即語(yǔ)音的形式和語(yǔ)義的內(nèi)容。將這兩個(gè)基本要素相結(jié)合起來(lái),可以構(gòu)成語(yǔ)言的語(yǔ)素、詞、短語(yǔ)和句子等的不同層次的單位;這個(gè)構(gòu)成規(guī)則就是語(yǔ)法。目前我們可以利用語(yǔ)法和語(yǔ)義信息減小語(yǔ)音識(shí)別中搜索匹配范圍,提高語(yǔ)音識(shí)別率。數(shù)字語(yǔ)音處理2.4.1語(yǔ)言學(xué)和語(yǔ)音學(xué)概要2.語(yǔ)音學(xué):研究語(yǔ)音中各個(gè)音的物理特征和分類的學(xué)科。從某種意義上講,語(yǔ)音學(xué)與語(yǔ)音信號(hào)處理這門學(xué)科聯(lián)系更緊密。 大多數(shù)語(yǔ)言包括漢語(yǔ)在內(nèi)可以用一組不同的音即音素

24、來(lái)加以描述。對(duì)于漢語(yǔ)來(lái)說(shuō)約有六十個(gè)音素,包括元音、復(fù)合元音和輔音。研究語(yǔ)音學(xué)的途徑有很多種,例如語(yǔ)言學(xué)家研究音素的不同特性或特征。而對(duì)我們來(lái)講,只要研究不同的聲學(xué)特征就夠了,這包括發(fā)音的部位、姿態(tài)、波形和這些聲音的頻譜即語(yǔ)譜特征。本章后面幾個(gè)話題均以語(yǔ)音學(xué)為基礎(chǔ)。數(shù)字語(yǔ)音處理2.4.2語(yǔ)音的聲學(xué)特性1. 物理屬性音色、音調(diào)、音強(qiáng)和音長(zhǎng);音色:也叫音質(zhì),是一種聲音區(qū)別于另一種聲音的基本特征,是由聲道的位置和形狀決定。音調(diào):聲音的高低,決定于聲波的頻率的高低,而聲波頻率的高低又由語(yǔ)音的基音頻率F0所決定。F0高則音調(diào)高,低則音調(diào)低。一般說(shuō)來(lái),老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強(qiáng):聲音的強(qiáng)

25、弱,由聲波的振幅所決定。音長(zhǎng):聲音的長(zhǎng)短,取決于發(fā)音時(shí)間的長(zhǎng)短。數(shù)字語(yǔ)音處理2.4.2 語(yǔ)音的聲學(xué)特性2. 語(yǔ)音的構(gòu)成音節(jié)(syllable) 、音素音素(phoneme):語(yǔ)音發(fā)音的最小單位。分類:(1)國(guó)際標(biāo)準(zhǔn)分類清音:發(fā)清音時(shí)聲帶不振動(dòng)。濁音:發(fā)濁音時(shí)聲帶振動(dòng)。(2)我國(guó)傳統(tǒng)分類元音(韻母):是當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流在聲道中不受阻礙,這種情況下產(chǎn)生的語(yǔ)音稱為元音。元音屬于濁音。輔音(聲母):從聲門呼出的聲音氣流,在聲道通路中某一部分封閉起來(lái)或受到阻礙不能暢通,為克服發(fā)音器官的這種阻礙而產(chǎn)生的語(yǔ)音稱為輔音。數(shù)字語(yǔ)音處理2.4.2 語(yǔ)音的聲學(xué)特性音節(jié):說(shuō)話時(shí)一次發(fā)出的,具有一個(gè)響亮的中心,

26、并被明顯感覺(jué)到的語(yǔ)音片段。一個(gè)音節(jié)可由一個(gè)音素或幾個(gè)音素構(gòu)成。音節(jié)最典型的結(jié)構(gòu),就是以一個(gè)元音或雙元音(diphthong)為主體,其前面或后面可能連接一個(gè)或多個(gè)輔音。3. 漢語(yǔ)語(yǔ)音的特點(diǎn)聲、韻、調(diào),音節(jié)在漢語(yǔ)中占有主要地位,它是由聲母、韻母和聲調(diào)按一定的方式構(gòu)成的,是語(yǔ)言的最小使用單位;音節(jié)結(jié)構(gòu)簡(jiǎn)單,與其它語(yǔ)言相比漢語(yǔ)語(yǔ)音音節(jié)和音素都很少。數(shù)字語(yǔ)音處理2.4.2 語(yǔ)音的聲學(xué)特性4. 語(yǔ)義:語(yǔ)音總是和一定的意義相聯(lián)系著,一定的語(yǔ)音要表達(dá)一定的思想和意義;另外,語(yǔ)音還能表達(dá)出一定的語(yǔ)氣、情感,甚至表達(dá)許多“言外之意”。5.元音的共振峰特性:元音構(gòu)成一個(gè)音節(jié)的主干,無(wú)論從發(fā)音長(zhǎng)度還是從能量看,元音

27、在音節(jié)中都占主要部分。所以有必要在此研究一下元音的共振峰特性或者說(shuō)研究其頻譜特性。數(shù)字語(yǔ)音處理2.4.2 語(yǔ)音的聲學(xué)特性影響元音共振峰特性的發(fā)音機(jī)制:(1)舌頭的形狀卷舌音(e)、平舌音(2)舌頭在口腔中的位置,簡(jiǎn)稱舌位;(3)嘴唇的形狀,即口形;其中由舌位的高低前后位置改變,可以發(fā)出不同的音素,也就是說(shuō)舌位與元音的共振峰特性有密切關(guān)系。男人男人 60200Hz女人女人150300 Hz小孩小孩 200400數(shù)字語(yǔ)音處理2.4.2 語(yǔ)音的聲學(xué)特性圖4-1 漢語(yǔ)單元音舌位梯形圖(1)F1與舌位高低有關(guān),舌位越高F1越低;由于舌位越低嘴張得越大,也稱舌位高 低 為 開(kāi) 口 度 。(2)F2與舌位前

28、后密切相關(guān),舌位越靠前F2就越高。(3)F1、F2和嘴唇的圓展程度有關(guān),嘴唇越圓,F1、F2越低。(4)F3與舌位關(guān)系不密切,但受舌尖活動(dòng)影響;舌尖抬高卷起時(shí)F3就明顯下降。數(shù)字語(yǔ)音處理1、語(yǔ)音信號(hào)的時(shí)頻特性數(shù)字語(yǔ)音處理波形特性n語(yǔ)音信號(hào)幅度動(dòng)態(tài)范圍一般最大為動(dòng)態(tài)范圍一般最大為40分貝分貝,實(shí)際由于說(shuō)話人的差別可以達(dá)到6070分貝。n元音幅度較大,有準(zhǔn)周期性;清輔音幅度小,和噪聲特性相元音幅度較大,有準(zhǔn)周期性;清輔音幅度小,和噪聲特性相似似。n在長(zhǎng)時(shí)間的語(yǔ)音信號(hào)中有相當(dāng)多的無(wú)信號(hào)區(qū)間,即所謂的語(yǔ)語(yǔ)音寂靜區(qū)間音寂靜區(qū)間。 n幅度概率密度函數(shù)以零幅和近似零幅的概率高,而幅度非常高的情況概率很小。n

29、長(zhǎng)時(shí)平均幅度長(zhǎng)時(shí)平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽瑪(Gamma)分布逼近。n對(duì)于短時(shí)幅度短時(shí)幅度概率密度用高斯分布逼近就夠了。 數(shù)字語(yǔ)音處理n語(yǔ)音信號(hào)波形是語(yǔ)音聲波經(jīng)過(guò)聲-電轉(zhuǎn)換器得到的連續(xù)時(shí)間函數(shù);波形圖是語(yǔ)音幅度隨時(shí)間變化的二維圖。n波形以振幅隨時(shí)間變化為特征,綜合的表達(dá)了語(yǔ)音的全部信息:包括語(yǔ)音的內(nèi)容、音調(diào)、音質(zhì)、相對(duì)音量變化等;數(shù)字語(yǔ)音處理長(zhǎng)時(shí)平均幅度的概率密度分布n伽瑪函數(shù)逼近的效果最好,其次是拉普拉斯函數(shù),而高斯分布逼近效果最差。n語(yǔ)音信號(hào)的振幅通常都趨向于集中在低電平范圍內(nèi)。數(shù)字語(yǔ)音處理語(yǔ)音信號(hào)相鄰樣值之間存在很大的相關(guān)性n短時(shí)自相關(guān)函數(shù)短時(shí)自相關(guān)函數(shù)和長(zhǎng)時(shí)自相關(guān)函數(shù)長(zhǎng)時(shí)自相關(guān)函數(shù)可以用來(lái)描述語(yǔ)音的幅度特性n語(yǔ)音信號(hào)的相鄰取樣值之間的相關(guān)性是很大的;n相關(guān)性隨著取樣值之間的間隔的加大而迅速減弱;數(shù)字語(yǔ)音處理頻率特性n帶寬有限一般為203400Hz ,有限的帶寬特性決定了可以用有限的奈奎斯特取樣速率,把語(yǔ)音信號(hào)離散化 n功率譜密度n語(yǔ)音中不同頻譜分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論