語(yǔ)音技術(shù)概述公開課課件_第1頁(yè)
語(yǔ)音技術(shù)概述公開課課件_第2頁(yè)
語(yǔ)音技術(shù)概述公開課課件_第3頁(yè)
語(yǔ)音技術(shù)概述公開課課件_第4頁(yè)
語(yǔ)音技術(shù)概述公開課課件_第5頁(yè)
已閱讀5頁(yè),還剩189頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

§2.1語(yǔ)音和語(yǔ)言

第2章語(yǔ)音信號(hào)短時(shí)分析技術(shù)構(gòu)成人類語(yǔ)音的是聲音,由人講話所發(fā)出的聲音,對(duì)語(yǔ)音中音的分類和研究稱為語(yǔ)音學(xué)。1、言語(yǔ)的過程和作用想說階段————大腦中樞活動(dòng)說出階段————發(fā)音器官的活動(dòng)傳送階段————傳送信息的物理過程起作用接收階段————聽覺系統(tǒng)活動(dòng)理解階段————大腦中樞活動(dòng)1§2.1語(yǔ)音和語(yǔ)言第2章語(yǔ)音信號(hào)短時(shí)分析技術(shù)構(gòu)成人類語(yǔ)2、一些基本概念①音素(phoneme):語(yǔ)音的最小單位,由音素構(gòu)成音節(jié)。②音節(jié)(Syllable):說話時(shí)一次發(fā)出的,具有一個(gè)響亮的中心,并被明顯感覺的語(yǔ)音片斷。音素和音節(jié)22、一些基本概念①音素(phoneme):語(yǔ)音的最小單位,輔音和元音

音素分為兩類:輔音(Consonant)和元音(Vowel)元音:聲帶振動(dòng)產(chǎn)生一個(gè)準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。輔音:呼出的氣流,由于通路中某一部分封閉起來或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。3輔音和元音元音:聲帶振動(dòng)產(chǎn)生一個(gè)準(zhǔn)周期的空氣脈沖,如i、u輔音和元音的區(qū)別有四點(diǎn):1、輔音發(fā)音時(shí),氣流在通過咽頭、口腔的過程中,要受到某部位的阻礙;元音發(fā)音時(shí),氣流在咽頭、口腔不受阻礙。這是元音和輔音最主要的區(qū)別。2、輔音發(fā)音時(shí),發(fā)音器官成阻的部位特別緊張;元音發(fā)音時(shí)發(fā)音器官各部位保持均衡的緊張狀態(tài)。3、輔音發(fā)音時(shí),氣流較強(qiáng);元音發(fā)音時(shí),氣流較弱。4、輔音發(fā)音時(shí),聲帶不一定振動(dòng),聲音一般不響亮;元音發(fā)音時(shí),聲帶振動(dòng),聲音比輔音響亮。4輔音和元音的區(qū)別有四點(diǎn):4半元音:聲道基本通暢,但某處比較狹窄,引起輕微摩擦。[W]、[Y]元音構(gòu)成音節(jié)的主干,輔音只出現(xiàn)在音節(jié)前端或前后兩端。元音的共振峰特性:聲道被看成具有均勻截面積的聲管,發(fā)音時(shí)起共鳴器的作用。元音激勵(lì)進(jìn)入聲道時(shí)引起共振特性,產(chǎn)生一組共振頻率,即共振峰。5半元音:聲道基本通暢,但某處比較狹窄,引起輕微摩擦。[W]、清音和濁音清音:聲帶不振動(dòng)濁音:聲帶振動(dòng)而發(fā)音元音都是濁音、輔音有清音也有濁音。6清音和濁音清音:聲帶不振動(dòng)元音都是濁音、輔音有清音也有濁音。3、漢語(yǔ)的聲調(diào):濁音的聲帶振動(dòng)基頻稱為基音頻率。無論在說一個(gè)單音節(jié)或說一段連續(xù)語(yǔ)音時(shí),各個(gè)音節(jié)中韻母段的都是隨時(shí)間變化的,基音頻率的不同軌跡稱為聲調(diào)。幾乎平均于橫軸、平均值高從較低一直上升到較高頻率先降后升從較高頻率降到較低頻率73、漢語(yǔ)的聲調(diào):濁音的聲帶振動(dòng)基頻稱為基音頻率。無論在說一個(gè)4、語(yǔ)音信號(hào)的時(shí)域波形開始/ai//k/時(shí)變特性有些段落周期性,有些段落具有噪聲特性,短時(shí)平穩(wěn)性84、語(yǔ)音信號(hào)的時(shí)域波形開始/ai//k/時(shí)變特性8Doyoulikeit?VsDidyoulikeit?Waveform9Doyoulikeit?VsDid§2.2語(yǔ)音產(chǎn)生的過程及聲學(xué)特征語(yǔ)音產(chǎn)生的過程喉以上的部分稱為聲道,隨著發(fā)出聲音的不同其形狀是變化的;而喉的部分稱為聲門。10§2.2語(yǔ)音產(chǎn)生的過程及聲學(xué)特征語(yǔ)音產(chǎn)生的過程10聲帶(VocalCords)10~14mm在喉部的從喉結(jié)到杓狀軟骨之間的韌帶褶。聲門(Glottis)兩個(gè)聲帶之間形成一個(gè)開閉自如的聲門,聲帶合攏因而受聲門下氣流的沖擊而張開;但由于聲帶韌性迅速地閉合,隨后又張開而閉合,聲帶開啟和閉合使氣流形成一系列脈沖。聲門每開啟和閉合一次的時(shí)間即振動(dòng)周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡(jiǎn)稱為基頻?;舻姆秶s為70~350Hz左右。11聲帶(VocalCords)10~14mm聲門每開啟和聲道(vocaltract)17cm

由咽腔、口腔和鼻腔三個(gè)空氣腔體組成。聲道是一個(gè)分布參數(shù)系統(tǒng),它有許多自然諧振頻率(在這些頻率上其傳遞函數(shù)具有極大值),所以聲道是一諧振腔,它放大某一頻率而衰減其他頻率分量。諧振頻率由每一瞬間的聲道外形決定。如果聲道的截面是均勻的,諧振頻率將發(fā)生在12聲道(vocaltract)17cm聲道是一個(gè)分聽覺系統(tǒng):聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化為機(jī)械振動(dòng),傳入內(nèi)耳?!?.3語(yǔ)音感知

由外耳、中耳、內(nèi)耳組成人耳的作用:1、聲音放大;2、聲音傳導(dǎo);3、聲源定位13聽覺系統(tǒng):聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化正常人的聽域與聽閾:聽覺感知特性:正常人的聽覺系統(tǒng)是極為靈敏的,人耳所能感覺的最低聲壓接近空氣中分子熱運(yùn)動(dòng)所產(chǎn)生的聲壓。正常人可聽聲音的頻率范圍為0.016-16kHz,年輕人可聽到20kHz的聲音,而老年人可聽到的高頻聲音要減少到10kHz左右。正常人可聽聲音的強(qiáng)度范圍為0-120dBSPL(聲壓級(jí)),這里的基準(zhǔn)聲壓(0dBSPL)是或。14正常人的聽域與聽閾:聽覺感知特性:正常人的聽覺系統(tǒng)是極為靈敏純音聽閾是與頻率有關(guān)的量,在1000Hz時(shí)約為4dB左右,而在40Hz時(shí)上升為50dB左右,在15kHz時(shí)上升為24dB左右。

感覺閾代表可容忍的最高聲壓。在聲壓級(jí)高到一定程度時(shí),耳朵會(huì)出現(xiàn)不適感覺,或者具有癢、壓迫及痛感。對(duì)正常人而言一般取120dB為不適閡,140dB為痛闡,且認(rèn)為它與頻率無關(guān)。15純音聽閾是與頻率有關(guān)的量,在1000Hz時(shí)約為4dB左右,而響度(Londness)---方(phon)是一種主觀心理量,主觀感覺到的聲音強(qiáng)弱的一種衡量標(biāo)準(zhǔn),它與頻率有關(guān)。一樣的音強(qiáng),不一樣的頻率,則響度也會(huì)有所不同。0dB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為0phon;ndB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為nphon;16響度(Londness)---方(phon)162、計(jì)算方法簡(jiǎn)單。依據(jù):小波系數(shù)可以反映語(yǔ)音信號(hào)在各個(gè)子帶內(nèi)沿時(shí)間軸的能量分布,通過處理又可以捕捉到語(yǔ)音段的邊界,因此可以利用小波變換來對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),以達(dá)到區(qū)分語(yǔ)音段和非語(yǔ)音段的目的。ndB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為nphon;元音激勵(lì)進(jìn)入聲道時(shí)引起共振特性,產(chǎn)生一組共振頻率,即共振峰。傳統(tǒng)端點(diǎn)檢測(cè)算法認(rèn)為,如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小,能夠保證系統(tǒng)的信噪比較高,那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能把語(yǔ)音段和噪聲背景區(qū)分開。準(zhǔn)則:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡(jiǎn)單。如果很大,它等效于很窄的低通濾波器,此時(shí)隨時(shí)間的變化很小,不能反映語(yǔ)音信號(hào)的幅度變化,信號(hào)的變化細(xì)節(jié)就看不出來;聲門每開啟和閉合一次的時(shí)間即振動(dòng)周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡(jiǎn)稱為基頻。原因:語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。語(yǔ)譜儀:將語(yǔ)音信號(hào)(經(jīng)話筒變成了電信號(hào))送進(jìn)一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號(hào)強(qiáng)則記錄得濃黑一些,反之則淺談一些。缺點(diǎn):濁音和清音的區(qū)分不如En明顯。這里窗長(zhǎng)的選擇對(duì)于反映語(yǔ)音信號(hào)的幅度變化起著決定的作用。也可在A/D變換之后進(jìn)行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),它一般是一階的。復(fù)倒譜和倒譜的特點(diǎn)和關(guān)系:諧振頻率由每一瞬間的聲道外形決定。把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。語(yǔ)音信號(hào)具有時(shí)變特性,而在一個(gè)短時(shí)間范圍內(nèi)其特性基本保持不變即相對(duì)穩(wěn)定,因而可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過程。依據(jù):小波系數(shù)可以反映語(yǔ)音信號(hào)在各個(gè)子帶內(nèi)沿時(shí)間軸的能量分布,通過處理又可以捕捉到語(yǔ)音段的邊界,因此可以利用小波變換來對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),以達(dá)到區(qū)分語(yǔ)音段和非語(yǔ)音段的目的。同時(shí)掩蔽:同時(shí)存在的一個(gè)弱信號(hào)和一個(gè)強(qiáng)信號(hào)頻率接近時(shí),強(qiáng)信號(hào)會(huì)提高弱信號(hào)的聽閾,當(dāng)弱信號(hào)的聽閾升高到一定程度會(huì)導(dǎo)致弱信號(hào)不可聞。同態(tài)處理(同態(tài)濾波):解卷,將卷積關(guān)系變?yōu)榍蠛吞幚?。聽覺掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽覺感受受到同時(shí)聽到的另一種聲音的影響。分:同時(shí)掩蔽和短時(shí)掩蔽172、計(jì)算方法簡(jiǎn)單。聽覺掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽覺感受受同時(shí)掩蔽:同時(shí)存在的一個(gè)弱信號(hào)和一個(gè)強(qiáng)信號(hào)頻率接近時(shí),強(qiáng)信號(hào)會(huì)提高弱信號(hào)的聽閾,當(dāng)弱信號(hào)的聽閾升高到一定程度會(huì)導(dǎo)致弱信號(hào)不可聞。短時(shí)掩蔽:當(dāng)A聲和B聲不同時(shí)出現(xiàn)時(shí)。后向掩蔽:掩蔽聲B消失后,其作用仍持續(xù)一段時(shí)間:0.5~2s前向掩蔽:被掩蔽音A出現(xiàn)后,相隔0.005~0.2s之內(nèi)出現(xiàn)掩蔽音B,也會(huì)對(duì)A起作用。18同時(shí)掩蔽:同時(shí)存在的一個(gè)弱信號(hào)和一個(gè)強(qiáng)信號(hào)頻率接近時(shí),強(qiáng)信號(hào)§2.4語(yǔ)音信號(hào)的數(shù)學(xué)模型準(zhǔn)則:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡(jiǎn)單。期望:模型既是線性的又是時(shí)不變的,這是最理想的模型。語(yǔ)音信號(hào)特征:一連串的時(shí)變過程;聲門和聲道相互耦合,還形成語(yǔ)音信號(hào)的非線性特性。合理假設(shè):在較短的時(shí)間間隔內(nèi)表示語(yǔ)音信號(hào)時(shí),采用線性時(shí)不變模型。19§2.4語(yǔ)音信號(hào)的數(shù)學(xué)模型準(zhǔn)則:要尋求一種可以表達(dá)一定物理發(fā)音器官的機(jī)理模型:20發(fā)音器官的機(jī)理模型:20語(yǔ)音信號(hào)的產(chǎn)生模型21語(yǔ)音信號(hào)的產(chǎn)生模型21(1)發(fā)濁音時(shí)。此時(shí)氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動(dòng),使聲門處形成準(zhǔn)周期性的脈沖串,并用它去激勵(lì)聲道。聲帶繃緊的程度不同,振動(dòng)頻率也不同。該頻率就是音調(diào)頻率,其倒數(shù)為音調(diào)周期。(2)發(fā)清音時(shí)。此時(shí)聲帶松弛而不振動(dòng),氣流通過聲門直接進(jìn)入聲道。表示為均值為0、方差為1,并在時(shí)間或在幅度上為白色分布的序列。

1、激勵(lì)模型22(1)發(fā)濁音時(shí)。此時(shí)氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動(dòng),使羅森貝格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時(shí)聲門脈沖取如圖所示的形狀,可以獲得比較好的合成語(yǔ)音效果。發(fā)濁音時(shí)的聲門脈沖23羅森貝格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時(shí)聲把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。2、聲道模型(一)聲管模型24把聲道視作截面積變化的管子,研究聲音沿管道是管道內(nèi)聲波的運(yùn)動(dòng)方程:

其中,為在點(diǎn)時(shí)刻的聲壓

為在點(diǎn)時(shí)刻的體積速度

為空氣密度

為聲速

為管道截面積25管道內(nèi)聲波的運(yùn)動(dòng)方程:其中,為在點(diǎn)時(shí)每個(gè)管子可看作為一個(gè)四端網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)具有反射系數(shù),聲道可由一組截面積或一組反射系數(shù)來表示。

通常用A表示聲管的截面積。由于語(yǔ)音的短時(shí)平穩(wěn)性,假設(shè)在短時(shí)間內(nèi),各段管子的截面積且是常數(shù)。設(shè)第m段和第m+1段的聲管的截面積分別為Am、Am+1,設(shè)稱為“面積和差比”,其取值范圍為-1<km<1。它實(shí)際上是線性預(yù)測(cè)的反射系數(shù)。26每個(gè)管子可看作為一個(gè)四端網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)具有反射系數(shù),聲道可由決定短時(shí)能量特性有兩個(gè)條件:不同的窗口的形狀和長(zhǎng)度。如果很大,它等效于很窄的低通濾波器,此時(shí)隨時(shí)間的變化很小,不能反映語(yǔ)音信號(hào)的幅度變化,信號(hào)的變化細(xì)節(jié)就看不出來;是一個(gè)時(shí)域序列,我們稱是x(n)的“復(fù)倒頻譜”,簡(jiǎn)稱為“復(fù)倒譜”,有時(shí)也稱作對(duì)數(shù)復(fù)倒譜。④采用示波器等通用設(shè)備,使用較為簡(jiǎn)單。窗長(zhǎng)越長(zhǎng),頻率分辨率越高,而時(shí)間分辨率越低第2章語(yǔ)音信號(hào)短時(shí)分析技術(shù)2、抑制50Hz工頻干擾。所處的離散時(shí)域,稱之為“復(fù)倒譜域”。②實(shí)現(xiàn)起來比較簡(jiǎn)單、運(yùn)算量少。幾乎平均于橫軸、平均值高短時(shí)掩蔽:當(dāng)A聲和B聲不同時(shí)出現(xiàn)時(shí)。輔音:呼出的氣流,由于通路中某一部分封閉起來或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。對(duì)于爆破音的寂靜段,應(yīng)將其納入語(yǔ)音的范圍而不是無聲段;由咽腔、口腔和鼻腔三個(gè)空氣腔體組成。上圖給出了相同條件下一段加窗語(yǔ)音的時(shí)域波形及其倒譜。一樣的音強(qiáng),不一樣的頻率,則響度也會(huì)有所不同。同態(tài)信號(hào)處理的基本原理反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運(yùn)算實(shí)驗(yàn)室背景下基于能量和過零率的端點(diǎn)檢測(cè)結(jié)果已知一個(gè)實(shí)序列的復(fù)倒譜,可以求其倒譜。共振峰與舌位關(guān)系舌位高低決定了F1共振頻率。舌位越高,F(xiàn)1的頻率越低,反則反之。舌位前后決定了F2共振頻率舌位越后,F(xiàn)2的頻率越低,反則反之。

(二)共振峰模型聲道被視為諧振腔,共振峰是腔體的諧振頻率27決定短時(shí)能量特性有兩個(gè)條件:不同的窗口的形狀和長(zhǎng)度。共振峰與1)級(jí)聯(lián)共振峰模型(適合于一般元音)分解:281)級(jí)聯(lián)共振峰模型(適合于一般元音)分解:282)并聯(lián)型(非一般元音和大多數(shù)輔音)292)并聯(lián)型(非一般元音和大多數(shù)輔音)293、混合型(結(jié)合級(jí)聯(lián)型和并聯(lián)型):幅度控制因子AB專為一些頻譜特性比較平坦的音素,如[f],[p],[b]所考慮的。303、混合型(結(jié)合級(jí)聯(lián)型和并聯(lián)型):幅度控制因子AB專為一些頻

聲道的終端為口和唇。從聲道輸出的是速度波,而語(yǔ)音信號(hào)是聲壓波,二者之倒比稱為輻射阻抗ZL。它表征口和唇的輻射效應(yīng),也包括圓形的頭部的繞射效應(yīng)等。

口唇的輻射效應(yīng)可表示為:,它是一階后向差分。輻射模型R(z)是一階類高通濾波器的形式。3、輻射模型31聲道的終端為口和唇。從聲道輸出的是速度波,而

完整的語(yǔ)音信號(hào)數(shù)字模型可以用三個(gè)子模型:激勵(lì)模型、聲道模型和輻射模型的串聯(lián)來表示。其轉(zhuǎn)移函數(shù)為:

H(z)=U(z)V(z)R(z)這里,U(z)是激勵(lì)信號(hào)——聲門脈沖即斜三角波的形式;V(z)是聲道傳遞函數(shù),既可以用聲管模型,也可以用共振峰模型來描述。在共振峰模型中,又可采用級(jí)聯(lián)型、并聯(lián)型或混合型等幾種形式;R(z)為輻射模型。

4、完整的模型

32完整的語(yǔ)音信號(hào)數(shù)字模型可以用三個(gè)子模型:激勵(lì)

聲門脈沖

聲道語(yǔ)音信號(hào)

激勵(lì)信號(hào)聲道濾波器語(yǔ)音信號(hào)頻譜傳遞函數(shù)頻譜韻母的產(chǎn)生過程33聲門脈沖2.5語(yǔ)音的質(zhì)量評(píng)估一類是音節(jié)以下(如音素、聲母、韻母)的語(yǔ)音單元的測(cè)試,這常稱為“清晰度”測(cè)試;清晰度測(cè)試可以元音、輔音為基礎(chǔ)或以聲母、韻母為基礎(chǔ),再根據(jù)音節(jié)成分算出音節(jié)清晰度。一類是音節(jié)以上(如詞、句)的語(yǔ)音單元的測(cè)試,常稱為“可懂度”測(cè)試。

語(yǔ)音質(zhì)量測(cè)試可分為兩類:

342.5語(yǔ)音的質(zhì)量評(píng)估一類是音節(jié)以下(如音素、聲母、韻母)的2.6語(yǔ)音信號(hào)的時(shí)頻特性分析漢語(yǔ)拼音“SouKe”的時(shí)域波形采樣率8kHz352.6語(yǔ)音信號(hào)的時(shí)頻特性分析漢語(yǔ)拼音“SouKe”的時(shí)3636同時(shí)其振幅隨著k值的增大而衰減。定義:過零就是信號(hào)通過零值。1)先將語(yǔ)音信號(hào)分成由1024個(gè)采樣點(diǎn)組成的幀;反特征系統(tǒng)D*-1:其中,為在點(diǎn)時(shí)刻的聲壓若時(shí)域中有,則復(fù)倒譜域中。短時(shí)掩蔽:當(dāng)A聲和B聲不同時(shí)出現(xiàn)時(shí)。③隨|n|增大而衰減的速度至少比1/|n|快,聲門(Glottis)3語(yǔ)音感知已知一個(gè)實(shí)序列的復(fù)倒譜,可以求其倒譜。4語(yǔ)音信號(hào)的數(shù)學(xué)模型元音:聲帶振動(dòng)產(chǎn)生一個(gè)準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。語(yǔ)音信號(hào)特征:一連串的時(shí)變過程;反之,窗長(zhǎng)太小時(shí),濾波器的通帶變寬,隨時(shí)間有急劇的變化,不能得到平滑的能量函數(shù)。10語(yǔ)音信號(hào)的倒譜分析應(yīng)該盡量避免在檢測(cè)中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語(yǔ)音;在背景噪聲較小時(shí)用平均能量識(shí)別較為有效,而在背景噪聲較大時(shí)用平均過零數(shù)識(shí)別較為有效。這段語(yǔ)音用海明窗加權(quán),基音周期為Np=45。實(shí)驗(yàn)室背景下基于能量和過零率的端點(diǎn)檢測(cè)結(jié)果37同時(shí)其振幅隨著k值的增大而衰減。372.7語(yǔ)音信號(hào)的語(yǔ)譜圖語(yǔ)譜儀:將語(yǔ)音信號(hào)(經(jīng)話筒變成了電信號(hào))送進(jìn)一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號(hào)強(qiáng)則記錄得濃黑一些,反之則淺談一些。由此得到的即是語(yǔ)音信號(hào)的語(yǔ)譜圖,此圖的水平方向是時(shí)間軸,垂直方向是頻率軸,固上或深或淺的黑色條紋表征各個(gè)時(shí)刻的短時(shí)譜。382.7語(yǔ)音信號(hào)的語(yǔ)譜圖語(yǔ)譜儀:將語(yǔ)音信號(hào)(經(jīng)話筒變成了電信

自然語(yǔ)音a波形圖

自然語(yǔ)音a語(yǔ)譜圖

自然語(yǔ)音o波形圖

自然語(yǔ)音o語(yǔ)譜圖39自然語(yǔ)音a波形圖自然語(yǔ)音a語(yǔ)譜圖自然語(yǔ)音語(yǔ)音處理的根本方法——短時(shí)分析技術(shù)

語(yǔ)音信號(hào)具有時(shí)變特性,而在一個(gè)短時(shí)間范圍內(nèi)其特性基本保持不變即相對(duì)穩(wěn)定,因而可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過程。語(yǔ)音的重要特性是它具有“短時(shí)性”,所以對(duì)語(yǔ)音的分析和處理必須建立在“短時(shí)”的基礎(chǔ)上,即進(jìn)行“短時(shí)分析”,§2.8語(yǔ)音信號(hào)的數(shù)字化與預(yù)處理語(yǔ)音信號(hào)處理系統(tǒng)框圖40語(yǔ)音處理的根本方法——短時(shí)分析技術(shù)語(yǔ)音信號(hào)數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼預(yù)處理:預(yù)加重、加窗、分幀、端點(diǎn)檢測(cè)①表示語(yǔ)音信號(hào)比較直觀、物理意義明確。②實(shí)現(xiàn)起來比較簡(jiǎn)單、運(yùn)算量少。③可以得到語(yǔ)音的一些重要參數(shù)。④采用示波器等通用設(shè)備,使用較為簡(jiǎn)單。

時(shí)域分析的特點(diǎn):41數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼①1、預(yù)濾波、采樣、A/D變換目的:1、抑制輸入信號(hào)各頻域分量中頻率超出fs/2的所有分量,以防止混疊干擾;2、抑制50Hz工頻干擾。實(shí)現(xiàn):帶通濾波器,上下邊帶截止頻率分別為、421、預(yù)濾波、采樣、A/D變換目的:實(shí)現(xiàn):帶通濾波器,上下邊采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號(hào)的兩倍帶寬時(shí),取樣過程中不會(huì)丟失信息,且從取樣信號(hào)中可以精確地重構(gòu)原始信號(hào)波形。在信號(hào)的帶寬不明確時(shí),在取樣前應(yīng)接入反混疊濾波器,使其帶寬限制在某個(gè)范圍內(nèi)。語(yǔ)音信號(hào)頻率范圍:300~3400Hz采樣率:8kHz~10kHz43采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號(hào)的兩倍帶寬時(shí),取樣過程中量化:將輸入的整個(gè)幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本都量化成同一幅度值。44量化:將輸入的整個(gè)幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本量化后的信號(hào)值與原信號(hào)之間的差值稱為量化誤差,又稱為量化噪聲。若信號(hào)波形的變化足夠大或量化間隔足夠小時(shí),可以證明量化噪聲符合具有下列特性的統(tǒng)計(jì)模型:①它是一個(gè)平穩(wěn)的白噪聲過程;②量化噪聲和輸入信號(hào)不相關(guān);③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布。45量化后的信號(hào)值與原信號(hào)之間的差值稱為量化誤差,又稱為量化噪聲2、預(yù)處理預(yù)加重:原因:語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。目的:提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。位置:可在反混疊濾波之前進(jìn)行,這樣不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號(hào)的動(dòng)態(tài)范圍,有效地提高信噪比。也可在A/D變換之后進(jìn)行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),它一般是一階的。式中值接近于1。

462、預(yù)處理預(yù)加重:46濁語(yǔ)音的倒譜和復(fù)倒譜實(shí)例能夠?qū)⒍虝r(shí)沖激噪聲和超過門限值的信號(hào)納入無聲段而不是有聲段;第2章語(yǔ)音信號(hào)短時(shí)分析技術(shù)5)通過幀間平滑連接所有互相關(guān)系數(shù)成為一個(gè)和原信號(hào)長(zhǎng)度相同的序列;在共振峰模型中,又可采用級(jí)聯(lián)型、并聯(lián)型或混合型等幾種形式;一個(gè)較好的端點(diǎn)檢測(cè)算法應(yīng)該能夠滿足:3語(yǔ)音感知1)先將語(yǔ)音信號(hào)分成由1024個(gè)采樣點(diǎn)組成的幀;窗長(zhǎng)越長(zhǎng),頻率分辨率越高,而時(shí)間分辨率越低一樣的音強(qiáng),不一樣的頻率,則響度也會(huì)有所不同。管道內(nèi)聲波的運(yùn)動(dòng)方程:位置:可在反混疊濾波之前進(jìn)行,這樣不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號(hào)的動(dòng)態(tài)范圍,有效地提高信噪比。同態(tài)信號(hào)處理的基本原理諧振頻率由每一瞬間的聲道外形決定。有些段落周期性,有些段落具有噪聲特性,短時(shí)平穩(wěn)性準(zhǔn)則:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡(jiǎn)單。針對(duì)白噪聲和汽車噪聲環(huán)境對(duì)數(shù)字0~9的語(yǔ)音數(shù)據(jù)進(jìn)行實(shí)驗(yàn),用來做測(cè)試的語(yǔ)音文件每組50個(gè),包括男生和女生發(fā)音,含有汽車噪聲的語(yǔ)音信號(hào)平均信噪比10dB和5dB,分別模擬汽車中速和高速行駛環(huán)境下的錄音。反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運(yùn)算準(zhǔn)則:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡(jiǎn)單。舌位越高,F(xiàn)1的頻率越低,反則反之。加窗分幀:語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),其特性是隨時(shí)間而變化的,但是語(yǔ)音的形成過程是與發(fā)音器官的運(yùn)動(dòng)密切相關(guān)的,這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來說要緩慢得多,因此語(yǔ)音信號(hào)常??杉俣槎虝r(shí)平穩(wěn)的,即在10~30ms的時(shí)間段內(nèi),其頻譜特性和物理特征參量可近似地看作是不變的,這樣,就可以采用平穩(wěn)過程的分析處理方法來處理了。由這個(gè)假定導(dǎo)出了各種“短時(shí)”處理方法,以后討論的各種語(yǔ)音信號(hào)都是分隔為一些短段(幀)再加以處理。這些短段就好像是來自一個(gè)具有固定特性的持續(xù)語(yǔ)音片段一樣。47濁語(yǔ)音的倒譜和復(fù)倒譜實(shí)例加窗分幀:47將語(yǔ)音分成短段的基本手段是對(duì)語(yǔ)音加窗,即用一個(gè)有限長(zhǎng)度的窗序列截取一段語(yǔ)音信號(hào)來進(jìn)行分析。該窗函數(shù)可以按時(shí)間方向滑動(dòng),以便分析任一時(shí)刻附近的信號(hào)。加窗運(yùn)算定義為:48將語(yǔ)音分成短段的基本手段是對(duì)語(yǔ)音加窗,即用一個(gè)有限長(zhǎng)度的窗序幀長(zhǎng)和幀移的示例49幀長(zhǎng)和幀移的示例49矩形窗:漢明窗:漢寧窗:50矩形窗:漢明窗:漢寧窗:50端點(diǎn)檢測(cè):端點(diǎn)檢測(cè)是指從包含語(yǔ)音的一段信號(hào)中確定出語(yǔ)音的開始和終止點(diǎn)。有效的端點(diǎn)檢測(cè)不僅能使處理時(shí)間減到最小,而且能去除無聲段的噪聲干擾,從而使識(shí)別系統(tǒng)具有良好的識(shí)別性能。一個(gè)較好的端點(diǎn)檢測(cè)算法應(yīng)該能夠滿足:門限值可以對(duì)背景噪聲的變化有一定的適應(yīng);能夠?qū)⒍虝r(shí)沖激噪聲和超過門限值的信號(hào)納入無聲段而不是有聲段;對(duì)于爆破音的寂靜段,應(yīng)將其納入語(yǔ)音的范圍而不是無聲段;應(yīng)該盡量避免在檢測(cè)中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語(yǔ)音;應(yīng)該避免使用過零率作為判決標(biāo)準(zhǔn),以免帶來負(fù)面影響。51端點(diǎn)檢測(cè):51傳統(tǒng)的端點(diǎn)檢測(cè)算法1.基于能量的端點(diǎn)檢測(cè)語(yǔ)音和噪音的主要區(qū)別在它們的能量上,語(yǔ)音段的能量比噪音段的大,語(yǔ)音段的能量是噪音段能量疊加語(yǔ)音聲波能量的和。傳統(tǒng)端點(diǎn)檢測(cè)算法認(rèn)為,如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小,能夠保證系統(tǒng)的信噪比較高,那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能把語(yǔ)音段和噪聲背景區(qū)分開。實(shí)際中信噪比較低。52傳統(tǒng)的端點(diǎn)檢測(cè)算法1.基于能量的端點(diǎn)檢測(cè)語(yǔ)音和噪音的主要區(qū)2.雙門限前端檢測(cè)法

利用短時(shí)過零率來檢測(cè)清音,用短時(shí)能量來檢測(cè)濁音。雙門限法是考慮到語(yǔ)音開始以后總會(huì)出現(xiàn)能量較大的濁音,設(shè)一個(gè)較高的門限用以確定語(yǔ)音已開始,再取一比稍低的門限,用以確定真正的起止點(diǎn)及結(jié)束點(diǎn)。判斷清音與無話的差別,是采用另一個(gè)較低的門限,求越過該門限的“過零率”。只要取得合適,通常背景噪聲的低門限過零率將明顯低于語(yǔ)音的低門限過零率值。這種方法普遍地用于有話、無話鑒別或詞語(yǔ)前端檢測(cè)。532.雙門限前端檢測(cè)法利用短時(shí)過零率來檢測(cè)清音,用短時(shí)能3.基于噪聲動(dòng)態(tài)檢測(cè)的語(yǔ)音端點(diǎn)檢測(cè)算法543.基于噪聲動(dòng)態(tài)檢測(cè)的語(yǔ)音端點(diǎn)檢測(cè)算法54仿真實(shí)驗(yàn)及結(jié)果分析圖1“制約”在零噪聲時(shí)的檢測(cè)結(jié)果圖2“1”在加入少量噪聲時(shí)的檢測(cè)結(jié)果圖3“1”在噪聲加大時(shí)的檢測(cè)結(jié)果

圖4“1”在噪聲進(jìn)一步加大時(shí)的檢測(cè)結(jié)果55仿真實(shí)驗(yàn)及結(jié)果分析圖1“制約”在零噪聲時(shí)的檢測(cè)結(jié)果圖2“4.基于小波變換的語(yǔ)音端點(diǎn)檢測(cè)算法依據(jù):小波系數(shù)可以反映語(yǔ)音信號(hào)在各個(gè)子帶內(nèi)沿時(shí)間軸的能量分布,通過處理又可以捕捉到語(yǔ)音段的邊界,因此可以利用小波變換來對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),以達(dá)到區(qū)分語(yǔ)音段和非語(yǔ)音段的目的。564.基于小波變換的語(yǔ)音端點(diǎn)檢測(cè)算法依據(jù):小波系數(shù)可以反映語(yǔ)窗長(zhǎng)為15ms,fs=10kHz,因此共包括150個(gè)語(yǔ)音樣點(diǎn)。一樣的音強(qiáng),不一樣的頻率,則響度也會(huì)有所不同。利用它可以從背景噪聲中找出語(yǔ)音信號(hào),可用于判斷寂靜無語(yǔ)音和有語(yǔ)音的起點(diǎn)和終點(diǎn)位置。原因:語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。諧振頻率由每一瞬間的聲道外形決定。一類是音節(jié)以上(如詞、句)的語(yǔ)音單元的測(cè)試,常稱為“可懂度”測(cè)試。在聲壓級(jí)高到一定程度時(shí),耳朵會(huì)出現(xiàn)不適感覺,或者具有癢、壓迫及痛感。聲門和聲道相互耦合,還形成語(yǔ)音信號(hào)的非線性特性。元音都是濁音、輔音有清音也有濁音。圖(a)是一個(gè)海明窗乘過的清音語(yǔ)音段,圖(b)為相應(yīng)的倒譜。④采用示波器等通用設(shè)備,使用較為簡(jiǎn)單。窗長(zhǎng)越長(zhǎng),頻率分辨率越高,而時(shí)間分辨率越低N=51的直角窗和海明窗的對(duì)數(shù)幅頻特性。噪聲情況下各種語(yǔ)音端點(diǎn)檢測(cè)方法比較原因:語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。實(shí)驗(yàn)室背景下基于能量和過零率的端點(diǎn)檢測(cè)結(jié)果窗長(zhǎng)越長(zhǎng),頻率分辨率越高,而時(shí)間分辨率越低這種方法普遍地用于有話、無話鑒別或詞語(yǔ)前端檢測(cè)。2、抑制50Hz工頻干擾。3、聲源定位步驟:1)先將語(yǔ)音信號(hào)分成由1024個(gè)采樣點(diǎn)組成的幀;2)對(duì)每幀進(jìn)行10層小波分解;3)計(jì)算所選兩個(gè)子帶(子帶4和子帶5)的小波系數(shù);4)計(jì)算兩個(gè)子帶的互相關(guān)系數(shù);5)通過幀間平滑連接所有互相關(guān)系數(shù)成為一個(gè)和原信號(hào)長(zhǎng)度相同的序列;6)計(jì)算序列前220個(gè)點(diǎn)(20ms)的最大值,把此最大值作為閾值;7)比較序列中各個(gè)點(diǎn)的值。若小于閾值,則記為靜音;若大于閾值,則記為語(yǔ)音;8)按照上述過程對(duì)語(yǔ)音信號(hào)進(jìn)行標(biāo)記,再濾掉個(gè)別誤判點(diǎn),完成語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)。57窗長(zhǎng)為15ms,fs=10kHz,因此共包括150個(gè)語(yǔ)音樣點(diǎn)5.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音端點(diǎn)檢測(cè)算法

原理:選用一個(gè)三層的RNN,且隱層的輸出全部反饋到輸入層。輸入的采樣語(yǔ)音信號(hào)被分成三種模式:濁音(U)、清音(V)、和背景噪聲(N)。選用的RNN神經(jīng)網(wǎng)絡(luò)輸出層有三個(gè)節(jié)點(diǎn),對(duì)應(yīng)輸出的三種模式。585.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音端點(diǎn)檢測(cè)算法循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)59循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)593)仿真實(shí)驗(yàn)與結(jié)果分析

針對(duì)白噪聲和汽車噪聲環(huán)境對(duì)數(shù)字0~9的語(yǔ)音數(shù)據(jù)進(jìn)行實(shí)驗(yàn),用來做測(cè)試的語(yǔ)音文件每組50個(gè),包括男生和女生發(fā)音,含有汽車噪聲的語(yǔ)音信號(hào)平均信噪比10dB和5dB,分別模擬汽車中速和高速行駛環(huán)境下的錄音。603)仿真實(shí)驗(yàn)與結(jié)果分析針對(duì)實(shí)驗(yàn)室背景下基于能量和過零率的端點(diǎn)檢測(cè)結(jié)果61實(shí)驗(yàn)室背景下基于能量和過零率的端點(diǎn)檢測(cè)結(jié)果61信噪比15dB時(shí)基于能量和過零率的檢測(cè)結(jié)果62信噪比15dB時(shí)基于能量和過零率的檢測(cè)結(jié)果62信噪比15dB時(shí)基于小波變換的端點(diǎn)檢測(cè)結(jié)果63信噪比15dB時(shí)基于小波變換的端點(diǎn)檢測(cè)結(jié)果63信噪比5dB時(shí)基于小波變換的端點(diǎn)檢測(cè)結(jié)果64信噪比5dB時(shí)基于小波變換的端點(diǎn)檢測(cè)結(jié)果64信噪比5dB時(shí)基于循環(huán)神經(jīng)網(wǎng)絡(luò)小波變換的端點(diǎn)檢測(cè)結(jié)果

65信噪比5dB時(shí)基于循環(huán)神經(jīng)網(wǎng)絡(luò)小波變換的端點(diǎn)檢測(cè)結(jié)果65方法測(cè)度白噪聲/dB汽車噪聲/dB0515510Energy0.620.750.800.720.780.530.610.780.590.690.590.720.780.680.75Wavelet0.850.900.990.870.900.700.820.980.770.800.810.880.990.840.87RNN0.900.951.000.910.920.750.880.980.820.850.860.920.990.880.92噪聲情況下各種語(yǔ)音端點(diǎn)檢測(cè)方法比較66方法測(cè)度白噪聲/dB汽車噪聲/dB0515510En

基于能量和過零率的端點(diǎn)檢測(cè)方法在實(shí)驗(yàn)室環(huán)境下可以獲得較好的端點(diǎn)檢測(cè)結(jié)果,隨著信噪比的降低該方法檢測(cè)的準(zhǔn)確率將隨之下降,基于小波變換和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的端點(diǎn)檢測(cè)方法對(duì)于噪聲具有一定的魯棒性,但是隨著噪聲的明顯增大,小波變換的方法得到的檢測(cè)結(jié)果仍然有所下降,與之相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法的魯棒性要優(yōu)于基于小波變換的方法,具有很大的優(yōu)越性和實(shí)用性。

結(jié)果分析:67基于能量和過零率的端點(diǎn)檢測(cè)方法在實(shí)驗(yàn)室環(huán)境下可2.8短時(shí)能量和平均幅度分析原理:語(yǔ)音信號(hào)能量隨時(shí)間有相當(dāng)大的變化,特別是清音段的能量一般比濁音段的小得多。

定義:1、短時(shí)能量分析682.8短時(shí)能量和平均幅度分析原理:語(yǔ)音信號(hào)能量隨時(shí)間有決定短時(shí)能量特性有兩個(gè)條件:不同的窗口的形狀和長(zhǎng)度。

矩形窗:第一個(gè)零點(diǎn):窗口形狀:窗長(zhǎng)對(duì)分辨率的影響窗長(zhǎng)越長(zhǎng),頻率分辨率越高,而時(shí)間分辨率越低69決定短時(shí)能量特性有兩個(gè)條件:不同的窗口的形狀和長(zhǎng)度。矩形窗海明窗:第一個(gè)零點(diǎn):矩形窗譜平滑性能好,但損失高頻成分,波形細(xì)節(jié)丟失,海明窗與之相反。70海明窗:第一個(gè)零點(diǎn):矩形窗譜平滑性能好,但損失高頻成分,波形N=51的直角窗和海明窗的對(duì)數(shù)幅頻特性。海明窗的第一個(gè)零值頻率位置比直角窗要大1倍左右,同時(shí)其帶外衰減也比直角窗大得多。71N=51的直角窗和海明窗的對(duì)數(shù)幅頻特性。海明窗的第一個(gè)零值頻這里窗長(zhǎng)的選擇對(duì)于反映語(yǔ)音信號(hào)的幅度變化起著決定的作用。如果很大,它等效于很窄的低通濾波器,此時(shí)隨時(shí)間的變化很小,不能反映語(yǔ)音信號(hào)的幅度變化,信號(hào)的變化細(xì)節(jié)就看不出來;反之,窗長(zhǎng)太小時(shí),濾波器的通帶變寬,隨時(shí)間有急劇的變化,不能得到平滑的能量函數(shù)。窗口的長(zhǎng)度:標(biāo)準(zhǔn):一幀內(nèi)含有1~7個(gè)基音周期,10kHz取樣下,N取100~200點(diǎn)。72這里窗長(zhǎng)的選擇對(duì)于反映語(yǔ)音信號(hào)的幅度變化起著決定的作用。如果2、短時(shí)平均幅度分析定義:框圖:優(yōu)點(diǎn):1、對(duì)高電平信號(hào)不如En敏感;2、計(jì)算方法簡(jiǎn)單。缺點(diǎn):濁音和清音的區(qū)分不如En明顯。732、短時(shí)平均幅度分析定義:73短時(shí)平均能量和短時(shí)平均幅度的主要用途:

可以區(qū)分清音段與濁音段:En值大的對(duì)應(yīng)于濁音段,而En值小的對(duì)應(yīng)于清音段。En值的變化,可大致判定濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r(shí)刻。可以用來區(qū)分聲母與韻母的分界,無聲與有聲的分界,連字(指字之間無間隙)的分界等。作為一種超音段信息,用于語(yǔ)音識(shí)別中。

74短時(shí)平均能量和短時(shí)平均幅度的主要用途:可以區(qū)分清音段與濁音2.9短時(shí)過零分析定義:過零就是信號(hào)通過零值。連續(xù)語(yǔ)音信號(hào),考察其時(shí)域波形通過時(shí)間軸的情況;離散時(shí)間信號(hào),相鄰的取樣值改變符號(hào)則稱為過零。語(yǔ)音信號(hào)序列是寬帶信號(hào),則不能簡(jiǎn)單用上面的公式。752.9短時(shí)過零分析定義:過零就是信號(hào)通過零值。75語(yǔ)音信號(hào)短時(shí)過零分析定義:其中:框圖:76語(yǔ)音信號(hào)短時(shí)過零分析定義:其中:框圖:76此時(shí)氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動(dòng),使聲門處形成準(zhǔn)周期性的脈沖串,并用它去激勵(lì)聲道。門限值可以對(duì)背景噪聲的變化有一定的適應(yīng);能夠?qū)⒍虝r(shí)沖激噪聲和超過門限值的信號(hào)納入無聲段而不是有聲段;若大于閾值,則記為語(yǔ)音;缺點(diǎn):濁音和清音的區(qū)分不如En明顯。從較高頻率降到較低頻率窗長(zhǎng)為15ms,fs=10kHz,因此共包括150個(gè)語(yǔ)音樣點(diǎn)。這段語(yǔ)音用海明窗加權(quán),基音周期為Np=45?;谀芰亢瓦^零率的端點(diǎn)檢測(cè)方法在實(shí)驗(yàn)室環(huán)境下可以獲得較好的端點(diǎn)檢測(cè)結(jié)果,隨著信噪比的降低該方法檢測(cè)的準(zhǔn)確率將隨之下降,基于小波變換和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的端點(diǎn)檢測(cè)方法對(duì)于噪聲具有一定的魯棒性,但是隨著噪聲的明顯增大,小波變換的方法得到的檢測(cè)結(jié)果仍然有所下降,與之相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法的魯棒性要優(yōu)于基于小波變換的方法,具有很大的優(yōu)越性和實(shí)用性。③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布。圖(a)是一個(gè)海明窗乘過的清音語(yǔ)音段,圖(b)為相應(yīng)的倒譜。此時(shí)聲帶松弛而不振動(dòng),氣流通過聲門直接進(jìn)入聲道。依據(jù):小波系數(shù)可以反映語(yǔ)音信號(hào)在各個(gè)子帶內(nèi)沿時(shí)間軸的能量分布,通過處理又可以捕捉到語(yǔ)音段的邊界,因此可以利用小波變換來對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),以達(dá)到區(qū)分語(yǔ)音段和非語(yǔ)音段的目的。元音:聲帶振動(dòng)產(chǎn)生一個(gè)準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。10語(yǔ)音信號(hào)的倒譜分析②實(shí)現(xiàn)起來比較簡(jiǎn)單、運(yùn)算量少。由于語(yǔ)音的短時(shí)平穩(wěn)性,假設(shè)在短時(shí)間內(nèi),各段管子的截面積且是常數(shù)。語(yǔ)音處理的根本方法——短時(shí)分析技術(shù)若信號(hào)波形的變化足夠大或量化間隔足夠小時(shí),可以證明量化噪聲符合具有下列特性的統(tǒng)計(jì)模型:10語(yǔ)音信號(hào)的倒譜分析短時(shí)過零分析的意義:可以區(qū)分清音與濁音:濁音時(shí)具有較低的平均過零數(shù),而清音時(shí)具有較高的平均過零數(shù)。利用它可以從背景噪聲中找出語(yǔ)音信號(hào),可用于判斷寂靜無語(yǔ)音和有語(yǔ)音的起點(diǎn)和終點(diǎn)位置。

在背景噪聲較小時(shí)用平均能量識(shí)別較為有效,而在背景噪聲較大時(shí)用平均過零數(shù)識(shí)別較為有效。

77此時(shí)氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動(dòng),使聲門處形成準(zhǔn)周期2.10語(yǔ)音信號(hào)的倒譜分析求語(yǔ)音倒譜特征參數(shù),通過同態(tài)處理來實(shí)現(xiàn)。倒譜分析:運(yùn)用對(duì)數(shù)運(yùn)算和二次FFT/IFFT變換,將基音諧波和聲道的頻譜包絡(luò)分離出來,用低時(shí)窗從語(yǔ)音信號(hào)倒譜中截取出低倒譜域部分,可以更精確的反映聲道的響應(yīng),得到共振峰。2、對(duì)原語(yǔ)音信號(hào)分析出一組預(yù)測(cè)系數(shù),得到語(yǔ)音產(chǎn)生模型的頻率響應(yīng)。

同態(tài)處理(同態(tài)濾波):解卷,將卷積關(guān)系變?yōu)榍蠛吞幚?。將語(yǔ)音信號(hào)的聲門激勵(lì)和聲道響應(yīng)分離開。782.10語(yǔ)音信號(hào)的倒譜分析求語(yǔ)音倒譜特征參數(shù),通過同態(tài)處理同態(tài)信號(hào)處理的基本原理信號(hào)分類:加性信號(hào)、乘積性信號(hào)、卷積性信號(hào)等。同態(tài)信號(hào)處理目的:將非線性問題轉(zhuǎn)化為線性問題來處理。同態(tài)信號(hào)處理分類:乘積同態(tài)處理和卷積同態(tài)處理兩種。79同態(tài)信號(hào)處理的基本原理信號(hào)分類:加性信號(hào)、乘積性信號(hào)、卷積性特征系統(tǒng)D*反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運(yùn)算卷積同態(tài)系統(tǒng):80特征系統(tǒng)D*卷積同態(tài)系統(tǒng):80特征系統(tǒng)D*81特征系統(tǒng)D*81反特征系統(tǒng)D*-1:82反特征系統(tǒng)D*-1:82復(fù)倒譜和倒譜是一個(gè)時(shí)域序列,我們稱是x(n)的“復(fù)倒頻譜”,簡(jiǎn)稱為“復(fù)倒譜”,有時(shí)也稱作對(duì)數(shù)復(fù)倒譜。所處的離散時(shí)域,稱之為“復(fù)倒譜域”。這樣,特征系統(tǒng)D*[]將離散時(shí)域中的卷積運(yùn)算轉(zhuǎn)換為復(fù)倒譜域中的加性運(yùn)算。進(jìn)行同態(tài)信號(hào)處理后,即可完成解卷的任務(wù)。若時(shí)域中有,則復(fù)倒譜域中。假設(shè)位于復(fù)倒譜域中不同的間隔內(nèi)并且互不交替,那么適當(dāng)?shù)卦O(shè)計(jì)線性系統(tǒng),便可將x1(n)或x2(n)分離出來。83復(fù)倒譜和倒譜是一個(gè)時(shí)域序列,我們特征系統(tǒng)D*反特征系統(tǒng)D*-1c(n)是序列x(n)對(duì)數(shù)幅度譜的傅里葉逆變換,c(n)稱為“倒頻譜”或簡(jiǎn)稱為“倒譜”,有時(shí)也稱“對(duì)數(shù)倒頻譜”。84特征系統(tǒng)D*反特征系統(tǒng)D*-1c(n)是序列x(n)對(duì)數(shù)幅復(fù)倒譜和倒譜的特點(diǎn)和關(guān)系:1.復(fù)倒譜要進(jìn)行復(fù)對(duì)數(shù)運(yùn)算,倒譜只進(jìn)行實(shí)對(duì)數(shù)運(yùn)算。2.倒譜情況下,一個(gè)序列經(jīng)過正反兩個(gè)特征系統(tǒng)以后不能還原成自身,因?yàn)閬G失相位信息。4.已知一個(gè)實(shí)序列的復(fù)倒譜,可以求其倒譜。5.已知倒譜,可以求復(fù)倒譜。85復(fù)倒譜和倒譜的特點(diǎn)和關(guān)系:1.復(fù)倒譜要進(jìn)行復(fù)對(duì)數(shù)運(yùn)算,倒譜只語(yǔ)音信號(hào)的復(fù)倒譜語(yǔ)音信號(hào)可看作是聲門激勵(lì)信號(hào)和聲道沖激響應(yīng)序列的卷積。1聲門激勵(lì)信號(hào)

發(fā)濁音時(shí),聲門激勵(lì)是以基音周期為周期的沖激序列:

86語(yǔ)音信號(hào)的復(fù)倒譜語(yǔ)音信號(hào)可看作是聲門激勵(lì)信號(hào)和聲道沖激響應(yīng)序得到復(fù)倒譜:

對(duì)上式取對(duì)數(shù)并按泰勒級(jí)數(shù)展開:87得到復(fù)倒譜:對(duì)上式取對(duì)數(shù)并按泰勒級(jí)數(shù)展開:87或:一個(gè)周期沖激的有限長(zhǎng)度序列,其復(fù)倒譜也是一個(gè)周期沖激序列,而且長(zhǎng)度不變,只是序列變?yōu)闊o限長(zhǎng)度序列。同時(shí)其振幅隨著k值的增大而衰減。88或:一個(gè)周期沖激的有限長(zhǎng)度序列,其復(fù)倒譜也是一個(gè)周期沖激序列2聲道沖激響應(yīng)序列

如果用最嚴(yán)格(也是最普遍的)極零模型來描述聲道沖激響應(yīng),則其Z變換的形式為:

892聲道沖激響應(yīng)序列如果用最嚴(yán)格(也是最普遍的)極零模型取對(duì)數(shù)進(jìn)行泰勒級(jí)數(shù)展開:90取對(duì)數(shù)進(jìn)行泰勒級(jí)數(shù)展開:90進(jìn)行逆z變換,得復(fù)倒譜

91進(jìn)行逆z變換,得復(fù)倒譜91結(jié)論:

①是雙邊序列,存在于-∞<n<∞的范圍內(nèi)。②是衰減序列,隨|n|的增大而減小。③隨|n|增大而衰減的速度至少比1/|n|快,④如果x(n)是最小相位序列,為因果序列。⑤如果x(n)是最大相位序列,為反因果序列。92結(jié)論:①是雙邊序列,存在于-∞<n<∞避免相位卷繞在復(fù)倒譜分析中,z變換后得到的是復(fù)數(shù),所以取對(duì)數(shù)時(shí)進(jìn)行的是復(fù)對(duì)數(shù)運(yùn)算。這時(shí)存在相位的多值性問題,稱為“相位卷繞”。產(chǎn)生相位的多值避免相位卷繞的算法有:微分法、最小相位信號(hào)法、遞歸法等。93避免相位卷繞在復(fù)倒譜分析中,z變換后得到的是復(fù)數(shù),所以取對(duì)數(shù)(a)(b)(c)(d)濁語(yǔ)音的倒譜和復(fù)倒譜實(shí)例實(shí)例分析

窗長(zhǎng)為15ms,fs=10kHz,因此共包括150個(gè)語(yǔ)音樣點(diǎn)。這段語(yǔ)音用海明窗加權(quán),基音周期為Np=45。94(a)(b)(c)(d)濁語(yǔ)音的倒譜和復(fù)倒譜實(shí)例實(shí)例分析窗先用窗w(n)選擇一個(gè)語(yǔ)音段,再計(jì)算復(fù)倒譜,然后將欲得到的復(fù)倒譜分量用一個(gè)“復(fù)倒譜窗”

分離出來。所得到的窗選復(fù)倒譜用逆特征系統(tǒng)進(jìn)行處理以恢復(fù)所需的卷積分量。

95先用窗w(n)選擇一個(gè)語(yǔ)音段,再計(jì)算復(fù)倒譜,然后將欲得到的復(fù)濁音語(yǔ)音用同態(tài)濾波分離出聲門激勵(lì)和聲道響應(yīng)的示例(a)(b)

上圖給出了經(jīng)過濾波和逆特征系統(tǒng)處理后的結(jié)果。圖(a)為經(jīng)過低復(fù)倒譜窗l(fā)(n)和之后的輸出波形即聲道沖擊響應(yīng),圖(b)給出了聲門激勵(lì)信號(hào)??梢钥闯雎曢T激勵(lì)波形近視于一個(gè)沖擊串,其幅度隨時(shí)間變化保持了用來加權(quán)輸入信號(hào)所用的海明窗形狀。96濁音語(yǔ)音用同態(tài)濾波分離出聲門激勵(lì)和聲道響應(yīng)的示例(a)(b)清語(yǔ)音的同態(tài)分析(a)(b)上圖給出了相同條件下一段加窗語(yǔ)音的時(shí)域波形及其倒譜。圖(a)是一個(gè)海明窗乘過的清音語(yǔ)音段,圖(b)為相應(yīng)的倒譜??梢姷棺V中沒有出現(xiàn)在濁音情況下的那種尖峰,然而倒譜的低時(shí)域部分包含了關(guān)于聲道沖擊響應(yīng)的信息。97清語(yǔ)音的同態(tài)分析(a)(b)上圖給出了相同條件下一段加窗語(yǔ)音§2.1語(yǔ)音和語(yǔ)言

第2章語(yǔ)音信號(hào)短時(shí)分析技術(shù)構(gòu)成人類語(yǔ)音的是聲音,由人講話所發(fā)出的聲音,對(duì)語(yǔ)音中音的分類和研究稱為語(yǔ)音學(xué)。1、言語(yǔ)的過程和作用想說階段————大腦中樞活動(dòng)說出階段————發(fā)音器官的活動(dòng)傳送階段————傳送信息的物理過程起作用接收階段————聽覺系統(tǒng)活動(dòng)理解階段————大腦中樞活動(dòng)98§2.1語(yǔ)音和語(yǔ)言第2章語(yǔ)音信號(hào)短時(shí)分析技術(shù)構(gòu)成人類語(yǔ)2、一些基本概念①音素(phoneme):語(yǔ)音的最小單位,由音素構(gòu)成音節(jié)。②音節(jié)(Syllable):說話時(shí)一次發(fā)出的,具有一個(gè)響亮的中心,并被明顯感覺的語(yǔ)音片斷。音素和音節(jié)992、一些基本概念①音素(phoneme):語(yǔ)音的最小單位,輔音和元音

音素分為兩類:輔音(Consonant)和元音(Vowel)元音:聲帶振動(dòng)產(chǎn)生一個(gè)準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。輔音:呼出的氣流,由于通路中某一部分封閉起來或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。100輔音和元音元音:聲帶振動(dòng)產(chǎn)生一個(gè)準(zhǔn)周期的空氣脈沖,如i、u輔音和元音的區(qū)別有四點(diǎn):1、輔音發(fā)音時(shí),氣流在通過咽頭、口腔的過程中,要受到某部位的阻礙;元音發(fā)音時(shí),氣流在咽頭、口腔不受阻礙。這是元音和輔音最主要的區(qū)別。2、輔音發(fā)音時(shí),發(fā)音器官成阻的部位特別緊張;元音發(fā)音時(shí)發(fā)音器官各部位保持均衡的緊張狀態(tài)。3、輔音發(fā)音時(shí),氣流較強(qiáng);元音發(fā)音時(shí),氣流較弱。4、輔音發(fā)音時(shí),聲帶不一定振動(dòng),聲音一般不響亮;元音發(fā)音時(shí),聲帶振動(dòng),聲音比輔音響亮。101輔音和元音的區(qū)別有四點(diǎn):4半元音:聲道基本通暢,但某處比較狹窄,引起輕微摩擦。[W]、[Y]元音構(gòu)成音節(jié)的主干,輔音只出現(xiàn)在音節(jié)前端或前后兩端。元音的共振峰特性:聲道被看成具有均勻截面積的聲管,發(fā)音時(shí)起共鳴器的作用。元音激勵(lì)進(jìn)入聲道時(shí)引起共振特性,產(chǎn)生一組共振頻率,即共振峰。102半元音:聲道基本通暢,但某處比較狹窄,引起輕微摩擦。[W]、清音和濁音清音:聲帶不振動(dòng)濁音:聲帶振動(dòng)而發(fā)音元音都是濁音、輔音有清音也有濁音。103清音和濁音清音:聲帶不振動(dòng)元音都是濁音、輔音有清音也有濁音。3、漢語(yǔ)的聲調(diào):濁音的聲帶振動(dòng)基頻稱為基音頻率。無論在說一個(gè)單音節(jié)或說一段連續(xù)語(yǔ)音時(shí),各個(gè)音節(jié)中韻母段的都是隨時(shí)間變化的,基音頻率的不同軌跡稱為聲調(diào)。幾乎平均于橫軸、平均值高從較低一直上升到較高頻率先降后升從較高頻率降到較低頻率1043、漢語(yǔ)的聲調(diào):濁音的聲帶振動(dòng)基頻稱為基音頻率。無論在說一個(gè)4、語(yǔ)音信號(hào)的時(shí)域波形開始/ai//k/時(shí)變特性有些段落周期性,有些段落具有噪聲特性,短時(shí)平穩(wěn)性1054、語(yǔ)音信號(hào)的時(shí)域波形開始/ai//k/時(shí)變特性8Doyoulikeit?VsDidyoulikeit?Waveform106Doyoulikeit?VsDid§2.2語(yǔ)音產(chǎn)生的過程及聲學(xué)特征語(yǔ)音產(chǎn)生的過程喉以上的部分稱為聲道,隨著發(fā)出聲音的不同其形狀是變化的;而喉的部分稱為聲門。107§2.2語(yǔ)音產(chǎn)生的過程及聲學(xué)特征語(yǔ)音產(chǎn)生的過程10聲帶(VocalCords)10~14mm在喉部的從喉結(jié)到杓狀軟骨之間的韌帶褶。聲門(Glottis)兩個(gè)聲帶之間形成一個(gè)開閉自如的聲門,聲帶合攏因而受聲門下氣流的沖擊而張開;但由于聲帶韌性迅速地閉合,隨后又張開而閉合,聲帶開啟和閉合使氣流形成一系列脈沖。聲門每開啟和閉合一次的時(shí)間即振動(dòng)周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡(jiǎn)稱為基頻?;舻姆秶s為70~350Hz左右。108聲帶(VocalCords)10~14mm聲門每開啟和聲道(vocaltract)17cm

由咽腔、口腔和鼻腔三個(gè)空氣腔體組成。聲道是一個(gè)分布參數(shù)系統(tǒng),它有許多自然諧振頻率(在這些頻率上其傳遞函數(shù)具有極大值),所以聲道是一諧振腔,它放大某一頻率而衰減其他頻率分量。諧振頻率由每一瞬間的聲道外形決定。如果聲道的截面是均勻的,諧振頻率將發(fā)生在109聲道(vocaltract)17cm聲道是一個(gè)分聽覺系統(tǒng):聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化為機(jī)械振動(dòng),傳入內(nèi)耳?!?.3語(yǔ)音感知

由外耳、中耳、內(nèi)耳組成人耳的作用:1、聲音放大;2、聲音傳導(dǎo);3、聲源定位110聽覺系統(tǒng):聲波經(jīng)過外耳的放大后,經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化正常人的聽域與聽閾:聽覺感知特性:正常人的聽覺系統(tǒng)是極為靈敏的,人耳所能感覺的最低聲壓接近空氣中分子熱運(yùn)動(dòng)所產(chǎn)生的聲壓。正常人可聽聲音的頻率范圍為0.016-16kHz,年輕人可聽到20kHz的聲音,而老年人可聽到的高頻聲音要減少到10kHz左右。正常人可聽聲音的強(qiáng)度范圍為0-120dBSPL(聲壓級(jí)),這里的基準(zhǔn)聲壓(0dBSPL)是或。111正常人的聽域與聽閾:聽覺感知特性:正常人的聽覺系統(tǒng)是極為靈敏純音聽閾是與頻率有關(guān)的量,在1000Hz時(shí)約為4dB左右,而在40Hz時(shí)上升為50dB左右,在15kHz時(shí)上升為24dB左右。

感覺閾代表可容忍的最高聲壓。在聲壓級(jí)高到一定程度時(shí),耳朵會(huì)出現(xiàn)不適感覺,或者具有癢、壓迫及痛感。對(duì)正常人而言一般取120dB為不適閡,140dB為痛闡,且認(rèn)為它與頻率無關(guān)。112純音聽閾是與頻率有關(guān)的量,在1000Hz時(shí)約為4dB左右,而響度(Londness)---方(phon)是一種主觀心理量,主觀感覺到的聲音強(qiáng)弱的一種衡量標(biāo)準(zhǔn),它與頻率有關(guān)。一樣的音強(qiáng),不一樣的頻率,則響度也會(huì)有所不同。0dB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為0phon;ndB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為nphon;113響度(Londness)---方(phon)162、計(jì)算方法簡(jiǎn)單。依據(jù):小波系數(shù)可以反映語(yǔ)音信號(hào)在各個(gè)子帶內(nèi)沿時(shí)間軸的能量分布,通過處理又可以捕捉到語(yǔ)音段的邊界,因此可以利用小波變換來對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),以達(dá)到區(qū)分語(yǔ)音段和非語(yǔ)音段的目的。ndB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為nphon;元音激勵(lì)進(jìn)入聲道時(shí)引起共振特性,產(chǎn)生一組共振頻率,即共振峰。傳統(tǒng)端點(diǎn)檢測(cè)算法認(rèn)為,如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小,能夠保證系統(tǒng)的信噪比較高,那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能把語(yǔ)音段和噪聲背景區(qū)分開。準(zhǔn)則:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡(jiǎn)單。如果很大,它等效于很窄的低通濾波器,此時(shí)隨時(shí)間的變化很小,不能反映語(yǔ)音信號(hào)的幅度變化,信號(hào)的變化細(xì)節(jié)就看不出來;聲門每開啟和閉合一次的時(shí)間即振動(dòng)周期稱為音調(diào)周期或基音周期,其倒數(shù)稱為基音頻率,也簡(jiǎn)稱為基頻。原因:語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。語(yǔ)譜儀:將語(yǔ)音信號(hào)(經(jīng)話筒變成了電信號(hào))送進(jìn)一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號(hào)強(qiáng)則記錄得濃黑一些,反之則淺談一些。缺點(diǎn):濁音和清音的區(qū)分不如En明顯。這里窗長(zhǎng)的選擇對(duì)于反映語(yǔ)音信號(hào)的幅度變化起著決定的作用。也可在A/D變換之后進(jìn)行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),它一般是一階的。復(fù)倒譜和倒譜的特點(diǎn)和關(guān)系:諧振頻率由每一瞬間的聲道外形決定。把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。語(yǔ)音信號(hào)具有時(shí)變特性,而在一個(gè)短時(shí)間范圍內(nèi)其特性基本保持不變即相對(duì)穩(wěn)定,因而可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過程。依據(jù):小波系數(shù)可以反映語(yǔ)音信號(hào)在各個(gè)子帶內(nèi)沿時(shí)間軸的能量分布,通過處理又可以捕捉到語(yǔ)音段的邊界,因此可以利用小波變換來對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),以達(dá)到區(qū)分語(yǔ)音段和非語(yǔ)音段的目的。同時(shí)掩蔽:同時(shí)存在的一個(gè)弱信號(hào)和一個(gè)強(qiáng)信號(hào)頻率接近時(shí),強(qiáng)信號(hào)會(huì)提高弱信號(hào)的聽閾,當(dāng)弱信號(hào)的聽閾升高到一定程度會(huì)導(dǎo)致弱信號(hào)不可聞。同態(tài)處理(同態(tài)濾波):解卷,將卷積關(guān)系變?yōu)榍蠛吞幚?。聽覺掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽覺感受受到同時(shí)聽到的另一種聲音的影響。分:同時(shí)掩蔽和短時(shí)掩蔽1142、計(jì)算方法簡(jiǎn)單。聽覺掩蔽效應(yīng)掩蔽效應(yīng):一種聲音的聽覺感受受同時(shí)掩蔽:同時(shí)存在的一個(gè)弱信號(hào)和一個(gè)強(qiáng)信號(hào)頻率接近時(shí),強(qiáng)信號(hào)會(huì)提高弱信號(hào)的聽閾,當(dāng)弱信號(hào)的聽閾升高到一定程度會(huì)導(dǎo)致弱信號(hào)不可聞。短時(shí)掩蔽:當(dāng)A聲和B聲不同時(shí)出現(xiàn)時(shí)。后向掩蔽:掩蔽聲B消失后,其作用仍持續(xù)一段時(shí)間:0.5~2s前向掩蔽:被掩蔽音A出現(xiàn)后,相隔0.005~0.2s之內(nèi)出現(xiàn)掩蔽音B,也會(huì)對(duì)A起作用。115同時(shí)掩蔽:同時(shí)存在的一個(gè)弱信號(hào)和一個(gè)強(qiáng)信號(hào)頻率接近時(shí),強(qiáng)信號(hào)§2.4語(yǔ)音信號(hào)的數(shù)學(xué)模型準(zhǔn)則:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡(jiǎn)單。期望:模型既是線性的又是時(shí)不變的,這是最理想的模型。語(yǔ)音信號(hào)特征:一連串的時(shí)變過程;聲門和聲道相互耦合,還形成語(yǔ)音信號(hào)的非線性特性。合理假設(shè):在較短的時(shí)間間隔內(nèi)表示語(yǔ)音信號(hào)時(shí),采用線性時(shí)不變模型。116§2.4語(yǔ)音信號(hào)的數(shù)學(xué)模型準(zhǔn)則:要尋求一種可以表達(dá)一定物理發(fā)音器官的機(jī)理模型:117發(fā)音器官的機(jī)理模型:20語(yǔ)音信號(hào)的產(chǎn)生模型118語(yǔ)音信號(hào)的產(chǎn)生模型21(1)發(fā)濁音時(shí)。此時(shí)氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動(dòng),使聲門處形成準(zhǔn)周期性的脈沖串,并用它去激勵(lì)聲道。聲帶繃緊的程度不同,振動(dòng)頻率也不同。該頻率就是音調(diào)頻率,其倒數(shù)為音調(diào)周期。(2)發(fā)清音時(shí)。此時(shí)聲帶松弛而不振動(dòng),氣流通過聲門直接進(jìn)入聲道。表示為均值為0、方差為1,并在時(shí)間或在幅度上為白色分布的序列。

1、激勵(lì)模型119(1)發(fā)濁音時(shí)。此時(shí)氣流通過繃緊的聲帶,沖激聲帶產(chǎn)生振動(dòng),使羅森貝格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時(shí)聲門脈沖取如圖所示的形狀,可以獲得比較好的合成語(yǔ)音效果。發(fā)濁音時(shí)的聲門脈沖120羅森貝格(Rosenberg)在研究中發(fā)現(xiàn),如果在發(fā)濁音時(shí)聲把聲道視作截面積變化的管子,研究聲音沿管道是怎樣傳播的。2、聲道模型(一)聲管模型121把聲道視作截面積變化的管子,研究聲音沿管道是管道內(nèi)聲波的運(yùn)動(dòng)方程:

其中,為在點(diǎn)時(shí)刻的聲壓

為在點(diǎn)時(shí)刻的體積速度

為空氣密度

為聲速

為管道截面積122管道內(nèi)聲波的運(yùn)動(dòng)方程:其中,為在點(diǎn)時(shí)每個(gè)管子可看作為一個(gè)四端網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)具有反射系數(shù),聲道可由一組截面積或一組反射系數(shù)來表示。

通常用A表示聲管的截面積。由于語(yǔ)音的短時(shí)平穩(wěn)性,假設(shè)在短時(shí)間內(nèi),各段管子的截面積且是常數(shù)。設(shè)第m段和第m+1段的聲管的截面積分別為Am、Am+1,設(shè)稱為“面積和差比”,其取值范圍為-1<km<1。它實(shí)際上是線性預(yù)測(cè)的反射系數(shù)。123每個(gè)管子可看作為一個(gè)四端網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)具有反射系數(shù),聲道可由決定短時(shí)能量特性有兩個(gè)條件:不同的窗口的形狀和長(zhǎng)度。如果很大,它等效于很窄的低通濾波器,此時(shí)隨時(shí)間的變化很小,不能反映語(yǔ)音信號(hào)的幅度變化,信號(hào)的變化細(xì)節(jié)就看不出來;是一個(gè)時(shí)域序列,我們稱是x(n)的“復(fù)倒頻譜”,簡(jiǎn)稱為“復(fù)倒譜”,有時(shí)也稱作對(duì)數(shù)復(fù)倒譜。④采用示波器等通用設(shè)備,使用較為簡(jiǎn)單。窗長(zhǎng)越長(zhǎng),頻率分辨率越高,而時(shí)間分辨率越低第2章語(yǔ)音信號(hào)短時(shí)分析技術(shù)2、抑制50Hz工頻干擾。所處的離散時(shí)域,稱之為“復(fù)倒譜域”。②實(shí)現(xiàn)起來比較簡(jiǎn)單、運(yùn)算量少。幾乎平均于橫軸、平均值高短時(shí)掩蔽:當(dāng)A聲和B聲不同時(shí)出現(xiàn)時(shí)。輔音:呼出的氣流,由于通路中某一部分封閉起來或受阻,氣流不通暢所產(chǎn)生的聲音,如b、p、m、f、d、t、n、l等。對(duì)于爆破音的寂靜段,應(yīng)將其納入語(yǔ)音的范圍而不是無聲段;由咽腔、口腔和鼻腔三個(gè)空氣腔體組成。上圖給出了相同條件下一段加窗語(yǔ)音的時(shí)域波形及其倒譜。一樣的音強(qiáng),不一樣的頻率,則響度也會(huì)有所不同。同態(tài)信號(hào)處理的基本原理反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運(yùn)算實(shí)驗(yàn)室背景下基于能量和過零率的端點(diǎn)檢測(cè)結(jié)果已知一個(gè)實(shí)序列的復(fù)倒譜,可以求其倒譜。共振峰與舌位關(guān)系舌位高低決定了F1共振頻率。舌位越高,F(xiàn)1的頻率越低,反則反之。舌位前后決定了F2共振頻率舌位越后,F(xiàn)2的頻率越低,反則反之。

(二)共振峰模型聲道被視為諧振腔,共振峰是腔體的諧振頻率124決定短時(shí)能量特性有兩個(gè)條件:不同的窗口的形狀和長(zhǎng)度。共振峰與1)級(jí)聯(lián)共振峰模型(適合于一般元音)分解:1251)級(jí)聯(lián)共振峰模型(適合于一般元音)分解:282)并聯(lián)型(非一般元音和大多數(shù)輔音)1262)并聯(lián)型(非一般元音和大多數(shù)輔音)293、混合型(結(jié)合級(jí)聯(lián)型和并聯(lián)型):幅度控制因子AB專為一些頻譜特性比較平坦的音素,如[f],[p],[b]所考慮的。1273、混合型(結(jié)合級(jí)聯(lián)型和并聯(lián)型):幅度控制因子AB專為一些頻

聲道的終端為口和唇。從聲道輸出的是速度波,而語(yǔ)音信號(hào)是聲壓波,二者之倒比稱為輻射阻抗ZL。它表征口和唇的輻射效應(yīng),也包括圓形的頭部的繞射效應(yīng)等。

口唇的輻射效應(yīng)可表示為:,它是一階后向差分。輻射模型R(z)是一階類高通濾波器的形式。3、輻射模型128聲道的終端為口和唇。從聲道輸出的是速度波,而

完整的語(yǔ)音信號(hào)數(shù)字模型可以用三個(gè)子模型:激勵(lì)模型、聲道模型和輻射模型的串聯(lián)來表示。其轉(zhuǎn)移函數(shù)為:

H(z)=U(z)V(z)R(z)這里,U(z)是激勵(lì)信號(hào)——聲門脈沖即斜三角波的形式;V(z)是聲道傳遞函數(shù),既可以用聲管模型,也可以用共振峰模型來描述。在共振峰模型中,又可采用級(jí)聯(lián)型、并聯(lián)型或混合型等幾種形式;R(z)為輻射模型。

4、完整的模型

129完整的語(yǔ)音信號(hào)數(shù)字模型可以用三個(gè)子模型:激勵(lì)

聲門脈沖

聲道語(yǔ)音信號(hào)

激勵(lì)信號(hào)聲道濾波器語(yǔ)音信號(hào)頻譜傳遞函數(shù)頻譜韻母的產(chǎn)生過程130聲門脈沖2.5語(yǔ)音的質(zhì)量評(píng)估一類是音節(jié)以下(如音素、聲母、韻母)的語(yǔ)音單元的測(cè)試,這常稱為“清晰度”測(cè)試;清晰度測(cè)試可以元音、輔音為基礎(chǔ)或以聲母、韻母為基礎(chǔ),再根據(jù)音節(jié)成分算出音節(jié)清晰度。一類是音節(jié)以上(如詞、句)的語(yǔ)音單元的測(cè)試,常稱為“可懂度”測(cè)試。

語(yǔ)音質(zhì)量測(cè)試可分為兩類:

1312.5語(yǔ)音的質(zhì)量評(píng)估一類是音節(jié)以下(如音素、聲母、韻母)的2.6語(yǔ)音信號(hào)的時(shí)頻特性分析漢語(yǔ)拼音“SouKe”的時(shí)域波形采樣率8kHz1322.6語(yǔ)音信號(hào)的時(shí)頻特性分析漢語(yǔ)拼音“SouKe”的時(shí)13336同時(shí)其振幅隨著k值的增大而衰減。定義:過零就是信號(hào)通過零值。1)先將語(yǔ)音信號(hào)分成由1024個(gè)采樣點(diǎn)組成的幀;反特征系統(tǒng)D*-1:其中,為在點(diǎn)時(shí)刻的聲壓若時(shí)域中有,則復(fù)倒譜域中。短時(shí)掩蔽:當(dāng)A聲和B聲不同時(shí)出現(xiàn)時(shí)。③隨|n|增大而衰減的速度至少比1/|n|快,聲門(Glottis)3語(yǔ)音感知已知一個(gè)實(shí)序列的復(fù)倒譜,可以求其倒譜。4語(yǔ)音信號(hào)的數(shù)學(xué)模型元音:聲帶振動(dòng)產(chǎn)生一個(gè)準(zhǔn)周期的空氣脈沖,如i、u、ü、a、o、e等。語(yǔ)音信號(hào)特征:一連串的時(shí)變過程;反之,窗長(zhǎng)太小時(shí),濾波器的通帶變寬,隨時(shí)間有急劇的變化,不能得到平滑的能量函數(shù)。10語(yǔ)音信號(hào)的倒譜分析應(yīng)該盡量避免在檢測(cè)中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語(yǔ)音;在背景噪聲較小時(shí)用平均能量識(shí)別較為有效,而在背景噪聲較大時(shí)用平均過零數(shù)識(shí)別較為有效。這段語(yǔ)音用海明窗加權(quán),基音周期為Np=45。實(shí)驗(yàn)室背景下基于能量和過零率的端點(diǎn)檢測(cè)結(jié)果134同時(shí)其振幅隨著k值的增大而衰減。372.7語(yǔ)音信號(hào)的語(yǔ)譜圖語(yǔ)譜儀:將語(yǔ)音信號(hào)(經(jīng)話筒變成了電信號(hào))送進(jìn)一排頻率依次相接的窄帶濾波器,各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列),信號(hào)強(qiáng)則記錄得濃黑一些,反之則淺談一些。由此得到的即是語(yǔ)音信號(hào)的語(yǔ)譜圖,此圖的水平方向是時(shí)間軸,垂直方向是頻率軸,固上或深或淺的黑色條紋表征各個(gè)時(shí)刻的短時(shí)譜。1352.7語(yǔ)音信號(hào)的語(yǔ)譜圖語(yǔ)譜儀:將語(yǔ)音信號(hào)(經(jīng)話筒變成了電信

自然語(yǔ)音a波形圖

自然語(yǔ)音a語(yǔ)譜圖

自然語(yǔ)音o波形圖

自然語(yǔ)音o語(yǔ)譜圖136自然語(yǔ)音a波形圖自然語(yǔ)音a語(yǔ)譜圖自然語(yǔ)音語(yǔ)音處理的根本方法——短時(shí)分析技術(shù)

語(yǔ)音信號(hào)具有時(shí)變特性,而在一個(gè)短時(shí)間范圍內(nèi)其特性基本保持不變即相對(duì)穩(wěn)定,因而可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過程。語(yǔ)音的重要特性是它具有“短時(shí)性”,所以對(duì)語(yǔ)音的分析和處理必須建立在“短時(shí)”的基礎(chǔ)上,即進(jìn)行“短時(shí)分析”,§2.8語(yǔ)音信號(hào)的數(shù)字化與預(yù)處理語(yǔ)音信號(hào)處理系統(tǒng)框圖137語(yǔ)音處理的根本方法——短時(shí)分析技術(shù)語(yǔ)音信號(hào)數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼預(yù)處理:預(yù)加重、加窗、分幀、端點(diǎn)檢測(cè)①表示語(yǔ)音信號(hào)比較直觀、物理意義明確。②實(shí)現(xiàn)起來比較簡(jiǎn)單、運(yùn)算量少。③可以得到語(yǔ)音的一些重要參數(shù)。④采用示波器等通用設(shè)備,使用較為簡(jiǎn)單。

時(shí)域分析的特點(diǎn):138數(shù)字化:放大、增益控制、反混疊濾波、采樣、A/D變換及編碼①1、預(yù)濾波、采樣、A/D變換目的:1、抑制輸入信號(hào)各頻域分量中頻率超出fs/2的所有分量,以防止混疊干擾;2、抑制50Hz工頻干擾。實(shí)現(xiàn):帶通濾波器,上下邊帶截止頻率分別為、1391、預(yù)濾波、采樣、A/D變換目的:實(shí)現(xiàn):帶通濾波器,上下邊采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號(hào)的兩倍帶寬時(shí),取樣過程中不會(huì)丟失信息,且從取樣信號(hào)中可以精確地重構(gòu)原始信號(hào)波形。在信號(hào)的帶寬不明確時(shí),在取樣前應(yīng)接入反混疊濾波器,使其帶寬限制在某個(gè)范圍內(nèi)。語(yǔ)音信號(hào)頻率范圍:300~3400Hz采樣率:8kHz~10kHz140采樣根據(jù)取樣定理,當(dāng)取樣頻率大于信號(hào)的兩倍帶寬時(shí),取樣過程中量化:將輸入的整個(gè)幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本都量化成同一幅度值。141量化:將輸入的整個(gè)幅值分成有限區(qū)間,把落入同一區(qū)間的波形樣本量化后的信號(hào)值與原信號(hào)之間的差值稱為量化誤差,又稱為量化噪聲。若信號(hào)波形的變化足夠大或量化間隔足夠小時(shí),可以證明量化噪聲符合具有下列特性的統(tǒng)計(jì)模型:①它是一個(gè)平穩(wěn)的白噪聲過程;②量化噪聲和輸入信號(hào)不相關(guān);③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布。142量化后的信號(hào)值與原信號(hào)之間的差值稱為量化誤差,又稱為量化噪聲2、預(yù)處理預(yù)加重:原因:語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落。目的:提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。位置:可在反混疊濾波之前進(jìn)行,這樣不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號(hào)的動(dòng)態(tài)范圍,有效地提高信噪比。也可在A/D變換之后進(jìn)行,用具有6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),它一般是一階的。式中值接近于1。

1432、預(yù)處理預(yù)加重:46濁語(yǔ)音的倒譜和復(fù)倒譜實(shí)例能夠?qū)⒍虝r(shí)沖激噪聲和超過門限值的信號(hào)納入無聲段而不是有聲段;第2章語(yǔ)音信號(hào)短時(shí)分析技術(shù)5)通過幀間平滑連接所有互相關(guān)系數(shù)成為一個(gè)和原信號(hào)長(zhǎng)度相同的序列;在共振峰模型中,又可采用級(jí)聯(lián)型、并聯(lián)型或混合型等幾種形式;一個(gè)較好的端點(diǎn)檢測(cè)算法應(yīng)該能夠滿足:3語(yǔ)音感知1)先將語(yǔ)音信號(hào)分成由1024個(gè)采樣點(diǎn)組成的幀;窗長(zhǎng)越長(zhǎng),頻率分辨率越高,而時(shí)間分辨率越低一樣的音強(qiáng),不一樣的頻率,則響度也會(huì)有所不同。管道內(nèi)聲波的運(yùn)動(dòng)方程:位置:可在反混疊濾波之前進(jìn)行,這樣不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號(hào)的動(dòng)態(tài)范圍,有效地提高信噪比。同態(tài)信號(hào)處理的基本原理諧振頻率由每一瞬間的聲道外形決定。有些段落周期性,有些段落具有噪聲特性,短時(shí)平穩(wěn)性準(zhǔn)則:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡(jiǎn)單。針對(duì)白噪聲和汽車噪聲環(huán)境對(duì)數(shù)字0~9的語(yǔ)音數(shù)據(jù)進(jìn)行實(shí)驗(yàn),用來做測(cè)試的語(yǔ)音文件每組50個(gè),包括男生和女生發(fā)音,含有汽車噪聲的語(yǔ)音信號(hào)平均信噪比10dB和5dB,分別模擬汽車中速和高速行駛環(huán)境下的錄音。反特征系統(tǒng)D*-1:它是特征系統(tǒng)的反運(yùn)算準(zhǔn)則:要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系,要使這種關(guān)系不僅具有最大的精確度,而且還要最簡(jiǎn)單。舌位越高,F(xiàn)1的頻率越低,反則反之。加窗分幀:語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),其特性是隨時(shí)間而變化的,但是語(yǔ)音的形成過程是與發(fā)音器官的運(yùn)動(dòng)密切相關(guān)的,這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來說要緩慢得多,因此語(yǔ)音信號(hào)常常可假定為短時(shí)平穩(wěn)的,即在10~30ms的時(shí)間段內(nèi),其頻譜特性和物理特征參量可近似地看作是不變的,這樣,就可以采用平穩(wěn)過程的分析處理方法來處理了。由這個(gè)假定導(dǎo)出了各種“短時(shí)”處理方法,以后討論的各種語(yǔ)音信號(hào)都是分隔為一些短段(幀)再加以處理。這些短段就好像是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論