版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第2章語音信號基礎知識人類語言器官語音產(chǎn)生過程語音信號產(chǎn)生數(shù)字模型語音信號特性人類聽覺功能11/881.人類語言器官人類能以語言溝通,進而累積知識,形成文化,其中一種主要原因,就是人類具有較其他生物優(yōu)越發(fā)音器官。人類發(fā)音器官能夠產(chǎn)生多樣性聲音,組成豐富詞匯,無疑是最關鍵原因。
聲音是一種波,能被人耳聽到,它振動頻率在20~20000Hz之間。1、人類語言器官22/881.人類語言器官人體發(fā)音器官—肺、氣管、喉(包括聲帶)和聲道,肺是語音產(chǎn)生能源所在;聲帶為產(chǎn)生語音提供主要鼓勵源;聲道是指聲門至嘴唇所有器官:咽、鼻腔、口腔等,它們具有非均勻截面,且隨時間變化,起共鳴器(或諧振器)作用。1、人類語言器官33/881.人類語言器官鼻腔(nasalcavity)口腔(oralcavity)齒(teeth)舌(tongue)咽(pharynx)喉(larynx)齒齦(alveolarridge)硬顎(hardpalate)軟顎(velum)小舌頭(uvula)聲門(glottis)唇(lips)圖2-1
人類發(fā)音器官注:喉部以上部分統(tǒng)稱為聲道;氣管和肺在聲門下列1、人類語言器官44/881.人類語言器官圖2-2
最主要發(fā)音器官之一:聲帶(a)閉合狀態(tài)(b)張開狀態(tài)甲狀軟骨杓狀軟骨環(huán)狀軟骨聲門聲帶1、人類語言器官55/882.語音產(chǎn)生過程肺聲帶聲道直流氣流聲音嘴唇聲壓波速度波能源鼓勵源諧振源輻射源交流氣流2、語音信號產(chǎn)生過程66/88
聲門氣流和嘴部聲壓2、語音信號產(chǎn)生過程77/88
物理模型2、語音信號產(chǎn)生過程88/882.語音產(chǎn)生過程語音形成過程—空氣由肺部排入喉部,通過聲帶進入聲道,最后由嘴輻射出聲波,形成語音。濁音(Voicedsounds):聲帶繃緊,氣流通過時會使得開口變成一開一閉周期性動作,這時候就造成周期性激發(fā)氣流,如a,o;清音(UnvoicedorFricativesounds):聲帶完全舒展,聲道某部位收縮形成一種狹窄通道,產(chǎn)生空氣湍流,如t,d;爆破音:聲帶完全舒展,聲道某部位完全閉合,一旦閉合點突然啟動,空氣壓力迅速釋放,如b,p。能被人耳聽到,它振動頻率在20~20000Hz之間
2、語音信號產(chǎn)生過程99/882.語音產(chǎn)生過程語音兩個主要聲學特性:濁音基音頻率(F0):由聲帶尺寸、特性和聲帶所受張力決定,其值等于聲帶張開和閉合一次時間倒數(shù)。人類基音頻率范圍在80~500Hz左右。共振峰(Fn,n=1,2,...):聲道是一種諧振腔,它放大聲音氣流某些頻率分量而衰減其他頻率分量,被放大頻率我們稱之為共振峰或共振峰頻率。聲道具有一組共振峰,聲道頻譜特性主要反應出這些共振峰不一樣位置以及各個峰頻帶寬度。共振峰及其帶寬取決于聲道某一瞬間形狀和尺寸,因而不一樣語音對應于一組不一樣共振峰參數(shù)。實際應用中,頭三個共振峰最主要,越多越精確。2、語音信號產(chǎn)生過程1010/88
口腔對聲源頻譜調(diào)制——共振峰2、語音信號產(chǎn)生過程1111/88共振峰是聲道主要聲學特性。聲道對于一種鼓勵信號響應,能夠用一種具有多對極點線性系統(tǒng)來近似描述。每對極點都對應一種共振峰頻率。這個線性系統(tǒng)頻率響應特性稱為共振峰特性,它決定信號頻譜總輪廓,或稱譜包絡。語音頻率特性主要是由共振峰決定。而聲道共振峰特性決定所發(fā)聲音頻譜特性,即音色。元音音色和區(qū)分特性主要取決于聲道共振峰特性。共振峰特性能夠從語音信號頻譜分析得到幅頻特性觀測到。在聲學語音學中一般考慮F1和F2,但在語音識別技術中最少要考慮三個共振峰,而在語音合成技術中考慮五個共振峰是最為現(xiàn)實。聲波共振也稱為共鳴。聲道截面積隨縱向位置而變化函數(shù),稱為聲道截面積函數(shù),它決定共振峰特性。1212/88頻率范圍/Hz成年男子成年女子帶寬F1200~800250~100040~70F2600~2800700~330050~90F31300~34001500~400060~180前三個共振峰頻率范圍2、語音信號產(chǎn)生過程1313/882.語音產(chǎn)生過程抱負狀態(tài)下共振峰計算:假設聲道截面是均勻(此時可把聲道看作一種粗細均勻圓筒),從喉到唇距離L=17cm,音速c=340m/s,則共振峰將發(fā)生在:諧振頻率發(fā)生在500Hz奇數(shù)倍
2、語音信號產(chǎn)生過程1414/883.語音信號產(chǎn)生數(shù)字模型在研究了發(fā)聲器官和語音產(chǎn)生過程后來,便能夠建立一種離散時域語音信號產(chǎn)生數(shù)字模型,它將是我們將數(shù)字信號處理技術應用于語音信號基礎。下列圖是一個完整語音信號產(chǎn)生數(shù)字模型:3、語音信號產(chǎn)生數(shù)字模型1515/88語音產(chǎn)生模型(SpeechProduction/GenerationModel)4、語音信號特性1616/88語音信號(SpeechSignal)4、語音信號特性1717/88數(shù)字語音信號表達(RepresentationsofSpeechSignals)4、語音信號特性1818/88(1)鼓勵模型由此模型框圖,我們可將語音信號當作準周期序列或隨機噪聲序列作為鼓勵線性非移變系統(tǒng)輸出,此模型可分為三個部分:鼓勵模型、聲道模型、輻射模型鼓勵模型根據(jù)發(fā)濁音和發(fā)清音機理又分為:(a)濁音鼓勵(b)清音鼓勵3、語音信號產(chǎn)生數(shù)字模型1919/88(a)濁音鼓勵由前面所講發(fā)音過程可知,發(fā)濁音時聲帶不停地張開和閉合將產(chǎn)生間歇準周期性脈沖波,其周期為基音周期,單個脈沖波形類似于斜三角波,故數(shù)字模型中可用周期為T0單位取樣序列串作為聲門脈沖模型g(n)輸入,其輸出就是濁音鼓勵。由于人類語音頻率范圍主要集中在300Hz~3400Hz,數(shù)字模型中信號取樣率一般為8KHz。3、語音信號產(chǎn)生數(shù)字模型(1)鼓勵模型2020/88由圖可見,它是一種低通濾波器。頻率分析表白,其幅度譜按12dB/倍頻程速率衰減。假如將其表達為Z變換全極模型形式,有G(z)=1/(1-g1z-1)(1-g2z-1)假如g1和g2值都接近于1,則由此形成鼓勵信號頻譜很接近于聲門脈沖頻譜。顯然,上式表白斜三角波可描述為一種二階極點模型。需要指出,不一樣人、不一樣語音,其聲門脈沖形狀不一定相同,但在語音合成中對其形狀要求不很苛刻,只要其傅里葉變換有近似特性就能夠了。2121/88
周期性斜三角波脈沖可看做加權單位脈沖串鼓勵上述單個斜三角脈沖成果。而周期沖激序列及幅值因子可表達成下面Z變換形式E(z)=AV/(1-z-1)(2-5)因此整個鼓勵模型可表達為U(z)=G(z)E(z)=AV/(1-z-1)·1/(1-g1z-1)(1-g2z-1)(2-6)3、語音信號產(chǎn)生數(shù)字模型(1)鼓勵模型2222/88(b)清音鼓勵發(fā)清音時聲道被妨礙形成湍流,因此可把清音鼓勵模擬成隨機白噪聲。此處用均值為0方差為1并在幅值上為平穩(wěn)分布序列,詳細實現(xiàn)時可采取隨機噪聲發(fā)生器來產(chǎn)生此序列。3、語音信號產(chǎn)生數(shù)字模型(1)鼓勵模型2323/88(2)聲道模型兩種建模辦法:(a)聲管模型(b)共振峰模型共振峰模型將聲道視為一種諧振腔,按此標準導出。基于多種音素發(fā)音不一樣諧振特點可建立起三種實用共振峰模型:(a)級聯(lián)型(b)并聯(lián)型(c)混合型3、語音信號產(chǎn)生數(shù)字模型(2)聲道模型2424/88(a)級聯(lián)型:適用于一般單元音,以為聲道是一組串聯(lián)二階諧振器:這是一種全極點模型,極點就是這個多項式根:若P為偶數(shù),解其根會得到共扼復數(shù)(conjugatecomplex)根,表達成:3、語音信號產(chǎn)生數(shù)字模型(2)聲道模型2525/88F=1/T--取樣頻率
i/--共振峰頻寬。Fi是--共振峰(formant)中心頻率這樣分解則每一種二階因式均對應一種共振峰,其幅頻特性是典型二階諧振特性,諧振中心頻率值等于共振峰。若把語音各個共振峰所對應二階系統(tǒng)級聯(lián)起來就形成了一種完整級聯(lián)型聲道模型,且具有顯著諧振特性。3、語音信號產(chǎn)生數(shù)字模型(2)聲道模型2626/88(b)并聯(lián)型適用于鼻音、復合元音及大部分輔音,發(fā)這些音時發(fā)音腔體具有反諧振特性,必須在模型中加入零點以削弱諧振強度,故要考慮用零、極點模型:一般P>R,假設分子與分母無公因子且分母無重根,則此式可分解為下列部分分式之和形式:這就是并聯(lián)型共振峰模型,每一種二階因式對應一種共振峰。每個二階諧振器幅度可單獨控制。3、語音信號產(chǎn)生數(shù)字模型(2)聲道模型2727/88前面兩種共振峰模型各自都只能適用于部分語音,級聯(lián)或并聯(lián)級數(shù)取決于聲道長度,一般成人取3到5級。級聯(lián)型構造較為簡單,并聯(lián)型各諧振器幅度可獨立控制,綜合考慮二者優(yōu)缺陷可將兩種共振峰模型有機地結合起來就得到一種較為完備共振峰模型。3、語音信號產(chǎn)生數(shù)字模型(2)聲道模型2828/88(c)混合型我們能夠根據(jù)發(fā)音需要自動切換串聯(lián)或并聯(lián)通路,另外并聯(lián)部分尚有一條直通途徑,其幅度控制因子為AB,這是專為某些頻譜特性較為平坦音素如[f]、[p]、[b]而考慮,以增強反諧振特性。3、語音信號產(chǎn)生數(shù)字模型(2)聲道模型2929/88在發(fā)音腔道內(nèi)形成氣流經(jīng)由嘴唇端輻射出來,達到聽者耳朵這段過程,聲音信號會衰減,并且有高通濾波特性,我們常用一種一階數(shù)字高通濾波器擬這個現(xiàn)象,這個濾波器又叫做輻射模型(radiationmodel),其數(shù)學式如下完整數(shù)字模型系統(tǒng)函數(shù)由鼓勵模型、聲道模型和輻射模型級聯(lián)來表達:3、語音信號產(chǎn)生數(shù)字模型(3)輻射模型3030/883131/88總結:1.到此為止組成語音產(chǎn)生數(shù)字模型三個組成部分己介紹完成。此模型并非最完備模型,由于它對某些音是不適用如濁音中摩擦音,這種音要有發(fā)濁音和清音兩種鼓勵,而不是簡單疊加關系,對這些音我們可用更精確模型來模擬。2.語音產(chǎn)生數(shù)字模型中增益控制(對Av或AN)代表了輸出語音音響強度;時變線性系統(tǒng)主要用來模擬聲道特性;3.數(shù)字語音處理中兩個基本問題,即語音分析和語音合成,都是基于這個模型來實現(xiàn);4.此數(shù)字模型特點:系統(tǒng)參數(shù)固定不變—短時分析;全極點性質(zhì)—零點可由多種極點逼近;鼓勵源和聲道互相獨立—適用于大多數(shù)數(shù)字語音處理。3、語音信號產(chǎn)生數(shù)字模型3232/884.語音信號特性語音學和語言學概要語音聲學特性語音時間波形和頻譜特性語音信號統(tǒng)計特性4、語音信號特性3333/884.1語言學和語音學概要對語音學和語言學詳盡討論對我們來講離題太遠,不過對語音信號加以處理以改善或提取信息時,假如我們對語音信號構造(信號中信息編碼辦法)有盡也許多知識則是很有幫助。1.語言學:是以人類語言為研究對象一門科學,主要對控制語音中各個音排列規(guī)則及其含義進行研究。語言(Language)是從千百萬個人言語(Speech)中概括總結出來規(guī)律性符號系統(tǒng)。因此,研究語言首先要理解一下人言語(說話)過程。4、語音信號特性3434/884.1語言學和語音學概要圖3-1人說話過程分為五個階段(1)想說階段:人說話首先是客觀現(xiàn)實在大腦中反應,經(jīng)大腦決策產(chǎn)生了說話動機;接著發(fā)言神經(jīng)中樞選擇恰當單詞、短語以及按語法規(guī)則組合,以體現(xiàn)他想說內(nèi)容和情感。這個階段與大腦中樞活動有關。(2)說出階段:由上階段中樞決策,以脈沖形式向發(fā)音器官發(fā)出指令,使它們各自有關肌肉協(xié)調(diào)地動作發(fā)出聲音來。另外還開動另一種“反饋系統(tǒng)”即發(fā)言者聽覺系統(tǒng),來幫助修正語音。(3)傳送階段:說出來話語是一連串聲波,憑借空氣為媒介傳到聽話者耳中。(4)接收階段:聽話者從外耳搜集到聲波信息,通過中耳放大作用,到達內(nèi)耳,經(jīng)內(nèi)耳基底內(nèi)膜振動轉化為耳蝸內(nèi)毛細胞電位變化,由聽覺神經(jīng)傳給大腦。(5)理解階段:發(fā)言者大腦聽覺神經(jīng)中樞收到脈沖信息后,識別出說話人及其所說信息,從而聽懂發(fā)言者話。4、語音信號特性3535/884.1語言學和語音學概要從五個階段來看,言語過程包括著相稱復雜因素,其中有心理、生理、物理以及個人和社會原因。這里,個人原因還指講活者口音和用詞造句特色以及聽話者聽音和理解能力;社會原因則是指發(fā)言者和聽話音對用于進行交際伎倆有共同理解社會基礎。
語言是從言語中概括出來一種符號系統(tǒng)。包括形式和內(nèi)容兩個方面,即語音形式和語義內(nèi)容。將這兩個基本要素相結合起來,能夠組成語言語素、詞、短語和句子等不一樣層次單位;這個組成規(guī)則就是語法。目前我們能夠利用語法和語義信息減小語音識別中搜索匹配范圍,提升語音識別率。4、語音信號特性3636/884.1語言學和語音學概要2.語音學:研究語音中各個音物理特性和分類學科。從某種意義上講,語音學與語音信號處理這門學科聯(lián)系更緊密。大多數(shù)語言包括漢語在內(nèi)能夠用一組不一樣音即音素來加以描述。對于漢語來說約有六十個音素,包括元音、復合元音和輔音。研究語音學途徑有很多種,例如語言學家研究音素不一樣特性或特性。而對我們來講,只要研究不一樣聲學特性就夠了,這包括發(fā)音部位、姿態(tài)、波形和這些聲音頻譜即語譜特性。本章背面幾個話題均以語音學為基礎。4、語音信號特性3737/884.2語音聲學特性1.物理屬性—音色、音調(diào)、音強和音長;音色:也叫音質(zhì),是一種聲音區(qū)分于另一種聲音基本特性,是由聲道位置和形狀決定。音調(diào):聲音高低,決定于聲波頻率高低,而聲波頻率高低又由語音基音頻率F0所決定。F0高則音調(diào)高,低則音調(diào)低。一般說來,老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強:聲音強弱,由聲波振幅所決定。音長:聲音長短,取決于發(fā)音時間長短。4、語音信號特性3838/884.2語音聲學特性2.語音組成—音節(jié)(syllable)、音素音素(phoneme):語音發(fā)音最小單位。分類:(1)國際標準分類清音:發(fā)清音時聲帶不振動。濁音:發(fā)濁音時聲帶振動。(2)我國傳統(tǒng)分類元音(韻母):是當聲帶振動發(fā)出聲音氣流在聲道中不受妨礙,這種情況下產(chǎn)生語音稱為元音。元音屬于濁音。輔音(聲母):從聲門呼出聲音氣流,在聲道通路中某一部分封閉起來或受到妨礙不能通暢,為克服發(fā)音器官這種妨礙而產(chǎn)生語音稱為輔音。4、語音信號特性3939/884.2語音聲學特性音節(jié):說話時一次發(fā)出,具有一種響亮中心,并被顯著感覺到語音片段。一種音節(jié)可由一種音素或幾個音素組成。音節(jié)最典型結構,就是以一種元音或雙元音(diphthong)為主體,其前面或背面也許連接一種或多種輔音。3.漢語語音特點—聲、韻、調(diào),音節(jié)在漢語中占有主要地位,它是由聲母、韻母和聲調(diào)按一定方式組成,是語言最小使用單位;音節(jié)構造簡單,與其他語言相比漢語語音音節(jié)和音素都很少。4、語音信號特性4040/884.2語音聲學特性4.語義:語音總是和一定意義相聯(lián)系著,一定語音要體現(xiàn)一定思想和意義;另外,語音還能體現(xiàn)出一定語調(diào)、情感,甚至體現(xiàn)許多“言外之意”。5.元音共振峰特性:元音組成一種音節(jié)主干,無論從發(fā)音長度還是從能量看,元音在音節(jié)中都占主要部分。因此有必要在此研究一下元音共振峰特性或者說研究其頻譜特性。4、語音信號特性4141/884.2語音聲學特性影響元音共振峰特性發(fā)音機制:(1)舌頭形狀;(2)舌頭在口腔中位置,簡稱舌位;(3)嘴唇形狀,即口形;其中由舌位高低前后位置變化,能夠發(fā)出不一樣音素,也就是說舌位與元音共振峰特性有密切關系。4、語音信號特性4242/884.2語音聲學特性圖4-1漢語單元音舌位梯形圖(1)F1與舌位高低有關,舌位越高F1越低;由于舌位越低嘴張得越大,也稱舌位高低為開口度。(2)F2與舌位前后密切有關,舌位越靠前F2就越高。(3)F1、F2和嘴唇圓展程度有關,嘴唇越圓,F1、F2越低。(4)F3與舌位關系不密切,但受舌尖活動影響;舌尖抬高卷起時F3就顯著下降。4、語音信號特性4343/88多種語音表達信息率4、語音信號特性4444/884.3語音時間波形和頻譜特性語音能夠直接用它時間波形來表達,根據(jù)時間波形能夠看出語音信號某些主要特性。就其本性而言,語音波形是時間連續(xù)函數(shù),是隨時間而變化,但比較遲緩,10~30ms4、語音信號特性4545/884.3語音時間波形和頻譜特性語音頻譜特性由聲道形狀和尺寸決定,隨時間變化——短時譜(清濁音不一樣、對數(shù)和線性振幅譜);語譜圖(濁音和清音不一樣、寬帶和窄帶語譜圖)4、語音信號特性4646/884.3語音時間波形和頻譜特性左圖中u(n)就是前面所講聲音鼓勵ug(n),由于聲門波脈沖模型g(n)引入兩個極點,故在語音信號約0.8至1.0kHz以上頻率造成12db/倍頻程衰減4、語音信號特性4747/884.3語音時間波形和頻譜特性語音信號時域波形示意圖:靜息波
脈沖波(清塞音)準周期波(濁音)噪聲波(摩擦音)4、語音信號特性4848/884.3語音時間波形和頻譜特性圖4-2聲音語譜圖4、語音信號特性4949/884.3語音時間波形和頻譜特性窄頻帶語譜圖(narrowbandspectrograms)語譜圖產(chǎn)生是用傅里葉轉換(Fouriertransform),當我們用較長分析窗口(analysiswindows),約20ms,對應頻寬約為45Hz,得到頻率辨別率較高,頻譜上能夠看到諧振成份。在語譜圖上展現(xiàn)等距黑白相間橫線條,其間距就是基頻(F0)。4、語音信號特性5050/884.3語音時間波形和頻譜特性寬頻帶語譜圖(widebandspectrograms)若是在轉換演算時用較少取樣點,分析窗口大約3ms,對應頻寬約300Hz,則頻譜上看不到諧振成份,在語譜圖上看不到等距黑白相間。頻率辨別率較低,反而是時軸上辨別率較高,看到顯著垂直線條。4、語音信號特性5151/884.3語音時間波形和頻譜特性共振峰(formant)在頻域上,能量集中處就是共振峰(formant)之所在,在語譜圖上就是顏色較深位置。在發(fā)元音時,音強較大,聲帶振動而展現(xiàn)出基頻及其諧振頻率,也能夠顯著看到共振峰,能量集中在低頻。假如是發(fā)輔音,并且聲帶不振動,就看不到諧振頻率。一般輔音音強小,顏色看來就比較淡,并且能量較集中在高頻。若是在沒有語音空檔,則語譜圖上展現(xiàn),就是有一段空白。4、語音信號特性5252/884.3語音時間波形和頻譜特性元音與輔音聲學特性(一)元音發(fā)元音聲音時,聲帶是振動,音強也較大,波形上能夠看到大振幅,并且展現(xiàn)周期性。其周期就是音高周期,對應頻率就是基頻,一般以F0表達。正常說話時,元音音長大約是50到400ms之間。元音在頻譜上會展現(xiàn)能量集中現(xiàn)象,集中處頻帶稱為共振峰。在5kHz語音頻帶范圍內(nèi),會有5個共振峰,分別以F1﹑F2﹑F3﹑F4﹑與F5代表,其中F1﹑F2與F3比較顯著。4、語音信號特性5353/884.3語音時間波形和頻譜特性圖4-3三個元音語譜圖(分別對應漢語拼音元音i,a,u)4、語音信號特性5454/884.3語音時間波形和頻譜特性圖4-4雙元音在語譜圖上共振峰轉移(過渡)現(xiàn)象分別對應漢語拼音雙元音ai,ei,ao,ou4、語音信號特性5555/884.3語音時間波形和頻譜特性(二)輔音輔音是對元音前或后作修飾。帶聲輔音會有類似元音共振峰,由于聲帶振動,因此和元音同樣有諧振成份,但相對于元音,能量小得多。不帶聲摩擦音(如f,s,sh,x,h)類似噪音,能量傾向在高頻。發(fā)鼻音時,鼻腔共振效果使得低頻成份受到壓抑,雖然是聲帶振動而有共振峰,但低頻共振峰能量較弱。下列圖分別對應漢語拼音輔音:b,p,m,f,j,q,x,zh,ch,sh4、語音信號特性5656/884.3語音時間波形和頻譜特性圖4-5塞音(或爆破音)出目前元音前例子下列圖分別對應ba,da,ga,pa,ta,ka在一種音節(jié)開始若有塞音,當氣流放出之后,伴隨就發(fā)元音,聲帶開始振動,在語譜圖上能夠觀測到一小段時間之后,才有顯著共振峰出現(xiàn),這一小段時間就叫做嗓音起始時間(voiceonsettime),簡稱VOT。返回4、語音信號特性5757/884.4語音信號統(tǒng)計特性語音信號能夠當作是一種遍歷性隨機過程樣本函數(shù);語音信號統(tǒng)計特性能夠用它振幅概率密度函數(shù)和某些平均量(均值和自有關函數(shù))來描述——概率密度估算、逼近辦法及意義;自有關函數(shù)估計及影響原因(語音段和濾波情況);語音信號統(tǒng)計特性也能夠用功率譜來描述——長期平均功率譜能夠用周期圖來估計;4、語音信號特性5858/88
語音信號時域波形4、語音信號特性5959/88
語音信號波形與頻譜4、語音信號特性6060/88
語音波形幅度分布4、語音信號特性6161/88
基頻變化范圍4、語音信號特性6262/88自學部分6363/88
美式英語發(fā)音4、語音信號特性6464/88
美式英語音素4、語音信號特性6565/88
元音(Vowels)?由固定聲道形狀產(chǎn)生,可連續(xù)聲音?聲帶振動–濁音?聲道截面積決定了元音頻率響應和聲音質(zhì)量?舌位置(高度,前后),唇形狀對確定元音發(fā)音有主要作用?一般連續(xù)期相對長(歌唱時能夠保持),有規(guī)則頻譜形狀4、語音信號特性6666/88
元音產(chǎn)生4、語音信號特性6767/88
美式英語中元音4、語音信號特性6868/88
元音發(fā)音器官形狀4、語音信號特性6969/88
元音波形與譜圖4、語音信號特性7070/88
元音共振峰平均4、語音信號特性7171/88
元音連續(xù)期4、語音信號特性7272/887373/885.人類聽覺功能用語言作溝通,就是說話人能讓對方聽懂他在說些什么,雙方用說與聽來達成信息交換與感情交流。而語言學習過程,更是不停地聽,然后學習會說,因此語言與聽覺有密切關聯(lián)性。本節(jié)將說明人類聽覺器官構造,以及如何聽聲音。并且對于人耳在聽覺上一種主要特性,聽覺掩蔽效應做了簡要論述,這是語音處理中經(jīng)常會用到聽覺特性。5、語音感知7474/88
語音通信SpeechCommunication5、語音感知7575/88
聽覺系統(tǒng)中聲音表達框圖5、語音感知7676/88
聽覺器官5、語音感知7777/88語音感知模型(SpeechPerceptionModel)5、語音感知7878/885.人類聽覺功能外耳
從耳翼(pinnas)到鼓膜(eardrum)這一段叫做外耳。耳翼功能在幫助判斷聲音起源方向,它對于聽者前方來聲音比較敏感。
耳翼到鼓膜之間通道叫做耳道(meatus)
,這是一種長約2.7公分直徑約0.7公分通道。對于聲波傳輸而言,這條通道等于是一種四分之一波長共振腔,它第一種共振頻率大約是3kHz,這個共振作用將3~5kHz聲波放大15dB左右,因此使得我們聽覺對于3~5kHz頻率范圍比較敏感。5、語音感知7979/885.人類聽覺功能中耳
在鼓膜與耳蝸之間有一種大約6立方公分小空間,稱之為中耳。在這個小空間內(nèi),有三塊小骨頭,分別是槌骨(hammer,或稱為malleus),砧骨(anvil或稱為incus)與鐙骨(stapes,或稱為stirrup)。槌骨黏接在鼓膜上,聲波造成空氣振動會使鼓膜振動,進而推進槌骨振動,鐙骨貼在耳蝸橢圓形窗(ovalwindow)上,槌骨振動通過砧骨與鐙骨傳遞,將振動信號傳到耳蝸內(nèi)淋巴液,因此中耳能夠當作是聲波到淋巴液信號轉換,在此轉換過程中,對于1kHz以上信號做了-15dB/10倍頻程衰減,能夠當作是一種低通濾波器(lowpassfilter)。5、語音感知8080/885.人類聽覺功能人類在辨別聲音時,是取決于頻域上辨別率,聽覺器官等于是將時域聲音波形轉換成在頻域頻譜,能否聽到聲音或辨別聲音,是取決于音強(intensity)與頻譜(spectrum)。一般人聽覺器官能夠感知頻率范圍16Hz到18kHz聲音,動態(tài)范圍約1000倍。超出人類聽覺感知范圍,如20kHz以上聲波,我們稱之為超音波(ultrasonic)。人耳對于1kHz到5kHz聲音最為敏感,不過對于1kHz下列與5kHz以上聲音,就要較大音強才聽得到。5、語音感知8181/885.人類聽覺功能圖5-4人類聽覺范圍5、語音感知8282/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 施工現(xiàn)場閘機設置標準
- 施工現(xiàn)場施工防高空墜物制度
- 閱讀啟迪心靈小學生的成長之路
- 母嬰用品銷售中的用戶體驗優(yōu)化策略匯報
- 清明節(jié)掃墓應急預案
- 預防為主早期小兒肺炎識別與護理措施
- DB4415T 55-2025香芋南瓜-紫云英-香芋南瓜輪作生產(chǎn)技術規(guī)程
- 交通監(jiān)控項目工程合同
- 上海市大數(shù)據(jù)中心計算機信息系統(tǒng)集成合同
- 個人小額信貸合同范本
- “5E”教學模式下高中數(shù)學教學實踐研究
- 急救藥品知識培訓內(nèi)容
- 人教版初中英語單詞大全七八九年級(帶音標) mp3聽力音頻下載
- 四川省成都市成華區(qū)2024年中考語文二模試卷附參考答案
- 營銷策劃 -嘉華鮮花餅「正宗」戰(zhàn)略重塑
- 浙江省杭州市2024-2025學年高三上學期一模英語試題(含解析無聽力原文及音頻)
- 2024年湖南高速鐵路職業(yè)技術學院高職單招(英語/數(shù)學/語文)筆試歷年參考題庫含答案解析
- 《高級計量經(jīng)濟學》-上課講義課件
- 玩轉數(shù)和形課件
- 護理診斷及護理措施128條護理診斷護理措施
- 天然飲用山泉水項目投資規(guī)劃建設方案
評論
0/150
提交評論