




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)字語音處理數(shù)字模型2.1概述
本章重點(diǎn)介紹語音信號產(chǎn)生的數(shù)字模型,對語音信號的特性和聽覺特性做一般介紹。第2頁,共46頁,星期六,2024年,5月2.2語音的發(fā)音機(jī)理1.組成⑴肺和氣管組成聲源;⑵喉和聲帶稱為聲門;⑶由咽腔、口腔、鼻腔組成聲道;
2.2.1人的發(fā)音器官第3頁,共46頁,星期六,2024年,5月2.功能肺:產(chǎn)生壓縮氣體,通過氣管傳送到聲音生成系統(tǒng)。喉:控制聲帶運(yùn)動的復(fù)雜系統(tǒng)。主要包括:環(huán)狀軟骨、甲狀軟骨、杓狀軟骨、聲帶。第4頁,共46頁,星期六,2024年,5月第5頁,共46頁,星期六,2024年,5月(a)閉合狀態(tài)
(b)張開狀態(tài)
圖2.2喉的生理結(jié)構(gòu)第6頁,共46頁,星期六,2024年,5月
聲門:聲帶之間的間隙稱為聲門。主要功能:產(chǎn)生激勵。聲道:指聲門至嘴唇的所有發(fā)音器官。
包括:咽喉、口腔和鼻腔。主要功能:傳輸調(diào)制聲波。
聲道的形狀變化由舌、軟腭、唇、牙決定。
第7頁,共46頁,星期六,2024年,5月口腔包括:上下唇、上下齒、上下齒齦、上下腭、舌和小舌等部分。上腭又分為:硬腭和軟腭兩部分;舌又分為:舌尖、舌面和舌根三部分。鼻腔在口腔上面,靠軟腭和小舌將其與口腔隔開。當(dāng)小舌下垂時,鼻腔和口腔便耦合起來,當(dāng)小舌上抬時,口腔與鼻腔是不相通的??谇缓捅乔欢际前l(fā)音時的共鳴器。第8頁,共46頁,星期六,2024年,5月圖2.3聲道縱剖面圖第9頁,共46頁,星期六,2024年,5月
圖2.4發(fā)音器官機(jī)理模型
空氣由肺部排入喉部,經(jīng)過聲帶進(jìn)入聲道,最后由嘴輻射出聲波,這就形成了語音。聲門子系統(tǒng)聲道系統(tǒng)輻射系統(tǒng)2.2.2語音生成第10頁,共46頁,星期六,2024年,5月
語音生成動作可分為兩種功能:(1)激勵(2)調(diào)制第11頁,共46頁,星期六,2024年,5月2.2.2語音生成-濁音
空氣流經(jīng)過聲帶時,如果聲帶是崩緊的,則聲帶將產(chǎn)生張弛振動,即聲帶將周期性地啟開和閉合。聲帶啟開時,空氣流從聲門噴射出來,形成一個脈沖,聲帶閉合時相應(yīng)于脈沖序列的間隙期。
這種情況下在聲門處產(chǎn)生出一個準(zhǔn)周期脈沖狀的空氣流。該空氣流經(jīng)過聲道后最終從嘴唇輻射出聲波,這便是濁音語音。這個準(zhǔn)周期脈沖的周期即為基音周期。第12頁,共46頁,星期六,2024年,5月
基音周期:聲帶每開啟和閉合一次的時間。其倒數(shù)稱為基音頻率?;纛l率是由聲帶張開閉合的周期所決定的:男性的基音頻率一般為50~250Hz;女性基音頻率為100~500Hz。第13頁,共46頁,星期六,2024年,5月2.2.2語音生成-清音
空氣流經(jīng)過聲帶時,如果聲帶是完全舒展開來的,則肺部發(fā)出的空氣流將不受影響地通過聲門??諝饬魍ㄟ^聲門后,會遇到兩種不同情況。一種情況是,如果聲道的某個部位發(fā)生收縮形成了一個狹窄的通道,當(dāng)空氣流到達(dá)此處時被迫以高速沖過收縮區(qū),并在附近產(chǎn)生出空氣湍流,這種湍流空氣通過聲道后便形成所謂摩擦音或清音。第14頁,共46頁,星期六,2024年,5月2.2.2語音生成-爆破音
另一種情況是,如果聲道的某個部位完全閉合在一起,當(dāng)空氣流到達(dá)時便在此處建立起空氣壓力,閉合點(diǎn)突然開啟便會讓氣壓快速釋放,經(jīng)過聲道后便形成所謂爆破音。第15頁,共46頁,星期六,2024年,5月
共振峰頻率或共振峰
聲音產(chǎn)生后,便沿著聲道進(jìn)行傳播。聲道可以看成是一根具有非均勻截面的聲管,在發(fā)音時起著共鳴器的作用。聲音進(jìn)入聲道后,其頻譜必定會受到聲道的共振特性的影響。
聲道是一個諧振腔,具有一組共振頻率,稱為共振峰頻率或共振峰。共振峰及其帶寬取決于聲道的形狀和尺寸,因而不同的語音對應(yīng)于一組不同的共振峰參數(shù)。第16頁,共46頁,星期六,2024年,5月共振峰的計算
假設(shè)聲道截面是均勻的(此時可把聲道看作一個粗細(xì)均勻圓筒),從喉到唇的距離L=17cm,音速c=340m/s,則共振峰頻率將發(fā)生在:
第17頁,共46頁,星期六,2024年,5月第18頁,共46頁,星期六,2024年,5月2.3語音的聽覺機(jī)理2.3.1聽覺器官人的聽覺器官包括:外耳、中耳和內(nèi)耳圖2.9人耳結(jié)構(gòu)示意圖第19頁,共46頁,星期六,2024年,5月2.3.2語音信號聽覺模型
圖2.10語音信號聽覺模型一般原理框圖第20頁,共46頁,星期六,2024年,5月2.4語音的感知音質(zhì)也稱音色,是一種聲音區(qū)別于其他聲音的基本特征。音調(diào)聲音的高低。取決于聲波的頻率—頻率快則音調(diào)高,頻率慢則音調(diào)低音強(qiáng)即音量,又稱響度。由聲波震動幅度決定的。音長即聲音的長短,取決于發(fā)音持續(xù)時間的長短。2.4.1語音的基本特性聲音的物理屬性第21頁,共46頁,星期六,2024年,5月音素
是語音的最小、最基本的組成單位。音節(jié)
是最小的語言片段,一個音節(jié)由一個或幾個音素組成。單詞
是由音節(jié)結(jié)合而成的更大單位,是有意義的語言的最小單位。句子
是單詞的進(jìn)一步組合。語音的組成單位第22頁,共46頁,星期六,2024年,5月一個音節(jié)由元音和輔音構(gòu)成元音:由聲帶振動發(fā)出的聲音。其特點(diǎn)由聲道的形狀和尺寸決定。所有的元音都是濁音。輔音:由呼出的氣流克服發(fā)音器官的阻礙而產(chǎn)生的。發(fā)輔音時聲帶不振動,則形成清音;聲帶振動則形成濁輔音。漢語的特點(diǎn):音素少、音節(jié)少。漢語中的音節(jié)即字音是由聲母、韻母和聲調(diào)按一定方式構(gòu)成的,即由聲、韻、調(diào)三個音素構(gòu)成的第23頁,共46頁,星期六,2024年,5月2.4.2語音的時間波形第24頁,共46頁,星期六,2024年,5月清音的波形特點(diǎn):類似于白噪聲,具有很弱的振幅。濁音(元音)的波形特點(diǎn):具有明顯的準(zhǔn)周期性,并具有較強(qiáng)的振幅。第25頁,共46頁,星期六,2024年,5月2.4.3幾個概念1.人耳能聽到聲音的頻率范圍大約為:20Hz~20kHz。
2.人耳能承受的聲壓級范圍是0~130dB。第26頁,共46頁,星期六,2024年,5月3.人耳能感覺的描述聲音的三個特性①響度取決于聲音的幅度,單位是宋(sone),人耳對3K~4KHz聲音的音強(qiáng)感覺最靈敏。②音調(diào)人耳對聲音頻率高低的感受,單位是美(Mel)。③音色也叫音質(zhì),反應(yīng)了聲音的屬性。第27頁,共46頁,星期六,2024年,5月
兩個響度不等的聲音作用于人耳時,則響度較高的頻率成分的存在會影響到對響度較低的頻率成分的感受,使其變得不易察覺,這種現(xiàn)象稱為掩蔽效應(yīng)。
在掩蔽情況下,被隱蔽音的聽閾會提高,即加大被掩蔽音的強(qiáng)度才能聽到。2.4.4掩蔽效應(yīng)第28頁,共46頁,星期六,2024年,5月
利用人耳的聽覺掩蔽,在進(jìn)行語音壓縮時,讓量化噪音的頻譜跟隨語言信號頻譜包絡(luò)變化,則共振峰的頻率成分就會掩蔽掉量化噪聲。這個技術(shù)稱為噪聲整形或聽覺加權(quán)處理。掩蔽效應(yīng)的作用第29頁,共46頁,星期六,2024年,5月2.5語音信號模型語音信號的數(shù)字模型:利用數(shù)字技術(shù)模擬語音信號的產(chǎn)生或是利用數(shù)字信號處理技術(shù)來實(shí)現(xiàn)發(fā)音器官的模擬。
在一些合理的假設(shè)下,在較短的時間間隔內(nèi)(20-30ms),語音信號被看成是線性時不變系統(tǒng)(聲道)在隨機(jī)噪聲或準(zhǔn)周期脈沖激勵下的輸出。第30頁,共46頁,星期六,2024年,5月uG(n)Av沖激序列發(fā)生器聲門脈沖模型G(z)隨機(jī)噪聲發(fā)生器基音周期T0Au清/濁音開關(guān)濁音激勵清音激勵2.5.1激勵模型第31頁,共46頁,星期六,2024年,5月
1、濁音激勵
發(fā)濁音時,由于聲門不斷開啟和關(guān)閉,產(chǎn)生間歇的脈沖。經(jīng)儀器測試它類似于斜三角形的脈沖。第32頁,共46頁,星期六,2024年,5月
單個斜三角波的頻譜表現(xiàn)出一個低通濾波器G(ejω)的特性。可以把它表示成z變換的全極點(diǎn)形式:第33頁,共46頁,星期六,2024年,5月整個濁音激勵模型可以表示為:
周期性的斜三角波脈沖串可以看做是一串加權(quán)的單位脈沖序列去激勵上述單個斜三角波模型實(shí)現(xiàn)。
這個單位脈沖串和幅值因子可以表示成下面的Z變換形式
:第34頁,共46頁,星期六,2024年,5月2、清音激勵
發(fā)清音時聲道被阻礙形成湍流,所以可把清音激勵模擬成隨機(jī)白噪聲。此處用均值為0、方差為1,在幅值上為平穩(wěn)分布的序列。第35頁,共46頁,星期六,2024年,5月2.5.2聲道模型(聲管模型)第36頁,共46頁,星期六,2024年,5月
聲管模型
是假定聲道由多個等長的不同截面積的管子串聯(lián)而成的系統(tǒng),并假定管子中的流體及管壁沒有熱傳導(dǎo)和粘滯的損耗。在短時間內(nèi),聲道可表為形狀穩(wěn)定的管道,并可以認(rèn)為聲波是沿管軸傳播的平面波。第37頁,共46頁,星期六,2024年,5月2.5.2聲道模型(共振峰模型)
共振峰模型就是將聲道視為一個諧振腔,共振峰就是這個腔體的諧振頻率。三種共振峰模型分別是:級聯(lián)型、并聯(lián)型和混合型。第38頁,共46頁,星期六,2024年,5月1級聯(lián)型(元音)
聲道是一組串聯(lián)的二階諧振器(一個諧振腔對應(yīng)1個共振峰頻率)。H1H2H3H4H5P為極點(diǎn)個數(shù),G是增益參數(shù),為常系數(shù)。傳輸函數(shù)第39頁,共46頁,星期六,2024年,5月2并聯(lián)型(大部分輔音)
適用于鼻音、復(fù)合元音及大部分輔音,發(fā)這些音時發(fā)音腔體具有反諧振特性,必須在模型中加入零點(diǎn)以減弱諧振強(qiáng)度,故要考慮用零、極點(diǎn)模型:H1H2H3H4H5第40頁,共46頁,星期六,2024年,5月
通常,P>R;若分子與分母無重根,則上式可分解為部分分式之和。
每一個二階因式對應(yīng)一個共振峰。每個二階諧振器的幅度可單獨(dú)控制。第41頁,共46頁,星期六,2024年,5月3混合型
是一種比較完備的共振峰模型,能夠根據(jù)不同性質(zhì)的語音進(jìn)行切換。H1H2H3H4H5H1H2H3H4H5第42頁,共46頁,星期六,2024年,5月2.5.3輻射模型線性系統(tǒng)唇輻射R(z)ul(n)pl(n)
在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出來,到達(dá)聽者耳朵的這段過程,聲音信號會衰減,而且有高通濾波的特性,我們常用一個一階的數(shù)字高通濾波器擬這個現(xiàn)象,其數(shù)學(xué)式如下:第43頁,共46頁,星期六,2024年,5月
有三部分作用施加在語音的聲波上:聲門產(chǎn)生的激勵模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC TR 63424-1:2024 EN Validation of dynamic power control and exposure time-averaging algorithms - Part 1: Cellular network implementations for SAR at frequencies up to 6 G
- 2025-2030年中國防曬霜產(chǎn)業(yè)競爭格局及發(fā)展盈利分析報告
- 2025-2030年中國鈹銅合金市場運(yùn)行態(tài)勢及投資策略分析報告
- 2025-2030年中國速凝劑市場運(yùn)行態(tài)勢規(guī)劃研究報告
- 2025-2030年中國茶黃素產(chǎn)業(yè)運(yùn)行趨勢及發(fā)展前景分析報告
- 2025遼寧省安全員-B證(項(xiàng)目經(jīng)理)考試題庫
- 2025-2030年中國節(jié)水灌溉行業(yè)運(yùn)行現(xiàn)狀及發(fā)展前景分析報告
- 2025年遼寧省建筑安全員知識題庫附答案
- 2025-2030年中國羥乙基皂莢膠行業(yè)市場運(yùn)行現(xiàn)狀及投資發(fā)展前景預(yù)測報告
- 2025-2030年中國硫酸氧釩行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究報告
- 2萬噸馬鈴薯深加工(淀粉)項(xiàng)目可行性研究報告
- 服飾品設(shè)計PPT完整全套教學(xué)課件
- 顱腦橫斷層解剖09課件
- 2023年同等學(xué)力申碩英語真題
- 2023年04月廣東深圳市市場監(jiān)督管理局許可審查中心招考聘用醫(yī)療器械注冊審評員(員額)筆試參考題庫附答案解析
- 安捷倫N9020A頻譜儀操作說明
- 孟氏骨折與蓋氏骨折
- 我的妹妹-教學(xué)設(shè)計教案
- GB/T 30512-2014汽車禁用物質(zhì)要求
- 五年級上冊語文閱讀理解附答案
- 小學(xué)一年級硬筆書法入門25839教學(xué)內(nèi)容
評論
0/150
提交評論