




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
多媒體計(jì)管機(jī)技術(shù)
號(hào)玄偉
hwlu@263.net
第四章音頻信號(hào)和聲音卡
思
2?音頻編碼基礎(chǔ)考
*?音頻處理涉及的內(nèi)容題
??音頻信號(hào)壓縮技術(shù)
??音頻編碼標(biāo)準(zhǔn)
??聲音卡的組成和工作原理
Z?語音識(shí)別技術(shù)及應(yīng)用
音頻處理涉及的內(nèi)容
,也即聲波的物理特性。
音頻的記錄和產(chǎn)生方式,包括模/數(shù)、數(shù)
/模轉(zhuǎn)換;數(shù)據(jù)壓縮和聲音合成。
:?音頻信號(hào)的處理方法大致可分為兩類:
:一種是數(shù)字音頻方式,另一種是分析一
■合成的方安
音頻編碼基礎(chǔ)
??聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研
■究中的一個(gè)重要內(nèi)容。聲音的種類繁多,如人的話音、
Z樂器聲、動(dòng)物發(fā)出的聲音、機(jī)器產(chǎn)生的聲音以及自然
2界的聲音等。
:?這些聲音有許多共同的特性,也有它們各自的特性。
Z在用計(jì)算機(jī)處理這些聲音時(shí),既要考慮它們的共性,
■又要利用它們的各自的特性。
:?我們將研究聲音的基礎(chǔ)知識(shí),掌握聲音數(shù)字化的兩個(gè)
?最基本的概念;了解基本的音頻信號(hào)編碼技術(shù)。
音頻編碼基礎(chǔ)
Z?聲音信號(hào)的特點(diǎn)
z.音頻信息的分類
?■音頻信號(hào)處理的方法
??音頻文件的存儲(chǔ)格式
聲音質(zhì)量的度量
頻帶寬度
BacU
?音頻信號(hào)的頻帶越寬,所包含的音頻信
號(hào)分量越豐富,音質(zhì)越好
CD-DA
FM廣橘
AM廣播
電話
1020502003.4K7K15K22Kf(Hz)
:動(dòng)態(tài)范圍K
EaeL
:?動(dòng)態(tài)范圍越大,信號(hào)強(qiáng)度的相對變化范
?圍越大,音響效果越好
X動(dòng)態(tài)范圍(邢)406050100
信噪比
BacU
??信噪比SNR(SignaltoNoiseRatio)
:是有用信號(hào)與噪聲之比的簡稱。噪音可
:分為環(huán)境噪音和設(shè)備噪音。信噪比越大,
聲音質(zhì)量越好。
門加有用信號(hào)的平均功率
噪聲的平均功率
主觀度量法
BacU
:?人的感覺機(jī)理對聲音的度量最有決定意
:義。感覺上的、主觀上的測試是評價(jià)聲
二音質(zhì)量不可缺少的部分。當(dāng)然,可靠的
:主觀度量值是較難獲得的
音頻信息的分類
NEXT
分類注釋
不規(guī)則聲音一般指不攜帶信息的噪音
語音是指具有語言內(nèi)涵和人類約定俗成的特殊媒體
音樂規(guī)范的符號(hào)化了的聲音
指人類熟悉的其它聲音,如動(dòng)物發(fā)聲、機(jī)器產(chǎn)生的聲音、自然界的
風(fēng)雨雷電等。
規(guī)則音頻
BacU
?規(guī)則音頻是一種連續(xù)變化的模擬信號(hào),可用一
條連續(xù)的曲線來表示,稱為聲波。模擬信號(hào)
的曲線無論多復(fù)雜,在任一時(shí)刻都可分解成
一系列正弦波的線性疊加:
聲音信號(hào)的特點(diǎn)
NEXT
?聲音是通過空氣傳
播的一種連續(xù)的波,
這種連續(xù)性表現(xiàn)在
兩個(gè)方面,一個(gè)是
時(shí)間上的連續(xù)性,
另一方面是指它在
幅度上是連續(xù)的。
?音頻信號(hào)的特征:
?基頻與音調(diào)
?諧波與音色
*幅度與音強(qiáng)
?音寬與頻帶
:聲音信號(hào)的特點(diǎn).
:EaeL
:-人的聽覺器官能感知的頻率范圍為20?
:20000Hz,能感知的聲音幅度范圍在0?
-120dB之間,而人的發(fā)音器官能夠發(fā)出
Z的聲音頻率范圍為80?3,400Hz。
z?聲音是一種彈性波,聲音信號(hào)可以分成
:周期信號(hào)與非周期信號(hào)兩類。
:-聲音的質(zhì)量與聲音的頻率范圍有關(guān)。
:基頻與音調(diào)IS
:EaeL
:?頻率是指信號(hào)每秒鐘變化的次數(shù)。人對聲音
Z頻率的感覺表現(xiàn)為音調(diào)的高低,在音樂中稱
2為音高。音調(diào)正是由頻率/所決定的。音樂
?中音階的劃分是在頻率的對數(shù)坐標(biāo)(20Xlog)
Z上取等分而得的:
■
■音階CDEFGAB
■簡諾符號(hào)1234567
■
頻率(Hz)
,261293330349392440494
■頻率(對數(shù))48.349.350.350.851.852.853.8
:諧波與音色.
.EaeL
*?〃①0稱為①0的高次諧波分量,也稱為泛
:音。音色是由混入基音的泛音所決定的,
;高次諧波越豐富,音色就越有明亮感和
:穿透力。不同的諧波具有不同的幅值A(chǔ)”
:和相位偏移彼n,由此產(chǎn)生各種音色效
:?1y果No
幅度與音強(qiáng)
BacU
:?人耳對于聲音細(xì)節(jié)的分辨只有在強(qiáng)度適中時(shí)
:才最靈敏。人的聽覺響應(yīng)與強(qiáng)度成對數(shù)關(guān)系。
■一般的人只能察覺出3
Z?分貝的音強(qiáng)變化,再細(xì)分則沒有太多意義。
z我們常用音量來描述音強(qiáng),以分貝
?(dB=201og)為單位。在處理音頻信號(hào)時(shí),
:絕對強(qiáng)度可以放大,但其相對強(qiáng)度更有意義,
■一般用動(dòng)態(tài)范圍定義:
Z動(dòng)態(tài)范圍=20義log(信號(hào)的最大強(qiáng)度/信號(hào)的
?最小強(qiáng)度)(dB)
音寬與頻帶
BacU
:?頻帶寬度或稱為帶寬,它是描述組成復(fù)
:合信號(hào)的頻率范圍
音頻(Audio)帶寬
次聲帶一(_P—超聲帶
語音(Speech)帶寬
203003K20Kf(Hz)
音頻信號(hào)處理的方法.
國
?首先對聲音進(jìn)行在時(shí)間軸和幅度兩個(gè)方
面進(jìn)行離散化。
音頻文件的存儲(chǔ)格式
FNEXT]
:?目前比較流行的主要包括以下幾種:
:-主要用在PC上的以.wav(waveform)為擴(kuò)展
:名的文件格式;
--主要用在Unix工作站上的以.au(audio)為擴(kuò)
X展名的文件格式;
Z-主要用在蘋果機(jī)和美國視算科技有限公司
二的工作站上的以.aiff和snd為擴(kuò)展名的文件
Z格式
:-PC機(jī)上比較流行的以.rm和.mp3
波形文件格式
NEXT
??.wav為擴(kuò)展名的
:文件格式稱為波ID:RIFF。
2形文件格式RIFF類型:WWEo
??由IBM和微軟公格式塊”
Z司于1991年8月
二聯(lián)合開發(fā)的聲音數(shù)據(jù)塊”
部分音頻文件的后綴盆.
文件的擴(kuò)展名說明
Sun和NeXT公司的音頻文件存儲(chǔ)格式(8位四律編碼
Au
或者16位線性編碼)
aif(AudioInterchange)Apple計(jì)算機(jī)上的音頻文件存儲(chǔ)格式
cmf(CreativeMusicFormat)聲霸(SB)卡帶的MIDI文件存儲(chǔ)格式
MIDI文件存儲(chǔ)格式
WMWe*t/1
mid(MIDI)Windows的MIDI文件存儲(chǔ)格式
mp2MPEGLayerI』
mp3MPEGLayerIII
Mod(Module)MIDI文件存儲(chǔ)格式
rm(RealMedia)則黝喊鼠公司的流式音頻文件格式
ra(RealAudio)四麒殿殿公司的流式音頻文件格式
聲音卡文件存儲(chǔ)格式
\RAAoA/Vl*Adlib
Snd(sound)Apple計(jì)算機(jī)上的音頻文件存儲(chǔ)格式
SeaMIDI文件存儲(chǔ)格式
MIDI文件存儲(chǔ)格式
聲霸卡存儲(chǔ)的音頻文件存儲(chǔ)格式
XV/v\oA/Wcv(CreativeVoice)
Windows采用的波形音頻文件存儲(chǔ)格式
\WAAAaAvAA(zWaveform)*
WrkCakewalkPro軟件采用的MID
:聲音質(zhì)量的度量.
:EaeL
:-聲音的質(zhì)量可以用聲音信號(hào)的帶寬和動(dòng)態(tài)范
:圍來衡量,等級由高到低依次是DAT,CD,
.FM,AM和數(shù)字電話。
:?聲音質(zhì)量的度量還有兩種基本的方法:一種
z是客觀質(zhì)量度量,另一種是主觀質(zhì)量度量。
2?聲音客觀質(zhì)量的度量主要用值噪比SNR(signal
?tonioseratio)。
z?主觀質(zhì)量度量最常用的方法有平均意見得分
■(meanopinionscore,MOS)。
音頻信號(hào)壓縮技術(shù)
?,木既述
??脈沖編碼調(diào)制
:-增量調(diào)制
??自適應(yīng)脈沖編碼調(diào)制
??差分脈沖編碼調(diào)制
:?自適應(yīng)差分脈沖編碼調(diào)制
概述
爵aek
數(shù)據(jù)壓縮的主要依據(jù)是人耳朵的聽覺
特性,使用“心理聲學(xué)模型”來達(dá)到壓縮
聲音數(shù)據(jù)的目的:
-聽覺系統(tǒng)中存在一個(gè)聽覺閾值電平
-聽覺掩飾特性
脈沖編碼調(diào)制
BaeU
:?脈沖編碼調(diào)制PCM(PulseCodeModulation)是一
一種模數(shù)轉(zhuǎn)換的最基本編碼方法
Z?模數(shù)轉(zhuǎn)換有兩個(gè)步驟:第一步是采樣,就是每隔一
?段時(shí)間間隔讀一次聲音的幅度;第二步是量化,就
Z是把采樣得到的聲音信號(hào)幅度轉(zhuǎn)換成數(shù)字值。
采樣時(shí)鐘
]|11nHi\
:采樣頻率
:?采樣頻率是指一秒鐘內(nèi)采樣的次數(shù)。采
:樣頻率的選擇應(yīng)該遵曲奈奎斯特
一(HarryNyquist)采樣理論:如果對
:某一模擬信號(hào)進(jìn)行采樣,則采樣后可還
:原的最高信號(hào)頻率只有采樣頻率的一半,
:或者說只要采樣頻率高于輸入信號(hào)最高
:頻率的兩倍,就能從采樣信號(hào)系列重構(gòu)
:原始信號(hào)
量化
Z量化位是兩化中一個(gè)十分重要的參數(shù),它是對模
■擬音頻信號(hào)的幅度軸進(jìn)行數(shù)字化,決定了模擬信號(hào)數(shù)
Z字化以后的動(dòng)態(tài)范圍。由于計(jì)算機(jī)按字節(jié)運(yùn)算,一般
?的量化位數(shù)為8位和16位。量化位越高,信號(hào)的動(dòng)態(tài)
z范圍越大,數(shù)字化后的音頻信號(hào)就越可能接近原始信
:號(hào),但所需要的存貯空間也越大。
?量化有好幾種方法,但可歸納成兩類:一類稱為
Z,另一類稱為非均勻量化。如果采用相等的
,量化間隔對采樣得到的信號(hào)作量化,那么這種量化稱
Z為均勻量化。均勻量化就是采用相同的“等分尺”來
?度量采樣得到的幅度,也稱為線性量化,如圖所示。
Z這種方法稱為,用PCM表示
:非線性量化
:?非線性量化的基本想法是,對輸入信號(hào)進(jìn)行量化時(shí),
二大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小
Z的量化間隔。
2?在非線性量化中,采樣輸入信號(hào)幅度和量化輸出數(shù)據(jù)
Z之間定義了兩種對應(yīng)關(guān)系,一種稱為口律壓(縮)擴(kuò)(展)
■夏法,另一種稱為A律壓(縮)擴(kuò)(展)算法。
:pi律壓(縮)擴(kuò)(展)算法.■
:日律壓擴(kuò)用在北美和日本等地區(qū)的數(shù)字電
:話通信中,按下面的式子確定量化輸入和
:輸出的關(guān)系:
:FR(x)=sgn(x)[ln(l+//1x|)/ln(l+//)]
:式中:X為輸入信號(hào)幅度,規(guī)格化成
:VI;sgn(x)為X的極性;〃為確定壓縮量的參
:數(shù),它反映最大量化間隔和最小量化間隔
一之比,取1004/4500。
A律壓(縮)擴(kuò)(展)算法
BaeU
?A律(A-Law)壓擴(kuò)用在歐洲和中國大陸等地區(qū)的
:數(shù)字電話通信中,按下面的式子確定量化輸入
:和輸出的關(guān)系:
一/"—{sgn(x)[(l+InZ|x|)/(1+InA)]\/A<|x|<1
:式中:X為輸入信號(hào)幅度,規(guī)格化成-1。。,
zSgn(x)為X的極性;4為確定壓縮量的參數(shù),它反
?映最大量化間隔和最小量化間隔之比。
增量調(diào)制
FNEXT]
增量調(diào)制DM(DeltaModulation)是一種預(yù)
測編碼技術(shù)。
DM是對實(shí)際的采樣信號(hào)與預(yù)測的采樣
信號(hào)之差的極性進(jìn)行編碼,將極性變成
“0,,和“1,,這兩種可能的取值之一。如
果實(shí)際的采樣信號(hào)與預(yù)測的采樣信號(hào)之
差的極性為“正”,則用“1”表示;相
反則用“0”表示。
DM波形編碼的原理圖
NEXT
x[0]x[l]x[2]x[3]x[4]x[5]x[6]x[7]x[8]x[9]x[10]x[ll]x[12]…
?編碼輸出
三其中x[i]表示在i點(diǎn)的編碼輸出,y[i]表
:示輸入信號(hào)的實(shí)際值。
:增量調(diào)制的缺點(diǎn)
:EMU
:?一是會(huì)出現(xiàn)斜率過載,即增量調(diào)制器的
:輸出不能保持跟蹤輸入信號(hào)的快速變化
I?二是會(huì)產(chǎn)生粒狀噪聲。反饋回路輸出信
:號(hào)的最大變化速率受到量化階大小的限
:制,因?yàn)榱炕A的大小是固定的。
自適應(yīng)脈沖編碼調(diào)制《?
Baeu
?根據(jù)輸入信號(hào)幅度的均方根值的變化來改變
量化增量的一種編碼技術(shù)。
?改變量化階大小的方法有兩種:一種稱為前
向自適應(yīng)(forwardadaptation),另一種稱為后
向自適應(yīng)(backwardadaptation)。
輸入T量化器
z輸入"夏福m垣卜,輸出*輸出
?輸出量化增置適配播j
圖4.9前向自適應(yīng)圖4.10后向自適應(yīng)
-r
一
:差分脈沖編碼調(diào)制S
.EMU
:?利用樣本與樣本之間存在的
z信息冗余度來進(jìn)行編碼的一
.種數(shù)據(jù)壓縮技術(shù)。輸入率使[土
:?差分脈沖編碼調(diào)制的思想是國軻
z根據(jù)過去的辭本去估算下一
-個(gè)樣本信號(hào)的幅度大小,這--------于
:個(gè)值稱為預(yù)測值,然后對實(shí)
?際信號(hào)值與預(yù)測值之差進(jìn)行
z量化編碼,從而就減少了表
?示每個(gè)樣本信號(hào)的位數(shù)。
自適應(yīng)差分
脈沖編碼調(diào)制
?它的核心想法是:
:①利用自適應(yīng)的思想輸入LKI
z改變量化增量的大小;
?②使用過去的樣本值
:估算下一個(gè)輸入樣本
Z的預(yù)測值,使實(shí)際樣
:本值和預(yù)測值之間的
:差值總是最小。
音頻編碼標(biāo)準(zhǔn)
??ITU-TG系列聲音壓縮標(biāo)準(zhǔn)
*?MP3壓縮技術(shù)
:,MP4壓縮技術(shù)
*?樂器數(shù)字接口MIDI
ITU-TG系列
聲音壓縮標(biāo)準(zhǔn)BaeU
2?G.711
??G.722
Z?G.723
升G.728
z?G.729
--音頻編碼標(biāo)準(zhǔn)比較
:G.711
:KacL
?1972年CCITT為電話質(zhì)量和語音壓縮制
:定了PCM標(biāo)準(zhǔn)G.711。其速率為64kb/s,使
:用V律或A律的非線性量化技術(shù),主要用于
:公共電話網(wǎng)中。
G.722
BaeU
:?1988年CCITT為調(diào)幅廣播質(zhì)量的音頻信號(hào)壓縮
:制定了G.722標(biāo)準(zhǔn),它使用子帶編碼(SBC)方
Z案,其濾波器組將輸入信號(hào)分成高低兩個(gè)子
:帶信號(hào),然后分別使用ADPCM進(jìn)行編碼。
:?G.722能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號(hào)
:壓縮為64kb/s,主要用于視聽多媒體和會(huì)議電
Z視等。
G.722的主要目標(biāo)是保持64kb/s的數(shù)據(jù)率,而
;音頻信號(hào)的質(zhì)量要明顯高于G.711的質(zhì)量。
G.723
BaeU
:1996年ITU-T通過了G.723標(biāo)準(zhǔn)一“用
:于多媒體傳輸?shù)?.3kb/s或6.3kb/s雙速率話
:音編碼”。它采用多脈沖激勵(lì)最大似然量
:化(MP-MLQ)算法,此標(biāo)準(zhǔn)可應(yīng)用于可視
:電話及IP電話等系統(tǒng)中。
G.728
BaeU
為了進(jìn)一步降低壓縮的速率,CCITT
于1992年制定了G.728標(biāo)準(zhǔn),使用基于低
時(shí)延碼本激勵(lì)線性預(yù)測編碼(LD-CELP)算
法,其速率為16kb/s,主要用于公共電話
網(wǎng)中。
:G.729」
:KacL
:ITU-T于1996年3月通過了G.729標(biāo)準(zhǔn),
?它使用8kb/s的共貌結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)
?測(CS-ACELP)算法,此標(biāo)準(zhǔn)將在無線移
:動(dòng)網(wǎng)、數(shù)字多路復(fù)用系統(tǒng)和計(jì)算機(jī)通信系
:統(tǒng)中應(yīng)用。
音頻編碼標(biāo)準(zhǔn)比較.
BaeU
標(biāo)選比摘蟀繇魅應(yīng)用制定日期
G.71164kb/sPCM公共電麗72年
G.72264kb/sSBC+ADPCM撕多媒體舲議電話88.11
G.7235.3kb/s或MP-MLQ963
懶電話及IP電話等
63kM
G.72816kMLD-CELP公共電麗92.9
G.7298kb/sCS-ACELP祓移拆、計(jì)算機(jī)通信系統(tǒng)等963
MP3壓縮技術(shù)
FNEXT]
??MP3(BPMotionPictureExpertsGroup-1audio
:layer3)是近年來發(fā)展非常迅速的一種音頻文
z件格式,具有文件小、音質(zhì)佳的特點(diǎn),它利
?用MPEGAudioLayer3的技術(shù)將WAV文件再
Z加以壓縮成為標(biāo)準(zhǔn)音頻CD文件的十二分之一。
:?在一張存放16首歌曲的74分鐘的CD上,可以
:存儲(chǔ)大約160首歌曲而且能夠播放14個(gè)小時(shí)之
T多。
MPEG音頻編碼標(biāo)準(zhǔn)
NEXT
:?MPEG音頻編碼標(biāo)準(zhǔn)具有可伸縮性,根
:據(jù)采用的壓縮因子的不同可以獲得不同
:的音質(zhì)。
:?MPEG采用分層編碼方式,其層次與壓
:縮因子的關(guān)系如下表所示
1:4Layer1(相當(dāng)于384kbps立體嚴(yán)信號(hào)),
1:6...1:8Layer2(木魁于256..192kbps立體聲信號(hào)),
1:10...1:12Layer3(相當(dāng)于128..112kbps立體聲信號(hào)),
MP3的一些主要性能
BaeU
音質(zhì)帶寬模式tm¥壓縮比
電話音質(zhì)2.5kHz單聲道8kbps96:1
短波4.5kHz單聲道16kbps48:1
調(diào)幅收音機(jī)7.5kHz單聲道32kbps24:1
FM收音機(jī)11kHz雙聲道56...64kbps26...24:1
耐CD15kHz雙聲道96kbps16:1
CD>15kHz雙聲道112J28kbps14.,12:1
YV
MP4壓縮技術(shù)
FNEXT]
:?MP4采用的是美國電話電報(bào)公司(AT&T)
:所研發(fā)的、以“知覺編碼”為關(guān)鍵技術(shù)
?的a2b音樂壓縮技術(shù),可將壓縮比成功地
:提高到15:1(最大可達(dá)至1)20:1)而不影響音
X樂的實(shí)際聽感。
z?MP4在加密和授權(quán)方面也做了特別的設(shè)
T計(jì)。
:MP4的特點(diǎn)j
:KacL
??每首MP4樂曲就是一個(gè)擴(kuò)展名為.exe的
?可執(zhí)行文件
??更小的體積和更好的音質(zhì)
Z?獨(dú)特的數(shù)字水印
??支持版權(quán)保護(hù)
??比較完善的功能
樂器數(shù)字接口MIDI
FNEXT]
??MIDI是樂器數(shù)字接口(MusicalInstrument
ZDigitalInterface)的英文縮寫,是數(shù)字音樂/電
2子合成樂器的統(tǒng)一國際標(biāo)準(zhǔn)。
:?MIDI規(guī)范不僅定義了電腦音樂程序、音樂合
一成器及其它電子音樂設(shè)備交換音樂信號(hào)的方
,式,而且還規(guī)定了不同廠家的電子樂器與電
:腦連接的電纜和硬件及設(shè)備間數(shù)據(jù)傳輸?shù)膮f(xié)
:議,可用于為不同樂器創(chuàng)建數(shù)字聲音,能很
?容易地模擬鋼琴、小提琴等傳統(tǒng)樂器的聲音。
:樂器數(shù)字接口MIDI
??相對于保存真實(shí)采樣數(shù)據(jù)的聲音文件,MIDI
:文件顯得更加緊湊,其文件的大小要比WAV
X文件小得多
:-MIDI本身并不能發(fā)出聲音,它是一個(gè)協(xié)議,
:只包含用于產(chǎn)生特定聲音的指令,而這些指
*令則包括調(diào)用何種MIDI設(shè)備的音色、聲音的
Z強(qiáng)弱及持續(xù)的時(shí)間等。電腦把這些指令交由
:聲卡去合成相應(yīng)的聲音(如依指令發(fā)出鋼琴聲
?或小提琴聲等)。
Z?電腦播放MIDI文件時(shí),有兩種方法合成聲音:
?FM合成和波表合成。
Z聲音卡的組成
Z和工作原理
??聲音卡的發(fā)展歷史
??聲音卡的聲道
??聲音卡的功能
??聲音卡的工作原理
??聲音卡的選擇及應(yīng)用
:聲音卡的發(fā)展歷史
??從PC喇叭到ADLIB音樂卡
:,SoundBlaster系列
Z?SBAWE系列聲卡
??PCI聲卡
聲音卡的聲道
BaeU
...cgQia"
單聲道左聲=道.一仁:竽、.、口右聲道
/\I,、
/,、3。度:;'
立體聲r(shí)
四聲道環(huán)繞
:2。度3
5.1聲道左環(huán)繞1"
I~右環(huán)繞
圖5.155.1通道
聲音卡的功能
BaeU
5-錄制、編輯和回放數(shù)字聲音文件
三?控制各聲源的音量,并混合在一起,以
:便數(shù)字化
:■在記錄和回放數(shù)字文件時(shí)進(jìn)行壓縮和解
:壓縮,以節(jié)省存儲(chǔ)空間
:■采用語音合成技術(shù),能讓電腦朗讀文件
■
Z?MIDI接口
聲音卡的工作原理
NEXT
;?主機(jī)通過總線將數(shù)字化的聲音
主*Line輸出
.信號(hào)以PCM的方式送到數(shù)模轉(zhuǎn)換D/A
?器(D/A),將數(shù)字信號(hào)變成模擬的機(jī)功放一?耳機(jī)/揚(yáng)聲器
■音頻信號(hào)。同時(shí)又可以通過模數(shù)總麥克風(fēng)
線二A/D
:轉(zhuǎn)換器(A/D)將麥克風(fēng)或CD的輸Line輸入
.入信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),送到計(jì)
一算機(jī)進(jìn)行處理。
z?聲音處理芯片是聲卡中的核心芯片,是一個(gè)完整的音頻子系
?統(tǒng)電路,通過對音頻信號(hào)的轉(zhuǎn)換、控制、加工、處理,在個(gè)人計(jì)
?算機(jī)上實(shí)現(xiàn)聲卡的另一關(guān)鍵芯片是合成器芯片。
Z?多媒體計(jì)算機(jī)只有通過合成器才能播放MIDI文件。了較理想
,的音響效果。
三
JSoundBlasterl6的結(jié)構(gòu)框圖
NEXT
一
-三
二
二
二
三
二
二
一
一
國
MIDI合成芯片邏輯框圖
BaeU
IRQXIxo
CLKO
數(shù)
據(jù)4BCO
總定時(shí)控制器
AO,AI線時(shí)鐘?LRO
WCO
控
CS,WR,RD制
包絡(luò)線-
■FM算了T累加器]
發(fā)生器.—X—1
PDO,▼線性內(nèi)插
寄存器陣列?DO
D0-D7相位發(fā)生器LFOI值計(jì)算器
:聲音卡的選擇及應(yīng)用S
.KacL
??聲卡的兼容性
Z,音頻技術(shù)指標(biāo)
:-聲卡的使用
語音識(shí)別技術(shù)及應(yīng)用
??語音識(shí)別的發(fā)展歷史
??語音識(shí)別技術(shù)
:?語音識(shí)別系統(tǒng)的類型
??語音識(shí)別的應(yīng)用
尚待成熟的語音識(shí)別
:?就在幾年羽,語音識(shí)別(SR)還是投資界的寵兒。蟲
—場領(lǐng)導(dǎo)廠商如Dragon和LernoutHauspie(L&H)有點(diǎn)被
?熱情沖昏了頭腦。98%的準(zhǔn)確率及能夠識(shí)別10萬余字
Z的功能似乎幾個(gè)月內(nèi)就會(huì)淘汰鍵盤、甚至手寫筆。
,?許多用戶對傳聞的準(zhǔn)確率感到失望。盡管許多公司竭
Z力炒作其技術(shù)可以實(shí)現(xiàn)很高的準(zhǔn)確率,但是準(zhǔn)確率往
一往只有80%到85%。SR對許多字?jǐn)嗾氯×x,尚未解決
,標(biāo)點(diǎn)問題,似乎老是聽不懂尖聲的嗓音、感冒患者的
Z聲音及各種口音。顯然,一項(xiàng)尚在發(fā)展的技術(shù)被人誤
?傳成了“成品”。這項(xiàng)技術(shù)即使接近廠商在上世紀(jì)末
?所做的承諾,恐怕也需要許多年。
語音識(shí)別的發(fā)展歷史
FNEXT]
Z?語音識(shí)別技術(shù)的研究工作始于20世紀(jì)50年代,當(dāng)時(shí)
-AT&TBell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字
Z的語音識(shí)別系統(tǒng)一Audry系統(tǒng)。
Z?60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識(shí)別的發(fā)展。
:?70年代,語音識(shí)別領(lǐng)域取得了突破。
:?80年代,語音識(shí)別研究進(jìn)一步走向深入,其顯著特征
Z是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識(shí)別
一中的成功應(yīng)用。
Z?90年代,隨著多媒體時(shí)代的來臨,迫切要求語音識(shí)別
■系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱谩?/p>
:語音識(shí)別技術(shù)的發(fā)展.
.KacL
,如圖表示了從80年代初以來語音識(shí)別技術(shù)經(jīng)歷的從孤立詞、小詞匯
語音識(shí)別技術(shù)
BaeU
:?不同的語音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)
:節(jié)有所不同,但所采用的基本技術(shù)相似,
:它所涉及的領(lǐng)域包括:信號(hào)處理、模式
:識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽
2覺機(jī)理、人工智能等等。
Z?語音識(shí)別技術(shù)主要包括特征提取技術(shù)、
z模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。
;此外,還涉及到語音識(shí)別單元的選取。
典型語音識(shí)別系統(tǒng)
的實(shí)現(xiàn)過程
識(shí)別結(jié)果
:語音識(shí)別單元的選取.
:KacL
Z?選擇識(shí)別單元是語音識(shí)別研究的第一步
:?語音識(shí)別單元有單詞(句)、音節(jié)和音素三
Z種
:-單詞單元廣泛應(yīng)用于中小詞匯語音識(shí)別系統(tǒng)
:?音節(jié)單元多見于漢語語音識(shí)別
:-音素單元以前多見于英語語音識(shí)別的研究中,
Z但目前中、大詞匯量漢語語音識(shí)別系統(tǒng)也在
T越來越多地采用
特征參數(shù)提取技術(shù)
FNEXT]
:?語音信號(hào)中含有豐富的信息,這些信息
:稱為語音信號(hào)的聲學(xué)特征
二?特征提取是對語音信號(hào)進(jìn)行分析處理,
:去除對語音識(shí)別無關(guān)緊要的冗余信息,
:獲得影響語音識(shí)別的重要信息
:?由于語音信號(hào)的時(shí)變特性,特征提取必
:須在一小段語音信號(hào)上進(jìn)行,也即進(jìn)行
■短講分析
:常用的一些聲學(xué)特征.
.KacL
??線性預(yù)測系數(shù)LPC
??倒譜系數(shù)CEP
**Mel倒譜系數(shù)MFCC和感知線性預(yù)測PLP
:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國鍍膜玻璃市場發(fā)展動(dòng)態(tài)及投資規(guī)劃研究報(bào)告
- 2025-2030年中國鋰精礦行業(yè)競爭格局規(guī)劃分析報(bào)告
- 2025-2030年中國鉑金首飾市場運(yùn)營狀況及發(fā)展前景分析報(bào)告
- 2025-2030年中國軌道交通牽引變流器行業(yè)運(yùn)營狀況與發(fā)展?jié)摿Ψ治鰣?bào)告
- 2025-2030年中國箱紙板行業(yè)運(yùn)行動(dòng)態(tài)與發(fā)展建議分析報(bào)告
- 2025貴州省建筑安全員C證考試題庫
- 2025-2030年中國硫氰酸鈉市場運(yùn)營現(xiàn)狀及發(fā)展規(guī)劃分析報(bào)告
- 撫順職業(yè)技術(shù)學(xué)院《安裝工程計(jì)量與計(jì)價(jià)》2023-2024學(xué)年第二學(xué)期期末試卷
- 伊春職業(yè)學(xué)院《平面制圖設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 隨州職業(yè)技術(shù)學(xué)院《科技文本翻譯》2023-2024學(xué)年第二學(xué)期期末試卷
- 中職歷史教學(xué)計(jì)劃
- NB-T+10499-2021水電站橋式起重機(jī)選型設(shè)計(jì)規(guī)范
- 六年級美術(shù)下冊全冊教案(浙美版)
- JT∕T 795-2023 事故汽車修復(fù)技術(shù)規(guī)范
- 湘教版二年級下冊美術(shù)教案
- 天津在津居住情況承諾書
- 2022年中考數(shù)學(xué)二輪專題復(fù)習(xí):二次函數(shù)性質(zhì)綜合題
- 男生青春期生理教育
- 現(xiàn)代漢語(黃伯榮、廖序東版)課件-第四章語法課件
- 統(tǒng)編版小學(xué)語文五年級下冊第四單元解讀與大單元設(shè)計(jì)思路
- 壓瘡護(hù)理質(zhì)控反饋
評論
0/150
提交評論