語(yǔ)音處理基礎(chǔ)大作業(yè)報(bào)告書(shū)_第1頁(yè)
語(yǔ)音處理基礎(chǔ)大作業(yè)報(bào)告書(shū)_第2頁(yè)
語(yǔ)音處理基礎(chǔ)大作業(yè)報(bào)告書(shū)_第3頁(yè)
語(yǔ)音處理基礎(chǔ)大作業(yè)報(bào)告書(shū)_第4頁(yè)
語(yǔ)音處理基礎(chǔ)大作業(yè)報(bào)告書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

西安郵電大學(xué)語(yǔ)音處理基礎(chǔ)大作業(yè)報(bào)告書(shū)學(xué)院名稱(chēng):學(xué)生姓名:專(zhuān)業(yè)名稱(chēng):班級(jí): 一雙音多頻信號(hào)的檢測(cè)雙音多頻(DualToneMultiFrequency,DTMF)信號(hào)是音頻電話(huà)中的撥號(hào)信號(hào),由美國(guó)AT&T貝爾公司實(shí)驗(yàn)室研制,并用于電話(huà)網(wǎng)絡(luò)中。這種信號(hào)制式具有很高的撥號(hào)速度,且容易自動(dòng)監(jiān)測(cè)識(shí)別,很快就代替了原有的用脈沖計(jì)數(shù)方式的撥號(hào)制式。這種雙音多頻信號(hào)制式不僅用在電話(huà)網(wǎng)絡(luò)中,還可以用于傳輸十進(jìn)制數(shù)據(jù)的其它通信系統(tǒng)中,用于電子郵件和銀行系統(tǒng)中。這些系統(tǒng)中用戶(hù)可以用電話(huà)發(fā)送DTMF信號(hào)選擇語(yǔ)音菜單進(jìn)行操作。DTMF信號(hào)系統(tǒng)是一個(gè)典型的小型信號(hào)處理系統(tǒng),它要用數(shù)字方法產(chǎn)生模擬信號(hào)并進(jìn)行傳輸,其中還用到了D/A變換器;在接收端用A/D變換器將其轉(zhuǎn)換成數(shù)字信號(hào),并進(jìn)行數(shù)字信號(hào)處理與識(shí)別。為了系統(tǒng)的檢測(cè)速度并降低成本,還開(kāi)發(fā)一種特殊的DFT算法,稱(chēng)為戈澤爾(Goertzel)算法,這種算法既可以用硬件(專(zhuān)用芯片)實(shí)現(xiàn),也可以用軟件實(shí)現(xiàn)。下面首先介紹雙音多頻信號(hào)的產(chǎn)生方法和檢測(cè)方法,包括戈澤爾算法,最后進(jìn)行模擬實(shí)驗(yàn)。一、實(shí)驗(yàn)內(nèi)容:在電話(huà)中,數(shù)字0~9的中每一個(gè)都用兩個(gè)不同的單音頻傳輸,所用的8個(gè)頻率分成高頻帶和低頻帶兩組,低頻帶有四個(gè)頻率:679Hz,770Hz,852Hz和941Hz;高頻帶也有四個(gè)頻率:1209Hz,1336Hz,1477Hz和1633Hz.。每一個(gè)數(shù)字均由高、低頻帶中各一個(gè)頻率構(gòu)成,DTMF信號(hào)的生成是通過(guò)將兩個(gè)有限長(zhǎng)數(shù)字序列相加而實(shí)現(xiàn);而對(duì)DTMF信號(hào)的檢測(cè)是通過(guò)計(jì)算DTMF信號(hào)的DFT;然后測(cè)量在給定8個(gè)頻率上的能量而實(shí)現(xiàn)。已知采樣頻率為8KHZ,DTMF信號(hào)點(diǎn)數(shù)N=205,對(duì)DTMF信號(hào)進(jìn)行205點(diǎn)的DFT。右表為DTMF數(shù)字。1209HZ1336HZ1447HZ1663HZ1697HZ123A2770HZ456B3852HZ789C4941HZ*0#DDTMF信號(hào)在電話(huà)中有兩種作用,一個(gè)是用撥號(hào)信號(hào)去控制交換機(jī)接通被叫的用戶(hù)電話(huà)機(jī),另一個(gè)作用是控制電話(huà)機(jī)的各種動(dòng)作,如播放留言、語(yǔ)音信箱等。要求:1,通過(guò)鍵盤(pán)任意輸入16個(gè)鍵之一,生成DTMF信號(hào)。2。試實(shí)現(xiàn)對(duì)該輸入信號(hào)的檢測(cè),并在屏幕上顯示。3。試從計(jì)算量角度考慮為什么采用DFT進(jìn)行DTMF信號(hào)檢測(cè)。4。判斷出每個(gè)頻率對(duì)應(yīng)的DFT的頻率采樣點(diǎn)。二、實(shí)驗(yàn)?zāi)康模簩?duì)DTMF信號(hào)的生成及其檢測(cè)有所了解,進(jìn)一步對(duì)DFT的定義、物理意義及基本性質(zhì)有深入了解。三、實(shí)驗(yàn)原理:DFT(離散傅立葉變換)的定義:X(K)=∑x(n)WknN,k=0,1,…,N-1IDFT(離散傅立葉逆變換)的定義:x(n)=1/N(∑X(K)W-knN,n=0,1,…,N-1DFT變換具有周期性、線(xiàn)性、循環(huán)卷積等性質(zhì)。其最重要性質(zhì)共軛對(duì)稱(chēng)性,其性質(zhì)如下:設(shè)x(n)是長(zhǎng)度為N的實(shí)序列,且X(K)=DFT【x(n)】,則(1.)X(K)共軛對(duì)稱(chēng),即X(K)=X*(N-K),0≤k≤N-1(2.)如果x(n)=x(N-n),則X(K)實(shí)偶對(duì)稱(chēng),即X(K)=X(N-K)(3.)如果x(n)=-x(N-n),則X(K)純虛奇對(duì)稱(chēng),即X(K)=-X(N-K)利用共軛對(duì)稱(chēng)性可以減少運(yùn)算量。四、實(shí)驗(yàn)步驟:(1)確定從鍵盤(pán)上輸入的字母。方法通過(guò)其字母的ASCII值來(lái)判斷(采用for循環(huán)嵌套)。(2)DTMF信號(hào)的產(chǎn)生。DTMF信號(hào)的生成是通過(guò)有限長(zhǎng)數(shù)字序列的相加而實(shí)現(xiàn),通過(guò)兩個(gè)頻率確定唯一的字母,用該兩個(gè)信號(hào)相加實(shí)現(xiàn)DTMF信號(hào)。(3)DTMF信號(hào)得到DFT變化。先對(duì)該信號(hào)進(jìn)行205點(diǎn)上的DFT變換,然后進(jìn)行固定點(diǎn)上DFT的提取,并輸出該點(diǎn)上的DFT的幅值。(4)從輸出幅值判斷輸入字母。制定一個(gè)判斷標(biāo)準(zhǔn),通過(guò)該判斷標(biāo)準(zhǔn)得出相應(yīng)的行與列,進(jìn)而確定該點(diǎn)的ASCII值,輸出對(duì)應(yīng)的字母。五、程序框圖:開(kāi)始開(kāi)始鍵盤(pán)輸入字母鍵盤(pán)輸入字母For循環(huán)確定p\qFor循環(huán)確定p\qDTMF信號(hào)的生成及圖形DTMF信號(hào)的生成及圖形DTMF信號(hào)的DFT變換DTMF信號(hào)的DFT變換8定點(diǎn)頻率上DFT圖形8定點(diǎn)頻率上DFT圖形通過(guò)判斷標(biāo)準(zhǔn)確定行、列,輸出相應(yīng)字母通過(guò)判斷標(biāo)準(zhǔn)確定行、列,輸出相應(yīng)字母結(jié)束結(jié)束六、源程序:closeall;clearall;clc;f1=697;f2=770;f3=852;f4=941;f5=1209;f6=1336;f7=1447;f8=1663;fs=8000;n=1:205;while(1)while(1)clcflag=0;disp('1209133614471663');disp('697123A');disp('770456B');disp('852789C');disp('941*0#D');disp('');disp('');in_key=input('請(qǐng)輸入按鍵','s');disp('');disp('');switchin_keycase['1']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f5/fs);case['2']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f6/fs);case['3']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f7/fs);case['A']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f8/fs);case['4']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f5/fs);case['5']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f6/fs);case['6']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f7/fs);case['B']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f8/fs);case['7']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f5/fs);case['8']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f6/fs);case['9']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f7/fs);case['C']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f8/fs);case['*']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f5/fs);case['0']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f6/fs);case['#']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f7/fs);case['D']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f8/fs);otherwiseflag=1;clc;disp('');disp('你輸入按鍵錯(cuò)誤');disp('');disp('');temp=input('是否要繼續(xù)Y|y---是N|n--否','s');disp('');if(temp==['n']|temp==['N'])flag=0;endend;if(flag==0)break;endendxn=x1+x2;xk=fft(xn,205);%對(duì)x(n)做采樣點(diǎn)數(shù)為205點(diǎn)的fft變換%k=0:204;%figure('name','實(shí)驗(yàn)五');subplot(311);plot(n,xn);xlabel('n');ylabel('xn');grid;subplot(312);stem(k,xk(1:205));%繪制以k為x軸,xk(1:205)為y軸的離散序列圖%xlabel('k');ylabel('xk');grid;xk=abs(xk);%作xk的絕對(duì)值%max1=1;xmax1=xk(1);max2=1;xmax2=xk(1);form=1:60if(xmax1<xk(m))xmax1=xk(m);max1=m;endendform=1:60if(xmax2<xk(m)&m~=max1)xmax2=xk(m);max2=m;endendmax1=max1-1;max2=max2-1;if(max1>max2)k=max1;max1=max2;max2=k;enddisp('');disp('');disp('------------------------經(jīng)過(guò)傳輸后知道如下--------------------------------');switchmax1case18switchmax2case31disp('你輸入的是-------1');a=[max1max2];b=[6971209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------2');a=[max1max2];b=[6971336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------3');a=[max1max2];b=[6971447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43 disp('你輸入的是-------A');a=[max1max2];b=[6971663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase20switchmax2case31disp('你輸入的是-------4');a=[max1max2];b=[7701209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------5');a=[max1max2];b=[7701336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------6');a=[max1max2];b=[7701447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你輸入的是-------B');a=[max1max2];b=[7701663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase22switchmax2case31disp('你輸入的是-------7');a=[max1max2];b=[8521209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------8');a=[max1max2];b=[8521336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------9');a=[max1max2];b=[8521447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你輸入的是-------C');a=[max1max2];b=[8521663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase24switchmax2case31disp('你輸入的是-------*');a=[max1max2];b=[9411209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------0');a=[max1max2];b=[9411336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------#');a=[max1max2];b=[9411447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你輸入的是-------D');a=[max1max2];b=[9411663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endenddisp('');;shdisp('');disp('');temp=input('是否要繼續(xù)按鍵Y|y---是N|n--退出','s');if(temp==['n']|temp==['N'])break;;enddisp('');end七、程序結(jié)果及圖表:a=input('輸入數(shù)字=','s');sm=abs(a);%輸入數(shù)字的ASCII值pm=[49505165;52535466;55565767;42483568];%給出圖表字母的相應(yīng)ASCII值矩陣forp=1:4;forq=1:4;ifpm(p,q)==sm;break,endendifpm(p,q)==sm;break,endend%通過(guò)兩個(gè)for循環(huán)判斷鍵盤(pán)輸入字母的具體行和列fprintf('ASCII碼值A(chǔ)M=%0.f\n',pm(p,q))f1=[697770852941];f2=[1209133614471663];n=0:204;x=sin(2*pi*n*f1(p)/8000)+sin(2*pi*n*f2(q)/8000);%DTMF信號(hào)的生成figure('color','g');subplot(211);plot(x);xlabel('n');ylabel('x');title('DTMF信號(hào)');k=[1820222431343843];%給出8個(gè)頻率點(diǎn)va=zeros(1,8);%生成一個(gè)1行8列的零矩陣form=1:8;Fx(m)=gfft(x,205,k(m));%對(duì)信號(hào)x進(jìn)行205點(diǎn)上DFT變換,再取和k對(duì)應(yīng)的8點(diǎn)上DFT變化并相應(yīng)的放入Fx(m)endva=abs(Fx);subplot(212);stem(k,va);xlabel('k');ylabel('|X(k)|');l1=80;l2=7.8;%判斷標(biāo)準(zhǔn)fors=5:8;ifva(s)>l2;break,endendforr=1:4;ifva(r)>l1;break,endend%通過(guò)判斷標(biāo)準(zhǔn)判斷出相應(yīng)的行和列disp(['撥號(hào)符號(hào)=',setstr(pm(r,s-4))])%輸出判斷出的相應(yīng)行、列ASCII值矩陣對(duì)應(yīng)的符號(hào)結(jié)果及圖示如下:輸入數(shù)字=1,ASCII碼值A(chǔ)M=,49撥號(hào)符號(hào)=1 圖一輸入數(shù)字,=2ASCII碼值A(chǔ)M=50撥號(hào)符號(hào),=2圖二比較以上兩圖,每幅圖的上面均為該字母所對(duì)應(yīng)的兩固定頻率所產(chǎn)生的DTMF信號(hào),且它們只是205點(diǎn)上的離散信號(hào),下圖是對(duì)該字母DTMF信號(hào)x進(jìn)行205點(diǎn)上DFT變換,再取和k對(duì)應(yīng)的8點(diǎn)(1820222431343843)上DFT變化的幅值,其中前4點(diǎn)決定該字母所在原矩陣中的行,后4點(diǎn)決定該字母所在原矩陣中的列,該圖也證明了前四點(diǎn)表示的意義。輸入數(shù)字=4ASCII碼值A(chǔ)M=52 圖三撥號(hào)符號(hào)=4比較圖一、圖三,可以看出后四點(diǎn)表示的是字母所在原矩陣中的列,該圖也證明了后四點(diǎn)表示的意義。以上三幅圖均證明了程序的正確。因?yàn)椴蓸宇l率是8000Hz,因此要求每125ms輸出一個(gè)樣本,得到的序列再送到D/A變換器和平滑濾波器,輸出便是連續(xù)時(shí)間的DTMF信號(hào)。DTMF信號(hào)通過(guò)電話(huà)線(xiàn)路送到交換機(jī)。基于Goertzel算法的雙音多頻信號(hào)檢測(cè)在接收端,要對(duì)收到的雙音多頻信號(hào)進(jìn)行檢測(cè),檢測(cè)兩個(gè)正弦波的頻率是多少,以判斷所對(duì)應(yīng)的十進(jìn)制數(shù)字或者符號(hào)。顯然這里仍然要用數(shù)字方法進(jìn)行檢測(cè),因此要將收到的時(shí)間連續(xù)DTMF信號(hào)經(jīng)過(guò)A/D變換,變成數(shù)字信號(hào)進(jìn)行檢測(cè)。檢測(cè)的方法有兩種,一種是用一組濾波器提取所關(guān)心的頻率,根據(jù)有輸出信號(hào)的2個(gè)濾波器判斷相應(yīng)的數(shù)字或符號(hào)。另一種是用DFT(FFT)對(duì)雙音多頻信號(hào)進(jìn)行頻譜分析,由信號(hào)的幅度譜,判斷信號(hào)的兩個(gè)頻率,最后確定相應(yīng)的數(shù)字或符號(hào)。當(dāng)檢測(cè)的音頻數(shù)目較少時(shí),用濾波器組實(shí)現(xiàn)更合適。FFT是DFT的快速算法,但當(dāng)DFT的變換區(qū)間較小時(shí),F(xiàn)FT快速算法的效果并不明顯,而且還要占用很多內(nèi)存,因此不如直接用DFT合適。下面介紹Goertzel算法,這種算法的實(shí)質(zhì)是直接計(jì)算DFT的一種線(xiàn)性濾波方法。這里略去Goertzel算法的介紹,可以直接調(diào)用MATLAB信號(hào)處理工具箱中戈澤爾算法的函數(shù)Goertzel,計(jì)算N點(diǎn)DFT的幾個(gè)感興趣的頻點(diǎn)的值。二語(yǔ)音合成與語(yǔ)音識(shí)別語(yǔ)音識(shí)別的發(fā)展歷史早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語(yǔ)音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識(shí)別及合成的雛形。而1920年代生產(chǎn)的"RadioRex"玩具狗可能是最早的語(yǔ)音識(shí)別器,當(dāng)這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來(lái)。最早的基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)是由AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字。其識(shí)別方法是跟蹤語(yǔ)音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學(xué)院(ColledgeofLondon)的Denes已經(jīng)將語(yǔ)法概率加入語(yǔ)音識(shí)別中。1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。這一時(shí)代的兩大突破是線(xiàn)性預(yù)測(cè)編碼LinearPredictiveCoding(LPC),及動(dòng)態(tài)時(shí)間彎折DynamicTimeWarp技術(shù)。語(yǔ)音識(shí)別技術(shù)的最重大突破是隱含馬爾科夫模型HiddenMarkovModel的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過(guò)Labiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開(kāi)復(fù)最終實(shí)現(xiàn)了第一個(gè)基于隱馬爾科夫模型的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx。[1]。此后嚴(yán)格來(lái)說(shuō)語(yǔ)音識(shí)別技術(shù)并沒(méi)有脫離HMM框架。盡管多年來(lái)研究人員一直嘗試將“聽(tīng)寫(xiě)機(jī)”推廣,語(yǔ)音識(shí)別技術(shù)在目前還無(wú)法支持無(wú)限領(lǐng)域,無(wú)限說(shuō)話(huà)人的聽(tīng)寫(xiě)機(jī)應(yīng)用。語(yǔ)音識(shí)別概述語(yǔ)音識(shí)別技術(shù),也被稱(chēng)為自動(dòng)語(yǔ)音識(shí)別AutomaticSpeechRecognition,(ASR),其目標(biāo)是將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話(huà)人識(shí)別及說(shuō)話(huà)人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話(huà)人而非其中所包含的詞匯內(nèi)容。語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫(xiě)數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語(yǔ)音到語(yǔ)音的翻譯。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。語(yǔ)音合成語(yǔ)音是信息傳播的一大媒介。近年來(lái),提供語(yǔ)音服務(wù)的語(yǔ)音系統(tǒng)迅速發(fā)展起來(lái)。傳統(tǒng)的語(yǔ)音系統(tǒng)一般采用預(yù)錄音回放技術(shù),由于這種方法必須對(duì)信息文本事先進(jìn)行錄音,并存為聲音文件,因此,所占用的存儲(chǔ)空間很大。另外,一個(gè)更大的缺點(diǎn)是不能實(shí)時(shí)反映信息的更新,應(yīng)用范圍有很大的局限性?,F(xiàn)在的語(yǔ)音合成技術(shù),無(wú)需對(duì)大量的信息進(jìn)行錄音,極大地減少了工作量和節(jié)省了存儲(chǔ)空間,尤其是在信息內(nèi)容需要經(jīng)常變動(dòng)的動(dòng)態(tài)查詢(xún)場(chǎng)合,如股市行情查詢(xún)、有聲Email系統(tǒng),都是傳統(tǒng)的預(yù)錄音技術(shù)無(wú)法代勞的。結(jié)合其他技術(shù),語(yǔ)音合成技術(shù)可以廣泛應(yīng)用于金融、郵電、工商、政府機(jī)關(guān)、交通、教育、游戲等領(lǐng)域。傳統(tǒng)的語(yǔ)音系統(tǒng)恢復(fù)語(yǔ)音回放恢復(fù)語(yǔ)音回放錄音Wav語(yǔ)音壓縮編碼語(yǔ)音壓縮編碼語(yǔ)音信號(hào)的參數(shù)合成根據(jù)語(yǔ)音產(chǎn)生的數(shù)學(xué)模型,利用短時(shí)平穩(wěn)性,提出每幀語(yǔ)音信號(hào)的參數(shù),這些參數(shù)經(jīng)編碼后組成一個(gè)語(yǔ)音參數(shù)庫(kù)。輸出時(shí),從語(yǔ)音參數(shù)庫(kù)中取出相應(yīng)的參數(shù),利用語(yǔ)音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語(yǔ)音。共振峰合成和線(xiàn)性預(yù)測(cè)合成是該類(lèi)合成技術(shù)中的重要方法。直接錄放流程回放錄音回放錄音Wav語(yǔ)音壓縮編碼語(yǔ)音壓縮編碼波形合成方法挑選組合挑選組合語(yǔ)音庫(kù)(語(yǔ)音單元)語(yǔ)音的波形編碼回放 合成語(yǔ)音語(yǔ)音信號(hào)的規(guī)則合成將任意文本轉(zhuǎn)換成聲音的系統(tǒng)。包括語(yǔ)言學(xué)和聲學(xué)處理。合成的詞匯不是事先確定。常見(jiàn)的就是文語(yǔ)轉(zhuǎn)換合成技術(shù)。系統(tǒng)中存儲(chǔ)的是音素的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子的規(guī)則;控制音調(diào)、輕重音等韻律的各種規(guī)則。在波形合成法中,也可以使用波形編碼技術(shù)略微壓縮一些存儲(chǔ)量。通常情況下,波形合成法可以合成的語(yǔ)音詞匯量約在500以下,而參數(shù)合成法則可以達(dá)到數(shù)千左右。當(dāng)然,在參數(shù)合成時(shí),由于抽取參數(shù)或編碼過(guò)程中,難免存在逼近誤差,所以合成的語(yǔ)音質(zhì)量(清晰度)也就比波形合成法要差一些了。在語(yǔ)音合成中,另一個(gè)重要問(wèn)題就是合成基元的選擇問(wèn)題,也就是存儲(chǔ)的語(yǔ)音基元的選擇問(wèn)題。顯然,合成詞匯量越大,必須采用越小的基元,否則存儲(chǔ)量就太大了;反之,合成詞匯量越小,可用較大的基元。例如在英語(yǔ)中,詞的數(shù)量有千千萬(wàn)萬(wàn),但是音素質(zhì)有成百個(gè)。因此存儲(chǔ)全部詞的容量遠(yuǎn)遠(yuǎn)大于存儲(chǔ)全部音素的容量。但是我們知道,基元越大,合成的語(yǔ)音自然度就越好。例如存儲(chǔ)的是整個(gè)句子的語(yǔ)音波形或參數(shù),則合成的語(yǔ)音在該句范圍內(nèi),合成語(yǔ)音的自然度就接近于原始語(yǔ)音,不會(huì)有那種不連貫的機(jī)器味。通常,在波形合成法中,由于合成的是有限長(zhǎng)度的語(yǔ)音,甚至可以用整個(gè)句子作為合成基元,但是在參數(shù)合成法中,則不得不用字至多也只能用詞作為合成基元。語(yǔ)音合成技術(shù)可以分為四類(lèi):1.波形編碼合成方法2.參數(shù)式分析合成方法3.規(guī)則合成方法4.文-語(yǔ)轉(zhuǎn)換無(wú)論波形合成法或是參數(shù)合成法,其原理都等同于語(yǔ)音通信的語(yǔ)音編碼或聲碼器中的接收端的工作過(guò)程,只是現(xiàn)在沒(méi)有從信道送來(lái)的參數(shù)與編碼的序列,而代之以從分析或變換得到的存儲(chǔ)在語(yǔ)音庫(kù)中的參數(shù)或碼序列。共振峰式語(yǔ)音合成器語(yǔ)音的規(guī)則合成這種合成方法以通過(guò)語(yǔ)音學(xué)規(guī)則來(lái)產(chǎn)生任何語(yǔ)音為目的,規(guī)則合成系統(tǒng)存儲(chǔ)的是較小的語(yǔ)音單位的聲學(xué)參數(shù)以及由音素組成音節(jié),再由音節(jié)組成詞或句子的各種規(guī)則。當(dāng)輸入字母符號(hào)時(shí),合成系統(tǒng)利用規(guī)則自動(dòng)將它們轉(zhuǎn)換為連續(xù)的語(yǔ)音聲波。由于語(yǔ)音中存在協(xié)同發(fā)聲效應(yīng),單獨(dú)存在的元音和輔音與連續(xù)發(fā)音中的元音和輔音不同,所以合成規(guī)則是在分析每一語(yǔ)音單元出現(xiàn)在不同環(huán)境中的協(xié)同發(fā)音后,歸納其規(guī)律而制定的如共振峰的頻率規(guī)則、時(shí)長(zhǎng)規(guī)則、聲調(diào)和語(yǔ)調(diào)規(guī)則等。與分析合成方法相比,規(guī)則合成方法的語(yǔ)音庫(kù)的存儲(chǔ)量更小,這是以犧牲音質(zhì)為代價(jià)的,這種方式涉及到許多語(yǔ)音學(xué)和語(yǔ)音學(xué)模型,系統(tǒng)結(jié)構(gòu)復(fù)雜。目前合成規(guī)則還不完善,合成音質(zhì)一般較差。語(yǔ)音識(shí)別語(yǔ)音識(shí)別是指從語(yǔ)音到文本的轉(zhuǎn)換,即讓計(jì)算機(jī)能夠把人發(fā)出的有意義的話(huà)音變成書(shū)面語(yǔ)言。通俗地說(shuō)就是讓機(jī)器能夠聽(tīng)懂人說(shuō)的話(huà)。所謂聽(tīng)懂,有兩層意思,一是指把用戶(hù)所說(shuō)的話(huà)逐詞逐句轉(zhuǎn)換成文本;二是指正確理解語(yǔ)音中所包含的要求,作出正確的應(yīng)答。語(yǔ)音識(shí)別的模型目前,主流的大詞匯量語(yǔ)音識(shí)別系統(tǒng)多采用統(tǒng)計(jì)模式識(shí)別技術(shù)。典型的基于統(tǒng)計(jì)模式識(shí)別方法的語(yǔ)音識(shí)別系統(tǒng)由以下幾個(gè)基本模塊所構(gòu)成信號(hào)處理及特征提取模塊。該模塊的主要任務(wù)是從輸入信號(hào)中提取特征,供聲學(xué)模型處理。同時(shí),它一般也包括了一些信號(hào)處理技術(shù),以盡可能降低環(huán)境噪聲、信道、說(shuō)話(huà)人等因素對(duì)特征造成的影響。統(tǒng)計(jì)聲學(xué)模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進(jìn)行建模。發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實(shí)際提供了聲學(xué)模型建模單元與語(yǔ)言模型建模單元間的映射。語(yǔ)言模型。語(yǔ)言模型對(duì)系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。理論上,包括正則語(yǔ)言,上下文無(wú)關(guān)文法在內(nèi)的各種語(yǔ)言模型都可以作為語(yǔ)言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計(jì)的N元文法及其變體。解碼器。解碼器是語(yǔ)音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對(duì)輸入的信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。從數(shù)學(xué)角度可以更加清楚的了解上述模塊之間的關(guān)系。首先,統(tǒng)計(jì)語(yǔ)音識(shí)別的最基本問(wèn)題是,給定輸入信號(hào)或特征序列,符號(hào)集(詞典),求解符號(hào)串使得:W=argmaxP(W|O)通過(guò)貝葉斯公式,上式可以改寫(xiě)為由于對(duì)于確定的輸入串O,P(O)是確定的,因此省略它并不會(huì)影響上式的最終結(jié)果,因此,一般來(lái)說(shuō)語(yǔ)音識(shí)別所討論的問(wèn)題可以用下面的公式來(lái)表示,可以將它稱(chēng)為語(yǔ)音識(shí)別的基本公式。W=argmaxP(O|W)P(W)從這個(gè)角度來(lái)看,信號(hào)處理模塊提供了對(duì)輸入信號(hào)的預(yù)處理,也就是說(shuō),提供了從采集的語(yǔ)音信號(hào)(記為S)到特征序列O的映射。而聲學(xué)模型本身定義了一些更具推廣性的聲學(xué)建模單元,并且提供了在給定輸入特征下,估計(jì)P(O|uk)的方法。為了將聲學(xué)模型建模單元串映射到符號(hào)集,就需要發(fā)音詞典發(fā)揮作用。它實(shí)際上定義了映射的映射。為了表示方便,也可以定義一個(gè)由到U的全集的笛卡爾積,而發(fā)音詞典則是這個(gè)笛卡爾積的一個(gè)子集。并且有:最后,語(yǔ)言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫(xiě)成:對(duì)于解碼器來(lái)所,就是要在由,,ui以及時(shí)間標(biāo)度t張成的搜索空間中,找到上式所指明的W。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán),通過(guò)語(yǔ)音命令進(jìn)行操作。語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。語(yǔ)音識(shí)別聽(tīng)寫(xiě)機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專(zhuān)家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語(yǔ)音識(shí)別的發(fā)展歷史國(guó)外研究歷史及發(fā)展語(yǔ)音識(shí)別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開(kāi)展研究則是在60年代末70年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語(yǔ)音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語(yǔ)音信號(hào)線(xiàn)性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效的解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)匹配問(wèn)題。這一時(shí)期的語(yǔ)音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識(shí)別,實(shí)現(xiàn)了基于線(xiàn)性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語(yǔ)音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對(duì)語(yǔ)音識(shí)別的約束條件需要放寬,與此同時(shí)也帶來(lái)了許多新的問(wèn)題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語(yǔ)音中,各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識(shí)別時(shí),不同的人說(shuō)相同的話(huà)相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說(shuō)同樣內(nèi)容的話(huà)也會(huì)有很大的差異;第四,識(shí)別的語(yǔ)音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。實(shí)驗(yàn)室語(yǔ)音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)。這一時(shí)期,語(yǔ)音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語(yǔ)音識(shí)別技術(shù)的主流。統(tǒng)計(jì)方法將研究者的視線(xiàn)從微觀轉(zhuǎn)向宏觀,不再刻意追求語(yǔ)音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來(lái)建立最佳的語(yǔ)音識(shí)別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語(yǔ)音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語(yǔ)音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語(yǔ)音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語(yǔ)言層面上,通過(guò)統(tǒng)計(jì)真實(shí)大規(guī)模語(yǔ)料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來(lái)區(qū)分識(shí)別帶來(lái)的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語(yǔ)言處理機(jī)制等也在語(yǔ)音識(shí)別中得到了應(yīng)用。國(guó)內(nèi)研究歷史及現(xiàn)狀我國(guó)語(yǔ)音識(shí)別研究工作起步于五十年代,但近年來(lái)發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開(kāi)始執(zhí)行國(guó)家863計(jì)劃后,國(guó)家863智能計(jì)算機(jī)專(zhuān)家組為語(yǔ)音識(shí)別技術(shù)研究專(zhuān)門(mén)立項(xiàng),每?jī)赡隄L動(dòng)一次。我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,在漢語(yǔ)語(yǔ)音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國(guó)科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過(guò)語(yǔ)音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。清華大學(xué)電子工程系語(yǔ)音技術(shù)與專(zhuān)用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語(yǔ)數(shù)碼串連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長(zhǎng)數(shù)字串)和96.8%(定長(zhǎng)數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長(zhǎng)數(shù)字串)和98.7%(定長(zhǎng)數(shù)字串),這是目前國(guó)際最好的識(shí)別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率達(dá)到98.73%,前三選識(shí)別率達(dá)99.96%;并且可以識(shí)別普通話(huà)與四川話(huà)兩種語(yǔ)言,達(dá)到實(shí)用要求。中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品——PattekASR,結(jié)束了中文語(yǔ)音識(shí)別產(chǎn)品自1998年以來(lái)一直由國(guó)外公司壟斷的歷史。語(yǔ)音識(shí)別的分類(lèi)針對(duì)說(shuō)話(huà)方式:孤立詞識(shí)別和連續(xù)語(yǔ)音識(shí)別針對(duì)識(shí)別環(huán)境:實(shí)驗(yàn)室環(huán)境語(yǔ)音識(shí)別、電話(huà)語(yǔ)音識(shí)別和廣播語(yǔ)音識(shí)別針對(duì)說(shuō)話(huà)人:特定說(shuō)話(huà)人語(yǔ)音識(shí)別和非特定說(shuō)話(huà)人語(yǔ)音識(shí)別針對(duì)詞匯量:小詞匯量、中詞匯量和大詞匯量的識(shí)別語(yǔ)音識(shí)別系統(tǒng)的分類(lèi)語(yǔ)音識(shí)別系統(tǒng)可以根據(jù)對(duì)輸入語(yǔ)音的限制加以分類(lèi)。如果從說(shuō)話(huà)者與識(shí)別系統(tǒng)的相關(guān)性考慮,可以將識(shí)別系統(tǒng)分為3類(lèi):(1)特定人語(yǔ)音識(shí)別系統(tǒng):僅考慮對(duì)于專(zhuān)人的話(huà)音進(jìn)行識(shí)別;(2)非特定人語(yǔ)音系統(tǒng):識(shí)別的語(yǔ)音與人無(wú)關(guān),通常要用大量不同人的語(yǔ)音數(shù)據(jù)庫(kù)對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí);(3)多人的識(shí)別系統(tǒng):通常能識(shí)別一組人的語(yǔ)音,或者成為特定組語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語(yǔ)音進(jìn)行訓(xùn)練。如果從說(shuō)話(huà)的方式考慮,也可以將識(shí)別系統(tǒng)分為3類(lèi):(1)孤立詞語(yǔ)音識(shí)別系統(tǒng):孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓;(2)連接詞語(yǔ)音識(shí)別系統(tǒng):連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開(kāi)始出現(xiàn);(3)連續(xù)語(yǔ)音識(shí)別系統(tǒng):連續(xù)語(yǔ)音輸入是自然流利的連續(xù)語(yǔ)音輸入,大量連音和變音會(huì)出現(xiàn)。如果從識(shí)別系統(tǒng)的詞匯量大小考慮,也可以將識(shí)別系統(tǒng)分為3類(lèi):(1)小詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。(2)中等詞匯量的語(yǔ)音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。(3)大詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾千到幾萬(wàn)個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類(lèi)也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng)到將來(lái)可能就是小詞匯量的語(yǔ)音識(shí)別系統(tǒng)。這些不同的限制也確定了語(yǔ)音識(shí)別系統(tǒng)的困難度。語(yǔ)音識(shí)別原理框圖失真測(cè)度歐氏距離失真測(cè)度 似然比測(cè)度語(yǔ)音信號(hào)判決測(cè)度估計(jì)聲學(xué)參數(shù)分析預(yù)處理輸入識(shí)別結(jié)果判決測(cè)度估計(jì)聲學(xué)參數(shù)分析預(yù)處理專(zhuān)家知識(shí)庫(kù)語(yǔ)音庫(kù)反混疊失真濾波器專(zhuān)家知識(shí)庫(kù)語(yǔ)音庫(kù)預(yù)加重器訓(xùn)練端點(diǎn)檢測(cè)噪聲濾波器構(gòu)詞規(guī)則 同音字判決 語(yǔ)法語(yǔ)義 背景知識(shí)語(yǔ)音識(shí)別的類(lèi)型以所要識(shí)別的對(duì)象來(lái)分,有:(1)孤立詞識(shí)別(字或詞間有停頓,用于控制系統(tǒng))(2)連接詞識(shí)別(十個(gè)數(shù)字連接而成的多位數(shù)字識(shí)別或由少數(shù)指令構(gòu)成詞條的識(shí)別,用于數(shù)據(jù)庫(kù)查詢(xún)、電話(huà)和控制系統(tǒng))(3)連續(xù)語(yǔ)音識(shí)別和理解(自然的說(shuō)話(huà)方式)(4)會(huì)話(huà)語(yǔ)音識(shí)別(識(shí)別出會(huì)話(huà)語(yǔ)言)語(yǔ)音識(shí)別語(yǔ)音識(shí)別聲學(xué)信息論語(yǔ)音學(xué)信號(hào)

處理人工

智能模式

識(shí)別數(shù)理

統(tǒng)計(jì)聽(tīng)寫(xiě)機(jī)查詢(xún)

系統(tǒng)電話(huà)

撥號(hào)殘疾人用品消費(fèi)

電子……語(yǔ)音識(shí)別的應(yīng)用背景和學(xué)科基礎(chǔ)語(yǔ)音識(shí)別的步驟根據(jù)識(shí)別系統(tǒng)的類(lèi)型選擇能滿(mǎn)足要求的一種識(shí)別方法,采用語(yǔ)音分析技術(shù)預(yù)先分析出這種方法所要求的語(yǔ)音特征參數(shù),這些語(yǔ)音參數(shù)作為標(biāo)準(zhǔn)模式由計(jì)算機(jī)存儲(chǔ)起來(lái),形成標(biāo)準(zhǔn)模式庫(kù),稱(chēng)為模板。這個(gè)過(guò)程稱(chēng)為“學(xué)習(xí)”和“訓(xùn)練”。在某些識(shí)別系統(tǒng)中,還備有專(zhuān)家知識(shí)庫(kù),其中存放由語(yǔ)言學(xué)家的各種知識(shí),如同音字判決規(guī)則、語(yǔ)法規(guī)則、語(yǔ)義規(guī)則等。識(shí)別:將輸入語(yǔ)音進(jìn)行處理,提取特征參數(shù),和模式庫(kù)中的模板進(jìn)行比較匹配,作出判決。人類(lèi)利用語(yǔ)言相互交流信息,包括語(yǔ)音和文字兩種表達(dá)方式。通過(guò)語(yǔ)音相互傳遞信息,這是人類(lèi)最重要的基本功能之一。隨著信息社會(huì)的發(fā)展,人與人之間,自不必說(shuō),即使在人與機(jī)器之間也每時(shí)每刻都需要進(jìn)行大量的信息交換。三聲紋識(shí)別聲紋識(shí)別,生物識(shí)別技術(shù)的一種,也稱(chēng)為說(shuō)話(huà)人識(shí)別,是從說(shuō)話(huà)人發(fā)出的語(yǔ)音信號(hào)中提取聲紋信息。聲紋識(shí)別屬于生物識(shí)別技術(shù)的一種,是一項(xiàng)根據(jù)語(yǔ)音波形中反映說(shuō)話(huà)人生理和行為特征的語(yǔ)音參數(shù),自動(dòng)識(shí)別說(shuō)話(huà)人身份的技術(shù)。與語(yǔ)音識(shí)別不同的是,聲紋識(shí)別利用的是語(yǔ)音信號(hào)中的說(shuō)話(huà)人信息,而不考慮語(yǔ)音中的字詞意思,它強(qiáng)調(diào)說(shuō)話(huà)人的個(gè)性;而語(yǔ)音識(shí)別的目的是識(shí)別出語(yǔ)音信號(hào)中的言語(yǔ)內(nèi)容,并不考慮說(shuō)話(huà)人是誰(shuí),它強(qiáng)調(diào)共性。聲紋識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說(shuō)話(huà)人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。聲紋識(shí)別系統(tǒng)聲紋識(shí)別系統(tǒng)的工作過(guò)程一般可以分為兩個(gè)過(guò)程:訓(xùn)練過(guò)程和識(shí)別過(guò)程。無(wú)論訓(xùn)練還是識(shí)別,都需要首先對(duì)輸入的原始語(yǔ)音信號(hào)進(jìn)行預(yù)處理。語(yǔ)音語(yǔ)音

信號(hào)加窗

(如海明窗)計(jì)算頻譜

(FFT)MEL分段

(三角濾波)對(duì)數(shù)變換

log()離散余弦變換

DCT聲紋識(shí)別系統(tǒng)中的特征檢測(cè)即提取語(yǔ)音信號(hào)中表征人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說(shuō)話(huà)人,且對(duì)同一說(shuō)話(huà)人的變化保持相對(duì)穩(wěn)定??紤]到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評(píng)價(jià)問(wèn)題,目前的聲紋識(shí)別系統(tǒng)主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。譜包絡(luò)參數(shù)語(yǔ)音信息通過(guò)濾波器組輸出,以合適的速率對(duì)濾波器輸出抽樣,并將它們作為聲紋識(shí)別特征?;糨喞⒐舱穹孱l率帶寬及其軌跡這類(lèi)特征是基于發(fā)聲器官如聲門(mén)、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。線(xiàn)性預(yù)測(cè)系數(shù)使用線(xiàn)性預(yù)測(cè)系數(shù)是語(yǔ)音信號(hào)處理中的一次飛躍,以線(xiàn)性預(yù)測(cè)導(dǎo)出的各種參數(shù),如線(xiàn)性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對(duì)數(shù)面積比、線(xiàn)性預(yù)測(cè)殘差及其組合等參數(shù),作為識(shí)別特征,可以得到較好的效果。主要原因是線(xiàn)性預(yù)測(cè)與聲道參數(shù)模型是相符合的。反映聽(tīng)覺(jué)特性的參數(shù)模擬人耳對(duì)聲音頻率感知的特性而提出了多種參數(shù),如美倒譜系數(shù)、感知線(xiàn)性預(yù)測(cè)等。此外,人們還通過(guò)對(duì)不同特征參量的組合來(lái)提高實(shí)際系統(tǒng)的性能,當(dāng)各組合參量間相關(guān)性不大時(shí),會(huì)有較好的效果,因?yàn)樗鼈兎謩e反映了語(yǔ)音信號(hào)的不同特征。近年來(lái),在生物識(shí)別技術(shù)領(lǐng)域中,聲紋識(shí)別技術(shù)以其獨(dú)特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu)勢(shì)受到世人矚目,并日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩?yàn)證方式。聲紋識(shí)別屬于生物識(shí)別技術(shù)的一種,是一項(xiàng)根據(jù)語(yǔ)音波形中反映說(shuō)話(huà)人生理和行為特征的語(yǔ)音參數(shù),自動(dòng)識(shí)別說(shuō)話(huà)人身份的技術(shù)。與語(yǔ)音識(shí)別不同的是,聲紋識(shí)別利用的是語(yǔ)音信號(hào)中的說(shuō)話(huà)人信息,而不考慮語(yǔ)音中的字詞意思,它強(qiáng)調(diào)說(shuō)話(huà)人的個(gè)性;而語(yǔ)音識(shí)別的目的是識(shí)別出語(yǔ)音信號(hào)中的言語(yǔ)內(nèi)容,并不考慮說(shuō)話(huà)人是誰(shuí),它強(qiáng)調(diào)共性。聲紋識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說(shuō)話(huà)人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。聲紋識(shí)別—模式匹配模式匹配識(shí)別判斷的目的:獲取表現(xiàn)說(shuō)話(huà)人個(gè)性的特征參數(shù)的基礎(chǔ)上,將待識(shí)別的特征參數(shù)模板或模型與訓(xùn)練學(xué)習(xí)時(shí)得到的模板或模型庫(kù)作相似性匹配,得到特征模式之間的相似性距離度量,并選取適當(dāng)?shù)木嚯x度量作為門(mén)限值,從而識(shí)別判斷出可能結(jié)果中最好的結(jié)果。在模式匹配中常用的方法有:(1)模板匹配方法:主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù));(2)最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識(shí)別時(shí)對(duì)每個(gè)矢量都找到訓(xùn)練矢量中最近的K個(gè),據(jù)此進(jìn)行識(shí)別,通常模型存儲(chǔ)和相似計(jì)算的量都很大;(3)神經(jīng)網(wǎng)絡(luò)方法;(4)隱式馬爾可夫模型:通常使用單狀態(tài)的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;(5)VQ聚類(lèi)方法:效果比較好,算法復(fù)雜度也不高;多項(xiàng)式分類(lèi)器方法:有較高的精度,但模型存儲(chǔ)和計(jì)算量都比較大;聲紋識(shí)別屬于生物識(shí)別技術(shù)的一種,是一項(xiàng)根據(jù)語(yǔ)音波形中反映說(shuō)話(huà)人生理和行為特征的語(yǔ)音參數(shù),自動(dòng)識(shí)別說(shuō)話(huà)人身份的技術(shù)。與語(yǔ)音識(shí)別不同的是,聲紋識(shí)別利用的是語(yǔ)音信號(hào)中的說(shuō)話(huà)人信息,而不考慮語(yǔ)音中的字詞意思,它強(qiáng)調(diào)說(shuō)話(huà)人的個(gè)性;而語(yǔ)音識(shí)別的目的是識(shí)別出語(yǔ)音信號(hào)中的言語(yǔ)內(nèi)容,并不考慮說(shuō)話(huà)人是誰(shuí),它強(qiáng)調(diào)共性。聲紋識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說(shuō)話(huà)人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。利用語(yǔ)音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一。聲音輸入設(shè)備造價(jià)低廉,甚至無(wú)費(fèi)用(電話(huà)),而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。聲紋識(shí)別系統(tǒng)中的特征檢測(cè)即提取語(yǔ)音信號(hào)中表征人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說(shuō)話(huà)人,且對(duì)同一說(shuō)話(huà)人的變化保持相對(duì)穩(wěn)定。考慮到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評(píng)價(jià)問(wèn)題,目前的聲紋識(shí)別系統(tǒng)主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。說(shuō)話(huà)人特征大體可歸為下述幾類(lèi):譜包絡(luò)參數(shù)語(yǔ)音信息通過(guò)濾波器組輸出,以合適的速率對(duì)濾波器輸出抽樣,并將它們作為聲紋識(shí)別特征。基音輪廓、共振峰頻率帶寬及其軌跡這類(lèi)特征是基于發(fā)聲器官如聲門(mén)、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。線(xiàn)性預(yù)測(cè)系數(shù)使用線(xiàn)性預(yù)測(cè)系數(shù)是語(yǔ)音信號(hào)處理中的一次飛躍,以線(xiàn)性預(yù)測(cè)導(dǎo)出的各種參數(shù),如線(xiàn)性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對(duì)數(shù)面積比、線(xiàn)性預(yù)測(cè)殘差及其組合等參數(shù),作為識(shí)別特征,可以得到較好的效果。主要原因是線(xiàn)性預(yù)測(cè)與聲道參數(shù)模型是相符合的。反映聽(tīng)覺(jué)特性的參數(shù)模擬人耳對(duì)聲音頻率感知的特性而提出了多種參數(shù),如美倒譜系數(shù)、感知線(xiàn)性預(yù)測(cè)等。此外,人們還通過(guò)對(duì)不同特征參量的組合來(lái)提高實(shí)際系統(tǒng)的性能,當(dāng)各組合參量間相關(guān)性不大時(shí),會(huì)有較好的效果,因?yàn)樗鼈兎謩e反映了語(yǔ)音信號(hào)的不同特征。聲紋識(shí)別特性:聲紋識(shí)別除具有不會(huì)遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外,還具有以下特性:第一,聲紋識(shí)別是一種非接觸的識(shí)別技術(shù),用戶(hù)接受程度高,由于不涉及隱私問(wèn)題,用戶(hù)無(wú)任何心理障礙。第二。用語(yǔ)音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一,一個(gè)麥克風(fēng)即可,而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。第三,適合遠(yuǎn)程身份確認(rèn),通過(guò)網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;第四,聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;第五,在基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中,具有獨(dú)特的優(yōu)勢(shì)。當(dāng)然,聲紋識(shí)別有一些缺點(diǎn):同一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;不同的麥克風(fēng)和信道對(duì)識(shí)別性能有影響;比如環(huán)境噪音對(duì)識(shí)別有干擾;混合說(shuō)話(huà)人的情形下人的聲紋特征不易提取。聲紋識(shí)別應(yīng)用聲紋識(shí)別產(chǎn)品的市場(chǎng)占有率為15.8%,僅次于指紋識(shí)別和掌形識(shí)別。(1)信息領(lǐng)域(2)電話(huà)交易(3)在保安系統(tǒng)以及證件防偽中的應(yīng)用(4)公安司法模式匹配目前針對(duì)各種特征而提出的模式匹配方法的研究越來(lái)越深入。這些方法大體可歸為下述幾類(lèi):概率統(tǒng)計(jì)方法語(yǔ)音中說(shuō)話(huà)人信息在短時(shí)內(nèi)較為平穩(wěn),通過(guò)對(duì)穩(wěn)態(tài)特征如基音、聲門(mén)增益、低階反射系數(shù)的統(tǒng)計(jì)分析,可以利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類(lèi)判決。其優(yōu)點(diǎn)是不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整,比較適合文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別。動(dòng)態(tài)時(shí)間規(guī)整方法說(shuō)話(huà)人信息不僅有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),而且有時(shí)變因素(語(yǔ)速、語(yǔ)調(diào)、重音和韻律)。將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整DTW。矢量量化方法矢量量化最早是基于聚類(lèi)分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于聲紋識(shí)別,把每個(gè)人的特定文本編成碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。Bell實(shí)驗(yàn)室的Rosenberg和Soong用VQ進(jìn)行了孤立數(shù)字文本的聲紋識(shí)別研究。這種方法的識(shí)別精度較高,且判斷速度快。隱馬爾可夫模型方法隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型,最早在CMU和IBM被用于語(yǔ)音識(shí)別。它把語(yǔ)音看成由可觀察到的符號(hào)序列組成的隨機(jī)過(guò)程,符號(hào)序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用HMM識(shí)別時(shí),為每個(gè)說(shuō)話(huà)人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出概率矩陣。識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。HMM不需要時(shí)間規(guī)整,可節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量,在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量較大。聲紋識(shí)別分類(lèi)分類(lèi)(按類(lèi)型)文本相關(guān)的(Text-Dependent)文本無(wú)關(guān)的(Text-Independent)文本有關(guān)的聲紋識(shí)別系統(tǒng)要求用戶(hù)按照規(guī)定的內(nèi)容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果,但系統(tǒng)需要用戶(hù)配合。文本無(wú)關(guān)的聲紋識(shí)別系統(tǒng)則不規(guī)定說(shuō)話(huà)人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶(hù)使用方便,可應(yīng)用范圍較寬。聲紋識(shí)別特性聲紋識(shí)別除具有不會(huì)遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外,還具有以下特性:第一,聲紋識(shí)別是一種非接觸的識(shí)別技術(shù),用戶(hù)接受程度高,由于不涉及隱私問(wèn)題,用戶(hù)無(wú)任何心理障礙。第二。用語(yǔ)音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一,一個(gè)麥克風(fēng)即可,而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。第三,適合遠(yuǎn)程身份確認(rèn),通過(guò)網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;第四,聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;第五,在基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中,具有獨(dú)特的優(yōu)勢(shì)。聲紋識(shí)別應(yīng)用前景與其他生物識(shí)別技術(shù),諸如指紋識(shí)別、掌形識(shí)別、虹膜識(shí)別等相比較,聲紋識(shí)別除具有不會(huì)遺失和忘記、不需記憶、使用方便等優(yōu)點(diǎn)外,還具有以下特性:用戶(hù)接受程度高,由于不涉及隱私問(wèn)題,用戶(hù)無(wú)任何心理障礙。利用語(yǔ)音進(jìn)行身份識(shí)別可能是最自然和最經(jīng)濟(jì)的方法之一。聲音輸入設(shè)備造價(jià)低廉,甚至無(wú)費(fèi)用(電話(huà)),而其他生物識(shí)別技術(shù)的輸入設(shè)備往往造價(jià)昂貴。在基于電信網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中,如電話(huà)銀行、電話(huà)炒股、電子購(gòu)物等,與其他生物識(shí)別技術(shù)相比,聲紋識(shí)別更為擅長(zhǎng),得天獨(dú)厚。由于與其他生物識(shí)別技術(shù)相比,聲紋識(shí)別具有更為簡(jiǎn)便、準(zhǔn)確、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢(shì),可廣泛應(yīng)用于安全驗(yàn)證、控制等各方面,特別是基于電信網(wǎng)絡(luò)的身份識(shí)別。聲紋識(shí)別的應(yīng)用有一些缺點(diǎn),比如同一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風(fēng)和信道對(duì)識(shí)別性能有影響;比如環(huán)境噪音對(duì)識(shí)別有干擾;又比如混合說(shuō)話(huà)人的情形下人的聲紋特征不易提?。弧鹊?。盡管如此,與其他生物特征相比,聲紋識(shí)別的應(yīng)用有一些特殊的優(yōu)勢(shì):(1)蘊(yùn)含聲紋特征的語(yǔ)音獲取方便、自然,聲紋提取可在不知不覺(jué)中完成,因此使用者的接受程度也高;(2)獲取語(yǔ)音的識(shí)別成本低廉,使用簡(jiǎn)單,一個(gè)麥克風(fēng)即可,在使用通訊設(shè)備時(shí)更無(wú)需額外的錄音設(shè)備;(3)適合遠(yuǎn)程身份確認(rèn),只需要一個(gè)麥克風(fēng)或電話(huà)、手機(jī)就可以通過(guò)網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;(4)聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;(5)配合一些其他措施,如通過(guò)語(yǔ)音識(shí)別進(jìn)行內(nèi)容鑒別等,可以提高準(zhǔn)確率;……等等。這些優(yōu)勢(shì)使得聲紋識(shí)別的應(yīng)用越來(lái)越收到系統(tǒng)開(kāi)發(fā)者和用戶(hù)青睞,聲紋識(shí)別的世界市場(chǎng)占有率15.8%,僅次于指紋和掌紋的生物特征識(shí)別,并有不斷上升的趨勢(shì)。聲紋識(shí)別(VoiceprintRecognition,VPR),也稱(chēng)為說(shuō)話(huà)人識(shí)別(SpeakerRecognition),有兩類(lèi),即說(shuō)話(huà)人辨認(rèn)(SpeakerIdentification)和說(shuō)話(huà)人確認(rèn)(SpeakerVerification)。前者用以判斷某段語(yǔ)音是若干人中的哪一個(gè)所說(shuō)的,是“多選一”問(wèn)題;而后者用以確認(rèn)某段語(yǔ)音是否是指定的某個(gè)人所說(shuō)的,是“一對(duì)一判別”問(wèn)題。不同的任務(wù)和應(yīng)用會(huì)使用不同的聲紋識(shí)別技術(shù),如縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù),而銀行交易時(shí)則需要確認(rèn)技術(shù)。不管是辨認(rèn)還是確認(rèn),都需要先對(duì)說(shuō)話(huà)人的聲紋進(jìn)行建模,這就是所謂的“訓(xùn)練”或“學(xué)習(xí)”過(guò)程。從另一方面,聲紋識(shí)別有文本相關(guān)的(Text-Dependent)和文本無(wú)關(guān)的(Text-Independent)兩種。與文本有關(guān)的聲紋識(shí)別系統(tǒng)要求用戶(hù)按照規(guī)定的內(nèi)容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果,但系統(tǒng)需要用戶(hù)配合,如果用戶(hù)的發(fā)音與規(guī)定的內(nèi)容不符合,則無(wú)法正確識(shí)別該用戶(hù)。而與文本無(wú)關(guān)的識(shí)別系統(tǒng)則不規(guī)定說(shuō)話(huà)人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶(hù)使用方便,可應(yīng)用范圍較寬。根據(jù)特定的任務(wù)和應(yīng)用,兩種是有不同的應(yīng)用范圍的。比如,在銀行交易時(shí)可以使用文本相關(guān)的聲紋識(shí)別,因?yàn)橛脩?hù)自己進(jìn)行交易時(shí)是愿意配合的;而在刑偵或偵聽(tīng)?wèi)?yīng)用中則無(wú)法使用文本相關(guān)的聲紋識(shí)別,因?yàn)槟銦o(wú)法要求犯罪嫌疑人或被偵聽(tīng)的人配合。在對(duì)說(shuō)話(huà)的人辨認(rèn)方面,根據(jù)待識(shí)別的說(shuō)話(huà)人是否在注冊(cè)的說(shuō)話(huà)人集合內(nèi),說(shuō)話(huà)人辨認(rèn)可以分為開(kāi)集(open-set)辨認(rèn)和閉集(close-set)辨認(rèn)。前者假定待識(shí)別說(shuō)話(huà)人可以在集合外,而后者假定待識(shí)別說(shuō)話(huà)人在集合內(nèi)。顯然,開(kāi)集辨認(rèn)需要有一個(gè)對(duì)集外說(shuō)話(huà)人的“拒識(shí)問(wèn)題”,而且閉集辨認(rèn)的結(jié)果要好于開(kāi)集辨認(rèn)結(jié)果。本質(zhì)上講,說(shuō)話(huà)人確認(rèn)和開(kāi)集說(shuō)話(huà)人辨認(rèn)都需要用到拒識(shí)技術(shù),為了達(dá)到很好的拒識(shí)效果,通常需要訓(xùn)練一個(gè)假冒者模型或背景模型,以便拒識(shí)時(shí)有可資比較的對(duì)象,閾值容易選定。而建立背景模型的好壞直接影響到拒識(shí)甚至聲紋識(shí)別的性能。一個(gè)好的背景模型,往往需要通過(guò)預(yù)先采集好的若干說(shuō)話(huà)人的數(shù)據(jù),通過(guò)某種算法去建立。如果技術(shù)達(dá)到一定的水平,可以把文本相關(guān)識(shí)別并入文本無(wú)關(guān)識(shí)別,把閉集辨認(rèn)并入開(kāi)集辨認(rèn),從而提供更為方便的使用方法。實(shí)際應(yīng)用系統(tǒng)結(jié)構(gòu)方案背景社保社會(huì)化以后,因?yàn)榫蜆I(yè)單位的搬遷、變更、關(guān)閉,退休人員異地養(yǎng)老等原因,造成投保人員頻繁流動(dòng)、分散。所以確定投保人的生存狀況一直是社保支付理賠工作中的一個(gè)難題,全國(guó)各地陸續(xù)出現(xiàn)了社保基金被冒領(lǐng)的現(xiàn)象,尤其是養(yǎng)老保險(xiǎn)金被冒領(lǐng)的情況更為嚴(yán)重;解決這一難題的唯一出路在于采用生物識(shí)別技術(shù)進(jìn)行身份認(rèn)證,而語(yǔ)音生物特征(聲紋)識(shí)別是唯一可用于非接觸式、通過(guò)電話(huà)網(wǎng)絡(luò)遠(yuǎn)程安全控制的生物識(shí)別方法。語(yǔ)音生物特征識(shí)別,又稱(chēng)說(shuō)話(huà)人識(shí)別,俗稱(chēng)聲紋識(shí)別,是根據(jù)說(shuō)話(huà)人的發(fā)音生理和行為特征,自動(dòng)識(shí)別說(shuō)話(huà)人身份的一種生物識(shí)別方法。聲紋識(shí)別所提供的安全性可與其他生物識(shí)別技術(shù)(如:指紋、掌形和虹膜)相媲美,而且語(yǔ)音采集裝置造價(jià)低廉,只需電話(huà)/手機(jī)或麥克風(fēng)即可,無(wú)需特殊的設(shè)備;它與說(shuō)話(huà)語(yǔ)言無(wú)關(guān),與方言腔調(diào)無(wú)關(guān),不涉及隱私問(wèn)題,適應(yīng)人群范圍很廣;聲音信號(hào)便于遠(yuǎn)程傳輸和獲取,在基于電信和網(wǎng)絡(luò)的身份識(shí)別應(yīng)用中,聲紋識(shí)別更為擅長(zhǎng),得天獨(dú)厚。系統(tǒng)結(jié)構(gòu)整個(gè)系統(tǒng)的物理結(jié)構(gòu)如圖所示,主要由三大部分組成:電話(huà)通信終端:主要由養(yǎng)老金領(lǐng)取人使用,通過(guò)移動(dòng)/電話(huà)進(jìn)行遠(yuǎn)程非接觸式聲紋認(rèn)證;電腦操控終端:主要由社保管理機(jī)構(gòu)的工作人員使用,通過(guò)它可以查詢(xún)每期的聲紋認(rèn)證結(jié)果,維護(hù)用戶(hù)信息和聲紋數(shù)據(jù)庫(kù),對(duì)于已經(jīng)不具備養(yǎng)老金發(fā)放資格的人員辦理停止發(fā)放手續(xù)等;聲紋認(rèn)證系統(tǒng):聲紋認(rèn)證是一個(gè)融合多種技術(shù)的服務(wù),它由一系列分工協(xié)作的服務(wù)子系統(tǒng)構(gòu)成,包括:電話(huà)語(yǔ)音交互應(yīng)答、聲紋自動(dòng)識(shí)別、應(yīng)用信息查詢(xún)和數(shù)據(jù)庫(kù),另外還可選擇性地包括語(yǔ)音合成、語(yǔ)音識(shí)別等子系統(tǒng)。采用這種高科技手段來(lái)開(kāi)展社保身份認(rèn)證與管理,只需要在社保機(jī)構(gòu)的總部安裝一臺(tái)帶有語(yǔ)音通信板卡硬件和軟件系統(tǒng)的工控機(jī)、服務(wù)器或者PC兼容機(jī),連接普通電話(huà)線(xiàn)或者ISDN數(shù)字專(zhuān)線(xiàn)即可工作,客戶(hù)端則僅需要一臺(tái)普通的固定電話(huà)或者移動(dòng)電話(huà),使用操作簡(jiǎn)單,認(rèn)證準(zhǔn)確安全可靠。四語(yǔ)音增強(qiáng)語(yǔ)音增強(qiáng)是指當(dāng)語(yǔ)音信號(hào)被各種各樣的噪聲干擾、甚至淹沒(méi)后,從噪聲背景中提取有用的語(yǔ)音信號(hào),抑制、降低噪聲干擾的技術(shù)。一句話(huà),從含噪語(yǔ)音中提取盡可能純凈的原始語(yǔ)音。語(yǔ)音增強(qiáng)是指語(yǔ)音質(zhì)量的改善或提高。因?yàn)閷?shí)際語(yǔ)音都是在有噪聲和干擾的情況下產(chǎn)生的,所以語(yǔ)音增強(qiáng)的目的就是去掉語(yǔ)音信號(hào)中的噪聲和干擾。語(yǔ)音增強(qiáng)技術(shù)有廣泛的應(yīng)用,如作為語(yǔ)音編碼和語(yǔ)音識(shí)別的預(yù)處理,消除語(yǔ)音中的混響,從錄音中恢復(fù)出高質(zhì)量的語(yǔ)音。語(yǔ)音增強(qiáng)的意義保證通信的正常進(jìn)行,需要語(yǔ)音增強(qiáng)。日常生活中,經(jīng)常會(huì)遇到在噪聲干擾下進(jìn)行語(yǔ)音通信的問(wèn)題。例如在汽車(chē)、火車(chē)上使用移動(dòng)電話(huà),馬路旁和市場(chǎng)里的公用電話(huà)等。軍事通信中,指揮員的作戰(zhàn)命令和戰(zhàn)斗員的戰(zhàn)情匯報(bào)都需要用語(yǔ)言來(lái)表達(dá),由于戰(zhàn)斗環(huán)境惡劣,特別是炸彈產(chǎn)生的沖擊性噪聲,使有用信號(hào)完全淹沒(méi)在噪聲中。幅度譜平方運(yùn)算的原因噪聲與語(yǔ)音信號(hào)不相關(guān)。利用功率譜的統(tǒng)計(jì)進(jìn)行有聲和無(wú)聲的檢測(cè)。含噪語(yǔ)音信號(hào)的短時(shí)功率譜統(tǒng)計(jì),對(duì)每一幀輸入信號(hào),通過(guò)與預(yù)先設(shè)定的一系列門(mén)限值比較來(lái)判斷該幀是信號(hào)幀還是噪聲幀。應(yīng)用于研究的語(yǔ)音數(shù)據(jù)大都在無(wú)噪環(huán)境下采集的。1)實(shí)際環(huán)境存在各種各樣的干擾噪聲,最常見(jiàn)的是背景噪聲,噪聲干擾下的語(yǔ)音,其特征參數(shù)發(fā)生了很大的扭曲,噪聲干擾下的語(yǔ)音識(shí)別率大大降低、合成語(yǔ)音質(zhì)量急劇惡化等。2)語(yǔ)音增強(qiáng)的目的:從帶噪語(yǔ)音中提取盡可能純凈的原始語(yǔ)音,從主觀度量上講,就是改善語(yǔ)音質(zhì)量、消除背景噪聲,從客觀度量講,即提高語(yǔ)音可懂度。3)針對(duì)不同的噪聲,采用不同的語(yǔ)音增強(qiáng)方法,因噪聲種類(lèi)繁多,不可能有通用的語(yǔ)音增強(qiáng)方案。語(yǔ)音特性:1.是時(shí)變的、非平穩(wěn)、非遍歷的隨機(jī)過(guò)程,短時(shí)相對(duì)平穩(wěn);2.分濁音和清音,前者表現(xiàn)出周期性,在頻域有共振峰,能量大都集中在較低頻段內(nèi);后者類(lèi)于白噪聲,無(wú)明顯的時(shí)域和頻域特性??捎媒y(tǒng)計(jì)分析特性描述。人耳感知特性目前,用于語(yǔ)音增強(qiáng)的語(yǔ)音感知方面的一些結(jié)論:1.幅度譜對(duì)感知起決定性影響,相位譜對(duì)不敏感;2.人耳對(duì)頻率高低的感受近似與該頻率的對(duì)數(shù)成正比;3.人耳有掩蔽效應(yīng),即強(qiáng)信號(hào)對(duì)弱信號(hào)起抑制作用。人耳有掩蔽效應(yīng):即指一個(gè)聲音的存在會(huì)影響對(duì)另一個(gè)較弱聲音的聽(tīng)覺(jué),另外,當(dāng)一個(gè)聲音突然停止時(shí),人耳約在150ms內(nèi)對(duì)其它弱音聽(tīng)不清楚,甚至聽(tīng)不見(jiàn)。因此提高語(yǔ)音的SNR,就可在語(yǔ)音與噪聲共存時(shí),感覺(jué)不到噪聲的存在。4.共振峰對(duì)語(yǔ)音感知非常重要,特別是第二共振峰比第一共振峰更為重要,因此對(duì)語(yǔ)音信號(hào)進(jìn)行一定的高通濾波不會(huì)對(duì)可懂度產(chǎn)生影響。5.人耳在多人的說(shuō)話(huà)環(huán)境中,能分辨出所需聲音。濾波法語(yǔ)音增強(qiáng)技術(shù)陷波器法對(duì)于周期噪聲采用陷波器是比較簡(jiǎn)便和有效的方法,設(shè)計(jì)的陷波器的幅頻曲線(xiàn)的凹處對(duì)應(yīng)于周期噪聲的基頻和各次諧波,并使這些頻率處的限波寬度足夠窄。自適應(yīng)濾波器自適應(yīng)濾波器能有效地在未知環(huán)境中跟蹤時(shí)變的輸入信號(hào)。使輸出信號(hào)達(dá)到最優(yōu),所以可以用來(lái)構(gòu)成自適應(yīng)的噪聲消除器。標(biāo)準(zhǔn)純?cè)肼曉肼曁匦约有栽肼暃_激噪聲:例如打火、放電都會(huì)引起沖激噪聲。它的時(shí)域波形是類(lèi)似于沖激函數(shù)的窄脈沖。消除沖激噪聲的方法通常有兩種:對(duì)帶噪語(yǔ)音信號(hào)的幅度求均值,將該均值作為閾值,超過(guò)該閾值則判斷為噪聲,在時(shí)域?yàn)V除;當(dāng)沖激脈沖不太密的時(shí)候,也可以通過(guò)內(nèi)插的方法避開(kāi)或平滑掉沖激點(diǎn),從而在重建語(yǔ)音時(shí)去掉沖激噪聲。周期噪聲:例如發(fā)動(dòng)機(jī)產(chǎn)生的干擾、市電干擾都是周期性的干擾。在頻譜上表現(xiàn)為離散的窄譜,通??梢圆捎孟莶ㄆ鞣椒ㄟM(jìn)行消除。寬帶噪聲:例如說(shuō)話(huà)時(shí)同時(shí)伴隨著呼吸引起的噪聲,隨機(jī)噪聲源產(chǎn)生的噪聲,以及量化噪聲等。應(yīng)用中常近似為高斯噪聲或白噪聲。噪聲頻譜遍布于語(yǔ)音信號(hào)頻譜中,消除比較困難,一般需要采用非線(xiàn)性處理方法,減譜法,Weiner濾波法。語(yǔ)音干擾:干擾語(yǔ)音信號(hào)和待傳語(yǔ)音信號(hào)同時(shí)在一個(gè)信道中傳輸所造成的干擾(如在通信中串話(huà)引起的)。區(qū)別它們的方法是利用基音差別。可以用梳狀濾波器提取基音和各次諧波,再恢復(fù)出有用的信號(hào)。2.非加性噪聲傳輸噪聲:傳輸系統(tǒng)的電路噪聲。與背景噪聲不同,它在時(shí)域中是語(yǔ)音和噪聲的卷積。處理這種噪聲可以用同態(tài)處理的方法,把非加性噪聲變換為加性噪聲來(lái)處理。來(lái)自環(huán)境的噪聲具有幀間相關(guān)性小,能量分布頻率范圍廣且數(shù)值較小,在語(yǔ)音信號(hào)主分量特征中對(duì)應(yīng)于貢獻(xiàn)率較小的分量的特點(diǎn)。因此可以利用復(fù)數(shù)幀段主分量特征提高抗噪性。復(fù)數(shù)幀段特征是采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為語(yǔ)音識(shí)別輸入特征量,由于噪聲成分具有幀間相關(guān)性小的特征,所以利用復(fù)數(shù)幀段特征量等于相應(yīng)的減弱了噪聲的影響。語(yǔ)音增強(qiáng)的原理和方法頻域語(yǔ)音增強(qiáng)技術(shù)頻域語(yǔ)音增強(qiáng)技術(shù)是語(yǔ)音信號(hào)中的一種重要技術(shù),由于其原理簡(jiǎn)單所以被廣泛使用,如手機(jī)中的降噪處理就是采用的此方法,其中譜相減法是頻域語(yǔ)音增強(qiáng)技術(shù)的常用方法。時(shí)域語(yǔ)音增強(qiáng)技術(shù)時(shí)頻語(yǔ)音增強(qiáng)技術(shù)麥克風(fēng)陣列語(yǔ)音降噪技術(shù)語(yǔ)音增強(qiáng)的意義保證通信的正常進(jìn)行,需要語(yǔ)音增強(qiáng)。1.日常生活中,經(jīng)常會(huì)遇到在噪聲干擾下進(jìn)行語(yǔ)音通信的問(wèn)題。例如在汽車(chē)、火車(chē)上使用移動(dòng)電話(huà),馬路旁和市場(chǎng)里的公用電話(huà)等。2.軍事通信中,指揮員的作戰(zhàn)命令和戰(zhàn)斗員的戰(zhàn)情匯報(bào)都需要用語(yǔ)言來(lái)表達(dá),由于戰(zhàn)斗環(huán)境惡劣,特別是炸彈產(chǎn)生的沖擊性噪聲,使有用信號(hào)完全淹沒(méi)在噪聲中。3.偵聽(tīng)技術(shù)中需要語(yǔ)音增強(qiáng)4.語(yǔ)音識(shí)別技術(shù)需要語(yǔ)音增強(qiáng)在實(shí)際生活中,語(yǔ)音信號(hào)無(wú)時(shí)無(wú)地不受各種噪聲干擾。人們正常的生活環(huán)境就是一個(gè)聲級(jí)為60dB左右的噪聲環(huán)境。被強(qiáng)噪聲污染的場(chǎng)合,噪聲達(dá)120dB以上。減譜法語(yǔ)音增強(qiáng)技術(shù)減譜法是假定加性噪聲與短時(shí)平穩(wěn)的語(yǔ)音信號(hào)相互獨(dú)立的條件下,從帶噪語(yǔ)音的功率譜中減去噪聲功率譜,從而得到較為純凈的語(yǔ)音頻譜。減譜法假定語(yǔ)音信號(hào)短時(shí)平穩(wěn),所以需要對(duì)輸入語(yǔ)音加窗后處理。語(yǔ)音增強(qiáng)的一個(gè)主要目標(biāo)是從帶噪語(yǔ)音信號(hào)中提取盡可能純凈的原始語(yǔ)音。然而,由于干擾通常都是隨機(jī)的,從帶噪語(yǔ)音中提取完全純凈的語(yǔ)音幾乎不可能。在這種情況下,語(yǔ)音增強(qiáng)的目的主要有兩個(gè):一是改進(jìn)語(yǔ)音質(zhì)量,消除背景噪音,使聽(tīng)者樂(lè)于接受

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論