語音處理基礎(chǔ)大作業(yè)報告書_第1頁
語音處理基礎(chǔ)大作業(yè)報告書_第2頁
語音處理基礎(chǔ)大作業(yè)報告書_第3頁
語音處理基礎(chǔ)大作業(yè)報告書_第4頁
語音處理基礎(chǔ)大作業(yè)報告書_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

西安郵電大學(xué)語音處理基礎(chǔ)大作業(yè)報告書學(xué)院名稱:學(xué)生姓名:專業(yè)名稱:班級: 一雙音多頻信號的檢測雙音多頻(DualToneMultiFrequency,DTMF)信號是音頻電話中的撥號信號,由美國AT&T貝爾公司實驗室研制,并用于電話網(wǎng)絡(luò)中。這種信號制式具有很高的撥號速度,且容易自動監(jiān)測識別,很快就代替了原有的用脈沖計數(shù)方式的撥號制式。這種雙音多頻信號制式不僅用在電話網(wǎng)絡(luò)中,還可以用于傳輸十進制數(shù)據(jù)的其它通信系統(tǒng)中,用于電子郵件和銀行系統(tǒng)中。這些系統(tǒng)中用戶可以用電話發(fā)送DTMF信號選擇語音菜單進行操作。DTMF信號系統(tǒng)是一個典型的小型信號處理系統(tǒng),它要用數(shù)字方法產(chǎn)生模擬信號并進行傳輸,其中還用到了D/A變換器;在接收端用A/D變換器將其轉(zhuǎn)換成數(shù)字信號,并進行數(shù)字信號處理與識別。為了系統(tǒng)的檢測速度并降低成本,還開發(fā)一種特殊的DFT算法,稱為戈澤爾(Goertzel)算法,這種算法既可以用硬件(專用芯片)實現(xiàn),也可以用軟件實現(xiàn)。下面首先介紹雙音多頻信號的產(chǎn)生方法和檢測方法,包括戈澤爾算法,最后進行模擬實驗。一、實驗內(nèi)容:在電話中,數(shù)字0~9的中每一個都用兩個不同的單音頻傳輸,所用的8個頻率分成高頻帶和低頻帶兩組,低頻帶有四個頻率:679Hz,770Hz,852Hz和941Hz;高頻帶也有四個頻率:1209Hz,1336Hz,1477Hz和1633Hz.。每一個數(shù)字均由高、低頻帶中各一個頻率構(gòu)成,DTMF信號的生成是通過將兩個有限長數(shù)字序列相加而實現(xiàn);而對DTMF信號的檢測是通過計算DTMF信號的DFT;然后測量在給定8個頻率上的能量而實現(xiàn)。已知采樣頻率為8KHZ,DTMF信號點數(shù)N=205,對DTMF信號進行205點的DFT。右表為DTMF數(shù)字。1209HZ1336HZ1447HZ1663HZ1697HZ123A2770HZ456B3852HZ789C4941HZ*0#DDTMF信號在電話中有兩種作用,一個是用撥號信號去控制交換機接通被叫的用戶電話機,另一個作用是控制電話機的各種動作,如播放留言、語音信箱等。要求:1,通過鍵盤任意輸入16個鍵之一,生成DTMF信號。2。試實現(xiàn)對該輸入信號的檢測,并在屏幕上顯示。3。試從計算量角度考慮為什么采用DFT進行DTMF信號檢測。4。判斷出每個頻率對應(yīng)的DFT的頻率采樣點。二、實驗?zāi)康模簩TMF信號的生成及其檢測有所了解,進一步對DFT的定義、物理意義及基本性質(zhì)有深入了解。三、實驗原理:DFT(離散傅立葉變換)的定義:X(K)=∑x(n)WknN,k=0,1,…,N-1IDFT(離散傅立葉逆變換)的定義:x(n)=1/N(∑X(K)W-knN,n=0,1,…,N-1DFT變換具有周期性、線性、循環(huán)卷積等性質(zhì)。其最重要性質(zhì)共軛對稱性,其性質(zhì)如下:設(shè)x(n)是長度為N的實序列,且X(K)=DFT【x(n)】,則(1.)X(K)共軛對稱,即X(K)=X*(N-K),0≤k≤N-1(2.)如果x(n)=x(N-n),則X(K)實偶對稱,即X(K)=X(N-K)(3.)如果x(n)=-x(N-n),則X(K)純虛奇對稱,即X(K)=-X(N-K)利用共軛對稱性可以減少運算量。四、實驗步驟:(1)確定從鍵盤上輸入的字母。方法通過其字母的ASCII值來判斷(采用for循環(huán)嵌套)。(2)DTMF信號的產(chǎn)生。DTMF信號的生成是通過有限長數(shù)字序列的相加而實現(xiàn),通過兩個頻率確定唯一的字母,用該兩個信號相加實現(xiàn)DTMF信號。(3)DTMF信號得到DFT變化。先對該信號進行205點上的DFT變換,然后進行固定點上DFT的提取,并輸出該點上的DFT的幅值。(4)從輸出幅值判斷輸入字母。制定一個判斷標準,通過該判斷標準得出相應(yīng)的行與列,進而確定該點的ASCII值,輸出對應(yīng)的字母。五、程序框圖:開始開始鍵盤輸入字母鍵盤輸入字母For循環(huán)確定p\qFor循環(huán)確定p\qDTMF信號的生成及圖形DTMF信號的生成及圖形DTMF信號的DFT變換DTMF信號的DFT變換8定點頻率上DFT圖形8定點頻率上DFT圖形通過判斷標準確定行、列,輸出相應(yīng)字母通過判斷標準確定行、列,輸出相應(yīng)字母結(jié)束結(jié)束六、源程序:closeall;clearall;clc;f1=697;f2=770;f3=852;f4=941;f5=1209;f6=1336;f7=1447;f8=1663;fs=8000;n=1:205;while(1)while(1)clcflag=0;disp('1209133614471663');disp('697123A');disp('770456B');disp('852789C');disp('941*0#D');disp('');disp('');in_key=input('請輸入按鍵','s');disp('');disp('');switchin_keycase['1']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f5/fs);case['2']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f6/fs);case['3']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f7/fs);case['A']x1=sin(2*pi*n*f1/fs);x2=sin(2*pi*n*f8/fs);case['4']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f5/fs);case['5']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f6/fs);case['6']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f7/fs);case['B']x1=sin(2*pi*n*f2/fs);x2=sin(2*pi*n*f8/fs);case['7']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f5/fs);case['8']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f6/fs);case['9']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f7/fs);case['C']x1=sin(2*pi*n*f3/fs);x2=sin(2*pi*n*f8/fs);case['*']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f5/fs);case['0']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f6/fs);case['#']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f7/fs);case['D']x1=sin(2*pi*n*f4/fs);x2=sin(2*pi*n*f8/fs);otherwiseflag=1;clc;disp('');disp('你輸入按鍵錯誤');disp('');disp('');temp=input('是否要繼續(xù)Y|y---是N|n--否','s');disp('');if(temp==['n']|temp==['N'])flag=0;endend;if(flag==0)break;endendxn=x1+x2;xk=fft(xn,205);%對x(n)做采樣點數(shù)為205點的fft變換%k=0:204;%figure('name','實驗五');subplot(311);plot(n,xn);xlabel('n');ylabel('xn');grid;subplot(312);stem(k,xk(1:205));%繪制以k為x軸,xk(1:205)為y軸的離散序列圖%xlabel('k');ylabel('xk');grid;xk=abs(xk);%作xk的絕對值%max1=1;xmax1=xk(1);max2=1;xmax2=xk(1);form=1:60if(xmax1<xk(m))xmax1=xk(m);max1=m;endendform=1:60if(xmax2<xk(m)&m~=max1)xmax2=xk(m);max2=m;endendmax1=max1-1;max2=max2-1;if(max1>max2)k=max1;max1=max2;max2=k;enddisp('');disp('');disp('------------------------經(jīng)過傳輸后知道如下--------------------------------');switchmax1case18switchmax2case31disp('你輸入的是-------1');a=[max1max2];b=[6971209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------2');a=[max1max2];b=[6971336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------3');a=[max1max2];b=[6971447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43 disp('你輸入的是-------A');a=[max1max2];b=[6971663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase20switchmax2case31disp('你輸入的是-------4');a=[max1max2];b=[7701209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------5');a=[max1max2];b=[7701336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------6');a=[max1max2];b=[7701447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你輸入的是-------B');a=[max1max2];b=[7701663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase22switchmax2case31disp('你輸入的是-------7');a=[max1max2];b=[8521209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------8');a=[max1max2];b=[8521336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------9');a=[max1max2];b=[8521447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你輸入的是-------C');a=[max1max2];b=[8521663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endcase24switchmax2case31disp('你輸入的是-------*');a=[max1max2];b=[9411209];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case34disp('你輸入的是-------0');a=[max1max2];b=[9411336];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case37disp('你輸入的是-------#');a=[max1max2];b=[9411447];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;case43disp('你輸入的是-------D');a=[max1max2];b=[9411663];subplot(313);stem(a,b);xlabel('k');ylabel('f');grid;endenddisp('');;shdisp('');disp('');temp=input('是否要繼續(xù)按鍵Y|y---是N|n--退出','s');if(temp==['n']|temp==['N'])break;;enddisp('');end七、程序結(jié)果及圖表:a=input('輸入數(shù)字=','s');sm=abs(a);%輸入數(shù)字的ASCII值pm=[49505165;52535466;55565767;42483568];%給出圖表字母的相應(yīng)ASCII值矩陣forp=1:4;forq=1:4;ifpm(p,q)==sm;break,endendifpm(p,q)==sm;break,endend%通過兩個for循環(huán)判斷鍵盤輸入字母的具體行和列fprintf('ASCII碼值A(chǔ)M=%0.f\n',pm(p,q))f1=[697770852941];f2=[1209133614471663];n=0:204;x=sin(2*pi*n*f1(p)/8000)+sin(2*pi*n*f2(q)/8000);%DTMF信號的生成figure('color','g');subplot(211);plot(x);xlabel('n');ylabel('x');title('DTMF信號');k=[1820222431343843];%給出8個頻率點va=zeros(1,8);%生成一個1行8列的零矩陣form=1:8;Fx(m)=gfft(x,205,k(m));%對信號x進行205點上DFT變換,再取和k對應(yīng)的8點上DFT變化并相應(yīng)的放入Fx(m)endva=abs(Fx);subplot(212);stem(k,va);xlabel('k');ylabel('|X(k)|');l1=80;l2=7.8;%判斷標準fors=5:8;ifva(s)>l2;break,endendforr=1:4;ifva(r)>l1;break,endend%通過判斷標準判斷出相應(yīng)的行和列disp(['撥號符號=',setstr(pm(r,s-4))])%輸出判斷出的相應(yīng)行、列ASCII值矩陣對應(yīng)的符號結(jié)果及圖示如下:輸入數(shù)字=1,ASCII碼值A(chǔ)M=,49撥號符號=1 圖一輸入數(shù)字,=2ASCII碼值A(chǔ)M=50撥號符號,=2圖二比較以上兩圖,每幅圖的上面均為該字母所對應(yīng)的兩固定頻率所產(chǎn)生的DTMF信號,且它們只是205點上的離散信號,下圖是對該字母DTMF信號x進行205點上DFT變換,再取和k對應(yīng)的8點(1820222431343843)上DFT變化的幅值,其中前4點決定該字母所在原矩陣中的行,后4點決定該字母所在原矩陣中的列,該圖也證明了前四點表示的意義。輸入數(shù)字=4ASCII碼值A(chǔ)M=52 圖三撥號符號=4比較圖一、圖三,可以看出后四點表示的是字母所在原矩陣中的列,該圖也證明了后四點表示的意義。以上三幅圖均證明了程序的正確。因為采樣頻率是8000Hz,因此要求每125ms輸出一個樣本,得到的序列再送到D/A變換器和平滑濾波器,輸出便是連續(xù)時間的DTMF信號。DTMF信號通過電話線路送到交換機?;贕oertzel算法的雙音多頻信號檢測在接收端,要對收到的雙音多頻信號進行檢測,檢測兩個正弦波的頻率是多少,以判斷所對應(yīng)的十進制數(shù)字或者符號。顯然這里仍然要用數(shù)字方法進行檢測,因此要將收到的時間連續(xù)DTMF信號經(jīng)過A/D變換,變成數(shù)字信號進行檢測。檢測的方法有兩種,一種是用一組濾波器提取所關(guān)心的頻率,根據(jù)有輸出信號的2個濾波器判斷相應(yīng)的數(shù)字或符號。另一種是用DFT(FFT)對雙音多頻信號進行頻譜分析,由信號的幅度譜,判斷信號的兩個頻率,最后確定相應(yīng)的數(shù)字或符號。當檢測的音頻數(shù)目較少時,用濾波器組實現(xiàn)更合適。FFT是DFT的快速算法,但當DFT的變換區(qū)間較小時,F(xiàn)FT快速算法的效果并不明顯,而且還要占用很多內(nèi)存,因此不如直接用DFT合適。下面介紹Goertzel算法,這種算法的實質(zhì)是直接計算DFT的一種線性濾波方法。這里略去Goertzel算法的介紹,可以直接調(diào)用MATLAB信號處理工具箱中戈澤爾算法的函數(shù)Goertzel,計算N點DFT的幾個感興趣的頻點的值。二語音合成與語音識別語音識別的發(fā)展歷史早在計算機發(fā)明之前,自動語音識別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產(chǎn)的"RadioRex"玩具狗可能是最早的語音識別器,當這只狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統(tǒng)是由AT&T貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng),它能夠識別10個英文數(shù)字。其識別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學(xué)院(ColledgeofLondon)的Denes已經(jīng)將語法概率加入語音識別中。1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。這一時代的兩大突破是線性預(yù)測編碼LinearPredictiveCoding(LPC),及動態(tài)時間彎折DynamicTimeWarp技術(shù)。語音識別技術(shù)的最重大突破是隱含馬爾科夫模型HiddenMarkovModel的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過Labiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。[1]。此后嚴格來說語音識別技術(shù)并沒有脫離HMM框架。盡管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術(shù)在目前還無法支持無限領(lǐng)域,無限說話人的聽寫機應(yīng)用。語音識別概述語音識別技術(shù),也被稱為自動語音識別AutomaticSpeechRecognition,(ASR),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。語音識別技術(shù)的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。語音合成語音是信息傳播的一大媒介。近年來,提供語音服務(wù)的語音系統(tǒng)迅速發(fā)展起來。傳統(tǒng)的語音系統(tǒng)一般采用預(yù)錄音回放技術(shù),由于這種方法必須對信息文本事先進行錄音,并存為聲音文件,因此,所占用的存儲空間很大。另外,一個更大的缺點是不能實時反映信息的更新,應(yīng)用范圍有很大的局限性?,F(xiàn)在的語音合成技術(shù),無需對大量的信息進行錄音,極大地減少了工作量和節(jié)省了存儲空間,尤其是在信息內(nèi)容需要經(jīng)常變動的動態(tài)查詢場合,如股市行情查詢、有聲Email系統(tǒng),都是傳統(tǒng)的預(yù)錄音技術(shù)無法代勞的。結(jié)合其他技術(shù),語音合成技術(shù)可以廣泛應(yīng)用于金融、郵電、工商、政府機關(guān)、交通、教育、游戲等領(lǐng)域。傳統(tǒng)的語音系統(tǒng)恢復(fù)語音回放恢復(fù)語音回放錄音Wav語音壓縮編碼語音壓縮編碼語音信號的參數(shù)合成根據(jù)語音產(chǎn)生的數(shù)學(xué)模型,利用短時平穩(wěn)性,提出每幀語音信號的參數(shù),這些參數(shù)經(jīng)編碼后組成一個語音參數(shù)庫。輸出時,從語音參數(shù)庫中取出相應(yīng)的參數(shù),利用語音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語音。共振峰合成和線性預(yù)測合成是該類合成技術(shù)中的重要方法。直接錄放流程回放錄音回放錄音Wav語音壓縮編碼語音壓縮編碼波形合成方法挑選組合挑選組合語音庫(語音單元)語音的波形編碼回放 合成語音語音信號的規(guī)則合成將任意文本轉(zhuǎn)換成聲音的系統(tǒng)。包括語言學(xué)和聲學(xué)處理。合成的詞匯不是事先確定。常見的就是文語轉(zhuǎn)換合成技術(shù)。系統(tǒng)中存儲的是音素的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子的規(guī)則;控制音調(diào)、輕重音等韻律的各種規(guī)則。在波形合成法中,也可以使用波形編碼技術(shù)略微壓縮一些存儲量。通常情況下,波形合成法可以合成的語音詞匯量約在500以下,而參數(shù)合成法則可以達到數(shù)千左右。當然,在參數(shù)合成時,由于抽取參數(shù)或編碼過程中,難免存在逼近誤差,所以合成的語音質(zhì)量(清晰度)也就比波形合成法要差一些了。在語音合成中,另一個重要問題就是合成基元的選擇問題,也就是存儲的語音基元的選擇問題。顯然,合成詞匯量越大,必須采用越小的基元,否則存儲量就太大了;反之,合成詞匯量越小,可用較大的基元。例如在英語中,詞的數(shù)量有千千萬萬,但是音素質(zhì)有成百個。因此存儲全部詞的容量遠遠大于存儲全部音素的容量。但是我們知道,基元越大,合成的語音自然度就越好。例如存儲的是整個句子的語音波形或參數(shù),則合成的語音在該句范圍內(nèi),合成語音的自然度就接近于原始語音,不會有那種不連貫的機器味。通常,在波形合成法中,由于合成的是有限長度的語音,甚至可以用整個句子作為合成基元,但是在參數(shù)合成法中,則不得不用字至多也只能用詞作為合成基元。語音合成技術(shù)可以分為四類:1.波形編碼合成方法2.參數(shù)式分析合成方法3.規(guī)則合成方法4.文-語轉(zhuǎn)換無論波形合成法或是參數(shù)合成法,其原理都等同于語音通信的語音編碼或聲碼器中的接收端的工作過程,只是現(xiàn)在沒有從信道送來的參數(shù)與編碼的序列,而代之以從分析或變換得到的存儲在語音庫中的參數(shù)或碼序列。共振峰式語音合成器語音的規(guī)則合成這種合成方法以通過語音學(xué)規(guī)則來產(chǎn)生任何語音為目的,規(guī)則合成系統(tǒng)存儲的是較小的語音單位的聲學(xué)參數(shù)以及由音素組成音節(jié),再由音節(jié)組成詞或句子的各種規(guī)則。當輸入字母符號時,合成系統(tǒng)利用規(guī)則自動將它們轉(zhuǎn)換為連續(xù)的語音聲波。由于語音中存在協(xié)同發(fā)聲效應(yīng),單獨存在的元音和輔音與連續(xù)發(fā)音中的元音和輔音不同,所以合成規(guī)則是在分析每一語音單元出現(xiàn)在不同環(huán)境中的協(xié)同發(fā)音后,歸納其規(guī)律而制定的如共振峰的頻率規(guī)則、時長規(guī)則、聲調(diào)和語調(diào)規(guī)則等。與分析合成方法相比,規(guī)則合成方法的語音庫的存儲量更小,這是以犧牲音質(zhì)為代價的,這種方式涉及到許多語音學(xué)和語音學(xué)模型,系統(tǒng)結(jié)構(gòu)復(fù)雜。目前合成規(guī)則還不完善,合成音質(zhì)一般較差。語音識別語音識別是指從語音到文本的轉(zhuǎn)換,即讓計算機能夠把人發(fā)出的有意義的話音變成書面語言。通俗地說就是讓機器能夠聽懂人說的話。所謂聽懂,有兩層意思,一是指把用戶所說的話逐詞逐句轉(zhuǎn)換成文本;二是指正確理解語音中所包含的要求,作出正確的應(yīng)答。語音識別的模型目前,主流的大詞匯量語音識別系統(tǒng)多采用統(tǒng)計模式識別技術(shù)。典型的基于統(tǒng)計模式識別方法的語音識別系統(tǒng)由以下幾個基本模塊所構(gòu)成信號處理及特征提取模塊。該模塊的主要任務(wù)是從輸入信號中提取特征,供聲學(xué)模型處理。同時,它一般也包括了一些信號處理技術(shù),以盡可能降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。統(tǒng)計聲學(xué)模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模。發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射。語言模型。語言模型對系統(tǒng)所針對的語言進行建模。理論上,包括正則語言,上下文無關(guān)文法在內(nèi)的各種語言模型都可以作為語言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體。解碼器。解碼器是語音識別系統(tǒng)的核心之一,其任務(wù)是對輸入的信號,根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。從數(shù)學(xué)角度可以更加清楚的了解上述模塊之間的關(guān)系。首先,統(tǒng)計語音識別的最基本問題是,給定輸入信號或特征序列,符號集(詞典),求解符號串使得:W=argmaxP(W|O)通過貝葉斯公式,上式可以改寫為由于對于確定的輸入串O,P(O)是確定的,因此省略它并不會影響上式的最終結(jié)果,因此,一般來說語音識別所討論的問題可以用下面的公式來表示,可以將它稱為語音識別的基本公式。W=argmaxP(O|W)P(W)從這個角度來看,信號處理模塊提供了對輸入信號的預(yù)處理,也就是說,提供了從采集的語音信號(記為S)到特征序列O的映射。而聲學(xué)模型本身定義了一些更具推廣性的聲學(xué)建模單元,并且提供了在給定輸入特征下,估計P(O|uk)的方法。為了將聲學(xué)模型建模單元串映射到符號集,就需要發(fā)音詞典發(fā)揮作用。它實際上定義了映射的映射。為了表示方便,也可以定義一個由到U的全集的笛卡爾積,而發(fā)音詞典則是這個笛卡爾積的一個子集。并且有:最后,語言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫成:對于解碼器來所,就是要在由,,ui以及時間標度t張成的搜索空間中,找到上式所指明的W。語音識別是一門交叉學(xué)科,語音識別正逐步成為信息技術(shù)中人機接口的關(guān)鍵技術(shù),語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè)。與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預(yù)計,未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。語音識別聽寫機在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語音識別的發(fā)展歷史國外研究歷史及發(fā)展語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統(tǒng),它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。但真正取得實質(zhì)性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。這首先是因為計算機技術(shù)的發(fā)展為語音識別的實現(xiàn)提供了硬件和軟件的可能,更重要的是語音信號線性預(yù)測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù)的提出,有效的解決了語音信號的特征提取和不等長匹配問題。這一時期的語音識別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識別,實現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立詞語音識別系統(tǒng);同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。隨著應(yīng)用領(lǐng)域的擴大,小詞匯表、特定人、孤立詞等這些對語音識別的約束條件需要放寬,與此同時也帶來了許多新的問題:第一,詞匯表的擴大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語音中,各個音素、音節(jié)以及詞之間沒有明顯的邊界,各個發(fā)音單位存在受上下文強烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識別時,不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會有很大的差異;第四,識別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。實驗室語音識別研究的巨大突破產(chǎn)生于20世紀80年代末:人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個特性都集成在一個系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng)。這一時期,語音識別研究進一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實驗室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認識,從而使統(tǒng)計方法成為了語音識別技術(shù)的主流。統(tǒng)計方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語音特征的細化,而是更多地從整體平均(統(tǒng)計)的角度來建立最佳的語音識別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語音信號短時穩(wěn)定、長時時變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語音的句子模型,達到了比較高的建模精度和建模靈活性。在語言層面上,通過統(tǒng)計真實大規(guī)模語料的詞之間同現(xiàn)概率即N元統(tǒng)計模型來區(qū)分識別帶來的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語言處理機制等也在語音識別中得到了應(yīng)用。國內(nèi)研究歷史及現(xiàn)狀我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實驗室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計劃后,國家863智能計算機專家組為語音識別技術(shù)研究專門立項,每兩年滾動一次。我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢,并達到國際先進水平。中科院自動化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機構(gòu)都有實驗室進行過語音識別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動化研究所模式識別國家重點實驗室。清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識率情況下,系統(tǒng)識別率可以達到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,其性能已經(jīng)接近實用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達到98.73%,前三選識別率達99.96%;并且可以識別普通話與四川話兩種語言,達到實用要求。中科院自動化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應(yīng)用的“天語”中文語音系列產(chǎn)品——PattekASR,結(jié)束了中文語音識別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。語音識別的分類針對說話方式:孤立詞識別和連續(xù)語音識別針對識別環(huán)境:實驗室環(huán)境語音識別、電話語音識別和廣播語音識別針對說話人:特定說話人語音識別和非特定說話人語音識別針對詞匯量:小詞匯量、中詞匯量和大詞匯量的識別語音識別系統(tǒng)的分類語音識別系統(tǒng)可以根據(jù)對輸入語音的限制加以分類。如果從說話者與識別系統(tǒng)的相關(guān)性考慮,可以將識別系統(tǒng)分為3類:(1)特定人語音識別系統(tǒng):僅考慮對于專人的話音進行識別;(2)非特定人語音系統(tǒng):識別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行學(xué)習;(3)多人的識別系統(tǒng):通常能識別一組人的語音,或者成為特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進行訓(xùn)練。如果從說話的方式考慮,也可以將識別系統(tǒng)分為3類:(1)孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入每個詞后要停頓;(2)連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn);(3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會出現(xiàn)。如果從識別系統(tǒng)的詞匯量大小考慮,也可以將識別系統(tǒng)分為3類:(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個詞的語音識別系統(tǒng)。(2)中等詞匯量的語音識別系統(tǒng)。通常包括幾百個詞到上千個詞的識別系統(tǒng)。(3)大詞匯量語音識別系統(tǒng)。通常包括幾千到幾萬個詞的語音識別系統(tǒng)。隨著計算機與數(shù)字信號處理器運算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。語音識別原理框圖失真測度歐氏距離失真測度 似然比測度語音信號判決測度估計聲學(xué)參數(shù)分析預(yù)處理輸入識別結(jié)果判決測度估計聲學(xué)參數(shù)分析預(yù)處理專家知識庫語音庫反混疊失真濾波器專家知識庫語音庫預(yù)加重器訓(xùn)練端點檢測噪聲濾波器構(gòu)詞規(guī)則 同音字判決 語法語義 背景知識語音識別的類型以所要識別的對象來分,有:(1)孤立詞識別(字或詞間有停頓,用于控制系統(tǒng))(2)連接詞識別(十個數(shù)字連接而成的多位數(shù)字識別或由少數(shù)指令構(gòu)成詞條的識別,用于數(shù)據(jù)庫查詢、電話和控制系統(tǒng))(3)連續(xù)語音識別和理解(自然的說話方式)(4)會話語音識別(識別出會話語言)語音識別語音識別聲學(xué)信息論語音學(xué)信號

處理人工

智能模式

識別數(shù)理

統(tǒng)計聽寫機查詢

系統(tǒng)電話

撥號殘疾人用品消費

電子……語音識別的應(yīng)用背景和學(xué)科基礎(chǔ)語音識別的步驟根據(jù)識別系統(tǒng)的類型選擇能滿足要求的一種識別方法,采用語音分析技術(shù)預(yù)先分析出這種方法所要求的語音特征參數(shù),這些語音參數(shù)作為標準模式由計算機存儲起來,形成標準模式庫,稱為模板。這個過程稱為“學(xué)習”和“訓(xùn)練”。在某些識別系統(tǒng)中,還備有專家知識庫,其中存放由語言學(xué)家的各種知識,如同音字判決規(guī)則、語法規(guī)則、語義規(guī)則等。識別:將輸入語音進行處理,提取特征參數(shù),和模式庫中的模板進行比較匹配,作出判決。人類利用語言相互交流信息,包括語音和文字兩種表達方式。通過語音相互傳遞信息,這是人類最重要的基本功能之一。隨著信息社會的發(fā)展,人與人之間,自不必說,即使在人與機器之間也每時每刻都需要進行大量的信息交換。三聲紋識別聲紋識別,生物識別技術(shù)的一種,也稱為說話人識別,是從說話人發(fā)出的語音信號中提取聲紋信息。聲紋識別屬于生物識別技術(shù)的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)。與語音識別不同的是,聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調(diào)說話人的個性;而語音識別的目的是識別出語音信號中的言語內(nèi)容,并不考慮說話人是誰,它強調(diào)共性。聲紋識別系統(tǒng)主要包括兩部分,即特征檢測和模式匹配。特征檢測的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對訓(xùn)練和識別時的特征模式做相似性匹配。聲紋識別系統(tǒng)聲紋識別系統(tǒng)的工作過程一般可以分為兩個過程:訓(xùn)練過程和識別過程。無論訓(xùn)練還是識別,都需要首先對輸入的原始語音信號進行預(yù)處理。語音語音

信號加窗

(如海明窗)計算頻譜

(FFT)MEL分段

(三角濾波)對數(shù)變換

log()離散余弦變換

DCT聲紋識別系統(tǒng)中的特征檢測即提取語音信號中表征人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說話人,且對同一說話人的變化保持相對穩(wěn)定??紤]到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評價問題,目前的聲紋識別系統(tǒng)主要依靠較低層次的聲學(xué)特征進行識別。譜包絡(luò)參數(shù)語音信息通過濾波器組輸出,以合適的速率對濾波器輸出抽樣,并將它們作為聲紋識別特征?;糨喞⒐舱穹孱l率帶寬及其軌跡這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。線性預(yù)測系數(shù)使用線性預(yù)測系數(shù)是語音信號處理中的一次飛躍,以線性預(yù)測導(dǎo)出的各種參數(shù),如線性預(yù)測系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對數(shù)面積比、線性預(yù)測殘差及其組合等參數(shù),作為識別特征,可以得到較好的效果。主要原因是線性預(yù)測與聲道參數(shù)模型是相符合的。反映聽覺特性的參數(shù)模擬人耳對聲音頻率感知的特性而提出了多種參數(shù),如美倒譜系數(shù)、感知線性預(yù)測等。此外,人們還通過對不同特征參量的組合來提高實際系統(tǒng)的性能,當各組合參量間相關(guān)性不大時,會有較好的效果,因為它們分別反映了語音信號的不同特征。近年來,在生物識別技術(shù)領(lǐng)域中,聲紋識別技術(shù)以其獨特的方便性、經(jīng)濟性和準確性等優(yōu)勢受到世人矚目,并日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩炞C方式。聲紋識別屬于生物識別技術(shù)的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)。與語音識別不同的是,聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調(diào)說話人的個性;而語音識別的目的是識別出語音信號中的言語內(nèi)容,并不考慮說話人是誰,它強調(diào)共性。聲紋識別系統(tǒng)主要包括兩部分,即特征檢測和模式匹配。特征檢測的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對訓(xùn)練和識別時的特征模式做相似性匹配。聲紋識別—模式匹配模式匹配識別判斷的目的:獲取表現(xiàn)說話人個性的特征參數(shù)的基礎(chǔ)上,將待識別的特征參數(shù)模板或模型與訓(xùn)練學(xué)習時得到的模板或模型庫作相似性匹配,得到特征模式之間的相似性距離度量,并選取適當?shù)木嚯x度量作為門限值,從而識別判斷出可能結(jié)果中最好的結(jié)果。在模式匹配中常用的方法有:(1)模板匹配方法:主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù));(2)最近鄰方法:訓(xùn)練時保留所有特征矢量,識別時對每個矢量都找到訓(xùn)練矢量中最近的K個,據(jù)此進行識別,通常模型存儲和相似計算的量都很大;(3)神經(jīng)網(wǎng)絡(luò)方法;(4)隱式馬爾可夫模型:通常使用單狀態(tài)的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;(5)VQ聚類方法:效果比較好,算法復(fù)雜度也不高;多項式分類器方法:有較高的精度,但模型存儲和計算量都比較大;聲紋識別屬于生物識別技術(shù)的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)。與語音識別不同的是,聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調(diào)說話人的個性;而語音識別的目的是識別出語音信號中的言語內(nèi)容,并不考慮說話人是誰,它強調(diào)共性。聲紋識別系統(tǒng)主要包括兩部分,即特征檢測和模式匹配。特征檢測的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對訓(xùn)練和識別時的特征模式做相似性匹配。利用語音進行身份識別可能是最自然和最經(jīng)濟的方法之一。聲音輸入設(shè)備造價低廉,甚至無費用(電話),而其他生物識別技術(shù)的輸入設(shè)備往往造價昂貴。聲紋識別系統(tǒng)中的特征檢測即提取語音信號中表征人的基本特征,此特征應(yīng)能有效地區(qū)分不同的說話人,且對同一說話人的變化保持相對穩(wěn)定??紤]到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評價問題,目前的聲紋識別系統(tǒng)主要依靠較低層次的聲學(xué)特征進行識別。說話人特征大體可歸為下述幾類:譜包絡(luò)參數(shù)語音信息通過濾波器組輸出,以合適的速率對濾波器輸出抽樣,并將它們作為聲紋識別特征。基音輪廓、共振峰頻率帶寬及其軌跡這類特征是基于發(fā)聲器官如聲門、聲道和鼻腔的生理結(jié)構(gòu)而提取的參數(shù)。線性預(yù)測系數(shù)使用線性預(yù)測系數(shù)是語音信號處理中的一次飛躍,以線性預(yù)測導(dǎo)出的各種參數(shù),如線性預(yù)測系數(shù)、自相關(guān)系數(shù)、反射系數(shù)、對數(shù)面積比、線性預(yù)測殘差及其組合等參數(shù),作為識別特征,可以得到較好的效果。主要原因是線性預(yù)測與聲道參數(shù)模型是相符合的。反映聽覺特性的參數(shù)模擬人耳對聲音頻率感知的特性而提出了多種參數(shù),如美倒譜系數(shù)、感知線性預(yù)測等。此外,人們還通過對不同特征參量的組合來提高實際系統(tǒng)的性能,當各組合參量間相關(guān)性不大時,會有較好的效果,因為它們分別反映了語音信號的不同特征。聲紋識別特性:聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優(yōu)點外,還具有以下特性:第一,聲紋識別是一種非接觸的識別技術(shù),用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。第二。用語音進行身份識別可能是最自然和最經(jīng)濟的方法之一,一個麥克風即可,而其他生物識別技術(shù)的輸入設(shè)備往往造價昂貴。第三,適合遠程身份確認,通過網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實現(xiàn)遠程登錄;第四,聲紋辨認和確認的算法復(fù)雜度低;第五,在基于電信網(wǎng)絡(luò)的身份識別應(yīng)用中,具有獨特的優(yōu)勢。當然,聲紋識別有一些缺點:同一個人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;不同的麥克風和信道對識別性能有影響;比如環(huán)境噪音對識別有干擾;混合說話人的情形下人的聲紋特征不易提取。聲紋識別應(yīng)用聲紋識別產(chǎn)品的市場占有率為15.8%,僅次于指紋識別和掌形識別。(1)信息領(lǐng)域(2)電話交易(3)在保安系統(tǒng)以及證件防偽中的應(yīng)用(4)公安司法模式匹配目前針對各種特征而提出的模式匹配方法的研究越來越深入。這些方法大體可歸為下述幾類:概率統(tǒng)計方法語音中說話人信息在短時內(nèi)較為平穩(wěn),通過對穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計分析,可以利用均值、方差等統(tǒng)計量和概率密度函數(shù)進行分類判決。其優(yōu)點是不用對特征參量在時域上進行規(guī)整,比較適合文本無關(guān)的說話人識別。動態(tài)時間規(guī)整方法說話人信息不僅有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習慣),而且有時變因素(語速、語調(diào)、重音和韻律)。將識別模板與參考模板進行時間對比,按照某種距離測定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動態(tài)時間規(guī)整DTW。矢量量化方法矢量量化最早是基于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于聲紋識別,把每個人的特定文本編成碼本,識別時將測試文本按此碼本進行編碼,以量化產(chǎn)生的失真度作為判決標準。Bell實驗室的Rosenberg和Soong用VQ進行了孤立數(shù)字文本的聲紋識別研究。這種方法的識別精度較高,且判斷速度快。隱馬爾可夫模型方法隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機模型,最早在CMU和IBM被用于語音識別。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用HMM識別時,為每個說話人建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號輸出概率矩陣。識別時計算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對應(yīng)的模型進行判決。HMM不需要時間規(guī)整,可節(jié)約判決時的計算時間和存儲量,在目前被廣泛應(yīng)用。缺點是訓(xùn)練時計算量較大。聲紋識別分類分類(按類型)文本相關(guān)的(Text-Dependent)文本無關(guān)的(Text-Independent)文本有關(guān)的聲紋識別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個人的聲紋模型逐個被精確地建立,而識別時也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達到較好的識別效果,但系統(tǒng)需要用戶配合。文本無關(guān)的聲紋識別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對困難,但用戶使用方便,可應(yīng)用范圍較寬。聲紋識別特性聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優(yōu)點外,還具有以下特性:第一,聲紋識別是一種非接觸的識別技術(shù),用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。第二。用語音進行身份識別可能是最自然和最經(jīng)濟的方法之一,一個麥克風即可,而其他生物識別技術(shù)的輸入設(shè)備往往造價昂貴。第三,適合遠程身份確認,通過網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實現(xiàn)遠程登錄;第四,聲紋辨認和確認的算法復(fù)雜度低;第五,在基于電信網(wǎng)絡(luò)的身份識別應(yīng)用中,具有獨特的優(yōu)勢。聲紋識別應(yīng)用前景與其他生物識別技術(shù),諸如指紋識別、掌形識別、虹膜識別等相比較,聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優(yōu)點外,還具有以下特性:用戶接受程度高,由于不涉及隱私問題,用戶無任何心理障礙。利用語音進行身份識別可能是最自然和最經(jīng)濟的方法之一。聲音輸入設(shè)備造價低廉,甚至無費用(電話),而其他生物識別技術(shù)的輸入設(shè)備往往造價昂貴。在基于電信網(wǎng)絡(luò)的身份識別應(yīng)用中,如電話銀行、電話炒股、電子購物等,與其他生物識別技術(shù)相比,聲紋識別更為擅長,得天獨厚。由于與其他生物識別技術(shù)相比,聲紋識別具有更為簡便、準確、經(jīng)濟及可擴展性良好等眾多優(yōu)勢,可廣泛應(yīng)用于安全驗證、控制等各方面,特別是基于電信網(wǎng)絡(luò)的身份識別。聲紋識別的應(yīng)用有一些缺點,比如同一個人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風和信道對識別性能有影響;比如環(huán)境噪音對識別有干擾;又比如混合說話人的情形下人的聲紋特征不易提??;……等等。盡管如此,與其他生物特征相比,聲紋識別的應(yīng)用有一些特殊的優(yōu)勢:(1)蘊含聲紋特征的語音獲取方便、自然,聲紋提取可在不知不覺中完成,因此使用者的接受程度也高;(2)獲取語音的識別成本低廉,使用簡單,一個麥克風即可,在使用通訊設(shè)備時更無需額外的錄音設(shè)備;(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以通過網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實現(xiàn)遠程登錄;(4)聲紋辨認和確認的算法復(fù)雜度低;(5)配合一些其他措施,如通過語音識別進行內(nèi)容鑒別等,可以提高準確率;……等等。這些優(yōu)勢使得聲紋識別的應(yīng)用越來越收到系統(tǒng)開發(fā)者和用戶青睞,聲紋識別的世界市場占有率15.8%,僅次于指紋和掌紋的生物特征識別,并有不斷上升的趨勢。聲紋識別(VoiceprintRecognition,VPR),也稱為說話人識別(SpeakerRecognition),有兩類,即說話人辨認(SpeakerIdentification)和說話人確認(SpeakerVerification)。前者用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;而后者用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。不同的任務(wù)和應(yīng)用會使用不同的聲紋識別技術(shù),如縮小刑偵范圍時可能需要辨認技術(shù),而銀行交易時則需要確認技術(shù)。不管是辨認還是確認,都需要先對說話人的聲紋進行建模,這就是所謂的“訓(xùn)練”或“學(xué)習”過程。從另一方面,聲紋識別有文本相關(guān)的(Text-Dependent)和文本無關(guān)的(Text-Independent)兩種。與文本有關(guān)的聲紋識別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個人的聲紋模型逐個被精確地建立,而識別時也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達到較好的識別效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無法正確識別該用戶。而與文本無關(guān)的識別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對困難,但用戶使用方便,可應(yīng)用范圍較寬。根據(jù)特定的任務(wù)和應(yīng)用,兩種是有不同的應(yīng)用范圍的。比如,在銀行交易時可以使用文本相關(guān)的聲紋識別,因為用戶自己進行交易時是愿意配合的;而在刑偵或偵聽應(yīng)用中則無法使用文本相關(guān)的聲紋識別,因為你無法要求犯罪嫌疑人或被偵聽的人配合。在對說話的人辨認方面,根據(jù)待識別的說話人是否在注冊的說話人集合內(nèi),說話人辨認可以分為開集(open-set)辨認和閉集(close-set)辨認。前者假定待識別說話人可以在集合外,而后者假定待識別說話人在集合內(nèi)。顯然,開集辨認需要有一個對集外說話人的“拒識問題”,而且閉集辨認的結(jié)果要好于開集辨認結(jié)果。本質(zhì)上講,說話人確認和開集說話人辨認都需要用到拒識技術(shù),為了達到很好的拒識效果,通常需要訓(xùn)練一個假冒者模型或背景模型,以便拒識時有可資比較的對象,閾值容易選定。而建立背景模型的好壞直接影響到拒識甚至聲紋識別的性能。一個好的背景模型,往往需要通過預(yù)先采集好的若干說話人的數(shù)據(jù),通過某種算法去建立。如果技術(shù)達到一定的水平,可以把文本相關(guān)識別并入文本無關(guān)識別,把閉集辨認并入開集辨認,從而提供更為方便的使用方法。實際應(yīng)用系統(tǒng)結(jié)構(gòu)方案背景社保社會化以后,因為就業(yè)單位的搬遷、變更、關(guān)閉,退休人員異地養(yǎng)老等原因,造成投保人員頻繁流動、分散。所以確定投保人的生存狀況一直是社保支付理賠工作中的一個難題,全國各地陸續(xù)出現(xiàn)了社保基金被冒領(lǐng)的現(xiàn)象,尤其是養(yǎng)老保險金被冒領(lǐng)的情況更為嚴重;解決這一難題的唯一出路在于采用生物識別技術(shù)進行身份認證,而語音生物特征(聲紋)識別是唯一可用于非接觸式、通過電話網(wǎng)絡(luò)遠程安全控制的生物識別方法。語音生物特征識別,又稱說話人識別,俗稱聲紋識別,是根據(jù)說話人的發(fā)音生理和行為特征,自動識別說話人身份的一種生物識別方法。聲紋識別所提供的安全性可與其他生物識別技術(shù)(如:指紋、掌形和虹膜)相媲美,而且語音采集裝置造價低廉,只需電話/手機或麥克風即可,無需特殊的設(shè)備;它與說話語言無關(guān),與方言腔調(diào)無關(guān),不涉及隱私問題,適應(yīng)人群范圍很廣;聲音信號便于遠程傳輸和獲取,在基于電信和網(wǎng)絡(luò)的身份識別應(yīng)用中,聲紋識別更為擅長,得天獨厚。系統(tǒng)結(jié)構(gòu)整個系統(tǒng)的物理結(jié)構(gòu)如圖所示,主要由三大部分組成:電話通信終端:主要由養(yǎng)老金領(lǐng)取人使用,通過移動/電話進行遠程非接觸式聲紋認證;電腦操控終端:主要由社保管理機構(gòu)的工作人員使用,通過它可以查詢每期的聲紋認證結(jié)果,維護用戶信息和聲紋數(shù)據(jù)庫,對于已經(jīng)不具備養(yǎng)老金發(fā)放資格的人員辦理停止發(fā)放手續(xù)等;聲紋認證系統(tǒng):聲紋認證是一個融合多種技術(shù)的服務(wù),它由一系列分工協(xié)作的服務(wù)子系統(tǒng)構(gòu)成,包括:電話語音交互應(yīng)答、聲紋自動識別、應(yīng)用信息查詢和數(shù)據(jù)庫,另外還可選擇性地包括語音合成、語音識別等子系統(tǒng)。采用這種高科技手段來開展社保身份認證與管理,只需要在社保機構(gòu)的總部安裝一臺帶有語音通信板卡硬件和軟件系統(tǒng)的工控機、服務(wù)器或者PC兼容機,連接普通電話線或者ISDN數(shù)字專線即可工作,客戶端則僅需要一臺普通的固定電話或者移動電話,使用操作簡單,認證準確安全可靠。四語音增強語音增強是指當語音信號被各種各樣的噪聲干擾、甚至淹沒后,從噪聲背景中提取有用的語音信號,抑制、降低噪聲干擾的技術(shù)。一句話,從含噪語音中提取盡可能純凈的原始語音。語音增強是指語音質(zhì)量的改善或提高。因為實際語音都是在有噪聲和干擾的情況下產(chǎn)生的,所以語音增強的目的就是去掉語音信號中的噪聲和干擾。語音增強技術(shù)有廣泛的應(yīng)用,如作為語音編碼和語音識別的預(yù)處理,消除語音中的混響,從錄音中恢復(fù)出高質(zhì)量的語音。語音增強的意義保證通信的正常進行,需要語音增強。日常生活中,經(jīng)常會遇到在噪聲干擾下進行語音通信的問題。例如在汽車、火車上使用移動電話,馬路旁和市場里的公用電話等。軍事通信中,指揮員的作戰(zhàn)命令和戰(zhàn)斗員的戰(zhàn)情匯報都需要用語言來表達,由于戰(zhàn)斗環(huán)境惡劣,特別是炸彈產(chǎn)生的沖擊性噪聲,使有用信號完全淹沒在噪聲中。幅度譜平方運算的原因噪聲與語音信號不相關(guān)。利用功率譜的統(tǒng)計進行有聲和無聲的檢測。含噪語音信號的短時功率譜統(tǒng)計,對每一幀輸入信號,通過與預(yù)先設(shè)定的一系列門限值比較來判斷該幀是信號幀還是噪聲幀。應(yīng)用于研究的語音數(shù)據(jù)大都在無噪環(huán)境下采集的。1)實際環(huán)境存在各種各樣的干擾噪聲,最常見的是背景噪聲,噪聲干擾下的語音,其特征參數(shù)發(fā)生了很大的扭曲,噪聲干擾下的語音識別率大大降低、合成語音質(zhì)量急劇惡化等。2)語音增強的目的:從帶噪語音中提取盡可能純凈的原始語音,從主觀度量上講,就是改善語音質(zhì)量、消除背景噪聲,從客觀度量講,即提高語音可懂度。3)針對不同的噪聲,采用不同的語音增強方法,因噪聲種類繁多,不可能有通用的語音增強方案。語音特性:1.是時變的、非平穩(wěn)、非遍歷的隨機過程,短時相對平穩(wěn);2.分濁音和清音,前者表現(xiàn)出周期性,在頻域有共振峰,能量大都集中在較低頻段內(nèi);后者類于白噪聲,無明顯的時域和頻域特性??捎媒y(tǒng)計分析特性描述。人耳感知特性目前,用于語音增強的語音感知方面的一些結(jié)論:1.幅度譜對感知起決定性影響,相位譜對不敏感;2.人耳對頻率高低的感受近似與該頻率的對數(shù)成正比;3.人耳有掩蔽效應(yīng),即強信號對弱信號起抑制作用。人耳有掩蔽效應(yīng):即指一個聲音的存在會影響對另一個較弱聲音的聽覺,另外,當一個聲音突然停止時,人耳約在150ms內(nèi)對其它弱音聽不清楚,甚至聽不見。因此提高語音的SNR,就可在語音與噪聲共存時,感覺不到噪聲的存在。4.共振峰對語音感知非常重要,特別是第二共振峰比第一共振峰更為重要,因此對語音信號進行一定的高通濾波不會對可懂度產(chǎn)生影響。5.人耳在多人的說話環(huán)境中,能分辨出所需聲音。濾波法語音增強技術(shù)陷波器法對于周期噪聲采用陷波器是比較簡便和有效的方法,設(shè)計的陷波器的幅頻曲線的凹處對應(yīng)于周期噪聲的基頻和各次諧波,并使這些頻率處的限波寬度足夠窄。自適應(yīng)濾波器自適應(yīng)濾波器能有效地在未知環(huán)境中跟蹤時變的輸入信號。使輸出信號達到最優(yōu),所以可以用來構(gòu)成自適應(yīng)的噪聲消除器。標準純噪聲噪聲特性加性噪聲沖激噪聲:例如打火、放電都會引起沖激噪聲。它的時域波形是類似于沖激函數(shù)的窄脈沖。消除沖激噪聲的方法通常有兩種:對帶噪語音信號的幅度求均值,將該均值作為閾值,超過該閾值則判斷為噪聲,在時域濾除;當沖激脈沖不太密的時候,也可以通過內(nèi)插的方法避開或平滑掉沖激點,從而在重建語音時去掉沖激噪聲。周期噪聲:例如發(fā)動機產(chǎn)生的干擾、市電干擾都是周期性的干擾。在頻譜上表現(xiàn)為離散的窄譜,通??梢圆捎孟莶ㄆ鞣椒ㄟM行消除。寬帶噪聲:例如說話時同時伴隨著呼吸引起的噪聲,隨機噪聲源產(chǎn)生的噪聲,以及量化噪聲等。應(yīng)用中常近似為高斯噪聲或白噪聲。噪聲頻譜遍布于語音信號頻譜中,消除比較困難,一般需要采用非線性處理方法,減譜法,Weiner濾波法。語音干擾:干擾語音信號和待傳語音信號同時在一個信道中傳輸所造成的干擾(如在通信中串話引起的)。區(qū)別它們的方法是利用基音差別。可以用梳狀濾波器提取基音和各次諧波,再恢復(fù)出有用的信號。2.非加性噪聲傳輸噪聲:傳輸系統(tǒng)的電路噪聲。與背景噪聲不同,它在時域中是語音和噪聲的卷積。處理這種噪聲可以用同態(tài)處理的方法,把非加性噪聲變換為加性噪聲來處理。來自環(huán)境的噪聲具有幀間相關(guān)性小,能量分布頻率范圍廣且數(shù)值較小,在語音信號主分量特征中對應(yīng)于貢獻率較小的分量的特點。因此可以利用復(fù)數(shù)幀段主分量特征提高抗噪性。復(fù)數(shù)幀段特征是采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為語音識別輸入特征量,由于噪聲成分具有幀間相關(guān)性小的特征,所以利用復(fù)數(shù)幀段特征量等于相應(yīng)的減弱了噪聲的影響。語音增強的原理和方法頻域語音增強技術(shù)頻域語音增強技術(shù)是語音信號中的一種重要技術(shù),由于其原理簡單所以被廣泛使用,如手機中的降噪處理就是采用的此方法,其中譜相減法是頻域語音增強技術(shù)的常用方法。時域語音增強技術(shù)時頻語音增強技術(shù)麥克風陣列語音降噪技術(shù)語音增強的意義保證通信的正常進行,需要語音增強。1.日常生活中,經(jīng)常會遇到在噪聲干擾下進行語音通信的問題。例如在汽車、火車上使用移動電話,馬路旁和市場里的公用電話等。2.軍事通信中,指揮員的作戰(zhàn)命令和戰(zhàn)斗員的戰(zhàn)情匯報都需要用語言來表達,由于戰(zhàn)斗環(huán)境惡劣,特別是炸彈產(chǎn)生的沖擊性噪聲,使有用信號完全淹沒在噪聲中。3.偵聽技術(shù)中需要語音增強4.語音識別技術(shù)需要語音增強在實際生活中,語音信號無時無地不受各種噪聲干擾。人們正常的生活環(huán)境就是一個聲級為60dB左右的噪聲環(huán)境。被強噪聲污染的場合,噪聲達120dB以上。減譜法語音增強技術(shù)減譜法是假定加性噪聲與短時平穩(wěn)的語音信號相互獨立的條件下,從帶噪語音的功率譜中減去噪聲功率譜,從而得到較為純凈的語音頻譜。減譜法假定語音信號短時平穩(wěn),所以需要對輸入語音加窗后處理。語音增強的一個主要目標是從帶噪語音信號中提取盡可能純凈的原始語音。然而,由于干擾通常都是隨機的,從帶噪語音中提取完全純凈的語音幾乎不可能。在這種情況下,語音增強的目的主要有兩個:一是改進語音質(zhì)量,消除背景噪音,使聽者樂于接受

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論