語音壓縮算法測評及質(zhì)量評估_第1頁
語音壓縮算法測評及質(zhì)量評估_第2頁
語音壓縮算法測評及質(zhì)量評估_第3頁
語音壓縮算法測評及質(zhì)量評估_第4頁
語音壓縮算法測評及質(zhì)量評估_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語音壓縮的基本依據(jù)從信息保持的角度講,只有當信源本身具有冗余度,才能對其進行壓縮。根據(jù)統(tǒng)計分析的結(jié)果,語音信號中存在著多種冗余度m,主要有以下幾個方面:幅度非均勻分布語音中小幅度樣本比大幅度樣本出現(xiàn)的概率要高。又由于通話必然會有間隙,更出現(xiàn)了大It的低電平樣本。此外,實際語音信號的功率電平也趨向于出現(xiàn)在編碼范圍的較低電平端。因此,語音信號的幅值分布是非均勻的。樣本之間的相關(guān)性對語音信號的波形分析表明to,采樣數(shù)據(jù)的最大相關(guān)性存在于鄰近樣本之間。當采樣速率為8KHz時,相鄰采樣值之間的相關(guān)系數(shù)大于0.85,甚至在相距十個樣本之間,相關(guān)系數(shù)還有0.3左右的數(shù)it級。如果采樣速率提高,樣本間的相關(guān)性將更強。周期之間的相關(guān)性雖然電話語音信號的頻率分布在300-3400HZ的頻帶內(nèi),但在特定的瞬間,某一聲音卻往往只是該頻帶內(nèi)的少數(shù)頻率分I起作用。當聲音中只存在少數(shù)幾個基本頻率時,就會像某些振蕩波形一樣,在周期與周期之間存在著一定的相關(guān)性?;糁g的相關(guān)性語音可以分為清音和濁音兩種基本類型.濁音是由聲帶振動產(chǎn)生,每一次振動使一股空氣從肺部流進聲道。激勵聲道的各股空氣之間的間隔稱為基音周期。濁音的波形對應(yīng)于基音周期的長期重復波形。因此,對語音濁音部分編碼的有效方法之一是對一個基音周期波形進行編碼,并以它作為其它基音段的模板。此外,電話通信中還有很大的話音間隙。通話分析表明,語音間隙約占通話時間的60%。這本身也是一種冗余。正是由于語音信號具有以上特點,對語音的壓縮編碼才成為可能。在現(xiàn)今的通信系統(tǒng)當中,各種語音壓縮編碼得到了廣泛的應(yīng)用,并形成了一系列的語音編碼標準。語音壓縮編碼技術(shù)大大緩解了信道緊張的狀況。語音壓縮技術(shù)的發(fā)展概況語音編碼器的主要功能就是把用戶語音的PCM(脈沖編碼調(diào)制)樣值編碼成少量的比特(幀)。這種方法使得語音在鏈路產(chǎn)生誤碼、網(wǎng)絡(luò)抖動和突發(fā)傳輸時具有健壯性。在接收端,語音幀先被解碼為PCM語音樣值,然后再轉(zhuǎn)換成語音波形。語音信號的數(shù)字編碼方法主要分成三類:波形編碼、參數(shù)編碼和混合編碼,其編碼質(zhì)量大致如圖2所示,表2給出了各種編碼方法的典型例子。波形編碼是對語音時域或頻域波形進行編碼,由于這種系統(tǒng)保留原始樣值的細節(jié),從而保留了信號的各種過度特征,因此解碼聲音質(zhì)量較高,但此系統(tǒng)編碼碼率較高,壓縮比不大。參數(shù)編碼的基礎(chǔ)是利用人類語音的生成模型,這樣在傳輸過程中只需要傳送模型的參數(shù),大大降低了系統(tǒng)的碼率,特別適合于無線通信,保密和軍事通信領(lǐng)域。參數(shù)編碼的缺點在于恢復的語音質(zhì)量較差。采用參數(shù)編碼方法的編碼器有時稱為聲碼器。正因為上述兩種編碼存在著不足,因此人們又想到了混合編碼的方法。混合編碼是波形編碼和參數(shù)編碼的結(jié)合。它既利用了語音的生成模型,減少了傳輸碼率,又使解碼的語音產(chǎn)生接近原始語音的波形,以保留說話人的各種自然特征,因此當前各種國際標準通常采用這種方法。第一個語音壓縮系統(tǒng)是1939年貝爾實驗室的H.Duddlyf發(fā)明的通道聲碼器.1938年Reeves提出PCM(脈沖編碼調(diào)制)編碼,后來成為現(xiàn)代電話系統(tǒng)的常規(guī)語音編碼方式,1977年被ITU-T采用為G.711標準建議。64Kbps速率的PCM方式,采樣速率為8K,每個采樣點盆化為8bit?,F(xiàn)在所說的語音壓縮編碼,都是相對于64Kbps的PCM標準而言。1946年Delorain提出了增量調(diào)制(0M),1952年貝爾公司的Culter取得了差分脈沖編碼調(diào)制(DPCM)的專利。為了進一步降低編碼速率,以后又陸續(xù)提出了一些編碼方案。1988年制定的G.722建議采用32Kbps的ADPCM編碼,雖然碼率較高,但是實現(xiàn)簡單,且音質(zhì)很好,在目前的ISDN系統(tǒng)中仍然使用這一編碼方案.1992年制定的ITU-TG.728建議,采用LD-CELP(低延遲碼激勵線性預測),編碼速率達到16Kbps,1995年制定的G.723.1建議,采用改進的激勵線性預測編碼,編碼速率達到5.3/6.3Kbps。目前,歐洲的GSM通信系統(tǒng)采用的是13Kbps的RPE-LTP(規(guī)則脈沖激勵長周期預測)壓縮編碼方案,同時正在開發(fā)6.5Kbps的CELP方案作為它的半速率標準方案。近年來,低比特率語音編碼(8Kbps以下)的研究取得了很大的飛躍.美國先后公布了4.8Kbps的CELP編碼,2.4Kbps的MELP編碼,目前甚至出現(xiàn)了速率在1Kbps左右的語音編碼算法noimi由于這些算法的延時都比較大,一般在20-80ms,還沒有被米用為國際標準。隨著算法的進一步改進,其應(yīng)用前景將更加廣闊。語音編碼器的性能測評評估編碼器的性能時要考慮幾個重要因素:?幀大小:幀的大小表示語音流量的時間長度,也稱為幀時延。幀是語音信號的分立部件,且每幀是根據(jù)語音樣點更新的。?處理時延:它表示在編碼器中對一幀語音做編碼算法處理所需時間。它通常簡單計入幀時延。處理時延好稱為算法時延。?前視時延:編碼器為了對當前幀的編碼提供幫助而檢查下一幀的一定長度,此長度就稱為前視時延。前視的想法是為了利用相鄰語音幀之間的密切相關(guān)性。幀長度:這個值表示經(jīng)編碼處理后的字節(jié)數(shù)(不包括幀頭)。語音比特率:當編解碼器的輸入是標準脈沖編碼調(diào)制的語音碼流(比特率為64kbit/s)時,編解碼器的輸出速率。?DSPMIPS:此值是指支持特定編碼器的DSP處理器的最低速度。值提注意的是DSPMISP與其它處理器的MISP速率無關(guān)。與用在工作站和個人計算機上通用處理器不同,這些DSP是為特定任務(wù)而專門設(shè)計的。因此,為實現(xiàn)上述的編解碼器處理所需求MISP,通用處理器要比專用DSP處理器大。?RAM需求:它描述了支持特定的編碼過程所需要RAM的大小。評價編碼器性能的關(guān)鍵因素是編碼器工作所需時間。這個時間是指編碼器的緩存及處理時間,稱為單向系統(tǒng)時延。其值等于:幀大小+處理時延+前視時延。顯然,解碼時延也非常重要。實際上,解碼時延大約是編碼時延的一半。語音編碼質(zhì)量評定評價通信系統(tǒng)性能優(yōu)劣的根本標志之一是系統(tǒng)所輸出語音質(zhì)量的好壞,所以語音評估技術(shù)將成為分析各種電話網(wǎng)絡(luò)通話質(zhì)量,不斷提高通信系統(tǒng)性能的關(guān)鍵技術(shù)。4.1語音質(zhì)量的含義一般說來,語音質(zhì)量包含個方面內(nèi)容:清晰度、可懂度和自然度。清晰度是指語音中音節(jié)以下的語音單元(因素、聲母、韻母等)的清晰度;可懂度是指語音中音節(jié)以上的語言單位(如字、單詞和句等)的可懂程度;自然度則是指對講話人的辨別水平。語音質(zhì)量評價不但與語音學、語言學、信號處理等學科相關(guān),而且還與心理學、生理學等學科有著密切的聯(lián)系,因此語音質(zhì)量評估是一個及其復雜的問題4.1語音質(zhì)量評估的分類語音質(zhì)量評估從評估主體上講可分為兩大類:主觀評估和客觀評估。4.2.1主觀評估主觀評估是以認為主體根據(jù)某種預先約定的尺寸來對失真語音(或參考原始語音)來劃分質(zhì)量等級的,它反映了評聽者對語音質(zhì)量好壞程度的一種主觀印象。從理論上講,語音質(zhì)量的客觀評估測試可分為兩類:一類是音節(jié)以下(如音素、聲母、韻母)的語音單元的測試,這常稱為“清晰度”測試:另一類是音節(jié)以上(如詞、句)的語言單位的測試,這一類的測試通常稱為“可懂度”測試。這些測試的基本原理是相同的,只是測試的單元有所不同;而且可以按條件用公式從小單元的清晰度算出大單元的可懂度來。這些測試方法都屬于主觀聽覺的測試方法。目前,國內(nèi)外使用較多的主觀評價方法有:平均意見分MOS(MeanOpinionScores)方法、韻母可懂度測量DRT(DiagnosticRhymeTests)方法、失真平均意見分DMOS(DegradationMeanOpinionScore-DMOS)和滿意讀測量DAM(DiagnsticAcceptabilityMeasure)、漢語清晰度測試等。4.2.1.1MOS法簡介在實際語音系統(tǒng)應(yīng)用中,MOS評分法使用最為普遍。它不僅用于語音編碼,通信設(shè)備性能測試上,也是語音客觀評估方法研究中,作為衡量評價方法好壞的重要依據(jù)之一。MOS法用于對語音整體滿意度或語音通信質(zhì)量的評價。其分值如表2所示。參加測試的評聽人在聽完測試語音后,從5個等級中選擇其中某一級作為他對所測語音質(zhì)量的評價。全體實驗者的平均分就是所測語音質(zhì)量的MOS值。由于主觀上和客觀上的種種原因,每次測試得到的MOS大都會有波動,為了減少波動的方差,除了參加測試的評聽人要足夠多之外(一般至少40人),所測語音材料也應(yīng)足夠豐富,測試環(huán)境也要盡量保持相同。在數(shù)字語音通信中,通常認為MOS在4.0-5.0分為高質(zhì)量數(shù)字化語音,達到長途電話網(wǎng)的質(zhì)量要求,接近于透明信道編碼,也常稱為網(wǎng)絡(luò)質(zhì)量或長途質(zhì)量。MOS在3.5左右稱為通信質(zhì)量,這是感到重建話音質(zhì)量下降,但不妨礙正常通話,可以滿足話音系統(tǒng)使用要求,MOS在3.0以下常稱為合成語音質(zhì)量,系指一些聲碼器合成的語音所能達到的質(zhì)量。它一般具有足夠的可懂度,但自然度及講話人的確認等方面不夠好。表2為國際上一些一些標準語音編碼算法的語音質(zhì)量主觀評估分。4.2.2客觀評估客觀評估是指用機器自動判別語音質(zhì)量.它從原理上又可分為兩類評價方式:基于輸入一輸出方式的客觀評估和基于輸出方式的客觀評估?;谳斎胼敵龇绞降脑u價是建立在原始語音信號和失真語音信號的誤差對比上,大多數(shù)這種方式的客觀評估采用數(shù)值距離或者描述聽覺系統(tǒng)如何來感知質(zhì)量的聽覺模型來量化語音質(zhì)量的好壞;基于輸出的客觀評價是僅以語音系統(tǒng)的輸出信號來評估語音質(zhì)量的好壞。4.2.2.1客觀評估方法的分類客觀評估方法研究自七十年代以來迅速發(fā)展,國內(nèi)外學者提出了數(shù)以千計的客觀評估方法。這些方法從評估原理上可分為基于輸入一輸出和基于輸出這兩大類方法,如果從它們各自使用的主要技術(shù)方法(如譜分析,LPC分析、聽覺模型分析、判斷模型分析等)和主要特征參量<時域、參量、頻域參量、變換域參量等)又可以將這些客觀評估方法分為以下六類:基于SNR的評估方法、基于LPC技術(shù)的評估方法、基于譜距離的評估方法、基于聽覺模型的評估方法、基于判斷模型的評估方法、其它類評估方法。4.2.2.2主要客觀評估方法的性能比較表3分類給出了目前主要客觀評估方法的相關(guān)度數(shù)值表。由于受測試數(shù)據(jù)、測試方式等因素的影響,因而在不同文獻中使用同樣方法卻會得到不同結(jié)果。4.2.2.3客觀評估方法研究的發(fā)展特點及方向從上述客觀評價方法研究的發(fā)展歷程以及各種方法的評價性能來看,語音質(zhì)量客觀評價研究的發(fā)展具有以下特點:語音質(zhì)量客觀評價研究取得了十分可喜的成績?;谳斎胍惠敵龅目陀^評價方法與主觀評價的相關(guān)度已達到了0.95左右,如AD/MNB,MBSD,和PSQM等方法,目前,這類評價方法的主要問題是要解決好穩(wěn)定性等問題。從語音質(zhì)量客觀評估性能的提高過程來看,客觀評估方法研究大致經(jīng)歷了這樣幾個階段;時域分析階段(如SNR等),頻域譜分析階段(如SD等),模型參數(shù)(LPC分析)階段(如CD等),聽覺模型階段(BSD,MBSD,PSQM等)及聽覺模型與判斷模型的混合(hybrid)模型階段(如AD/MNB)等。當然,各階段不是嚴格分開的,而是互相混迭,特別是新方法往往是建立在傳統(tǒng)方法基礎(chǔ)上。聽覺模型在語音質(zhì)量客觀評估研究中占有十分重要的地位。縱觀客觀評估的發(fā)展過程可以清楚看到只要在評估中考慮了人對語音信號的感知特性就會大幅度提高整個評估方法的性能。從這幾年的研究成果來看,性能較好的客觀評價方法都以聽覺模型為基礎(chǔ);如BSD,MBSD,PSQM,AD/MNB等。判斷模型的研究已開始得到重視。人對語音質(zhì)量的評估包含兩個過程;聽過程和判斷過程,因此,有必要構(gòu)造良好的判斷模型并和聽覺模型相結(jié)合起來建立更符合主觀評估過程的客觀評估方法。雖然目前判斷模型的研究己有所進展,如AD/MNB方法等,但是這方面的研究工作還有待于進一步深入下去。基于輸出的客觀評估方法研究有所發(fā)展,但尚屬萌芽階段。目前這種形式的客觀評估方法與主觀評估值的相關(guān)度還較低。盡管該方法具有巨大的發(fā)展前景和實際應(yīng)用價值,但是在理論方法上和在使用的具體技術(shù)參數(shù)等方面還有待于突破性的進展。4.2.2.4常用客觀語音評估算法介紹語音質(zhì)量是一種主觀的測量結(jié)果,依賴于聽說雙方對語音的主觀評價。因此,語音質(zhì)量其實是一種意見,因為它取決于大量的個體感知判斷什么是可以接受的或不能被接受。傳統(tǒng)的語音質(zhì)量測試方法是通過在實驗室讓很多人試聽語音并按照ITU規(guī)范的“綜合意見評分法”(MOS)讓他們對語音質(zhì)量給出主觀評價。很顯然這樣的測試手段不僅是主觀依賴的,而且費時費力。因而國際電信聯(lián)盟ITU在90年代中開始對端到端的語音質(zhì)量自動客觀測試技術(shù)進行標準化的工作,并從此發(fā)展出三個主要的測試算法可供進行自動和可重復性的測試:PSQM/PSQM+感知通話質(zhì)量測量、PESQ感知評估通話質(zhì)量測量、PAMS(英國電信)感知分析測量。PSQM和PAMS測量方法都需要發(fā)送一個語音參考信號通過電話網(wǎng)絡(luò),在網(wǎng)絡(luò)的另一端采用數(shù)字信號處理的方式比較樣本信號和接收到的信號,進而估算出網(wǎng)絡(luò)的語音質(zhì)量。PESQ結(jié)合了PSQM和PAMS的優(yōu)勢,針對VoIP和混合的端到端應(yīng)用作了改進,并針對MOS和MOS-LQ計算方法做了修改。-PAMS(PerceptualAnalysis/MeasurementSystem)是由英國電信開發(fā)出來,它根據(jù)收聽費勁程度和收聽質(zhì)量,利用感官模型比較聲源信號和經(jīng)過網(wǎng)絡(luò)傳輸后退化的接聽信號。PAMS分析退化信號中發(fā)現(xiàn)的不同類型的錯誤,將不同類型錯誤參數(shù)化并映射到預測感官模型上。這個模型是在進行大量的主觀聽力測試后建立的一個數(shù)據(jù)庫。評測的結(jié)果給出一個綜合意見評分值MOS,分值范圍在2—5之間,5分代表最佳質(zhì)量分值。-PSQM(PercepturalSpeechQualityMeasurement)是由荷蘭的KPN研究機構(gòu)開發(fā)出來,用于測量數(shù)字編碼器的客觀質(zhì)量。最早被廣泛應(yīng)用的編碼器測量手段是測試語音信號的信噪比S/N,但這種測試方法對現(xiàn)代越來越多的低壓縮比編碼器并不適用。PSQM則比較聲源信號和退化信號,測出后者的失真程度、噪音和保真度。它已被ITU制定成P.861推薦規(guī)范,并有了一個增強型算法PSQM+,可更有效地分析大量瞬時失真。但這兩種算法對信號過濾、不同的延時和短暫局部失真不作處理。(現(xiàn)ITU-T已經(jīng)將P.861廢棄,由P.862取代)-PESQ(PerceptualEvaluationofSpeechQuality)是由英國電信和KPN共同開發(fā)出來,并在2001年被ITU采納為P.862規(guī)范。它比較聲源信號和退化信號并給出一個類似人工聽力評估測試的MOS分值。但它的功能要強大得多,不僅能測試像解碼器這樣的網(wǎng)絡(luò)單元的效果,也能測量端到端的聲音質(zhì)量。它著重針對不同的信號退化原因,如編解碼失真、錯誤、丟包、延時、抖動和過濾,給出-0.5到4.5的分值范圍內(nèi)的值。大多數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論