




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、模式識(shí)別(m sh sh bi)導(dǎo)論課程(kchng)論文題 目 基于(jy)Matlab的語(yǔ)音識(shí)別系統(tǒng) 院(系) 專業(yè)學(xué)生名單 指導(dǎo)教師 指導(dǎo)教師工作單位 起訖日期 年 月 至 月 摘 要語(yǔ)音(yyn)是人的自然屬性之一,是人類信息交流的基本手段(shudun)。語(yǔ)音中包含有多種信息,如語(yǔ)義信息、語(yǔ)言信息、說(shuō)話人信息、情感信息等。語(yǔ)音識(shí)別(shbi)就是從語(yǔ)音信號(hào)中識(shí)別出這些信息。按照任務(wù)的不同,語(yǔ)音識(shí)別可以分為四個(gè)方面:說(shuō)話人識(shí)別、語(yǔ)種識(shí)別、關(guān)鍵詞識(shí)別和連續(xù)語(yǔ)音識(shí)別。語(yǔ)音識(shí)別是以聲音作為研究對(duì)象,它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支涉及到生理學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科
2、學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語(yǔ)言(如人在說(shuō)話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語(yǔ)言通信。語(yǔ)音識(shí)別作為一門(mén)兼具理論價(jià)值與應(yīng)用價(jià)值的研究課題,得到越來(lái)越多研究者的興趣和關(guān)注,各種各樣的語(yǔ)音識(shí)別方法層出不窮。本次課程論文通過(guò)分析MFCC系數(shù)和語(yǔ)音識(shí)別的基本原理,應(yīng)用Matlab 設(shè)計(jì)實(shí)驗(yàn)程序并結(jié)合VQ矢量量化模型完成語(yǔ)音識(shí)別的VQ實(shí)現(xiàn)。本次課程論文通過(guò)語(yǔ)音識(shí)別的相關(guān)的背景、步驟以及原理,設(shè)計(jì)了三個(gè)matlab語(yǔ)音識(shí)別實(shí)驗(yàn),并包含了實(shí)驗(yàn)的流程和結(jié)果。在附錄中附有程序代碼,以供參考。關(guān)鍵詞:語(yǔ)音識(shí)別;MatlabABSTRACTVoice is
3、one of the peoples natural attribute, which is the basic means of communication.Voice contains many information, such as semantic information, language information, the speaker, effective information and so on. Voice recognition is to recognize these information from the voice signal. According to t
4、he different roles, voice recognition can be divided to four floor, including the speaker recognition, the type of voice recognition, the key words recognition and the recognition of continuous voice.The voice recognition bases on the voice as a research object, is an important direction for the voi
5、ce recognition process, which is a branch of model recognition involving physiology, psychology, philology, computer science, signal process and other fields, even involving body language. The final target is to make the machine communicate with human beings.In recent years, face recognition researc
6、h topics, which have both theoretical value and application value, attracted more and more researchers. A wide variety of face recognition methods emerge in an endless stream.This thesis analyzes the basic principle of the VQ and voice recognition. And the experimental procedure is designed with mat
7、lab for completing new methods in voice recognition based on VQ.This paper describes the analysis and design background, steps as well as the principle of the process and design three matlab experiments for the voice recognition, which contains experiment process and results. With program code in th
8、e appendix for reference.Key words:Voice recognition; Matlab; 目 錄1.緒論(xln)11.1課題研究(ynji)的目的11.2課題(kt)研究的意義11.3國(guó)內(nèi)外研究概況2原理分析52.1語(yǔ)音識(shí)別系統(tǒng)的特征提取52.2語(yǔ)音識(shí)別系統(tǒng)的分類模型8語(yǔ)音識(shí)別的整體過(guò)程113.1 語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)113.2語(yǔ)音信號(hào)預(yù)處理113.3語(yǔ)音信號(hào)的特征提取153.4用矢量量化聚類法生成碼本163.5VQ的說(shuō)話人識(shí)別174.實(shí)驗(yàn)設(shè)計(jì)184.1實(shí)驗(yàn)一184.2實(shí)驗(yàn)二184.3實(shí)驗(yàn)三19實(shí)驗(yàn)結(jié)果215.1實(shí)驗(yàn)一215.2實(shí)驗(yàn)二235.3實(shí)驗(yàn)三26總結(jié)2
9、77.程序代碼28致謝45參考文獻(xiàn)45 1.緒論(xln)1.1課題研究(ynji)的目的近年來(lái),語(yǔ)音(yyn)識(shí)別作為一門(mén)兼具理論價(jià)值與應(yīng)用價(jià)值的研究課題,得到越來(lái)越多研究者的興趣和關(guān)注,各種各樣的語(yǔ)音識(shí)別方法層出不窮。 本次課程論文通過(guò)語(yǔ)音識(shí)別的基本原理,應(yīng)用Matlab 設(shè)計(jì)實(shí)驗(yàn)程序。1.2課題研究的意義語(yǔ)音識(shí)別是以聲音作為研究對(duì)象它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支涉及到生理學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語(yǔ)言(如人在說(shuō)話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語(yǔ)言通信。語(yǔ)音識(shí)別是近年來(lái)十分
10、活躍的一個(gè)研究領(lǐng)域。語(yǔ)音識(shí)別技術(shù)作為一種重要的人機(jī)交互手段,輔助甚至取代傳統(tǒng)的鍵盤(pán)、鼠標(biāo)等輸入設(shè)備,在個(gè)人計(jì)算機(jī)和手機(jī)等數(shù)碼產(chǎn)品上進(jìn)行文字錄入和操作控制。同時(shí)在手持式PDA、智能家電、工業(yè)現(xiàn)場(chǎng)控制等應(yīng)用場(chǎng)合,語(yǔ)音識(shí)別技術(shù)則有更為廣闊的發(fā)展前景。由于計(jì)算機(jī)功能的日益強(qiáng)大,存儲(chǔ)技術(shù)、語(yǔ)音算法技術(shù)和信號(hào)處理技術(shù)的長(zhǎng)足進(jìn)步,以及軟件編程水平的提高,語(yǔ)音識(shí)別技術(shù)已經(jīng)取得突破性的進(jìn)展。語(yǔ)音識(shí)別技術(shù)的應(yīng)用主要有以下兩個(gè)方面。一是用于人機(jī)交流。語(yǔ)音識(shí)別技術(shù)的采用,改變了人與計(jì)算機(jī)的互動(dòng)模式,人們只需動(dòng)動(dòng)口,就能打開(kāi)或關(guān)閉程序,改變工作界面。這種使電腦人性化的結(jié)果是使人的雙手得到解放,使每個(gè)人都能操作和應(yīng)用計(jì)算
11、機(jī)。語(yǔ)音識(shí)別技術(shù)的另一方面應(yīng)用便是語(yǔ)音輸入和合成語(yǔ)音輸出?,F(xiàn)在,已經(jīng)出現(xiàn)能將口述的文稿輸入計(jì)算機(jī)并按指定格式編排的語(yǔ)音軟件,它比通過(guò)鍵盤(pán)輸入在速度上要提高24倍。裝有語(yǔ)音軟件的電腦還能通過(guò)語(yǔ)音合成把計(jì)算機(jī)里的文件用各種語(yǔ)言“讀”出來(lái),這將大大推進(jìn)遠(yuǎn)程通信和網(wǎng)絡(luò)電話的發(fā)展。在現(xiàn)階段,語(yǔ)音技術(shù)主要用于電子商務(wù)、客戶服務(wù)和教育培訓(xùn)等領(lǐng)域,它對(duì)于節(jié)省人力、時(shí)間,提高工作效率將起到明顯的作用。能實(shí)現(xiàn)自動(dòng)翻譯的語(yǔ)音識(shí)別系統(tǒng)目前也正在研究、完善之中。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái) 10 年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)
12、療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。1.3國(guó)內(nèi)外研究(ynji)概況20世紀(jì)50代,就有人(yu rn)提出“口授(kushu)打印機(jī)”的設(shè)恕??梢哉f(shuō),這是有關(guān)語(yǔ)音識(shí)別技術(shù)最早構(gòu)想。語(yǔ)音識(shí)別技術(shù)經(jīng)歷了語(yǔ)音識(shí)別、語(yǔ)音合成以及自然語(yǔ)音合成3個(gè)階段。從原理上講,似乎讓計(jì)算機(jī)識(shí)別人的語(yǔ)言并不難,其實(shí)困難還是不少的。例如,不同的人讀同一個(gè)詞所發(fā)出的音在聲學(xué)特征上卻不完全相同;即便是同一個(gè)人,右不同情況下對(duì)同一個(gè)字的發(fā)音也不相同。加上人們講話時(shí)常有不合語(yǔ)法規(guī)律的情況,有時(shí)還夾雜些俗語(yǔ),或省略一些詞語(yǔ),而且語(yǔ)速變化不定。所有這些,在我們聽(tīng)別人講話時(shí)似乎都不成為問(wèn)題,但讓機(jī)器理解則很是困難。按照任務(wù)的不同,
13、語(yǔ)音識(shí)別可以分為四個(gè)方面:說(shuō)話人識(shí)別、語(yǔ)種識(shí)別、關(guān)鍵詞識(shí)別和連續(xù)語(yǔ)音識(shí)別。1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國(guó)的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。大規(guī)模的語(yǔ)音識(shí)別3 研究是在進(jìn)入了70年代以后,在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。進(jìn)入80年代以后,研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型 (HMM)的技術(shù)思路。此外,再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別問(wèn)題的技術(shù)思路。進(jìn)入90年代以后,在語(yǔ)音識(shí)別的系統(tǒng)框
14、架方面并沒(méi)有什么重大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。DARPA(Defense Advanced Research Projects Agency)是在70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)10年計(jì)劃,其旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作。到了80年代,美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局又資助了一項(xiàng)為期10年的DARPA戰(zhàn)略計(jì)劃,其中(qzhng)包括噪聲下的語(yǔ)音識(shí)別和會(huì)話(口語(yǔ))識(shí)別系統(tǒng),識(shí)別任務(wù)設(shè)定為“(1000單詞)連續(xù)語(yǔ)音(yyn)數(shù)據(jù)庫(kù)管理”。到了90年代,這一DARPA計(jì)劃仍在持續(xù)進(jìn)行中。其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置(zhungzh)中的自然語(yǔ)言處理部分,識(shí)別
15、任務(wù)設(shè)定為“航空旅行信息檢索”。日本也在1981年的第五代計(jì)算機(jī)計(jì)劃中提出了有關(guān)語(yǔ)音識(shí)別輸入-輸出自然語(yǔ)言的宏偉目標(biāo),雖然沒(méi)能實(shí)現(xiàn)預(yù)期目標(biāo),但是有關(guān)語(yǔ)音識(shí)別技術(shù)的研究有了大幅度的加強(qiáng)和進(jìn)展。1987年起,日本又?jǐn)M出新的國(guó)家項(xiàng)目高級(jí)人機(jī)口語(yǔ)接口和自動(dòng)電話翻譯系統(tǒng)。中國(guó)發(fā)展中國(guó)的語(yǔ)音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。直至1973年才由中國(guó)科學(xué)院聲學(xué)所開(kāi)始計(jì)算機(jī)語(yǔ)音識(shí)別。由于當(dāng)時(shí)條件的限制,中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。進(jìn)入80年代以后,隨著計(jì)算機(jī)應(yīng)用技術(shù)在中國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件
16、。與此同時(shí),國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)了多年的沉寂之后重又成為研究的熱點(diǎn),發(fā)展迅速。就在這種形式下,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。1986年3月中國(guó)高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專門(mén)列為研究課題。在863計(jì)劃的支持下,中國(guó)開(kāi)始了有組織的語(yǔ)音識(shí)別技術(shù)的研究,并決定了每隔兩年召開(kāi)一次語(yǔ)音識(shí)別的專題會(huì)議。從此中國(guó)的語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段。目前在大詞匯語(yǔ)音識(shí)別方面處于領(lǐng)先地位的IBM語(yǔ)音研究小組,就是在70年代開(kāi)始了它的大詞匯語(yǔ)音識(shí)別研究工作的。AT&T的貝爾研究所也開(kāi)始了一系列有關(guān)非特定人語(yǔ)音識(shí)別的實(shí)驗(yàn)。這一研究歷經(jīng)1
17、0年,其成果是確立了如何制作用于非特定人語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板的方法。這一時(shí)期所取得的重大進(jìn)展有:隱式馬爾科夫模型(HMM)技術(shù)的成熟和不斷完善成為語(yǔ)音識(shí)別的主流方法。以知識(shí)為基礎(chǔ)的語(yǔ)音識(shí)別的研究日益受到重視。在進(jìn)行連續(xù)語(yǔ)音識(shí)別的時(shí)候,除了(ch le)識(shí)別聲學(xué)信息外,更多地利用各種語(yǔ)言知識(shí),諸如構(gòu)詞、句法、語(yǔ)義、對(duì)話背景方面等的知識(shí)來(lái)幫助進(jìn)一步對(duì)語(yǔ)音作出識(shí)別和理解。同時(shí)在語(yǔ)音識(shí)別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計(jì)概率的語(yǔ)言模型。人工神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究的興起。在這些研究中,大部分采用基于反向傳播算法(BP算法)的多層感知網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類邊界的能力(nngl),顯然它十分有助
18、于模式劃分。特別是在電話語(yǔ)音識(shí)別方面,由于其有著廣泛的應(yīng)用前景,成了當(dāng)前語(yǔ)音識(shí)別應(yīng)用的一個(gè)熱點(diǎn)。另外,面向個(gè)人用途的連續(xù)語(yǔ)音聽(tīng)寫(xiě)機(jī)技術(shù)也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系統(tǒng)。這些系統(tǒng)具有(jyu)說(shuō)話人自適應(yīng)能力,新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練,便可在使用中不斷提高識(shí)別率。中國(guó)的語(yǔ)音識(shí)別技術(shù)的發(fā)展 :在北京有中科院聲學(xué)所、自動(dòng)化所、清華大學(xué)、北方交通大學(xué)等科研機(jī)構(gòu)和高等院校。另外,還有哈爾濱工業(yè)大學(xué)、中國(guó)科技大學(xué)、四川大學(xué)等也紛紛行動(dòng)起來(lái)?,F(xiàn)在,國(guó)內(nèi)有不少語(yǔ)音識(shí)別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色。 = 1 * GB3
19、 * MERGEFORMAT 在孤立字大詞匯量語(yǔ)音識(shí)別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國(guó)電子器件公司合作研制成功的THED-919特定人語(yǔ)音識(shí)別與理解實(shí)時(shí)系統(tǒng)。 = 2 * GB3 * MERGEFORMAT 在連續(xù)語(yǔ)音識(shí)別方面,91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語(yǔ)漢語(yǔ)語(yǔ)音翻譯演示系統(tǒng)。 = 3 * GB3 * MERGEFORMAT 在非特定人語(yǔ)音識(shí)別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號(hào)系統(tǒng)并投入實(shí)際使用。2.原理(yunl)分析2.1 語(yǔ)音(yyn)識(shí)別系統(tǒng)的特征提取語(yǔ)音識(shí)別系統(tǒng)中的特征提取即提出適合分類的某些信
20、息特征(如說(shuō)話(shu hu)人,或語(yǔ)言特征,或關(guān)鍵詞特征),次特征應(yīng)能有效地區(qū)分不同的模式,而且對(duì)同種方式的變化保持相對(duì)穩(wěn)定。目前的語(yǔ)音識(shí)別系統(tǒng)主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。語(yǔ)音識(shí)別特征大致可以分為3類:(1)線性預(yù)測(cè)系數(shù)及其派生參數(shù),如線性預(yù)測(cè)系數(shù)(LPC)、線譜對(duì)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)及其組合參數(shù)。(2)由語(yǔ)音頻譜直接導(dǎo)出的參數(shù),如基音(Pitch)及其輪廓、美爾頻率倒譜系數(shù)(MFCC)、感知線性預(yù)測(cè)(PLP)參數(shù)、口音敏感倒譜系數(shù)(ASCC)。(3)混合參數(shù)?;旌蠀?shù)由以上不同的參數(shù)組成的矢量。語(yǔ)音識(shí)別中幾種常用的參數(shù):線性預(yù)測(cè)系數(shù)(LPC)語(yǔ)音產(chǎn)生的線性預(yù)測(cè)模型是2
21、0世紀(jì)50年代提出的,其中,聲道和嘴唇的聲輻射以及聲門(mén)激勵(lì)的組合譜效應(yīng)被模型化為一個(gè)時(shí)變數(shù)字濾波器,其穩(wěn)態(tài)系統(tǒng)傳輸函數(shù)為 ,該式子把語(yǔ)音信號(hào)s(n)建模成一個(gè)P階的AR過(guò)程。對(duì)于濁音段,此系統(tǒng)受準(zhǔn)周期沖激串激勵(lì);對(duì)于清音段,該系統(tǒng)則受隨機(jī)噪聲序列激勵(lì)。此模型的參數(shù)有濁音/清音判決、濁音語(yǔ)音的基音周期、增益常數(shù)G及數(shù)字濾波器參數(shù)。利用該傳輸函數(shù)可得到語(yǔ)音信號(hào)s(n)合成的差分方程為,可以看出,s(n)是前P個(gè)語(yǔ)音(yyn)信號(hào)采樣值s(n-1),s(n-2),s(n-P)的線性組合,因此(ync)該語(yǔ)音產(chǎn)生模型通常被稱為線性預(yù)測(cè)(LP)模型或自回歸(AR)模型。(k=1,2,P)為線性預(yù)測(cè)系數(shù),
22、是從語(yǔ)音信號(hào)中提取出來(lái)的。聲道形狀在時(shí)間上是變化的,所以預(yù)測(cè)系數(shù)也是時(shí)變的。根據(jù)語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性,可認(rèn)為(rnwi)語(yǔ)音在每一個(gè)分析幀(1030ms)上是非時(shí)變的,從而計(jì)算得到一組預(yù)測(cè)系數(shù)。計(jì)算預(yù)測(cè)系數(shù)的常用方法是自相關(guān)法,其思想為使預(yù)測(cè)誤差e(n)的均方值最小。,其中:,稱做s(n)的預(yù)測(cè)值或估計(jì)值。計(jì)算的準(zhǔn)則是使極小,故令得到一個(gè)線性方程組: 其中稱為語(yǔ)音短時(shí)自相關(guān)系數(shù),N為語(yǔ)音幀的樣點(diǎn)數(shù),P為預(yù)測(cè)器階數(shù),用德賓(Durbin)算法解方程式即可得(k=1,2,P)。Levinson-Durbin遞推算法求解過(guò)程:采用Durbin算法(sun f)遞推時(shí),從零階預(yù)測(cè)開(kāi)始,此時(shí)P=0,可以
23、(ky)逐步遞推出一直(yzh)到。最后用確定增益G值。其中各階預(yù)測(cè)系數(shù)的最后一個(gè)值被定義為偏相關(guān)系數(shù),整個(gè)遞推過(guò)程為(1)(2)(3)(4)(5)如果iP則轉(zhuǎn)到(2),如果i=P則終止計(jì)算。最終解為,其中代表第n幀的自相關(guān)函數(shù),表示第i階預(yù)測(cè)器的第j個(gè)預(yù)測(cè)系數(shù),計(jì)算結(jié)束后會(huì)得到各階預(yù)測(cè)器的預(yù)測(cè)系數(shù)、反射系數(shù)和各階預(yù)測(cè)誤差功率。線性預(yù)測(cè)倒譜系數(shù)(LPCC)同態(tài)信號(hào)處理就是將非線性問(wèn)題轉(zhuǎn)化為線性問(wèn)題來(lái)進(jìn)行處理的一種方法。對(duì)語(yǔ)音信號(hào)產(chǎn)生過(guò)程建模成一個(gè)激勵(lì)信號(hào)通過(guò)時(shí)變系統(tǒng)的過(guò)程,即一個(gè)卷積的過(guò)程,卷積作為一個(gè)非線性問(wèn)題可使用同臺(tái)處理來(lái)解決。LPC系數(shù)可以用來(lái)估計(jì)語(yǔ)音信號(hào)的倒譜,這也是語(yǔ)音信號(hào)短時(shí)倒譜
24、分析中一種特殊的處理方法。聲道傳輸函數(shù)H(z)的沖激響應(yīng)為h(n),首先求序列h(n)的倒譜。因?yàn)镠(z)是最小相位的,所以可以求出和之間的遞推關(guān)系為 由上式可以直接(zhji)從預(yù)測(cè)系數(shù)推得倒譜,由于這個(gè)倒譜是從線性預(yù)測(cè)系數(shù)得到的,因此又稱之為L(zhǎng)PC倒譜(LPCC)。由于LPCC利用(lyng)了線性預(yù)測(cè)中聲道傳輸函數(shù)H(z)的最小相位特性,因此避免了一般同態(tài)處理中求復(fù)對(duì)數(shù)而帶來(lái)的相位卷繞的問(wèn)題。美爾頻率(pnl)倒譜系數(shù)(MFCC)MFCC不同于LPCC,它是在頻譜上采用濾波器組的方法計(jì)算出來(lái)的,這組濾波器在頻率的美爾(Mel)坐標(biāo)上是等帶寬的。這是因?yàn)槿祟愒趯?duì)1000Hz以下的聲音頻率范
25、圍的感知遵循近似線性關(guān)系。美爾刻度與頻率的關(guān)系式為 MFCC正是基于這個(gè)現(xiàn)象提出的,它的計(jì)算過(guò)程如下圖所示圖2 MFCC的計(jì)算過(guò)程語(yǔ)音信號(hào)在經(jīng)過(guò)加窗處理后變?yōu)槎虝r(shí)信號(hào),用FFT計(jì)算它的能量譜之后,通過(guò)一個(gè)具有40個(gè)濾波器的濾波器組,前13個(gè)濾波器在1000Hz以下是線性劃分的,后27個(gè)濾波器在1000Hz以上是在美爾坐標(biāo)上線性劃分的。如果表示第k個(gè)濾波器的輸出能量,則美爾頻率倒譜在美爾刻度譜上可以采用修改的離散余弦變換(DCT)求得,其中,P為MFCC參數(shù)的階數(shù)。2.2 語(yǔ)音識(shí)別系統(tǒng)的分類模型 模型建立是指在訓(xùn)練階段用合適的模型來(lái)表征這些參數(shù),使得模型能夠代表該語(yǔ)言的語(yǔ)音特性。對(duì)模型的選擇主要
26、應(yīng)從語(yǔ)音的類型、所期望的性能、訓(xùn)練和更新的難易程度以及計(jì)算量和存儲(chǔ)量等方面綜合考慮??煞譃橐韵滤念悾耗0迤ヅ淠P停簭拿糠N模型的訓(xùn)練語(yǔ)句中提取相應(yīng)的特征矢量,這些特征矢量稱為模板。識(shí)別時(shí),從語(yǔ)音信號(hào)中按同樣的處理法提取測(cè)試模板,并且與其(yq)相應(yīng)的參考模板相比較。模板匹配模型的不足之處在于不能全面地反映樣本分布及統(tǒng)計(jì)特性,適應(yīng)性較差。典型的模板匹配模型有最鄰近(NN)模型、動(dòng)態(tài)時(shí)間規(guī)整(DTW)模型和矢量量化(VQ)模型。概率統(tǒng)計(jì)生成模型(又稱參數(shù)模型):語(yǔ)音信號(hào)(xnho)具有短時(shí)平穩(wěn)性,通過(guò)對(duì)穩(wěn)態(tài)特征如基音、聲門(mén)增益、低階反射系數(shù)的統(tǒng)計(jì)分析,可以利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類
27、判決。概率統(tǒng)計(jì)生成模型采用某種概率密度函數(shù)來(lái)描述語(yǔ)音特性在特性空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)作為語(yǔ)音模型。概率統(tǒng)計(jì)生成模型由于考慮了語(yǔ)音的統(tǒng)計(jì)特性,能較全面地反映語(yǔ)音的統(tǒng)計(jì)信息,其優(yōu)點(diǎn)是不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整。典型的概率統(tǒng)計(jì)生成模型有隱馬爾可夫模型(HMM)和高斯混合模型(GMM)。神經(jīng)網(wǎng)絡(luò)模型(ANN):人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,它是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的穩(wěn)健性,其性能近似理想的分類器。其缺點(diǎn)是訓(xùn)練時(shí)間長(zhǎng),動(dòng)態(tài)時(shí)間規(guī)整哪里弱。目前(mqin)常用的神經(jīng)網(wǎng)絡(luò)模型有多層次感知
28、器(MLP)、徑向基函數(shù)(RBF)網(wǎng)絡(luò)、自組織映射(SOM)網(wǎng)絡(luò)和支持向量機(jī)(SVM)網(wǎng)絡(luò)等。融合模型:把以上分類方法與不同特征進(jìn)行有機(jī)組合可顯著提高語(yǔ)音識(shí)別的性能。動(dòng)態(tài)時(shí)間規(guī)整(DTW)模型:由于語(yǔ)速、語(yǔ)調(diào)、重音和韻律的變化,語(yǔ)音信息存在時(shí)變因素,從而使得測(cè)試模板和參考模板在時(shí)間尺度上可能不完全一致。因此,需要將識(shí)別模板和參考模板進(jìn)行時(shí)間對(duì)齊,按照某種距離測(cè)度計(jì)算兩模板間的相似程度。模板序列與輸入序列不均勻匹配得分z定義為 ,其中,模板標(biāo)記j(i)是由基于最鄰近原則的動(dòng)態(tài)時(shí)間規(guī)整法(DTW)給出的。DTW算法使z最小化,將兩個(gè)信號(hào)進(jìn)行時(shí)間上的對(duì)齊。在時(shí)間對(duì)齊后,最終的距離和是匹配得分基礎(chǔ)。矢
29、量(shling)量化(VQ)模型:一般采用LBG算法把訓(xùn)練數(shù)據(jù)進(jìn)行聚類生成碼本,即參考模板的集合。識(shí)別(shbi)時(shí),對(duì)輸入矢量進(jìn)行矢量量化,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。L幀測(cè)試語(yǔ)音矢量的匹配(ppi)得分為 ,其中,C是參考模板的集合。VQ模型不需對(duì)要時(shí)間進(jìn)行對(duì)齊,具有復(fù)雜度低、精度較高以及判斷速度快的優(yōu)點(diǎn)。3、隱馬爾可夫模型(HMM):隱馬爾可夫模型把語(yǔ)音建模成由可觀察的符號(hào)序列組成的隨機(jī)過(guò)程,符號(hào)序列是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。HMM為有限狀態(tài)的隨機(jī)過(guò)程,從狀態(tài)到狀態(tài)的轉(zhuǎn)移概率為;對(duì)應(yīng)于狀態(tài),語(yǔ)音特征x(隨機(jī)向量)的概率密度函數(shù)為。由給定模型M產(chǎn)生具有L幀語(yǔ)音特征向量(連續(xù))的似然值
30、為,其中,表示所有可能狀態(tài)的集合。對(duì)于離散的語(yǔ)音特征向量,和為相應(yīng)的概率。在使用HMM識(shí)別時(shí),為每個(gè)說(shuō)話人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和語(yǔ)音特征向量的概率密度矩陣。識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大似然值或概率,根據(jù)最大似然值或概率的模型進(jìn)行判決。高斯混合模型(GMM):高斯混合模型本質(zhì)上是一種多維概率密度函數(shù),可以用來(lái)表示語(yǔ)音特征矢量的分布。一個(gè)具有M個(gè)混合數(shù)的D維GMM,其概率密度函數(shù)用M個(gè)高斯分量的加權(quán)和來(lái)表示,即 ,其中,x是一個(gè)D維德觀測(cè)矢量;為混合權(quán)值,滿足 ;為D維高斯密度函數(shù),即其中(qzhng),為均值(jn zh)矢量;為協(xié)方差矩陣(j zhn);D是參
31、數(shù)的維數(shù)高斯混合模型可由各均值矢量、協(xié)方差矩陣及混合權(quán)值來(lái)描述,可表示為三元式 在GMM模型中,首先對(duì)特征矢量進(jìn)行聚類,把每一類看做是一個(gè)多維高斯分布函數(shù);然后,求出每一類的均值、協(xié)方差矩陣和出現(xiàn)的概率,得到每種模式的訓(xùn)練模板;最后,將觀測(cè)序列代入每個(gè)模板,對(duì)應(yīng)于最大的后驗(yàn)概率的模板作為所識(shí)別的對(duì)象。3.語(yǔ)音識(shí)別的整體過(guò)程3.1 語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)典型的語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)框圖如下圖所示,一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)包括預(yù)處理、特征提取、模型建立、模式匹配和判決規(guī)則(guz)等5個(gè)部分。圖1 語(yǔ)音(yyn)識(shí)別系統(tǒng)的結(jié)構(gòu)框圖 語(yǔ)音識(shí)別是屬于人工智能領(lǐng)域中的一項(xiàng)技術(shù)(jsh),從本質(zhì)上講,語(yǔ)音識(shí)別技術(shù)是一
32、個(gè)語(yǔ)音信號(hào)模式識(shí)別問(wèn)題,它由訓(xùn)練(或注冊(cè))和識(shí)別(或測(cè)試)兩個(gè)階段完成。從訓(xùn)練語(yǔ)音中提取語(yǔ)音特征、建立參考模型并儲(chǔ)存的過(guò)程稱為訓(xùn)練階段;從待識(shí)別語(yǔ)音中提取語(yǔ)音特征,依據(jù)參考模型進(jìn)行比較和判決的過(guò)程稱為識(shí)別階段。3.2 語(yǔ)音信號(hào)預(yù)處理 實(shí)際的語(yǔ)音信號(hào)是模擬信號(hào),因此在對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字處理之前,首先要將模擬語(yǔ)音信號(hào)s(t)以采樣周期T采樣,將其離散化為s(n),采樣周期的選取應(yīng)根據(jù)模擬語(yǔ)音信號(hào)的帶寬來(lái)確定,以避免信號(hào)的頻域混疊失真。在對(duì)離散后的語(yǔ)音信號(hào)進(jìn)行量化處理過(guò)程中會(huì)帶來(lái)一定的量化噪聲和失真。語(yǔ)音信號(hào)的預(yù)處理包括預(yù)加重和加窗分幀處理。3.2.1 語(yǔ)音信號(hào)預(yù)加重處理 預(yù)加重的目的是提升高頻部分
33、,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。用預(yù)加重?cái)?shù)字濾波器來(lái)實(shí)現(xiàn),它一般是一階的數(shù)字濾波器:,其中,為預(yù)加重系數(shù),一般3.2.2 語(yǔ)音信號(hào)(xnho)分幀處理進(jìn)行預(yù)加重?cái)?shù)字濾波器處理之后,接下來(lái)就要進(jìn)行加窗分幀處理。分幀是用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)的,即用一定的窗函數(shù)w(n)來(lái)乘以s(n),從而形成(xngchng)加窗語(yǔ)音信號(hào)在語(yǔ)音信號(hào)數(shù)字處理(chl)中常用的窗函數(shù)有兩種,一種是矩形窗,另一種是漢明窗。矩形窗 ,其中,N為幀長(zhǎng)clear all;x=linspace(0,100,1000); %在0到100
34、的橫坐標(biāo)間取10000個(gè)點(diǎn)h=zeros(10000,1); %為矩陣h賦0值h(1001:8000)=1; %矩形窗長(zhǎng),窗內(nèi)取值為1subplot(211);plot(h); %畫(huà)時(shí)域波形title(矩形窗時(shí)域波形,fontsize,18);xlabel(樣點(diǎn)數(shù),fontsize,18);ylabel(幅度,fontsize,18);axis(0,10000,-1,2);w=h(1001:1060); %取窗長(zhǎng)內(nèi)的60個(gè)數(shù)據(jù)點(diǎn)W=fft(w,1024); %對(duì)時(shí)域信號(hào)進(jìn)行1024點(diǎn)的傅里葉變換W2=W/W(1); %幅度(fd)歸一化W3=20*log10(abs(W2); %對(duì)歸一化幅度(
35、fd)取對(duì)數(shù)W4=2*0:511/1024; %頻率(pnl)歸一化subplot(212);plot(W4,W3(1:512); %畫(huà)幅頻特性圖title(矩形窗幅頻特性,fontsize,18);xlabel(歸一化頻率,fontsize,18);ylabel(幅度/dB,fontsize,18);漢明窗 在確定了窗函數(shù)以后,對(duì)語(yǔ)音信號(hào)的分幀處理,實(shí)際上就是對(duì)各幀進(jìn)行某種變換或運(yùn)算。設(shè)這種變化或運(yùn)算用T表示,x(n)為輸入語(yǔ)音信號(hào),w(n)為窗序列,h(n)是與w(n)有關(guān)的濾波器,則各幀經(jīng)處理后的輸出可以表示為,這樣經(jīng)過(guò)上述處理過(guò)程,語(yǔ)音信號(hào)就已經(jīng)被分割成一幀一幀的加過(guò)窗函數(shù)的短時(shí)信號(hào),
36、然后再把每一個(gè)短時(shí)語(yǔ)音信號(hào)幀看成平穩(wěn)的隨機(jī)信號(hào),利用數(shù)字信號(hào)處理技術(shù)來(lái)提取語(yǔ)音特征參數(shù)。在進(jìn)行處理時(shí),按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取下一幀,等等,最后得到由每一幀參數(shù)組成的語(yǔ)音特征參數(shù)的時(shí)間序列。clear all;h=hamming(60); %取60個(gè)點(diǎn)的漢明窗值subplot(211);plot(h); %畫(huà)時(shí)域波形title(漢明窗時(shí)域波形,fontsize,18);xlabel(樣點(diǎn)數(shù),fontsize,18);ylabel(幅度(fd),fontsize,18);H=fft(h,1024); %對(duì)時(shí)域信號(hào)進(jìn)行(jnxng)1024點(diǎn)的傅里葉變換H1=H/H(1);H2=20
37、*log10(abs(H1);H3=2*0:511/1024;subplot(212);plot(H3,H2(1:512); %畫(huà)幅頻特性圖title(漢明窗幅頻特性,fontsize,18);xlabel(歸一化頻率(pnl),fontsize,18);ylabel(幅度/dB,fontsize,18);3.2.3 端點(diǎn)檢測(cè)語(yǔ)音信號(hào)起止點(diǎn)的判別式任何一個(gè)語(yǔ)音識(shí)別系統(tǒng)必不可少的組成部分。因?yàn)橹挥袦?zhǔn)確地找出語(yǔ)音段的起始點(diǎn)和終止點(diǎn),才有可能使采集到的數(shù)據(jù)是真正要分析的語(yǔ)音信號(hào),這樣不但減少了數(shù)據(jù)量、運(yùn)算量和處理時(shí)間,同時(shí)也有利于系統(tǒng)識(shí)別率的改善。常用的端點(diǎn)檢測(cè)方法有兩種:短時(shí)平均幅度 端點(diǎn)檢測(cè)中需
38、要計(jì)算信號(hào)的短時(shí)能量,由于短時(shí)能量的計(jì)算涉及到平方運(yùn)算,而平方運(yùn)算擴(kuò)大了振幅不等的任何相鄰取樣值之間的幅度差別,給窗的寬度選擇帶來(lái)了困難,因?yàn)楸仨氂幂^寬的窗才能對(duì)取樣間的平方幅度起伏有較好的平滑效果,然而又可能導(dǎo)致短時(shí)能量反映不出語(yǔ)音能量的時(shí)變特點(diǎn)。而用短時(shí)平均幅度來(lái)表示語(yǔ)音能量,在一定程度上可以克服這個(gè)弊端。短時(shí)平均過(guò)零率 當(dāng)離散信號(hào)的相鄰兩個(gè)取樣值具有不同的符號(hào)時(shí),便出現(xiàn)過(guò)零現(xiàn)象,單位時(shí)間內(nèi)過(guò)零的次數(shù)叫做過(guò)零率。如果離散時(shí)間的包絡(luò)是窄帶信號(hào),那么過(guò)零率可以比較準(zhǔn)確地反映該信號(hào)的頻率。在寬帶信號(hào)情況下,過(guò)零率只能粗略地反映信號(hào)的頻譜特性。端點(diǎn)檢測(cè)系統(tǒng)包括語(yǔ)音預(yù)處理模塊、能量和過(guò)零率參數(shù)提取模
39、塊、端點(diǎn)檢測(cè)模塊,下圖為基于能量和過(guò)零率的兩級(jí)三門(mén)限判決的語(yǔ)音端點(diǎn)檢測(cè)系統(tǒng)的框架?;谀芰亢瓦^(guò)零率的語(yǔ)音端點(diǎn)檢測(cè)算法步驟(bzhu)如下: = 1 * GB3 * MERGEFORMAT 語(yǔ)音信號(hào)(xnho)進(jìn)行預(yù)加重和分幀處理,對(duì)語(yǔ)音的高頻部分進(jìn)行了加重,增加了語(yǔ)音的高頻分辨率,同時(shí)將分幀后的信號(hào)記為,n為離散語(yǔ)音信號(hào)時(shí)間(shjin)序列,N為幀長(zhǎng) = 2 * GB3 * MERGEFORMAT 計(jì)算每一幀語(yǔ)音信號(hào)的短時(shí)能量和短時(shí)過(guò)零率 = 3 * GB3 * MERGEFORMAT 考察語(yǔ)音的平均能量設(shè)置一個(gè)較高的門(mén)限,用以確定語(yǔ)音開(kāi)始;然后再根據(jù)背景噪聲平均能量確定一個(gè)稍低門(mén)限,用以確
40、定第一級(jí)中的語(yǔ)音結(jié)束點(diǎn)。完成第一級(jí)判決,然后根據(jù)背景噪聲的平均過(guò)零率來(lái)設(shè)置第三個(gè)門(mén)限,最終判斷出語(yǔ)音的準(zhǔn)確的邊界點(diǎn)。3.3 語(yǔ)音識(shí)別的特征提取 語(yǔ)音線性預(yù)測(cè)的基本思想是:由于語(yǔ)言樣點(diǎn)之間存在相關(guān)性,所以可以用過(guò)去的樣點(diǎn)值來(lái)預(yù)測(cè)現(xiàn)在或未來(lái)的樣點(diǎn)值,即一個(gè)語(yǔ)音信號(hào)的抽樣值可以用過(guò)去若干個(gè)取樣值得線性組合來(lái)逼近。通過(guò)使實(shí)際語(yǔ)音抽樣和線性預(yù)測(cè)抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值來(lái)決定唯一的一組預(yù)測(cè)系數(shù)。3.3.1 LPC譜估計(jì) 根據(jù)語(yǔ)音信號(hào)產(chǎn)生的模型,語(yǔ)音的功率譜等于激勵(lì)源功率譜與各極點(diǎn)線性濾波器頻率特性的模的平方的乘積。由于激勵(lì)源是準(zhǔn)周期沖擊序列或白噪聲,其功率是平坦的,因此,語(yǔ)音的功率譜主要由全極
41、點(diǎn)線性濾波器頻率特性決定。所以,LPC可以看作是對(duì)語(yǔ)音信號(hào)的短時(shí)譜進(jìn)行估計(jì)的一種有效方法。3.3.2 LPC倒譜估計(jì)語(yǔ)音信號(hào)的倒譜分析就是求取語(yǔ)音倒譜特征系數(shù)的過(guò)程,它可以通過(guò)同態(tài)處理來(lái)實(shí)現(xiàn)。同態(tài)信號(hào)處理也稱為同態(tài)濾波,它實(shí)現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理,即解卷。對(duì)語(yǔ)音信號(hào)進(jìn)行解卷,可將語(yǔ)音信號(hào)的聲門(mén)激勵(lì)信息及聲道響應(yīng)信息分離出來(lái),從而求得聲道共振特征和基音周期。當(dāng)預(yù)測(cè)階數(shù)很大時(shí),語(yǔ)音信號(hào)的短時(shí)譜滿足,因此可以認(rèn)為包含了語(yǔ)音信號(hào)譜的包絡(luò)信息,即可近似認(rèn)為等價(jià)于原始信號(hào)x(n)的短時(shí)譜,通過(guò)對(duì)倒譜的分析,可以分別估計(jì)語(yǔ)音信號(hào)短時(shí)譜包絡(luò)和聲門(mén)激勵(lì)參數(shù),實(shí)現(xiàn)方法如下:直接從LPC系數(shù)估計(jì)(g
42、j)語(yǔ)音信號(hào)的短時(shí)譜包絡(luò)先通過(guò)信號(hào)做FFT、對(duì)數(shù)變換運(yùn)算(yn sun),然后再求得逆FFT以及選用(xunyng)適當(dāng)?shù)妮o助因子獲得倒譜,并用低時(shí)窗取出譜包絡(luò)信息經(jīng)線性預(yù)測(cè)分析取得H(z),然后遞推出LPC倒譜,從而求得短時(shí)譜包絡(luò)。3.3.2 MFCC參數(shù)MFCC參數(shù)的提取過(guò)程如下:對(duì)語(yǔ)音信號(hào)進(jìn)行分幀、加窗,然后作離散時(shí)間傅里葉變換,獲得頻譜分布信息。設(shè)語(yǔ)音信號(hào)為,其中,x(n)為語(yǔ)音信號(hào),N為傅里葉變換的點(diǎn)數(shù)。求頻譜幅度的平方,得到能量譜將能量譜通過(guò)一組Mel尺度的三角形濾波器組。定義一個(gè)有M個(gè)濾波器的濾波器組(濾波器的個(gè)數(shù)和臨界帶的個(gè)數(shù)相近),采用的濾波器為三角濾波器,中心頻率為f(m)
43、,m=1,2,3,M(本系統(tǒng)取M=100)計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量 ,其中,為三角濾波器的頻率響應(yīng)經(jīng)過(guò)離散弦變換(DCT)得到MFCC系數(shù) ,MFCC系數(shù)個(gè)數(shù)通常取20-30,一般不用0階倒譜系數(shù),所以,在一般識(shí)別系統(tǒng)中,將其稱為能量系數(shù),并不作為倒譜系數(shù),本系統(tǒng)選取20階倒譜系數(shù)。3.4 用矢量量化聚類法生成碼本將每個(gè)待識(shí)別的說(shuō)話人看作是一個(gè)信源,用一個(gè)碼本來(lái)表征。碼本是從該說(shuō)話人的訓(xùn)練序列中提取的MFCC特征矢量聚類而生成。只要訓(xùn)練的序列足夠長(zhǎng),可認(rèn)為這個(gè)碼本有效地包含了說(shuō)話人的個(gè)人特征,而與講話的內(nèi)容無(wú)關(guān)。本系統(tǒng)采用基于分裂的LBG算法設(shè)計(jì)VQ碼本,為訓(xùn)練序列,B為碼本。具體實(shí)現(xiàn)過(guò)
44、程如下:取提取出來(lái)的所有幀的特征矢量的均值(jn zh)作為第一個(gè)碼字矢量B1;將當(dāng)前的碼本Bm根據(jù)以下規(guī)則(guz)分裂,形成2m個(gè)碼字,其中(qzhng),m從1變化到當(dāng)前碼本的碼字?jǐn)?shù),為分裂時(shí)的參數(shù),(3)根據(jù)得到的碼本把所有的訓(xùn)練序列(特征矢量)進(jìn)行分類,然后按照下面兩個(gè)公式計(jì)算訓(xùn)練矢量量化失真量的總和D以及相對(duì)失真(n為迭代次數(shù),初始n=0,B為當(dāng)前的碼書(shū)),若相對(duì)失真小于某一閾值,迭代結(jié)束,當(dāng)前的碼書(shū)就是設(shè)計(jì)好的2m個(gè)碼字的碼書(shū),轉(zhuǎn)到(5),否則,轉(zhuǎn)到下一步(4)重新計(jì)算各個(gè)區(qū)域的新型心,得到新的碼書(shū),轉(zhuǎn)到(3)(5)重復(fù)(2)、(3)和(4)步,直到形成有M個(gè)碼字的碼書(shū),其中D0
45、=100003.5 VQ的說(shuō)話人識(shí)別 設(shè)未知的說(shuō)話人的特征矢量,共有T幀是訓(xùn)練階段形成的碼書(shū),表示第i個(gè)碼書(shū)第m個(gè)碼字,共有N個(gè)碼書(shū)(即N個(gè)說(shuō)話人),每個(gè)碼書(shū)有M個(gè)碼字。則對(duì)于說(shuō)話人識(shí)別用來(lái)計(jì)算第i個(gè)說(shuō)話人的平均量化失真Di,然后用同樣的方法求出,則最終的識(shí)別結(jié)果就是Di最小者所對(duì)應(yīng)的那個(gè)i,即是所識(shí)別的那個(gè)人。4.實(shí)驗(yàn)設(shè)計(jì)4.1 實(shí)驗(yàn)(shyn)一 先讀入原始語(yǔ)音信號(hào),顯示其波形,然后通過(guò)預(yù)加重濾波器,即可得到預(yù)加重語(yǔ)音信號(hào),之后就可以(ky)對(duì)語(yǔ)音信號(hào)進(jìn)行短時(shí)平均幅度和平均過(guò)零率分析,同時(shí),也可以通過(guò)相應(yīng)的計(jì)算得到語(yǔ)音信號(hào)的部分特征參數(shù)(LPC譜和LPC倒譜)4.2 實(shí)驗(yàn)(shyn)二主程
46、序:MFCC函數(shù)(hnsh):分幀函數(shù)(hnsh)blockFrames:LBG算法的具體實(shí)現(xiàn)(shxin)過(guò)程詳見(jiàn)3.3用矢量量化聚類法生成碼本訓(xùn)練函數(shù)train:識(shí)別函數(shù)test:4.3 實(shí)驗(yàn)(shyn)三 本次實(shí)驗(yàn)用到的錄音為5個(gè)不同男聲,均為男歌手,各截取一段10秒鐘的音頻,實(shí)驗(yàn)過(guò)程(guchng)如下:打開(kāi)matlab,使當(dāng)前工作目錄(ml)為錄音及程序所在的文件夾(F:C盤(pán)文件DocumentsMATLAB)進(jìn)行訓(xùn)練:在命令行窗口中輸入:train:(F:C盤(pán)文件DocumentsMATLAB,5),回車(chē)進(jìn)行測(cè)試:在命令行窗口中輸入:test:(F:C盤(pán)文件DocumentsMAT
47、LAB,5,ans),回車(chē)由運(yùn)行結(jié)果可知,5個(gè)人的識(shí)別中,全部都識(shí)別正確,成功率達(dá)到(d do)了100%,所以,可以認(rèn)為是實(shí)現(xiàn)了語(yǔ)音識(shí)別的功能。5.實(shí)驗(yàn)(shyn)結(jié)果5.1 實(shí)驗(yàn)(shyn)一原始語(yǔ)音信號(hào)及其預(yù)加重處理后的波形如下圖所示不同(b tn)矩形窗長(zhǎng)對(duì)應(yīng)的短時(shí)平均幅度如下圖所示原始語(yǔ)音信號(hào)(xnho)及其短時(shí)平均過(guò)零率如下圖所示語(yǔ)音信號(hào)(xnho)的短時(shí)譜和LPC譜估計(jì)如下圖所示語(yǔ)音(yyn)信號(hào)的短時(shí)譜和LPC倒譜估計(jì)如下圖所示5.2 實(shí)驗(yàn)(shyn)二運(yùn)行(ynxng)主函數(shù)后,命令行窗口截圖如下原始(yunsh)語(yǔ)音信號(hào)s1的波形如下圖所示線性能量(nngling)譜及其對(duì)
48、數(shù)能量譜如下圖所示不同幀長(zhǎng)的對(duì)數(shù)能量譜如下圖所示Mel尺度(chd)濾波器組如下圖所示原始信號(hào)能量譜和Mel倒譜修正(xizhng)后的能量譜如下圖所示說(shuō)話人1和說(shuō)話人2的二維聲學(xué)(shngxu)向量圖如下圖所示說(shuō)話人1和說(shuō)話人2的二維聲學(xué)向量(xingling)圖及其碼本如下圖所示5.3 實(shí)驗(yàn)(shyn)三命令行窗口輸入訓(xùn)練(xnlin)命令train后的截圖如下圖所示命令(mng lng)行窗口輸入識(shí)別命令test后的截圖如下圖所示由運(yùn)行結(jié)果可知,5個(gè)人的識(shí)別中,全部都識(shí)別正確,成功率達(dá)到了100%,所以,可以認(rèn)為是實(shí)現(xiàn)(shxin)了語(yǔ)音識(shí)別的功能。6.總結(jié)經(jīng)過(guò)(jnggu)本次課程(k
49、chng)論文學(xué)習(xí)(xux),我已對(duì)語(yǔ)音識(shí)別有了一定的研究,并對(duì)matlab軟件更加熟悉。本次設(shè)計(jì)中主要涉及到了語(yǔ)音識(shí)別的基本原理、MFCC系數(shù)的算法、矢量量化聚類法、VQ的說(shuō)話人識(shí)別技術(shù)以及matlab編程知識(shí)。本實(shí)驗(yàn)在matlab平臺(tái)上基本實(shí)現(xiàn)了說(shuō)話人的語(yǔ)音識(shí)別,從實(shí)驗(yàn)結(jié)果來(lái)看,基本上實(shí)現(xiàn)了預(yù)定的目的。本實(shí)驗(yàn)的程序代碼參考了部分參考書(shū)籍和網(wǎng)上資料,但它們的代碼在matlab上運(yùn)行均會(huì)出現(xiàn)一些錯(cuò)誤,無(wú)法正常運(yùn)行,本人通過(guò)多次修改調(diào)試并改進(jìn),終于使程序成功運(yùn)行,并得到較為理想的結(jié)果。當(dāng)然,在這個(gè)過(guò)程中也碰到過(guò)很多各種各樣的問(wèn)題,一開(kāi)始語(yǔ)音錄入的時(shí)候,打算叫幾個(gè)人來(lái)錄音,但是后來(lái)覺(jué)得太麻煩了,直
50、接用一段音頻(mp3音樂(lè))就算了,但是問(wèn)題來(lái)了,有時(shí)因?yàn)橐纛l時(shí)間可能太長(zhǎng)了導(dǎo)致程序運(yùn)行的時(shí)間很長(zhǎng),或者電腦直接就死機(jī)了,后來(lái)想起kugou有個(gè)制作鈴聲的工具,然后就用這個(gè)工具將比較長(zhǎng)的音頻截成一段時(shí)間很短的音頻,大概就是10秒鐘,這樣的話,我就只需找?guī)讉€(gè)不同的歌手就可以達(dá)到不同說(shuō)話人的目的了,還挺方便的。用matlab程序?qū)崿F(xiàn)相應(yīng)的功能其實(shí)難度還是挺大的,語(yǔ)音識(shí)別的大概流程和理論算法我都有一定的了解,但是用matlab語(yǔ)言描述出來(lái),用matlab實(shí)現(xiàn)的話很多時(shí)候都是無(wú)從下手,尤其是涉及比較多的函數(shù)的時(shí)候,不過(guò)經(jīng)過(guò)這次實(shí)驗(yàn),我的matlab編程實(shí)現(xiàn)能力又得到了一定的提高。調(diào)程序的時(shí)候也真的很需要
51、耐心,因?yàn)檫@個(gè)問(wèn)題解決了,再運(yùn)行的時(shí)候,也繼續(xù)會(huì)有下一個(gè)問(wèn)題的出現(xiàn),最怕的就是要驗(yàn)證問(wèn)題是否解決的時(shí)候,程序需要運(yùn)行很長(zhǎng)的時(shí)間,程序運(yùn)行完了,問(wèn)題還沒(méi)有解決,不斷地修改,不斷的等待,可能有時(shí)候真的會(huì)不耐煩,所以調(diào)程序需要耐心,我在調(diào)試生成碼本那個(gè)程序的時(shí)候就是這樣的,還好最終都能實(shí)現(xiàn)了。雖然本次實(shí)驗(yàn)的結(jié)果比較理想,但是語(yǔ)音識(shí)別還有很多的模型、方法和技術(shù)。本次實(shí)驗(yàn)只是模擬了說(shuō)話人的識(shí)別,但是語(yǔ)音識(shí)別其實(shí)還有其它方面的任務(wù),仍然有很大的空間值得去學(xué)習(xí)和提高。7.程序代碼7.1 實(shí)驗(yàn)(shyn)一原始語(yǔ)音(yyn)信號(hào)及其預(yù)加重處理:clear all; %清空(qn kn)內(nèi)容signal,fs,
52、bits=wavread(s1.wav); %讀入語(yǔ)音x=double(signal); x=filter(1,-0.9375,1,x); %預(yù)加重濾波器subplot(211);plot(signal); %顯示原始語(yǔ)音信號(hào)波形title(原始語(yǔ)音信號(hào),fontsize,18);subplot(212);plot(x); %顯示預(yù)加重語(yǔ)音信號(hào)波形title(預(yù)加重語(yǔ)音信號(hào),fontsize,18);不同矩形窗長(zhǎng)對(duì)應(yīng)的短時(shí)平均幅度:clear all;signal,fs,bits=wavread(s1.wav); %讀入語(yǔ)音framelength=50; %設(shè)定幀長(zhǎng)framenumber=fi
53、x(length(signal)/framelength); %獲取語(yǔ)音幀數(shù)for i=1:framenumber; %分幀處理 framesignal=signal(i-1)*framelength+1:i*framelength);%獲取每幀的數(shù)據(jù) M(i)=0; %每幀短時(shí)平均幅度置零 for j=1:framelength; M(i)=M(i)+abs(framesignal(j); %計(jì)算每幀信號(hào)的短時(shí)平均幅度 end;end;subplot(221);plot(M);xlabel(幀數(shù),fontsize,18);ylabel(短時(shí)平均幅度,fontsize,18);legend(N
54、=50);clear M;framelength=100;framenumber=fix(length(signal)/framelength);for i=1:framenumber; framesignal=signal(i-1)*framelength+1:i*framelength); M(i)=0; for j=1:framelength; M(i)=M(i)+abs(framesignal(j); end;end;subplot(222);plot(M);xlabel(幀數(shù),fontsize,18);ylabel(短時(shí)平均(pngjn)幅度,fontsize,18);legend(
55、N=200);clear M;framelength=200;framenumber=fix(length(signal)/framelength);for i=1:framenumber; framesignal=signal(i-1)*framelength+1:i*framelength); M(i)=0; for j=1:framelength; M(i)=M(i)+abs(framesignal(j); end;end;subplot(223);plot(M);xlabel(幀數(shù),fontsize,18);ylabel(短時(shí)平均(pngjn)幅度,fontsize,18);legen
56、d(N=200);clear M;framelength=400;framenumber=fix(length(signal)/framelength);for i=1:framenumber; framesignal=signal(i-1)*framelength+1:i*framelength); M(i)=0; for j=1:framelength; M(i)=M(i)+abs(framesignal(j); end;end;subplot(224);plot(M);xlabel(幀數(shù),fontsize,18);ylabel(短時(shí)平均(pngjn)幅度,fontsize,18);leg
57、end(N=400);語(yǔ)音信號(hào)的短時(shí)譜和LPC譜估計(jì):clear all; %清空內(nèi)容signal,fs,bits=wavread(s1.wav); %讀入語(yǔ)音framelength=200; %設(shè)定幀長(zhǎng)frameshift=80; %設(shè)定幀交疊部分的長(zhǎng)度xn=enframe(signal,framelength,frameshift);%按照指定的要求分幀data=xn(:,70); %取第70幀語(yǔ)音進(jìn)行分析rank=40; %設(shè)定(sh dn)階數(shù)num=512; %設(shè)定(sh dn)頻譜的點(diǎn)數(shù)a=lpc_coefficients(data,rank); %求預(yù)測(cè)(yc)系數(shù)b=1,-a,
58、zeros(1,num-rank-1); %對(duì)1-a1-a2,.,-ap進(jìn)行補(bǔ)0處理Hw=abs(ones(1,num)./fft(b);Hw=abs(Hw); %取模求幅值Sw=abs(fft(data,num); %求語(yǔ)音信號(hào)的短時(shí)譜plot(Sw/max(Sw);axis(0,256,0,1);hold on;plot(Hw/max(Hw),r);title(語(yǔ)音信號(hào)的短時(shí)譜和LPC譜估計(jì),fontsize,18);legend(語(yǔ)音信號(hào)的短時(shí)譜,lpc譜估計(jì));enframe函數(shù):function f=enframe(x,win,inc)%F = ENFRAME(X,LEN) spli
59、ts the vector X(:) up into frames. %Each frame is of length LEN and occupies one row of the output matrix. %The last few frames of X will be ignored if its length is not divisible by %LEN.It is an error if X is shorter than LEN.nx=length(x(:);nwin=length(win);if (nwin = 1) len = win;else len = nwin;
60、endif (nargin 1) w = win(:); f = f .* w(ones(nf,1),:);Endlpc_coefficients函數(shù):function c=lpc_coefficients(s,p)%此函數(shù)的功能是用自相關(guān)法求信號(hào)s使均方預(yù)測(cè)誤差為最小的預(yù)測(cè)系數(shù)%算法(sun f)為Durbin快速遞推算法%注:s必須是一維向量(xingling) p為聲道模型的階數(shù)n=length(s); %獲得(hud)信號(hào)長(zhǎng)度 for i=1:p %測(cè)試向量 Rp(i)=sum(s(i+1:n).*s(1:n-i); %求向量的自相關(guān)函數(shù) endRp_0=s*s; %即Rn(0)Ep=
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年計(jì)算機(jī)基礎(chǔ)考試整體試題及答案
- 統(tǒng)計(jì)學(xué)考試綜合案例剖析試題及答案
- 紅十字知識(shí)試題及答案
- 舞蹈歌手筆試試題及答案
- 玻璃采購(gòu)面試題目及答案
- 物流主管模擬面試題及答案
- 應(yīng)對(duì)變化的2024統(tǒng)計(jì)學(xué)考試試題及答案
- 常見(jiàn)藥物誤用案例分析試題及答案
- 考生分享藥理學(xué)復(fù)習(xí)經(jīng)驗(yàn)試題及答案
- 2024年食品質(zhì)檢員考試歸納總結(jié)及答案
- 民政局發(fā)布的離婚協(xié)議書(shū)樣本
- 2023年全國(guó)統(tǒng)一高考語(yǔ)文試卷(全國(guó)甲卷)(含答案與解析)
- 消防安全評(píng)估消防安全評(píng)估方案
- 駕駛員汛期安全行車(chē)知識(shí)
- 小學(xué)勞動(dòng)教育三上第三單元2《制作風(fēng)車(chē)》課件
- 隱患排查統(tǒng)計(jì)分析報(bào)告
- 給小學(xué)數(shù)學(xué)教師的建議
- 中國(guó)古代文學(xué)史二復(fù)習(xí)資料
- 2024年重慶發(fā)展投資有限公司招聘筆試參考題庫(kù)含答案解析
- 成熟生產(chǎn)線評(píng)價(jià)報(bào)告
- 足球準(zhǔn)確傳球訓(xùn)練技巧:提高準(zhǔn)確傳球能力掌控比賽節(jié)奏
評(píng)論
0/150
提交評(píng)論