孤立詞語(yǔ)音識(shí)別的并行編程實(shí)現(xiàn) 畢業(yè)設(shè)計(jì)_第1頁(yè)
孤立詞語(yǔ)音識(shí)別的并行編程實(shí)現(xiàn) 畢業(yè)設(shè)計(jì)_第2頁(yè)
孤立詞語(yǔ)音識(shí)別的并行編程實(shí)現(xiàn) 畢業(yè)設(shè)計(jì)_第3頁(yè)
孤立詞語(yǔ)音識(shí)別的并行編程實(shí)現(xiàn) 畢業(yè)設(shè)計(jì)_第4頁(yè)
孤立詞語(yǔ)音識(shí)別的并行編程實(shí)現(xiàn) 畢業(yè)設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本科畢業(yè)論文(設(shè)計(jì))題 目: 孤立詞語(yǔ)音識(shí)別的并行編程實(shí)現(xiàn) 2010年 6 月 5 日Parallel Programming of Isolated Words Speech Recognition摘 要語(yǔ)音識(shí)別是解決機(jī)器“聽(tīng)懂”人類語(yǔ)言的一項(xiàng)技術(shù)。首先介紹了目前國(guó)內(nèi)外語(yǔ)音識(shí)別系統(tǒng)的現(xiàn)狀、發(fā)展及研究方向,并對(duì)語(yǔ)音識(shí)別系統(tǒng)的原理、并行化的實(shí)現(xiàn)做了詳細(xì)分析,在此基礎(chǔ)上進(jìn)行語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì),主要內(nèi)容有:提取語(yǔ)音、端點(diǎn)檢測(cè)、特征值提取、訓(xùn)練數(shù)據(jù)、語(yǔ)音識(shí)別。選用HMM隱馬爾科夫模型,基于VC2005編譯環(huán)境下的的多線程編程,實(shí)現(xiàn)算法的并行運(yùn)算,提升了語(yǔ)音識(shí)別的效率。設(shè)計(jì)完成后在實(shí)驗(yàn)室進(jìn)行了模擬調(diào)試,

2、實(shí)驗(yàn)結(jié)果表明:所設(shè)計(jì)的程序滿足語(yǔ)音識(shí)別系統(tǒng)的基本要求。關(guān)鍵詞 語(yǔ)音識(shí)別 孤立詞 多線程 并行 特征值 斷點(diǎn)檢測(cè)AbstractSpeech recognition is a technique to solve the machine "understand" human language. First introduces the current status of speech recognition system at home and abroad, development and research, and the principle of speech reco

3、gnition systems, parallel implementation of a detailed explanation to do in this speech recognition system based on the design of main contents are: Extract voice, endpoint detection, feature extraction, training data, voice recognition. HMM hidden Markov model selection, based on VC2005 compiler en

4、vironment of multi-threaded programming, parallel computing algorithms to improve the efficiency of speech recognition. Upon completion of the design was simulated in the lab debugging, experimental results show that: the design process to meet the basic requirements of speech recognition systems. K

5、eywords Speech Recognition Isolated Words Multi-Threads Parallel Eigenvalue Breakpoint Detection目 錄前 言1第1章 語(yǔ)音識(shí)別技術(shù)概述21.1 語(yǔ)音識(shí)別的歷史背景21.1.1 國(guó)外研究歷史及現(xiàn)狀31.1.2 國(guó)內(nèi)研究歷史及現(xiàn)狀41.2 語(yǔ)音識(shí)別技術(shù)應(yīng)用51.3 語(yǔ)音識(shí)別技術(shù)的發(fā)展61.4 語(yǔ)音識(shí)別技術(shù)的研究方向7第二章 主要研究?jī)?nèi)容和方法92.1 語(yǔ)音識(shí)別的研究?jī)?nèi)容92.2 語(yǔ)音識(shí)別系統(tǒng)的分類92.3 語(yǔ)音識(shí)別的研究方法102.4 并行計(jì)算技術(shù)112.5 OpenMP編程模型132.5.1 Open

6、MP介紹132.5.2 OpenMP指導(dǎo)命令流程15第三章 基于VC2005孤立詞語(yǔ)音識(shí)別編程的實(shí)現(xiàn)183.1 語(yǔ)音識(shí)別系統(tǒng)原理及設(shè)計(jì)方法183.1.1 語(yǔ)音識(shí)別系統(tǒng)的基本原理183.1.2 語(yǔ)音識(shí)別的幾種基本設(shè)計(jì)方法193.2 孤立詞語(yǔ)音識(shí)別系統(tǒng)203.2.1 孤立詞語(yǔ)音識(shí)別系統(tǒng)的構(gòu)成203.2.2 孤立詞語(yǔ)音識(shí)別系統(tǒng)的技術(shù)主要項(xiàng)目213.2.3 基于語(yǔ)音軌跡特征的匹配技術(shù)223.3 語(yǔ)音識(shí)別設(shè)計(jì)流程223.3.1 樣本語(yǔ)音采集223.3.2 語(yǔ)音信號(hào)預(yù)處理223.3.3 Mel倒譜系數(shù)特征表示233.3.4 HMM隱馬爾科夫模式匹配253.3.7 OpenMP編程實(shí)現(xiàn)多核并行運(yùn)算26結(jié)束語(yǔ)

7、31謝 辭32參考文獻(xiàn)33附 錄34前 言語(yǔ)音識(shí)別是解決機(jī)器“聽(tīng)懂”人類語(yǔ)言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)一直受到各國(guó)科學(xué)界的廣泛關(guān)注。如今,隨著語(yǔ)音識(shí)別技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。以語(yǔ)音識(shí)別技術(shù)開(kāi)發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語(yǔ)音通信系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)和每個(gè)方面。廣泛意義上的語(yǔ)音識(shí)別按照任務(wù)的不同可以分為4個(gè)方向:說(shuō)話人識(shí)別、關(guān)鍵詞檢出、語(yǔ)言辨識(shí)和語(yǔ)音識(shí)別。說(shuō)話人識(shí)別技術(shù)是以話音對(duì)說(shuō)話人進(jìn)行區(qū)別,從而進(jìn)行身份鑒別和認(rèn)證的

8、技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場(chǎng)合,只關(guān)注那些包含特定詞的句子。語(yǔ)言辨識(shí)技術(shù)是通過(guò)分析處理一個(gè)語(yǔ)音片斷以判別其所屬語(yǔ)言種類的技術(shù),本質(zhì)上也是語(yǔ)音識(shí)別技術(shù)的一個(gè)方面。語(yǔ)音識(shí)別就是通常人們所說(shuō)的以說(shuō)話的內(nèi)容作為識(shí)別對(duì)象的技術(shù),它是4個(gè)方面中最重要和研究最廣泛的一個(gè)方向,也是本文討論的主要內(nèi)容。語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而非其中所包含的詞匯內(nèi)容。語(yǔ)音識(shí)別技術(shù)

9、的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫(xiě)數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語(yǔ)音到語(yǔ)音的翻譯。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。第1章 語(yǔ)音識(shí)別技術(shù)概述語(yǔ)音識(shí)別是解決機(jī)器“聽(tīng)懂”人類語(yǔ)言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)一直受到各國(guó)科學(xué)界的廣泛關(guān)注。如今,隨著語(yǔ)音識(shí)別技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。以語(yǔ)音識(shí)別技術(shù)開(kāi)發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、

10、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語(yǔ)音通信系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)和每個(gè)方面。廣泛意義上的語(yǔ)音識(shí)別按照任務(wù)的不同可以分為4個(gè)方向:說(shuō)話人識(shí)別、關(guān)鍵詞檢出、語(yǔ)言辨識(shí)和語(yǔ)音識(shí)別。說(shuō)話人識(shí)別技術(shù)是以話音對(duì)說(shuō)話人進(jìn)行區(qū)別,從而進(jìn)行身份鑒別和認(rèn)證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場(chǎng)合,只關(guān)注那些包含特定詞的句子。語(yǔ)言辨識(shí)技術(shù)是通過(guò)分析處理一個(gè)語(yǔ)音片斷以判別其所屬語(yǔ)言種類的技術(shù),本質(zhì)上也是語(yǔ)音識(shí)別技術(shù)的一個(gè)方面。語(yǔ)音識(shí)別就是通常人們所說(shuō)的以說(shuō)話的內(nèi)容作為識(shí)別對(duì)象的技術(shù),它是4個(gè)方面中最重要和研究最廣泛的一個(gè)方向,也是本文討論的主要內(nèi)容。語(yǔ)音識(shí)別技術(shù),也被稱

11、為自動(dòng)語(yǔ)音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而非其中所包含的詞匯內(nèi)容。語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫(xiě)數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語(yǔ)音到語(yǔ)音的翻譯。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。1.1 語(yǔ)音識(shí)別的歷史背景早在

12、計(jì)算機(jī)發(fā)明之前,自動(dòng)語(yǔ)音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識(shí)別及合成的雛形。而1920年代生產(chǎn)的"Radio Rex"玩具狗可能是最早的語(yǔ)音識(shí)別器,當(dāng)這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來(lái)。最早的基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)是由AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字。其識(shí)別方法是跟蹤語(yǔ)音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學(xué)院(Colledge of London)的Denes已經(jīng)將語(yǔ)法概率加入語(yǔ)音識(shí)別中。1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。這一時(shí)代的兩大突破是線性

13、預(yù)測(cè)編碼Linear Predictive Coding (LPC), 及動(dòng)態(tài)時(shí)間彎折Dynamic Time Warp技術(shù)。語(yǔ)音識(shí)別技術(shù)的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過(guò)Labiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開(kāi)復(fù)最終實(shí)現(xiàn)了第一個(gè)基于隱馬爾科夫模型的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx。此后嚴(yán)格來(lái)說(shuō)語(yǔ)音識(shí)別技術(shù)并沒(méi)有脫離HMM框架。盡管多年來(lái)研究人員一直嘗試將“聽(tīng)寫(xiě)機(jī)”推廣,語(yǔ)音識(shí)別技術(shù)在目前還無(wú)法支持無(wú)限領(lǐng)域,無(wú)限說(shuō)話人的聽(tīng)寫(xiě)機(jī)應(yīng)用。 國(guó)外研究歷史及現(xiàn)狀語(yǔ)音識(shí)別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾

14、實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。 但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開(kāi)展研究則是在60年代末70年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語(yǔ)音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語(yǔ)音信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效的解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)匹配問(wèn)題。這一時(shí)期的語(yǔ)音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識(shí)別,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語(yǔ)音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。 隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立

15、詞等這些對(duì)語(yǔ)音識(shí)別的約束條件需要放寬,與此同時(shí)也帶來(lái)了許多新的問(wèn)題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語(yǔ)音中,各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識(shí)別時(shí),不同的人說(shuō)相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說(shuō)同樣內(nèi)容的話也會(huì)有很大的差異;第四,識(shí)別的語(yǔ)音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。 實(shí)驗(yàn)室語(yǔ)音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,第一次把

16、這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 這一時(shí)期,語(yǔ)音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語(yǔ)音識(shí)別技術(shù)的主流。 統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語(yǔ)音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來(lái)建立最

17、佳的語(yǔ)音識(shí)別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語(yǔ)音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語(yǔ)音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語(yǔ)音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語(yǔ)言層面上,通過(guò)統(tǒng)計(jì)真實(shí)大規(guī)模語(yǔ)料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來(lái)區(qū)分識(shí)別帶來(lái)的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語(yǔ)言處理機(jī)制等也在語(yǔ)音識(shí)別中得到了應(yīng)用。 20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋(píng)果、ATT和NTT都對(duì)語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語(yǔ)音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制,那就是識(shí)別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在20世紀(jì)9

18、0年代中后期實(shí)驗(yàn)室研究中得到了不斷的提高。比較有代表性的系統(tǒng)有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform語(yǔ)音平臺(tái),Microsoft的Whisper,Sun的VoiceTone等。 其中IBM公司于1997年開(kāi)發(fā)出漢語(yǔ)ViaVoice語(yǔ)音識(shí)別系統(tǒng),次年又開(kāi)發(fā)出可以識(shí)別上海話、廣東話和四川話等地方口音的語(yǔ)音識(shí)別系統(tǒng)ViaVoice'98。它帶有一個(gè)32,000詞的基本詞匯表,可以擴(kuò)展到65,000詞,還包括辦公常用詞條,具有“糾錯(cuò)機(jī)制”,其平均識(shí)別率可以達(dá)到95%。該系統(tǒng)對(duì)

19、新聞?wù)Z音識(shí)別具有較高的精度,是目前具有代表性的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 國(guó)內(nèi)研究歷史及現(xiàn)狀我國(guó)語(yǔ)音識(shí)別研究工作起步于五十年代,但近年來(lái)發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開(kāi)始執(zhí)行國(guó)家863計(jì)劃后,國(guó)家863智能計(jì)算機(jī)專家組為語(yǔ)音識(shí)別技術(shù)研究專門(mén)立項(xiàng),每?jī)赡隄L動(dòng)一次。我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,在漢語(yǔ)語(yǔ)音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國(guó)科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過(guò)語(yǔ)音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中

20、科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。 清華大學(xué)電子工程系語(yǔ)音技術(shù)與專用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語(yǔ)數(shù)碼串連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長(zhǎng)數(shù)字串)和96.8%(定長(zhǎng)數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長(zhǎng)數(shù)字串)和98.7%(定長(zhǎng)數(shù)字串),這是目前國(guó)際最好的識(shí)別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率達(dá)到98.73%,前三選識(shí)別率達(dá)99.96%;并且可以識(shí)別普通話與四川話兩種語(yǔ)言,達(dá)到實(shí)用要求。中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)

21、和應(yīng)用的“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品PattekASR,結(jié)束了中文語(yǔ)音識(shí)別產(chǎn)品自1998年以來(lái)一直由國(guó)外公司壟斷的歷史。如果從識(shí)別系統(tǒng)的詞匯量大小考慮,也可以將識(shí)別系統(tǒng)分為3類:(1)小詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。(2)中等詞匯量的語(yǔ)音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。(3)大詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾千到幾萬(wàn)個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng)到將來(lái)可能就是小詞匯量的語(yǔ)音識(shí)別系統(tǒng)。這些不同的限制也確定了語(yǔ)音識(shí)別系統(tǒng)的困難度。1.2 語(yǔ)音識(shí)別技

22、術(shù)應(yīng)用1、語(yǔ)音識(shí)別獲得應(yīng)用伴隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,誕生了全球首套多語(yǔ)種交談式語(yǔ)音識(shí)別系統(tǒng)E-talk。這是全球惟一擁有中英混合語(yǔ)言的識(shí)別系統(tǒng),能聽(tīng)能講普通話、廣東話和英語(yǔ),還可以高度適應(yīng)不同的口音,因而可以廣泛適用于不同文化背景的使用者,尤其是中國(guó)地區(qū)語(yǔ)言差別較大的廣大用戶。由于E-talk可以大大提高工作效率,降低運(yùn)營(yíng)成本,并為用戶提供更便捷的增值服務(wù),我們相信它必將成為電信、證券、金融、旅游等重視客戶服務(wù)的行業(yè)爭(zhēng)相引用的電子商務(wù)應(yīng)用系統(tǒng),并成為電子商務(wù)發(fā)展的新趨勢(shì),為整個(gè)信息產(chǎn)業(yè)帶來(lái)無(wú)限商機(jī)。目前,飛利浦推出的語(yǔ)音識(shí)別自然會(huì)話平臺(tái)SpeechPearl和SpeechMania已成功地

23、應(yīng)用于國(guó)內(nèi)呼叫中心,SpeechPearl中的每個(gè)識(shí)別引擎可提供高達(dá)20萬(wàn)字的超大容量詞庫(kù),尤其在具有大詞匯量、識(shí)別準(zhǔn)確性和靈活性等要求的各種電信增值服務(wù)中有著廣泛的應(yīng)用。2、語(yǔ)音合成信息服務(wù)被用戶接受語(yǔ)音合成技術(shù)把可視的文本信息轉(zhuǎn)化為可聽(tīng)的聲音信息,其應(yīng)用的經(jīng)濟(jì)效益和社會(huì)效益前景良好。尤其對(duì)漢語(yǔ)語(yǔ)音合成技術(shù)的應(yīng)用而言,全球有十幾億人使用中文,其市場(chǎng)需求、應(yīng)用前景和經(jīng)濟(jì)效益等可見(jiàn)一斑。語(yǔ)音技術(shù)已逐漸在電信聲訊信息服務(wù)領(lǐng)域智能電話查詢系統(tǒng)中展開(kāi)應(yīng)用,并迅速推廣。在電話高度普及的今天,如果打電話就能查詢到所需信息,無(wú)疑將給人們的日常生活帶來(lái)極大方便。漢語(yǔ)語(yǔ)音合成技術(shù)應(yīng)用到聲訊服務(wù)領(lǐng)域內(nèi),對(duì)現(xiàn)有的電

24、話查詢系統(tǒng)將產(chǎn)生革命性的影響。語(yǔ)音技術(shù)與互聯(lián)網(wǎng)已成功地結(jié)合。電話Internet網(wǎng)關(guān)是一種用于實(shí)現(xiàn)電話網(wǎng)和Internet網(wǎng)之間信息互訪的系統(tǒng)。簡(jiǎn)而言之,就是讓電話用戶能夠輕松地通過(guò)電話網(wǎng)訪問(wèn)Internet網(wǎng)。利用語(yǔ)音合成技術(shù)的信息服務(wù)得到了用戶的廣泛接納,給用戶生活提供了極大的方便。3、面向?qū)ο蟮恼Z(yǔ)音編碼長(zhǎng)期以來(lái),在通信網(wǎng)的發(fā)展中,解決信息傳輸效率是一個(gè)關(guān)鍵問(wèn)題,極其重要。目前科研人員已通過(guò)兩個(gè)途徑研究這一課題,其一是研究新的調(diào)制方法與技術(shù),來(lái)提高信道傳輸信息的比特率,指標(biāo)是每赫茲帶寬所傳送的比特?cái)?shù);其二是壓縮信源編碼的比特率,例如標(biāo)準(zhǔn)PCB編碼,對(duì)3.4KHz頻帶信號(hào)需用64KHz編碼比

25、特率傳送,而壓縮這一比特率,顯然可以提高信道傳送的話路數(shù)。這對(duì)任何頻率資源有限的傳輸環(huán)境來(lái)說(shuō),無(wú)疑是極為重要的,尤其是在無(wú)線通信技術(shù)決定今后通信發(fā)展命運(yùn)的今天更顯得重要。實(shí)際上,壓縮語(yǔ)音編碼比特率與話音存儲(chǔ)、語(yǔ)音識(shí)別及語(yǔ)音合成等技術(shù)都直接相關(guān)。語(yǔ)音編碼技術(shù)的進(jìn)展對(duì)通信新業(yè)務(wù)的發(fā)展有極為明顯的影響,例如IP電話業(yè)務(wù)、實(shí)時(shí)長(zhǎng)途翻譯業(yè)務(wù)、交換機(jī)的人工智能接口等。因此,國(guó)際電報(bào)電話咨詢委員會(huì)(CCITT)第15組提出了許多急需制訂的話音編碼標(biāo)準(zhǔn)建議,以推動(dòng)通信網(wǎng)的發(fā)展。由于VLDSI的發(fā)展,實(shí)現(xiàn)這一技術(shù)的代價(jià)已從在昂貴的信道中采用,發(fā)展到一般信道中都可接受的水平,因此,編碼技術(shù)日益受到重視。當(dāng)前,數(shù)字

26、移動(dòng)通信和個(gè)人通信(PCN)是深受人們重視的通信手段,其重要問(wèn)題之一是壓縮語(yǔ)音編碼速率,形成面向?qū)ο蟮恼Z(yǔ)音編碼技術(shù)。 數(shù)字語(yǔ)音編碼技術(shù)從1938年提出PCM開(kāi)始,其編碼方法已有了很大的發(fā)展,如1968年提出的線性預(yù)測(cè)編碼技術(shù)(LPC)、20世紀(jì)70年代末出現(xiàn)的隱馬爾科夫技術(shù)(HMM)以及矢量量化(VQ)等。4、口語(yǔ)機(jī)器翻譯受到重視口語(yǔ)翻譯的一個(gè)重要目的就是幫助聾啞人與正常人交流,近來(lái)越來(lái)越受到人們的重視。首先,聾啞人要戴上一副特制的手套,計(jì)算機(jī)根據(jù)他打出的手語(yǔ)進(jìn)行識(shí)別,然后,通過(guò)語(yǔ)音合成系統(tǒng)就可以把圖像信息翻譯成語(yǔ)言信息。同時(shí),系統(tǒng)還能夠完成將正常人的語(yǔ)言翻譯成聾啞人的手語(yǔ),只要將正常人說(shuō)的話

27、鍵入計(jì)算機(jī),經(jīng)程序分析處理之后,翻譯成有表情、有動(dòng)作的三維圖像,從而最終達(dá)到聾啞人與正常人之間通過(guò)翻譯機(jī)進(jìn)行交流的目的??谡Z(yǔ)翻譯的研究在其他很多方面都有重要價(jià)值,如用手勢(shì)控制計(jì)算機(jī),甚至用手勢(shì)導(dǎo)航等。1.3 語(yǔ)音識(shí)別技術(shù)的發(fā)展 1、神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練韻律模型由于人工神經(jīng)網(wǎng)絡(luò)具備良好的自學(xué)習(xí)和自適應(yīng)能力,將其應(yīng)用于語(yǔ)音合成系統(tǒng)中的韻律模型研究具有很重要的意義。將神經(jīng)網(wǎng)絡(luò)模型與已有的文語(yǔ)轉(zhuǎn)換系統(tǒng)有機(jī)結(jié)合,可以改變傳統(tǒng)的文語(yǔ)轉(zhuǎn)換系統(tǒng)的韻律模型,具有更強(qiáng)的適應(yīng)性和可訓(xùn)練性,使合成語(yǔ)音的自然度得到顯著提高,增加了系統(tǒng)的靈活性和風(fēng)格的多樣性。2、數(shù)據(jù)挖掘用于發(fā)現(xiàn)語(yǔ)音知識(shí)數(shù)據(jù)挖掘作為一種在大量數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱藏

28、新知識(shí)的計(jì)算技術(shù)方法,通過(guò)語(yǔ)音定性模型的建立,將數(shù)據(jù)分析和挖掘結(jié)果轉(zhuǎn)化為邏輯規(guī)則或用可視化的形式進(jìn)行表達(dá)。因此,將數(shù)據(jù)挖掘和人機(jī)交互接口緊密地聯(lián)系在一起,將對(duì)計(jì)算機(jī)語(yǔ)音信號(hào)處理的研究工作產(chǎn)生巨大的推動(dòng)力,為語(yǔ)音信號(hào)處理提供了一條嶄新的研究途徑。3、文本-可視語(yǔ)音轉(zhuǎn)換系統(tǒng)研制成功文本-可視語(yǔ)音轉(zhuǎn)換技術(shù)的出現(xiàn)是多媒體技術(shù)迅速發(fā)展的產(chǎn)物 也迎合了社會(huì)發(fā)展的需求。它給人們的生活增添了新的色彩,使計(jì)算機(jī)更加人性化,人們與計(jì)算機(jī)的交流變得更為簡(jiǎn)單。相信在不久的將來(lái),它會(huì)在眾多的技術(shù)、商業(yè)和娛樂(lè)領(lǐng)域得到廣泛的應(yīng)用,并逐步進(jìn)入我們每個(gè)人的生活。1.4 語(yǔ)音識(shí)別技術(shù)的研究方向1、連續(xù)自然語(yǔ)音的識(shí)別與理解自然語(yǔ)音

29、識(shí)別與理解研究的是計(jì)算機(jī)如何理解人類的語(yǔ)言 其目的就是讓計(jì)算機(jī)能夠理解人說(shuō)的話,當(dāng)我們使用計(jì)算機(jī)時(shí),要告訴它應(yīng)該做什么,它就能按照所理解的去執(zhí)行。雖然現(xiàn)在自然語(yǔ)音識(shí)別與理解的理論研究得到了進(jìn)一步完善,同時(shí),計(jì)算機(jī)的功能、容量和速度都有了很大的提高,但研究仍局限在對(duì)孤立音節(jié)的識(shí)別與理解上。人類流暢的自然發(fā)音不是孤立音節(jié)發(fā)音的簡(jiǎn)單組合,它是在一定時(shí)間范圍內(nèi)輸出的一種連續(xù)語(yǔ)流,因此,需要對(duì)連續(xù)語(yǔ)音進(jìn)行處理。連續(xù)語(yǔ)音識(shí)別與理解技術(shù)中需要解決的難點(diǎn)很多,對(duì)它的研究是語(yǔ)音技術(shù)今后的目標(biāo)之一。2、高自然度、具有表現(xiàn)力的合成語(yǔ)音提高合成語(yǔ)音的自然度仍然是高性能文語(yǔ)轉(zhuǎn)換的當(dāng)務(wù)之急。就漢語(yǔ)語(yǔ)音合成來(lái)說(shuō),目前在單字

30、和詞組級(jí)上,合成語(yǔ)音的可懂度和自然度已基本解決,但是對(duì)于句子乃至篇章級(jí),其自然度問(wèn)題就比較大。未來(lái)的文語(yǔ)轉(zhuǎn)換系統(tǒng)的發(fā)展趨勢(shì)是采用基于語(yǔ)境相關(guān)的合成思想進(jìn)行設(shè)計(jì),能夠?qū)l(fā)音人的原始發(fā)音特征最大限度地保留下來(lái),輔助以先進(jìn)的層次化語(yǔ)言韻律模型,通過(guò)分散統(tǒng)計(jì)的模型方法來(lái)涵蓋語(yǔ)義語(yǔ)音之間的內(nèi)在聯(lián)系,使系統(tǒng)能夠輸出具有高自然度和表現(xiàn)力的合成語(yǔ)音。但是,在目前的合成系統(tǒng)中,普遍存在合成輸出語(yǔ)音的機(jī)器味比較濃、語(yǔ)境的知識(shí)層次模型研究不完善等問(wèn)題。因此,獲得高自然度、具有表現(xiàn)力的合成語(yǔ)音,也是今后語(yǔ)音技術(shù)的研究目標(biāo)之一 。3、語(yǔ)音技術(shù)與多媒體技術(shù)的結(jié)合伴隨著現(xiàn)代語(yǔ)音技術(shù)的不斷發(fā)展,人類對(duì)語(yǔ)音信號(hào)的需要已經(jīng)不僅僅

31、停留在可懂性和正確性上,語(yǔ)音合成技術(shù)的研究方向已是合成語(yǔ)音的美感并同時(shí)輸出輔助的視頻特征,實(shí)現(xiàn)虛擬主持人的效果,通過(guò)將視覺(jué)效果包括人的頭部建模、唇形同步技術(shù)和表情因素等視頻信息的加入,可以更好地體現(xiàn)語(yǔ)音合成系統(tǒng)的表現(xiàn)力和感染力。因此,我們完全有理由相信,語(yǔ)音技術(shù)和多媒體技術(shù)的有機(jī)結(jié)合將使合成系統(tǒng)展現(xiàn)出廣闊的應(yīng)用前景。4、語(yǔ)音技術(shù)與網(wǎng)絡(luò)技術(shù)的結(jié)合目前,語(yǔ)音技術(shù)已逐漸應(yīng)用于電信的聲訊信息服務(wù)領(lǐng)域和互聯(lián)網(wǎng)消息收發(fā)方面。隨著電話網(wǎng)與互聯(lián)網(wǎng)的融合、網(wǎng)絡(luò)信息項(xiàng)目的增多和時(shí)效性要求逐步提高,建立適合于股票交易、航班動(dòng)態(tài)查詢、電話自動(dòng)報(bào)稅等業(yè)務(wù)的語(yǔ)音系統(tǒng)成為可能,電話用戶可以通過(guò)傳統(tǒng)的語(yǔ)音、傳真獲取互聯(lián)網(wǎng)上無(wú)

32、窮無(wú)盡的信息。這些業(yè)務(wù)將徹底解決傳統(tǒng)數(shù)字錄音回放技術(shù)所無(wú)法解決的海量信息庫(kù)和動(dòng)態(tài)變化信息的實(shí)時(shí)生成與存儲(chǔ)的難題。因此,將語(yǔ)音技術(shù)與網(wǎng)絡(luò)進(jìn)行完美的結(jié)合具有強(qiáng)大的生命力。5、多語(yǔ)種語(yǔ)言是人們交流的工具,不同民族有自己不同的語(yǔ)言,不同語(yǔ)言之間的交流在今天開(kāi)放的信息社會(huì)和網(wǎng)絡(luò)時(shí)代顯得十分重要,因此,多語(yǔ)種的文語(yǔ)合成有著獨(dú)特的應(yīng)用價(jià)值。例如,在自動(dòng)電話翻譯、有聲電子郵件等應(yīng)用中都提出了多語(yǔ)種語(yǔ)音合成的需求,即使是對(duì)漢語(yǔ)合成也有多方言文語(yǔ)轉(zhuǎn)換問(wèn)題。理想的多語(yǔ)種合成系統(tǒng)最好是各種語(yǔ)言共用一種合成算法或語(yǔ)音合成器,但現(xiàn)有的語(yǔ)音合成系統(tǒng)大多是針對(duì)某一種語(yǔ)言或若干種語(yǔ)言開(kāi)發(fā)出來(lái)的,所采用的算法及規(guī)則都是與某種語(yǔ)言

33、密切相關(guān)的,因此很難推廣到其他語(yǔ)種。如漢語(yǔ)和西方語(yǔ)言之間存在著很大的差異,而目前國(guó)內(nèi)的系統(tǒng)都是做漢語(yǔ)文語(yǔ)轉(zhuǎn)換的 其韻律控制規(guī)則完全不適合于英語(yǔ),而且它們主要是合成漢語(yǔ)普通話的,即使推廣到廣東話和上海話都有相當(dāng)?shù)碾y度。可見(jiàn)要真正解決多語(yǔ)種的文語(yǔ)合成,從文本處理到語(yǔ)音合成都必須有新的思路,因此,研制多語(yǔ)種語(yǔ)音合成轉(zhuǎn)換系統(tǒng)具有重要的理論和現(xiàn)實(shí)意義。第二章 主要研究?jī)?nèi)容和方法2.1 語(yǔ)音識(shí)別的研究?jī)?nèi)容語(yǔ)音識(shí)別技術(shù)是利用計(jì)算機(jī)對(duì)語(yǔ)音進(jìn)行特征提取,獲取最能表征語(yǔ)音特征的有用信息,根據(jù)這些信息來(lái)對(duì)語(yǔ)音所代表的內(nèi)容或說(shuō)話人身份判斷的技術(shù)。因此需要對(duì)語(yǔ)音波形的幅值、頻率等特點(diǎn)進(jìn)行研究,我們把語(yǔ)音識(shí)別的研究?jī)?nèi)容大

34、致可以分為語(yǔ)音提取、特征提取、語(yǔ)音識(shí)別、內(nèi)容分析、內(nèi)容匹配。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán),通過(guò)語(yǔ)音命令進(jìn)行操作。語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)

35、領(lǐng)域。語(yǔ)音識(shí)別聽(tīng)寫(xiě)機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。2.2 語(yǔ)音識(shí)別系統(tǒng)的分類語(yǔ)音識(shí)別系統(tǒng)可以根據(jù)對(duì)輸入語(yǔ)音的限制加以分類。如果從說(shuō)話者與識(shí)別系統(tǒng)的相關(guān)性考慮,可以將識(shí)別系統(tǒng)分為3類:(1)特定人語(yǔ)音識(shí)別系統(tǒng):僅考慮對(duì)于專人的話音進(jìn)行識(shí)別;(2)非特定人語(yǔ)音系統(tǒng):識(shí)別的語(yǔ)音與人無(wú)關(guān),通常要用大量不同人的語(yǔ)音數(shù)據(jù)庫(kù)對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí);(3)多人的識(shí)別系統(tǒng):通常能識(shí)別一組人的語(yǔ)音,或者成為特定組語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語(yǔ)音進(jìn)行訓(xùn)練。如果從說(shuō)話的方式考慮,

36、也可以將識(shí)別系統(tǒng)分為3類:(1)孤立詞語(yǔ)音識(shí)別系統(tǒng):孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓;(2)連接詞語(yǔ)音識(shí)別系統(tǒng):連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開(kāi)始出現(xiàn);(3)連續(xù)語(yǔ)音識(shí)別系統(tǒng):連續(xù)語(yǔ)音輸入是自然流利的連續(xù)語(yǔ)音輸入,大量連音和變音會(huì)出現(xiàn)。如果從識(shí)別系統(tǒng)的詞匯量大小考慮,也可以將識(shí)別系統(tǒng)分為3類:(1)小詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。(2)中等詞匯量的語(yǔ)音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。(3)大詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾千到幾萬(wàn)個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分

37、類也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng)到將來(lái)可能就是小詞匯量的語(yǔ)音識(shí)別系統(tǒng)。這些不同的限制也確定了語(yǔ)音識(shí)別系統(tǒng)的困難度。2.3 語(yǔ)音識(shí)別的研究方法根據(jù)語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史,語(yǔ)音識(shí)別方法大致可分為基于說(shuō)話人的語(yǔ)音識(shí)別方法、基于說(shuō)話內(nèi)容的語(yǔ)音識(shí)別方法、基于統(tǒng)計(jì)的語(yǔ)音識(shí)別方法和基于網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法。目前,主流的大詞匯量語(yǔ)音識(shí)別系統(tǒng)多采用統(tǒng)計(jì)模式識(shí)別技術(shù)。典型的基于統(tǒng)計(jì)模式識(shí)別方法的語(yǔ)音識(shí)別系統(tǒng)由以下幾個(gè)基本模塊所構(gòu)成:信號(hào)處理及特征提取模塊。該模塊的主要任務(wù)是從輸入信號(hào)中提取特征,供聲學(xué)模型處理。同時(shí),它一般也包括了一些信號(hào)處理技術(shù),以盡可能降低環(huán)境噪聲、信道、說(shuō)話人等因素對(duì)特征造成的影響

38、。統(tǒng)計(jì)聲學(xué)模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進(jìn)行建模。 發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實(shí)際提供了聲學(xué)模型建模單元與語(yǔ)言模型建模單元間的映射。語(yǔ)言模型對(duì)系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。理論上,包括正則語(yǔ)言,上下文無(wú)關(guān)文法在內(nèi)的各種語(yǔ)言模型都可以作為語(yǔ)言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計(jì)的N元文法及其變體。 解碼器,解碼器是語(yǔ)音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對(duì)輸入的信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。 從數(shù)學(xué)角度可以更加清楚的了解上述模塊之間的關(guān)系。首先,統(tǒng)計(jì)語(yǔ)音識(shí)別的最基本問(wèn)題是,給定輸入信號(hào)或特征序列,符號(hào)集(詞典),求解符

39、號(hào)串使得:W = argmaxP(W | O) 通過(guò)貝葉斯公式,上式可以改寫(xiě)為:由于對(duì)于確定的輸入串O,P(O)是確定的,因此省略它并不會(huì)影響上式的最終結(jié)果,因此,一般來(lái)說(shuō)語(yǔ)音識(shí)別所討論的問(wèn)題可以用下面的公式來(lái)表示,可以將它稱為語(yǔ)音識(shí)別的基本公式。從這個(gè)角度來(lái)看,信號(hào)處理模塊提供了對(duì)輸入信號(hào)的預(yù)處理,也就是說(shuō),提供了從采集的語(yǔ)音信號(hào)(記為S)到 特征序列O的映射。而聲學(xué)模型本身定義了一些更具推廣性的聲學(xué)建模單元,并且提供了在給定輸入特征下,估計(jì)P(O | uk)的方法。為了將聲學(xué)模型建模單元串映射到符號(hào)集,就需要發(fā)音詞典發(fā)揮作用。它實(shí)際上定義了映射的映射。為了表示方便,也可以定義一個(gè)由到U的全

40、集的笛卡爾積,而發(fā)音詞典則是這個(gè)笛卡爾積的一個(gè)子集。并且有:最后,語(yǔ)言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫(xiě)成:對(duì)于解碼器來(lái)所,就是要在由ui以及時(shí)間標(biāo)度t張成的搜索空間中,找到上式所指明的W。2.4 并行計(jì)算技術(shù)多任務(wù)在32位的Windows系統(tǒng)中,采用的是搶先式多任務(wù),這意味著程序?qū)PU的占用時(shí)間是由系統(tǒng)決定的。系統(tǒng)為每個(gè)程序分配一定的CPU時(shí)間,當(dāng)程序的運(yùn)行超過(guò)規(guī)定時(shí)間后,系統(tǒng)就會(huì)中斷該程序并把CPU控制權(quán)轉(zhuǎn)交給別的程序。與協(xié)同式多任務(wù)不同,這種中斷是匯編語(yǔ)言級(jí)的。程序不必調(diào)用像PeekMessage這樣的函數(shù)來(lái)放棄對(duì)CPU的控制權(quán),就可以進(jìn)行費(fèi)時(shí)的工作,而且不會(huì)導(dǎo)致系

41、統(tǒng)的掛起。例如,在Windows 3x中,如果某一個(gè)應(yīng)用程序陷入了死循環(huán),那么整個(gè)系統(tǒng)都會(huì)癱瘓,這時(shí)惟一的解決辦法就是重新啟動(dòng)機(jī)器。而在Windows 95NT中,一個(gè)程序的崩潰一般不會(huì)造成死機(jī),其他程序仍然可以運(yùn)行,用戶可以按Ctrl+Alt+Del鍵來(lái)打開(kāi)任務(wù)列表并關(guān)閉沒(méi)有響應(yīng)的程序。 1、進(jìn)程與線程 在32位的Windows系統(tǒng)中,多任務(wù)指系統(tǒng)可同時(shí)運(yùn)行多個(gè)進(jìn)程,而每個(gè)進(jìn)程也可同時(shí)執(zhí)行多個(gè)線程。 進(jìn)程就是應(yīng)用程序的運(yùn)行實(shí)例。每個(gè)進(jìn)程都有自己私有的虛擬地址空間,都有一個(gè)主線程但可以建立另外的線程。進(jìn)程中的線程是并行執(zhí)行的,每個(gè)線程占用CPU的時(shí)間由系統(tǒng)來(lái)劃分。 可以把線程看成是操作系統(tǒng)分配

42、CPU時(shí)間的基本實(shí)體。系統(tǒng)不停地在各個(gè)線程之間切換,他對(duì)線程的中斷是匯編語(yǔ)言級(jí)的。系統(tǒng)為每一個(gè)線程分配一個(gè)CPU時(shí)間片,某個(gè)線程只有在分配的時(shí)間片內(nèi)才有對(duì)CPU的控制權(quán)。實(shí)際上,在PC機(jī)中,同一時(shí)間只有一個(gè)線程在運(yùn)行。由于系統(tǒng)為每個(gè)線程劃分的時(shí)間片很小(20ms左右),所以看上去好像是多個(gè)線程在同時(shí)運(yùn)行。進(jìn)程中的所有線程共享進(jìn)程的虛擬地址空間,這意味著所有線程都可以訪問(wèn)進(jìn)程的全局變量和資源。這一方面為編程帶來(lái)了方便,但另一方面也容易造成沖突。雖然在進(jìn)程中進(jìn)行費(fèi)時(shí)的工作不會(huì)導(dǎo)致系統(tǒng)的掛起,但這會(huì)導(dǎo)致進(jìn)程本身的掛起。所以,如果進(jìn)程既要進(jìn)行長(zhǎng)期的工作,又要響應(yīng)用戶的輸入,那么他可以啟動(dòng)一個(gè)線程來(lái)專門(mén)

43、負(fù)責(zé)費(fèi)時(shí)的工作,而主線程仍然可以與用戶進(jìn)行交互。2、基于Win 32基礎(chǔ)上進(jìn)行多線程編程的過(guò)程線程分用戶界面線程和工作者線程2種。用戶界面線程擁有自己的消息泵來(lái)處理界面消息,可以與用戶進(jìn)行交互。工作者線程沒(méi)有消息泵,一般用來(lái)完成后臺(tái)工作。(1)用Win 32函數(shù)創(chuàng)建和中止線程 win32函數(shù)庫(kù)中提供了多線程控制的操作函數(shù),包括創(chuàng)建線程、中止線程、建立互斥區(qū)等。首先,在應(yīng)用程序的主線程或者其他活動(dòng)線程的適當(dāng)?shù)胤絼?chuàng)建新的線程。創(chuàng)建線程的函數(shù)如下: HANDLE CreateThread(LPSECURITYATTRIBUTES lpThreadAttributes DWORD dwStackSiz

44、e;LPTHREADSTARTROUTINE lpStartAddress。 LPVOID IpParameter DWORD dwCreationFlags; LPDW0RDIpThreadId); 其中:lpThreadAttributes指定了線程的安全屬性,在Windows 95中被忽略;dwStackSize指定了線程的堆棧深度;lpStartAddress指定了線程的起始地址,一般情況為原型函數(shù)DW0RDWINAPI ThreadFunc (I PVOID);lpParameter指定了線程執(zhí)行時(shí)傳送給線程的32位參數(shù),即上面函數(shù)的參數(shù);dwCreationFlags指定了線程創(chuàng)建

45、的特性;lpThreadld指向一個(gè)DWORD變量,可返回線程ID值。如果創(chuàng)建成功則返回線程的句柄,否則返回NUII。創(chuàng)建了新的線程后,則該線程就開(kāi)始啟動(dòng)執(zhí)行了。如果在dwCreationFlags中用了CREATESUSPENDED特性,那么線程并不馬上執(zhí)行,而是先掛起,等到調(diào)用ResumeThread后才開(kāi)始啟動(dòng)線程,在這個(gè)過(guò)程中可以調(diào)用函數(shù):BOOI SetThread Priority (HANDI E hThread,int nPriority)來(lái)設(shè)置線程的優(yōu)先權(quán)。當(dāng)線程的函數(shù)返回后,線程自動(dòng)中止。如果在線程的執(zhí)行過(guò)程中中止的話,則可調(diào)用函數(shù):VOID Exit Thread(DWO

46、RD dwExit Code);如果在線程的外面中止線程的話,則可調(diào)用下面的函數(shù):BOoI TerminateThread (HANDI E hThread,DWORD dwExitCode)。但應(yīng)注意:該函數(shù)可能會(huì)引起系統(tǒng)不穩(wěn)定,而且線程所占用的資源也不釋放。因此,一般情況下,建議不要使用該函數(shù)。如果要中止的線程是進(jìn)程內(nèi)的最后一個(gè)線程,則在線程被中止后相應(yīng)的進(jìn)程也應(yīng)中止。3、用Win 32函數(shù)控制線程對(duì)共享資源的訪問(wèn)在線程體內(nèi),如果該線程完全獨(dú)立,與其他的線程沒(méi)有數(shù)據(jù)存取等資源操作上的沖突,則可按照通常單線程的方法進(jìn)行編程。但是,在多線程處理時(shí)情況常常不是這樣,線程之間經(jīng)常要同時(shí)訪問(wèn)一些資源

47、。例如,一個(gè)線程負(fù)責(zé)公式計(jì)算,另一個(gè)線程負(fù)責(zé)結(jié)果的顯示,兩個(gè)線程都要訪問(wèn)同一個(gè)結(jié)果變量。這時(shí)如果不進(jìn)行沖突控制的話,則很可能顯示的是不正確的結(jié)果。對(duì)共享資源進(jìn)行訪問(wèn)引起沖突是不可避免的,但可用以下辦法來(lái)進(jìn)行操作控制:(1)通過(guò)設(shè)置線程的互斥體對(duì)象,在可能沖突的地方進(jìn)行同步控制;首先,建立互斥體對(duì)象,得到句柄:HANDLE CreateMutex();然后,在線程可能沖突區(qū)域的開(kāi)始 (即訪問(wèn)共享資源之前),調(diào)用WaitForSingleObject將句柄傳給函數(shù),請(qǐng)求占用互斥體對(duì)象:dwWaitResult =WaitForSingleObject(hMutex,5000L);共享資源訪問(wèn)完后,

48、釋放對(duì)互斥體對(duì)象的占用:ReleaseMutex (hMutex);互斥體對(duì)象在同一時(shí)刻只能被一個(gè)線程占用。當(dāng)互斥體對(duì)象被一個(gè)線程占用時(shí),若有另一線程想占用他,則必須等到前一線程釋放后才能成功。 (2)設(shè)置信號(hào) 在操作共享資源前,打開(kāi)信號(hào);完成操作后,關(guān)閉信號(hào)。這類似于互斥體對(duì)象的處理。首先,創(chuàng)建信號(hào)對(duì)象:HANDLE CreateSemaphore();或者打開(kāi)一個(gè)信號(hào)對(duì)象:HANDI E OpenSemaphore();然后,在線程的訪問(wèn)共享資源之前調(diào)用WaitForSingleObject。共享資源訪問(wèn)完后,釋放對(duì)信號(hào)對(duì)象的占用:ReleaseSemaphore();信號(hào)對(duì)象允許同時(shí)對(duì)多

49、個(gè)線程共享資源的訪問(wèn),在創(chuàng)建對(duì)象時(shí)指定最大可同時(shí)訪問(wèn)的線程數(shù)。當(dāng)一個(gè)線程申請(qǐng)?jiān)L問(wèn)成功后,信號(hào)對(duì)象中的計(jì)數(shù)器減1;調(diào)用ReleaseSemaphore函數(shù)后,信號(hào)對(duì)象中的計(jì)數(shù)器加1。其中,計(jì)數(shù)器值創(chuàng)建時(shí)指定的最大值。利用信號(hào)對(duì)象,不僅可以控制共享資源的訪問(wèn),還可以在應(yīng)用的初始化時(shí)候使用。假定一個(gè)應(yīng)用在創(chuàng)建一個(gè)信號(hào)對(duì)象時(shí),將其計(jì)數(shù)器的初始值設(shè)為0,這樣就阻塞了其他線程,保護(hù)了資源。待初始化完成后,調(diào)用ReleaseSemaphore函數(shù)將其計(jì)數(shù)器增加至最大值,進(jìn)行正常的存取訪問(wèn)。 (3)利用事件對(duì)象的狀態(tài),進(jìn)行線程對(duì)共享資源的訪問(wèn)用ResetEvent函數(shù)設(shè)置事件對(duì)象狀態(tài)為不允許線程通過(guò);用Set

50、Event函數(shù)設(shè)置事件對(duì)象狀態(tài)為可以允許線程通過(guò)。事件分為手工釋放和自動(dòng)釋放。如果是手工釋放,則按照上述2個(gè)函數(shù)處理事件的狀態(tài);如果是自動(dòng)釋放,則在一個(gè)線程結(jié)束后,自動(dòng)清除事件狀態(tài),允許其他線程通過(guò)。(4)設(shè)置排斥區(qū) 在排斥區(qū)中異步執(zhí)行時(shí),他只能在同一進(jìn)程的線程之間共享資源處理。雖然此時(shí)上面介紹的3種方法均可使用,但是,使用排斥區(qū)的方法則使同步管理的效率更高;先定義一個(gè)CRITICAl 一SECTlON結(jié)構(gòu)的排斥區(qū)對(duì)象,在進(jìn)程使用之前先對(duì)對(duì)象進(jìn)行初始化,調(diào)用如下函數(shù):VO1D Initialize Critical Section(LPCRlTlCALSECTlON);當(dāng)一個(gè)線程使用排斥區(qū)時(shí),

51、調(diào)用函數(shù):EnterCriticalSection或者TryEnterCriticalSection;當(dāng)要求占用、退出排斥區(qū)時(shí),調(diào)用函數(shù):LeaveCriticalSection。釋放對(duì)排斥區(qū)對(duì)象的占用,供其他線程使用?;コ怏w對(duì)象、信號(hào)對(duì)象和事件對(duì)象也可以用于進(jìn)程間的線程同步操作。在用win32函數(shù)創(chuàng)建了對(duì)象時(shí),可以指定對(duì)象的名字,還可以設(shè)置同步對(duì)象在子進(jìn)程的繼承性。創(chuàng)建返回的是HANDLE句柄,可以用函數(shù)DuplicateHandle來(lái)復(fù)制對(duì)象句柄,這樣每個(gè)進(jìn)程都可以擁有同一對(duì)象的句柄,實(shí)現(xiàn)進(jìn)程之間的線程同步操作。另外,在同一進(jìn)程內(nèi),可以用OpenMutex,OpenSemaphore和Op

52、enEvent來(lái)獲得指定名字的同步對(duì)象的句柄。排斥區(qū)異步執(zhí)行的線程同步方法只能用于同一進(jìn)程的線程之問(wèn)共享資源處理,但是這種方法的使用效率較高,而且編程也相對(duì)簡(jiǎn)單一些。在Visual C+中,除了利用Win32函數(shù)進(jìn)行多線程同步控制外,如果用到了MFC類庫(kù),則可利用已經(jīng)封裝成C+類結(jié)構(gòu)的同步對(duì)象,使編程更加簡(jiǎn)捷。2.5 OpenMP編程模型 OpenMP介紹OpenMP使用fork-join(見(jiàn)圖2-1)并行機(jī)制,程序開(kāi)始串行執(zhí)行,此時(shí)只有一個(gè)主線程,然后在遇到用戶定義的并行區(qū)域時(shí)創(chuàng)建出一組線程。在并行區(qū)域之內(nèi),多個(gè)線程可以執(zhí)行相同的代碼塊,或使用工作共享結(jié)構(gòu)體并行執(zhí)行不同的任務(wù)。主線程并行區(qū)域

53、圖2-1 fork-join并行機(jī)制OpenMP由指導(dǎo)命令、環(huán)境變量和運(yùn)行庫(kù)組成,見(jiàn)圖2-2#1/bin/ksh# Shell-Scriptf90 openmp test_f90export OMP_THREADS*4a.outEnvironment variables! Source file test_f90Program mainIntager omp_get_thread_num! $omp parallel print *, me: omp_get_num()! $omp and parallelend programdirectives(special comment lines)

54、runtime libraryme:0me:3me:2me:1圖2-2 OpenMP組成通過(guò)在串行程序里加入適當(dāng)?shù)闹笇?dǎo)命令和運(yùn)行庫(kù)函數(shù),就可以把串行并行化,這種增量并行的模式使得開(kāi)發(fā)并行程序變得很容易。OpenMP結(jié)構(gòu)如圖2-3所示圖2-3 OpenMP體系結(jié)構(gòu)userdirectivesenvronment variablesOpenMP runtime systemoperating system-theadsruntime functionsOpenMP programshell OpenMP指導(dǎo)命令流程O(píng)penMP主要包含如圖所示的指導(dǎo)命令圖2-4 OpenMP指導(dǎo)命令流程圖paral

55、lel beginparallel endloop endloop beginsingle beginsingle endcritical beginmaster endmaster begincritical endordered beginorderd endsection beginsection endsection beginsection endsections beginsections endbarrierflush我們用流程圖的形式把OpenMP指導(dǎo)指令的特點(diǎn)描繪出來(lái),對(duì)于parallel指導(dǎo)命令包含的代碼段,線程組中所有的線程都要執(zhí)行,對(duì)于loop指導(dǎo)命令包含的代碼段,可能

56、只有部分線程執(zhí)行,右側(cè)的方向線表示有的線程沒(méi)有執(zhí)行完這段代碼,左側(cè)的方向線刻畫(huà)出循環(huán)的特點(diǎn),執(zhí)行完一次迭代后,如果還有任務(wù),從循環(huán)開(kāi)始處執(zhí)行下一次迭代;barrier指導(dǎo)命令表示所有線程在此處同步,然后再執(zhí)行接下來(lái)的語(yǔ)句,barrier指導(dǎo)命令沒(méi)有包含代碼段;flush指導(dǎo)命令后面加上需刷新的共享變量,所以在圖中沒(méi)有畫(huà)出中間的箭頭,即表示不包含代碼段;single指導(dǎo)命令所包含的代碼段只由一個(gè)線程組執(zhí)行,別的線程跳過(guò)這段代碼,如果single指導(dǎo)命令由nowait從句,則所有線程在single指導(dǎo)命令結(jié)束處隱式同步點(diǎn)同步;master指導(dǎo)命令和single指導(dǎo)命令類似,區(qū)別在于master指導(dǎo)

57、命令包含的代碼段由主線程執(zhí)行, single指導(dǎo)命令包含的代碼段可以由任一線程執(zhí)行,并且master指導(dǎo)命令在結(jié)束處沒(méi)有隱式同步,也不能指定nowait從句;critical指導(dǎo)命令包含的代碼段稱為臨界段,同時(shí)只能有一個(gè)線程訪問(wèn);ordered指導(dǎo)命令表示循環(huán)的迭代次序和串行程序一樣;sections指導(dǎo)命令包含一些section,根據(jù)section的數(shù)量和線程的數(shù)量不同,可能有時(shí)一個(gè)線程執(zhí)行多個(gè)section;也可能有的線程沒(méi)有執(zhí)行任何section,右邊的方向線即標(biāo)識(shí)出后面這種情況。通過(guò)流圖的形式來(lái)對(duì)OpenMP指導(dǎo)命令進(jìn)行描繪,可以很清晰的觀察出OpenMP指導(dǎo)命令的特點(diǎn)。OpenMP是面向共享主存結(jié)構(gòu)的標(biāo)準(zhǔn),程序員在開(kāi)發(fā)的過(guò)程中不用考慮數(shù)據(jù)分布,因此使用OpenMP開(kāi)發(fā)并行程序比較容易,一般OpenMP程序是從串行程序出發(fā),通過(guò)在適當(dāng)位置加入編譯指導(dǎo)命令和運(yùn)行庫(kù)函數(shù)來(lái)并行化串行程序,通常OpenMP并行程序有幾種不同的開(kāi)發(fā)形式,本文列出最常見(jiàn)的兩種開(kāi)發(fā)形式:一是通過(guò)簡(jiǎn)單的fork-join形式對(duì)串行程序并行化;二是采用單程序多數(shù)據(jù)SPMD形式對(duì)串行程序并行化。1、fork-join形式的程序。這種形式的OpenMP程

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論