人工智能語(yǔ)音識(shí)別發(fā)展報(bào)告_第1頁(yè)
人工智能語(yǔ)音識(shí)別發(fā)展報(bào)告_第2頁(yè)
人工智能語(yǔ)音識(shí)別發(fā)展報(bào)告_第3頁(yè)
人工智能語(yǔ)音識(shí)別發(fā)展報(bào)告_第4頁(yè)
人工智能語(yǔ)音識(shí)別發(fā)展報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能語(yǔ)音識(shí)別發(fā)展報(bào)告ReportofArtificialIntelligenceDevelopment語(yǔ)音識(shí)別語(yǔ)音識(shí)別目錄TOC\o"1-5"\h\z1.語(yǔ)音識(shí)別3語(yǔ)音識(shí)別概念3語(yǔ)音識(shí)別發(fā)展歷史4人才概況6論文解讀8語(yǔ)音識(shí)別進(jìn)展1731.語(yǔ)音識(shí)別1.1.語(yǔ)音識(shí)別概念語(yǔ)音識(shí)別是讓機(jī)器識(shí)別和理解說(shuō)話人語(yǔ)音信號(hào)內(nèi)容的新興學(xué)科,目的是將語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)槲谋咀址蛘呙畹闹悄芗夹g(shù),利用計(jì)算機(jī)理解講話人的語(yǔ)義內(nèi)容,使其聽(tīng)懂人類的語(yǔ)音,從而判斷說(shuō)話人的意圖,是一種非常自然和有效的人機(jī)流交方式。它是一門綜合學(xué)科,與很多學(xué)科緊密相連,比如語(yǔ)言學(xué)、信號(hào)處理、算計(jì)機(jī)科學(xué)、心理和生理學(xué)等[8。]語(yǔ)音識(shí)別首先要對(duì)采集的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,然后利用相關(guān)的語(yǔ)音信號(hào)處理方法計(jì)算語(yǔ)音的聲學(xué)參數(shù),提取相應(yīng)的特征參數(shù),最后根據(jù)提取的特征參數(shù)進(jìn)行語(yǔ)音識(shí)別。總體上,語(yǔ)音識(shí)別包含兩個(gè)階段:第一個(gè)階段是學(xué)習(xí)和訓(xùn)練,即提取語(yǔ)音庫(kù)中語(yǔ)音樣本的特征參數(shù)作為訓(xùn)練數(shù)據(jù),合理設(shè)置模型參數(shù)的初始值,對(duì)模型各個(gè)參數(shù)進(jìn)行重估,使識(shí)別系統(tǒng)具有最佳的識(shí)別效果;第二個(gè)階段就是識(shí)將別待,識(shí)別語(yǔ)音信號(hào)的特征根據(jù)一定的準(zhǔn)則與訓(xùn)練好的模板庫(kù)進(jìn)行比較,最后通過(guò)一定的識(shí)別算法得出識(shí)別結(jié)果。顯然識(shí)別結(jié)果的好壞與模板庫(kù)是否準(zhǔn)確、模型參數(shù)的好壞以及特征參數(shù)的選擇都有直接的關(guān)系。實(shí)際上,語(yǔ)音識(shí)別也是一種模式識(shí)別,其基本結(jié)構(gòu)如下圖所示。和一般模式識(shí)別過(guò)程相同,語(yǔ)音識(shí)別包括如圖所示3個(gè)基本部分。實(shí)際上,由于語(yǔ)音信息的復(fù)雜性以及語(yǔ)音內(nèi)容的豐富性,語(yǔ)音識(shí)別系統(tǒng)要比模式識(shí)別系統(tǒng)復(fù)雜的多。圖6-1語(yǔ)音識(shí)別系統(tǒng)框架其中,預(yù)處理主要是對(duì)輸入語(yǔ)音信號(hào)進(jìn)行預(yù)加重和分段加窗等處理,并濾除其中的不重要信息及背景噪聲等,然后進(jìn)行端點(diǎn)檢測(cè),以確定有效的語(yǔ)音段。特征參數(shù)提取是將反映信號(hào)特征的關(guān)鍵信息提取出來(lái),以此降低維數(shù)減小計(jì)算量,用于后續(xù)處理,這相當(dāng)于一種信息壓縮。之后進(jìn)行特征參數(shù)提取,用于語(yǔ)音訓(xùn)練和識(shí)別。常用的特征參數(shù)有基于時(shí)域的幅度、過(guò)零率、能量以及基于頻域的線性預(yù)測(cè)倒譜系數(shù)、Mel倒譜系數(shù)等。1.2.語(yǔ)音識(shí)別發(fā)展歷史語(yǔ)音識(shí)別的研究工作可以追溯到20世紀(jì)50年代。在1952年,AT&T貝爾研究所的Davis,Biddulph和Balashek研究成功了世界上第一個(gè)語(yǔ)音識(shí)別系統(tǒng)Audry系統(tǒng),可以識(shí)別10個(gè)英文數(shù)字發(fā)音。這個(gè)系統(tǒng)識(shí)別的是一個(gè)人說(shuō)出的孤立數(shù)字,并且很大程度上依賴于每個(gè)數(shù)字中的元音的共振峰的測(cè)量。1956年,在RCA實(shí)驗(yàn)室Olson和Belar研制了可以識(shí)別一個(gè)說(shuō)話人的10個(gè)單音節(jié)的系統(tǒng),它同樣依賴于元音帶的譜的測(cè)量。1959年,英國(guó)的Fry和Denes研制了一個(gè)能夠識(shí)別4個(gè)元音和9個(gè)輔音的識(shí)別器,他們采用了譜分析儀和模式匹配器。所不同的是他們對(duì)音素的序列做了限制(相當(dāng)于現(xiàn)在的語(yǔ)法規(guī)則),以此來(lái)增加字識(shí)別的準(zhǔn)確率。但當(dāng)時(shí)存在的問(wèn)題是的理論水平不夠,都沒(méi)有取得非常明顯的成功。60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別技術(shù)的發(fā)展,使用了電子計(jì)算機(jī)進(jìn)行語(yǔ)音識(shí)別,提出了一系列語(yǔ)音識(shí)別技術(shù)的新理論—?jiǎng)討B(tài)規(guī)劃線性預(yù)測(cè)分析技術(shù),較好的解決了語(yǔ)音信號(hào)產(chǎn)生的模型問(wèn)題。該理論主要有三項(xiàng)研究成果。首先是國(guó)美新澤西州普林斯頓RCA實(shí)驗(yàn)室的Martin和他的同事提出一種基本的時(shí)間歸一化方法,這種方法有效的解決了語(yǔ)音事件時(shí)間尺度的非均勻性,能可靠的檢測(cè)到語(yǔ)音的起始點(diǎn)和終止點(diǎn),有效地解決了識(shí)別結(jié)果的可變性。其次,蘇聯(lián)的yuk提出了用動(dòng)態(tài)規(guī)劃的方法將兩段語(yǔ)音的時(shí)間對(duì)齊的方法,這實(shí)際上是動(dòng)態(tài)時(shí)間規(guī)整(DynamicTimeWarping)方法的最早版本,盡管到了80年代才為外界知曉。第三個(gè)是卡耐基梅隆大學(xué)的Reddy采用的是音素的動(dòng)態(tài)跟蹤的方法,開(kāi)始了連續(xù)語(yǔ)音識(shí)別的研究工作,為后來(lái)的獲得巨大成功的連續(xù)語(yǔ)音識(shí)別奠定了基礎(chǔ)。70年代,語(yǔ)音識(shí)別研究取得了重大的具有里程碑意義的成果,伴隨著自然語(yǔ)言理解的研究以及微電子技術(shù)的發(fā)展,語(yǔ)音識(shí)別領(lǐng)域取得了突破性進(jìn)展。這一時(shí)期的語(yǔ)音識(shí)別方法基本上是采用傳統(tǒng)的模式識(shí)別策略。其中蘇聯(lián)Velichko和Zagoruyko的研究為模式識(shí)別應(yīng)用于語(yǔ)音識(shí)別這一領(lǐng)域奠定了基礎(chǔ);日本的迫江和千葉的研究則展示了如何利用動(dòng)態(tài)規(guī)劃技術(shù)在待識(shí)語(yǔ)音模式與標(biāo)準(zhǔn)語(yǔ)音模式語(yǔ)音識(shí)別之間進(jìn)行非線性時(shí)間匹配的方法;日本的板倉(cāng)的研究則提出了如何將線性預(yù)測(cè)分析技術(shù)加以擴(kuò)展,使之用于語(yǔ)音信號(hào)的特征抽取的方法。同時(shí),這個(gè)時(shí)期還提出了矢量量化和隱馬爾可夫模型理論。80年代,語(yǔ)音識(shí)別研究進(jìn)一步走向深入。這一時(shí)期所取得的重大進(jìn)展有:(1)隱馬爾科夫模型(HMM)技術(shù)的成熟和不斷完善,并最終成為語(yǔ)音識(shí)別的主流方法。(2)以知識(shí)為基礎(chǔ)的語(yǔ)音識(shí)別的研究日益受到重視。在進(jìn)行連續(xù)語(yǔ)音識(shí)別的時(shí)候,除了識(shí)別聲學(xué)信息外,更多地利用各種語(yǔ)言知識(shí),諸如構(gòu)詞、句法語(yǔ)義、對(duì)話背景等方面的知識(shí)來(lái)幫助進(jìn)一步對(duì)語(yǔ)音識(shí)別和理解。同時(shí)在語(yǔ)音識(shí)別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計(jì)概率的語(yǔ)言模型。3(人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的應(yīng)用研究的興起。ANN具有較好的區(qū)分復(fù)雜分類邊界的能力,顯然它十分有助于模式識(shí)別。在這些研究中,大部分采用基于反向傳播算法BP算法)的多層感知網(wǎng)絡(luò)[9]。世紀(jì)90年代,語(yǔ)音識(shí)別技術(shù)逐漸走向?qū)嵱没?,在建立模型、提取和?yōu)化特征參數(shù)方面取得了突破性的進(jìn)展,使系統(tǒng)具有更好的自適應(yīng)性。許多發(fā)達(dá)國(guó)家和著名公司都投入大量資金用以開(kāi)發(fā)和研究實(shí)用化的語(yǔ)音識(shí)別產(chǎn)品,從而許多具有代表性的產(chǎn)品問(wèn)世。比如IBM公司研發(fā)的漢語(yǔ)ViaVoice系統(tǒng),以及Dragon工司研發(fā)的DragonDictate系統(tǒng),都具有說(shuō)話人自適應(yīng)能力,能在用戶使用過(guò)程中不斷提高識(shí)別率。世紀(jì)之后,深度學(xué)習(xí)技術(shù)極大的促進(jìn)了語(yǔ)音識(shí)別技術(shù)的進(jìn)步,識(shí)別精度大大提高,應(yīng)用得到廣泛發(fā)展。2009年,Hinton將深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用于語(yǔ)音的聲學(xué)建模,在TIMIT上獲得了當(dāng)時(shí)最好的結(jié)果。2011年底,微軟研究院的俞棟、鄧力又把DNN技術(shù)應(yīng)用在了大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上,大大降低了語(yǔ)音識(shí)別錯(cuò)誤率。從此語(yǔ)音識(shí)別進(jìn)入DNN-HMM時(shí)代。DNN帶來(lái)的好處是不再需要對(duì)語(yǔ)音數(shù)據(jù)分布進(jìn)行假設(shè),將相鄰的語(yǔ)音幀拼接又包含了語(yǔ)音的時(shí)序結(jié)構(gòu)信息,使得對(duì)于狀態(tài)的分類概率有了明顯提升。同時(shí)DNN還具有強(qiáng)大環(huán)境學(xué)習(xí)能力,可以提升對(duì)噪聲和口音的魯棒性。目前,語(yǔ)音識(shí)別技術(shù)已逐漸被應(yīng)用于工業(yè)、通信、商務(wù)、家電、醫(yī)療、汽車電子以及家庭服務(wù)等各個(gè)領(lǐng)域。例如,現(xiàn)今流行的手機(jī)語(yǔ)音助手,就是將語(yǔ)音識(shí)別技術(shù)應(yīng)用到智能手機(jī)中,能夠?qū)崿F(xiàn)人與手機(jī)的智能對(duì)話功能。其中包括美國(guó)蘋果公司的Siri語(yǔ)音助手,智能360語(yǔ)音助手,百度語(yǔ)音助手等[10。1.3.人才概況全球人才分布學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為語(yǔ)音識(shí)別領(lǐng)域全球?qū)W者分布情況:?LLtt迫F…“?iKllVl^WFA-?-?LLtt迫F…“?iKllVl^WFA-?-1u?'.!1LV:Di:i?A1riTI圖6-2語(yǔ)音識(shí)別領(lǐng)域全球?qū)W者分布地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯且主要分布在其東西海岸;亞洲也有較多的人才分布,主要在我國(guó)東部及日韓地區(qū);歐洲的人才主要集中在歐洲中西部;其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少;語(yǔ)音識(shí)別領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。此外,在性別比例方面,語(yǔ)音識(shí)別領(lǐng)域中男性學(xué)者占比87.3%,女性學(xué)者占比12.7%,男性學(xué)者占比遠(yuǎn)高于女性學(xué)者。語(yǔ)音識(shí)別領(lǐng)域?qū)W者的h-index分布如下圖所示,大部分學(xué)者的h-index分布在中間區(qū)域,其中h-index在30-40區(qū)間的人數(shù)最多,有752人,占比37.3%,小于20區(qū)間的人數(shù)最少,只有6人。語(yǔ)音識(shí)別語(yǔ)音識(shí)別語(yǔ)音識(shí)別語(yǔ)音識(shí)別■■■圖6-3語(yǔ)音識(shí)別領(lǐng)域?qū)W者h(yuǎn)-index分布中國(guó)人才分布我國(guó)專家學(xué)者在語(yǔ)音識(shí)別領(lǐng)域的分布如下圖所示。通過(guò)下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是長(zhǎng)三角和珠三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏,這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無(wú)關(guān)系。同時(shí),通過(guò)觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓、東南亞等亞洲國(guó)家相比中國(guó)在語(yǔ)音識(shí)別領(lǐng)域?qū)W者數(shù)量較多且有一定的優(yōu)勢(shì)。,—J,.知iirzM比乩帝°,—J,.知iirzM比乩帝°KJ^7Ii7品*1f、j-L■m謨靜4irnsft!KaHi'^giirAii?■_AvklCiMlA圖6-4語(yǔ)音識(shí)別領(lǐng)域中國(guó)學(xué)者分布語(yǔ)音識(shí)別語(yǔ)音識(shí)別#系統(tǒng)主要由兩個(gè)模塊構(gòu)成:旋律合成網(wǎng)絡(luò)mel-synthesis和超分辨率網(wǎng)絡(luò)super-resolution。mel-synthesis網(wǎng)絡(luò)根據(jù)前面的旋律輸入0冊(cè),時(shí)序?qū)R的文本1:及音調(diào)輸入1:訓(xùn)練生成旋律譜圖;super-resolution網(wǎng)絡(luò)根據(jù)文本和音調(diào)信息作為條件輸入,將生成的旋律譜圖進(jìn)行上采樣(upsample);最后判別器(discriminator)將上采樣結(jié)果和生成的旋律譜圖以對(duì)抗的方式訓(xùn)練網(wǎng)絡(luò)。在測(cè)試階段,從給定文本及音調(diào)輸入中以自回歸的方式生成旋律譜圖的幀序列然后通過(guò)super-resolution網(wǎng)絡(luò)上采樣為線性譜圖,最后通過(guò)Griffin-Lim算法轉(zhuǎn)換為聲波形式(waveform)。研究結(jié)果:實(shí)驗(yàn)使用手工收集整理的歌聲數(shù)據(jù)集,包含了60首流行歌曲。實(shí)驗(yàn)表明使用文本信息對(duì)phoneticenhancementmask進(jìn)行建模是有效的,能夠生成更為準(zhǔn)確的發(fā)音。同時(shí)在super-resolution階段使用條件對(duì)抗(conditionaladversarial)訓(xùn)練方法能夠獲得更高的聲音質(zhì)量。1.5.語(yǔ)音識(shí)別進(jìn)展隨著人工智能的迅速發(fā)展,語(yǔ)音識(shí)別的技術(shù)越來(lái)越成為國(guó)內(nèi)外研究機(jī)構(gòu)的焦點(diǎn)。人們致力于使機(jī)器能夠聽(tīng)懂人類的話語(yǔ)指令,并希望通過(guò)語(yǔ)音實(shí)現(xiàn)對(duì)機(jī)器的控制。作為一項(xiàng)人機(jī)交互的關(guān)鍵技術(shù),語(yǔ)音識(shí)別在過(guò)去的幾十年里取得了飛速的發(fā)展在研究和探索過(guò)程中針對(duì)語(yǔ)音識(shí)別的各部流程進(jìn)行了各種各樣的嘗試和改造,以期發(fā)現(xiàn)更好的方法來(lái)完成語(yǔ)音識(shí)別流程中的各個(gè)步驟,以此來(lái)促進(jìn)在不同環(huán)境下語(yǔ)音識(shí)別的效率和準(zhǔn)確率。研究人員從最簡(jiǎn)單的非常小詞匯量的閱讀式的語(yǔ)音識(shí)別問(wèn)題開(kāi)始,逐漸轉(zhuǎn)向越來(lái)越復(fù)雜的問(wèn)題。近年來(lái)智能語(yǔ)音進(jìn)入了快速增長(zhǎng)期,語(yǔ)音識(shí)別作為語(yǔ)音領(lǐng)域的重要分支獲得了廣泛的關(guān)注,如何提高聲學(xué)建模能力和如何進(jìn)行端到端的聯(lián)合優(yōu)化是語(yǔ)音識(shí)別領(lǐng)域中的重要課題。語(yǔ)音識(shí)別經(jīng)歷了從2012年最開(kāi)始的DNN的引入時(shí)的HybridHMM結(jié)構(gòu),再到2015年開(kāi)始吸引大家研究興趣的CTC算法,而后到2018年的Attention相關(guān)結(jié)構(gòu)的研究熱點(diǎn)oAttention相關(guān)算法在語(yǔ)音識(shí)別或者說(shuō)話人識(shí)別研究的文章中出現(xiàn)頻率極高。從最開(kāi)始Attention,至【」Listen-Attend-Spell,再到Self-Attention(或者Transforme)r,在不同的文章被作者多次介紹和分析,頻繁出現(xiàn)在了相關(guān)文章的Introduction環(huán)節(jié)中。在Attention結(jié)構(gòu)下,依然還有很多內(nèi)容需要研究者們進(jìn)一步地探索:例如在一些情況"Hybrid結(jié)構(gòu)依然能夠得到State-of-the-art的結(jié)果,以及語(yǔ)音數(shù)據(jù)庫(kù)規(guī)模和Attention模型性能之間的關(guān)系。在近兩年的研究中,端到端語(yǔ)音識(shí)別仍然是ASR(AutomaticSpeechRecognition)研究的一大熱點(diǎn),正如上文提到的,基于Attention機(jī)制的識(shí)別系統(tǒng)已經(jīng)成為了語(yǔ)音技術(shù)研究主流。同時(shí),隨著端到端語(yǔ)音識(shí)別框架日益完善,研究者們對(duì)端到端模型的訓(xùn)練和設(shè)計(jì)更加的關(guān)注。遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別(far-fieldASR),模型結(jié)構(gòu)(ASRnetworkarchitecture),模型訓(xùn)練(modeltrainingforASR),跨語(yǔ)種或者多語(yǔ)種語(yǔ)音識(shí)別(cross-lingualandmulti-lingualASR)以及一些端到端語(yǔ)音識(shí)別(end-to-endASR)成為研究熱點(diǎn)。在語(yǔ)音合成方面,高音質(zhì)語(yǔ)音生成算法及Voiceconversion是近兩年研究者關(guān)注的兩大熱點(diǎn),VoiceConversion方向的研究重點(diǎn)主要集中在基于GAN的方法上。在語(yǔ)言模型方面(LanguageModel)的研究熱點(diǎn)主要包括NLP模型的遷移,低頻單詞的表示,以及深層Transformer等。在說(shuō)話人識(shí)別方面,說(shuō)話人信息,特別是說(shuō)話人識(shí)別及切分,正被越來(lái)越多的研究者所重視。目前Attention在說(shuō)話人方面更類似一種TimePooling,比AveragePoo

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論