




已閱讀5頁(yè),還剩86頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
I 摘 要 盡管非特定人的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)達(dá)到了令人鼓舞的性能,但是在實(shí)際應(yīng)用時(shí)由于說(shuō)話人和環(huán)境的改變通常會(huì)使得系統(tǒng)性能顯著下降。當(dāng)遇到特殊口音的說(shuō)話人,或者環(huán)境有一定的噪音時(shí),系統(tǒng)的誤識(shí)率甚至有可能增加原來(lái)的5倍。語(yǔ)音識(shí)別要走向?qū)嵱?,就必須克服這個(gè) 性 , 語(yǔ)音 應(yīng) 的 非常 要。 文 說(shuō)話人 應(yīng) 論了語(yǔ)音 應(yīng)的 。通 說(shuō)話人的 學(xué) 的 論, 和實(shí)了 常用的說(shuō)話人 應(yīng) 大率 和大“性 。實(shí) 應(yīng) 說(shuō)話人 應(yīng)和環(huán)境 應(yīng)有 。 在 , 文”一 于語(yǔ)音識(shí)別的 應(yīng) 。通 在的 一個(gè)的 ,這 了 的 , 在應(yīng) 時(shí) 應(yīng) ”了 識(shí)和 應(yīng) 的 ,有的性。在 ,的 使用了一個(gè) 的 ,用來(lái) 環(huán)境和說(shuō)話人 的 , 了加的 。 的 要用來(lái)的 于音 的 , 時(shí)了個(gè) 的性。 , 應(yīng) 的特, 時(shí) 用了一 的使用 應(yīng) 的 略。在論文的實(shí),這 即使在 應(yīng) 的情況下可以取得的 。在無(wú)噪音和有噪音的環(huán)境 別可以降低 識(shí)別字錯(cuò)誤率。實(shí)這 能夠有的克服說(shuō)話人 和環(huán)境 識(shí)別系統(tǒng)的影響, 語(yǔ)音識(shí)別系統(tǒng)的要求。 關(guān)鍵詞語(yǔ)音識(shí)別,說(shuō)話人 應(yīng),環(huán)境 應(yīng), in is a an of so to to to of in of By a At of in a is in a is By a to AP to of In a to by a to AP AP is a of to of on AP a of is In is a in a in a is V 目 錄 摘 要 I V 第一章 言 1 音識(shí)別 1 音識(shí)別的 1 音識(shí)別的歷史與狀 2 音識(shí)別系統(tǒng)的框架 4 音 應(yīng) 4 話人 應(yīng) 5 他 應(yīng) 6 內(nèi) 發(fā)展動(dòng)態(tài) 7 8 8 8 第二章 說(shuō)話人 應(yīng) 定人系統(tǒng)與非特定人系統(tǒng) 話人 話人 應(yīng) 話人 應(yīng)的 類 話人 應(yīng)的 要 述 25第三章 于參 換的 應(yīng) 大率 30 識(shí) 量域平滑 實(shí) 大“性 介 估 實(shí) 述 46第四章 應(yīng) 言 境 應(yīng) 應(yīng) 體框架 與 的 略 述 54第五章 實(shí)與 論 環(huán)境 系統(tǒng)框架 與 論 的 應(yīng)實(shí) 境 應(yīng)的 別 應(yīng) 應(yīng) 述 70第六章 總 73參考文獻(xiàn) 75附 錄 81圖表索 85個(gè)人歷 87致 謝 89 1 第一章 引 言 處于信息革命浪潮時(shí)代的今天,人 于 樣信息的需求與日俱增,人 急切需要的信息處 式。語(yǔ)音,作 人類信息交流的 、有、 使用的 , 來(lái) 者的關(guān) 。 音識(shí)別 語(yǔ)音識(shí)別 用 算 人的語(yǔ)音信 動(dòng)取有 的信息, 定語(yǔ)音信 的語(yǔ)言 的 。作 一個(gè) 學(xué) 域, 與 學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、 學(xué)、 學(xué)、 學(xué)、人工 能、 字信 處 論、式識(shí)別 論、統(tǒng) 信息 論、 論、 算 學(xué) 學(xué) 。 音識(shí)別的意義 人 語(yǔ)音識(shí)別 識(shí)的 ,人 語(yǔ)音識(shí)別”了 來(lái) 的目。語(yǔ)音識(shí)別的目的就是人與人之間話交流信息一樣,實(shí)人 由 話,就是以“,使 能“人的語(yǔ)言, 話音的內(nèi) 語(yǔ)言或有 的 ,或者一使 能夠 人的 作,”人類 或的 動(dòng) ”來(lái)。 ,語(yǔ)音識(shí)別鍵和之,人 交革命的下一 。: 語(yǔ)言是 的。 語(yǔ)音識(shí)別有 大的實(shí)際應(yīng)用,其發(fā)展、 和實(shí)用 的 發(fā)展,其 算 、 動(dòng)、通信、國(guó) 、 人 。目 可以 的語(yǔ)音識(shí)別 要應(yīng)用有語(yǔ)音 系統(tǒng),作 一 的文字第一章 言 - 2 - ,用口述代 鍵向 算 文字,這 動(dòng)和”來(lái)革命性的變 語(yǔ)音 系統(tǒng), 人 在 動(dòng) 以 了一 安、 的 ,特別是當(dāng)系統(tǒng)工作在一 特定的環(huán)境或已 用來(lái)其 動(dòng)作的環(huán)境或一 特殊的用 人時(shí) 于 話系統(tǒng)的 系統(tǒng), 用 了 、 和 的 索或 ,可以 用在 、交、 之 ,語(yǔ)音識(shí)別 可以用于口語(yǔ) 系統(tǒng)、 算 輔助教學(xué)、 動(dòng)身份 域。 音識(shí)別的歷史與現(xiàn)狀 動(dòng)語(yǔ)音識(shí)別 開 于五十年代。當(dāng)時(shí)電子信 頻譜 儀開 用于 語(yǔ)音信 識(shí)別 、 量的音節(jié)和音 。其有代表性的是1952年美國(guó)的和1956年節(jié)詞識(shí)別系統(tǒng)2。 六十年代, 字 算 的 發(fā)展使人 語(yǔ)音信 的 由 擬信 的 向 字 。在這一時(shí)期,4和語(yǔ)音 的 使人語(yǔ)音 的 有了一個(gè)系統(tǒng)的了 。人 人類“的 和 了 ,發(fā)了人耳 音的不 頻率 有不 的 力的反應(yīng)力,”了臨頻 論。這一時(shí)期,在語(yǔ)音識(shí)別的算 尚未找到 算 的 和算 。但人 了 段 類式匹配 。與 時(shí), 語(yǔ)言 域的一 性 在。六十年代 的性 七十年代語(yǔ)音識(shí)別的 發(fā)展打下了。 七十年代,語(yǔ)音識(shí)別無(wú)論在 論, 是在系統(tǒng)實(shí),有了 的發(fā)展。1975年發(fā)于性 編碼譜系 是識(shí)別 的特征,不但識(shí)別 大有, 算復(fù)雜 小。一時(shí)期,六十年代 ”的動(dòng)態(tài)時(shí)間規(guī) 7 的應(yīng)用于語(yǔ)音識(shí)別。 于 和識(shí)別系統(tǒng)紛紛建立 來(lái)。七十年代一個(gè) 大的里 碑,就是和識(shí)到可以一章 言 - 3 - 應(yīng)用于語(yǔ)音識(shí)別。七十年代”了 的孤立詞識(shí)別系統(tǒng), 0、大詞匯量 動(dòng)語(yǔ)音“寫系統(tǒng)11、與話者無(wú)關(guān)的語(yǔ)音識(shí)別系統(tǒng)12。 到了八十年代,語(yǔ)音識(shí)別 有了的 性的發(fā)展。矢量量13和隱馬爾可夫 14,15在語(yǔ)音識(shí)別獲得了 的應(yīng)用, 了 6,17這樣的 的非特定人 續(xù)語(yǔ)音識(shí)別系統(tǒng)。 ,八十年代人工神經(jīng)網(wǎng)絡(luò)的 熱潮波及語(yǔ)音 域,”了于人工神經(jīng)網(wǎng)絡(luò)18或者人工神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫 的混 19,20,21的識(shí)別系統(tǒng)。 九十年代, 信 處 、 學(xué) 、語(yǔ)言 、 碼搜索算 論日益 , 算 軟硬件系統(tǒng)性能不斷,”了一 大詞匯量 續(xù)語(yǔ)音識(shí)別系統(tǒng), 2,3,4。這 系統(tǒng)大體 用了 “的 ,不僅有于隱馬爾可夫 的 學(xué) , 了復(fù)雜的語(yǔ)言 以及 的 碼算 。有的系統(tǒng) 加 了語(yǔ)言 部 ,使系統(tǒng)性能一。 目 已有不 語(yǔ)音識(shí)別系統(tǒng) 實(shí)用階段,走了市,這里列”近個(gè)人電 雜報(bào)道的世 要語(yǔ)音識(shí)別軟件的評(píng) 25。這個(gè)評(píng) 表 在實(shí)用的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)發(fā)展到了非特定人、超大規(guī)詞匯量和 續(xù)語(yǔ)音識(shí)別階段,并有大約93%的 識(shí)別 率。 表1000、L&H 音識(shí)別系統(tǒng)的性能 000 L&H 別率 95% 91% 93% 95%是否支持 用 支持 支持 支持 支持 動(dòng)詞匯表 160,000 60,000 34,000 64,000 大 動(dòng)詞匯表 250,000 670,000 64,000 2,000,000 第一章 言 - 4 - 音識(shí)別系統(tǒng)的框架 雖目 的實(shí)用的語(yǔ)音識(shí)別系統(tǒng)使用 不 的 和 碼 ,但圖1語(yǔ)音識(shí)別系統(tǒng)的一般性的框架 。語(yǔ)音信 通 信 處 識(shí)別使用的一系列特征向量 識(shí)別再利用語(yǔ)言 和 學(xué) 得到 應(yīng) 特征向量有大率的詞序列 時(shí) 應(yīng)有用的信息用來(lái) 語(yǔ)言 和 學(xué) 修改。 圖1音識(shí)別系統(tǒng)的框架 音自適應(yīng)技術(shù) 圖1,目 的大 使用語(yǔ)音識(shí)別系統(tǒng) 了一個(gè)非常 要的 應(yīng)。 的作用 要是用 應(yīng) 來(lái)調(diào) 學(xué) 和語(yǔ)言 ,使系統(tǒng) 應(yīng)的應(yīng)用狀況。雖一個(gè)訓(xùn)練的系統(tǒng)可以 應(yīng) 不 的情況,但 和實(shí)際作狀況間總存在一定的 。以使語(yǔ)音識(shí)別系統(tǒng)可以通 量的矯 盡量 小這 是十 要的。 應(yīng) 就是這樣信 處 (碼/識(shí)別(學(xué)模型(言模型(用(用(音(第一章 言 - 5 - 一 , 系統(tǒng)參 調(diào), 使系統(tǒng)的匹配由于 克 、 通道、環(huán)境噪音、說(shuō)話人、文體和應(yīng)用的下文 的 。 話人自適應(yīng) 目 語(yǔ)音識(shí)別 在小詞匯量的非特定人別系統(tǒng)已經(jīng)可以達(dá)到 的識(shí)別 率。 于 平 的詞錯(cuò)誤率達(dá)到了3% 26。盡管平 錯(cuò)誤率 低,但有一 說(shuō)話人的錯(cuò)誤 顯與其他人。由于使用 的說(shuō)話人來(lái)訓(xùn)練非特定人的系統(tǒng) ,使得說(shuō)話人之間的 當(dāng)作說(shuō)話人內(nèi)部的 處 了。這樣使得 一個(gè) 學(xué)了大量的 ,有可能降低 于 個(gè)的說(shuō)話人的建。這一可以由 一個(gè)說(shuō)話人的語(yǔ)音 非特定人系統(tǒng)和特定人系統(tǒng)SD 有 的 訓(xùn)練這個(gè)系統(tǒng), 特定人系統(tǒng)性能要非特定人系統(tǒng)2到3倍。 文獻(xiàn)26”的 , 表1表1特定人與特定人系統(tǒng)性能于 一說(shuō)話人的語(yǔ)音 ,非特定人和特定人系統(tǒng)。其訓(xùn)練得到,再訓(xùn)練600個(gè)。 說(shuō)話人 ) ) .3 .6 .9 .0 .2 .3 .6 .5 .8 .1 .6 94第一章 言 - 6 - 特定人系統(tǒng)需 一個(gè) 說(shuō)話者訓(xùn)練,一般 言需的語(yǔ)音 量至 應(yīng)達(dá)600 話匯量在5000以27。 大量的語(yǔ)音于 個(gè)使用者是一 的 , 處 這 需的小時(shí),這使特定人系統(tǒng)的實(shí)用性 到 大 。 了 這個(gè) ,開 說(shuō)話人 應(yīng) ,即在一個(gè)已經(jīng)訓(xùn)練的 系統(tǒng),用一定的說(shuō)話人的語(yǔ)音 應(yīng) , 圖 系統(tǒng) 這個(gè)說(shuō)話人的建 。一 可以是 一個(gè) 說(shuō)話人 訓(xùn)練的特定人系統(tǒng)和一個(gè)用 量說(shuō)話人的訓(xùn)練語(yǔ)音 訓(xùn)練的非特定人系統(tǒng)的 , 使系統(tǒng)的識(shí)別率 近于 說(shuō)話人經(jīng) 訓(xùn)練的特定人系統(tǒng)的 平。 了 非特定人系統(tǒng)存在的 之 ,說(shuō)話人 應(yīng) 可以用來(lái)增識(shí)別系統(tǒng) 環(huán)境的 應(yīng)能力,特別是 環(huán)境噪音或 克 的 應(yīng)能力。 文 工作 要 在說(shuō)話人 應(yīng) 的 。 他自適應(yīng)技術(shù) 了說(shuō)話人 應(yīng)( 說(shuō)話人的 音特的 應(yīng)能力) , 應(yīng) 下個(gè) 環(huán)境的 應(yīng)能力,特別是 環(huán)境噪音或 克 的 應(yīng)能力。環(huán)境噪音的 應(yīng)可以有 的 一 是 語(yǔ)音的噪音,使得語(yǔ)音變得。 時(shí),系統(tǒng) 噪音的 應(yīng)能力就體在 不 的環(huán)境噪音, 取不 的噪 ,盡量 噪音 續(xù)作的影響。這需要 噪音 ,以 定 應(yīng)的處 。 有一 是 有噪音的語(yǔ)音來(lái)訓(xùn)練 ,使得噪音 的一個(gè)有部 。 時(shí),系統(tǒng) 噪音的 應(yīng)能力體在噪音 反“ 使用時(shí)的噪音環(huán)境。當(dāng)環(huán)境噪音與訓(xùn)練噪音不一致時(shí),系統(tǒng)必須 噪 調(diào), 排 噪音 系統(tǒng)識(shí)別性能的影響。 第一章 言 - 7 - 說(shuō)話人的語(yǔ)言特的 應(yīng)能力。 語(yǔ)言特的 應(yīng), 要是 的文體式和語(yǔ)體式的 應(yīng)能力。系統(tǒng)應(yīng) 語(yǔ)音流的特一定的調(diào),使得系統(tǒng)的 參 特定的語(yǔ)音 性。在語(yǔ)體式, 要有口語(yǔ)體和體 ??谡Z(yǔ)語(yǔ)言存在 大量的略、臨時(shí)、 復(fù)調(diào)、 錯(cuò)以及非 語(yǔ) 和無(wú) 語(yǔ)音 28。 說(shuō)話人的語(yǔ) 特的 應(yīng)能力。這一是未來(lái) 語(yǔ) 復(fù)系統(tǒng)的要求,即未來(lái)的語(yǔ)音識(shí)別系統(tǒng)可以 動(dòng)識(shí)別 語(yǔ) 。 內(nèi)外發(fā)展動(dòng)態(tài) 語(yǔ)音信 處 應(yīng) 的 是 語(yǔ)音識(shí)別 的發(fā)展 并發(fā)展 來(lái)的。目 應(yīng) 已經(jīng) 了語(yǔ)音識(shí)別 的一個(gè)不可缺 的要部 ,并 開 應(yīng)用在大 實(shí)用語(yǔ)音 和 平, ,的。 個(gè)語(yǔ)音識(shí)別 的發(fā)展 ,語(yǔ)音識(shí)別系統(tǒng)的”性的 之一29,30。 這是語(yǔ)音識(shí)別系統(tǒng)由實(shí) 實(shí)用 的一個(gè) 切關(guān)鍵的 。 說(shuō)話人 應(yīng) 是其不的一個(gè)和 。這 已經(jīng) 了 來(lái) 的 的關(guān) 和 ,有 語(yǔ)音識(shí)別 的 與 位開 的力 應(yīng) 的 。 語(yǔ)音 的國(guó)際學(xué) 會(huì)開 ”說(shuō)話人 應(yīng)作 論。 目 ,國(guó)際說(shuō)話人 應(yīng)的 要 可以大致 下 說(shuō)話人 規(guī)377,其目的是建立一個(gè) 規(guī)的說(shuō)話人間,使得 人的語(yǔ)音可以“其。這樣可以”說(shuō)話人間的 降到低。 規(guī)的 ,其使用 的有 道 譜 規(guī) 說(shuō)話人類17,43,45,65,通 一定的類或者 類算, 不 說(shuō)話人的 類 組。識(shí)別時(shí)取與目說(shuō)話人 近的 組識(shí)別。這 是十 有的 , 系統(tǒng) 使用。 第一章 言 - 8 - 譜變換476,91,92,是通 使用性或非性的變換”一個(gè)說(shuō)話人的語(yǔ)音譜間“到一個(gè)人的譜間, 實(shí) 應(yīng)。需要 ”的是,這 變換即可以 用于特征間可以在。 參 調(diào)546,79,82,85,是”原有 識(shí) 求”達(dá)到大率a 系統(tǒng) 用的 參 。 的 介 和 請(qǐng)參 論文的第二章。 國(guó)的語(yǔ)音識(shí)別 ,但由于 語(yǔ)語(yǔ)音識(shí)別的 要性日益 ”,近十年的發(fā)展十 。以 應(yīng) 九十年代開 的說(shuō)話人 應(yīng)的 國(guó) 可以和國(guó) 。目 國(guó)內(nèi) 這 的 要有清華大學(xué)、國(guó) 學(xué) 學(xué) 、國(guó) 學(xué) 動(dòng) 、 大學(xué)、國(guó) 學(xué) 大學(xué)、國(guó) 大學(xué)、 電大學(xué) 31,36079,73,74,82。 文的工作是語(yǔ)音識(shí)別的 應(yīng) 的 , 要內(nèi) 的實(shí)及 。 了 下的工作(1) 實(shí)于大率 的說(shuō)話人應(yīng)。(2) 實(shí)于大“性 的說(shuō)話人 應(yīng)。(3) ”一個(gè) 的 應(yīng) 。(4) 使用說(shuō)話人 應(yīng) 環(huán)境和噪音 應(yīng)。 內(nèi) 第一章 言 - 9 - 第一章 述語(yǔ)音識(shí)別、語(yǔ)音 應(yīng)、以及 文 要 工作 第二章 了 說(shuō)話人 的原 ,要介 說(shuō)話人 應(yīng)的 和原 , 介 了 常 的說(shuō)話人 應(yīng) ; 第三章 ”了于大率于大“性 應(yīng) 的原 和實(shí) ; 第四章 述了 ”的 應(yīng) ; 第五章 ”了實(shí)和 的 第六章 文總 。 11 第二章 說(shuō)話人自適應(yīng)技術(shù) 章 ”了說(shuō)話人 應(yīng) 的 、 原 、 類、以及一常 的 。 定人系統(tǒng)與非特定人系統(tǒng) 目 語(yǔ)音識(shí)別系統(tǒng) 說(shuō)話人的 類,可以 特定人系統(tǒng)D和非特定人系統(tǒng)I。 ,特定人的語(yǔ)音識(shí)別系統(tǒng) 用于個(gè)特定的用 ,并要求使用者 夠 的個(gè)人語(yǔ)音 以訓(xùn)練系統(tǒng)。這 特定性使系統(tǒng)不 的 平 或 信息, 有語(yǔ)言無(wú)關(guān)性,無(wú)論口音 , 要使用者能在訓(xùn)練及識(shí)別 持一致就可得到的識(shí)別 。有特定人系統(tǒng)的識(shí)別率已達(dá)到95 以31。 用 使用的 性大大 了特定人系統(tǒng)的一 與應(yīng)用,一 有的用 加人,系統(tǒng) 要求 訓(xùn)練,否 識(shí)別率降。一般 言,訓(xùn)練需要的語(yǔ)音 量應(yīng)達(dá)到 話以 話 用23 ,錄 訓(xùn)練語(yǔ)音20 以。 在有情況下, 人 大量的語(yǔ)音 會(huì)令 個(gè)使用者 處 這 需的 加 , 就無(wú)須論及是否可以 夠的環(huán)境與時(shí)間來(lái)訓(xùn)練了。 在實(shí) ,有 情況要求頻 換使用人, 環(huán)境下的口述錄音, 時(shí)間表 的信息索。 時(shí),非特定人的語(yǔ)音識(shí)別系統(tǒng)表” 大 。這 非特定人系統(tǒng)能夠在 一用大量訓(xùn)練的 下, 當(dāng) 的用 的識(shí)別 。 情況就是 一說(shuō)話人,無(wú)論口音、話 ,能 識(shí)別 。第二章 說(shuō)話人 應(yīng) - 12 - 這顯與人 的 吻。遺憾的是 第一章表 1示,有非特定人系統(tǒng)的識(shí)別 無(wú) 滿 實(shí)際使用的要求,其錯(cuò)誤率可 當(dāng)于 應(yīng)的特定人系統(tǒng)的至三倍,在 情況下甚至能達(dá) 5 倍。 ,即使是一個(gè)工作的非特定人系統(tǒng)在遇到特殊的說(shuō)話人 別, 稱 ,識(shí)別率會(huì)顯著下降32。 特定人系統(tǒng)和非特定人系統(tǒng)性能的 距的原 是 顯的。非特定人系統(tǒng)使用 的說(shuō)話人語(yǔ)音來(lái)訓(xùn)練識(shí)別系統(tǒng)的 ,雖能夠的 來(lái) 語(yǔ)音 元的 復(fù)雜的時(shí)變特性、協(xié) 發(fā)音 , 時(shí)卻使得說(shuō)話人之間的 略, 降低了系統(tǒng) 于 個(gè)的說(shuō)話人建的 。下 體 一下說(shuō)話人 的 原 和 類。 話人差異(影響識(shí)別系統(tǒng)的識(shí)別 的 有 ,不 他 可以一般劃 類說(shuō)話人之間的說(shuō)話人內(nèi)部的 一個(gè)人的說(shuō)話有 己的特。當(dāng)一個(gè)人說(shuō)話時(shí),他發(fā)”的語(yǔ)音 到的影響, 他的 道的 、寬 和物 形狀,年齡,性別,康狀況,文 ,個(gè)人的發(fā)音習(xí)慣 。這 使得一個(gè)人的語(yǔ)音可能和一個(gè)人完 不一樣。這一 可以 圖 2得 清楚。說(shuō)話人之間的 要個(gè) 和說(shuō)話習(xí)慣 33。 要是緣于 個(gè)人的發(fā) 官的形狀、大小和動(dòng)態(tài)特性不 。這 語(yǔ)音的頻有顯著的影響,使得不 人 不 的 學(xué)特征男女之間 的 要 。這 情況的一個(gè)極端的子是說(shuō)話人性別語(yǔ)音頻譜參 的影響。 建立一個(gè) 于 的語(yǔ)音 ,可以發(fā),音頻率 f 取 于 的尺寸和特性,以及 的張力。一般 言,男性說(shuō)話者的 f 大致 布在 60200圍內(nèi),女性說(shuō)話者和小孩的 f 在第二章 說(shuō)話人 應(yīng) - 13 - 200450。目 表 34,男性和女性在發(fā)元音時(shí)有 顯不 的共振峰頻率,男性發(fā)的元音頻低,共振峰 寬窄,并 頻譜平緩。這是 什 用男性語(yǔ)音訓(xùn)練的特定人系統(tǒng)在女性 或雙性 時(shí)有 的原 。 圖2個(gè)不 說(shuō)話人發(fā) 字 8語(yǔ)音的時(shí)頻波形圖和語(yǔ)譜圖。 可以清楚”不 說(shuō)話人之間的 。 說(shuō)話習(xí)慣 和說(shuō)話人學(xué)習(xí)說(shuō)話的 有關(guān),這 習(xí)慣響發(fā) 的清晰 和共振峰 率的不 。體的 說(shuō)話人的語(yǔ)和口音,這即使在人的“力 十 要。 人不 的說(shuō)話習(xí)慣, 個(gè)人的教育和文的不 ,用 言的不 ,屬的社會(huì) 和 團(tuán)不 以及個(gè)人的經(jīng)歷、氣質(zhì)的 。國(guó) 家 影響發(fā)音的 社會(huì) , 域環(huán)境,宗教信仰,文 作了 的 ,并著闡述 口音的影響35。文獻(xiàn)? ”,音節(jié)之間的協(xié) 發(fā)音 會(huì) 口音的改變 變。文獻(xiàn)? ”,實(shí)口音的影響大約可以使得識(shí)別系統(tǒng)的錯(cuò)誤率增加23倍。 由于發(fā) 的原 是十 復(fù)雜的,以這 說(shuō)話人之間的 用 的 類來(lái) 是 困 的。 第二章 說(shuō)話人 應(yīng) - 14 - 即使 略說(shuō)話人之間的 , 于 一個(gè)說(shuō)話人,在不 的時(shí)間、不的 和 狀態(tài)下, 述 一內(nèi)大的 。這是 發(fā)音之間存在 道形狀和語(yǔ)的 。 當(dāng)一個(gè)人由于感情的變大 或小 說(shuō)話時(shí)這 就加 顯。這 一個(gè)人 己的發(fā)音 稱之 說(shuō)話人內(nèi)部的 。 要 語(yǔ)、感情語(yǔ)氣和康狀況 的影響?。這的一個(gè)有變,就可能使這個(gè)說(shuō)話者訓(xùn)練的識(shí)別系統(tǒng)的性能有 大的退。 總體 不 說(shuō)話人 學(xué)變的 微 ,要個(gè)體說(shuō)話者的語(yǔ) 變 大得 以捕捉和 述。在一 識(shí)別系統(tǒng),需要區(qū) 說(shuō)話人之間的 和說(shuō)話人內(nèi)部的 。 人的語(yǔ)音識(shí)別個(gè)人的語(yǔ)音,就要考慮說(shuō)話人之間的 , 輕說(shuō)話人內(nèi)部的 。不 , 于非特定人的語(yǔ)音識(shí)別系統(tǒng),不管是說(shuō)話人的改變, 是發(fā)音條件的變, 要考慮。遺憾的是,迄今 止,人 沒有能夠建立一套的 述, 有求助于統(tǒng) 的 ,通 大量的訓(xùn)練獲取 平 的信息, 個(gè)人特性的參與。但 由于個(gè)人信息的 削弱, 了系統(tǒng) 個(gè)特定人識(shí)別 的下降。 了 這個(gè) ,說(shuō)話人 應(yīng) 應(yīng) 。 話人自適應(yīng) 了 第一章第二節(jié)和 章第一節(jié)里 到的特定人系統(tǒng)和非特定人系統(tǒng)訓(xùn)練 量和說(shuō)話人 這一 矛盾,人 ”了建立一 渡性 ,由的說(shuō)話人 量的 樣 ,系統(tǒng)通 取其的有用信息并 一定的算 原有的非特定人 修 ,得到 話者的 。這即稱 說(shuō)話人 應(yīng)A, 應(yīng)的系統(tǒng)有人稱統(tǒng)。其原有的說(shuō)話人常稱 參考說(shuō)話人的說(shuō)話人 目說(shuō)話人說(shuō)話人 應(yīng)可以 是 圖使用特定人系統(tǒng)訓(xùn)練需 的 來(lái) 特定人的建 的 , 圖2。 第二章 說(shuō)話人 應(yīng) - 15 - 的語(yǔ)音識(shí)別系統(tǒng)說(shuō)話人的 特定人識(shí)別系統(tǒng)一般的語(yǔ)音 識(shí)說(shuō)話人特有的信息圖2話人 應(yīng) 一個(gè)特定人識(shí)別系統(tǒng)可以通 ” 訓(xùn)練的 得到的通用語(yǔ)音 識(shí)和 說(shuō)話人的 得到的說(shuō)話人特有的信息 來(lái)實(shí)。 說(shuō)話人 應(yīng)算 的 ,在早的語(yǔ)音識(shí)別系統(tǒng)建立就開 了。 語(yǔ)音識(shí)別 的發(fā)展,說(shuō)話人 應(yīng) 發(fā)得到大家的 。 話人自適應(yīng)的分類 說(shuō)話人 應(yīng) , 在什 時(shí)候,以什 式 應(yīng)和怎樣使用 應(yīng) 可以 下 有監(jiān)督 應(yīng)即在特定人使用識(shí)別系統(tǒng)之 ,由系統(tǒng)規(guī)定的語(yǔ)音 ,系統(tǒng) 應(yīng) 。目說(shuō)話人說(shuō)的訓(xùn)練語(yǔ)音 規(guī)定,訓(xùn)練的 字、 詞或 子是系統(tǒng)已 的。 無(wú)監(jiān)督 應(yīng)即目人說(shuō)話人 需 量 或不 應(yīng) ,由系統(tǒng)以 式逐調(diào)系統(tǒng)參 ,以 應(yīng)于目說(shuō)話人。系統(tǒng)不 道目說(shuō)話人說(shuō)的語(yǔ)音內(nèi) 或參 的修 通 識(shí)別系統(tǒng)的反饋來(lái)實(shí)的。 靜態(tài)的 應(yīng)即識(shí)別系統(tǒng)一 性使用有 應(yīng) 應(yīng), 的識(shí)別 。 第二章 說(shuō)話人 應(yīng) - 16 - 的 應(yīng)即識(shí)別系統(tǒng)是在 逐調(diào)到 狀態(tài)的,不斷使用的 來(lái) 應(yīng)。調(diào)的 一般不使用者 。這 式 在 應(yīng) 圖2個(gè)于說(shuō)話人 應(yīng)系統(tǒng) 通常使用的是靜態(tài)有監(jiān)督的 應(yīng)和無(wú)監(jiān)督的 應(yīng), 者 應(yīng) 來(lái) 冊(cè) ,者 應(yīng) 來(lái) 識(shí)別的 向反饋。圖 2 ”了這樣一個(gè)實(shí)際系統(tǒng)的子36。當(dāng) 應(yīng) 的 量無(wú) 或系統(tǒng)可以一的 應(yīng) 時(shí),應(yīng)使用的 應(yīng)。這 情況下,有無(wú)監(jiān)督的 可以使用,不 無(wú)監(jiān)督的 條件。 話人自適應(yīng)的主要 說(shuō)話人 應(yīng)的 有 , 文”他 大致 以下四類說(shuō)話人類說(shuō)話人 規(guī)譜變換 參 調(diào)不 得 ”的是說(shuō)話人 應(yīng) 的 類并不唯一,有 之間沒有特別清晰的 。 一 文獻(xiàn)37,說(shuō)話人 規(guī)算 一 在特征間的譜變換。 在實(shí)際的應(yīng)用,大 系統(tǒng)往往 使用 應(yīng) , 節(jié)人語(yǔ)音 用 冊(cè)語(yǔ)音 用 應(yīng)用語(yǔ)音 訓(xùn) 練 應(yīng) 在 應(yīng) 冊(cè)D 二章 說(shuō)話人 應(yīng) - 17 - 會(huì) ”個(gè)實(shí)。下就 文的 類 體介 這 說(shuō)話人 應(yīng) 話人 (盡管 說(shuō)的說(shuō)話人的 大,但人仍可以 輕松的識(shí)別 不口音和性別的 人的語(yǔ)音。這說(shuō) 人的大 可能可以一 規(guī) , 語(yǔ)音個(gè)性的特征。這樣在識(shí)別系統(tǒng)說(shuō)話人之間的 就可以 了。說(shuō)話人 規(guī) 的 就是來(lái)源于人的識(shí)別 。 說(shuō)話人 規(guī)的目的是建立一個(gè) 規(guī)的說(shuō)話人間,使得 人的語(yǔ)音可以“其。這樣可以”說(shuō)話人之間的 降到低 學(xué)特性不變??梢?說(shuō)話人 規(guī)是 圖”說(shuō)話人的語(yǔ)音特 參考說(shuō)話人的,這樣可以使用已有的參考說(shuō)話人的特定人識(shí)別系統(tǒng)來(lái)識(shí)別說(shuō)話人的語(yǔ)音。圖2的示 圖。 圖2話人 規(guī) 示 圖 說(shuō)話人 規(guī) 的 在于語(yǔ)音的 樣性。要 找到一 一般的 能夠 的“到 規(guī)間是 困 的。常用的有 譜 規(guī) ?,38表 ,時(shí) 譜 可以用來(lái) 說(shuō)話人和信道的特征。實(shí),話人的語(yǔ)音 規(guī) 算 規(guī)的語(yǔ)音 語(yǔ)音 識(shí)別參考說(shuō)話人的 第二章 說(shuō)話人 應(yīng) - 18 - 是諸 用來(lái)補(bǔ)償說(shuō)話人和信道影響的 子。處 驟首 ,用一個(gè)于能量的有 /無(wú) 算 歷個(gè)語(yǔ)流, 算有 幀的 譜 ,流的有幀參 譜 ,得到的特征參 。由于 訓(xùn)練和 的有語(yǔ)流的 譜 零,時(shí)說(shuō)話人和信道 可能 來(lái)的卷積畸變。 道 ?,39,67道 償 道 的 來(lái)規(guī) 不 說(shuō)話人的 。體的實(shí) ,大致可以 類1通 語(yǔ)音頻率特性用的 共振峰頻率的估 , 道 子 2利用大“ 來(lái)估 道子。 的續(xù)處 一樣,是利用 ,頻率 語(yǔ)音頻譜 道 不 的影響。 了 特征參 或語(yǔ)音變的 ,說(shuō)話人 規(guī)的一個(gè) 找的特征參 。不 的特征參 , 于不 的說(shuō)話人的 性有一定的。有文獻(xiàn)表 ,在常 的特征參 ,其他的 , 說(shuō)話人的 應(yīng)性要?。 找的、 性的特征參 , 是期以來(lái) 工作的目之一。 文獻(xiàn)40,41,42”一 于征的 應(yīng) 。由于變性,這 的特征 說(shuō)話人的 道 是不 感的, 可以大大 小由于 道 的說(shuō)話人之間的 。在作者的實(shí),特征的識(shí)別 譜 ,甚至于大“的 道 應(yīng) 。 由于說(shuō)話人 規(guī)需要復(fù)雜的“,并 有語(yǔ)音信息 樣處 ,了語(yǔ)音件的內(nèi)以 使用率不是十 。 話人 類(說(shuō)話人類 類實(shí)說(shuō)話人 應(yīng)的一個(gè) 的 。 應(yīng)不 的說(shuō)話人有與其 應(yīng)的 , 應(yīng)就是找” 應(yīng)于目說(shuō)話人的 。實(shí)際由于要 訓(xùn)練 一個(gè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 硅冶煉廠的尾氣處理與減排措施考核試卷
- 糖果與巧克力企業(yè)生產(chǎn)設(shè)備升級(jí)與技術(shù)改造投資考核試卷
- 2025新人必讀:簽訂勞動(dòng)合同的幾個(gè)要點(diǎn)
- 飛行助手考試試題及答案
- 地理招聘考試試題及答案
- 紡織考試試題及答案
- 電腦考試試題及答案
- 公務(wù)員綜合素質(zhì)考試及答案
- 遼寧執(zhí)法考試試題及答案
- 公交車考試試題及答案
- 地圖常用地物符號(hào)
- 附著式升降腳手架現(xiàn)場(chǎng)檢查表
- 高考理綜試題答題技巧方法!課件
- 一體化泵站檢測(cè)報(bào)告(共6頁(yè))
- 契稅補(bǔ)貼申請(qǐng)表
- 西山煤電集團(tuán)白家莊礦煤層開采初步設(shè)計(jì)
- 魯班獎(jiǎng)迎檢分工細(xì)化
- Q∕GDW 12100-2021 電力物聯(lián)網(wǎng)感知層技術(shù)導(dǎo)則
- 最新金屬軟管設(shè)計(jì)制造新工藝新技術(shù)及性能測(cè)試實(shí)用手冊(cè)
- 渠道項(xiàng)目報(bào)備管理規(guī)定
- 心理咨詢記錄--個(gè)案5
評(píng)論
0/150
提交評(píng)論