




免費預覽已結束,剩余22頁可下載查看
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
非監(jiān)督式學習於中文電視新聞自動轉寫之初步應用,郭人瑋、蔡文鴻、陳柏琳國立臺灣師範大學資訊工程研究所,ExploitingUnsupervisedLearningtoMandarinTVNewsTranscription:AnInitialStudy,Jen-WeiKuo,Wen-HungTsai,BerlinChenSpeechLab,NationalTaiwanNormalUniversity,序論,動機日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統(tǒng)上使用這些資訊,人工轉寫往往不易取得。解決方法非監(jiān)督式學習利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進行自動轉寫,並使用信心度評評估來加以篩選。非監(jiān)督式學習包含非監(jiān)督式聲學模型訓練利用發(fā)音確認技術來挑選較正確的語料。非監(jiān)督式聲學模型調適引入信心度評估來作聲學模型調適。非監(jiān)督式語言模型調適使用自動轉寫的文字語料來作語言模型調適。非監(jiān)督式學習之流程與技術,Introduction,Motivation日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統(tǒng)上使用這些資訊,人工轉寫往往不易取得。SolutionUnsupervisedLearning利用現(xiàn)有的語音辨識系統(tǒng)對這些語料進行自動轉寫,並使用信心度評評估來加以篩選。非監(jiān)督式學習包含UnsupervisedAcousticModelTraining利用發(fā)音確認技術來挑選較正確的語料。UnsupervisedAcousticModelAdaptation引入信心度評估來作聲學模型調適。UnsupervisedLanguageModelAdaptation使用自動轉寫的文字語料來作語言模型調適。,臺師大資工所新聞語音辨識系統(tǒng),大詞彙連續(xù)語音辨識系統(tǒng)詞典建立:利用前後雙連機率來作為複合詞合併的依據(jù)。詞彙樹複製搜尋:為一種結合語言模型與聲學模型的動態(tài)規(guī)劃搜尋演算法,配合語言模型前看分數(shù)及光束剪栽能有效率的建立詞圖。詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進行一次動態(tài)規(guī)劃搜尋,找出最佳的詞句。,NTNULVCSRSystem,LargeVocabularyContinuousSpeechRecognitionSystem詞典建立:利用前後雙連機率來作為複合詞合併的依據(jù)。詞彙樹複製搜尋:為一種結合語言模型與聲學模型的動態(tài)規(guī)劃搜尋演算法,配合語言模型前看分數(shù)及光束剪栽能有效率的建立詞圖。詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進行一次動態(tài)規(guī)劃搜尋,找出最佳的詞句。,詞圖,圖一、語音辨識器所產(chǎn)生的詞圖,對應的轉寫為豪雨不斷臺東兩人死亡,非監(jiān)督式學習之流程,大量語料,語音辨識,對應的自動轉寫(第一名詞序列),篩選,篩選,非監(jiān)督式聲學模型訓練,聲學模型,語言模型,詞典,語音辨識系統(tǒng),詞彙樹複製搜尋,語音輸入,文字輸出,詞圖,詞彙樹複製搜尋,詞圖,MLLR,非監(jiān)督式聲學模型調適,詞圖搜尋,篩選,非監(jiān)督式語言模型調適,文字語料,語型言建模立,語言模型,少量人工轉寫語料,聲型學建模立,聲學模型,非監(jiān)督式學習技術,候選詞事後機率,聲學信心,候選詞信心度評估,發(fā)音確認,非監(jiān)督式聲學模型訓練,非監(jiān)督式語言模型調適,非監(jiān)督式聲學模型調適,候選詞事後機率,候選詞事後機率,根據(jù)觀察,以愈高階的語言模型進行詞圖搜尋,候選詞之間的事後機率差異愈是懸殊,例如以三連語言模型進行詞圖搜尋時,第一名詞序列(Top1WordSequence)中的候選詞往往佔有超過0.95的事後機率,換句話說,語言模型所用的階層(Order)愈高,則候選詞事後機率愈受語言模型所影響。將式子作一點修正,引入信心度比例係數(shù)來解決。,候選詞事後機率,其中為信心度比例係數(shù)(ConfidenceScaleFactor),介於0與1之間,表示對聯(lián)合機率施以壓縮,使候選詞間的事後機率差異變小。當?shù)褥?時,則表示刻度不變;當?shù)褥?時,事後機率為均勻機率(UniformProbability)。,聲學信心,臺東(taa_iduueng),ta,a_i,du,ueng,sic_a,sic_o,sil,候選詞信心度評估,候選詞信心度評估為候選詞事後機率與聲學信心的線性組合。,其中與為權重參數(shù),在以下的非監(jiān)督式聲學模型訓練中,我們均設為0.5。,發(fā)音確認,決定某語句是否予以挑選成為非監(jiān)督式訓練的語料。發(fā)音確認可視為一個決斷函數(shù),根據(jù)平均候選詞信心度評估,來決定自動轉寫產(chǎn)生的第一名詞序列是否能成為訓練語料。其中為篩選的基準閥值。,非監(jiān)督式聲學模型調適,大多數(shù)的非監(jiān)督式聲學模型調適僅取第一次辨識所產(chǎn)生的第一名詞序列來做聲學模型調適的依據(jù)。然而語音辨識的錯誤可能會對聲學模型調適造成影響,使得調適效果有限。我們嘗試使用候選詞信心度評估為詞圖上的候選詞進行加權,使得每一個候選詞依其信心度評估分數(shù)對模型調適都有不同程度的貢獻。,非監(jiān)督式聲學模型調適,演算法:測試語句經(jīng)由詞彙樹複製搜尋(Tree-CopySearch),產(chǎn)生詞圖(WordGraph)。利用Forward-Backward演算法在詞圖上進行詞圖搜尋(WordGraphRescoring),為詞圖上的每一候選詞求出其對應的信心度評估。針對每一候選詞的語音段落,再使用一次狀態(tài)層次(StateLevel)Forward-Backward演算法,為每一音框(Frame)t及狀態(tài)(State)i求其事後機率。,非監(jiān)督式聲學模型調適,演算法:最後,將乘上所屬候選詞的事後機率,並對所有候選詞語音段落加總??傻靡艨驎rt,狀態(tài)i的事後機率。重覆上述步驟,收集MLLR模型調適時所需的統(tǒng)計量,並進行MLLR模型調適。,廣播及電視新聞語料,初始聲學模型:大約4小時語料收錄於1998至1999年之間。所有的語料都經(jīng)由人工切割為一則一則的新聞語音檔,每一則新聞均由一個主播所播報,性別上男女都有。某些檔案因錄音的關係,含有相當大的背景雜訊。初始語言模型:收錄2000及2001年中央社的新聞。約含有162M個中文字。,廣播及電視新聞語料,公視新聞語料為中央研究院資訊所口語小組耗時三年與公共電視臺合作錄製完成,預計將收錄200小時的廣播新聞。公視新聞語料大致上可分內場及外場兩個部份,內場部分主要為主播(StudioAnchors)的語料,外場部分主要為記者(FieldReporters)與受訪者(Interviewees)的語料。經(jīng)由統(tǒng)計,MATBN2002與MATBN2003共120小時的語料內,只含有五位主播,其中以葉明蘭主播的語料佔絕大多數(shù),約85%,使得要在內場中定義出一套較具代表性的訓練及測試語料,顯得有些困難。,廣播及電視新聞語料,本實驗的訓練語料,廣播及電視新聞語料,本實驗的測試語料,非監(jiān)督式聲學模型調適基礎實驗,基礎實驗與非監(jiān)督式聲學模型調適之語音辨識結果:嘗試改變信心度比例係數(shù)與計算候選詞事後機率時語言模型的階層。MLLR(Top1)為傳統(tǒng)只取用第一名辨識結果詞序列來做MLLR調適;MLLR(CM)為引入信心度評估的MLLR調適。字錯誤率減少百分比為相對於無聲學模型調適之字錯誤率。,MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),非監(jiān)督式聲學模型訓練實驗結果,非監(jiān)督式聲學模型訓練在使用不同基準閥值下的語音辨識結果。Thr為非監(jiān)督式聲學模型訓練用以選取語句之基準閥值,MLLR(CM)為引入信心度評估的MLLR調適,信心度比例係數(shù)在此設為1/16。同一列中,MLLR括弧內的數(shù)據(jù)為相對於無聲學模型調適時字錯誤率減少百分比。最後一列的監(jiān)督式訓練為對照組。,非監(jiān)督式語言模型調適實驗結果,自動轉寫用於語言模型調適的語音辨識結果。Thr為非監(jiān)督式聲學模型訓練用以選取語句之基準閥值,括弧內之數(shù)據(jù)為相對於無語言模型調適之字錯誤率減少百分比。,領域內之語言模型調適實驗結果,領域內語言模型調適的語音辨識結果。MLLR(CM)為引入信心度評估的MLLR調適,信心度比例係數(shù)在此設為1/16。,結論與未來展望,發(fā)音確認能有效地挑選較為可靠的語料來進行訓練,節(jié)省大量的人力進行人工轉寫,使龐大的語料能被運用。信心度評估也使得詞圖上更多的資訊能應用在非監(jiān)督式聲學模型調適上,不再只侷限於
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國聚丙烯飲料管數(shù)據(jù)監(jiān)測報告
- 2025年中國立式小便器市場調查研究報告
- 國企公文考試試題及答案
- 東方泵工考試試題及答案
- 普外科省??谱o士考試試題及答案
- 醫(yī)德考試試題及答案
- 會計考試試題名稱及答案
- 莆田公安考試試題及答案
- 湖北一年級試卷及答案
- 2025年市場營銷師考試試題及答案詳盡
- 酒館入股合同協(xié)議書
- 民法典宣傳進企業(yè)課件
- 品質主管面試題及答案
- 基于核心素養(yǎng)下的高中數(shù)學情境教學研究
- 《阿里巴巴招聘案例》課件
- 福建省三明市2025年普通高中高三畢業(yè)班五月質量檢測語文(三明四檢)
- 中國精神課件
- 2025年福建福州市電子信息集團有限公司招聘筆試參考題庫附帶答案詳解
- 《腦干出血》課件
- 2025年浙江湖州市城市投資發(fā)展集團有限公司招聘筆試參考題庫附帶答案詳解
- 圍手術期患者低溫防治專家共識(2023版)解讀課件
評論
0/150
提交評論