【畢業(yè)學位論文】口語對話系統(tǒng)中文法規(guī)則自動推導研究-計算機科學與技術(shù)系_第1頁
【畢業(yè)學位論文】口語對話系統(tǒng)中文法規(guī)則自動推導研究-計算機科學與技術(shù)系_第2頁
【畢業(yè)學位論文】口語對話系統(tǒng)中文法規(guī)則自動推導研究-計算機科學與技術(shù)系_第3頁
【畢業(yè)學位論文】口語對話系統(tǒng)中文法規(guī)則自動推導研究-計算機科學與技術(shù)系_第4頁
【畢業(yè)學位論文】口語對話系統(tǒng)中文法規(guī)則自動推導研究-計算機科學與技術(shù)系_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

【畢業(yè)學位論文】口語對話系統(tǒng)中文法規(guī)則自動推導研究-計算機科學與技術(shù)系.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

N N to of y e 2009 I 摘 要 基于規(guī)則的 口語對話系統(tǒng)中 的文法規(guī)則通常 由 領(lǐng)域?qū)<液陀嬎銠C語言學家 手工設(shè)計, 需要 依賴 專家 的 專業(yè)知識和經(jīng)驗, 這對于普通開發(fā)人員來說是無法完成的。另外,手工設(shè)計的 文法移植性差, 根據(jù)某一領(lǐng)域 設(shè)計 的 文法規(guī)則 很難移植到其他領(lǐng)域繼續(xù)使用,同樣功能的 口語 對話系統(tǒng)對于不同領(lǐng)域都需要領(lǐng)域?qū)<抑匦略O(shè)計 文法規(guī)則 ,存在大量的重復勞動,造成巨大的人力和物力浪費 。隨著社會需求的不斷增大,系統(tǒng)規(guī)??涨皵U大, 文法規(guī)則 的獲取成了 口語 對話系統(tǒng)研發(fā)的主要瓶頸。 本文針對口語對話系統(tǒng)中語言的特點,以一種上下文無關(guān)增強文法為對象, 對 口語對話系統(tǒng)中 文 法規(guī)則 的自動獲取技術(shù)進行了 研究 。 主要 工作包括: ( 1) 對比分析常見 形式文法的特點和性能,重點研究一種符合漢語口語特點的上下文無關(guān)增強文法, 根據(jù) 口語對話系統(tǒng)中語言的特點, 選定該文法 為對象進行 文法規(guī)則自動 推導 技術(shù)的研究。 ( 2)提出一種基于句子分割 的 文法規(guī)則 自動推導算法 。 基本思想是:用 初始 規(guī)則集對訓練 例句 進行分析, 若不能得到完整的語法樹, 則 先對分析得到的片斷進行消歧和歸一化,然后 根據(jù) 頂層 片斷 遞歸地 推導出缺少的 文法規(guī)則 ,并更新已有的規(guī)則集。 研究片斷 的 消歧 和 歸一化策略 ,為了提高算法性能,探討并給出一種算法的改進方案 。 ( 3) 研究 面向領(lǐng)域任務的文法測評方法,給出 一套靈活 的 、可 領(lǐng)域 定制的文法評測方法。使用該方法 在天氣預報查詢領(lǐng)域 對算法的輸出文法進行評測,結(jié)果 顯示, 輸出文法 的句法分析準確率在初始規(guī)則集為空時達到了 在初始規(guī)則集只包含日期相關(guān)規(guī)則時達到了 關(guān)鍵詞: 口語 對 話系統(tǒng) , 上下文無關(guān)增強文法 , 文法推導 , 文法 評測 to in is by on so it is to is is a is to to So it is to of of it a a to a of as 1. of a of it as to DS to 2. A on is in is to an If is to is of in In to of is s is 3. in a of be to of in in of of an an 目 錄 摘 要 . I . 錄 . V 第一章 緒論 . 1 究背景 . 1 究現(xiàn)狀 . 2 話系統(tǒng) 研究現(xiàn)狀 . 2 法規(guī)則自動推導算法研究現(xiàn)狀 . 5 法性能的評測 . 7 究的主要內(nèi)容及創(chuàng)新點 . 7 究的主要內(nèi)容 . 7 究的創(chuàng)新點 . 8 文的組織 . 8 第二章 文法的基本概念及常見類型分析 . 9 法的基本概念 . 9 法及語言的定義 . 9 法的作用 . 10 法的評價原則 . 11 法體系 . 11 法分類 . 11 型文法的特點 . 12 法分析器 . 13 下文無關(guān)增強文法 . 16 法的形式化定義 . 16 強屬性的歸納及規(guī)則類型的定義 . 17 義文法 . 19 強的文法分析器 . 20 章小結(jié) . 22 第三章 文法規(guī)則自動推導算法 . 25 語口語對話系統(tǒng)中語言的特點 . 25 語的特點 . 25 語的特點 . 26 音識別器導致的問題 . 26 節(jié)小結(jié) . 27 法的推導對象 . 27 于句子分割的文法規(guī)則自動推導算法 . 27 法基本原理 . 27 關(guān)術(shù)語定義 . 29 法推導算法 . 30 同的推導策略 . 31 義片斷的消除與歸一化 . 33 法流程的改進 . 34 章小結(jié) . 36 第四章 算法評測與分析 . 37 測 指標的定義 . 37 驗領(lǐng)域及步驟 . 38 驗領(lǐng)域 . 38 驗數(shù)據(jù) . 38 驗步驟安排 . 39 驗結(jié)果及分析 . 40 法性能的評測 . 40 法復雜程度的評測 . 41 始規(guī)則集對文法影響的評測 . 42 左部優(yōu)先 ”策略與 “右部優(yōu)先 ”策略對比 . 43 自頂向下 ”策略與 “自底向上 ”策略對比 . 43 法改進前后效果對比 . 44 章小結(jié) . 45 第五章 總結(jié)與展望 . 47 文工作總結(jié) . 47 關(guān)問題討論 . 47 來的研究方向 . 48 參考文獻 . 49 附錄 A 預定義的天氣預報領(lǐng)域關(guān)鍵詞表 . 53 附錄 B 包含日期相關(guān)規(guī)則的初始規(guī)則集 . 55 附錄 C 算法輸出的文法規(guī)則 . 57 致 謝 . 59 攻讀學位期間發(fā)表的學術(shù)論文目錄 . 61 獨 創(chuàng) 性 聲 明 . 63 關(guān)于論文使用授權(quán)的說明 . 63 第一章 緒論 1 第一章 緒論 究背景 在語音信號處理、語音識別、語音合成及語言理解各項技術(shù)迅猛發(fā)展的今天, 口語對話系統(tǒng) (有很高的研究價值,其應用也必將帶來很好的社會、經(jīng)濟效益。目前一批研究 成果 或?qū)嶋H系統(tǒng)已經(jīng)出現(xiàn),常見的比如旅游信息查詢、電話客票服務和天氣預報信息查詢等。構(gòu)建一個完善的對話系統(tǒng),需要應用語音信號處理、語音識別、語言理解、知識表示、對話管理和文語轉(zhuǎn)換等多項技術(shù)。與其它語音系統(tǒng) 相比,對話系統(tǒng)面 臨 以下幾個 主要問題: ( 1) 語音的口語性與 自發(fā)性 (在語音命令系統(tǒng)中,語音可以是孤立詞;在聽寫機系統(tǒng)中,語音一般是書面語,要求發(fā)音比較規(guī)范;而在對話系統(tǒng)中,語音是 (或 者十分接近 )人們?nèi)粘?生活中的口語, 允 許比較隨意的發(fā)音。自發(fā)語音中包括不流利、不合語法、修改及內(nèi)容不完整等口語現(xiàn)象,這給聲學識別和語義分析帶來挑戰(zhàn)。 ( 2) 語義分析的必要性。語音命令系統(tǒng)中,詞表和用戶意圖 (s 以是簡單的一一對應關(guān)系;而在對話系統(tǒng)中,用戶意圖往往必須用語義網(wǎng)絡(luò)等更加復雜的方法來表示。此時,語義框架和語義分析模塊的設(shè)計就成為必然。 ( 3) 用戶主導 (系統(tǒng)主導 (混合主導(關(guān)系 處理問題 。根據(jù)應用環(huán)境的不同,以及用戶之間的差異,系統(tǒng)在對話過程中可以呈現(xiàn)出三種不同的主導方式 ; a)用戶向系統(tǒng)主動提問或提供信息(用戶主導 ); b)系統(tǒng)向用戶提問 (系統(tǒng)主導 ); c)一般情況下采取用戶主導,在需要時切換到系統(tǒng)主導 (混合主導 )。 針對以上問題 , 清華大學的燕鵬舉提出一種基于語義類的上下文無關(guān)增強文法及相應的語義分析方法 1, 較好地處理對話系統(tǒng)中常見的口語表達問題。 然而 口語對話系統(tǒng)中 文法規(guī)則 的獲取 卻面臨著以下問題: ( 1) 需要依賴領(lǐng)域?qū)<液陀嬎銠C語言學家專業(yè)的知識和經(jīng)驗, 這 對于普通開 發(fā)人員來說是無法完成的 。 ( 2) 文法規(guī)則 的獲取目前主要采用 手工方式進行,是一個相當繁瑣的過程。 ( 3) 文法移植性差。 根據(jù)某一領(lǐng)域獲取的 文法規(guī)則 很難移植到其他領(lǐng)域繼續(xù)使用,口語對話系統(tǒng)中句法規(guī)則自動推導研究 2 同樣功能的對話系統(tǒng)對于不同領(lǐng)域都需要領(lǐng)域?qū)<抑匦略O(shè)計 文法規(guī)則 。 隨著社會需求的不斷增大 ,系統(tǒng)規(guī)模空前擴大, 文法規(guī)則 的獲取成了 對話 系統(tǒng)研發(fā)的主要瓶頸。 針對該瓶頸,在 深入分析 對比 國內(nèi)外 文法規(guī)則 自動推導 方法 的基礎(chǔ)上, 研究漢語口語對話系統(tǒng)中 文法規(guī)則 的自動推導技術(shù), 探索 一種符合漢語口語特點的 文法規(guī)則 自動推導算法, 及 一套面向領(lǐng)域任務的文法性能評測指標 , 使 開發(fā)人員從專業(yè) 且繁瑣的手工勞動中解脫出來,提高對話系統(tǒng)研發(fā)效率,降低研發(fā)成本,具有很好的理論及應用價值。 究現(xiàn)狀 話系統(tǒng)研究現(xiàn)狀 對話系統(tǒng),可以簡單地定義為:以語音為輸入輸出接口,通過與用戶進行交談,實現(xiàn)自動信息(或其它)服務的系統(tǒng)。對話系統(tǒng)結(jié)構(gòu) ( 圖 1 含四個主要功能部件,即語音識別器、語言理解器、對話管理器和語音合成器。目前,語音合成的研究已經(jīng)比較成熟,其主要挑戰(zhàn)在于 如何 使生成的語音 更加自然與生動。 一般而言,對話系統(tǒng)目標的 實現(xiàn) 對 于 語音合成自然度的依賴不是必須的,而語音識別 、語言理解和對話管理是對話系統(tǒng)研究人員所所關(guān)注的焦點。 語音識別的目的是把人的語音轉(zhuǎn)換成文字,這是許多語音系統(tǒng)的核心與主軸,比如聽寫機、語音命令系統(tǒng)和對話系統(tǒng)。 與 其它系統(tǒng)不同的是,對話系統(tǒng)中的語音識別 的 輸出要付諸于語言理解,因此識別錯誤對語言理解的干擾是系統(tǒng) 必須 考慮的。語言理解得到語義表示后,對話管理要根據(jù)上下文語境、歷史信息等,進行綜合分析,以確定用戶的意圖,根據(jù)需要查詢后臺數(shù)據(jù)庫,并組織應答語句等??梢钥闯?,對話系統(tǒng)中這幾個核心部件的關(guān)系比較緊密。 第一章 緒論 3 聲學模型 對話模型 領(lǐng)域知識 語言模型 句法 / 語義規(guī)則 語音 識別器 語言 理解器 對話 管理器 識別器 語音 合成器 語音 詞網(wǎng)格 語義框架 應答文本 語音 圖 1話系統(tǒng)模型略圖 對話 系統(tǒng)的運行往往還依賴于一些模型或數(shù)據(jù)庫,比如是聲學模型、語言模型、句法 /語義規(guī)則、領(lǐng)域 (識、對話模型和領(lǐng)域數(shù)據(jù)庫等。本節(jié)將對對話系統(tǒng)當前的研究現(xiàn)狀做簡要綜述。 根據(jù)不同的應用,對話系統(tǒng)可以構(gòu)建于不同的平臺,有著不同的表現(xiàn)形式: 嵌入式平臺: 人 2設(shè)計了一個基于 嵌入式電子表格系統(tǒng)。該系統(tǒng)采用人機對話的方式進行電子表格的自動設(shè)計與填充。與使用鼠標鍵盤的手工輸入方式和簡單屏蔽鼠標鍵盤的語音命令方式 相比,語音對話的方式提高了效率,而且使用戶更加輕松。 臺: 設(shè)計了一個用于在 頁上填充表格的語音軟件。該軟件使用 為用戶接口,采用名為 語音識別器和基于框架的語義分析器,以 序的方式處理語音輸入輸出。 為,這種基于表格的語音接口是探索分布式自然語言系統(tǒng)的重要一步。 機器人平臺: 是一個可移動的辦公室機器人,能通過語音對話的方式,完成人員查詢、引路、接通特定人電話、給特定人發(fā)電子郵件等任務。這類機器人平 臺的系統(tǒng)面臨的主要問題是實際使用環(huán)境中的噪音,以及系統(tǒng)響應的實時性。 電話平臺: 隨著大量公有信息的出現(xiàn)(訂票、信息查詢等)以及電話的普及,基于電話的對話系統(tǒng)越來越多。歐洲的 劃 5下有法語、荷蘭語、意大利語等若干系統(tǒng), 研究人員對各系統(tǒng)進行了橫向比較,有助于找到不同方法的優(yōu)缺點和提高研究水平?;陔娫捚脚_的系統(tǒng)應用前景廣闊,有很好的社會效益和經(jīng)濟效益,其技術(shù)挑口語對話系統(tǒng)中句法規(guī)則自動推導研究 4 戰(zhàn)主要在于電話信道的窄帶特性、信道之間的差異,以及現(xiàn)實生活中的噪音問題。 以下是國內(nèi)外一些對話系統(tǒng)的簡介。 ( 1) 麻省理工學院的 統(tǒng) 6。這是一個通過口語對話獲取旅游信息的系統(tǒng),有大約 1500 個詞的詞匯量,能夠提供大約 750 個城市的天氣預報和大約 250 個城市的航班情況。它的語音識別器 用基于分段( 識別方法,建立了 型,詞識別率為 它直接采用了另一個對話系統(tǒng) 的自然語言理解模塊,用語義框架的結(jié)構(gòu)來描述語義;自然語言生成為 音合成采用 硬件和軟件。該系統(tǒng)的第二代 采用了系結(jié)構(gòu),成為美國 第一個參考體系結(jié)構(gòu)。 統(tǒng)作為發(fā)展人類語言技術(shù)的試驗平臺,在其基礎(chǔ)上,已經(jīng)開發(fā)了許多不同領(lǐng)域、不同語言的系統(tǒng),如電話天氣預報查詢系統(tǒng) 1,航班訂票系統(tǒng)2。 ( 2) 德國的 統(tǒng)。這個對話系統(tǒng)用于會議的安排,可以識別并翻譯大量的不同口語表達。它通過一個動態(tài)建立的上下文模型和一個建立在語料庫之上的隨機模型,可以預測對話某一點的下一句將會是什么。 ( 3) 由英德法意等國共同開發(fā)的 統(tǒng) 13。這是一個提供航班和火車時刻信息的電話口語對話系統(tǒng)。它的詞匯量為 1000 詞左右,是非特定人的系統(tǒng),而且具有很好的對話管理功能,通過電話進行的對話成功率達到 96%。 ( 4) 中國科學院自動化所模式識別國家實驗室的 統(tǒng) 14。該系統(tǒng)向用戶提供旅游信息,并且可以根據(jù)用戶的要求計劃旅游路線。它采用了大詞表連續(xù)語音識別的技術(shù),識別結(jié)果經(jīng)過語義項的匹配得到有關(guān)的語義概念。它實現(xiàn)了對話的人機混合主導,基于模板生成系統(tǒng)應答,整個系統(tǒng)的應答準確率達到了 ( 5) 清華大學智能技術(shù)與系統(tǒng)國家重點實驗室語音技術(shù)中心的 統(tǒng) 15。該系統(tǒng)向用戶提供友好的清華大學校園導游服務,包括校園內(nèi)的建筑物信息和交通信息。它考慮了口語中的省略指代現(xiàn)象 , 能處理上下文相關(guān)的對話。當信息查詢結(jié)果為空時,該系統(tǒng)還會主動放寬某些約束條件,提供用戶可能關(guān)心的信息。 總之, 基于規(guī)則的 口語對話系統(tǒng)得到了 學 術(shù) 界的認同,并獲得了很大的發(fā)展。雖然近年來也出現(xiàn)了基于統(tǒng)計的方法,但鑒于自然語言深層結(jié)構(gòu) 的 規(guī)律性,規(guī)則方法有 著 統(tǒng)計方法不可替代的優(yōu)勢。 眾所周知,基于規(guī)則的口語對話系統(tǒng)中 文 法規(guī)則 的獲取是系統(tǒng)第一章 緒論 5 研發(fā)的主要瓶頸。 如何突破該瓶頸,提高系統(tǒng)研發(fā)效率,降低研發(fā)成本是口語對話系統(tǒng)研發(fā) 中 一個 亟待解決的問題。這正是 本文 工作 的意義所在。 法規(guī)則 自動推導 算法 研究現(xiàn)狀 ( 1)有指導的學習方法 指 從給定的樹庫 (具有句法結(jié)構(gòu)的語料庫) 中推導出句法結(jié)構(gòu)知識 (或文法 )的方法。基于變換的錯誤驅(qū)動方法 16、 法 17和 清華大學的苑春法、陳剛等提出的基于詞性和語義知識的漢語 文法規(guī)則 學習方法 18都屬于這類方法 。 ( 2)無指導的學習方法 指 直接基于原始或者初級加工的句子 , 不使用人工加工后的結(jié)構(gòu)信息或結(jié)構(gòu)規(guī)則 推導 文法規(guī)則 。 這種方法 可 分成兩類 : a) 基于壓縮的方法 。 壓縮方法實際上是提取 “ 公因子 ” , 將多次出現(xiàn)的多詞詞串代之以 “ 成分 (或稱為非終結(jié)符 )” 。 比較典型的有 最小描述長度 (法19和 最小長度編碼 (法 20。 但已有的研究表明 , 單純的壓縮方法在文法推導中并不能達到很好的效果 。 一個直接的原因是 , 貌似 “ 公因子 ” 的詞串 , 實際上并不一定能夠抽象為成分 。 b) 基于分布的方法 。 按照 語言學 家的基本思想 , 當兩個不同的詞串所在的上下文具有一致的分布特點時 , 它們很可能就具有了可替換的特點 。 此時 , 可以將兩個不同的詞串用一個非終結(jié)符表示 。 分布方法可以分為局部分布和全局分布兩種 : 局部分布只考慮某個詞序列前后相鄰的詞的特征 。 如 學 工作 21 他們以句子的詞性標注序列作為輸入 , 通過對詞性 (序列 )的上下文 (主要是相鄰的詞 )信息來判斷兩個詞是否有相似 。 他們研究了依存結(jié)構(gòu)和成分結(jié)構(gòu)樹的推導 , 分別對英語、德語和漢語進行了測試 。 英國 學的 到了 與此類似的思想 23,在帶有詞性標注的語料基礎(chǔ)上 , 根據(jù)詞性的上下文分布將其聚類為非終結(jié)符 , 推導 文法規(guī)則 。 處理過程中結(jié)合了 法 。 他們的方法對英語測試也取得了較好的結(jié)果 。 局部分布的最大特點是只考慮前后相鄰的信息 , 在語料庫不是非常龐大時比較適用 ;但在一個較小的窗口內(nèi) , 所得到的信息畢竟不夠充分 。 例如 , 在英文中 , “介詞 )+詞 )+詞 )” 的模式 , 很可能將 T 歸約一個結(jié)構(gòu) (互信息值可能更大 ),而實際情況應該是由 N 先結(jié)合 。 擴大詞的左右窗口范圍 , 在一定程度上可以避免這口語對話系統(tǒng)中句法規(guī)則自動推導研究 6 一問 題 , 在極端情況下 , 可以將范圍擴展到整個句子 。 荷蘭 學的 統(tǒng) 24和英國 學 基于對齊的學習都是以整個句子作為考察對象的 25 基本思想是將一個句子看成 3 部分 : cl+e+ e 的左部 , e 的右部 , 稱為 e 的上下文 。 對于一個句子 , e 可以取其中的任何詞串 , 剩下的部分就形成其上下文 。 在文法推導時 , 從句子庫中抽取所有可能的模式 , 然后再進行聚類 。而 思想與 學的 人在翻譯模板提 取中的思想有很大的相似性 27, 都通過多個相同片段和不同片斷交錯對齊的基本方法 , 只是 一步推導出了句子的層次結(jié)構(gòu) 。 究了英語句子結(jié)構(gòu)的推導 , 在結(jié)構(gòu)推導中 , 不對英語句子作任何其他預處理 ( 如詞性標注 ) 。 這種思想雖然易于實現(xiàn) , 但如果詞的詞性兼類現(xiàn)象比較嚴重 , 而訓練語料又不足夠大 , 即使是找到了對齊 , 也不一定能保證是正確的對齊 。 如果事先對句子作適當?shù)念A加工 (如詞性標注和簡單的語義歸類 ), 并加入一定的對齊約束 (如詞性約束 ), 則是可以減少明顯不合理推導現(xiàn)象發(fā)生的 。 c) 一些新的思路。 學的 用 一種新的思路 ,先構(gòu)造正例集和反例集,在已有的小 規(guī)模 初始規(guī)則 集 上,用分析算法分析正例,添加新的規(guī)則 , 分析反例,抑制不合理的規(guī)則 28香港中文大學的 借鑒了語音識別中語言建模的思想,用統(tǒng)計的方法對訓練語料中的詞和句法結(jié)構(gòu)進行聚類,若干次迭代后得到初步的上下文無關(guān)文法,再人工用語義標記代替文法中隨機的類別標記 30。 清華大學 的劉智博提出了一種基于主題的方法 31:首先把領(lǐng)域知識劃分為若干個主題,表達相同語義的不同句子屬于同一個主題。算法根據(jù)預 先定義好的關(guān)鍵詞表,把某一個主題下可能的用戶查詢例句轉(zhuǎn)化為由語義關(guān)鍵詞類表示的模板,應用于相應的主題。這種方法得到是單句模板,而且算法需要先由人工將例句劃分為不同的主題,然后才能對不同的主題分別進行處理。 d) 有關(guān)漢語的方法 。 漢語與西文有著不同的語言特點,處理方法也存在著較大的差異,隨著漢語熱的興起,針對漢語的 文法規(guī)則 自動學習研究開始逐漸受到學術(shù)界的重視,主要的研究有: 北京大學的王厚峰 和 王波設(shè)計了基于句子對齊的漢語句法結(jié)構(gòu)推導的計算模型 32。 清華大學的周強 、黃昌寧兩位 教授提出了基于元規(guī)則的漢語 文法規(guī)則 的自動構(gòu)造方法 33。 綜合國內(nèi)外 文法規(guī)則 自動推導的研究,我們可以發(fā)現(xiàn),大部分工作以理論研究與探討為目的,針對口語對話系統(tǒng) 的、 符合口語對話系統(tǒng)中語言特點的研究并不多見。因此第一章 緒論 7 本文工作不僅具有很好的應用 價值 , 而且 具有一定的理論 意義 。 法性能的評測 通過 分析對比國內(nèi)外相關(guān)研究 中文法評測方法,可以看到,學術(shù)界主要 考查文法的復雜程度(生成的規(guī)則數(shù)目及新添加的非終結(jié)符數(shù)目)和算法的時間消耗 34香港中文大學的 常用文法的 基礎(chǔ)上,結(jié)合自身算法特點評測了參數(shù)的不同取值對最終生成 的文法的影響 30。北大計算語言學研究所的王厚峰在評測中將自動推導的文法與手工標注的 文法相比較, 使用 文法的 準確率、召回率、 F 值,對 評測算法輸出的 文法規(guī)則 32。 綜觀這些研究,還沒有一套針對領(lǐng)域任務需求的文法評測方法。 究的主要內(nèi)容及創(chuàng)新點 究 的主要內(nèi)容 口語對話系統(tǒng)中 文法規(guī)則 的獲取 面臨著幾個主要問題:一是 需要依賴領(lǐng)域?qū)<液陀嬎銠C語言學家專業(yè)的知識和經(jīng)驗,對于普通開發(fā)人員來說是無法完成的; 二是 采用手工方式進行,是一個相當繁瑣的過程; 三是 文 法移植性差, 根據(jù)某一領(lǐng)域獲取的 文法規(guī)則很難移 植到其他領(lǐng)域繼續(xù)使用,同樣功能的對話系統(tǒng)對于不同領(lǐng)域都需要領(lǐng)域?qū)<抑匦略O(shè)計 文法規(guī)則 。隨著社會需求的不斷增大,系統(tǒng)規(guī)??涨皵U大, 文法規(guī)則 的獲取成了對話系統(tǒng)研發(fā)的主要瓶頸。 針對口語對話系統(tǒng)中 文法規(guī)則 的獲取,研究符合漢語口語特點的 文法規(guī)則 自動推導技術(shù), 研究 內(nèi)容如下: ( 1) 文法 的 基本概念 ,包括文法 及語言 的定義 、常見的文法分析算 法 , 分析幾種常見文法的特點及優(yōu)劣 ; 重點研究一種針漢語口語特點的上下文無關(guān)增強文法, 主要 包括 增強屬性的歸納、增強規(guī)則類型形式化定義及增強文法分析算法 。 ( 2) 根據(jù) 漢語口語的特點, 以 一種符合漢 語口語特點的 上下文無關(guān)增強文法為對象,研究口語對話系統(tǒng)中 文法規(guī)則 的自動推導算法 。 提出一種基于句子分割的 文法規(guī)則自動 推導 算法 ,給出 算法 的形式化描述 、 具體步驟、片斷的 消歧和歸一化方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論