【畢業(yè)學(xué)位論文】口語對話系統(tǒng)中文法規(guī)則自動(dòng)推導(dǎo)研究-計(jì)算機(jī)科學(xué)與技術(shù)系

上傳人：O*** IP屬地：四川上傳時(shí)間：2016-07-03 格式：PDF 頁數(shù)：70 大?。?65.61KB 積分：0 舉報(bào) 版權(quán)申訴

【畢業(yè)學(xué)位論文】口語對話系統(tǒng)中文法規(guī)則自動(dòng)推導(dǎo)研究-計(jì)算機(jī)科學(xué)與技術(shù)系_第2頁

【畢業(yè)學(xué)位論文】口語對話系統(tǒng)中文法規(guī)則自動(dòng)推導(dǎo)研究-計(jì)算機(jī)科學(xué)與技術(shù)系_第3頁

【畢業(yè)學(xué)位論文】口語對話系統(tǒng)中文法規(guī)則自動(dòng)推導(dǎo)研究-計(jì)算機(jī)科學(xué)與技術(shù)系_第4頁

【畢業(yè)學(xué)位論文】口語對話系統(tǒng)中文法規(guī)則自動(dòng)推導(dǎo)研究-計(jì)算機(jī)科學(xué)與技術(shù)系_第5頁

已閱讀5頁，還剩65頁未讀，繼續(xù)免費(fèi)閱讀

【畢業(yè)學(xué)位論文】口語對話系統(tǒng)中文法規(guī)則自動(dòng)推導(dǎo)研究-計(jì)算機(jī)科學(xué)與技術(shù)系.pdf 免費(fèi)下載

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

N N to of y e 2009 I 摘要基于規(guī)則的口語對話系統(tǒng)中的文法規(guī)則通常由領(lǐng)域?qū)＜液陀?jì)算機(jī)語言學(xué)家手工設(shè)計(jì)，需要依賴專家的專業(yè)知識和經(jīng)驗(yàn)，這對于普通開發(fā)人員來說是無法完成的。另外，手工設(shè)計(jì)的文法移植性差，根據(jù)某一領(lǐng)域設(shè)計(jì) 的文法規(guī)則很難移植到其他領(lǐng)域繼續(xù)使用，同樣功能的口語對話系統(tǒng)對于不同領(lǐng)域都需要領(lǐng)域?qū)＜抑匦略O(shè)計(jì) 文法規(guī)則，存在大量的重復(fù)勞動(dòng)，造成巨大的人力和物力浪費(fèi) 。隨著社會需求的不斷增大，系統(tǒng)規(guī)?？涨皵U(kuò)大，文法規(guī)則的獲取成了口語對話系統(tǒng)研發(fā)的主要瓶頸。本文針對口語對話系統(tǒng)中語言的特點(diǎn)，以一種上下文無關(guān)增強(qiáng)文法為對象，對口語對話系統(tǒng)中文法規(guī)則的自動(dòng)獲取技術(shù)進(jìn)行了研究。主要工作包括：（ 1）對比分析常見形式文法的特點(diǎn)和性能，重點(diǎn)研究一種符合漢語口語特點(diǎn)的上下文無關(guān)增強(qiáng)文法，根據(jù) 口語對話系統(tǒng)中語言的特點(diǎn)，選定該文法為對象進(jìn)行文法規(guī)則自動(dòng) 推導(dǎo) 技術(shù)的研究。（ 2）提出一種基于句子分割的文法規(guī)則自動(dòng)推導(dǎo)算法。基本思想是：用初始規(guī)則集對訓(xùn)練例句進(jìn)行分析，若不能得到完整的語法樹，則先對分析得到的片斷進(jìn)行消歧和歸一化，然后根據(jù) 頂層片斷遞歸地推導(dǎo)出缺少的文法規(guī)則，并更新已有的規(guī)則集。研究片斷的消歧和歸一化策略，為了提高算法性能，探討并給出一種算法的改進(jìn)方案。（ 3）研究面向領(lǐng)域任務(wù)的文法測評方法，給出一套靈活的、可領(lǐng)域定制的文法評測方法。使用該方法在天氣預(yù)報(bào)查詢領(lǐng)域對算法的輸出文法進(jìn)行評測，結(jié)果顯示，輸出文法的句法分析準(zhǔn)確率在初始規(guī)則集為空時(shí)達(dá)到了在初始規(guī)則集只包含日期相關(guān)規(guī)則時(shí)達(dá)到了關(guān)鍵詞：口語對話系統(tǒng) ，上下文無關(guān)增強(qiáng)文法，文法推導(dǎo) ，文法評測 to in is by on so it is to is is a is to to So it is to of of it a a to a of as 1. of a of it as to DS to 2. A on is in is to an If is to is of in In to of is s is 3. in a of be to of in in of of an an 目錄摘要 . I . 錄 . V 第一章緒論 . 1 究背景 . 1 究現(xiàn)狀 . 2 話系統(tǒng) 研究現(xiàn)狀 . 2 法規(guī)則自動(dòng)推導(dǎo)算法研究現(xiàn)狀 . 5 法性能的評測 . 7 究的主要內(nèi)容及創(chuàng)新點(diǎn) . 7 究的主要內(nèi)容 . 7 究的創(chuàng)新點(diǎn) . 8 文的組織 . 8 第二章文法的基本概念及常見類型分析 . 9 法的基本概念 . 9 法及語言的定義 . 9 法的作用 . 10 法的評價(jià)原則 . 11 法體系 . 11 法分類 . 11 型文法的特點(diǎn) . 12 法分析器 . 13 下文無關(guān)增強(qiáng)文法 . 16 法的形式化定義 . 16 強(qiáng)屬性的歸納及規(guī)則類型的定義 . 17 義文法 . 19 強(qiáng)的文法分析器 . 20 章小結(jié) . 22 第三章文法規(guī)則自動(dòng)推導(dǎo)算法 . 25 語口語對話系統(tǒng)中語言的特點(diǎn) . 25 語的特點(diǎn) . 25 語的特點(diǎn) . 26 音識別器導(dǎo)致的問題 . 26 節(jié)小結(jié) . 27 法的推導(dǎo)對象 . 27 于句子分割的文法規(guī)則自動(dòng)推導(dǎo)算法 . 27 法基本原理 . 27 關(guān)術(shù)語定義 . 29 法推導(dǎo)算法 . 30 同的推導(dǎo)策略 . 31 義片斷的消除與歸一化 . 33 法流程的改進(jìn) . 34 章小結(jié) . 36 第四章算法評測與分析 . 37 測指標(biāo)的定義 . 37 驗(yàn)領(lǐng)域及步驟 . 38 驗(yàn)領(lǐng)域 . 38 驗(yàn)數(shù)據(jù) . 38 驗(yàn)步驟安排 . 39 驗(yàn)結(jié)果及分析 . 40 法性能的評測 . 40 法復(fù)雜程度的評測 . 41 始規(guī)則集對文法影響的評測 . 42 左部優(yōu)先 ”策略與 “右部優(yōu)先 ”策略對比 . 43 自頂向下 ”策略與 “自底向上 ”策略對比 . 43 法改進(jìn)前后效果對比 . 44 章小結(jié) . 45 第五章總結(jié)與展望 . 47 文工作總結(jié) . 47 關(guān)問題討論 . 47 來的研究方向 . 48 參考文獻(xiàn) . 49 附錄 A 預(yù)定義的天氣預(yù)報(bào)領(lǐng)域關(guān)鍵詞表 . 53 附錄 B 包含日期相關(guān)規(guī)則的初始規(guī)則集 . 55 附錄 C 算法輸出的文法規(guī)則 . 57 致謝 . 59 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄 . 61 獨(dú) 創(chuàng) 性聲明 . 63 關(guān)于論文使用授權(quán)的說明 . 63 第一章緒論 1 第一章緒論究背景在語音信號處理、語音識別、語音合成及語言理解各項(xiàng)技術(shù)迅猛發(fā)展的今天，口語對話系統(tǒng) (有很高的研究價(jià)值，其應(yīng)用也必將帶來很好的社會、經(jīng)濟(jì)效益。目前一批研究成果或?qū)嶋H系統(tǒng)已經(jīng)出現(xiàn)，常見的比如旅游信息查詢、電話客票服務(wù)和天氣預(yù)報(bào)信息查詢等。構(gòu)建一個(gè)完善的對話系統(tǒng)，需要應(yīng)用語音信號處理、語音識別、語言理解、知識表示、對話管理和文語轉(zhuǎn)換等多項(xiàng)技術(shù)。與其它語音系統(tǒng) 相比，對話系統(tǒng)面臨以下幾個(gè) 主要問題：（ 1）語音的口語性與自發(fā)性 (在語音命令系統(tǒng)中，語音可以是孤立詞；在聽寫機(jī)系統(tǒng)中，語音一般是書面語，要求發(fā)音比較規(guī)范；而在對話系統(tǒng)中，語音是 (或者十分接近 )人們?nèi)粘?生活中的口語，允許比較隨意的發(fā)音。自發(fā)語音中包括不流利、不合語法、修改及內(nèi)容不完整等口語現(xiàn)象，這給聲學(xué)識別和語義分析帶來挑戰(zhàn)。（ 2）語義分析的必要性。語音命令系統(tǒng)中，詞表和用戶意圖 (s 以是簡單的一一對應(yīng)關(guān)系；而在對話系統(tǒng)中，用戶意圖往往必須用語義網(wǎng)絡(luò)等更加復(fù)雜的方法來表示。此時(shí)，語義框架和語義分析模塊的設(shè)計(jì)就成為必然。（ 3）用戶主導(dǎo) (系統(tǒng)主導(dǎo) (混合主導(dǎo)(關(guān)系處理問題。根據(jù)應(yīng)用環(huán)境的不同，以及用戶之間的差異，系統(tǒng)在對話過程中可以呈現(xiàn)出三種不同的主導(dǎo)方式； a)用戶向系統(tǒng)主動(dòng)提問或提供信息(用戶主導(dǎo) )； b)系統(tǒng)向用戶提問 (系統(tǒng)主導(dǎo) )； c)一般情況下采取用戶主導(dǎo)，在需要時(shí)切換到系統(tǒng)主導(dǎo) (混合主導(dǎo) )。針對以上問題，清華大學(xué)的燕鵬舉提出一種基于語義類的上下文無關(guān)增強(qiáng)文法及相應(yīng)的語義分析方法 1，較好地處理對話系統(tǒng)中常見的口語表達(dá)問題。然而口語對話系統(tǒng)中文法規(guī)則的獲取卻面臨著以下問題：（ 1）需要依賴領(lǐng)域?qū)＜液陀?jì)算機(jī)語言學(xué)家專業(yè)的知識和經(jīng)驗(yàn)，這對于普通開發(fā)人員來說是無法完成的。（ 2）文法規(guī)則的獲取目前主要采用手工方式進(jìn)行，是一個(gè)相當(dāng)繁瑣的過程。（ 3）文法移植性差。根據(jù)某一領(lǐng)域獲取的文法規(guī)則很難移植到其他領(lǐng)域繼續(xù)使用，口語對話系統(tǒng)中句法規(guī)則自動(dòng)推導(dǎo)研究 2 同樣功能的對話系統(tǒng)對于不同領(lǐng)域都需要領(lǐng)域?qū)＜抑匦略O(shè)計(jì) 文法規(guī)則。隨著社會需求的不斷增大，系統(tǒng)規(guī)?？涨皵U(kuò)大，文法規(guī)則的獲取成了對話系統(tǒng)研發(fā)的主要瓶頸。針對該瓶頸，在深入分析對比國內(nèi)外文法規(guī)則自動(dòng)推導(dǎo) 方法的基礎(chǔ)上，研究漢語口語對話系統(tǒng)中文法規(guī)則的自動(dòng)推導(dǎo)技術(shù)，探索一種符合漢語口語特點(diǎn)的文法規(guī)則自動(dòng)推導(dǎo)算法，及一套面向領(lǐng)域任務(wù)的文法性能評測指標(biāo) ，使開發(fā)人員從專業(yè) 且繁瑣的手工勞動(dòng)中解脫出來，提高對話系統(tǒng)研發(fā)效率，降低研發(fā)成本，具有很好的理論及應(yīng)用價(jià)值。究現(xiàn)狀話系統(tǒng)研究現(xiàn)狀對話系統(tǒng)，可以簡單地定義為：以語音為輸入輸出接口，通過與用戶進(jìn)行交談，實(shí)現(xiàn)自動(dòng)信息（或其它）服務(wù)的系統(tǒng)。對話系統(tǒng)結(jié)構(gòu) （圖 1 含四個(gè)主要功能部件，即語音識別器、語言理解器、對話管理器和語音合成器。目前，語音合成的研究已經(jīng)比較成熟，其主要挑戰(zhàn)在于如何使生成的語音更加自然與生動(dòng)。一般而言，對話系統(tǒng)目標(biāo)的實(shí)現(xiàn) 對于語音合成自然度的依賴不是必須的，而語音識別、語言理解和對話管理是對話系統(tǒng)研究人員所所關(guān)注的焦點(diǎn)。語音識別的目的是把人的語音轉(zhuǎn)換成文字，這是許多語音系統(tǒng)的核心與主軸，比如聽寫機(jī)、語音命令系統(tǒng)和對話系統(tǒng)。與其它系統(tǒng)不同的是，對話系統(tǒng)中的語音識別的輸出要付諸于語言理解，因此識別錯(cuò)誤對語言理解的干擾是系統(tǒng) 必須考慮的。語言理解得到語義表示后，對話管理要根據(jù)上下文語境、歷史信息等，進(jìn)行綜合分析，以確定用戶的意圖，根據(jù)需要查詢后臺數(shù)據(jù)庫，并組織應(yīng)答語句等?？梢钥闯?，對話系統(tǒng)中這幾個(gè)核心部件的關(guān)系比較緊密。第一章緒論 3 聲學(xué)模型對話模型領(lǐng)域知識語言模型句法 / 語義規(guī)則語音識別器語言理解器對話管理器識別器語音合成器語音詞網(wǎng)格語義框架應(yīng)答文本語音圖 1話系統(tǒng)模型略圖對話系統(tǒng)的運(yùn)行往往還依賴于一些模型或數(shù)據(jù)庫，比如是聲學(xué)模型、語言模型、句法 /語義規(guī)則、領(lǐng)域 (識、對話模型和領(lǐng)域數(shù)據(jù)庫等。本節(jié)將對對話系統(tǒng)當(dāng)前的研究現(xiàn)狀做簡要綜述。根據(jù)不同的應(yīng)用，對話系統(tǒng)可以構(gòu)建于不同的平臺，有著不同的表現(xiàn)形式：嵌入式平臺：人 2設(shè)計(jì)了一個(gè)基于嵌入式電子表格系統(tǒng)。該系統(tǒng)采用人機(jī)對話的方式進(jìn)行電子表格的自動(dòng)設(shè)計(jì)與填充。與使用鼠標(biāo)鍵盤的手工輸入方式和簡單屏蔽鼠標(biāo)鍵盤的語音命令方式相比，語音對話的方式提高了效率，而且使用戶更加輕松。臺：設(shè)計(jì)了一個(gè)用于在頁上填充表格的語音軟件。該軟件使用為用戶接口，采用名為語音識別器和基于框架的語義分析器，以序的方式處理語音輸入輸出。為，這種基于表格的語音接口是探索分布式自然語言系統(tǒng)的重要一步。機(jī)器人平臺：是一個(gè)可移動(dòng)的辦公室機(jī)器人，能通過語音對話的方式，完成人員查詢、引路、接通特定人電話、給特定人發(fā)電子郵件等任務(wù)。這類機(jī)器人平臺的系統(tǒng)面臨的主要問題是實(shí)際使用環(huán)境中的噪音，以及系統(tǒng)響應(yīng)的實(shí)時(shí)性。電話平臺：隨著大量公有信息的出現(xiàn)（訂票、信息查詢等）以及電話的普及，基于電話的對話系統(tǒng)越來越多。歐洲的劃 5下有法語、荷蘭語、意大利語等若干系統(tǒng)，研究人員對各系統(tǒng)進(jìn)行了橫向比較，有助于找到不同方法的優(yōu)缺點(diǎn)和提高研究水平?；陔娫捚脚_的系統(tǒng)應(yīng)用前景廣闊，有很好的社會效益和經(jīng)濟(jì)效益，其技術(shù)挑口語對話系統(tǒng)中句法規(guī)則自動(dòng)推導(dǎo)研究 4 戰(zhàn)主要在于電話信道的窄帶特性、信道之間的差異，以及現(xiàn)實(shí)生活中的噪音問題。以下是國內(nèi)外一些對話系統(tǒng)的簡介。（ 1）麻省理工學(xué)院的統(tǒng) 6。這是一個(gè)通過口語對話獲取旅游信息的系統(tǒng)，有大約 1500 個(gè)詞的詞匯量，能夠提供大約 750 個(gè)城市的天氣預(yù)報(bào)和大約 250 個(gè)城市的航班情況。它的語音識別器用基于分段（識別方法，建立了型，詞識別率為它直接采用了另一個(gè)對話系統(tǒng) 的自然語言理解模塊，用語義框架的結(jié)構(gòu)來描述語義；自然語言生成為音合成采用硬件和軟件。該系統(tǒng)的第二代采用了系結(jié)構(gòu)，成為美國第一個(gè)參考體系結(jié)構(gòu)。統(tǒng)作為發(fā)展人類語言技術(shù)的試驗(yàn)平臺，在其基礎(chǔ)上，已經(jīng)開發(fā)了許多不同領(lǐng)域、不同語言的系統(tǒng)，如電話天氣預(yù)報(bào)查詢系統(tǒng) 1，航班訂票系統(tǒng)2。（ 2）德國的統(tǒng)。這個(gè)對話系統(tǒng)用于會議的安排，可以識別并翻譯大量的不同口語表達(dá)。它通過一個(gè)動(dòng)態(tài)建立的上下文模型和一個(gè)建立在語料庫之上的隨機(jī)模型，可以預(yù)測對話某一點(diǎn)的下一句將會是什么。（ 3）由英德法意等國共同開發(fā)的統(tǒng) 13。這是一個(gè)提供航班和火車時(shí)刻信息的電話口語對話系統(tǒng)。它的詞匯量為 1000 詞左右，是非特定人的系統(tǒng)，而且具有很好的對話管理功能，通過電話進(jìn)行的對話成功率達(dá)到 96%。（ 4）中國科學(xué)院自動(dòng)化所模式識別國家實(shí)驗(yàn)室的統(tǒng) 14。該系統(tǒng)向用戶提供旅游信息，并且可以根據(jù)用戶的要求計(jì)劃旅游路線。它采用了大詞表連續(xù)語音識別的技術(shù)，識別結(jié)果經(jīng)過語義項(xiàng)的匹配得到有關(guān)的語義概念。它實(shí)現(xiàn)了對話的人機(jī)混合主導(dǎo)，基于模板生成系統(tǒng)應(yīng)答，整個(gè)系統(tǒng)的應(yīng)答準(zhǔn)確率達(dá)到了（ 5）清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室語音技術(shù)中心的統(tǒng) 15。該系統(tǒng)向用戶提供友好的清華大學(xué)校園導(dǎo)游服務(wù)，包括校園內(nèi)的建筑物信息和交通信息。它考慮了口語中的省略指代現(xiàn)象，能處理上下文相關(guān)的對話。當(dāng)信息查詢結(jié)果為空時(shí)，該系統(tǒng)還會主動(dòng)放寬某些約束條件，提供用戶可能關(guān)心的信息。總之，基于規(guī)則的口語對話系統(tǒng)得到了學(xué) 術(shù) 界的認(rèn)同，并獲得了很大的發(fā)展。雖然近年來也出現(xiàn)了基于統(tǒng)計(jì)的方法，但鑒于自然語言深層結(jié)構(gòu) 的規(guī)律性，規(guī)則方法有著統(tǒng)計(jì)方法不可替代的優(yōu)勢。眾所周知，基于規(guī)則的口語對話系統(tǒng)中文法規(guī)則的獲取是系統(tǒng)第一章緒論 5 研發(fā)的主要瓶頸。如何突破該瓶頸，提高系統(tǒng)研發(fā)效率，降低研發(fā)成本是口語對話系統(tǒng)研發(fā) 中一個(gè) 亟待解決的問題。這正是本文工作的意義所在。法規(guī)則自動(dòng)推導(dǎo) 算法研究現(xiàn)狀（ 1）有指導(dǎo)的學(xué)習(xí)方法指從給定的樹庫（具有句法結(jié)構(gòu)的語料庫）中推導(dǎo)出句法結(jié)構(gòu)知識 (或文法 )的方法?；谧儞Q的錯(cuò)誤驅(qū)動(dòng)方法 16、法 17和清華大學(xué)的苑春法、陳剛等提出的基于詞性和語義知識的漢語文法規(guī)則學(xué)習(xí)方法 18都屬于這類方法。（ 2）無指導(dǎo)的學(xué)習(xí)方法指直接基于原始或者初級加工的句子，不使用人工加工后的結(jié)構(gòu)信息或結(jié)構(gòu)規(guī)則推導(dǎo) 文法規(guī)則。這種方法可分成兩類： a) 基于壓縮的方法。壓縮方法實(shí)際上是提取 “ 公因子 ” ，將多次出現(xiàn)的多詞詞串代之以 “ 成分 (或稱為非終結(jié)符 )” 。比較典型的有最小描述長度 (法19和最小長度編碼 (法 20。但已有的研究表明，單純的壓縮方法在文法推導(dǎo)中并不能達(dá)到很好的效果。一個(gè)直接的原因是，貌似 “ 公因子 ” 的詞串，實(shí)際上并不一定能夠抽象為成分。 b) 基于分布的方法。按照語言學(xué) 家的基本思想，當(dāng)兩個(gè)不同的詞串所在的上下文具有一致的分布特點(diǎn)時(shí) ，它們很可能就具有了可替換的特點(diǎn) 。此時(shí) ，可以將兩個(gè)不同的詞串用一個(gè)非終結(jié)符表示。分布方法可以分為局部分布和全局分布兩種：局部分布只考慮某個(gè)詞序列前后相鄰的詞的特征。如學(xué) 工作 21 他們以句子的詞性標(biāo)注序列作為輸入，通過對詞性 (序列 )的上下文 (主要是相鄰的詞 )信息來判斷兩個(gè)詞是否有相似。他們研究了依存結(jié)構(gòu)和成分結(jié)構(gòu)樹的推導(dǎo) ，分別對英語、德語和漢語進(jìn)行了測試。英國學(xué)的到了與此類似的思想 23，在帶有詞性標(biāo)注的語料基礎(chǔ)上，根據(jù)詞性的上下文分布將其聚類為非終結(jié)符，推導(dǎo) 文法規(guī)則。處理過程中結(jié)合了法。他們的方法對英語測試也取得了較好的結(jié)果。局部分布的最大特點(diǎn)是只考慮前后相鄰的信息，在語料庫不是非常龐大時(shí)比較適用；但在一個(gè)較小的窗口內(nèi) ，所得到的信息畢竟不夠充分。例如，在英文中， “介詞 )+詞 )+詞 )” 的模式，很可能將 T 歸約一個(gè)結(jié)構(gòu) (互信息值可能更大 )，而實(shí)際情況應(yīng)該是由 N 先結(jié)合。擴(kuò)大詞的左右窗口范圍，在一定程度上可以避免這口語對話系統(tǒng)中句法規(guī)則自動(dòng)推導(dǎo)研究 6 一問題，在極端情況下，可以將范圍擴(kuò)展到整個(gè)句子。荷蘭學(xué)的統(tǒng) 24和英國學(xué) 基于對齊的學(xué)習(xí)都是以整個(gè)句子作為考察對象的 25 基本思想是將一個(gè)句子看成 3 部分： cl+e+ e 的左部， e 的右部，稱為 e 的上下文。對于一個(gè)句子， e 可以取其中的任何詞串，剩下的部分就形成其上下文。在文法推導(dǎo)時(shí) ，從句子庫中抽取所有可能的模式，然后再進(jìn)行聚類。而思想與學(xué)的人在翻譯模板提取中的思想有很大的相似性 27，都通過多個(gè)相同片段和不同片斷交錯(cuò)對齊的基本方法，只是一步推導(dǎo)出了句子的層次結(jié)構(gòu) 。究了英語句子結(jié)構(gòu)的推導(dǎo) ，在結(jié)構(gòu)推導(dǎo)中，不對英語句子作任何其他預(yù)處理（如詞性標(biāo)注）。這種思想雖然易于實(shí)現(xiàn) ，但如果詞的詞性兼類現(xiàn)象比較嚴(yán)重，而訓(xùn)練語料又不足夠大，即使是找到了對齊，也不一定能保證是正確的對齊。如果事先對句子作適當(dāng)?shù)念A(yù)加工 (如詞性標(biāo)注和簡單的語義歸類 )，并加入一定的對齊約束 (如詞性約束 )，則是可以減少明顯不合理推導(dǎo)現(xiàn)象發(fā)生的。 c) 一些新的思路。學(xué)的用一種新的思路，先構(gòu)造正例集和反例集，在已有的小規(guī)模初始規(guī)則集上，用分析算法分析正例，添加新的規(guī)則，分析反例，抑制不合理的規(guī)則 28香港中文大學(xué)的借鑒了語音識別中語言建模的思想，用統(tǒng)計(jì)的方法對訓(xùn)練語料中的詞和句法結(jié)構(gòu)進(jìn)行聚類，若干次迭代后得到初步的上下文無關(guān)文法，再人工用語義標(biāo)記代替文法中隨機(jī)的類別標(biāo)記 30。清華大學(xué) 的劉智博提出了一種基于主題的方法 31：首先把領(lǐng)域知識劃分為若干個(gè)主題，表達(dá)相同語義的不同句子屬于同一個(gè)主題。算法根據(jù)預(yù) 先定義好的關(guān)鍵詞表，把某一個(gè)主題下可能的用戶查詢例句轉(zhuǎn)化為由語義關(guān)鍵詞類表示的模板，應(yīng)用于相應(yīng)的主題。這種方法得到是單句模板，而且算法需要先由人工將例句劃分為不同的主題，然后才能對不同的主題分別進(jìn)行處理。 d) 有關(guān)漢語的方法。漢語與西文有著不同的語言特點(diǎn)，處理方法也存在著較大的差異，隨著漢語熱的興起，針對漢語的文法規(guī)則自動(dòng)學(xué)習(xí)研究開始逐漸受到學(xué)術(shù)界的重視，主要的研究有：北京大學(xué)的王厚峰和王波設(shè)計(jì)了基于句子對齊的漢語句法結(jié)構(gòu)推導(dǎo)的計(jì)算模型 32。清華大學(xué)的周強(qiáng) 、黃昌寧兩位教授提出了基于元規(guī)則的漢語文法規(guī)則的自動(dòng)構(gòu)造方法 33。綜合國內(nèi)外文法規(guī)則自動(dòng)推導(dǎo)的研究，我們可以發(fā)現(xiàn)，大部分工作以理論研究與探討為目的，針對口語對話系統(tǒng) 的、符合口語對話系統(tǒng)中語言特點(diǎn)的研究并不多見。因此第一章緒論 7 本文工作不僅具有很好的應(yīng)用價(jià)值，而且具有一定的理論意義。法性能的評測通過分析對比國內(nèi)外相關(guān)研究中文法評測方法，可以看到，學(xué)術(shù)界主要考查文法的復(fù)雜程度（生成的規(guī)則數(shù)目及新添加的非終結(jié)符數(shù)目）和算法的時(shí)間消耗 34香港中文大學(xué)的常用文法的基礎(chǔ)上，結(jié)合自身算法特點(diǎn)評測了參數(shù)的不同取值對最終生成的文法的影響 30。北大計(jì)算語言學(xué)研究所的王厚峰在評測中將自動(dòng)推導(dǎo)的文法與手工標(biāo)注的文法相比較，使用文法的準(zhǔn)確率、召回率、 F 值，對評測算法輸出的文法規(guī)則 32。綜觀這些研究，還沒有一套針對領(lǐng)域任務(wù)需求的文法評測方法。究的主要內(nèi)容及創(chuàng)新點(diǎn) 究的主要內(nèi)容口語對話系統(tǒng)中文法規(guī)則的獲取面臨著幾個(gè)主要問題：一是需要依賴領(lǐng)域?qū)＜液陀?jì)算機(jī)語言學(xué)家專業(yè)的知識和經(jīng)驗(yàn)，對于普通開發(fā)人員來說是無法完成的；二是采用手工方式進(jìn)行，是一個(gè)相當(dāng)繁瑣的過程；三是文法移植性差，根據(jù)某一領(lǐng)域獲取的文法規(guī)則很難移植到其他領(lǐng)域繼續(xù)使用，同樣功能的對話系統(tǒng)對于不同領(lǐng)域都需要領(lǐng)域?qū)＜抑匦略O(shè)計(jì) 文法規(guī)則。隨著社會需求的不斷增大，系統(tǒng)規(guī)?？涨皵U(kuò)大，文法規(guī)則的獲取成了對話系統(tǒng)研發(fā)的主要瓶頸。針對口語對話系統(tǒng)中文法規(guī)則的獲取，研究符合漢語口語特點(diǎn)的文法規(guī)則自動(dòng)推導(dǎo)技術(shù)，研究內(nèi)容如下：（ 1）文法的基本概念，包括文法及語言的定義、常見的文法分析算法，分析幾種常見文法的特點(diǎn)及優(yōu)劣；重點(diǎn)研究一種針漢語口語特點(diǎn)的上下文無關(guān)增強(qiáng)文法，主要包括增強(qiáng)屬性的歸納、增強(qiáng)規(guī)則類型形式化定義及增強(qiáng)文法分析算法。（ 2）根據(jù) 漢語口語的特點(diǎn)，以一種符合漢語口語特點(diǎn)的上下文無關(guān)增強(qiáng)文法為對象，研究口語對話系統(tǒng)中文法規(guī)則的自動(dòng)推導(dǎo)算法。提出一種基于句子分割的文法規(guī)則自動(dòng) 推導(dǎo) 算法，給出算法的形式化描述、具體步驟、片斷的消歧和歸一化方法

人人文庫> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

【畢業(yè)學(xué)位論文】口語對話系統(tǒng)中文法規(guī)則自動(dòng)推導(dǎo)研究-計(jì)算機(jī)科學(xué)與技術(shù)系

文檔簡介

溫馨提示

最新文檔

評論

【畢業(yè)學(xué)位論文】口語對話系統(tǒng)中文法規(guī)則自動(dòng)推導(dǎo)研究-計(jì)算機(jī)科學(xué)與技術(shù)系

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔