(信號(hào)與信息處理專業(yè)論文)基于知識(shí)庫(kù)的自然語言生成研究.pdf_第1頁(yè)
(信號(hào)與信息處理專業(yè)論文)基于知識(shí)庫(kù)的自然語言生成研究.pdf_第2頁(yè)
(信號(hào)與信息處理專業(yè)論文)基于知識(shí)庫(kù)的自然語言生成研究.pdf_第3頁(yè)
(信號(hào)與信息處理專業(yè)論文)基于知識(shí)庫(kù)的自然語言生成研究.pdf_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

北方交通人學(xué)壩f 州究生學(xué)位論文 摘要 摘要 ( 隨著社會(huì)信息化程度的日益提高,用“自然語言”進(jìn)行人機(jī)對(duì)話, 已成為信息化時(shí)代人們追求的目標(biāo),人們已不能滿足簡(jiǎn)單的問答系統(tǒng), 在完成很多需要由人機(jī)共同參與的任務(wù)時(shí)。需要具有高智能水平的對(duì)話 處理系統(tǒng)?;谔囟ㄈ蝿?wù)域的口語對(duì)話系統(tǒng)的研究已成為目前智能信息 處理領(lǐng)域研究的熱點(diǎn)。廣。 本文著重x c x , 話系統(tǒng)中相近域的自然語言生威進(jìn)行了研究,并結(jié) 合過適處理的特點(diǎn),實(shí)現(xiàn)了一個(gè)具有一定通用性的魚塑薅壹生成系統(tǒng)。 本文主要研究的問題如下: 1 對(duì)生成過程中“說什么”的研究; 雉計(jì)算語言學(xué)( c o m p u t a t i o n a ll i n g u i s t i c s ) 領(lǐng)域內(nèi),文本生成過程 可分為兩個(gè)階段:一是文本規(guī)劃階段,它的主要內(nèi)容可以歸納為一句話 一我應(yīng)該“說什么”內(nèi)容;二是表層形式生成階段,它用一句話講就是 我“怎么說”這些內(nèi)容。p 一; 文中在解決生成過程中的“l(fā) 兌什么”時(shí),提出了用面向?qū)ο蟮闹?識(shí)庫(kù)來管理從語料庫(kù)中提取來的數(shù)據(jù)。同時(shí),還研究了基于特定域的對(duì) 話系統(tǒng)中知識(shí)的表示、知識(shí)的推理以及知識(shí)的提取,另外,還對(duì)知識(shí)的 更新進(jìn)行了研究。 2 對(duì)生成過程中“怎么說”的研究: 根據(jù)謂語中心詞的語義特征,提出了動(dòng)詞中心詞驅(qū)動(dòng)的格語法, 結(jié)合特定任務(wù)域的生成規(guī)則,選擇可能的構(gòu)成句子的方案,達(dá)到輸出漢 語語句的目的。 3 丕纏亙整撞世的研究; 系統(tǒng)主要研究相近域之間的移植,采用的是將語言學(xué)處理和任務(wù) 域處理相分離的方法來實(shí)現(xiàn)。( 對(duì)不同的任務(wù)域,系統(tǒng)只需切換不同的任 務(wù)域,而采用一致的語- k 學(xué)處理模塊,這樣就使得系統(tǒng)可移植性成為可 能。) , 4 實(shí)現(xiàn)一個(gè)具有一定通用性的自然語言生成系統(tǒng)。 系統(tǒng)首先實(shí)現(xiàn)了頤和園導(dǎo)游域的自然語言生成系統(tǒng),結(jié)合以上研 究,系統(tǒng)成功實(shí)現(xiàn)了交大導(dǎo)航領(lǐng)域的系統(tǒng)移植,并給出了相近域自然語 言生成系統(tǒng)移植的完整實(shí)現(xiàn)步驟,最后對(duì)該系統(tǒng)進(jìn)行了詳細(xì)的測(cè)試。 ( 本文所做的工作是國(guó)家自然科學(xué)基會(huì)資助項(xiàng)目“i n t e r n e t 上的 ! ! 立鑾塑叁堂墮土塑塑生堂垡壘苧里 本文所做的工作是國(guó)家自然科學(xué)基金資助項(xiàng)目“1 n t e r n e t 上的 通用人機(jī)自然交互平臺(tái)( 編號(hào):6 9 8 7 2 0 0 2 ) 中的一部分。所實(shí)現(xiàn)的系統(tǒng), 由于知識(shí)庫(kù)表達(dá)力強(qiáng),結(jié)構(gòu)規(guī)范,可移植性強(qiáng)可以廣泛應(yīng)用于導(dǎo)游任務(wù) 域的系統(tǒng)中。 , ! ! 塑窒望叁蘭型! 蘭型壅竺堂垡笙蘭 莖蘭塑墨 a b s t r a c t w i t ht h ed e v e l o p m e n to f i n f o r m a t i o ns o c i e t y ,h u m a n - c o m p u t e rd i a l o g u s i n gn a t u r a ll a n g u a g eh a sb e c o m e t h ep e o p l e sg o a lp u r s u e d p e o p l es h o u l d n o tb es a t i s f i e dw i t has i m p l eq u e s t i o n - a n s w e rs y s t e mw h e nw eh o p et o c o l l a b o r a t ew i t hm a c h i n e i nf a c t ,w h a tw en e e di s ad i a l o g s y s t e m ,w i t h w h i c hw ec a nt a l kl i k ew i t hh u m a n r e s e a r c ho fs p o k e nd i a l o gs y s t e mb a s e d o n s p e c i a l d o m a i nh a sb e c o m et h e h o t s p o t i n i n t e l l i g e n t i n f o r m a t i o n p r o c e s s i n g d o m a i n - i nt h i st h e s i s ,t h ea u t h o rd ot h er e s e a r c ha b o u tn a t u r a l l a n g u a g e g e n e r a t i o ni l l c l o s ed o m a i nb e l o n gt ot h ed i a l o gs y s t e m ,c o m b i n i n gw i t ht h e c h a r a c t e r i s t i co f d i a l o gp r o c e s s i n g ,r e a l i z e t h ed e f i n i t e g e n e r a l n a t u r a l l a n g u a g eg e n e r a t i o ns y s t e m r e s e a r c hw o r ki sj u s ta sf o l l o w s : f i r s t l y , r e s e a r c h a b o u tw h a tw e s a y i nt h e p r o c e s s i n g o fn a t u r a l l a n g u a g eg e n e r a t i o n t e x tg e n e r a t i o nc a nb ed i v i d e di n t ot w op a r t si nt h e d o m a i no f c o m p u t a t i o n a ll i n g u i s t i c s :o n ei st e x tp l a n ,i no t h e rw o r d s ,w h a t w e s a y ,t h eo t h e ri ss u r f a c eg e n e r a t i o n ,i no t h e r sw o r d s ,h o wt os a y t os o l v e t i f f s p r o b l e m ,t h em e t h o do fm a n a g i n gt h ed a t aw i t hk n o w l e d g eb a s ei sp u t f o r w a r d s e c o n d l y , r e s e a r c ha b o u tw h a th o w t os a yi nt h ep r o c e s s i n go fn a t u r a l l a n g u a g eg e n e r a t i o n i no r d e rt og e n e r a t et h et e x t ,t h i st h e s i sp u tf o r w a r dt h e m e t h o do fc a s eg r a m m a rw i t hv e r bd r i v i n g ,c o m b i n ew i t ht h eg e n e r a t i o n r u l e s ,a n ds e l e c tt h ep o s s i b l es c h e m e t h i r d l y , r e s e a r c ha b o u tt r a n s p l a n tc h a r a c t e r i s t i c t h em e t h o dw h a tt h i s t h e s i su s e si ss e p a r a t i n gt h ep r o c e s s i n go ft a s kd o m a i nf r o mt h ep r o c e s s i n go f l i n g u i s t i c s l a s t l y , r e a l i z et h ed e f i n i t eg e n e r a ln a t u r a ll a n g u a g eg e n e r a t i o ns y s t e m f i r s to f a l l ,t h et h e s i sr e a l i z et h eg e n e r a t i o ns y s t e mb a s e do nd o m a i no ft h e s u m m e rp l a c eg u i d e ,t h e n t r a n s p l a n t t h e s y s t e m t od o m a i no fn o r t h e r n j i a o t o n gu n i v e r s i t y s c h o o l n a v i g a t i o ns u c c e s s f u l l y , a n dg i v e t h ed e t a i l e d s t e p so fs y s t e mt 1 a n s p l a n t f u r t h e r l n o r e ,t i f f st h e s i sa l s od os o m et e s t sa b o u t t h i ss y s t e m t i l er e s e a r c hd e s c r i b e di nt h i st h e s i sw a ss u p p o r t e d b yt h e n a t u r a l s c i e n c ef o u n d a t i o no fc h i n a j ! 查鑾望查蘭堡主竺塑竺蘭堡壘蘭! 二旦 第一章自然語言生成研究綜述 自然語言生成是當(dāng)前計(jì)算語言學(xué)中相當(dāng)活躍的一個(gè)領(lǐng)域,有著極其 重要的應(yīng)用價(jià)值。 1 1 自然語言生成的提出 自然語言是人們同常使用的語言,如漢語、英語、日語、法語等。 自然語言是人類知識(shí)的載體,也是人類學(xué)習(xí)環(huán)境和通訊的工具。在知識(shí) 經(jīng)濟(jì)的今天,一方面,計(jì)算機(jī)通過i n t e r n e t 已把世界變的越來越小,使人 與人之間的頻繁交往成為可能;另一方面,計(jì)算機(jī)已經(jīng)遍布各行各業(yè), 成為輔助人類進(jìn)行科學(xué)研究、設(shè)計(jì)施工、管理決策的重要工具。這樣一 來,解決好人與計(jì)算機(jī)交流方式就變得尤其重要了。而人與計(jì)算機(jī)進(jìn)行 交流,最自然的方式莫過于人類早已習(xí)慣的自然語言了。 基于自然語言的人機(jī)交互是一項(xiàng)十分龐大而復(fù)雜的系統(tǒng)工程,它是自 然科學(xué)和社會(huì)科學(xué)的交叉學(xué)科,因此它的研究不可能一步就能達(dá)到類似 于人與人之間的自然語言交互目的,必須隨著自然科學(xué)和社會(huì)科學(xué)的不斷 發(fā)展,逐步的加以分析和解決。圖1 1 給出基于自然語言人機(jī)交互的框圖。 可以看出:語音識(shí)別( s p e e c hr e c o g n i t i o n ) 、語音理解( s p e c c h u n d e r s t a n d i n g ) f t j 自然語言理解f n m u r a ll a n g u e a g eu n d e r s t a n d i n g ) 主要模 擬人類聽懂以語音形式發(fā)出的自然語言的能力,自然語言生成( n a t u r a l l a n g u a g eg e r n e r a t i o n ) 年l l 語音合成( s p e e c hs y n t h e s i s ) ( 文語轉(zhuǎn)換) ( t e x t t o s p e e c h ) 主要模擬人腦構(gòu)思自然語言的句子、篇章,并朗讀出來的能力。 其中,語音識(shí)別、語音理解、語音合成為語音信號(hào)處理( s p e e c hs i g n a l 1 5 r o c e s s i n g ) 研究的主要內(nèi)容,語音信號(hào)處理主要研究如何進(jìn)行語音形式的 自然語言信息與文本形式的自然語言信息之間的轉(zhuǎn)換。語音識(shí)別、語音 理解主要完成把語音形式的自然語言信息轉(zhuǎn)換為文本形式的自然語言, 如i b m 公司最新推出的v i a v o i c e2 0 0 0 系統(tǒng)就是一個(gè)基于非特定人的、 大詞匯量、連續(xù)漢語語音識(shí)別系統(tǒng)。語音合成( 文語轉(zhuǎn)換) 可以認(rèn)為是語音 識(shí)別、語音理解的逆過程,主要完成把文本信息轉(zhuǎn)換為語音形式的自然 語言,如微軟中國(guó)研究院最近演示的中文t t s 系統(tǒng)。 自然語言理解和自然語言生成是自然語言處理研究的兩大領(lǐng)域,自 北方交通大學(xué)碩上研究生學(xué)位論文 第一章 然語言理解是使計(jì)算機(jī)能象人一樣聽懂自然語言,而自然語言生成則是 使計(jì)算機(jī)具有人一樣的表達(dá)和寫作的功能。兩者的結(jié)合使得計(jì)算機(jī)能夠 和人一樣靈活的使用流利的自然語言。 應(yīng)用域知識(shí)處理 i l i士 對(duì)話處理 i tl l0 自然語言理解 l 自然語言生成 t語音處理l f i l0 語音識(shí)別理解 i 語音合成( 文語轉(zhuǎn)換) 飛 自然語言處理 圖1 1 基于自然語言人機(jī)交互框圖 自然語言理解是把一種表達(dá)轉(zhuǎn)換為另一種表達(dá)的過程,也就是在人 與機(jī)器理解之閫建立一種映射關(guān)系。自然語言理解主要研究如何使計(jì)算 機(jī)“理解”自然語句、篇章所表達(dá)的涵義,使得計(jì)算機(jī)能夠根據(jù)用戶的 交流意圖來完成一定的交互目的。 自然語言生成是用自然語言來構(gòu)造篇章的過程,即把句子意義的內(nèi) 部表示轉(zhuǎn)換為表層的結(jié)構(gòu)。自然語言生成主要研究將計(jì)算機(jī)內(nèi)部以某種 形式存放的需要交流的信息以合理的句子、段落、篇章的形式表達(dá)出來, 根據(jù)計(jì)算機(jī)內(nèi)部的規(guī)劃系統(tǒng),生成合乎語法、語義的內(nèi)部語言描述,并 以自然語言的形式輸出。 1 2 自然語言生成研究的發(fā)展概況 自然語言生成的研究始于6 0 年代初期,較之于理解的研究,起步 北方交通火學(xué)壩1 研究生學(xué)位論文 鵝一章 較晚。自然語言的生成發(fā)展至今基本上可分為兩類,隨機(jī)生成和非隨機(jī) 生成。隨機(jī)生成主要用來檢驗(yàn)特定的語法理論,也有用來檢驗(yàn)轉(zhuǎn)換生成 語法的有效性。隨機(jī)生成處理語義的能力很弱,處理語用問題的能力更 差,因此一般不再用于自然語言的生成。非隨機(jī)生成在程序內(nèi)存儲(chǔ)生成 句子的語義信息,并設(shè)法把這種內(nèi)部表達(dá)轉(zhuǎn)換為表層結(jié)構(gòu),從而生成句 子。非隨機(jī)生成也主要有兩種,一種是把程序內(nèi)部事先存儲(chǔ)的現(xiàn)成文本 直接作為生成結(jié)果輸出,另一種是通過對(duì)內(nèi)部知識(shí)結(jié)構(gòu)進(jìn)行轉(zhuǎn)換而生成 文本,在這種類型中,根據(jù)知識(shí)庫(kù)中對(duì)生成基元的描述又可以分為結(jié)構(gòu) 驅(qū)動(dòng)生成及目標(biāo)驅(qū)動(dòng)生成兩種。結(jié)構(gòu)驅(qū)動(dòng)的特點(diǎn)是生成內(nèi)容是預(yù)先設(shè)定 的,生成的主要過程就是檢索知識(shí)庫(kù)進(jìn)行查找,得到相應(yīng)的內(nèi)容直接輸 出。目標(biāo)驅(qū)動(dòng)生成中,知識(shí)庫(kù)的內(nèi)容不是專門為生成設(shè)置的,生成過程 需要根據(jù)一定的會(huì)話目標(biāo)來從知識(shí)庫(kù)中提取信息,然后對(duì)信息進(jìn)行語言+ 學(xué)j l 】工并表示為可懂句子的過程。 12 1 國(guó)外自然語言生成研究的發(fā)展概況 1 5 3 9 自然語言理解的研究從五十年代就丌始了,而自然語言生成的工作 ! j ! | j 始r 六十年代。最早從事生成工作的是y n g r e 和f r i e d m a n 。y n g r e 使 用一種上下文無關(guān)語法隨機(jī)生成符合語法的句子,而f r i e d m a n 使用擴(kuò)充 轉(zhuǎn)移網(wǎng)絡(luò)( a u g m e n t e d t r a n s i t i o nn e t w o r k ,簡(jiǎn)稱a t n ) 語法。在生成過程 中,可以隨機(jī)地選擇生成句子或詞組的類型,由詞組類型產(chǎn)生( 名詞) , ( 動(dòng)詞) 等結(jié)構(gòu),把詞隨機(jī)地填入句子中( 名詞) ,( 動(dòng)詞) 等結(jié)構(gòu)對(duì)應(yīng) 的位置中,由于詞的選擇是隨機(jī)的,因此往往會(huì)產(chǎn)生一些合語法而不合 語義的句子。這種隨機(jī)生成的方法只是用來檢驗(yàn)一下語法的正確性。 由于隨機(jī)生成特別強(qiáng)調(diào)句法,不太重視語義。為了生成質(zhì)量較高的 句子,人們開始使用非隨機(jī)生成法。這種方法的目的是用某種內(nèi)部表示 式來記錄句子的語義,然后把這種內(nèi)部表示轉(zhuǎn)化為句子的表層結(jié)構(gòu)。 1 9 6 5 年s k l e i n 首先用一種從屬語法進(jìn)行了生成試驗(yàn),他將輸入的 語言分析成一棵從屬語法樹,生成各個(gè)詞的從屬關(guān)系由原始從屬樹倒出, 生成語法與分析語法類似,按一定的條件約束而成。生成的結(jié)果可以保 證輸入與輸出的語句意思相同。 r q u i l l i a n 主張?jiān)谔幚碚Z言生成問題時(shí)把語義放在第一位。為了表 示詞與詞之j 、白j 的語義關(guān)系,他在1 9 6 8 年建立了語義網(wǎng)絡(luò)系統(tǒng)。這個(gè)系統(tǒng) 的任務(wù)是比較兩個(gè)詞從而發(fā)現(xiàn)它們的語義關(guān)系。在比較時(shí),要設(shè)法在語 義網(wǎng)絡(luò)中找到一條通路把兩個(gè)詞從語義上聯(lián)系起來。 北方交通人學(xué)碩士研究生學(xué)位論文 第一章 r s i m m o n s 和j s l o c u m ( 1 9 7 2 ) 首先在自然語言生成中利用a t n 語法 生成對(duì)輸入語句的復(fù)述。這個(gè)系統(tǒng)以格語法作為內(nèi)部表示的引入,表達(dá) 了各個(gè)概念點(diǎn)之間的語義關(guān)系。然后通過生成手段形成表層語言。這個(gè) 系統(tǒng)雖然只是用來復(fù)述一些輸入語句,但對(duì)后人的工作有很大的啟發(fā)。 n g o l d m a n 的文本生成系統(tǒng)b a b l e ( 1 9 7 5 ) 是m a r g i e 系統(tǒng)的一部 分。m a r g i e 是s c h a n k 等設(shè)計(jì)的系統(tǒng),可以對(duì)輸入句進(jìn)行復(fù)述和推理。 系統(tǒng)為b a b l e 提供的內(nèi)部知識(shí)表達(dá)結(jié)構(gòu)是概念從屬網(wǎng)絡(luò)。b a b l e 用一 種二叉樹結(jié)構(gòu)的分辨網(wǎng)絡(luò)從一些原始語義中選出與概念從屬網(wǎng)絡(luò)意義相 一致的動(dòng)詞,然后再加一些時(shí)態(tài)、情態(tài)等處理,最后生成句子。如: j o h n g a v em a r y ab o o k 可以復(fù)述為:m a r yr e c e i v e da b o o kf r o mj o h n b a b l e 系統(tǒng)在語義上使用了概念從屬網(wǎng)絡(luò),并有了推理能力,但 知識(shí)表達(dá)方面缺乏一般性,處理語言現(xiàn)象也比較少。 八十年代以來,自然語言生成的研究,從廣度和深度上都取得了很 大的進(jìn)展,首先是八十年代初一系列論文的發(fā)表,為自然語言生成的研 究指明了方向,奠定了理論基礎(chǔ)( m c d o n a l d1 9 8 0 , m c k e o w n1 9 8 2 】, a p p e l t1 9 8 2 ) 。從這些論文中可以看出人們對(duì)自然語言生成的研究有了 許多新的認(rèn)識(shí)。在七十年代,自然語言生成涉及的是用相對(duì)簡(jiǎn)單的方法 來生成孤立句,如f r s i m m o n s1 9 7 2 】,而進(jìn)入八十年代,自然語言生成的 研究總的說來有兩發(fā)面的變化:一是人們?cè)谏煞矫娴呐d趣從單旬生成 轉(zhuǎn)向了段落、篇章的生成,研究人員開始考慮在自然語言生成中加入文 本規(guī)封j ( t e x tp l a n n i n g ) ,從而實(shí)現(xiàn)自然語言段落、篇章的生成;另一方面 是人們對(duì)特定形式的話語生成的興趣,即考慮到根據(jù)用戶知識(shí)水平的高 低,來建立相應(yīng)的用戶模型,來生成不同的話語。 m c d o n l d 設(shè)計(jì)的m u m b l e ( 1 9 8 2 ) 自然語言生成系統(tǒng)把生成過程分 為四步。第一步采用一些類似腳本的知識(shí)表示來規(guī)劃某種目標(biāo);第二步 根據(jù)一些語法限制將一些詞組結(jié)構(gòu)的表示附著在規(guī)劃中,存放在寄存器 中;第三步是實(shí)現(xiàn),結(jié)構(gòu)轉(zhuǎn)化為功能性的詞,再根據(jù)詞法進(jìn)行一些處理; 最后一步是遍歷語法結(jié)構(gòu),將各個(gè)接點(diǎn)都綴上表層詞匯。生成表層句子。 系統(tǒng)通過控制各步之間的信息傳遞完成生成。這個(gè)系統(tǒng)的逐步推導(dǎo)對(duì)生 成研究是一種好方法。 a n t h o n y 設(shè)計(jì)的文本生成系統(tǒng)p r o t e u s ( 1 9 8 2 ) 是一個(gè)游戲說明生成 系統(tǒng)。p r o t e u s 使用的語法類似于系統(tǒng)語法。在調(diào)用語法之前,p r o t e u s 先給出了生成句的結(jié)構(gòu)。在確定文本范圍時(shí),p r o t e u s 用了一些啟發(fā)規(guī) 則。這個(gè)系統(tǒng)只是在小范圍內(nèi)的實(shí)驗(yàn)系統(tǒng),與這個(gè)范圍的知識(shí)很有關(guān)系, 受限制很大,但這是一個(gè)智能文本生成系統(tǒng)。該系統(tǒng)通過規(guī)劃產(chǎn)生文本, 北方交通大學(xué)碩士研究生學(xué)位論文 第一奇 而不只是從知識(shí)庫(kù)中提取已有的句子描述。 d a p p l e t 設(shè)計(jì)的k a m p ( 1 9 8 2 ) 系統(tǒng)是一個(gè)根據(jù)規(guī)劃產(chǎn)生話語的生成 系統(tǒng),這個(gè)系統(tǒng)通過邏輯運(yùn)算等推理方法達(dá)到一些話語的目標(biāo)。系統(tǒng)與 語用目標(biāo)緊緊聯(lián)系起來。a p p l e t 認(rèn)為語言的作用就是產(chǎn)生實(shí)際動(dòng)作,所 以就必須通過推導(dǎo)得到答案。k a m p 系統(tǒng)主要用于推理、語用的研究, 只能生成一些句子,而不能生成自然語言段落。 j m m c k e o w n 的t e x t 系統(tǒng)( 1 9 8 4 ) 是一個(gè)多語句生成系統(tǒng)。前面的 系統(tǒng)都未注意文本結(jié)構(gòu),只是對(duì)底層的知識(shí)內(nèi)容的直接反映。t e x t 的 知識(shí)源為海軍數(shù)據(jù)庫(kù)。系統(tǒng)根據(jù)一個(gè)數(shù)據(jù)庫(kù)回答問題,系統(tǒng)設(shè)計(jì)了幾種 修辭策略,如定義、比較、一致等。修辭策略選擇需要定義一個(gè)概念, 比較兩個(gè)物體時(shí)需要描述可能的信息,可以定義和描述目的。t e x t 的 生成過程可以由圖1 2 來表示。 p a r i s 的t a i l o r 1 9 8 5 ,1 9 8 7 是為r e s e a r c h e r 而開發(fā)的問題答 案生成系統(tǒng)。r e s e a r c h e r 有一個(gè)復(fù)雜的物體信息知識(shí)庫(kù),t a i l o r 用 于生成對(duì)物體的描述。在t a i l o r 的生成過程中,系統(tǒng)根據(jù)用戶的知識(shí) 水平建立了用戶模型,由不同的用戶知識(shí)水平選擇反饋給用戶的信息也 不同,在表層生成部分,采用了功能合一語法( f u n c t i o n u n i f i c a t i o n g r a m m a r 簡(jiǎn)稱f u g ) 。 h o v y 的生成系統(tǒng)p a u l i n e 首先在生成中建立了與講話者風(fēng)格、 修辭及交互目的有關(guān)的講話者模型,在這個(gè)模型中,h o v y 考慮了交流雙 方的社會(huì)關(guān)系、講話者與聽話者的社會(huì)背景及講話者的講話意圖。這些 因素作為影響生成文本的輸入?yún)?shù),通過選擇1 8 種修辭目標(biāo) ( r h e t o r i c a lg o a l s 簡(jiǎn)稱r g s ) ,決定生成文本中應(yīng)包含那些信息及 應(yīng)選用那些詞匯。 s y o u n g 等設(shè)計(jì)的v o i d s ( 1 9 9 1 ) 系統(tǒng)是b r i t i s ht e l e c o m ,l o g i c a 和 c a m b r i d g eu n i v e r s i t ye n g i n e e r i n gd e p a r t m e n t 花三年的時(shí)間共同開發(fā)的項(xiàng) 目。這個(gè)系統(tǒng)主要用來處理對(duì)列車時(shí)刻表的電話查詢。它采用上下文無 關(guān)語法,生成的過程是:針對(duì)幾類固定的問題,采用令牌方式選擇可以 匹配的詞,然后用這些詞組成句子。 p s i b u n 的s a l i x ( 1 9 9 1 ) 系統(tǒng)是具有規(guī)劃功能的特定任務(wù)域的生成系 統(tǒng),它根據(jù)家庭的親屬關(guān)系結(jié)構(gòu)樹,產(chǎn)生對(duì)家庭成員間關(guān)系的介紹文本, 陔系統(tǒng)涉及到句式有限,沒有明顯的語法部分。 m m e t e e r 的s p o k e s m a n 1 9 9 1 1 是b b ns y s t e m sa n dt e c h n o l o g i e s c o r p o r a t i o n 承擔(dān)的d a r p a 計(jì)劃中的s e m i a t u o m a t e df o r c e s ( s a f ) 5 頁(yè), 目中 1 部分。它采用數(shù)據(jù)驅(qū)動(dòng)的結(jié)構(gòu)來組織文本,首次嘗試了面向?qū)ο蟮恼Z 言生成。該系統(tǒng)主要產(chǎn)生軍事上用的無線電信息。s p o k e s m a n 出兩個(gè) 北方交通大學(xué)碩士研究生學(xué)位論文 第一章 c o r p o r a t i o n 承擔(dān)的d a r p a 計(jì)劃中的s e m i a t u o m a t e df o r c e s ( s a f ) 項(xiàng)目 中一部分。它采用數(shù)據(jù)驅(qū)動(dòng)的結(jié)構(gòu)來組織文本,首次嘗試了面向?qū)ο蟮?語言生成。該系統(tǒng)主要產(chǎn)生軍事上用的無線電信息。s p o k e s m a n 由 兩個(gè)主要部分構(gòu)成,文本規(guī)劃器和語言實(shí)現(xiàn)器。文本規(guī)劃器選擇需要交 換的信息,決定信息的組織,選擇信息與知識(shí)庫(kù)的匹配。語言生成器生 成實(shí)際文本。它根據(jù)需要表達(dá)的意義組織文本結(jié)構(gòu),通過知識(shí)庫(kù)匹配得 到結(jié)構(gòu)中有關(guān)部門語言的具體內(nèi)容,然后通過詞匯的選擇,連接形成表 層結(jié)構(gòu),從而生成自然語言文本。s p o k e s m a n 生成自然語言文本的 過程如圖1 3 所示。 l表層部分 圖1 2t e x t 生成過程 m i t 近幾年丌發(fā)的g e n e s i s 系統(tǒng)已經(jīng)應(yīng)用到五個(gè)域七種語言中。 她的輸入是由理解系統(tǒng)t i n a 產(chǎn)生的語義框架和從數(shù)據(jù)庫(kù)獲得的信息。 該系統(tǒng)包括三個(gè)部分:詞典、消息模板和重寫規(guī)則。其中詞典用來實(shí)現(xiàn) 語義框架的表層形式,消息模板采用遞歸的方法構(gòu)造語義框架的名詞短 6 一 j ! 查奎望查蘭堡主! 壅蘭蘭竺堡苧 一一! 二里 語、謂語和叢句,每個(gè)消息模板包括消息名、一個(gè)或多個(gè)詞串以及關(guān)鍵 詞。 文 本 規(guī) 劃 器 語 考 口 實(shí) 現(xiàn) 器 組織需表達(dá)的意義 知識(shí)庫(kù)匹配 選擇詞匯、連接 圖1 3s p o k e s m a n 文本生成過程 詞法 1 2 2 國(guó)內(nèi)自然語言生成研究的發(fā)展概況 2 9 3 3 3 9 目前國(guó)內(nèi)自然語言生成研究尚還處于起步階段。清華大學(xué)研制的 軍事情報(bào)系統(tǒng)用來模擬回答有關(guān)軍事情報(bào)的問題,篇章分析系統(tǒng)將輸入 情報(bào)的主要內(nèi)容經(jīng)過分析后分別存入一種框架形式的數(shù)據(jù)庫(kù)。生成時(shí)采 用格語法,通過單句生成器給出表層的對(duì)話回答。它基本上屬于對(duì)話理 解時(shí)輸入的軍事情報(bào)的直接復(fù)述。系統(tǒng)結(jié)構(gòu)框架如圖1 4 所示 相對(duì)來說,這個(gè)系統(tǒng)還是比較簡(jiǎn)單的,但在漢語生成中作了初步 的嘗試。 清華大學(xué)碩士論文基于合一算法的漢語生成研究f 1 9 8 9 將格語 法和其它語法理論相結(jié)合,提出了一種表達(dá)句子意義的語用描述,其中 不僅有反映句核格關(guān)系的k 部,還有傳達(dá)意圖、焦點(diǎn)、情態(tài)、語氣等 非格關(guān)系的p 部。對(duì)漢語特點(diǎn)尤其是漢語的生成規(guī)律,采用復(fù)雜特征集 和合一算法設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)漢語單句生成系統(tǒng)。 北方交通犬學(xué)顧f :研究生學(xué)位論文 第一章 提問問題 信息查找 信息篩選 格的加工 單句生成 話語寄存 輸出回答 圖1 4 軍事情報(bào)系統(tǒng)生成框架 清華大學(xué)研制的機(jī)器人話語生成系統(tǒng)r d g s 1 9 9 0 1 ,主要是根據(jù)消 防機(jī)器人視覺系統(tǒng)所獲得的有關(guān)現(xiàn)場(chǎng)景物的識(shí)別結(jié)果,按照用戶的交互 要求,通過查詢知識(shí)庫(kù),生成連貫的漢語話語段,反饋給用戶。 南京大學(xué)的博士論文漢語組合類型語法理論1 9 9 0 介紹了漢語 的一種形式語法體系( 既組合類型語法) 的基本思想、構(gòu)架以及漢語句子 的實(shí)際組合過程。 北方交通大學(xué)信息科學(xué)研究所的博士論文自然語言生成系統(tǒng)的 建模與實(shí)現(xiàn)1 9 9 4 1 在語言學(xué)和數(shù)學(xué)研究的基礎(chǔ)上,提出了語言的六層 次模型,即原始層、特征層、概念層、規(guī)則層、環(huán)境層和關(guān)系層,建立 了適合自然語言理解和自然語言生成的雙向語法,還針對(duì)自然語言生成 對(duì)知識(shí)表達(dá)的要求,提出了基于面向?qū)ο蠓椒ǖ目蚣鼙硎九c語義網(wǎng)絡(luò)表 示方法相結(jié)合的知識(shí)表達(dá)方法。 北方交通大學(xué)碩士研究生學(xué)位論文 第一章 1 2 3 小結(jié) 從國(guó)內(nèi)外自然語言生成的發(fā)展概況,可以看出:國(guó)外在自然語言 生成研究方面開展的較早,已經(jīng)有較多比較成熟的理論、模型和系統(tǒng), 并且自然語言生成系統(tǒng)在一些領(lǐng)域已經(jīng)商品化。我國(guó)的科技人員在較短 的時(shí)間內(nèi),借鑒國(guó)外的理論和模型,結(jié)合漢語的特點(diǎn),已取得了不少成 績(jī),但我們也認(rèn)識(shí)到與國(guó)外的自然語言生成研究相比,還存在不少差距, 我們應(yīng)該從深入研究符合漢語的理論、方法和體系入手,研制出實(shí)用化 的漢語生成系統(tǒng)。 1 3 對(duì)話系統(tǒng)中自然語言生成的研究?jī)?nèi)容 實(shí)現(xiàn)“人機(jī)口語對(duì)話”是多年來人們一直渴望實(shí)現(xiàn)的夢(mèng)想,同時(shí)也 是人工智能領(lǐng)域研究人員孜孜不倦追求的目標(biāo)。目前,由于各種相關(guān)技 術(shù)尤其是語音技術(shù)的飛速發(fā)展,使得這個(gè)夢(mèng)想的實(shí)現(xiàn)不再遙遠(yuǎn)。這種對(duì) 話式的人機(jī)交流方式,同傳統(tǒng)的人機(jī)交互途徑f 如鍵盤、鼠標(biāo)、按鈕、 觸 摸屏等) 相比,無疑是一個(gè)革命,因?yàn)閷?duì)人而言,這種交互方式更加 直接、有趣??梢哉f,這種技術(shù)的應(yīng)用將在很大程度上提高機(jī)器的“智 商”。 1 3 1 對(duì)話系統(tǒng)發(fā)展概述【1 3 1 4 【1 9 2 0 雖然自然語言處理的研究歷史比較長(zhǎng),人機(jī)對(duì)話的概念也早已提 出,但真正意義上的對(duì)話處理研究是最近才發(fā)展起來的。以前人們所談 的人機(jī)對(duì)話事實(shí)上只是指自然語言理解或自然語言處理,或者說是一種 籠統(tǒng)的、廣義的人機(jī)對(duì)話,與本文所談到的口語對(duì)話是有區(qū)別的。 h a r v a r d 大學(xué)的b j g r o s z 教授在這方面的工作引人注目。她早在七 十年代就已經(jīng)對(duì)對(duì)話進(jìn)行了研究。1 9 8 3 年她和現(xiàn)在在賓夕法尼亞大學(xué) 的a k j o s h i 和s w e i n s t e i n 提出的焦點(diǎn)理論( c e n t e r i n g ) 弓起了廣泛關(guān)注, 許多學(xué)者對(duì)此進(jìn)行了擴(kuò)展和完善。焦點(diǎn)理論并非為對(duì)話處理量身定做而 提出的,它同時(shí)也可用于篇章分析,事實(shí)上這兩者之間有類似之處,都 強(qiáng)調(diào)深層的結(jié)構(gòu)關(guān)系,只不過說話人的個(gè)數(shù)不一樣。g r o s z 在原文中用 的是“話語”( d i s c o u r s e ) - - 詞,即它包括了這兩個(gè)基本點(diǎn)概念。1 9 8 6 年, 一9 北方交通大學(xué)碩士研究生學(xué)位論文 第一章 g r o s z 和s l i d e r 明確提出了話語中的三個(gè)組成部分:語言結(jié)構(gòu)( 1 i n g u i s t i c s t r u c t u r e ) 、目的結(jié)構(gòu)( i n t e n t i o n a ls t r u c t u r e ) 以及關(guān)注區(qū)點(diǎn)( a t t e n t i o n a ls t a t e ) 。 這三部分是一個(gè)由表及里的分析過程,表層的語言結(jié)構(gòu)可將話語分為若 干段( s e g m e n g ) ,每一段都有自己的目的,這些目的反映了段內(nèi)以及段 之間的邏輯推理關(guān)系。關(guān)注焦點(diǎn)則反映了任一時(shí)刻講話者所關(guān)注的東 西,它的變化取決于目的結(jié)構(gòu)和表層語言特性。所謂表層語言特性就是 她1 9 8 3 年提出的焦點(diǎn)概念:話語中有些東西比其他東西重要,構(gòu)成焦 點(diǎn),講話時(shí)應(yīng)采用能體現(xiàn)這一焦點(diǎn)的表達(dá)方式。 g r o s z 的理論對(duì)當(dāng)前的對(duì)話處理研究的影響極大,大家普遍采用將 對(duì)話分段進(jìn)行分析的方法,并在此基礎(chǔ)上作出進(jìn)一步的研究,已推出了 不少實(shí)驗(yàn)系統(tǒng)。 r o c h e s t e r 大學(xué)的j f a l l e n 和l k s c h u b e r t 等人設(shè)計(jì)的t r a i n s 系 統(tǒng)是一個(gè)輔助決策系統(tǒng)。該系統(tǒng)經(jīng)過了多年的研究,用來幫助用戶設(shè)計(jì) 和監(jiān)督鐵路貨運(yùn)計(jì)劃。用戶向系統(tǒng)提出貨運(yùn)請(qǐng)求和具體要求,系統(tǒng)考察 這些要求是否可行,并形成運(yùn)輸計(jì)劃。t e a i n s 系統(tǒng)的結(jié)構(gòu)如圖1 5 所 不。 該系統(tǒng)采用黑板結(jié)構(gòu)存儲(chǔ)語句和對(duì)話知識(shí),對(duì)話管理模塊用來掌 握對(duì)話的進(jìn)程,確保目標(biāo)的實(shí)現(xiàn),即與用戶協(xié)商運(yùn)輸計(jì)劃并執(zhí)行。它能 追蹤對(duì)話運(yùn)行的狀態(tài),驗(yàn)證用戶的對(duì)話意圖,分析后給出自己的對(duì)話目 標(biāo),由生成模塊輸出。 d u k e 大學(xué)的a w b i e r m a r m 等人設(shè)計(jì)的電路維修系統(tǒng)( c i r c u i tf i x i t s h o p ) 是一個(gè)比較具有代表性的、能進(jìn)行協(xié)調(diào)工作的對(duì)話系統(tǒng)。其他類 似的對(duì)話系統(tǒng)還有s r y o u n g 等人設(shè)計(jì)的m i n d s 系統(tǒng),它們都在任務(wù) 域中采用樹形結(jié)構(gòu)組織知識(shí)、進(jìn)行推理,并生成對(duì)用戶輸入的預(yù)測(cè),用 以提高識(shí)別和理解的正確率。c i r c u i tf i x i ts h o p 系統(tǒng)在對(duì)話進(jìn)程控制方 面有所發(fā)展,值得借鑒。該系統(tǒng)共分為五大模塊,如圖1 6 所示。 。 特別是近十年來,對(duì)話系統(tǒng)已經(jīng)越來越引起國(guó)內(nèi)外專家的重視, 是目前語音和語言學(xué)領(lǐng)域研究的熱點(diǎn),一系列有關(guān)對(duì)話系統(tǒng)研究項(xiàng)目紛 紛啟動(dòng),國(guó)外比較大的項(xiàng)目有美國(guó)國(guó)防部( a r p a ) 資助的航空旅游信息 服務(wù)系統(tǒng)a t i s 、a t & t 公司的自動(dòng)接線員( h m i h y ) 研究項(xiàng)目、m i t 的 天氣信息語音自動(dòng)服務(wù)( j u p i t e r ) 研究項(xiàng)目、德國(guó)教育科學(xué)研究聯(lián)合部 資助的面對(duì)面自動(dòng)翻譯項(xiàng)目( v e r b m o b i l ) 以及日本文部省( m i n i s t r yo f e d u c a t i o n ) 資助的人機(jī)對(duì)話系統(tǒng)的研究等。國(guó)內(nèi)正在進(jìn)行的比較大的 項(xiàng)目有中國(guó)科學(xué)院同a t & t 合作的英漢語音自動(dòng)翻譯項(xiàng)目,以及“9 7 3 ” 項(xiàng)目“圖像、語音、自然語言理解與知識(shí)發(fā)掘”中的自然人機(jī)口語對(duì)話 系統(tǒng)研究。 北方交通人學(xué)壩- t :i i ) f 究生學(xué)位論文第一章 用戶l , l 句法分析 l l + 歧義處理語義理解 一語言生成 +l 對(duì)話管理卜1 計(jì)劃推理 上 計(jì)劃執(zhí)行和監(jiān)督 t r a i n s 運(yùn)輸、生產(chǎn)部門 圖1 5 t r a n s 系統(tǒng)結(jié)構(gòu)框圖 域處理器 通用域知識(shí) 電路專業(yè)知識(shí) 語言接口 語言理解 語言生成 對(duì) 話 控 制 器 通用推理器 知識(shí)庫(kù) 任務(wù)知識(shí) 對(duì)話知識(shí) 用戶知識(shí) 圖1 6c i r c u i tf i x i ts h o p 系統(tǒng)結(jié)構(gòu) 1 3 2 一般自然語言生成系統(tǒng)研究?jī)?nèi)容 2 4 2 5 3 0 4 7 北方交通大學(xué)碩士研究生學(xué)位論文 第一章 在人們進(jìn)行文章生成過程中,頭腦中首先總是有某種“想說的東 西”存在著,這些想說的東西,在大多數(shù)情況下,不外是兩三個(gè)基本概 念以及他們之間的某種可成立的關(guān)系。到了要把他們說出來或?qū)懗鰜淼?階段,再考慮表達(dá)這些概念的單詞的語法特征。在計(jì)算語言學(xué)領(lǐng)域內(nèi), 根據(jù)上述描述過程,把文本生成過程分為兩個(gè)階段:文本內(nèi)容決定階段 或文本規(guī)劃階段,它的主要內(nèi)容可以歸納為一句話一我應(yīng)該“說什么” 內(nèi)容? ;另一個(gè)表層形式生成,它用一句話講就是我“怎么說”這些內(nèi) 容。這個(gè)階段根據(jù)文本規(guī)劃階段輸出的中間表達(dá)形式生成表層語言形 式,它主要處理語言的選詞、詞的形態(tài)變化和詞組的匹配等。 文本規(guī)劃階段,一般進(jìn)一步劃分為兩個(gè)部分,文本內(nèi)容規(guī)劃部分( 全 局規(guī)劃) 和文本句子規(guī)劃部分( 局部規(guī)劃) ,文本內(nèi)容規(guī)劃部分主要是將用 戶輸入的信息變成很細(xì)的顆粒,它使系統(tǒng)知道那些是主要的信息,那些 是該忽視的,決定文本的段落結(jié)構(gòu)。文本句子規(guī)劃部分的工作是把內(nèi)容 規(guī)劃的結(jié)果用適當(dāng)?shù)恼Z言組成結(jié)構(gòu)來表示。在句子規(guī)劃階段主要執(zhí)行下 列任務(wù):將內(nèi)容規(guī)劃對(duì)象映射到語言資源上;將內(nèi)容規(guī)劃對(duì)象組合和排 序成段落和句子:句子轄域確定;消除冗余,精練語句;嵌入詞的引進(jìn) 和常規(guī)用語的修飾;布局和格式處理等。這一過程可以用圖1 7 來表示。 圖1 7 一般自然語言生成系統(tǒng)結(jié)構(gòu)圖 1 9 8 2 年,w m a n n 將今后若干年自然語言生成的研究歸納為以下 四個(gè)問題: 北方交通人學(xué)碩上研究生學(xué)位論文 第一章 1 語法問題: 2 知識(shí)表示結(jié)構(gòu); 3 讀者模型; 4 話語模型; 既然自然語言處理屬于計(jì)算語言學(xué)的一個(gè)領(lǐng)域,那么自然語言的 生成就離不開語言學(xué)知識(shí),就不可避免的要遇到語言學(xué)知識(shí)的計(jì)算機(jī)形 式表示問題,一般認(rèn)為,如果知識(shí)表達(dá)的恰當(dāng),對(duì)把知識(shí)形成自然語言 篇章來說會(huì)更容易一些;讀者模型指與用戶知識(shí)水平有關(guān)的模型,也就 是說,對(duì)具有不同知識(shí)水平的用戶視其交互目的應(yīng)該生成不同的反饋信 息;話語模型是控制“說什么”和“怎么說”的模型,它用來進(jìn)行對(duì)文 本內(nèi)容和組織形式的選擇。 自然語言生成的目的之一是使計(jì)算機(jī)能以可懂的自然語言形式輸 出用戶所需的文本信息,要作到有效的傳遞信息,生成的文本應(yīng)滿足以 下特性: 1 提供信息的( i n f o r m a t i o n t i v e ) :文本必須包含用戶未知的信息: 2 上下文相關(guān)的( c o h e r e n t ) :文本必須是以前后相關(guān)聯(lián)的形式組織 起來的; 3 可懂的( u n d e r s t a n d a b l e ) :文本必須是以用戶可以理解的方式來 敘述的,而且包含的信息可以為用戶所接受; 4 關(guān)聯(lián)的( r e l e v a n t ) :文本必須提供與用戶交流目的相關(guān)的信息; 5 適當(dāng)?shù)? a p p r o p r i a t e ) :文本必須以適當(dāng)?shù)男问郊罢_的語言效 果來修辭造句: 1 3 3 特定域?qū)υ捪到y(tǒng)中的自然語言生成 1 9 2 0 2 6 2 7 人機(jī)語聲對(duì)話就是使計(jì)算機(jī)作為對(duì)話的一方模仿人一人對(duì)話,這 使得人機(jī)語聲對(duì)話同其它類型的人機(jī)對(duì)話有著本質(zhì)的區(qū)別。具體表現(xiàn) 在: 1 人機(jī)語聲對(duì)話所使用的語言是1 3 語語言( s p o k e n l a n g u a g e ) ; 2 人機(jī)語聲對(duì)話對(duì)話結(jié)構(gòu)的復(fù)雜性; 3 對(duì)話中話語的含義與對(duì)話情境有著較強(qiáng)的依賴關(guān)系; 口語語言的特點(diǎn) 北方交通大學(xué)碩士研究生學(xué)位論文 第一翥 口語語言與書面語言( w r i t t e nl a n g u a g e ) 之間有很大的差別,口語語 言中包含有大量非書面語語言現(xiàn)象。這些書面語言的表現(xiàn)非常復(fù)雜,有 時(shí)反映了說話者的某一思想狀況,具有向聽話者傳遞一定信息的作用: 有時(shí)并沒有任何意義,僅是說話者的一種習(xí)慣方式??谡Z語言中包含大 量的非書面語語言現(xiàn)象主要可概括為以下幾種: 1 口語語言中存在著大量的省略現(xiàn)象,在上下語義允許的前提 下,人們總是采用最節(jié)省的方式交換信息; 2 遲疑現(xiàn)象,這一現(xiàn)象反映了說話者試圖選擇恰當(dāng)?shù)脑~匯和表達(dá) 方式表達(dá)他的思想; 3 口語語言中包含有大量句中意群間,偶爾也在意群中的停頓、 插入語、重復(fù)自我糾錯(cuò)等非書面語語言現(xiàn)象: 4 口語中存在著和書面語相比的非法語法結(jié)構(gòu)及無意義的語音現(xiàn) 象: 對(duì)話的特點(diǎn) 對(duì)話的最大特點(diǎn)是目的性和協(xié)調(diào)性,并因此決定了對(duì)話的兩個(gè)主 要的研究?jī)?nèi)容:任務(wù)域的分析和對(duì)話規(guī)律的研究。對(duì)話與篇章有著類似 之處,他們都是話語序列,都是為了完成達(dá)到某個(gè)交互目的或任務(wù),因 此必須研究任務(wù)是如何實(shí)現(xiàn)的以及它是如何影響對(duì)話結(jié)構(gòu)的,這是對(duì)話 處理的根本。g r o s z 早在1 9 7 8 年就指出:對(duì)話的結(jié)構(gòu)反映了下面任務(wù)的 結(jié)構(gòu)。但對(duì)話與篇章有著根本的區(qū)別,對(duì)話是由兩個(gè)人共同完成的,不 象篇章的“作者”只有一個(gè),因而協(xié)調(diào)對(duì)話的進(jìn)程是對(duì)話處理所特有的。 任務(wù)域的分析是解決協(xié)調(diào)問題的基礎(chǔ),否則會(huì)出現(xiàn)“顧左右而言其它” 的局面。因此任務(wù)域要處理好如何實(shí)現(xiàn)任務(wù)和預(yù)測(cè)用戶有可能會(huì)如何實(shí) 現(xiàn)任務(wù)兩個(gè)問題。但這還不能保證對(duì)話的協(xié)調(diào)性,對(duì)話本身有其特有的 語言規(guī)律和控制規(guī)律。對(duì)話時(shí)經(jīng)常要詢問對(duì)方是否明白,或自己理解的 是否正確,甚至是僅僅告知對(duì)方正在聽。這是篇章中沒有的,對(duì)篇章不 明白就再看一遍,實(shí)在看不明白也沒辦法。進(jìn)程控制規(guī)律也是對(duì)話中所 特有的,這是由于對(duì)話是由兩個(gè)人參加決定的,不象篇章是“一廂情愿”。 以下幾個(gè)方面,是對(duì)話處理中值得好好研究的。 1 了解用戶的知識(shí)水平:對(duì)話雙方若想?yún)f(xié)調(diào)的進(jìn)行對(duì)話,必須了 解對(duì)方知道什么,會(huì)作什么,因?yàn)閷?duì)話是信息的持續(xù)交流,已 知的信息沒必要重復(fù),為了完成這一點(diǎn),系統(tǒng)應(yīng)有一個(gè)用戶模 型,對(duì)用戶的知識(shí)和能力進(jìn)行動(dòng)態(tài)描述。 2 對(duì)話的目的:雙方進(jìn)行對(duì)話總是有一定的目的性,泛泛的說是 北方交通人學(xué)碩k 研究生學(xué)位論文 第一章 為把自己的知識(shí)傳遞到對(duì)方,或要求對(duì)方提供知識(shí)。但落實(shí)到 實(shí)際的對(duì)話,就會(huì)有一個(gè)個(gè)具體的目的。 3 對(duì)話進(jìn)程的控制:對(duì)話是一個(gè)持續(xù)的過程,對(duì)話的內(nèi)容是不斷 變化的,但當(dāng)前所談的內(nèi)容只有一個(gè),而雙方卻都可以提出自 己交談目的。如果目的不同,對(duì)話按那一方的意愿發(fā)展下去, 也就是說誰的目的級(jí)別高,誰能控制對(duì)話的進(jìn)程。這一點(diǎn)事實(shí) 上要由雙方對(duì)當(dāng)前內(nèi)容的知識(shí)水平?jīng)Q定,由懂得多的人控相j x , j - 話的發(fā)展。 4 對(duì)語義的預(yù)測(cè):對(duì)話處理作為上面一層的處理過程應(yīng)該對(duì)下面 各層提供一些反饋信息,識(shí)別和理解的結(jié)果是否正確在這里應(yīng) 該得到檢驗(yàn),同時(shí)應(yīng)預(yù)測(cè)出用戶下一步可能要表達(dá)的意思,從 而知道識(shí)別和理解。 5 對(duì)話的分段處理:對(duì)話可能會(huì)很長(zhǎng),分析起來會(huì)有一定的困難, 實(shí)現(xiàn)不易控制。因而有必要將其分為一個(gè)個(gè)小對(duì)話段,把握每 一小段之間的關(guān)系既可掌握住整個(gè)對(duì)話的進(jìn)程。分段的標(biāo)準(zhǔn)與 對(duì)話的內(nèi)容有關(guān),也與對(duì)話本身的語言規(guī)律有關(guān)。 6 對(duì)話語言的特點(diǎn):為了適應(yīng)信息的雙向交流,對(duì)話語言具有自 己的特點(diǎn),總結(jié)其規(guī)律,有利于知道對(duì)話系統(tǒng)的實(shí)現(xiàn)。 可以看出:在研究對(duì)話系統(tǒng)里的自然語言處理時(shí),應(yīng)考慮到與研 究機(jī)器翻譯、自動(dòng)文摘等的自然語言處理的差別,應(yīng)結(jié)合對(duì)話系統(tǒng)的特 點(diǎn)。北方交通大學(xué)信息科學(xué)研究所碩士論文基于自然語言的人機(jī)對(duì)話 系統(tǒng)的研究在對(duì)話管理方面作了大量的工作,本文在此基礎(chǔ)上,結(jié)合 l j 語特點(diǎn),在自然語言處理的一個(gè)分支一自然語言生成上作了一些研究 工作。 1 4 選題的意義 自然語言生成研究的歷史雖然并不算太長(zhǎng),但目前已有的研究成 果足以顯示出它的重要性和應(yīng)用前景。自然語言處理作為人工智能的核 心課題來研究,自然語言生成在其中起到重要的作用,如機(jī)器翻譯中的 譯文生成、自動(dòng)報(bào)表的生成,軍事上智能機(jī)器人在特殊環(huán)境下的應(yīng)用等。 從知識(shí)產(chǎn)業(yè)的角度出發(fā),自然語言處理也占有重要的地位,象專家系統(tǒng)、 數(shù)據(jù)庫(kù)、知識(shí)庫(kù),計(jì)算機(jī)輔助設(shè)計(jì),智能機(jī)器人等都迫切需要用自然語 言作為人機(jī)交流的手段,交互中自然語言生成是非常重要的部分。具有 篇章理解能力的自然語- f i + 理解與生成系統(tǒng)可用于機(jī)器人自動(dòng)翻譯、情報(bào) 北方交通大學(xué)碩士研究生學(xué)位論文 第一章 檢索、自動(dòng)標(biāo)引、自動(dòng)文摘以及自動(dòng)寫故事小說等領(lǐng)域。特別是隨著智 能信息技術(shù)的發(fā)展,計(jì)算機(jī)越來越能夠象人一樣靈活使用流利的自然語 言,使得人們夢(mèng)寐以求的理想一人與機(jī)器能夠用自然語言進(jìn)行對(duì)話,一 步一步變?yōu)榭赡堋倪@些令人心動(dòng)的應(yīng)用前景我們可以發(fā)現(xiàn),自然語言 生成,尤其是對(duì)對(duì)話系統(tǒng)中的自然語言生成進(jìn)行研究具有非常重要的意 義。 北方交通大學(xué)信息科學(xué)研究所在語言信息處理方面具有近三十年 的研究歷史

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論