《自然語言交流的計算機模型》評介_第1頁
《自然語言交流的計算機模型》評介_第2頁
《自然語言交流的計算機模型》評介_第3頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、自然語言交流的計算機模型評介-漢語言文學(xué)自然語言交流的計算機模型評介自然語言交流的計算機模型一數(shù)據(jù)庫語義學(xué)下的語言理解、推理和生成(簡稱自然語言交流的計算機模型)的中譯本于2016年3月在商務(wù)印書館出版了。這是一本有獨創(chuàng)性的計算語言學(xué)專著,我作為本書的審校者,希望通過對本書的簡單評介,有助于國內(nèi)讀者理解這本專著的內(nèi)容、方法和意義。本書作者羅蘭德豪塞爾(RolandHausser)是德國愛爾蘭根紐倫堡大學(xué)計算語言學(xué)教授。他先后出版了表面組成語法自然人機交流計算語言學(xué)基礎(chǔ)人機自然語言交流和自然語言交流的計算機模型等多部專著,發(fā)表文章近百篇。豪塞爾是“左結(jié)合語法”(Left-Associativeg

2、rammar,簡稱LA)的創(chuàng)始人,后來他又進一步提出了“數(shù)據(jù)庫語義學(xué)”(DatabaseSemantics,簡稱DBS)和完整的“語表組合線性內(nèi)部匹配”理論(SurfacecompositionalLinearInternalMatching,簡稱SLIM),在計算語言學(xué)界形成了自己獨特的風格。我與豪塞爾教授曾有一面之交。2002年聯(lián)合國教科文組織(UNESCO)韓國委員會在韓國首爾(Seoul)舉行了一次關(guān)于“信息時代的語言問題”的學(xué)術(shù)研討會,我和豪塞爾都被邀請參加了這次會議。在會議期間的交談中,我對于豪塞爾的理論有了初步的了解,回國之后,我又細讀了他的計算語言學(xué)基礎(chǔ)一一人機自然語言交流(英

3、文版)一書,對于他的理論有了進一步的認識。我認為豪塞爾教授是一位具有獨創(chuàng)精神的計算語言學(xué)家。豪塞爾認為,面向未來的計算語言學(xué)的中心任務(wù)就是研究一種人類可以用自己的語言與計算機進行自由交流的認知機器。因此,自然語言的人機交流應(yīng)當是計算語言學(xué)的中心任務(wù)。計算語言學(xué)研究應(yīng)當通過對說話人的語言生成過程與聽話人解釋語言的過程進行建模,在適宜的計算機上復(fù)制信息的自然傳遞過程,從而構(gòu)建一種可與人用自然語言自由交流的、自治的認知機器,這樣的認知機器也就是機器人(robot)。為了實現(xiàn)這一目標,必須對自然語言交流機制的功能模型有深刻的理解。豪塞爾提出的“語表組合線性內(nèi)部匹配”(SLIM)理論以人作為人機交流的主

4、體,而不是以語言符號為主體,突出了人在人機交流中的主導(dǎo)作用。SLIM理論要求通過完全顯化的機械步驟,使用邏輯和電子的方式來解釋自然語言理解和自然語言生成的過程。因此,SLIM理論與現(xiàn)代語言學(xué)中的結(jié)構(gòu)主義、行為主義、言語行為等理論是不同的,具有明顯的創(chuàng)新特色。SLIM理論強調(diào)“表層成分”(Surface),以語表組合性作為它的方法論原則;SLIM理論強調(diào)“線性”(Linear),以時間線性作為它的實證原則;SLIM理論強調(diào)語言的“內(nèi)部因素”(Internal),以語言的內(nèi)部因素作為它的本體論原則;SLIM理論強調(diào)“匹配”(Matching),以語言和語境信息之間的匹配作為它的功能原則。事實上,S

5、LIM這個名字本身就來自于這四項原則的英文名稱的首字母縮寫。SLIM理論的技術(shù)實現(xiàn)手段叫作“數(shù)據(jù)庫語義學(xué)”(DBS)。DBS是把自然語言的理解和生成重新建構(gòu)為“角色轉(zhuǎn)換”(turn-taking)的規(guī)則體系?!敖巧D(zhuǎn)換”指的是從“說話人模式”(speakermode)向“聽話人模式”(hearermode)的轉(zhuǎn)換,或者從“聽話人模式”向“說話人模式”的轉(zhuǎn)換。在自然語言的實際交流過程中,第1個過程是聽話人模式中的自然主體從另一個主體或者語境那里獲得信息,第2個過程是自然主體在自己的認知當中分析信息,第3個過程是自然主體思考如何作出反應(yīng),第4個過程是自然主體用語言或者行動做出反饋。DBS的輸入與第

6、1個過程相似,要求計算機或者機器人具備外部界面。接下來匹配語境和認知的內(nèi)容,采用左結(jié)合語法(LA)來模擬第2個過程,這個左結(jié)合語法是處于聽話人模式中的,叫作LA-hear。左結(jié)合語法的第二個變體負責在內(nèi)存詞庫中搜索合適的內(nèi)容,叫作LA-think,這一部分操作對應(yīng)于第3個過程。左結(jié)合語法的第三個變體的任務(wù)是語言生成,叫作LA-speak,模擬第4個過程。如下圖所示:在這個圖中,聽話人模式的LA-hear模擬第2個過程,說話人模式的LA-think模擬第3個過程,LA-speak模擬第4個過程。DBS的分析結(jié)果用DBS圖(DBSgraph)來表示。DBS圖是一種樹結(jié)構(gòu),但是,DBS圖的樹結(jié)構(gòu)與短

7、語結(jié)構(gòu)語法(phrasestructuregrammar)和依存語法(dependencygrammar)的樹結(jié)構(gòu)有所不同。數(shù)據(jù)庫語義學(xué)(DBS)有兩個基礎(chǔ):一個是左結(jié)合語法(LA-grammar),一個是單詞數(shù)據(jù)庫(wordbank)。左結(jié)合語法和單詞數(shù)據(jù)庫在DBS中緊密結(jié)合在一起。豪塞爾把左結(jié)合語法比作火車頭,把單詞數(shù)據(jù)庫比作火車運行必需的鐵路系統(tǒng)單詞數(shù)據(jù)庫存儲單詞的內(nèi)容,其存儲形式是一種非遞歸的特征結(jié)構(gòu),叫作“命題因子”(proplets。英文“proplet”取自“propositiodroplet”表示命題的構(gòu)成部分。一個命題因子是“屬性值偶對”的集合。每個單詞或者句子元素的句法語義

8、信息都體現(xiàn)為相應(yīng)的屬性值矩陣(attribute-valuematrix)。左結(jié)合語法是按照自然語言的時間線性順序自左向右結(jié)合進行分析與計算的方法。具體來講,每個句子的第一個詞為整句分析過程中的第一個“句子起始部分”(senteneestart),之后輸入“下一個詞”(nextword),二者經(jīng)過計算構(gòu)成新的句子起始部分,再繼續(xù)與下一個輸入的單詞進行組合計算。這樣不斷地進行分析,直到句子結(jié)束或者出現(xiàn)語法錯誤才終止。當出現(xiàn)句法歧義或者詞匯歧義時,左結(jié)合語法允許按照不同的推導(dǎo)路徑并行地繼續(xù)運算。豪塞爾將左結(jié)合語法與短語結(jié)構(gòu)語法進行了對比分析。他指出,左結(jié)合語法與短語結(jié)構(gòu)語法是同質(zhì)的語言分析方法。它

9、們之間的差異在于:短語結(jié)構(gòu)語法依據(jù)的是“替換原則”(theprincipleofsubstitution),而左結(jié)合語法依據(jù)的則是“可接續(xù)性原貝U”(theprincipleofcontinuation)整個推導(dǎo)過程遵循“時間線性”(timelinearity)的原則。所謂“時間線性”,就是“以時間為序,與時間同向”(linearliketimeandinthedirectionoftime),也就是說,在推導(dǎo)時,要按照時間先后的順序進行,要沿著時間的方向推進。上面簡要地介紹了豪塞爾的主要理論和研究方法,希望這些介紹能夠幫助讀者更好地理解這本自然語言交流的計算機模型。本書共分三個部分。第一部分

10、介紹了SLIM語言理論的基本框架,包括認知主體的外部界面、數(shù)據(jù)結(jié)構(gòu)和算法。這一部分涉及很多對整個系統(tǒng)至關(guān)重要的問題,比如概念的本質(zhì)、概念在識別和行動中的作用、不同符號的指代機制、語境層的形式結(jié)構(gòu),等等。第二部分系統(tǒng)分析了自然語言的主要結(jié)構(gòu),以英語在聽話人和說話人模式下的示意推導(dǎo)為例。聽話人模式下的分析主要介紹如何嚴格按照時間線性順序?qū)⒑~論元結(jié)構(gòu)(hypotaxis)和并列結(jié)構(gòu)(parataxis)編碼為命題因子,并把共指(coreferenee)作為推理基礎(chǔ)上的二級關(guān)系來分析。說話者模式下的分析主要介紹如何在詞庫內(nèi)進行以提取內(nèi)容為基礎(chǔ)的自動導(dǎo)航,如何按照相應(yīng)語言的語法要求輸出正確的詞形、語序

11、,如何析出適當?shù)墓δ茉~,等等。第三部分介紹英語斷片,作者構(gòu)建了一個功能完整但覆蓋面有限的英語小樣本的交流體系。這部分詳細介紹了如何理解和生成小樣本的文本,對詞匯、LA-hear、LA-think和LA-speak進行了明確定義。本書為計算語言學(xué)的相關(guān)研究人員、學(xué)生和軟件工程師等提供了一個對自然語言交流進行理論分析的功能框架,這個框架適用于任何自然語言的自動處理。本書譯者馮秋香是大連理工大學(xué)外國語言學(xué)及應(yīng)用語言學(xué)碩士,計算機科學(xué)與技術(shù)方向在讀博士,具備良好的語言學(xué)和計算機科學(xué)的跨學(xué)科背景,又有很扎實的英語功底。她從2009年10月開始,到德國愛爾蘭根一一紐倫堡大學(xué)學(xué)習,師從豪塞爾教授研究“左結(jié)合

12、語法”,她熟悉豪塞爾教授的計算語言學(xué)理論,對“數(shù)據(jù)庫語義學(xué)”和“語表組合線性內(nèi)部匹配”理論有深入的了解。我覺得,馮秋香是本書最適合的中文譯者,這個中文譯本忠實于原文,譯文準確精當,通順流暢,可讀性強商務(wù)印書館蔡長虹是本書的責任編輯,她請我審校此書。我根據(jù)她的要求,對照本書的英文原著AComputationalModelofNaturalLanguageCommunicationInterpretation,InferenceandProductioninDatabaseSemantics,仔細地審校了馮秋香的中文譯本,逐字逐句地通讀了全部譯稿,完成了本書的審校工作。在這里我愿參考國外有關(guān)的材料,進一步介紹一些與本書有關(guān)的背景知識,對這本重要的計算語言學(xué)著作做簡要的評介,希望這個評介對讀者理解本書有所幫助。我相信,本書中譯本的出版,一定會增進我國語言學(xué)界對于當前國外計算語言學(xué)獨創(chuàng)性理論的了解,從而推進我國計算語言學(xué)研究的發(fā)展。注

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論