![計算語言學的起源與發(fā)展_第1頁](http://file4.renrendoc.com/view/d1d19afa3441a7af6ff43d9357ab1507/d1d19afa3441a7af6ff43d9357ab15071.gif)
![計算語言學的起源與發(fā)展_第2頁](http://file4.renrendoc.com/view/d1d19afa3441a7af6ff43d9357ab1507/d1d19afa3441a7af6ff43d9357ab15072.gif)
![計算語言學的起源與發(fā)展_第3頁](http://file4.renrendoc.com/view/d1d19afa3441a7af6ff43d9357ab1507/d1d19afa3441a7af6ff43d9357ab15073.gif)
![計算語言學的起源與發(fā)展_第4頁](http://file4.renrendoc.com/view/d1d19afa3441a7af6ff43d9357ab1507/d1d19afa3441a7af6ff43d9357ab15074.gif)
![計算語言學的起源與發(fā)展_第5頁](http://file4.renrendoc.com/view/d1d19afa3441a7af6ff43d9357ab1507/d1d19afa3441a7af6ff43d9357ab15075.gif)
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
計算語言學的起源與發(fā)展
一、計算語言學的萌芽世界上首次計算機的生產以來,計算機的功能已經大大超過了最初的計算值的范圍,并進入了廣泛的非數值領域,如語言處理領域。而在計算機出現之前,對語言的研究大都是由語言學家來完成的。利用計算機這一現代計算工具來研究語言,仿佛給計算機賦予了更多的智能化色彩,而“計算語言學”(ComputationalLinguistics,CL)這一語言學和計算機科學的交叉學科此時則應運而生。當然,在計算語言學的研究過程中,還涉及到數學、認知科學、邏輯學、心理學等許多其他學科。實際上,“計算語言學”這一術語是伴隨著“機器翻譯”這一應用而出現的。傳說中,上帝為阻止人類建造通天塔的壯舉,故意讓不同種族的人講不同的語言,使人類不能自由交流,無法齊心協(xié)力。為了跨越語言的障礙,遠在古希臘時代,就有人提出要用機器來代替人進行不同語言之間的翻譯。1933年,前蘇聯(lián)發(fā)明家特羅揚斯基設計了一種用于翻譯的機器,但是并沒有成功。事實上,真正的機器翻譯研究是在計算機發(fā)明之后開始的,1954年,美國Georgetown大學與IBM公司合作開發(fā)了世界上第一個機器翻譯的原型系統(tǒng),當時的目的主要是將其用于美俄之間軍事情報的翻譯工作,該系統(tǒng)首次通過機器將俄語翻譯為英文并取得了初步的成功。這項工作使學者們備受鼓舞,也吸引了政府大量資金的注入,計算語言學的研究也開始了其萌芽時期。初期的機器翻譯系統(tǒng)大都是以詞典驅動,直接采用詞對詞的模式匹配的翻譯方式,由于不同的語言之間詞法、句法都存在很大差異,顯然,這樣的翻譯結果不會令人滿意。1966年,ALPAC報告中指出,機器翻譯的研究在當時的條件下并不具備很好的前景,不宜給予大力支持。另外,后來有學者認為,雖然“計算語言學”一詞之前早已出現,但作為術語第一次正式提出是從這份報告開始的。之后,隨著許多機器翻譯項目的下馬,計算語言學的研究在60年代中后期也步入低潮。后來人們逐漸認識到,若想取得好的機器翻譯效果,必須對自然語言有一定的理解,需要對自然語言的句法、語義等進行深入的研究。20世紀70年代后,人們開始思考自然語言的知識表示和處理的理論和方法,計算語言學開始研究面向受限域的自然語言的深度理解。70年代和80年代可以說是計算語言學的發(fā)展期,這期間誕生了許多具有語義、語境甚至語用分析功能的理解系統(tǒng),如用自然語言進行情報檢索的LUNAR系統(tǒng),用自然語言來指揮機器人動作的SHRDLU系統(tǒng),利用概念依存理論進行推理的對話系統(tǒng)MARGIE,以及可以理解小故事的SAM系統(tǒng)和PAM系統(tǒng)等等。一些著名的句法分析算法,如基于上下文無關文法的GLR算法,以及語義知識系統(tǒng)如格語法、義素分析法等也被應用于句法及語義的自動分析上。20世紀90年代,隨著互聯(lián)網的發(fā)展,計算語言學進入了大規(guī)模真實文本處理時期,語料庫語言學盛行,經驗主義方法復蘇。不同于以喬姆斯基為代表的理性主義觀點所認為的語言知識是與生俱來的觀點,經驗主義者認為可以通過一個適當的語言模型來學習復雜而廣泛的語言結構,而語言模型則可以通過基于語料庫的統(tǒng)計學習方法來得到。實際上,無論是規(guī)則的方法還是統(tǒng)計的方法,都是希望獲得更多的語言知識使其得以應用,只不過一個是通過內省的方式獲取知識,一個是從大規(guī)模語料中統(tǒng)計獲得,如果將二者有效地結合,必將對計算語言學的發(fā)展起到巨大的推進作用。鑒于計算語言學學科的重要性,美國1962年在普林斯頓成立了計算語言學學會,該學會每年開一次ACL年會(AnnualMeetingofAssociationforComputationalLinguistics)并出版相應的學術季刊《美國計算語言學雜志》,1984年后改名為《計算語言學》。1965年,“國際計算語言學委員會”在紐約成立,每兩年召開一次國際計算語言學大會(InternationalConferenceonComputationalLinguistics),即COLING會議。隨著計算語言學的發(fā)展,相關的有影響的國際會議也越來越多,如EMNLP(EmpiricalMethodsinNaturalLanguageProcessing)、HLT(HumanLanguageTechnologyConference)、IJCNLP(InternationalJointConferenceonNaturalLanguageProcessing)、NAACL(TheNorthAmericanChapteroftheAssociationforComputationalLinguistics)、EACL(EuropeanChapterofACL)、ANLP(AppliedNaturalLanguageProcessing)等等。中國中文信息學會于1987年6月組建了計算語言學專業(yè)委員會。1991年6月計算語言學研究會在北京市語言學會下成立。1988年6月在清華大學召開首屆全國計算語言學學術會議,從第二屆開始更名為全國計算語言學聯(lián)合學術會議,每兩年召開一次。中文計算語言學雖然起步較晚,但發(fā)展得卻很迅速,目前,中文在字、詞、句甚至篇章等處理層面上已經取得了許多豐碩的成果。二、計算語言及其近義術語的定義1.具有歷史局限性的其他計算單元實際上在學術界對“計算語言學”一直沒有一個統(tǒng)一的定義,在《大不列顛百科全書》中給出了這樣定義:“計算語言學是利用電子數字計算機進行的語言分析。計算分析最常用于處理一些基本的語言數據———例如建立語音、詞、詞元素的搭配以及統(tǒng)計它們的頻率?!憋@然,這個定義中的后一句在介紹計算語言學的處理單元及其計算內容上有一定的歷史局限性,因為目前計算語言學的研究已經遠遠超出了搭配和頻率統(tǒng)計的范圍。實際上,站在不同的立場,對計算語言學可以從不同層面來理解,例如從工程主義出發(fā),更多的是將計算語言學理解為建立一種可運轉的計算機系統(tǒng),這個系統(tǒng)可以理解和生成自然語言;從工具主義觀點看,則強調是用計算機來分析語言;站在認知主義的立場來看,計算語言學更關心如何用計算機來模擬人類學習語言、理解語言的心理過程;而實證主義則是從另一個角度即利用計算機來對語言學家所提出的各種理論進行檢驗。這里,我們給出一個目前被許多經典教材所采用的一個計算語言學的定義:“計算語言學指的是這樣一門學科,它通過建立形式化的數學模型,來分析、處理自然語言,并在計算機上用程序來實現分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言能力的目的?!睆倪@個定義中可看出,計算語言學是“計算”和“語言”的統(tǒng)一,是從計算的角度來研究語言,同時,將語言作為計算的對象來研究相應的算法。2.環(huán)境分析及句法結構分析從前面的定義可以看出,“計算語言學”主要由兩部分組成,如果偏重于“計算”的話,則主要是指利用計算機對自然語言進行各種加工和處理,因此有人將其稱之為“自然語言處理”(NaturalLanguageProcessing,NLP)。美國計算機科學家BillManaris曾經給“自然語言處理”提出了如下的定義:“自然語言處理可以定義為研究在人與人交際中以及在人與計算機交際中的語言問題的一門學科。自然語言處理要研制表示語言能力和語言應用的模型,建立計算框架來實現這樣的語言模型,提出相應的方法來不斷地完善這樣的語言模型,根據這樣的語言模型設計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測技術?!边@個概念給出了計算機對自然語言所要研究和處理的內容,即不僅包括語言能力模型還要包括語言應用模型。在處理自然語言時,可以對語言的各級單位,如字、詞、句、篇章來進行分析、加工和轉換。如詞處理主要包括分詞、詞性標注、詞義消歧等內容;在句子層面目前的研究難點主要是句法結構分析、句義的理解如句子內部詞匯和詞匯之間的語義關系等等;篇章處理方面,需要考慮句子與句子之間的關系,包括句中成分的互指,代詞成分回指,句子之間的銜接等等。而從對語言的不同處理層面上講,也可以將處理分為從詞法、句法、語義和語用的層面進行。3.機器的“理解”從計算語言學研究的終極目標來講,是希望研制出真正能夠像人一樣理解自然語言的計算機系統(tǒng),可以用來模擬人的語言交際過程,包括理解語言、生成語言等等,從這個角度上來講,計算語言學也常常被稱為自然語言理解(NaturalLanguageUnderstanding,NLU)。當然,不同的學科對“理解”有不同的認識,美國認知學家G.M.Ulson提出了四個表示“理解”的標志,(1)問答能力:機器能正確地回答輸入文本中的有關問題;(2)文摘能力:機器能夠自動對輸入的語料生成文摘;(3)復述能力:機器能用不同的詞語和句型來復述其輸入的文本;(4)機器翻譯:機器具有把一種語言(源語)翻譯成為另一種語言(目標語)的能力。可以想象,如果計算機真的能夠達到這樣“理解”的水平,也就意味著計算機已經真正成為了“智能機器”。Turing就曾經提出,“檢驗計算機智能高低的最好辦法是讓計算機來講英語和理解英語”。由于20世紀80年代對“自然語言理解”的探索遇到了困難,進入90年代以來,人們變得更加實際,越來越多地使用“自然語言處理”這樣比較低調的字眼,而比較少使用“自然語言理解”這樣比較張揚的術語,以免別人質疑:“你們做的系統(tǒng)真能夠理解語言嗎?”4.語言學的定義無論如何定義計算語言學,我們知道其處理對象都是圍繞著“人類語言”在進行,不是動物語言,也不是人工定義的語言,而是人類的自然語言。由于“自然語言”這個提法是相對于人工定義的程序設計語言而言的,其背后的含義不易被其他領域的學者體察,造成“自然語言”這個概念有些模糊,為了明確起見,也有人采用“人類語言技術”(HumanLanguageTechnology)這個術語。這個定義一方面將該領域同傳統(tǒng)的例如研究人類語言的語文學研究相區(qū)別,更強調其技術色彩;另一方面,該定義所囊括的范圍也更廣泛,無論是自然語言處理,自然語言理解,還是機器翻譯,信息檢索甚至語音技術等所有這些和人類語言相關的語言處理問題都可以納入其中。另外,從這個概念還可以感覺到,其相對于“計算語言學”的概念而言,更強調技術層面,而“計算語言學”則更強調理論。和“語言技術”最接近的概念,還有“語言工程(LanguageEngineering)”。5.語言信息處理的概念“語言信息處理”這樣的定義也會被人們經常使用,有時人們對“語言處理”和“語言信息處理”不加區(qū)分,但筆者認為“語言信息處理”的處理對象是以語言為載體的信息,而“語言處理”的對象是作為信息載體的語言本身,二者的注意力不同。比如:語義角色標注是典型的語言處理,而信息抽取、文本檢索是典型的語言信息處理,語言信息處理這個概念也能夠涵蓋文字識別、語音處理等研究課題,范圍更廣。在中國,人們更習慣使用“中文信息處理”(ChineseInformationProcessing,CIP)指稱相關的研究,但有必要加以更明確的界定和說明?!爸形摹笨梢詮V義地理解為中國各民族語言文字的統(tǒng)稱,不過多數情況下還是狹義地特指漢語言文字?!爸形男畔⑻幚怼笨梢詣澐譃椤皾h字信息處理”與“漢語信息處理”兩個不同的又有緊密聯(lián)系的層次。目前漢字信息處理的問題雖然也沒有徹底解決,但研究的重點已經放在漢語信息處理上了。由于語言研究離不開語言間的比較與互譯,特別在當代,互聯(lián)網迅速擴張,多語言信息處理成為其重要的技術特征之一,所以現在使用的“中文信息處理”或“漢語信息處理”通常也指以漢語為核心的多語言信息處理技術。6.統(tǒng)計語言學研究計算語言學除了上述幾個應用得較為廣泛的概念之外,還有一些其他的相關定義,比如“計量語言學”(QuantitativeLinguistics),“數理語言學”(MathematicalLinguistics)等等。計量語言學主要側重于利用計算機作為工具,對一些語言符號的頻度進行統(tǒng)計,例如,對詞匯頻率的統(tǒng)計,對一些方言的統(tǒng)計等等,通過統(tǒng)計來發(fā)現語言中隱含的一些數量規(guī)律。這類研究和我們所說的計算語言學的研究范疇存在很大的不同,但廣義上講,計量語言學也屬于計算語言學的范疇,計量語言學的研究對計算機模擬人類的自然語言研究可以提供很好的支持作用。數理語言學則更加強調通過數學思想和方法來研究語言,刻畫語言,更偏重于對語言進行形式化的研究,從而形成對語言表達更加嚴密的理論體系。數理語言學包括:代數語言學、統(tǒng)計語言學和應用數理語言學。代數語言學是采用集合論、數理邏輯、模糊數學、圖論等離散的、代數的方法來研究語言;統(tǒng)計語言學則是采用概率論、數理統(tǒng)計和信息論等統(tǒng)計數學的方法來研究交際過程中語言成分使用的頻率和概率,研究其統(tǒng)計規(guī)律;而應用數理語言學是指把代數語言學和統(tǒng)計語言學應用于機器翻譯、人機對話以及情報檢索的技巧和方法的研究。三、計算語言學研究是對基本概念的調整正是因為計算語言學的研究范圍廣泛,研究者的側重點各有不同,才出現了眾多紛繁不一的定義。如果從學科的角度來看,計算語言學的位置處在三級學科,其上面的二級學科和一級學科分別為應用語言學和語言學,更偏屬于人文科學,強調理論研究;自然語言處理也是處在三級學科的位置,它所屬的二級和一級學科分別是人工智能和計算機科學與技術,屬于自然科學,相比于計算語言學更偏重應用研究。無論是理論研究還是應用研究,最終的研究目標都是希望達到自然語言理解,而
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版投資擔保合同風險控制條款3篇
- 如何記憶更多的知識點
- 二零二五年度鋰離子蓄電池銷售合同范本3篇
- 二零二五年度個人間家庭農場貸款合同3篇
- 零擔貨物運輸合同三篇
- 教師行業(yè)安全生產工作總結
- 二零二五年度影視制作公司演員個人聘用合同2篇
- 二零二五個人住宅租賃合同(含租賃保證金退還條件)2篇
- 二零二五年度個人擔保合同書范本:珠寶首飾抵押擔保
- 二零二五年度綠色快遞柜場地租賃與快遞代收協(xié)議書3篇
- 國際貿易地理 全套課件
- GB/T 20878-2024不銹鋼牌號及化學成分
- 某房屋建筑工程監(jiān)理大綱
- 英語考綱詞匯表3500詞
- 主題一:人文之美 第7課《天下第一大佛-樂山大佛》 課件
- 印度與阿拉伯的數學
- 會陰切開傷口裂開的護理查房
- 《鋼鐵是怎樣煉成的》選擇題100題(含答案)
- 2024年國新國際投資有限公司招聘筆試參考題庫含答案解析
- 食堂餐廳服務方案投標方案(技術標)
- Creo-7.0基礎教程-配套課件
評論
0/150
提交評論