人工智能導(dǎo)論課件第11章第3節(jié)_第1頁
人工智能導(dǎo)論課件第11章第3節(jié)_第2頁
人工智能導(dǎo)論課件第11章第3節(jié)_第3頁
人工智能導(dǎo)論課件第11章第3節(jié)_第4頁
人工智能導(dǎo)論課件第11章第3節(jié)_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1基礎(chǔ)期2符號與隨機方法3四種范式4經(jīng)驗主義和有限狀態(tài)模型第3節(jié)5大融合6機器學(xué)習(xí)的興起1基礎(chǔ)期2符號與隨機方法3四種范式4經(jīng)驗主義和有限狀態(tài)模型第11.3 自然語言處理的歷史最早的自然語言理解方面的研究工作是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設(shè)計方案,此后,自然語言處理歷史大致分為6個時期。表11-1 NLP的6個時期11.3 自然語言處理的歷史最早的自然語言理解方面的研究工11.3.1 基礎(chǔ)期(20世紀40年代和50年代)自然語言處理的歷史可追溯到以圖靈的計算算法模型為基礎(chǔ)的計算機科學(xué)發(fā)展之初。在奠定了初步基礎(chǔ)后,該領(lǐng)域出現(xiàn)了許多子領(lǐng)域,每個子領(lǐng)域都為計算機進一步的研究提供

2、了沃土。圖靈的工作導(dǎo)致了其他計算模型的產(chǎn)生,如McCulloch-Pitts神經(jīng)元,它是對人類神經(jīng)元進行建模,具有多個輸入,并且只有組合輸入超過閾值時才產(chǎn)生輸出。之后是史蒂芬科爾克萊尼在有限自動機和正則表達式方面的工作,它們在計算語言學(xué)和理論計算機科學(xué)中發(fā)揮了重要作用。11.3.1 基礎(chǔ)期(20世紀40年代和50年代)自然語言11.3.1 基礎(chǔ)期(20世紀40年代和50年代)香農(nóng)在有限自動機中引入了概率,使得這些模型在語言模糊表示方面變得更加強大。這些具有概率的有限自動機基于數(shù)學(xué)中的馬爾可夫模型,它們在自然語言處理的下一個重大發(fā)展中起著至關(guān)重要的作用。采納了Shannon的觀點,諾姆喬姆斯基對

3、形式語法的工作產(chǎn)生主要影響,建立了計算語言學(xué)。Chomsky使用有限自動機描述形式語法,他按照生成語言的語法定義了語言?;谛问秸Z言理論,語言可以被視為一組字符串,并且每個字符串可以被視為由有限自動機產(chǎn)生的符號序列。11.3.1 基礎(chǔ)期(20世紀40年代和50年代)香農(nóng)在有11.3.1 基礎(chǔ)期(20世紀40年代和50年代)在構(gòu)建這個領(lǐng)域的過程中,Shannon與Chomsky對自然語言處理的早期工作產(chǎn)生了另一個重大的影響。特別是Shannon的噪聲通道模型,對語言處理中概率算法的發(fā)展至關(guān)重要。在噪聲通道模型中,假設(shè)輸入由于噪聲變得模糊不清,則必須從噪聲輸入中恢復(fù)原始詞。在概念上,Shannon

4、對待輸入就好像輸入已經(jīng)通過了一個嘈雜的通信通道。基于該模型,Shannon使用概率方法找出輸入和可能詞之間的最佳匹配。11.3.1 基礎(chǔ)期(20世紀40年代和50年代)在構(gòu)建這11.3.2 符號與隨機方法(19571970)從早期思想中,自然語言處理顯然可以從兩個不同的角度考慮,即符號和隨機。Chomsky的形式語言理論體現(xiàn)了符號的方法?;谶@種觀點,語言包含了一系列的符號,這些符號序列必須遵循其生成語法的句法規(guī)則。這種觀點將語言結(jié)構(gòu)簡化為一組明確規(guī)定的規(guī)則,允許將每個句子和單詞分解成結(jié)構(gòu)組分。人們發(fā)展了解析算法,將輸入分解成更小的意義單元和結(jié)構(gòu)單元,帶來了幾種不同的策略,如自上而下的解析和自

5、下而上的解析。澤里格哈里斯發(fā)展了轉(zhuǎn)換和話語分析項目,后來的解析算法工作使用動態(tài)規(guī)劃的概念,將中間結(jié)果存儲在表中,構(gòu)建最佳可能的解析。11.3.2 符號與隨機方法(19571970)從早期思11.3.2 符號與隨機方法(19571970)因此,符號方法強調(diào)了語言結(jié)構(gòu)以及對輸入的解析,使輸入的語句轉(zhuǎn)換成結(jié)構(gòu)單元。另一個主要方法是隨機方法,這種方法更關(guān)注使用概率來表示語言中的模糊性。來自數(shù)學(xué)領(lǐng)域的貝葉斯方法用于表示條件概率。這種方法的早期應(yīng)用包括光學(xué)字符識別以及布菜索和布朗尼建立的早期文本識別系統(tǒng)。給定一個字典,通過將字母序列中所包含的每個字母的似然值進行相乘,我們可以計算得到字母序列的似然值。11

6、.3.2 符號與隨機方法(19571970)因此,符11.3.3 4種范式(19701983)這一時期由4種范式主導(dǎo):(1)隨機方法。在語音識別和解碼方面,隨機方法被應(yīng)用到了噪聲通道模型的早期工作,馬爾可夫模型被修改成為隱馬爾可夫模型(HMM),進一步表示模糊性和不確定性。在語音識別的發(fā)展中,AT&T的貝爾實驗室、IBM的托馬斯 J. 華盛頓研究中心和普林斯頓大學(xué)的國防分析研究所都發(fā)揮了關(guān)鍵作用。這一時期,隨機方法開始占據(jù)主導(dǎo)地位。11.3.3 4種范式(19701983)這一時期由4種11.3.3 4種范式(19701983)(2)符號方法做出了重要貢獻,自然語言處理是繼經(jīng)典符號方法后的另一

7、個發(fā)展方向。這個研究領(lǐng)域可以追溯到甚至是1956年的“人工智能”達特茅斯大會。在所建立的系統(tǒng)中,AI研究人員開始強調(diào)所使用的基本推理和邏輯,例如紐厄爾和西蒙的邏輯理論家系統(tǒng)和一般求解器系統(tǒng)。為了使這些系統(tǒng)“合理化”它們的方式,給出解決方案,系統(tǒng)必須通過語言來“理解”問題。因此,在這些AI系統(tǒng)中,自然語言處理成為一個應(yīng)用,這樣就可以允許這些系統(tǒng)通過識別輸入問題中的文本模式回答問題。11.3.3 4種范式(19701983)(2)符號方法11.3.3 4種范式(19701983)(3)基于邏輯的系統(tǒng)。使用形式邏輯來表示語言處理中所涉及的計算。主要的貢獻包括Colmerauer及其同事在變形語法方面

8、的工作,佩雷拉和沃倫在確定子句語法方面的工作,凱(Kay)在功能語法方面的工作,以及布魯斯南和卡普蘭在詞匯功能語法方面的工作。11.3.3 4種范式(19701983)(3)基于邏輯11.3.3 4種范式(19701983)20世紀70年代,隨著威諾格拉德的SHRDLU系統(tǒng)的誕生,自然語言處理迎來了它最具有生產(chǎn)力的時期。SHRDLU系統(tǒng)是一個仿真系統(tǒng),在該系統(tǒng)中,機器人將積木塊移動到不同的位置。機器人響應(yīng)來自用戶的命令,將適合的積木塊移動到彼此的頂部。例如,如果用戶要求機器人將藍色塊移動到較大的紅色塊頂上,那么機器人將成功地理解并遵循該命令。這個系統(tǒng)將自然語言處理推至一個新的復(fù)雜程度,指向更高

9、級的解析使用方式。解析不是簡單地關(guān)注語法,而是在意義和話語的層面上使用,這樣才能允許系統(tǒng)更成功地解釋命令。11.3.3 4種范式(19701983)20世紀70年11.3.3 4種范式(19701983)同樣,耶魯大學(xué)的Roger Schank及其同事在系統(tǒng)中建立了更多有關(guān)意義的概念知識。Schank使用諸如腳本和框架這樣的模型來組織系統(tǒng)可用的信息。例如,如果系統(tǒng)應(yīng)該回答有關(guān)餐廳訂單的問題,那么應(yīng)該將與餐館相關(guān)聯(lián)的一般信息提供給系統(tǒng)。腳本可以捕獲與己知場景相關(guān)聯(lián)的典型細節(jié)信息,系統(tǒng)將使用這些關(guān)聯(lián)回答關(guān)于這些場景的問題。其他系統(tǒng),如LUNAR(用于回答關(guān)于月亮巖石的問題),將自然語言理解與基于邏

10、輯的方法相結(jié)合,使用謂詞邏輯作為語義表達式。因此,這些系統(tǒng)結(jié)合了更多的語義知識,擴展了符號方法的能力,使其從語法規(guī)則擴展到語義理解。11.3.3 4種范式(19701983)同樣,耶魯大學(xué)11.3.3 4種范式(19701983)(4)在格羅茲的工作中,最有特色的是話語建模范式,她和同事引入并集中研究話語和話語焦點的子結(jié)構(gòu)上,而西德納引入了首語重復(fù)法?;舨妓沟妊芯空咭苍谶@一領(lǐng)域做出了貢獻。11.3.3 4種范式(19701983)(4)在格羅茲11.3.4 經(jīng)驗主義和有限狀態(tài)模型(19831993)20世紀80年代和90年代初,隨著早期想法的再次流行,有限狀態(tài)模型等符號方法得以繼續(xù)發(fā)展。Kap

11、lan和Kay在有限狀態(tài)語音學(xué)和詞法學(xué)方面的研究以及丘奇在有限狀態(tài)語法模型方面的研究,帶來了它們的復(fù)興。在這一時期,人們將第二個趨勢稱為“經(jīng)驗主義的回歸”。這種方法受到IBM的Thomas J. Watson研究中心工作的高度影響,這個研究中心在語音和語言處理中采用概率模型。與數(shù)據(jù)驅(qū)動方法相結(jié)合的概率模型,將研究的重點轉(zhuǎn)移到了對詞性標注、解析、附加模糊度和語義學(xué)的研究。經(jīng)驗方法也帶來了模型評估的新焦點,為評估開發(fā)了量化指標。其重點是與先前所發(fā)表的研究進行性能方面的比較。11.3.4 經(jīng)驗主義和有限狀態(tài)模型(19831993)11.3.5 大融合(19941999)這一時期的變化表明,概率和數(shù)據(jù)

12、驅(qū)動的方法在語音研究的各個方面(包括解析、詞性標注、參考解析和話語處理的算法)成了NLP研究的標準。它融合了概率,并采用從語音識別和信息檢索中借鑒來的評估方法。這一切都似乎與計算機速度和內(nèi)存的快速增長相契合,計算機速度和內(nèi)存的增長讓人們可以在商業(yè)中利用各種語音和語言處理子領(lǐng)域的發(fā)展,特別是包括帶有拼寫和語法校正的語音識別子區(qū)域。同樣重要的是,Web的興起強調(diào)了基于語言的檢索和基于語言的信息提取的可能性和需求。11.3.5 大融合(19941999)這一時期的變化表11.3.6 機器學(xué)習(xí)的興起(20002008)進入20世紀,標志著一個重要的發(fā)展:語言數(shù)據(jù)聯(lián)盟(LDC)之類的組織提供了大量可用的

13、書面和口頭材料。如Penn Treebank這樣的集合注釋了具有句法和語義信息的書面材料。在開發(fā)新的語言處理系統(tǒng)時,這種資源的價值立刻得以顯現(xiàn)。通過比較系統(tǒng)化的解析和注釋,新系統(tǒng)可以得到訓(xùn)練。監(jiān)督機器學(xué)習(xí)成為解決諸如解析和語義分析等傳統(tǒng)問題的主要部分。11.3.6 機器學(xué)習(xí)的興起(20002008)進入2011.3.6 機器學(xué)習(xí)的興起(20002008)隨著計算機的速度和內(nèi)存的不斷增加,可用的高性能計算系統(tǒng)加速了這一發(fā)展。隨著大量用戶可用更多的計算能力,語音和語言處理技術(shù)可以應(yīng)用于商業(yè)領(lǐng)域。特別是在各種環(huán)境中,具有拼寫/語法校正工具的語音識別變得更加常用。由于信息檢索和信息提取成了Web應(yīng)用的關(guān)鍵部分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論