版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能
ArtificialIntelligence
第八章自然語言處理NaturalLanguageProcessing2023/10/2312023/10/232內容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機器翻譯 8.9自動問答系統(tǒng) 8.10小結概述自然語言處理是用機器處理人類語言的理論和技術。作為語言信息處理技術的一個高層次的重要研究方向,一直是人工智能領域的核心課題。由于自然語言的多義性、上下文有關性、模糊性、非系統(tǒng)性和環(huán)境密切相關性、涉及的知識面廣等原因,自然語言處理是困難問題之一。自然語言處理的研究希望機器能夠執(zhí)行人類所期望的某些語言功能,這些功能包括:
(1)回答問題:計算機能正確地回答用自然語言輸入的有關問題;
(2)文摘生成:機器能產(chǎn)生輸入文本的摘要;
(3)釋義:機器能用不同的詞語和句型來復述輸入的自然語言信息;
(4)翻譯:機器能把一種語言翻譯成另外一種語言。2023/10/233概述自然語言自然語言:人類交流的語言,口語、書面語、手語、旗語等人造語言:機器語言,包括C++,BASIC等 世界語到目前為止的人類知識有80%以上使用自然語言文字記載下來的。但將來,可能用計算機語言形式記載的知識將會越來越多。因此說,語言信息處理技術和每年所處理的信息總量已成為衡量一個國家現(xiàn)代化水平的重要標志之一。相比較人工智能其它領域,自然語言理解是難度大,進展小的。至今為止未能達到很高的水平。
2023/10/234自然語言處理的發(fā)展自然語言理解的研究大體上經(jīng)歷了三個時期萌芽時期發(fā)展時期早期:20世紀60年代以關鍵詞匹配為主流中期:20世紀70年代以句法-語義分析為主流近期:20世紀80年代以來走向實用化和工程化大規(guī)模真實文本處理時期比較成功的系統(tǒng)處理都是受限的自然語言子集句法受限:句子結構的復雜性方面受到限制語義受限/領域受限:所表達的事物的數(shù)量方面受到限制2023/10/23520世紀60年代:以關鍵詞匹配為主流特點:沒有真正意義上的語法分析,主要依靠關鍵詞匹配技術來識別輸入句子的意義在系統(tǒng)中事先存放了大量包含某些關鍵詞的模式,每個模式與一個或多個解釋(響應式)相對應。每當輸入一個句子,系統(tǒng)便查找與之匹配的模式,一旦匹配成功,系統(tǒng)就輸出相應的解釋,不考慮其他成分對句子意義的影響是一種近似匹配技術,輸入句子可以不準循語法,但是也容易導致錯誤自然語言處理的發(fā)展2023/10/23620世紀70年代:句法語義分析為主流采用句法-語義分析技術典型例子LUNAR允許用普通英語和數(shù)據(jù)庫對話的人機接口句法分析語義解釋數(shù)據(jù)檢索ATN語法詞典語義規(guī)則數(shù)據(jù)庫自然語言處理的發(fā)展2023/10/23720世紀80年代以來:實用化和工程化主要特點是開始走向實用化和工程化。其重要標志之一是有一批商品化的自然語言人機接口系統(tǒng)和機器翻譯系統(tǒng)推向了市場。另一方面,人們已經(jīng)開始對大規(guī)模真實文本進行理解句法-語義分析為主的思想來自于規(guī)則的方法,而規(guī)則不可能把所有的知識表示出來自然語言在數(shù)量上浩瀚無際在性質上具有不確定性和模糊性。自然語言處理的發(fā)展2023/10/238概述自然語言的層次劃分及對應技術理論層次結構實現(xiàn)技術模板匹配、基于規(guī)則語音
模式匹配基于詞素、詞匯詞匯詞典結構轉換生成、詞匯功能語法語法
擴展轉移網(wǎng)絡(ATN),CF規(guī)則格語法、語義基元理論、模型理論語義
產(chǎn)生式規(guī)則、概念相依理論、腳本、框架、語義網(wǎng)絡、邏輯基于記憶的推理、語言行為理論、篇章語法語用2023/10/239自然語言處理層次2023/10/23102023/10/2311內容提要8.1概述8.2詞法分析
8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機器翻譯 8.9自動問答系統(tǒng) 8.10小結詞法分析詞法分析是理解單詞的基礎,其主要目的是從句子中切分出單詞,找出詞匯的各個詞素,從中獲得單詞的語言學信息并確定單詞的詞義例如unchangeable是由un-change-able構成的,其詞義由這三個部分構成。2023/10/2312詞法分析語言構成語言詞匯語法詞熟語句法詞素詞法構形法構詞法詞組構造法造句法2023/10/2313詞法分析在英語等語言中,因為單詞之間是以空格自然分開的,切分一個單詞很容易,所以找出句子的一個個詞匯就很方便。但是由于英語單詞有詞性、數(shù)、時態(tài)、派生、變形等變化,要找出各個詞素就復雜的多,需要對詞尾或詞頭進行分析。如importable,它可以是im-port-able或import-able,這是因為im、port、able這三個都是詞素。
漢語中的每個字就是一個詞素,所以要找出各個詞素是相當容易的,但要切分出各個詞就非常困難,不僅需要構詞的知識,還需要解決可能遇到的切分歧義。如“我們研究所有東西”??梢允恰拔覀儭芯克袞|西”,也可以是“我們—研究—所有—東西”。
2023/10/23142023/10/2315內容提要8.1概述8.2詞法分析 8.3句法分析
8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機器翻譯 8.9問答系統(tǒng) 8.10小結句法分析句法分析的主要任務:確定輸入句子的結構:識別句子的各個成分及其之間的關系句子結構的規(guī)范化:目的是簡化后續(xù)處理分析自然語言的方法主要分為兩類:基于規(guī)則的方法:如短語結構語法和Chomsky語法體系基于統(tǒng)計的方法2023/10/2316短語結構語言定義句子:一個符號串語言:句子的集合語法:對一個句集一種有限的形式化描述描述一般語言的方法:識別器:由程序判斷讀入的符號串是不是一個句子短語結構語法:一種基于產(chǎn)生式的形式化工具,也稱為產(chǎn)生式語法2023/10/2317短語結構語言定義:短語結構語法定義為:G=(T,N,S,P)T是終結符集合,即被定義的語言的所有詞匯(或符號)N是非終結符集合,這些符號用于描述語法成分,并不出現(xiàn)于句子中。則有:V=T
N,T
N=
(空集),V是屬于該語法的全部符號。S是起始符號,它是N中的一個成員。P是一個產(chǎn)生式規(guī)則集。a
b (a
b,a
V+,b
V*)2023/10/2318短語結構語言在短語結構語法中,基本運算是把一個符號串重寫為另一個符號串,每條語法規(guī)則也叫重寫規(guī)則一個句子的產(chǎn)生就是從S符號到詞匯串的推導過程如果一個程序能夠根據(jù)一個短語結構語法來確定一個句子的推導,則它可稱為一個句法分析器(parser)。語法G所定義的語言記為L(G):L(G)={W|W
T*,S
*GW}2023/10/2319短語結構語言刻畫語言的形式體系的強和弱遞歸可枚舉語言:如果有一個程序,它能以某種順序逐個地輸出(即枚舉)一種語言的句子,這種語言是遞歸可枚舉的遞歸語言:如果有一個程序,它在讀入一個符號串后能最終確定這個串是或不是某種語言的一個句子,這稱該語言是遞歸2023/10/2320短語結構語言正則語法:正則語法有兩種形式:左線性語法:如A
a|Ba右線性語法:如A
a|aB可以表示如下的句子:a*b*語法例子:S
a|S1
|aSS1
b|bS1與有限狀態(tài)機等價2023/10/2321短語結構語言上下文無關語法:語法規(guī)則形式為:A
x即左邊為一非終結符,右邊沒有限制可以表示的句子如:anbn語法例子:S
a|SbS該文法應用于程序設計語言中2023/10/2322短語結構語言上下文有關語法:語法規(guī)則:規(guī)則右邊的符號數(shù)不能少于左邊符號數(shù)右邊的符號可以是終止符也可以是非終止符上下文有關語言是遞歸的可以表示的語言:anbncn語法例子:AB
BA2023/10/2323短語結構語言無約束短語結構語法:語法規(guī)則是沒有限制的:左邊可以是任意多個終止符或非終止符右邊可以是任意多個終止符或非終止符該語言是遞歸可枚舉的該語言與圖靈機等價語法例子:AB
C2023/10/2324Chomsky體系無約束語法上下文有關語法上下文無關語法正則語法2023/10/2325CFG的分析算法用一個短語結構語法對一個句子進行語法分析,意味著尋找一個從起始符到該句子的推導,這個推導一般可以表示為一棵句法樹一般一棵句法樹對應的推導不是唯一的,但是如果在推導過程中每次總是重寫最左邊的非終止符,則稱該推導為最左推導。<SENTENCE><SUBJECT><VERBPHRASE>
Mary<VERBPHRASE>Mary<VERB><OBJECT>Maryeats<OBJECT>Maryeatscheese2023/10/2326CFG的分析算法<SENTENCE>::=<SUBJECT><VERBPHRASE><SUBJECT>::=John|Marry<VERBPHRASE>::=<VERB><OBJECT><VERB>::=eats|drinks<OBJECT>::=wine|cheeseSENTENCESUBJECTVERBPHRASEVERBOBJECTeatscheeseMary2023/10/2327CFG的分析算法句法分析器分為:從推導方向來分:自頂向下:從樹頂?shù)母Y點開始推導建立句法樹,方向是從起始符S到句子自底向上:從樹底部的葉結點(詞或詞類)規(guī)約,建立句法樹,方向是從句子到S從算法上分:回溯算法:每次只嘗試一種推導,當這種推導失敗時便返回以嘗試另一種推導并行算法:同時進行所有的推導2023/10/2328CFG的分析算法自頂向下的回溯算法該方法逐個地枚舉推導直到找到一個能生成句子的推導一般,對具有左遞歸的語法,該方法需要增加某些測試以避免陷入死循環(huán)對于”Maryeatscheese”的句法和推導為:SNP+VP(1)SNP+VP(1)NPN(2)N+VP(2)VPV(3)N+V+NP(4)VPV+NP(4)N+V+N(2)2023/10/2329轉移網(wǎng)絡轉移網(wǎng)絡在自動機理論中用來表示語法。句法分析中的轉移網(wǎng)絡由結點和帶有標記的弧組成,結點表示狀態(tài),弧對應于符號,基于該符號,可以實現(xiàn)從一個給定的狀態(tài)轉移到另一個狀態(tài)。2023/10/2330Dogbites2023/10/2331轉移網(wǎng)絡擴充轉移網(wǎng)絡ATNATN是20世紀70年代由W.Woods提出來的ATN語法屬于一種增強型的上下文無關語法,即用上下文無關文法描述句子文法結構,并同時提供有效的方式將各種理解語句所需要的知識加到分析系統(tǒng)中,以增強分析功能,從而使得應用ATN的句法分析程序具有分析上下文有關語言的能力。ATN主要是對轉移網(wǎng)絡中的弧附加了過程而得到的。當通過一個弧的時候,附加在該弧上的過程就會被執(zhí)行。這些過程的主要功能是(I)對文法特征進行賦值;(II)檢查數(shù)(number)或人稱(第一、二或三人稱)條件是否滿足,并據(jù)此允許或不允許轉移。2023/10/2332轉移網(wǎng)絡表示句子的框架2023/10/2333轉移網(wǎng)絡表示句子的框架2023/10/2334轉移網(wǎng)絡表示句子的框架2023/10/2335非確定性算法與確定性算法上面介紹的算法是非確定性的,分析過程中常常要進行回溯。這就降低了算法的效率。實際上,在特定的上下文中,除了某些固有的歧義外,自然語言的句法分析絕大多數(shù)都是確定的。1977年MIT的Marcus提出了句法分析的確定性算法。該算法的最大特點是確保在任何情況下,一旦一個輸入句子的部分結構被分析出來,便不再更改,一直保持到最后成為句子最終分析的一部分。2023/10/2336非確定性算法與確定性算法Marcus的確定性算法該句法分析系統(tǒng)具有如下三個特點:(1)由數(shù)據(jù)驅動(2)已分析出來的部分結構可以成為對后繼分析過程的預期(3)通過“向前看”(look-ahead)來代替回溯特點(1)和(2)反映了自底向上和自頂向下分析相結合的策略。特點(3)則是要通過引入句子中的上下文約束來決定分析規(guī)則,保證句法分析器“看準了”以后再操作,從而避免了回溯2023/10/2337非確定性算法與確定性算法漢語的特點漢語的詞類缺乏形式標注漢語詞類跟句法成分之間不存在簡單的一一對應關系.漢語的句子的構造原則跟短語的構造原則基本一致漢語的這兩個特點的表現(xiàn)形式就是普遍存在的詞類兼類現(xiàn)象和句法結構的遞歸嵌套性。這些必然要導致大量的回溯,增加計算的開銷采用確定性分析策略則可以解決這種問題。2023/10/23382023/10/2339內容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機器翻譯 8.9問答系統(tǒng) 8.10小結語義分析語義分析的任務:輸入句子的句法結構和句子中每個實詞的詞義推導出能反映該句子意義的某種形式化表示對語義現(xiàn)象作形式化處理要比句法現(xiàn)象困難得多,主要原因有語義和句法系統(tǒng)的界限很難劃清楚語義及其他認知系統(tǒng)的界限也難以劃清楚。用于計算機語義處理的計算語義學還遠未成熟2023/10/2340格文法格語法是Filmore于1968年提出來的,曾經(jīng)對自然語言理解技術的發(fā)展產(chǎn)生過較大的影響,直到現(xiàn)在不少研究仍在使用格語法。因為人們認識到格關系確實是描述語言語義(包括和語法的關系)的一種很好的形式,當然在實際應用過程中不可避免地要有些修改。2023/10/2341格文法的特點是允許以動詞為中心構造分析結果,盡管文法規(guī)則只描述句法,但分析結果產(chǎn)生的結構卻相應于語義關系,而非嚴格的句法關系如句子:MaryhitBill的格文法分析結果可以表示為(hit(AgentMary)(DativeBill))在格文法中,格表示的語義方面的關系,反映的是句子中包含的思想、觀念等,稱為深層格。和短語結構語法相比,格文法對于句子的深層語義有著更好的描述。格文法2023/10/2342如果兩個句子的底層的語義關系一致,各名詞成分所代表的格關系不會發(fā)生相應的變化。例如,被動句“BillwashitbyMary”與上述主動句具有不同的句法分析樹,但格表示完全相同。格文法2023/10/2343格文法2023/10/23442023/10/2345內容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析
8.6語料庫 8.7信息檢索 8.8機器翻譯 8.9問答系統(tǒng) 8.10小結語用分析與知識、上下文和推理等因素有關。維諾格拉德(WinogradT)認為語言是一個講話者和聽者之間關于一個共同的世界的一種通信手段。語言是一種社會交際工具,研究語言必須研究其社會功能。維諾格拉德認為語義理論必須在三個平面上描述關系,(1)確定詞的意義(2)確定詞組在句法結構中的意義(3)一個自然語言的句子決不應被孤立地解釋。一種語義理論必須描述一個句子的意義如何依賴于它的上下文。語用分析2023/10/2346語義理論必須涉及語言學背景(說話的上下文)和現(xiàn)實社會背景(即同非語言學事實的知識的相互作用),語義理論必須同句法和語言的邏輯方面(演繹推理)相聯(lián)系。正是基于這些觀點,即語法、語義和語用學相互作用的觀點,1970年維諾格拉德成功地研究了被人稱為“絕技”的自然語言對話系統(tǒng)SHRDLU,實現(xiàn)人與計算機之間的靈活對話。這項創(chuàng)舉震動了當時的人工智能界。語用分析2023/10/23472023/10/2348內容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫
8.7信息檢索 8.8機器翻譯 8.9問答系統(tǒng) 8.10小結語料庫語言學語料庫語言學(corpuslinguistics)語言學知識的源泉是大規(guī)?;钌恼Z料,要想讓計算機理解自然語言,首先要讓計算機能從庫存的大規(guī)模語料中自動或半自動地獲取語言理解所需的各種知識,對語言現(xiàn)象作出客觀的、細致的描述。目前采用的主要手段是建立各種統(tǒng)計模型,可用于詞類的自動標注,以及句法語義的更高層次的分析。該方法可以和規(guī)則方法相互補充。2023/10/2349在當今計算技術條件下,要想把處理自然語言所需要的知識都用現(xiàn)有的知識表示技術明確表達出來,是不可能的。這既是由于這種知識的“數(shù)量”巨大,有時由于它們在“質”的方面高度的不確定性和模糊性。最近十幾年來新提出的語料庫語言學,它順應了大規(guī)模真實文本處理的需要,提出了以計算機語料庫為基礎的語言學研究及自然語言處理的新思想。語料庫語言學2023/10/2350基于語料庫的處理思想能夠在工程上、在寬廣的語言覆蓋面上解決大規(guī)模真實文本處理這一極其艱巨的課題,對傳統(tǒng)的處理方法的一個強有了的補充。新型的智能計算機和多媒體計算機均要求設計出更為友好的人機界面,使自然語言、文字、圖像和聲音等信號都能直接輸入計算機。要求計算機能以自然語言與人進行對話交流,就需要計算機具有自然語言能力,尤其是口語理解和生成能力。語料庫語言學2023/10/2351語料庫語言學及其特點傳統(tǒng)的句法-語義分析技術,所采取的主要研究方法是基于規(guī)則的方法由于自然語言理解的復雜性,各種知識的“數(shù)量”浩瀚無際,而且具有高度的不確定性和模糊性,利用規(guī)則不可能完全準確地表達理解自然語言所需的各種知識,而且,規(guī)則實際上面向語言的使用者人的,將它面向機器則分析結果始終不盡如人意。研究語言知識所用的真實文本稱為語料,大量的真實文本即構成語料庫語料庫語言學2023/10/2352WordNetWordNet是按一定結構組織起來的義類詞典,主要特征表現(xiàn)在
1.整個名詞組成一個繼承關系。WordNet有著嚴格的層次關系,這樣一個單詞可以把它所有的前輩的一般性的上位詞的信息都繼承下來,可以提供全局性的語義關系,具有IS-A關系
2.動詞是一個語義網(wǎng)動詞大概是最難以研究的詞匯,在動詞詞典中,很少有真正的同義動詞。表達動詞的意義對任何詞匯語言學來說都是困難的。WordNet不做成分分析,而是進行關系分析。這一點是計算語言學界所熱衷的課題,與以往的語義分析方法不同。這種關系討論的是動詞間的縱向關系,即詞匯蘊涵關系WordNet基于名詞和動詞以及其他詞性的關系進行詞類間的縱向分析,在國際計算語言學界有很大的影響。但是,它也有不足之處,如對橫向關系還沒有考慮。2023/10/2353WordNetWordNet是1990由Princeton大學的米勒(MillerGA)等人設計和構造的。一部WordNet詞典將近95600個詞形(51500單詞和44100搭配詞)和70100個詞義,分為五類:名詞、動詞、形容詞、副詞和虛詞,按語義而不是按詞性來組織詞匯信息。在WordNet詞典中,名詞有57000個,含有48800個同義詞集,分成25類文件,平均深度12層。最高層為根概念,不含有固有名詞。2023/10/2354知網(wǎng)知網(wǎng)(HowNet)是董振東研制的以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。公布的中文信息結構庫包含:信息結構模式:271個句法分布式:49個句法結構式:58個實例:11,000詞語總字數(shù):中文60,000字2023/10/235520世紀90年代,使用統(tǒng)計的方法,使機器翻譯的正確率達到60%,漢語切分的正確率達到70%,漢語語音輸入的正確率達到80%,這是對傳統(tǒng)語言學的嚴重挑戰(zhàn)。許多研究人員相信,基于語料庫的統(tǒng)計模型(如n-gram模型、Markov模型、向量空間模型)不僅能勝任詞類的自動標注任務,而且也能夠應用到句法和語義等更高層次的分析上來。這種方法有希望在工程上、在寬廣的語言覆蓋面上解決大規(guī)模真實文本處理這一極其艱巨的課題,至少也能對基于規(guī)則的自然語言處理系統(tǒng)提供一種強有力的補充機制。統(tǒng)計方法的應用2023/10/2356統(tǒng)計方法的應用大規(guī)模真實文本處理的數(shù)學方法主要是統(tǒng)計方法?;谡Z料庫的統(tǒng)計模型(如Markov模型、向量空間模型)不僅能勝任詞類的自動標注任務,而且也能夠應用到句法和語義等更高層次的分析上來。2023/10/2357由于漢語句子的最小構成單位是字,有意義的最小單位卻是詞,而漢語詞與詞之間又沒有分割符號(英語詞和詞之間是空格)。因此,漢語理解首先要進行漢語自動分詞。可以概括為兩大類方法,無詞典分詞,它完全依靠整段文章中漢字之間的搭配的頻率算出成詞可能有詞典分詞,是一種更有普遍意義的分詞方法。有詞典分詞主要有最大匹配法,逆向最大匹配法,逐詞遍歷匹配法,設立切分標志法,以及正向最佳匹配和逆向最佳匹配法,而這些方法的一個基本思想都是要依次分出待切分串的可能最長成詞漢語自動分詞2023/10/2358首先,根據(jù)漢語詞典(有56800條詞匯)進行統(tǒng)計,發(fā)現(xiàn):雖然詞典中的最長詞可以達到為20多個字節(jié)(十幾個漢字),但是大多數(shù)漢語詞都可以由前兩字唯一確定,這樣的詞占絕大多數(shù)(如在上述詞典中占總詞匯量的85%以上)。基于統(tǒng)計結果的分詞2023/10/2359兩個首字相同的詞的個數(shù)的統(tǒng)計根據(jù)前兩字可確定的詞個數(shù) 詞總數(shù) 所占百分比(%)
1 48431 85.22
2 2801×2 9.86
3 514×3 2.71
4 118×4 0.83
5 46×5 0.40
6 30×6 0.32
7 16×7 0.20
8 6×8 0.08
9 8×9 0.13
10 5×10 0.09
14 2×14 0.05
15 3×15 0.08
18 1×18 0.03
漢語自動分詞2023/10/2360主要是在字典索引的支持下進行的,索引結構可以分為兩級。一級索引就用漢字內碼,查找算法用散列方法。而二級索引采用整個詞長。漢語機械分詞2023/10/2361最大匹配法。最大匹配法簡稱MM方法。其思想是:在計算機磁盤中存放一個分詞用詞典,從待切分的文本中按自左到右的順序截取一個定長的漢字串,通常為為詞典中的最大詞長,這個字符串的長度稱作最大詞長。將這個具有最大詞長的字符串與詞典中的詞進行匹配,若匹配成功,則可確定這個字符串為詞,計算機程序的指針向后移動與給定最大詞長相應個數(shù)的漢字,繼續(xù)進行匹配;否則,把該字符串從右邊逐次減去一個漢字,再與詞典中的詞進行匹配,直到成功為止。逆向最大匹配法。逆向最大匹配法簡稱RMM法。這種方法的基本原理與MM法相同,所不同的是分詞時對待切分文本的掃描方向。MM方法從待切分文本中截取字符串的方向是從左到右,而RMM方法則是從右向左。在與詞典匹配不成功時,將所截取的漢字串從左至右逐次減去一個漢字,再與詞典中的詞進行匹配,直到匹配成功為上。實驗表明,RMM法的切詞正確率要比MM法高匹配法分詞2023/10/2362分詞過程中的歧義問題。歧義字段在中文文本中是普遍存在的,歧義切分是自動分詞中不可避免的現(xiàn)象,是自動分詞中的一個比較棘手的問題。對歧義字段的處理水平,直接影響著自動分詞系統(tǒng)的分詞準確率。未登錄詞的識別問題。未登錄詞是指沒有在詞典中出現(xiàn)、在漢語文本中又應該當作一個詞將其分開的那些字符串。包括中外人名、中外地名、機構組織名、事件名、縮略語、派生詞、各種專業(yè)術語以及在不斷發(fā)展和約定俗成的一些新詞語。未登錄詞種類繁多、規(guī)模宏大,對它們識別正確與否直接影響著分詞系統(tǒng)的正確率。然而,目前對于這些詞語的自動辨識盡管作了不少的研究,但要想達到實際應用的要求,仍還有不少的困難。漢語分詞的難點2023/10/2363除了由于未登錄詞而引起的歧義,切分歧義主要有三種類型:交集型歧義,即漢字串ABC既可切成AB/C,又可切成A/BC。組合型歧義,即漢字串既可切分成AB,又可切分成A/B?;旌闲推缌x,是前兩種的自我嵌套或三者的交叉組合產(chǎn)生的。為了既能得到較高的準確率,又有較小的開銷,可以著重解決相對數(shù)量較大又較容易解決的交集型歧義。漢語分詞的難點2023/10/23史忠植人工智能:自然語言處理64詞類分析漢語的發(fā)展是先有字后有詞,所以關于詞的研究還存在一些問題,比較突出的是漢語詞類的兼類問題。例如,大量的雙字動詞兼作名詞。要進行漢語理解,如果不把詞類先確定下來的話,那么下一步的分析也難以進行。漢語詞類的兼類處理方法兩種方法根據(jù)規(guī)則消除兼類,根據(jù)預料庫統(tǒng)計消除兼類漢語分詞的難點2023/10/23652023/10/2366內容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索
8.8機器翻譯 8.9問答系統(tǒng) 8.10小結信息檢索(informationretrieval,IR)是指將信息按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出有關信息的過程。1950年,穆爾(MooreC)根據(jù)圖書館的參考咨詢和文摘索引提出了信息檢索。信息檢索包括信息存儲和檢索。在檢索之前必須將信息收集起來,按科學方法進行整理,并按一定準則存儲起來,形成書本式檢索工具或者計算機可讀數(shù)據(jù)庫。在檢索時,用戶根據(jù)自身需求提交查詢給信息檢索系統(tǒng),系統(tǒng)利用存儲信息所依據(jù)的準則,在文檔集中找出與查詢條件相關的文檔子集,并按照它們與查詢條件的相關性進行排序,最后為用戶返回一個有序的文檔子集。信息檢索2023/10/2367從廣義上講,信息檢索包括兩個過程,一是信息存儲(informationstorage),即信息的標引、加工和存儲過程:二是信息檢索(informationretrieval),即信息用戶的查找過程。從狹義上講,信息檢索僅指后一部分。信息檢索的本質是一個匹配的過程即用戶的信息需求和信息存儲的信息集合進行比較和選擇的過程信息檢索2023/10/2368信息檢索過程2023/10/2369信息檢索的類型按信息檢索的內容劃分文獻檢索數(shù)據(jù)檢索事實檢索概念檢索按信息檢索的組織方式劃分超文本檢索是對每個節(jié)點中儲存的信息以及信息鏈構成的網(wǎng)絡信息進行的檢索。與傳統(tǒng)文本的線性順序不同,超文本檢索強調中心節(jié)點之間的語義聯(lián)結結構,靠系統(tǒng)提供的工具進行圖示穿行和節(jié)點展示,提供瀏覽式查詢,可進行跨庫檢索。全文本檢索多媒體檢索超文本檢索2023/10/23702023/10/23史忠植人工智能:自然語言處理71內容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機器翻譯
8.9問答系統(tǒng) 8.10小結機器翻譯是利用計算機把一種自然語言轉變成另一種自然語言的過程。用以完成這一過程的軟件叫做機器翻譯系統(tǒng)。機器翻譯是語言學、人工智能、計算技術、認知科學等學科相結合的產(chǎn)物。人作翻譯時,把一個源語言句子譯成目標語言句子,涉及到四個基本操作:目標語言單詞的檢索、調序、刪詞、增詞;機器翻譯系統(tǒng)的操作過程也不例外,有檢索、分析、轉換和生成的主要四個階段。這被稱為基于分析和轉換的機器翻譯系統(tǒng)。也被認為是模擬人類翻譯活動最恰當?shù)臋C制。機器翻譯2023/10/237220世紀50年代初到60年代中為大發(fā)展時期。但是由于當時對機器翻譯的復雜性認識不足而產(chǎn)生了過分的樂觀情20世紀60年代中到70年代初由于遇到了困難而處于低潮時期。20世紀80年代機器翻譯開始復興,注意力幾乎都集中在人助自動翻譯上,人助工作包括譯前編輯(或受限語言),翻譯期間的交互式解決問題,譯后編輯等。幾乎所有的研究活動都致力于在傳統(tǒng)的基于規(guī)則和“中間語言”模式的基礎上進行語言分析和生成方法的探索,這些方法都伴有人工智能類型的知識庫。在20世紀90年代早期,機器翻譯研究被新興的基于語料庫的方法向前推進,出現(xiàn)新的統(tǒng)計方法的引入以及基于案例的機器翻譯等。機器翻譯2023/10/2373機器翻譯的一般過程包括:源語文輸入、識別與分析、生成與綜合和目標語言輸出。當源語文通過鍵盤或掃描器或話筒輸入計算機后,計算機首先對一個單詞逐一識別,再按照標點符號和一些特征詞(往往是虛詞)識別句法和語義。然后查找機器內存儲的詞典和句法表、語義表,把這些加工后的語文信息傳輸?shù)揭?guī)則系統(tǒng)中去。從源語文輸入的字符系列的表層結構分析到深層結構,在機器內部就得到一種類似喬姆斯基語法分析的“樹形圖”。機器翻譯2023/10/2374基于規(guī)則的機器翻譯流程圖2023/10/2375
1.基于分析和轉換的機器翻譯方法基于分析和轉換的機器翻譯方法就是自動實現(xiàn)源語言到目標語言的轉換,它采取了一系列的分析和轉換的生成層次,使一個源語言句子經(jīng)過不同的中間表達形式,最終達到目標語言句子的表示。其目的是盡可能地加深對源語言的理解,生成盡可能恰當?shù)哪繕苏Z言形式。這種方法比較全面地體現(xiàn)了語言學知識在機器翻譯中的應用,是了解機器翻譯實現(xiàn)過程的非常合適的模式。機器翻譯的實現(xiàn)方法2023/10/2376
句子經(jīng)過分析階段之后,進入轉換和生成階段。這兩者一般聯(lián)系得比較緊密,有時無法嚴格區(qū)分,因為轉換到目標語言也就是要生成目標語言的詞匯、短語、句子??梢园丫渥咏Y構的轉換也就是源語言的句法樹轉換長合適的目標語言對應形式當作轉換,而后續(xù)的許多處理都當作生成階段的處理步驟看待?;诜治龊娃D換的機器翻譯方法2023/10/2377
實質上,機器翻譯方法對語言的處理就是在兩種語言之間搭一座橋,實現(xiàn)一種語言到另一種語言意義等價的轉換。它并非象自然語言理解那樣只是對一種語言的操作,只需作針對一種語言的分析。作為一個機器翻譯系統(tǒng),它既要考慮源語言的語法和語義規(guī)律,也要考慮目標語言的這方面規(guī)律,忽略了任何一方都是不行的。也就是說,對于雙語互譯規(guī)律的發(fā)現(xiàn)和應用才是機器翻譯最本質的特征。所以,在詞、短語和句子這三個層次上尋找源語言的目標語言翻譯的等價物是機器翻譯中轉換與生成的任務?;诜治龊娃D換的機器翻譯方法2023/10/2378
通常,機器翻譯的研究中將轉換看做整個翻譯過程中的一個階段。然而,在語義結構上進行轉換卻是一種好的方式。語義結構可以是跨語言的,有能力同時應用于分析和生成。另一方面,當機器翻譯系統(tǒng)的翻譯語言對擴展時,還可以應用于多種不同的語言。但要注意,大規(guī)模的自然語言語義描述相當復雜,因而在機器翻譯系統(tǒng)中的應用往往會受到限制,難以采用這樣的語義表示作為轉換的基本結構?;诜治龊娃D換的機器翻譯方法2023/10/2379
一般情況下,分析以句法為主、語義為輔,正確的句法結構轉換加正確的詞匯譯文可以從源語言向目標語言傳遞完整的正確信息。因此,以句法結構轉換附加上一定的語義信息,能夠構成轉換的基本層次。不足之處是:因為句法分析的結果是面向源語言的,而要生成合適的目標語言譯文,轉換部分常常引入許多目標語言方面的約束,使得轉換規(guī)則變得復雜了?;诜治龊娃D換的機器翻譯方法2023/10/2380
就標準的機器翻譯系統(tǒng)來說,句子和短語層次的結構轉換是機器翻譯轉換部分的研究重點。通常使用轉換規(guī)則,就可以實現(xiàn)源語言句法結構到目標語言句法結構的轉換。這方面一般采用產(chǎn)生式方式的轉換規(guī)則形式:S:S1+S2+…+Si<C1C2…CK>→T1+T2+…+Tj:T
上式理解為:S是SL(源語言)的某個待翻譯單位(句子、短語等等),S1~Si是S中的下一級組成單位;對于S,如果滿足條件<C1C2…Ck>,則TL(目標語言)中有T1~Tj譯文構成了相應的等價物T?;诜治龊娃D換的機器翻譯方法2023/10/2381
這樣的方法有兩個特點:一是面向源語言分析,因為源語言中的一個句子已經(jīng)由句法、語義分析等階段分析完畢,生成了關于源語言句子的某種中間表示,轉換以這種源語言中間表示作為輸入;二是直接轉換,即對于S表示,直接給出譯文形式,一般不需要在目標語言內再作進一步轉換,T1~Tj可以直接包括目標語言的詞匯,也可以是對應于S1~Si的譯文組塊。基于分析和轉換的機器翻譯方法2023/10/2382
上述方法稱為基于句法的轉換方法,因為S1+S2+…+Si一般來說就是源語言的的句法結構表示;也可以稱為直接轉換方法,因為對于每個源語言的翻譯組塊,都馬上給出一個目標語言組塊與之對應。應該說,這種轉換方法符合人的直覺認識,也能夠實現(xiàn)。基于分析和轉換的機器翻譯方法2023/10/2383基于中間語言的翻譯方法是對源語言進行分析以后產(chǎn)生一種稱為中間語言的表示形式,然后直接由這種中間語言的表示形式生成目標語言。所謂中間語言就是自然語言的計算機表示形式的系統(tǒng)化,它試圖創(chuàng)造出一種獨立于各種自然語言,同時又能表示各種自然語言的人工語言。2.基于中間語言的翻譯方法基于中間語言的機器翻譯方法2023/10/2384
基于中間語言的機器翻譯方法主要有兩個優(yōu)點。首先,獨立的中間表示形式為多語種之間的互譯的實現(xiàn)提供了一種經(jīng)濟有效的途徑。假設要對N種語言進行互譯,則有N*(N-1)個語言對。不同方向的翻譯是不同的語言對。此時如果采用基于轉換的方法,因為把一種語言翻譯成另一種語言都需要一個不同的轉換機制(或模塊),所以N*(N-1)個語言對共需要N*(N-1)個獨立的轉換機制。而采用中間語言的方法,由于對每一種語言只需實現(xiàn)將該種語言翻譯成中間語言和把中間語言翻譯成該種語言的目標語言這樣兩個模塊,所以總共只需要2N個模塊。其次,中間語言不僅是對基于中間語言的機器翻譯方法這一特定目的有意義,同時,作為一種通用的自然語言表示,也值得深入研究?;谥虚g語言的機器翻譯方法2023/10/2385
基于中間語言的機器翻譯方法的優(yōu)勢是無需一種語言到另一種語言的一一轉換,對于多語種的翻譯系統(tǒng)可以節(jié)約大量的轉換知識的手工獲取工作量。假如有N種語對需要相互翻譯,只要有2N個分析和生成模塊就夠了。其中一半是源語言分析模塊,輸入為原文,輸出以IL表示;另一半是目標語言生成模塊,輸入為IL表示,輸出為目標語言譯文?;谥虚g語言的機器翻譯方法2023/10/2386
中間語言通常用語義概念表示,這些概念符號采用英語單詞符號或其它自行定義的符號來表示。大規(guī)模的IL需要大量的概念表示,需要生成對應的概念詞典。如果用語義概念來描寫一個句子,則構成復雜的語義網(wǎng)絡。對于多語種的機器翻譯來說,使用中間語言作為相互翻譯的中介是可取的。在理想狀態(tài)下,中間語言應該沒有或極少有歧義,結構嚴謹,詞匯單義,便于計算機處理。有了中間語言,一切源語言分析的結果和目標語言生成的開端都由它來表示?;谥虚g語言的機器翻譯方法2023/10/2387
然而,中間語言的機器翻譯方法也常遭到懷疑。因為是否能夠構造出表示各種不同的自然語言語法、語義的中間語言至少目前還是未知數(shù)。此外,中間語言能不能把各種語言的所有特征保留下來,又能很好生成對應的各種語言也是問題。所以,構造中間語言是一個巨大、復雜的工程,還包含許多理論研究,迄今為止的探索還沒有好的答案?;谥虚g語言的機器翻譯方法2023/10/23883.基于統(tǒng)計的機器翻譯方法基于統(tǒng)計的機器翻譯方法,一般不要任何語言學知識,它的基本原理是實現(xiàn)源語言詞匯到目標語言詞匯的映射。其思路受到語音識別研究的啟發(fā),因而應用了類似的方法來實現(xiàn)。研究者用大規(guī)模的雙語語料庫作為基礎,對源語言和目標語言詞匯的對應關系進行統(tǒng)計,根據(jù)統(tǒng)計規(guī)律輸出譯文。這種方法沒有使用語言知識,主要特征是概率統(tǒng)計與隨機過程的方法成為了分析和生成過程的唯一方法。它的主要內容是雙語句對的對齊,通過詞匯同現(xiàn)的可能性來計算一種語言的一個詞映射到另一種語言的一個詞(或兩個、零個詞)的概率。應該說,基于統(tǒng)計的機器翻譯方法的出現(xiàn)改變了機器翻譯研究的面貌,從而開始了機器翻譯研究的新階段。不過,有些學者也對純統(tǒng)計方法提出了異議,認為必須引入高層語法、語義模型,顯然這是正確的。否則,基于統(tǒng)計的機器翻譯方法不可能產(chǎn)生高質量?;诮y(tǒng)計的機器翻譯方法2023/10/2389由于當前計算機在運算速度和存儲容量方面都有巨大的提高,可以獲取大量的機讀語料庫,因此在機器翻譯中應用統(tǒng)計方法的條件已經(jīng)成熟。機器翻譯的噪聲通道模型可以視作最早的機器翻譯思想的某中復活,其思路可以這樣理解:假設說話者已經(jīng)用目標語想好了一句話T,但是說出的卻是源語言句子S。這樣一個過程可以看成為編碼過程。而統(tǒng)計的機器翻譯就是要從S回推T,可以看成解碼過程。這樣,統(tǒng)計的機器翻譯任務分為兩個部分:一是建模,即建立翻譯的計算方法以及從雙語語料庫中估計模型的參數(shù);二是解碼,即尋求一種高效搜索算法取有關概率計算的最大值?;诮y(tǒng)計的機器翻譯方法2023/10/2390
在概率計算的前后,轉換是進行有關預處理和后處理,例如句子當中的日期、時間、數(shù)字、人名等應該用適當?shù)念悇e標志加以替換,以便更好地進行計算,計算后再換回來。因為這類詞不屬于一般的詞匯,單詞本身在語料庫中的出現(xiàn)缺乏代表性。建模就是設計各個模型的計算公式。因為直接計算某個句子出現(xiàn)的概率是比較困難的,語料庫不可能足夠大到包含所有句子,必須進行合理的、適當?shù)暮喕?。這是統(tǒng)計方法的特點,所得到的結果是近似值,但是因為概率本身就不是精確的,所以這些近似完全可以接受?;诮y(tǒng)計的機器翻譯方法2023/10/2391
總之,基于統(tǒng)計的機器翻譯方法可以簡單的這樣看:將原始的某個句子按詞折開,然后全部單詞存儲;翻譯則是取出,按概率統(tǒng)計的方法重組句子,這樣的句子就是統(tǒng)計方法的翻譯結果。當然,我們還是認為應該加強統(tǒng)計方法與語法分析、語義分析相結合的研究。基于統(tǒng)計的機器翻譯方法2023/10/23924.基于記憶的機器翻譯方法建立機器翻譯系統(tǒng)需要大量的知識。在基于轉換和基于中間語言的機器翻譯方法中,知識按一定規(guī)則譯成代碼,這既耗時花費也大。此外,知識獲取瓶頸阻礙了機器翻譯的快速發(fā)展,這是早期機器翻譯面臨的重大難題。為克服這一困難,除了上節(jié)介紹的統(tǒng)計方法外,日本機器翻譯專家Nagao在80年代提出了一種新方法,用已經(jīng)存在的翻譯實例(雙語文本)作為知識源,這種方法稱為基于記憶的翻譯,后來普遍稱為基于實例的翻譯?;趯嵗乃枷胍驯粡V泛的采用,既用于機器翻譯的設計,也用于機器翻譯不同處理階段的實現(xiàn)中。用不斷積累的已經(jīng)譯好的文本作為機器翻譯的樣本的思想,也是具有吸引力的?;谟洃浀臋C器翻譯方法2023/10/2393
基于記憶的機器翻譯方法通過結構化的翻譯例子直接把源語言的短語和句子與目標語言的短語和句子對應起來。方法的不同使得處理步驟或多或少,但都必須實現(xiàn)源語言到目標語言的轉換,其映射關系或者是詞到詞,或者是短語或句子到與之相應的等價物,或者是一棵句法樹到另一棵句法樹?;谟洃浀臋C器翻譯(EBMT)的實現(xiàn)過程簡單概述如下:給定源語言輸入句子S,在雙語語料庫C中匹配查找一個最相近的句子S’,則S'的譯文T就被接受為S的譯文。基于記憶的機器翻譯方法2023/10/2394
翻譯的過程一般就是查找和復現(xiàn)相似的例子,發(fā)現(xiàn)和記起特定的源語言表達或相似的表達在以前是如何翻譯的,把以前的翻譯實例作為主要知識源?;谟洃浀臋C器翻譯方法的基本思想:(1)把翻譯實例存入翻譯數(shù)據(jù)庫。例如,存入漢語和英語句子對;(2)對輸入的句子,在翻譯數(shù)據(jù)庫中檢索類似的翻譯例句;(3)調整實例后生成譯文。基于記憶的機器翻譯方法2023/10/2395
基于記憶的機器翻譯方法可以按如下步驟實現(xiàn):(1)對雙語語料庫進行句子級對齊;(2)在語料庫的源語言一邊進行句子分塊,稱為組塊。然后檢索輸入組塊的最佳匹配侯選,稱為源語言內部匹配;(3)在源語言最佳匹配后選的組塊中檢索對應目標語言組塊,稱為雙語匹配;(4)對組塊級檢索結果進行組合,以獲得整個源語言文本的翻譯結果?;谟洃浀臋C器翻譯方法2023/10/2396
源語言的內部匹配就是在語料庫中查找一個與待譯句子最相似的句子。對于任意給定的一個句子,很難在語料庫中找到與之完全匹配的句子,所以對輸入文本在語料庫源語言一邊的匹配查找采用了松弛匹配技術。松弛匹配就是部分匹配,不同的部分匹配被賦予不同的分值,以反映輸入串和語料庫中某些句子串的接近程度。整個輸入組塊與語料庫組塊匹配的分值由一定的公式計算出來。最后,待翻譯文本中所有被匹配的每個輸入組塊都在語料庫中檢索出若干個最相近的組塊,組塊可以是一個句子、或者是一個從句、或者是一個短語,按照匹配分數(shù)從大到小排列。基于記憶的機器翻譯方法2023/10/2397
源語言內部匹配的輸出成為輸入,即把前面從語料庫中查到的組塊、所在的句子和對應譯文等構成當前處理步驟的輸入。因為每個輸入組塊可能在語料庫中匹配若干組塊,所以每個組塊有待進一步處理,即在雙語匹配處理過程中又分為若干子過程,包括通過查詞典獲取詞組譯文;建立詞匯級雙語對照表;通過評分機制求出最佳翻譯句等等?;谟洃浀臋C器翻譯方法的輸出結果帶有相應的分數(shù),這些分值來自不同的標準,相差可能很大。因此必須采用合適的函數(shù)(方式)對所有分數(shù)進行統(tǒng)一(歸一化),然后這些分值才有可比性。基于記憶的機器翻譯方法2023/10/2398
基于記憶的機器翻譯方法的其它優(yōu)點:(1)可以通過索引和并行處理提高處理速度;(2)可以采用最佳匹配推理;(3)可以較好地利用翻譯專家的專業(yè)知識(通過翻譯實例);(4)一個基于實例的機器翻譯系統(tǒng)的知識可以移植、共享?;谟洃浀臋C器翻譯方法2023/10/23992023/10/23100內容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州大學《結構力學B》2023-2024學年第一學期期末試卷
- 貴州財經(jīng)大學《小學教育教學敘事研究》2023-2024學年第一學期期末試卷
- 2025青海省建筑安全員《B證》考試題庫及答案
- 貴陽信息科技學院《教育史專題研究》2023-2024學年第一學期期末試卷
- 硅湖職業(yè)技術學院《計算思維導論》2023-2024學年第一學期期末試卷
- 2025甘肅建筑安全員-A證考試題庫及答案
- 廣州新華學院《物流與電子商務實驗》2023-2024學年第一學期期末試卷
- 2025遼寧省建筑安全員A證考試題庫
- 2025年湖南建筑安全員-A證考試題庫附答案
- 中華詩詞大賽題
- DB34T 3703.3-2021 長大橋梁養(yǎng)護指南 第3部分:定期檢查工作驗收
- 保潔突發(fā)事件應急預案
- 國土空間規(guī)劃用途管制實施與研究
- 膽囊術后并發(fā)癥護理
- 醫(yī)療廢物暫存間消毒制度
- 2023-2024學年人教版高中信息技術必修二第二章第二節(jié)《 信息系統(tǒng)的開發(fā)過程》教案
- 2024六年級英語上冊 Module 9 Unit 1 Do you want to visit the UN building教案 外研版(三起)
- 2024年廣東省高中學業(yè)水平合格性考試語文試卷真題(含答案解析)
- 高技能公共實訓基地建設方案
- DL∕T 1732-2017 電力物聯(lián)網(wǎng)傳感器信息模型規(guī)范
- 混凝土股東合同范本
評論
0/150
提交評論