




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能
ArtificialIntelligence
第八章xx
中國(guó)科學(xué)院計(jì)算技術(shù)研究所自然語言處理NaturalLanguageProcessing2019-6-17謝謝觀賞1人工智能
ArtificialIntelligence
第2019-6-17謝謝觀賞2內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機(jī)器翻譯 8.9自動(dòng)問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞2內(nèi)容提要8.1概述概述自然語言處理是用機(jī)器處理人類語言的理論和技術(shù)。作為語言信息處理技術(shù)的一個(gè)高層次的重要研究方向,一直是人工智能領(lǐng)域的核心課題。由于自然語言的多義性、上下文有關(guān)性、模糊性、非系統(tǒng)性和環(huán)境密切相關(guān)性、涉及的知識(shí)面廣等原因,自然語言處理是困難問題之一。自然語言處理的研究希望機(jī)器能夠執(zhí)行人類所期望的某些語言功能,這些功能包括:
(1)回答問題:計(jì)算機(jī)能正確地回答用自然語言輸入的有關(guān)問題;
(2)文摘生成:機(jī)器能產(chǎn)生輸入文本的摘要;
(3)釋義:機(jī)器能用不同的詞語和句型來復(fù)述輸入的自然語言信息;
(4)翻譯:機(jī)器能把一種語言翻譯成另外一種語言。2019-6-17謝謝觀賞3概述自然語言處理是用機(jī)器處理人類語言的理論和技術(shù)。作為語言信概述自然語言自然語言:人類交流的語言,口語、書面語、手語、旗語等人造語言:機(jī)器語言,包括C++,BASIC等 世界語到目前為止的人類知識(shí)有80%以上使用自然語言文字記載下來的。但將來,可能用計(jì)算機(jī)語言形式記載的知識(shí)將會(huì)越來越多。因此說,語言信息處理技術(shù)和每年所處理的信息總量已成為衡量一個(gè)國(guó)家現(xiàn)代化水平的重要標(biāo)志之一。相比較人工智能其它領(lǐng)域,自然語言理解是難度大,進(jìn)展小的。至今為止未能達(dá)到很高的水平。
2019-6-17謝謝觀賞4概述自然語言2019-6-17謝謝觀賞4自然語言處理的發(fā)展自然語言理解的研究大體上經(jīng)歷了三個(gè)時(shí)期萌芽時(shí)期發(fā)展時(shí)期早期:20世紀(jì)60年代以關(guān)鍵詞匹配為主流中期:20世紀(jì)70年代以句法-語義分析為主流近期:20世紀(jì)80年代以來走向?qū)嵱没凸こ袒笠?guī)模真實(shí)文本處理時(shí)期比較成功的系統(tǒng)處理都是受限的自然語言子集句法受限:句子結(jié)構(gòu)的復(fù)雜性方面受到限制語義受限/領(lǐng)域受限:所表達(dá)的事物的數(shù)量方面受到限制2019-6-17謝謝觀賞5自然語言處理的發(fā)展自然語言理解的研究大體上經(jīng)歷了三個(gè)時(shí)期220世紀(jì)60年代:以關(guān)鍵詞匹配為主流特點(diǎn):沒有真正意義上的語法分析,主要依靠關(guān)鍵詞匹配技術(shù)來識(shí)別輸入句子的意義在系統(tǒng)中事先存放了大量包含某些關(guān)鍵詞的模式,每個(gè)模式與一個(gè)或多個(gè)解釋(響應(yīng)式)相對(duì)應(yīng)。每當(dāng)輸入一個(gè)句子,系統(tǒng)便查找與之匹配的模式,一旦匹配成功,系統(tǒng)就輸出相應(yīng)的解釋,不考慮其他成分對(duì)句子意義的影響是一種近似匹配技術(shù),輸入句子可以不準(zhǔn)循語法,但是也容易導(dǎo)致錯(cuò)誤自然語言處理的發(fā)展2019-6-17謝謝觀賞620世紀(jì)60年代:以關(guān)鍵詞匹配為主流自然語言處理的發(fā)展20120世紀(jì)70年代:句法語義分析為主流采用句法-語義分析技術(shù)典型例子LUNAR允許用普通英語和數(shù)據(jù)庫對(duì)話的人機(jī)接口句法分析語義解釋數(shù)據(jù)檢索ATN語法詞典語義規(guī)則數(shù)據(jù)庫自然語言處理的發(fā)展2019-6-17謝謝觀賞720世紀(jì)70年代:句法語義分析為主流句法分析語義解釋數(shù)據(jù)檢索20世紀(jì)80年代以來:實(shí)用化和工程化主要特點(diǎn)是開始走向?qū)嵱没凸こ袒F渲匾獦?biāo)志之一是有一批商品化的自然語言人機(jī)接口系統(tǒng)和機(jī)器翻譯系統(tǒng)推向了市場(chǎng)。另一方面,人們已經(jīng)開始對(duì)大規(guī)模真實(shí)文本進(jìn)行理解句法-語義分析為主的思想來自于規(guī)則的方法,而規(guī)則不可能把所有的知識(shí)表示出來自然語言在數(shù)量上浩瀚無際在性質(zhì)上具有不確定性和模糊性。自然語言處理的發(fā)展2019-6-17謝謝觀賞820世紀(jì)80年代以來:實(shí)用化和工程化自然語言處理的發(fā)展201概述自然語言的層次劃分及對(duì)應(yīng)技術(shù)理論層次結(jié)構(gòu)實(shí)現(xiàn)技術(shù)模板匹配、基于規(guī)則語音
模式匹配基于詞素、詞匯詞匯詞典結(jié)構(gòu)轉(zhuǎn)換生成、詞匯功能語法語法
擴(kuò)展轉(zhuǎn)移網(wǎng)絡(luò)(ATN),CF規(guī)則格語法、語義基元理論、模型理論語義
產(chǎn)生式規(guī)則、概念相依理論、腳本、框架、語義網(wǎng)絡(luò)、邏輯基于記憶的推理、語言行為理論、篇章語法語用2019-6-17謝謝觀賞9概述自然語言的層次劃分及對(duì)應(yīng)技術(shù)理論層次結(jié)構(gòu)實(shí)現(xiàn)技術(shù)模板匹配自然語言處理層次2019-6-17謝謝觀賞10自然語言處理層次2019-6-17謝謝觀賞102019-6-17謝謝觀賞11內(nèi)容提要8.1概述8.2詞法分析
8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機(jī)器翻譯 8.9自動(dòng)問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞11內(nèi)容提要8.1概述詞法分析詞法分析是理解單詞的基礎(chǔ),其主要目的是從句子中切分出單詞,找出詞匯的各個(gè)詞素,從中獲得單詞的語言學(xué)信息并確定單詞的詞義例如unchangeable是由un-change-able構(gòu)成的,其詞義由這三個(gè)部分構(gòu)成。2019-6-17謝謝觀賞12詞法分析詞法分析是理解單詞的基礎(chǔ),其主要目的是從句子中切分出詞法分析語言構(gòu)成語言詞匯語法詞熟語句法詞素詞法構(gòu)形法構(gòu)詞法詞組構(gòu)造法造句法2019-6-17謝謝觀賞13詞法分析語言構(gòu)成語言詞匯語法詞熟語句法詞素詞法構(gòu)形法構(gòu)詞法詞詞法分析在英語等語言中,因?yàn)閱卧~之間是以空格自然分開的,切分一個(gè)單詞很容易,所以找出句子的一個(gè)個(gè)詞匯就很方便。但是由于英語單詞有詞性、數(shù)、時(shí)態(tài)、派生、變形等變化,要找出各個(gè)詞素就復(fù)雜的多,需要對(duì)詞尾或詞頭進(jìn)行分析。如importable,它可以是im-port-able或import-able,這是因?yàn)閕m、port、able這三個(gè)都是詞素。
漢語中的每個(gè)字就是一個(gè)詞素,所以要找出各個(gè)詞素是相當(dāng)容易的,但要切分出各個(gè)詞就非常困難,不僅需要構(gòu)詞的知識(shí),還需要解決可能遇到的切分歧義。如“我們研究所有東西”。可以是“我們—研究所—有東西”,也可以是“我們—研究—所有—東西”。
2019-6-17謝謝觀賞14詞法分析在英語等語言中,因?yàn)閱卧~之間是以空格自然分開的,切分2019-6-17謝謝觀賞15內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析
8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機(jī)器翻譯 8.9問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞15內(nèi)容提要8.1概述句法分析句法分析的主要任務(wù):確定輸入句子的結(jié)構(gòu):識(shí)別句子的各個(gè)成分及其之間的關(guān)系句子結(jié)構(gòu)的規(guī)范化:目的是簡(jiǎn)化后續(xù)處理分析自然語言的方法主要分為兩類:基于規(guī)則的方法:如短語結(jié)構(gòu)語法和Chomsky語法體系基于統(tǒng)計(jì)的方法2019-6-17謝謝觀賞16句法分析句法分析的主要任務(wù):2019-6-17謝謝觀賞16短語結(jié)構(gòu)語言定義句子:一個(gè)符號(hào)串語言:句子的集合語法:對(duì)一個(gè)句集一種有限的形式化描述描述一般語言的方法:識(shí)別器:由程序判斷讀入的符號(hào)串是不是一個(gè)句子短語結(jié)構(gòu)語法:一種基于產(chǎn)生式的形式化工具,也稱為產(chǎn)生式語法2019-6-17謝謝觀賞17短語結(jié)構(gòu)語言定義2019-6-17謝謝觀賞17短語結(jié)構(gòu)語言定義:短語結(jié)構(gòu)語法定義為:G=(T,N,S,P)T是終結(jié)符集合,即被定義的語言的所有詞匯(或符號(hào))N是非終結(jié)符集合,這些符號(hào)用于描述語法成分,并不出現(xiàn)于句子中。則有:V=TN,TN=(空集),V是屬于該語法的全部符號(hào)。S是起始符號(hào),它是N中的一個(gè)成員。P是一個(gè)產(chǎn)生式規(guī)則集。ab (ab,aV+,bV*)2019-6-17謝謝觀賞18短語結(jié)構(gòu)語言定義:短語結(jié)構(gòu)語法定義為:G=(T,N,S,P)短語結(jié)構(gòu)語言在短語結(jié)構(gòu)語法中,基本運(yùn)算是把一個(gè)符號(hào)串重寫為另一個(gè)符號(hào)串,每條語法規(guī)則也叫重寫規(guī)則一個(gè)句子的產(chǎn)生就是從S符號(hào)到詞匯串的推導(dǎo)過程如果一個(gè)程序能夠根據(jù)一個(gè)短語結(jié)構(gòu)語法來確定一個(gè)句子的推導(dǎo),則它可稱為一個(gè)句法分析器(parser)。語法G所定義的語言記為L(zhǎng)(G):L(G)={W|WT*,S*GW}2019-6-17謝謝觀賞19短語結(jié)構(gòu)語言在短語結(jié)構(gòu)語法中,基本運(yùn)算是把一個(gè)符號(hào)串重寫為另短語結(jié)構(gòu)語言刻畫語言的形式體系的強(qiáng)和弱遞歸可枚舉語言:如果有一個(gè)程序,它能以某種順序逐個(gè)地輸出(即枚舉)一種語言的句子,這種語言是遞歸可枚舉的遞歸語言:如果有一個(gè)程序,它在讀入一個(gè)符號(hào)串后能最終確定這個(gè)串是或不是某種語言的一個(gè)句子,這稱該語言是遞歸2019-6-17謝謝觀賞20短語結(jié)構(gòu)語言刻畫語言的形式體系的強(qiáng)和弱2019-6-17謝謝短語結(jié)構(gòu)語言正則語法:正則語法有兩種形式:左線性語法:如A
a|Ba右線性語法:如A
a|aB可以表示如下的句子:a*b*語法例子:S
a|S1
|aSS1
b|bS1與有限狀態(tài)機(jī)等價(jià)2019-6-17謝謝觀賞21短語結(jié)構(gòu)語言正則語法:2019-6-17謝謝觀賞21短語結(jié)構(gòu)語言上下文無關(guān)語法:語法規(guī)則形式為:A
x即左邊為一非終結(jié)符,右邊沒有限制可以表示的句子如:anbn語法例子:S
a|SbS該文法應(yīng)用于程序設(shè)計(jì)語言中2019-6-17謝謝觀賞22短語結(jié)構(gòu)語言上下文無關(guān)語法:2019-6-17謝謝觀賞22短語結(jié)構(gòu)語言上下文有關(guān)語法:語法規(guī)則:規(guī)則右邊的符號(hào)數(shù)不能少于左邊符號(hào)數(shù)右邊的符號(hào)可以是終止符也可以是非終止符上下文有關(guān)語言是遞歸的可以表示的語言:anbncn語法例子:ABBA2019-6-17謝謝觀賞23短語結(jié)構(gòu)語言上下文有關(guān)語法:2019-6-17謝謝觀賞23短語結(jié)構(gòu)語言無約束短語結(jié)構(gòu)語法:語法規(guī)則是沒有限制的:左邊可以是任意多個(gè)終止符或非終止符右邊可以是任意多個(gè)終止符或非終止符該語言是遞歸可枚舉的該語言與圖靈機(jī)等價(jià)語法例子:ABC2019-6-17謝謝觀賞24短語結(jié)構(gòu)語言無約束短語結(jié)構(gòu)語法:2019-6-17謝謝觀賞2Chomsky體系無約束語法上下文有關(guān)語法上下文無關(guān)語法正則語法2019-6-17謝謝觀賞25Chomsky體系無約束語法上下文有關(guān)語法上下文無關(guān)語法正則CFG的分析算法用一個(gè)短語結(jié)構(gòu)語法對(duì)一個(gè)句子進(jìn)行語法分析,意味著尋找一個(gè)從起始符到該句子的推導(dǎo),這個(gè)推導(dǎo)一般可以表示為一棵句法樹一般一棵句法樹對(duì)應(yīng)的推導(dǎo)不是唯一的,但是如果在推導(dǎo)過程中每次總是重寫最左邊的非終止符,則稱該推導(dǎo)為最左推導(dǎo)。<SENTENCE><SUBJECT><VERBPHRASE>
Mary<VERBPHRASE>Mary<VERB><OBJECT>Maryeats<OBJECT>Maryeatscheese2019-6-17謝謝觀賞26CFG的分析算法用一個(gè)短語結(jié)構(gòu)語法對(duì)一個(gè)句子進(jìn)行語法分析,意CFG的分析算法<SENTENCE>::=<SUBJECT><VERBPHRASE><SUBJECT>::=John|Marry<VERBPHRASE>::=<VERB><OBJECT><VERB>::=eats|drinks<OBJECT>::=wine|cheeseSENTENCESUBJECTVERBPHRASEVERBOBJECTeatscheeseMary2019-6-17謝謝觀賞27CFG的分析算法<SENTENCE>::=<SUCFG的分析算法句法分析器分為:從推導(dǎo)方向來分:自頂向下:從樹頂?shù)母Y(jié)點(diǎn)開始推導(dǎo)建立句法樹,方向是從起始符S到句子自底向上:從樹底部的葉結(jié)點(diǎn)(詞或詞類)規(guī)約,建立句法樹,方向是從句子到S從算法上分:回溯算法:每次只嘗試一種推導(dǎo),當(dāng)這種推導(dǎo)失敗時(shí)便返回以嘗試另一種推導(dǎo)并行算法:同時(shí)進(jìn)行所有的推導(dǎo)2019-6-17謝謝觀賞28CFG的分析算法句法分析器分為:2019-6-17謝謝觀賞2CFG的分析算法自頂向下的回溯算法該方法逐個(gè)地枚舉推導(dǎo)直到找到一個(gè)能生成句子的推導(dǎo)一般,對(duì)具有左遞歸的語法,該方法需要增加某些測(cè)試以避免陷入死循環(huán)對(duì)于”Maryeatscheese”的句法和推導(dǎo)為:SNP+VP(1)SNP+VP(1)NPN(2)N+VP(2)VPV(3)N+V+NP(4)VPV+NP(4)N+V+N(2)2019-6-17謝謝觀賞29CFG的分析算法自頂向下的回溯算法2019-6-17謝謝觀賞轉(zhuǎn)移網(wǎng)絡(luò)轉(zhuǎn)移網(wǎng)絡(luò)在自動(dòng)機(jī)理論中用來表示語法。句法分析中的轉(zhuǎn)移網(wǎng)絡(luò)由結(jié)點(diǎn)和帶有標(biāo)記的弧組成,結(jié)點(diǎn)表示狀態(tài),弧對(duì)應(yīng)于符號(hào),基于該符號(hào),可以實(shí)現(xiàn)從一個(gè)給定的狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)。2019-6-17謝謝觀賞30轉(zhuǎn)移網(wǎng)絡(luò)轉(zhuǎn)移網(wǎng)絡(luò)在自動(dòng)機(jī)理論中用來表示語法。2019-6-1Dogbites2019-6-17謝謝觀賞31Dogbites2019-6-17謝謝觀賞31轉(zhuǎn)移網(wǎng)絡(luò)擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)ATNATN是20世紀(jì)70年代由W.Woods提出來的ATN語法屬于一種增強(qiáng)型的上下文無關(guān)語法,即用上下文無關(guān)文法描述句子文法結(jié)構(gòu),并同時(shí)提供有效的方式將各種理解語句所需要的知識(shí)加到分析系統(tǒng)中,以增強(qiáng)分析功能,從而使得應(yīng)用ATN的句法分析程序具有分析上下文有關(guān)語言的能力。ATN主要是對(duì)轉(zhuǎn)移網(wǎng)絡(luò)中的弧附加了過程而得到的。當(dāng)通過一個(gè)弧的時(shí)候,附加在該弧上的過程就會(huì)被執(zhí)行。這些過程的主要功能是(I)對(duì)文法特征進(jìn)行賦值;(II)檢查數(shù)(number)或人稱(第一、二或三人稱)條件是否滿足,并據(jù)此允許或不允許轉(zhuǎn)移。2019-6-17謝謝觀賞32轉(zhuǎn)移網(wǎng)絡(luò)擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)ATN2019-6-17謝謝觀賞32轉(zhuǎn)移網(wǎng)絡(luò)表示句子的框架2019-6-17謝謝觀賞33轉(zhuǎn)移網(wǎng)絡(luò)表示句子的框架2019-6-17謝謝觀賞33轉(zhuǎn)移網(wǎng)絡(luò)表示句子的框架2019-6-17謝謝觀賞34轉(zhuǎn)移網(wǎng)絡(luò)表示句子的框架2019-6-17謝謝觀賞34轉(zhuǎn)移網(wǎng)絡(luò)表示句子的框架2019-6-17謝謝觀賞35轉(zhuǎn)移網(wǎng)絡(luò)表示句子的框架2019-6-17謝謝觀賞35非確定性算法與確定性算法上面介紹的算法是非確定性的,分析過程中常常要進(jìn)行回溯。這就降低了算法的效率。實(shí)際上,在特定的上下文中,除了某些固有的歧義外,自然語言的句法分析絕大多數(shù)都是確定的。1977年MIT的Marcus提出了句法分析的確定性算法。該算法的最大特點(diǎn)是確保在任何情況下,一旦一個(gè)輸入句子的部分結(jié)構(gòu)被分析出來,便不再更改,一直保持到最后成為句子最終分析的一部分。2019-6-17謝謝觀賞36非確定性算法與確定性算法上面介紹的算法是非確定性的,分析過程非確定性算法與確定性算法Marcus的確定性算法該句法分析系統(tǒng)具有如下三個(gè)特點(diǎn):(1)由數(shù)據(jù)驅(qū)動(dòng)(2)已分析出來的部分結(jié)構(gòu)可以成為對(duì)后繼分析過程的預(yù)期(3)通過“向前看”(look-ahead)來代替回溯特點(diǎn)(1)和(2)反映了自底向上和自頂向下分析相結(jié)合的策略。特點(diǎn)(3)則是要通過引入句子中的上下文約束來決定分析規(guī)則,保證句法分析器“看準(zhǔn)了”以后再操作,從而避免了回溯2019-6-17謝謝觀賞37非確定性算法與確定性算法Marcus的確定性算法2019-6非確定性算法與確定性算法漢語的特點(diǎn)漢語的詞類缺乏形式標(biāo)注漢語詞類跟句法成分之間不存在簡(jiǎn)單的一一對(duì)應(yīng)關(guān)系.漢語的句子的構(gòu)造原則跟短語的構(gòu)造原則基本一致漢語的這兩個(gè)特點(diǎn)的表現(xiàn)形式就是普遍存在的詞類兼類現(xiàn)象和句法結(jié)構(gòu)的遞歸嵌套性。這些必然要導(dǎo)致大量的回溯,增加計(jì)算的開銷采用確定性分析策略則可以解決這種問題。2019-6-17謝謝觀賞38非確定性算法與確定性算法漢語的特點(diǎn)2019-6-17謝謝觀賞2019-6-17謝謝觀賞39內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機(jī)器翻譯 8.9問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞39內(nèi)容提要8.1概述語義分析語義分析的任務(wù):輸入句子的句法結(jié)構(gòu)和句子中每個(gè)實(shí)詞的詞義推導(dǎo)出能反映該句子意義的某種形式化表示對(duì)語義現(xiàn)象作形式化處理要比句法現(xiàn)象困難得多,主要原因有語義和句法系統(tǒng)的界限很難劃清楚語義及其他認(rèn)知系統(tǒng)的界限也難以劃清楚。用于計(jì)算機(jī)語義處理的計(jì)算語義學(xué)還遠(yuǎn)未成熟2019-6-17謝謝觀賞40語義分析語義分析的任務(wù):2019-6-17謝謝觀賞40格文法格語法是Filmore于1968年提出來的,曾經(jīng)對(duì)自然語言理解技術(shù)的發(fā)展產(chǎn)生過較大的影響,直到現(xiàn)在不少研究仍在使用格語法。因?yàn)槿藗冋J(rèn)識(shí)到格關(guān)系確實(shí)是描述語言語義(包括和語法的關(guān)系)的一種很好的形式,當(dāng)然在實(shí)際應(yīng)用過程中不可避免地要有些修改。2019-6-17謝謝觀賞41格文法格語法是Filmore于1968年提出來的,曾經(jīng)對(duì)自格文法的特點(diǎn)是允許以動(dòng)詞為中心構(gòu)造分析結(jié)果,盡管文法規(guī)則只描述句法,但分析結(jié)果產(chǎn)生的結(jié)構(gòu)卻相應(yīng)于語義關(guān)系,而非嚴(yán)格的句法關(guān)系如句子:MaryhitBill的格文法分析結(jié)果可以表示為(hit(AgentMary)(DativeBill))在格文法中,格表示的語義方面的關(guān)系,反映的是句子中包含的思想、觀念等,稱為深層格。和短語結(jié)構(gòu)語法相比,格文法對(duì)于句子的深層語義有著更好的描述。格文法2019-6-17謝謝觀賞42格文法的特點(diǎn)是允許以動(dòng)詞為中心構(gòu)造分析結(jié)果,盡管文法規(guī)則只描如果兩個(gè)句子的底層的語義關(guān)系一致,各名詞成分所代表的格關(guān)系不會(huì)發(fā)生相應(yīng)的變化。例如,被動(dòng)句“BillwashitbyMary”與上述主動(dòng)句具有不同的句法分析樹,但格表示完全相同。格文法2019-6-17謝謝觀賞43如果兩個(gè)句子的底層的語義關(guān)系一致,各名詞成分所代表的格關(guān)系不格文法2019-6-17謝謝觀賞44格文法2019-6-17謝謝觀賞442019-6-17謝謝觀賞45內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析
8.6語料庫 8.7信息檢索 8.8機(jī)器翻譯 8.9問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞45內(nèi)容提要8.1概述語用分析與知識(shí)、上下文和推理等因素有關(guān)。維諾格拉德(WinogradT)認(rèn)為語言是一個(gè)講話者和聽者之間關(guān)于一個(gè)共同的世界的一種通信手段。語言是一種社會(huì)交際工具,研究語言必須研究其社會(huì)功能。維諾格拉德認(rèn)為語義理論必須在三個(gè)平面上描述關(guān)系,(1)確定詞的意義(2)確定詞組在句法結(jié)構(gòu)中的意義(3)一個(gè)自然語言的句子決不應(yīng)被孤立地解釋。一種語義理論必須描述一個(gè)句子的意義如何依賴于它的上下文。語用分析2019-6-17謝謝觀賞46語用分析與知識(shí)、上下文和推理等因素有關(guān)。維諾格拉德(Wino語義理論必須涉及語言學(xué)背景(說話的上下文)和現(xiàn)實(shí)社會(huì)背景(即同非語言學(xué)事實(shí)的知識(shí)的相互作用),語義理論必須同句法和語言的邏輯方面(演繹推理)相聯(lián)系。正是基于這些觀點(diǎn),即語法、語義和語用學(xué)相互作用的觀點(diǎn),1970年維諾格拉德成功地研究了被人稱為“絕技”的自然語言對(duì)話系統(tǒng)SHRDLU,實(shí)現(xiàn)人與計(jì)算機(jī)之間的靈活對(duì)話。這項(xiàng)創(chuàng)舉震動(dòng)了當(dāng)時(shí)的人工智能界。語用分析2019-6-17謝謝觀賞47語義理論必須涉及語言學(xué)背景(說話的上下文)和現(xiàn)實(shí)社會(huì)背景2019-6-17謝謝觀賞48內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫
8.7信息檢索 8.8機(jī)器翻譯 8.9問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞48內(nèi)容提要8.1概述語料庫語言學(xué)語料庫語言學(xué)(corpuslinguistics)語言學(xué)知識(shí)的源泉是大規(guī)模活生生的語料,要想讓計(jì)算機(jī)理解自然語言,首先要讓計(jì)算機(jī)能從庫存的大規(guī)模語料中自動(dòng)或半自動(dòng)地獲取語言理解所需的各種知識(shí),對(duì)語言現(xiàn)象作出客觀的、細(xì)致的描述。目前采用的主要手段是建立各種統(tǒng)計(jì)模型,可用于詞類的自動(dòng)標(biāo)注,以及句法語義的更高層次的分析。該方法可以和規(guī)則方法相互補(bǔ)充。2019-6-17謝謝觀賞49語料庫語言學(xué)語料庫語言學(xué)(corpuslinguistic在當(dāng)今計(jì)算技術(shù)條件下,要想把處理自然語言所需要的知識(shí)都用現(xiàn)有的知識(shí)表示技術(shù)明確表達(dá)出來,是不可能的。這既是由于這種知識(shí)的“數(shù)量”巨大,有時(shí)由于它們?cè)凇百|(zhì)”的方面高度的不確定性和模糊性。最近十幾年來新提出的語料庫語言學(xué),它順應(yīng)了大規(guī)模真實(shí)文本處理的需要,提出了以計(jì)算機(jī)語料庫為基礎(chǔ)的語言學(xué)研究及自然語言處理的新思想。語料庫語言學(xué)2019-6-17謝謝觀賞50在當(dāng)今計(jì)算技術(shù)條件下,要想把處理自然語言所需要的知識(shí)都用現(xiàn)有基于語料庫的處理思想能夠在工程上、在寬廣的語言覆蓋面上解決大規(guī)模真實(shí)文本處理這一極其艱巨的課題,對(duì)傳統(tǒng)的處理方法的一個(gè)強(qiáng)有了的補(bǔ)充。新型的智能計(jì)算機(jī)和多媒體計(jì)算機(jī)均要求設(shè)計(jì)出更為友好的人機(jī)界面,使自然語言、文字、圖像和聲音等信號(hào)都能直接輸入計(jì)算機(jī)。要求計(jì)算機(jī)能以自然語言與人進(jìn)行對(duì)話交流,就需要計(jì)算機(jī)具有自然語言能力,尤其是口語理解和生成能力。語料庫語言學(xué)2019-6-17謝謝觀賞51基于語料庫的處理思想能夠在工程上、在寬廣的語言覆蓋面上解決大語料庫語言學(xué)及其特點(diǎn)傳統(tǒng)的句法-語義分析技術(shù),所采取的主要研究方法是基于規(guī)則的方法由于自然語言理解的復(fù)雜性,各種知識(shí)的“數(shù)量”浩瀚無際,而且具有高度的不確定性和模糊性,利用規(guī)則不可能完全準(zhǔn)確地表達(dá)理解自然語言所需的各種知識(shí),而且,規(guī)則實(shí)際上面向語言的使用者人的,將它面向機(jī)器則分析結(jié)果始終不盡如人意。研究語言知識(shí)所用的真實(shí)文本稱為語料,大量的真實(shí)文本即構(gòu)成語料庫語料庫語言學(xué)2019-6-17謝謝觀賞52語料庫語言學(xué)及其特點(diǎn)語料庫語言學(xué)2019-6-17謝謝觀賞WordNetWordNet是按一定結(jié)構(gòu)組織起來的義類詞典,主要特征表現(xiàn)在
1.整個(gè)名詞組成一個(gè)繼承關(guān)系。WordNet有著嚴(yán)格的層次關(guān)系,這樣一個(gè)單詞可以把它所有的前輩的一般性的上位詞的信息都繼承下來,可以提供全局性的語義關(guān)系,具有IS-A關(guān)系
2.動(dòng)詞是一個(gè)語義網(wǎng)動(dòng)詞大概是最難以研究的詞匯,在動(dòng)詞詞典中,很少有真正的同義動(dòng)詞。表達(dá)動(dòng)詞的意義對(duì)任何詞匯語言學(xué)來說都是困難的。WordNet不做成分分析,而是進(jìn)行關(guān)系分析。這一點(diǎn)是計(jì)算語言學(xué)界所熱衷的課題,與以往的語義分析方法不同。這種關(guān)系討論的是動(dòng)詞間的縱向關(guān)系,即詞匯蘊(yùn)涵關(guān)系WordNet基于名詞和動(dòng)詞以及其他詞性的關(guān)系進(jìn)行詞類間的縱向分析,在國(guó)際計(jì)算語言學(xué)界有很大的影響。但是,它也有不足之處,如對(duì)橫向關(guān)系還沒有考慮。2019-6-17謝謝觀賞53WordNetWordNet是按一定結(jié)構(gòu)組織起來的義類詞典,WordNetWordNet是1990由Princeton大學(xué)的米勒(MillerGA)等人設(shè)計(jì)和構(gòu)造的。一部WordNet詞典將近95600個(gè)詞形(51500單詞和44100搭配詞)和70100個(gè)詞義,分為五類:名詞、動(dòng)詞、形容詞、副詞和虛詞,按語義而不是按詞性來組織詞匯信息。在WordNet詞典中,名詞有57000個(gè),含有48800個(gè)同義詞集,分成25類文件,平均深度12層。最高層為根概念,不含有固有名詞。2019-6-17謝謝觀賞54WordNetWordNet是1990由Princeton大知網(wǎng)知網(wǎng)(HowNet)是董振東研制的以漢語和英語的詞語所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫。公布的中文信息結(jié)構(gòu)庫包含:信息結(jié)構(gòu)模式:271個(gè)句法分布式:49個(gè)句法結(jié)構(gòu)式:58個(gè)實(shí)例:11,000詞語總字?jǐn)?shù):中文60,000字2019-6-17謝謝觀賞55知網(wǎng)知網(wǎng)(HowNet)是董振東研制的以漢語和英語的詞語所代20世紀(jì)90年代,使用統(tǒng)計(jì)的方法,使機(jī)器翻譯的正確率達(dá)到60%,漢語切分的正確率達(dá)到70%,漢語語音輸入的正確率達(dá)到80%,這是對(duì)傳統(tǒng)語言學(xué)的嚴(yán)重挑戰(zhàn)。許多研究人員相信,基于語料庫的統(tǒng)計(jì)模型(如n-gram模型、Markov模型、向量空間模型)不僅能勝任詞類的自動(dòng)標(biāo)注任務(wù),而且也能夠應(yīng)用到句法和語義等更高層次的分析上來。這種方法有希望在工程上、在寬廣的語言覆蓋面上解決大規(guī)模真實(shí)文本處理這一極其艱巨的課題,至少也能對(duì)基于規(guī)則的自然語言處理系統(tǒng)提供一種強(qiáng)有力的補(bǔ)充機(jī)制。統(tǒng)計(jì)方法的應(yīng)用2019-6-17謝謝觀賞5620世紀(jì)90年代,使用統(tǒng)計(jì)的方法,使機(jī)器翻譯的正確率達(dá)到60統(tǒng)計(jì)方法的應(yīng)用大規(guī)模真實(shí)文本處理的數(shù)學(xué)方法主要是統(tǒng)計(jì)方法。
基于語料庫的統(tǒng)計(jì)模型(如Markov模型、向量空間模型)不僅能勝任詞類的自動(dòng)標(biāo)注任務(wù),而且也能夠應(yīng)用到句法和語義等更高層次的分析上來。2019-6-17謝謝觀賞57統(tǒng)計(jì)方法的應(yīng)用大規(guī)模真實(shí)文本處理的數(shù)學(xué)方法主要是統(tǒng)計(jì)方法。由于漢語句子的最小構(gòu)成單位是字,有意義的最小單位卻是詞,而漢語詞與詞之間又沒有分割符號(hào)(英語詞和詞之間是空格)。因此,漢語理解首先要進(jìn)行漢語自動(dòng)分詞??梢愿爬閮纱箢惙椒?,無詞典分詞,它完全依靠整段文章中漢字之間的搭配的頻率算出成詞可能有詞典分詞,是一種更有普遍意義的分詞方法。有詞典分詞主要有最大匹配法,逆向最大匹配法,逐詞遍歷匹配法,設(shè)立切分標(biāo)志法,以及正向最佳匹配和逆向最佳匹配法,而這些方法的一個(gè)基本思想都是要依次分出待切分串的可能最長(zhǎng)成詞漢語自動(dòng)分詞2019-6-17謝謝觀賞58由于漢語句子的最小構(gòu)成單位是字,有意義的最小單位卻是詞,而首先,根據(jù)漢語詞典(有56800條詞匯)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn):雖然詞典中的最長(zhǎng)詞可以達(dá)到為20多個(gè)字節(jié)(十幾個(gè)漢字),但是大多數(shù)漢語詞都可以由前兩字唯一確定,這樣的詞占絕大多數(shù)(如在上述詞典中占總詞匯量的85%以上)?;诮y(tǒng)計(jì)結(jié)果的分詞2019-6-17謝謝觀賞59首先,根據(jù)漢語詞典(有56800條詞匯)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn):雖兩個(gè)首字相同的詞的個(gè)數(shù)的統(tǒng)計(jì)根據(jù)前兩字可確定的詞個(gè)數(shù) 詞總數(shù) 所占百分比(%)
1 48431 85.22
2 2801×2 9.86
3 514×3 2.71
4 118×4 0.83
5 46×5 0.40
6 30×6 0.32
7 16×7 0.20
8 6×8 0.08
9 8×9 0.13
10 5×10 0.09
14 2×14 0.05
15 3×15 0.08
18 1×18 0.03
漢語自動(dòng)分詞2019-6-17謝謝觀賞60兩個(gè)首字相同的詞的個(gè)數(shù)的統(tǒng)計(jì)漢語自動(dòng)分詞2019-6-17謝主要是在字典索引的支持下進(jìn)行的,索引結(jié)構(gòu)可以分為兩級(jí)。一級(jí)索引就用漢字內(nèi)碼,查找算法用散列方法。而二級(jí)索引采用整個(gè)詞長(zhǎng)。漢語機(jī)械分詞2019-6-17謝謝觀賞61主要是在字典索引的支持下進(jìn)行的,索引結(jié)構(gòu)可以分為兩級(jí)。漢語機(jī)最大匹配法。最大匹配法簡(jiǎn)稱MM方法。其思想是:在計(jì)算機(jī)磁盤中存放一個(gè)分詞用詞典,從待切分的文本中按自左到右的順序截取一個(gè)定長(zhǎng)的漢字串,通常為為詞典中的最大詞長(zhǎng),這個(gè)字符串的長(zhǎng)度稱作最大詞長(zhǎng)。將這個(gè)具有最大詞長(zhǎng)的字符串與詞典中的詞進(jìn)行匹配,若匹配成功,則可確定這個(gè)字符串為詞,計(jì)算機(jī)程序的指針向后移動(dòng)與給定最大詞長(zhǎng)相應(yīng)個(gè)數(shù)的漢字,繼續(xù)進(jìn)行匹配;否則,把該字符串從右邊逐次減去一個(gè)漢字,再與詞典中的詞進(jìn)行匹配,直到成功為止。逆向最大匹配法。逆向最大匹配法簡(jiǎn)稱RMM法。這種方法的基本原理與MM法相同,所不同的是分詞時(shí)對(duì)待切分文本的掃描方向。MM方法從待切分文本中截取字符串的方向是從左到右,而RMM方法則是從右向左。在與詞典匹配不成功時(shí),將所截取的漢字串從左至右逐次減去一個(gè)漢字,再與詞典中的詞進(jìn)行匹配,直到匹配成功為上。實(shí)驗(yàn)表明,RMM法的切詞正確率要比MM法高匹配法分詞2019-6-17謝謝觀賞62最大匹配法。最大匹配法簡(jiǎn)稱MM方法。其思想是:在計(jì)算機(jī)磁盤中分詞過程中的歧義問題。歧義字段在中文文本中是普遍存在的,歧義切分是自動(dòng)分詞中不可避免的現(xiàn)象,是自動(dòng)分詞中的一個(gè)比較棘手的問題。對(duì)歧義字段的處理水平,直接影響著自動(dòng)分詞系統(tǒng)的分詞準(zhǔn)確率。未登錄詞的識(shí)別問題。未登錄詞是指沒有在詞典中出現(xiàn)、在漢語文本中又應(yīng)該當(dāng)作一個(gè)詞將其分開的那些字符串。包括中外人名、中外地名、機(jī)構(gòu)組織名、事件名、縮略語、派生詞、各種專業(yè)術(shù)語以及在不斷發(fā)展和約定俗成的一些新詞語。未登錄詞種類繁多、規(guī)模宏大,對(duì)它們識(shí)別正確與否直接影響著分詞系統(tǒng)的正確率。然而,目前對(duì)于這些詞語的自動(dòng)辨識(shí)盡管作了不少的研究,但要想達(dá)到實(shí)際應(yīng)用的要求,仍還有不少的困難。漢語分詞的難點(diǎn)2019-6-17謝謝觀賞63分詞過程中的歧義問題。歧義字段在中文文本中是普遍存在的,歧義除了由于未登錄詞而引起的歧義,切分歧義主要有三種類型:交集型歧義,即漢字串ABC既可切成AB/C,又可切成A/BC。組合型歧義,即漢字串既可切分成AB,又可切分成A/B。混合型歧義,是前兩種的自我嵌套或三者的交叉組合產(chǎn)生的。為了既能得到較高的準(zhǔn)確率,又有較小的開銷,可以著重解決相對(duì)數(shù)量較大又較容易解決的交集型歧義。漢語分詞的難點(diǎn)2019-6-17謝謝觀賞64除了由于未登錄詞而引起的歧義,切分歧義主要有三種類型:漢語分詞類分析漢語的發(fā)展是先有字后有詞,所以關(guān)于詞的研究還存在一些問題,比較突出的是漢語詞類的兼類問題。例如,大量的雙字動(dòng)詞兼作名詞。要進(jìn)行漢語理解,如果不把詞類先確定下來的話,那么下一步的分析也難以進(jìn)行。漢語詞類的兼類處理方法兩種方法根據(jù)規(guī)則消除兼類,根據(jù)預(yù)料庫統(tǒng)計(jì)消除兼類漢語分詞的難點(diǎn)2019-6-17謝謝觀賞65詞類分析漢語分詞的難點(diǎn)2019-6-17謝謝觀賞652019-6-17謝謝觀賞66內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索
8.8機(jī)器翻譯 8.9問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞66內(nèi)容提要8.1概述信息檢索(informationretrieval,IR)是指將信息按一定的方式組織和存儲(chǔ)起來,并根據(jù)用戶的需要找出有關(guān)信息的過程。1950年,穆爾(MooreC)根據(jù)圖書館的參考咨詢和文摘索引提出了信息檢索。信息檢索包括信息存儲(chǔ)和檢索。在檢索之前必須將信息收集起來,按科學(xué)方法進(jìn)行整理,并按一定準(zhǔn)則存儲(chǔ)起來,形成書本式檢索工具或者計(jì)算機(jī)可讀數(shù)據(jù)庫。在檢索時(shí),用戶根據(jù)自身需求提交查詢給信息檢索系統(tǒng),系統(tǒng)利用存儲(chǔ)信息所依據(jù)的準(zhǔn)則,在文檔集中找出與查詢條件相關(guān)的文檔子集,并按照它們與查詢條件的相關(guān)性進(jìn)行排序,最后為用戶返回一個(gè)有序的文檔子集。信息檢索2019-6-17謝謝觀賞67信息檢索(informationretrieval,IR從廣義上講,信息檢索包括兩個(gè)過程,一是信息存儲(chǔ)(informationstorage),即信息的標(biāo)引、加工和存儲(chǔ)過程:二是信息檢索(informationretrieval),即信息用戶的查找過程。從狹義上講,信息檢索僅指后一部分。信息檢索的本質(zhì)是一個(gè)匹配的過程即用戶的信息需求和信息存儲(chǔ)的信息集合進(jìn)行比較和選擇的過程信息檢索2019-6-17謝謝觀賞68從廣義上講,信息檢索包括兩個(gè)過程,信息檢索2019-6-17信息檢索過程2019-6-17謝謝觀賞69信息檢索過程2019-6-17謝謝觀賞69信息檢索的類型按信息檢索的內(nèi)容劃分文獻(xiàn)檢索數(shù)據(jù)檢索事實(shí)檢索概念檢索按信息檢索的組織方式劃分超文本檢索是對(duì)每個(gè)節(jié)點(diǎn)中儲(chǔ)存的信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)信息進(jìn)行的檢索。與傳統(tǒng)文本的線性順序不同,超文本檢索強(qiáng)調(diào)中心節(jié)點(diǎn)之間的語義聯(lián)結(jié)結(jié)構(gòu),靠系統(tǒng)提供的工具進(jìn)行圖示穿行和節(jié)點(diǎn)展示,提供瀏覽式查詢,可進(jìn)行跨庫檢索。全文本檢索多媒體檢索超文本檢索2019-6-17謝謝觀賞70信息檢索的類型按信息檢索的內(nèi)容劃分按信息檢索的組織方式劃分超2019-6-17謝謝觀賞71內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機(jī)器翻譯
8.9問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞71內(nèi)容提要8.1概述機(jī)器翻譯是利用計(jì)算機(jī)把一種自然語言轉(zhuǎn)變成另一種自然語言的過程。用以完成這一過程的軟件叫做機(jī)器翻譯系統(tǒng)。機(jī)器翻譯是語言學(xué)、人工智能、計(jì)算技術(shù)、認(rèn)知科學(xué)等學(xué)科相結(jié)合的產(chǎn)物。人作翻譯時(shí),把一個(gè)源語言句子譯成目標(biāo)語言句子,涉及到四個(gè)基本操作:目標(biāo)語言單詞的檢索、調(diào)序、刪詞、增詞;機(jī)器翻譯系統(tǒng)的操作過程也不例外,有檢索、分析、轉(zhuǎn)換和生成的主要四個(gè)階段。這被稱為基于分析和轉(zhuǎn)換的機(jī)器翻譯系統(tǒng)。也被認(rèn)為是模擬人類翻譯活動(dòng)最恰當(dāng)?shù)臋C(jī)制。機(jī)器翻譯2019-6-17謝謝觀賞72機(jī)器翻譯是利用計(jì)算機(jī)把一種自然語言轉(zhuǎn)變成另一種自然語言的過程20世紀(jì)50年代初到60年代中為大發(fā)展時(shí)期。但是由于當(dāng)時(shí)對(duì)機(jī)器翻譯的復(fù)雜性認(rèn)識(shí)不足而產(chǎn)生了過分的樂觀情20世紀(jì)60年代中到70年代初由于遇到了困難而處于低潮時(shí)期。20世紀(jì)80年代機(jī)器翻譯開始復(fù)興,注意力幾乎都集中在人助自動(dòng)翻譯上,人助工作包括譯前編輯(或受限語言),翻譯期間的交互式解決問題,譯后編輯等。幾乎所有的研究活動(dòng)都致力于在傳統(tǒng)的基于規(guī)則和“中間語言”模式的基礎(chǔ)上進(jìn)行語言分析和生成方法的探索,這些方法都伴有人工智能類型的知識(shí)庫。在20世紀(jì)90年代早期,機(jī)器翻譯研究被新興的基于語料庫的方法向前推進(jìn),出現(xiàn)新的統(tǒng)計(jì)方法的引入以及基于案例的機(jī)器翻譯等。機(jī)器翻譯2019-6-17謝謝觀賞7320世紀(jì)50年代初到60年代中為大發(fā)展時(shí)期。但是由于當(dāng)時(shí)對(duì)機(jī)機(jī)器翻譯的一般過程包括:源語文輸入、識(shí)別與分析、生成與綜合和目標(biāo)語言輸出。當(dāng)源語文通過鍵盤或掃描器或話筒輸入計(jì)算機(jī)后,計(jì)算機(jī)首先對(duì)一個(gè)單詞逐一識(shí)別,再按照標(biāo)點(diǎn)符號(hào)和一些特征詞(往往是虛詞)識(shí)別句法和語義。然后查找機(jī)器內(nèi)存儲(chǔ)的詞典和句法表、語義表,把這些加工后的語文信息傳輸?shù)揭?guī)則系統(tǒng)中去。從源語文輸入的字符系列的表層結(jié)構(gòu)分析到深層結(jié)構(gòu),在機(jī)器內(nèi)部就得到一種類似喬姆斯基語法分析的“樹形圖”。機(jī)器翻譯2019-6-17謝謝觀賞74機(jī)器翻譯的一般過程包括:源語文輸入、識(shí)別與分析、生成與綜合和基于規(guī)則的機(jī)器翻譯流程圖2019-6-17謝謝觀賞75基于規(guī)則的機(jī)器翻譯流程圖2019-6-17謝謝觀賞75
1.基于分析和轉(zhuǎn)換的機(jī)器翻譯方法基于分析和轉(zhuǎn)換的機(jī)器翻譯方法就是自動(dòng)實(shí)現(xiàn)源語言到目標(biāo)語言的轉(zhuǎn)換,它采取了一系列的分析和轉(zhuǎn)換的生成層次,使一個(gè)源語言句子經(jīng)過不同的中間表達(dá)形式,最終達(dá)到目標(biāo)語言句子的表示。其目的是盡可能地加深對(duì)源語言的理解,生成盡可能恰當(dāng)?shù)哪繕?biāo)語言形式。這種方法比較全面地體現(xiàn)了語言學(xué)知識(shí)在機(jī)器翻譯中的應(yīng)用,是了解機(jī)器翻譯實(shí)現(xiàn)過程的非常合適的模式。機(jī)器翻譯的實(shí)現(xiàn)方法2019-6-17謝謝觀賞761.基于分析和轉(zhuǎn)換的機(jī)器翻譯方法機(jī)器翻譯的實(shí)現(xiàn)方法2019
句子經(jīng)過分析階段之后,進(jìn)入轉(zhuǎn)換和生成階段。這兩者一般聯(lián)系得比較緊密,有時(shí)無法嚴(yán)格區(qū)分,因?yàn)檗D(zhuǎn)換到目標(biāo)語言也就是要生成目標(biāo)語言的詞匯、短語、句子。可以把句子結(jié)構(gòu)的轉(zhuǎn)換也就是源語言的句法樹轉(zhuǎn)換長(zhǎng)合適的目標(biāo)語言對(duì)應(yīng)形式當(dāng)作轉(zhuǎn)換,而后續(xù)的許多處理都當(dāng)作生成階段的處理步驟看待。基于分析和轉(zhuǎn)換的機(jī)器翻譯方法2019-6-17謝謝觀賞77句子經(jīng)過分析階段之后,進(jìn)入轉(zhuǎn)換和生成階段。這
實(shí)質(zhì)上,機(jī)器翻譯方法對(duì)語言的處理就是在兩種語言之間搭一座橋,實(shí)現(xiàn)一種語言到另一種語言意義等價(jià)的轉(zhuǎn)換。它并非象自然語言理解那樣只是對(duì)一種語言的操作,只需作針對(duì)一種語言的分析。作為一個(gè)機(jī)器翻譯系統(tǒng),它既要考慮源語言的語法和語義規(guī)律,也要考慮目標(biāo)語言的這方面規(guī)律,忽略了任何一方都是不行的。也就是說,對(duì)于雙語互譯規(guī)律的發(fā)現(xiàn)和應(yīng)用才是機(jī)器翻譯最本質(zhì)的特征。所以,在詞、短語和句子這三個(gè)層次上尋找源語言的目標(biāo)語言翻譯的等價(jià)物是機(jī)器翻譯中轉(zhuǎn)換與生成的任務(wù)?;诜治龊娃D(zhuǎn)換的機(jī)器翻譯方法2019-6-17謝謝觀賞78實(shí)質(zhì)上,機(jī)器翻譯方法對(duì)語言的處理就是在兩種語言之
通常,機(jī)器翻譯的研究中將轉(zhuǎn)換看做整個(gè)翻譯過程中的一個(gè)階段。然而,在語義結(jié)構(gòu)上進(jìn)行轉(zhuǎn)換卻是一種好的方式。語義結(jié)構(gòu)可以是跨語言的,有能力同時(shí)應(yīng)用于分析和生成。另一方面,當(dāng)機(jī)器翻譯系統(tǒng)的翻譯語言對(duì)擴(kuò)展時(shí),還可以應(yīng)用于多種不同的語言。但要注意,大規(guī)模的自然語言語義描述相當(dāng)復(fù)雜,因而在機(jī)器翻譯系統(tǒng)中的應(yīng)用往往會(huì)受到限制,難以采用這樣的語義表示作為轉(zhuǎn)換的基本結(jié)構(gòu)?;诜治龊娃D(zhuǎn)換的機(jī)器翻譯方法2019-6-17謝謝觀賞79通常,機(jī)器翻譯的研究中將轉(zhuǎn)換看做整個(gè)翻譯過程
一般情況下,分析以句法為主、語義為輔,正確的句法結(jié)構(gòu)轉(zhuǎn)換加正確的詞匯譯文可以從源語言向目標(biāo)語言傳遞完整的正確信息。因此,以句法結(jié)構(gòu)轉(zhuǎn)換附加上一定的語義信息,能夠構(gòu)成轉(zhuǎn)換的基本層次。不足之處是:因?yàn)榫浞ǚ治龅慕Y(jié)果是面向源語言的,而要生成合適的目標(biāo)語言譯文,轉(zhuǎn)換部分常常引入許多目標(biāo)語言方面的約束,使得轉(zhuǎn)換規(guī)則變得復(fù)雜了。基于分析和轉(zhuǎn)換的機(jī)器翻譯方法2019-6-17謝謝觀賞80一般情況下,分析以句法為主、語義為輔,正確的句
就標(biāo)準(zhǔn)的機(jī)器翻譯系統(tǒng)來說,句子和短語層次的結(jié)構(gòu)轉(zhuǎn)換是機(jī)器翻譯轉(zhuǎn)換部分的研究重點(diǎn)。通常使用轉(zhuǎn)換規(guī)則,就可以實(shí)現(xiàn)源語言句法結(jié)構(gòu)到目標(biāo)語言句法結(jié)構(gòu)的轉(zhuǎn)換。這方面一般采用產(chǎn)生式方式的轉(zhuǎn)換規(guī)則形式:S:S1+S2+…+Si<C1C2…CK>→T1+T2+…+Tj:T
上式理解為:S是SL(源語言)的某個(gè)待翻譯單位(句子、短語等等),S1~Si是S中的下一級(jí)組成單位;對(duì)于S,如果滿足條件<C1C2…Ck>,則TL(目標(biāo)語言)中有T1~Tj譯文構(gòu)成了相應(yīng)的等價(jià)物T?;诜治龊娃D(zhuǎn)換的機(jī)器翻譯方法2019-6-17謝謝觀賞81就標(biāo)準(zhǔn)的機(jī)器翻譯系統(tǒng)來說,句子和短語層次的結(jié)構(gòu)
這樣的方法有兩個(gè)特點(diǎn):一是面向源語言分析,因?yàn)樵凑Z言中的一個(gè)句子已經(jīng)由句法、語義分析等階段分析完畢,生成了關(guān)于源語言句子的某種中間表示,轉(zhuǎn)換以這種源語言中間表示作為輸入;二是直接轉(zhuǎn)換,即對(duì)于S表示,直接給出譯文形式,一般不需要在目標(biāo)語言內(nèi)再作進(jìn)一步轉(zhuǎn)換,T1~Tj可以直接包括目標(biāo)語言的詞匯,也可以是對(duì)應(yīng)于S1~Si的譯文組塊?;诜治龊娃D(zhuǎn)換的機(jī)器翻譯方法2019-6-17謝謝觀賞82這樣的方法有兩個(gè)特點(diǎn):一是面向源語言分析,因?yàn)?/p>
上述方法稱為基于句法的轉(zhuǎn)換方法,因?yàn)镾1+S2+…+Si一般來說就是源語言的的句法結(jié)構(gòu)表示;也可以稱為直接轉(zhuǎn)換方法,因?yàn)閷?duì)于每個(gè)源語言的翻譯組塊,都馬上給出一個(gè)目標(biāo)語言組塊與之對(duì)應(yīng)。應(yīng)該說,這種轉(zhuǎn)換方法符合人的直覺認(rèn)識(shí),也能夠?qū)崿F(xiàn)?;诜治龊娃D(zhuǎn)換的機(jī)器翻譯方法2019-6-17謝謝觀賞83上述方法稱為基于句法的轉(zhuǎn)換方法,因?yàn)镾1+S2+基于中間語言的翻譯方法是對(duì)源語言進(jìn)行分析以后產(chǎn)生一種稱為中間語言的表示形式,然后直接由這種中間語言的表示形式生成目標(biāo)語言。所謂中間語言就是自然語言的計(jì)算機(jī)表示形式的系統(tǒng)化,它試圖創(chuàng)造出一種獨(dú)立于各種自然語言,同時(shí)又能表示各種自然語言的人工語言。2.基于中間語言的翻譯方法基于中間語言的機(jī)器翻譯方法2019-6-17謝謝觀賞842.基于中間語言的翻譯方法基于中間語言的機(jī)器翻譯方法201
基于中間語言的機(jī)器翻譯方法主要有兩個(gè)優(yōu)點(diǎn)。首先,獨(dú)立的中間表示形式為多語種之間的互譯的實(shí)現(xiàn)提供了一種經(jīng)濟(jì)有效的途徑。假設(shè)要對(duì)N種語言進(jìn)行互譯,則有N*(N-1)個(gè)語言對(duì)。不同方向的翻譯是不同的語言對(duì)。此時(shí)如果采用基于轉(zhuǎn)換的方法,因?yàn)榘岩环N語言翻譯成另一種語言都需要一個(gè)不同的轉(zhuǎn)換機(jī)制(或模塊),所以N*(N-1)個(gè)語言對(duì)共需要N*(N-1)個(gè)獨(dú)立的轉(zhuǎn)換機(jī)制。而采用中間語言的方法,由于對(duì)每一種語言只需實(shí)現(xiàn)將該種語言翻譯成中間語言和把中間語言翻譯成該種語言的目標(biāo)語言這樣兩個(gè)模塊,所以總共只需要2N個(gè)模塊。其次,中間語言不僅是對(duì)基于中間語言的機(jī)器翻譯方法這一特定目的有意義,同時(shí),作為一種通用的自然語言表示,也值得深入研究?;谥虚g語言的機(jī)器翻譯方法2019-6-17謝謝觀賞85基于中間語言的機(jī)器翻譯方法主要有兩個(gè)優(yōu)點(diǎn)。首先,
基于中間語言的機(jī)器翻譯方法的優(yōu)勢(shì)是無需一種語言到另一種語言的一一轉(zhuǎn)換,對(duì)于多語種的翻譯系統(tǒng)可以節(jié)約大量的轉(zhuǎn)換知識(shí)的手工獲取工作量。假如有N種語對(duì)需要相互翻譯,只要有2N個(gè)分析和生成模塊就夠了。其中一半是源語言分析模塊,輸入為原文,輸出以IL表示;另一半是目標(biāo)語言生成模塊,輸入為IL表示,輸出為目標(biāo)語言譯文?;谥虚g語言的機(jī)器翻譯方法2019-6-17謝謝觀賞86基于中間語言的機(jī)器翻譯方法的優(yōu)勢(shì)是無需一種語言
中間語言通常用語義概念表示,這些概念符號(hào)采用英語單詞符號(hào)或其它自行定義的符號(hào)來表示。大規(guī)模的IL需要大量的概念表示,需要生成對(duì)應(yīng)的概念詞典。如果用語義概念來描寫一個(gè)句子,則構(gòu)成復(fù)雜的語義網(wǎng)絡(luò)。對(duì)于多語種的機(jī)器翻譯來說,使用中間語言作為相互翻譯的中介是可取的。在理想狀態(tài)下,中間語言應(yīng)該沒有或極少有歧義,結(jié)構(gòu)嚴(yán)謹(jǐn),詞匯單義,便于計(jì)算機(jī)處理。有了中間語言,一切源語言分析的結(jié)果和目標(biāo)語言生成的開端都由它來表示?;谥虚g語言的機(jī)器翻譯方法2019-6-17謝謝觀賞87中間語言通常用語義概念表示,這些概念符號(hào)采用英
然而,中間語言的機(jī)器翻譯方法也常遭到懷疑。因?yàn)槭欠衲軌驑?gòu)造出表示各種不同的自然語言語法、語義的中間語言至少目前還是未知數(shù)。此外,中間語言能不能把各種語言的所有特征保留下來,又能很好生成對(duì)應(yīng)的各種語言也是問題。所以,構(gòu)造中間語言是一個(gè)巨大、復(fù)雜的工程,還包含許多理論研究,迄今為止的探索還沒有好的答案?;谥虚g語言的機(jī)器翻譯方法2019-6-17謝謝觀賞88然而,中間語言的機(jī)器翻譯方法也常遭到懷疑。因3.基于統(tǒng)計(jì)的機(jī)器翻譯方法基于統(tǒng)計(jì)的機(jī)器翻譯方法,一般不要任何語言學(xué)知識(shí),它的基本原理是實(shí)現(xiàn)源語言詞匯到目標(biāo)語言詞匯的映射。其思路受到語音識(shí)別研究的啟發(fā),因而應(yīng)用了類似的方法來實(shí)現(xiàn)。研究者用大規(guī)模的雙語語料庫作為基礎(chǔ),對(duì)源語言和目標(biāo)語言詞匯的對(duì)應(yīng)關(guān)系進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)規(guī)律輸出譯文。這種方法沒有使用語言知識(shí),主要特征是概率統(tǒng)計(jì)與隨機(jī)過程的方法成為了分析和生成過程的唯一方法。它的主要內(nèi)容是雙語句對(duì)的對(duì)齊,通過詞匯同現(xiàn)的可能性來計(jì)算一種語言的一個(gè)詞映射到另一種語言的一個(gè)詞(或兩個(gè)、零個(gè)詞)的概率。應(yīng)該說,基于統(tǒng)計(jì)的機(jī)器翻譯方法的出現(xiàn)改變了機(jī)器翻譯研究的面貌,從而開始了機(jī)器翻譯研究的新階段。不過,有些學(xué)者也對(duì)純統(tǒng)計(jì)方法提出了異議,認(rèn)為必須引入高層語法、語義模型,顯然這是正確的。否則,基于統(tǒng)計(jì)的機(jī)器翻譯方法不可能產(chǎn)生高質(zhì)量?;诮y(tǒng)計(jì)的機(jī)器翻譯方法2019-6-17謝謝觀賞893.基于統(tǒng)計(jì)的機(jī)器翻譯方法基于統(tǒng)計(jì)的機(jī)器翻譯方法2019-6由于當(dāng)前計(jì)算機(jī)在運(yùn)算速度和存儲(chǔ)容量方面都有巨大的提高,可以獲取大量的機(jī)讀語料庫,因此在機(jī)器翻譯中應(yīng)用統(tǒng)計(jì)方法的條件已經(jīng)成熟。機(jī)器翻譯的噪聲通道模型可以視作最早的機(jī)器翻譯思想的某中復(fù)活,其思路可以這樣理解:假設(shè)說話者已經(jīng)用目標(biāo)語想好了一句話T,但是說出的卻是源語言句子S。這樣一個(gè)過程可以看成為編碼過程。而統(tǒng)計(jì)的機(jī)器翻譯就是要從S回推T,可以看成解碼過程。這樣,統(tǒng)計(jì)的機(jī)器翻譯任務(wù)分為兩個(gè)部分:一是建模,即建立翻譯的計(jì)算方法以及從雙語語料庫中估計(jì)模型的參數(shù);二是解碼,即尋求一種高效搜索算法取有關(guān)概率計(jì)算的最大值?;诮y(tǒng)計(jì)的機(jī)器翻譯方法2019-6-17謝謝觀賞90由于當(dāng)前計(jì)算機(jī)在運(yùn)算速度和存儲(chǔ)容量方面都有巨大的提高
在概率計(jì)算的前后,轉(zhuǎn)換是進(jìn)行有關(guān)預(yù)處理和后處理,例如句子當(dāng)中的日期、時(shí)間、數(shù)字、人名等應(yīng)該用適當(dāng)?shù)念悇e標(biāo)志加以替換,以便更好地進(jìn)行計(jì)算,計(jì)算后再換回來。因?yàn)檫@類詞不屬于一般的詞匯,單詞本身在語料庫中的出現(xiàn)缺乏代表性。建模就是設(shè)計(jì)各個(gè)模型的計(jì)算公式。因?yàn)橹苯佑?jì)算某個(gè)句子出現(xiàn)的概率是比較困難的,語料庫不可能足夠大到包含所有句子,必須進(jìn)行合理的、適當(dāng)?shù)暮?jiǎn)化。這是統(tǒng)計(jì)方法的特點(diǎn),所得到的結(jié)果是近似值,但是因?yàn)楦怕时旧砭筒皇蔷_的,所以這些近似完全可以接受?;诮y(tǒng)計(jì)的機(jī)器翻譯方法2019-6-17謝謝觀賞91在概率計(jì)算的前后,轉(zhuǎn)換是進(jìn)行有關(guān)預(yù)處理和后處理,例如
總之,基于統(tǒng)計(jì)的機(jī)器翻譯方法可以簡(jiǎn)單的這樣看:將原始的某個(gè)句子按詞折開,然后全部單詞存儲(chǔ);翻譯則是取出,按概率統(tǒng)計(jì)的方法重組句子,這樣的句子就是統(tǒng)計(jì)方法的翻譯結(jié)果。當(dāng)然,我們還是認(rèn)為應(yīng)該加強(qiáng)統(tǒng)計(jì)方法與語法分析、語義分析相結(jié)合的研究?;诮y(tǒng)計(jì)的機(jī)器翻譯方法2019-6-17謝謝觀賞92總之,基于統(tǒng)計(jì)的機(jī)器翻譯方法可以簡(jiǎn)單的這樣看:將原4.基于記憶的機(jī)器翻譯方法建立機(jī)器翻譯系統(tǒng)需要大量的知識(shí)。在基于轉(zhuǎn)換和基于中間語言的機(jī)器翻譯方法中,知識(shí)按一定規(guī)則譯成代碼,這既耗時(shí)花費(fèi)也大。此外,知識(shí)獲取瓶頸阻礙了機(jī)器翻譯的快速發(fā)展,這是早期機(jī)器翻譯面臨的重大難題。為克服這一困難,除了上節(jié)介紹的統(tǒng)計(jì)方法外,日本機(jī)器翻譯專家Nagao在80年代提出了一種新方法,用已經(jīng)存在的翻譯實(shí)例(雙語文本)作為知識(shí)源,這種方法稱為基于記憶的翻譯,后來普遍稱為基于實(shí)例的翻譯?;趯?shí)例的思想已被廣泛的采用,既用于機(jī)器翻譯的設(shè)計(jì),也用于機(jī)器翻譯不同處理階段的實(shí)現(xiàn)中。用不斷積累的已經(jīng)譯好的文本作為機(jī)器翻譯的樣本的思想,也是具有吸引力的?;谟洃浀臋C(jī)器翻譯方法2019-6-17謝謝觀賞934.基于記憶的機(jī)器翻譯方法基于記憶的機(jī)器翻譯方法2019-6
基于記憶的機(jī)器翻譯方法通過結(jié)構(gòu)化的翻譯例子直接把源語言的短語和句子與目標(biāo)語言的短語和句子對(duì)應(yīng)起來。方法的不同使得處理步驟或多或少,但都必須實(shí)現(xiàn)源語言到目標(biāo)語言的轉(zhuǎn)換,其映射關(guān)系或者是詞到詞,或者是短語或句子到與之相應(yīng)的等價(jià)物,或者是一棵句法樹到另一棵句法樹?;谟洃浀臋C(jī)器翻譯(EBMT)的實(shí)現(xiàn)過程簡(jiǎn)單概述如下:給定源語言輸入句子S,在雙語語料庫C中匹配查找一個(gè)最相近的句子S’,則S'的譯文T就被接受為S的譯文?;谟洃浀臋C(jī)器翻譯方法2019-6-17謝謝觀賞94基于記憶的機(jī)器翻譯方法通過結(jié)構(gòu)化的翻譯例子直接
翻譯的過程一般就是查找和復(fù)現(xiàn)相似的例子,發(fā)現(xiàn)和記起特定的源語言表達(dá)或相似的表達(dá)在以前是如何翻譯的,把以前的翻譯實(shí)例作為主要知識(shí)源?;谟洃浀臋C(jī)器翻譯方法的基本思想:(1)把翻譯實(shí)例存入翻譯數(shù)據(jù)庫。例如,存入漢語和英語句子對(duì);(2)對(duì)輸入的句子,在翻譯數(shù)據(jù)庫中檢索類似的翻譯例句;(3)調(diào)整實(shí)例后生成譯文?;谟洃浀臋C(jī)器翻譯方法2019-6-17謝謝觀賞95翻譯的過程一般就是查找和復(fù)現(xiàn)相似的例子,發(fā)現(xiàn)和記起
基于記憶的機(jī)器翻譯方法可以按如下步驟實(shí)現(xiàn):(1)對(duì)雙語語料庫進(jìn)行句子級(jí)對(duì)齊;(2)在語料庫的源語言一邊進(jìn)行句子分塊,稱為組塊。然后檢索輸入組塊的最佳匹配侯選,稱為源語言內(nèi)部匹配;(3)在源語言最佳匹配后選的組塊中檢索對(duì)應(yīng)目標(biāo)語言組塊,稱為雙語匹配;(4)對(duì)組塊級(jí)檢索結(jié)果進(jìn)行組合,以獲得整個(gè)源語言文本的翻譯結(jié)果。基于記憶的機(jī)器翻譯方法2019-6-17謝謝觀賞96基于記憶的機(jī)器翻譯方法可以按如下步驟實(shí)現(xiàn):基
源語言的內(nèi)部匹配就是在語料庫中查找一個(gè)與待譯句子最相似的句子。對(duì)于任意給定的一個(gè)句子,很難在語料庫中找到與之完全匹配的句子,所以對(duì)輸入文本在語料庫源語言一邊的匹配查找采用了松弛匹配技術(shù)。松弛匹配就是部分匹配,不同的部分匹配被賦予不同的分值,以反映輸入串和語料庫中某些句子串的接近程度。整個(gè)輸入組塊與語料庫組塊匹配的分值由一定的公式計(jì)算出來。最后,待翻譯文本中所有被匹配的每個(gè)輸入組塊都在語料庫中檢索出若干個(gè)最相近的組塊,組塊可以是一個(gè)句子、或者是一個(gè)從句、或者是一個(gè)短語,按照匹配分?jǐn)?shù)從大到小排列?;谟洃浀臋C(jī)器翻譯方法2019-6-17謝謝觀賞97源語言的內(nèi)部匹配就是在語料庫中查找一個(gè)與待譯
源語言內(nèi)部匹配的輸出成為輸入,即把前面從語料庫中查到的組塊、所在的句子和對(duì)應(yīng)譯文等構(gòu)成當(dāng)前處理步驟的輸入。因?yàn)槊總€(gè)輸入組塊可能在語料庫中匹配若干組塊,所以每個(gè)組塊有待進(jìn)一步處理,即在雙語匹配處理過程中又分為若干子過程,包括通過查詞典獲取詞組譯文;建立詞匯級(jí)雙語對(duì)照表;通過評(píng)分機(jī)制求出最佳翻譯句等等?;谟洃浀臋C(jī)器翻譯方法的輸出結(jié)果帶有相應(yīng)的分?jǐn)?shù),這些分值來自不同的標(biāo)準(zhǔn),相差可能很大。因此必須采用合適的函數(shù)(方式)對(duì)所有分?jǐn)?shù)進(jìn)行統(tǒng)一(歸一化),然后這些分值才有可比性?;谟洃浀臋C(jī)器翻譯方法2019-6-17謝謝觀賞98源語言內(nèi)部匹配的輸出成為輸入,即把前面從語料庫
基于記憶的機(jī)器翻譯方法的其它優(yōu)點(diǎn):(1)可以通過索引和并行處理提高處理速度;(2)可以采用最佳匹配推理;(3)可以較好地利用翻譯專家的專業(yè)知識(shí)(通過翻譯實(shí)例);(4)一個(gè)基于實(shí)例的機(jī)器翻譯系統(tǒng)的知識(shí)可以移植、共享?;谟洃浀臋C(jī)器翻譯方法2019-6-17謝謝觀賞99基于記憶的機(jī)器翻譯方法的其它優(yōu)點(diǎn):基于記憶的機(jī)2019-6-17謝謝觀賞100內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機(jī)器翻譯 8.9問答系統(tǒng)
8.10小結(jié)2019-6-17謝謝觀賞100內(nèi)容提要8.1概述問答系統(tǒng)問答系統(tǒng)(questionansweringsystem,QA)是信息檢索系統(tǒng)的一種高級(jí)形式,它能用準(zhǔn)確、簡(jiǎn)潔的自然語言回答用戶用自然語言提出的問題。問答系統(tǒng)是目前人工智能和自然語言處理領(lǐng)域中一個(gè)倍受關(guān)注并具有廣泛發(fā)展前景的研究方向。2011年2月14日,在美國(guó)最受歡迎的智力問答節(jié)目《危險(xiǎn)邊緣》(Jeopardy)中,IBM的“沃森(Watson)”超級(jí)計(jì)算機(jī)擊敗該節(jié)目的兩名總冠軍詹寧斯(JenningsK)和魯特爾(RutterB),實(shí)現(xiàn)有史以來首次人機(jī)智力問答對(duì)決,并贏取高達(dá)100萬美元的獎(jiǎng)金。這是人工智能技術(shù)取得成功的代表。2019-6-17謝謝觀賞101問答系統(tǒng)問答系統(tǒng)(questionansweringsy2019-6-17102謝謝觀賞危機(jī)邊緣2011年,“沃森”在電視娛樂節(jié)目《危機(jī)邊緣》中戰(zhàn)勝人類選手肯·詹寧斯和布拉德·拉特2019-6-17102謝謝觀賞危機(jī)邊緣2011年,“沃森”問答系統(tǒng)一般問答系統(tǒng)模型分為三層結(jié)構(gòu),分別為:用戶層、中間層、數(shù)據(jù)層。各部分的主要功能如下:
(1)用戶層(UI):供用戶輸入提問的問題,并顯示系統(tǒng)返回的答案。
(2)中間層(MI):中間處理層,主要負(fù)責(zé):分詞、處理停用詞、計(jì)算詞語相似度、計(jì)算句子相似度,返回答案集。
(3)數(shù)據(jù)層(DI):系統(tǒng)的知識(shí)庫存儲(chǔ),主要有:專業(yè)詞庫、常用詞庫、同義詞庫、停用詞庫、課程領(lǐng)域本體、《知網(wǎng)》本體、常見問題集(FAQ)庫。2019-6-17謝謝觀賞103問答系統(tǒng)一般問答系統(tǒng)模型分為三層結(jié)構(gòu),分別為:用戶層、中間層問答系統(tǒng)分類問答系統(tǒng)限定域問答系統(tǒng)開發(fā)域問答系統(tǒng)基于常用提問集問答系統(tǒng)機(jī)構(gòu)數(shù)據(jù)庫問答系統(tǒng)自由文本問答系統(tǒng)網(wǎng)絡(luò)問答系統(tǒng)固定資料庫問答系統(tǒng)單文本問答系統(tǒng)2019-6-17謝謝觀賞104問答系統(tǒng)分類問答系統(tǒng)限定域開發(fā)域基于常用提問集機(jī)構(gòu)數(shù)據(jù)庫自由問答系統(tǒng)問答系統(tǒng)自動(dòng)答題的步驟如下:1)根據(jù)專業(yè)詞庫,常用詞庫,同義詞庫對(duì)于用戶輸入的自然語言問句通過逆向最大匹配的方法進(jìn)行分詞,對(duì)于未登記詞借助于分詞工具把未登記詞添加到詞庫中,在分詞過程中同時(shí)標(biāo)注詞的詞性和權(quán)值;2)對(duì)于分詞后的結(jié)果依據(jù)停用詞庫,并參考詞性,刪除停用詞;3)對(duì)于專業(yè)詞匯采取基于本體的概念相似度方法進(jìn)行計(jì)算詞語語義相似度,對(duì)于其他詞匯采取基于《知網(wǎng)》本體計(jì)算詞語語義相似度;2019-6-17謝謝觀賞105問答系統(tǒng)問答系統(tǒng)自動(dòng)答題的步驟如下:2019-6-17謝謝觀問答系統(tǒng)4)分別計(jì)算IFIDF相似度,根據(jù)詞語的語義相似度來計(jì)算句子的語義相似度,計(jì)算詞形、句長(zhǎng)、詞序、距離相似度來計(jì)算句子的結(jié)構(gòu)相似度,最后組合起來加權(quán)求和計(jì)算句子相似度;(注:基于關(guān)鍵詞向量空間模型的TFIDF問句相似度計(jì)算方法是一種基于語料庫中出現(xiàn)的關(guān)鍵詞詞頻的統(tǒng)計(jì)方法,它是建立在大規(guī)模真實(shí)問句語料基礎(chǔ)之上的。)5)根據(jù)計(jì)算用戶提問的問題與FAQ中問題的句子相似度,定義一個(gè)相似度閾值,從FAQ中抽取不小于相似度閾值且相似度最高的問題及其答案作為用戶提問問題的答案;對(duì)于從FAQ中抽取不到答案的問題通過發(fā)郵件給專家,添加到待解決問題集中,專家回答更新FAQ。2019-6-17謝謝觀賞106問答系統(tǒng)4)分別計(jì)算IFIDF相似度,根據(jù)詞語的語義問答系統(tǒng)的結(jié)構(gòu)框圖2019-6-17謝謝觀賞107問答系統(tǒng)的結(jié)構(gòu)框圖2019-6-17謝謝觀賞1072019-6-17108謝謝觀賞檢索算法用戶打開網(wǎng)頁后在文本框中輸入關(guān)鍵字進(jìn)行搜索,系統(tǒng)將根據(jù)用戶輸入的關(guān)鍵字進(jìn)行搜索,并返回和關(guān)鍵字相關(guān)的信息,若用戶輸入的是多關(guān)鍵字系統(tǒng)將對(duì)用戶輸入的關(guān)鍵字進(jìn)行拆分,然后搜索所有含有相關(guān)信息的記錄返回給用戶界面:(1)用戶關(guān)鍵字,并進(jìn)行提交;(2)從提交表單中提取數(shù)據(jù),并進(jìn)行相應(yīng)判斷;(3)連接數(shù)據(jù)庫,建立記錄集,用查詢語句對(duì)表中數(shù)據(jù)進(jìn)行查詢;(4)將結(jié)果進(jìn)行加工顯示給用戶;(5)結(jié)束;2019-6-17108謝謝觀賞檢索算法用戶打開網(wǎng)頁后在文本2019-6-17謝謝觀賞109內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機(jī)器翻譯 8.9問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞109內(nèi)容提要8.1概述謝謝觀賞小結(jié)2019-6-17110自然語言作為人類表達(dá)和交流思想最基本的工具,在人類社會(huì)活動(dòng)中到處存在。常見的形式有口頭語言(語音)和書面語言(文字)。本章首先介紹自然語言處理的基本概念,然后從自然語言詞法、句法、語義分析、真實(shí)文本語料庫、語用分析等方面,介紹自然語言處理所涉及的關(guān)鍵技術(shù)最后介紹自然語言處理在信息檢索、機(jī)器翻譯、自動(dòng)問答系統(tǒng)等方面的應(yīng)用。謝謝觀賞小結(jié)2019-6-17110自然語言作為人類表達(dá)和交謝謝觀賞小結(jié)2019-6-17111自然語言處理都遠(yuǎn)不如人們?cè)瓉硐胂蟮哪敲春?jiǎn)單,而是十分困難的。從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語言處理系統(tǒng),仍然是較長(zhǎng)期的努力目標(biāo)。自然語言處理的未來應(yīng)將基于知識(shí)和推理的深層方法與基于統(tǒng)計(jì)等“淺層”方法結(jié)合起來,是一個(gè)人工智能完全問題。謝謝觀賞小結(jié)2019-6-17111自然語言處理都遠(yuǎn)不如人們2019-6-17112謝謝觀賞2019-6-17112謝謝觀賞2019-6-17謝謝觀賞113
ThankYou人工智能2019-6-17謝謝觀賞113ThankY人工智能
ArtificialIntelligence
第八章xx
中國(guó)科學(xué)院計(jì)算技術(shù)研究所自然語言處理NaturalLanguageProcessing2019-6-17謝謝觀賞114人工智能
ArtificialIntelligence
第2019-6-17謝謝觀賞115內(nèi)容提要8.1概述8.2詞法分析 8.3句法分析 8.4語義分析8.5語用分析 8.6語料庫 8.7信息檢索 8.8機(jī)器翻譯 8.9自動(dòng)問答系統(tǒng) 8.10小結(jié)2019-6-17謝謝觀賞2內(nèi)容提要8.1概述概述自然語言處理是用機(jī)器處理人類語言的理論和技術(shù)。作為語言信息處理技術(shù)的一個(gè)高層次的重要研究方向,一直是人工智能領(lǐng)域的核心課題。由于自然語言的多義性、上下文有關(guān)性、模糊性、非系統(tǒng)性和環(huán)境密切相關(guān)性、涉及的知識(shí)面廣等原因,自然語言處理是困難問題之一。自然語言處理的研究希望機(jī)器能夠執(zhí)行人類所期望的某些語言功能,這些功能包括:
(1)回答問題:計(jì)算機(jī)能正確地回答用自然語言輸入的有關(guān)問題;
(2)文摘生成:機(jī)器能產(chǎn)生輸入文本的摘要;
(3)釋義:機(jī)器能用不同的詞語和句型來復(fù)述輸入的自然語言信息;
(4)翻譯:機(jī)器能把一種語言翻譯成另外一種語言。2019-6-17謝謝觀賞116概述自然語言處理是用機(jī)器處理人類語言的理論和技術(shù)。作為語言信概述自然語言自然語言:人類交流的語言,口語、書面語、手語、旗語等人造語言:機(jī)器語言,包括C++,BASIC等 世界語到目前為止的人類知識(shí)有80%以上使用自然語言文字記載下來的。但將來,可能用計(jì)算機(jī)語言形式記載的知識(shí)將會(huì)越來越多。因此說,語言信息處理技術(shù)和每年所處理的信息總量已成為衡量一個(gè)國(guó)家現(xiàn)代化水平的重要標(biāo)志之一。相比較人工智能其它領(lǐng)域,自然語言理解是難度大,進(jìn)展小的。至今為止未能達(dá)到很高的水平。
2019-6-17謝謝觀賞117概述自然語言2019-6-17謝謝觀賞4自然語言處理的發(fā)展自然語言理解的研究大體上經(jīng)歷了三個(gè)時(shí)期萌芽時(shí)期發(fā)展時(shí)期早期:20世紀(jì)60年代以關(guān)鍵詞匹配為主流中期:20世紀(jì)70年代以句法-語義分析為主流近期:20世紀(jì)80年代以來走向?qū)嵱没凸こ袒笠?guī)模真實(shí)文本處理時(shí)期比較成功的系統(tǒng)處理都是受限的自然語言子集句法受限:句子結(jié)構(gòu)的復(fù)雜性方面受到限制語義受限/領(lǐng)域受限:所表達(dá)的事物的數(shù)量方面受到限制2019-6-17謝謝觀賞118自然語言處理的發(fā)展自然語言理解的研究大體上經(jīng)歷了三個(gè)時(shí)期220世紀(jì)60年代:以關(guān)鍵詞匹配為主流特點(diǎn):沒有真正意義上的語法分析,主要依靠關(guān)鍵詞匹配技術(shù)來識(shí)別輸入句子的意義在系統(tǒng)中事先存放了大量包含某些關(guān)鍵詞的模式,每個(gè)模式與一個(gè)或多個(gè)解釋(響應(yīng)式)相對(duì)應(yīng)。每當(dāng)輸入一個(gè)句子,系統(tǒng)便查找與之匹配的模式,一旦匹配成功,系統(tǒng)就輸出相應(yīng)的解釋,不考慮其他成分對(duì)句子意義的影響是一種近似匹配技術(shù),輸入句子可以不準(zhǔn)循語法,但是也容易導(dǎo)致錯(cuò)誤自然語言處理的發(fā)展2019-6-17謝謝觀賞11920世紀(jì)60年代:以關(guān)鍵詞匹配為主流自然語言處理的發(fā)展20120世紀(jì)70年代:句法語義分析為主流采用句法-語義分析技術(shù)典型例子LUNAR允許用普通英語和數(shù)據(jù)庫對(duì)話的人機(jī)接口句法分析語義解釋數(shù)據(jù)檢索ATN語法詞典語義規(guī)則數(shù)據(jù)庫自然語言處理的發(fā)展2019-6-17謝謝觀賞12020世紀(jì)70年代:句法語義分析為主流句法分析語義解釋數(shù)據(jù)檢索20世紀(jì)80年代以來:實(shí)用化和工程化主要特點(diǎn)是開始走向?qū)嵱没凸こ袒?。其重要?biāo)志之一是有一批商品化的自然語言人機(jī)接口系統(tǒng)和機(jī)器翻譯系統(tǒng)推向了市場(chǎng)。另一方面,人們已經(jīng)開始對(duì)大規(guī)模真實(shí)文本進(jìn)行理解句法-語義分析為主的思想來自于規(guī)則的方法,而規(guī)則不可能把所有的知識(shí)表示出來自然語言在數(shù)量上浩瀚無際在性質(zhì)上具有不確定性和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 辦學(xué)資質(zhì)租房合同范本
- 分撥合同范本
- 農(nóng)村自制水電維修合同范本
- 養(yǎng)生美容采購(gòu)合同范本
- 醫(yī)院宿舍租房合同范本
- 單位合伙建房合同范本
- 電工聘請(qǐng)合同范本
- 供熱ppp項(xiàng)目合同范本
- 分期出租手機(jī)合同范本
- 共享單車租賃合同范本
- 滬教版數(shù)學(xué)四年級(jí)下冊(cè)全冊(cè)教案
- 2025年廣東省廣晟控股集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 2025語文新教材三下全冊(cè)8個(gè)單元教材解讀分析匯編
- 美麗的春天課件
- 2025年山東青島自貿(mào)發(fā)展有限公司招聘筆試參考題庫含答案解析
- 會(huì)計(jì)法律法規(guī)答題答案
- 中國(guó)國(guó)際大學(xué)生創(chuàng)新大賽與“挑戰(zhàn)杯”大學(xué)生創(chuàng)業(yè)計(jì)劃競(jìng)賽(第十一章)大學(xué)生創(chuàng)新創(chuàng)業(yè)教程
- 新概念英語第一冊(cè)語法練習(xí)
- 《建筑基坑工程監(jiān)測(cè)技術(shù)標(biāo)準(zhǔn)》(50497-2019)
- 數(shù)字經(jīng)濟(jì)學(xué)導(dǎo)論-全套課件
- 部編版五年級(jí)語文下冊(cè)全冊(cè)教材分析
評(píng)論
0/150
提交評(píng)論