版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
人工智能原理
第9章
自然語言理解簡介
1
本章內(nèi)容
9.1語言與通訊
9.2句法分析與語法
9.3概率語言模型
9.4信息檢索
9.5信息抽取
9.6統(tǒng)計(jì)機(jī)器翻譯
參考書目第9章自然語言理解簡介29.1概述
9.1.1語言與通訊
9.1.2自然語言處理第9章自然語言理解簡介3語言與通訊通訊是一種通過產(chǎn)生和感知信號帶來的有意圖的信息交換/信號來自一個由約定信號組成的共用系統(tǒng)人類區(qū)別于其他動物的特征是語言—復(fù)雜的結(jié)構(gòu)化信息系統(tǒng)對智能體而言,產(chǎn)生語言的行動稱為言語行為“言語”=“言論自由”中的言論第9章自然語言理解簡介4言語行為的目的通過言語行為達(dá)成聯(lián)合規(guī)劃:詢問其他智能體關(guān)于世界的信息—提問相互通知關(guān)于世界的信息—陳述請求其他智能體行動—指令(包括禮貌的間接言語行為、命令等)應(yīng)答請求承諾或提出計(jì)劃宣言式言語行為—對世界有更直接的影響—諸如“現(xiàn)在我宣布……”第9章自然語言理解簡介5通訊的組成步驟人類語言產(chǎn)生的目的—認(rèn)知和通訊/典型的通訊情節(jié)—說話者S用詞語集合W將關(guān)于命題P的信息通知聆聽者H,包括7個過程意圖—S要把P告訴H生成—P用W表示,H可判定P合成—物理實(shí)現(xiàn)—語音/文字等感知—H通過語音/文字識別等獲知P分析—可分為3部分:句法/語義/語用解釋排歧—H推斷S的含義P合并—H決定是否相信P第9章自然語言理解簡介6通訊過程第9章自然語言理解簡介7分析過程分析分為3個子過程(人為劃定—是否就是人類理解語言的過程?)句法分析—為輸入字符串建立句法分析樹語義解釋—表示為某種表達(dá)式,如謂詞邏輯/可能有歧義—此時存在多個表達(dá)式語用解釋—考慮到同樣詞語集合在不同情境下有不同含義/語用能為一個語句的最終解釋給出更大貢獻(xiàn)有了3個子過程,分析仍然可能給出幾個解釋,排歧就是選擇其中最好的一個第9章自然語言理解簡介89.1.2自然語言處理
第9章自然語言理解簡介9WhatisNLP?什么是自然語言處理(NaturalLanguageProcessing,NLP)是用計(jì)算機(jī)通過可計(jì)算的方法對人類語言進(jìn)行轉(zhuǎn)換、傳輸、存貯、分析等加工處理的理論和方法。構(gòu)造計(jì)算模型,用于自然語言的分析、轉(zhuǎn)換、生成。其他名稱:計(jì)算語言學(xué)(ComputationLinguistics)自然語言理解(NaturalLanguageUnderstanding,NLU)人類語言技術(shù)(HumanLanguageTechnology)相關(guān)名稱:中文信息處理(ChineseInformationProcessing)網(wǎng)絡(luò)信息處理(WebInformationProcessing)10基本概念什么是自然語言自然語言指人類使用的語言,如漢語、英語等。語言是思維的載體,是人際交流的工具。語言的兩種屬性-文字和聲音人類歷史上以語言文字形式記載和流傳的知識占知識總量的80%以上。11基本概念什么是處理處理是指對信息的接收、存儲、轉(zhuǎn)化、傳送和發(fā)布等等操作分級:字級處理、概念處理和智能處理智能處理的主要研究領(lǐng)域:自然語言理解、計(jì)算機(jī)視覺、機(jī)器人學(xué)及知識工程智能的未來發(fā)展,將會對知識庫、專家系統(tǒng)、推理系統(tǒng)和神經(jīng)網(wǎng)絡(luò)等綜合應(yīng)用,達(dá)到能夠模擬人類比較復(fù)雜的思維和行為12為什么要研究自然語言處理?信息時代到了!語言是信息的載體。提高計(jì)算機(jī)的智能:能理解和處理大量語言信息。13機(jī)器能夠理解人的語言嗎?很難,但是沒有證據(jù)表明不行。什么是理解?結(jié)構(gòu)主義:機(jī)器的理解機(jī)制與人相同。問題在于誰也說不清自己理解語言的步驟。功能主義:機(jī)器的表現(xiàn)與人相同。圖靈測試:如果通過自然語言問答,一個人無法識別和他對話的是人還是機(jī)器,那么就應(yīng)該承認(rèn)機(jī)器具有智能。14一個NLP的例子:英漢翻譯輸入英文句子:MissSmithputtwobooksonthistable.形態(tài)分析(MorphologicalAnalysis)詞形還原(Lemmatization):將詞還原為詞典中的原型。詞匯符號化(Tokenization):相當(dāng)于中文分詞。分析結(jié)果:MissSmithputtwobook+sonthistable.15句法分析(SyntacticAnalysis):分析句子的結(jié)構(gòu)。16詞匯轉(zhuǎn)換Miss
小姐Smith
史密斯put(+ed)
放two
兩book+s
書on
在…上面this
這diningtable.
餐桌短語轉(zhuǎn)換小姐史密斯放兩書在上面這餐桌史密斯小姐放兩書在這餐桌上面17生成史密斯小姐放兩書在這桌子上面。史密斯小姐(把)兩(本)書放在這(張)桌子上面。最終翻譯結(jié)果英文:MissSmithputtwobooksonthetable.中文:史密斯小姐把兩本書放在這張桌子上面。18機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理文本采集文本格式轉(zhuǎn)換:PDF、Office、HTML純文本文本編碼識別、轉(zhuǎn)換:GB、Big5、Unicode。19機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理句子邊界識別例如:Mr.Wanglikesswimming,dancingandreading.20機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理研究構(gòu)詞方法,詞的有意義的組合。構(gòu)詞的基本單位:詞素(詞根、前綴、后綴、詞尾)例如:老虎←老+虎;圖書館←圖+書+館例如:work+er→workerdo+ing→doing21機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理將句子切分為詞序列例如:釣魚島/是/中國/的/領(lǐng)土/。
22機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理給句子的詞標(biāo)注正確的詞性例如:釣魚島n/是v/中國n/的de/領(lǐng)土n/。
23機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理分析句子的組成結(jié)構(gòu),句子結(jié)構(gòu)成分之間的相互關(guān)系。判定一個句子的合法性24機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理研究給句子的詞標(biāo)注正確的詞義。例如:這個人真牛。//牛:動物|了不起。25機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理研究如何從一個語句中詞的意義,以及這些詞在該語句的句法結(jié)構(gòu)中的作用來推導(dǎo)出該語句的意義。語言和世界的映射關(guān)系施事、受事、工具等26機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理為什么要說這句話研究不同語境中的語句的應(yīng)用,及語境對語句理解的作用語言交際目的:主題、述體、焦點(diǎn)27機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理分析篇章的結(jié)構(gòu)、主題、觀點(diǎn)、摘要、有用信息主題分析觀點(diǎn)分析自動文摘信息抽取信息過濾28機(jī)器如何理解自然語言?機(jī)器理解自然語言的步驟文本預(yù)處理句子切分形態(tài)分析分詞詞性標(biāo)注句法分析詞義消岐語義分析語用分析篇章分析海量文檔處理信息檢索搜索引擎、數(shù)字圖書館文本分類、聚類分類檢索、聚類檢索話題探測與追蹤29NLP的研究內(nèi)容(基礎(chǔ)研究)30NLP的研究內(nèi)容(應(yīng)用研究)31NLP的不同層次[應(yīng)用系統(tǒng)]數(shù)字圖書館、電子商務(wù)、搜索引擎電子政務(wù)、遠(yuǎn)程教育、語言學(xué)習(xí)[基礎(chǔ)研究]分詞、詞性標(biāo)注、短語切分、句法分析、語義分析、篇章理解等[應(yīng)用技術(shù)研究]自動問答、機(jī)器翻譯、信息檢索、文本挖掘、自動校對、信息抽取[資源建設(shè)]語料庫資源建設(shè)語言學(xué)知識庫建設(shè)語言學(xué)家NLP研究者軟件企業(yè)32NLP的學(xué)科特點(diǎn)(交叉性學(xué)科)語言學(xué):語言學(xué)基礎(chǔ)知識。語言學(xué)理論:形式語言文法語言學(xué)資源:詞典、語料庫、知識庫數(shù)學(xué)語料庫語言學(xué)的數(shù)學(xué)基礎(chǔ):概率論、統(tǒng)計(jì)學(xué)、信息論。模型:自動機(jī)、Markov模型、HMM等。計(jì)算機(jī)科學(xué)機(jī)器學(xué)習(xí):機(jī)器的學(xué)習(xí)算法人工智能(問題求解,知識表示,狀態(tài)空間圖搜索算法)心理語言學(xué):研究人類理解自然語言的機(jī)制。339.2句法分析與語法
9.2.1語言的基本原理
9.2.2句法分析過程第9章自然語言理解簡介349.2.1語言的基本原理形式語言(人造語言)被定義為一個字符串集合/字符串由終結(jié)符(詞匯)串聯(lián)而成/都有嚴(yán)格的定義自然語言卻沒有嚴(yán)格定義卻被一個說話者群體所使用考慮用處理形式語言的方式處理自然語言自然語言可以用不同的但是相互聯(lián)系的幾組符號來表示—包括語法、語義、語用等/盡可能采用形式化表示第9章自然語言理解簡介35自然語言的符號系統(tǒng)(1)符號系統(tǒng)的核心是語義表示語義的基礎(chǔ)是詞匯—自然語言中的終結(jié)符號,由它們依據(jù)一定規(guī)則構(gòu)成有效字符串/不能“讓人聽不明白”語義必須保證其表示能夠在智能體之間有效地進(jìn)行通訊—與有效的字符串結(jié)合/予以需要借助于語法進(jìn)行表示語法是詳細(xì)說明一種語言的有限規(guī)則集合自然語言沒有正式語法/語言學(xué)家試圖通過科學(xué)調(diào)查發(fā)現(xiàn)語言的特性,并編纂語法/還沒有一個完全成功第9章自然語言理解簡介36自然語言的符號系統(tǒng)(2)語義離不開具體的通訊環(huán)境/理解一個字符串的語用很重要語用是在一個特定情境(通訊環(huán)境)下表達(dá)出的字符串的實(shí)際含義由于語義相對于語法是深層結(jié)構(gòu),而語法作為表層結(jié)構(gòu)其規(guī)則經(jīng)過了很長時間的研究形成了相對穩(wěn)定的體系—更多的結(jié)構(gòu)表示來自語法合乎語法的字符串→子串—短語結(jié)構(gòu)第9章自然語言理解簡介37自然語言的符號系統(tǒng)(3)短語結(jié)構(gòu)是語言結(jié)構(gòu)中的基礎(chǔ)部分—構(gòu)成自然語言語句的字符串是由來自不同范疇的稱為短語的字串構(gòu)成/短語通常對應(yīng)自然語言語義元素NP—名詞短語,指代世界中的事物/VP—動詞短語,描述事物的行為或狀態(tài)/其他短語—介詞短語、形容詞短語、副詞短語、數(shù)量短語、其他短語符號和句子符號S統(tǒng)稱為非終結(jié)符—語法系統(tǒng)使用產(chǎn)生式規(guī)則形式來定義這些符號,規(guī)則也叫重寫規(guī)則第9章自然語言理解簡介38語言文法語言文法:四元組:G=(VN,VT,R,S)VN:非終結(jié)符的集合,表示句子結(jié)構(gòu)分析的中間成分VT:終結(jié)符的集合,相當(dāng)于詞匯表。R:規(guī)則集:基本形式: 。其中:,。S
:初始符號,代表語言的句子。例如:句子:Themanatetheapple.39形式化語法的類型Chomsky在1957提出了形式化語法的4種類型,其描述語言的能力可以按序遞增—由相應(yīng)文法產(chǎn)生的語言分別叫做該文法語言正則文法—約束最強(qiáng),表示能力越弱上下文無關(guān)文法—至少有些自然語言不是上下文無關(guān)的上下文有關(guān)文法—其約束可以寫成在相同的前后符號中,非終結(jié)符符號重寫遞歸可枚舉文法—無約束的重寫規(guī)則第9章自然語言理解簡介40句法分析層次句法分析是為一個詞匯字符串建立句法分析樹的過程—句法分析有一個專門的術(shù)語parsing(parse=V/N,parser=句法分析器)句法分析有不同的分析層次—淺層分析(shallowparsing)和完全分析(fullparsing)淺層分析—把句子劃分為幾個具有不同功能的部分完全分析—給出句子的層次結(jié)構(gòu)第9章自然語言理解簡介419.2.2句法分析過程句法分析的前提是詞典和語法詞典—詞匯及其相關(guān)信息的集合/關(guān)于詞匯的相關(guān)信息中最重要之一是詞性(Part-Of-Speech,簡稱POS)詞性把詞匯劃分為若干類—開放類和封閉類語法—關(guān)于短語結(jié)構(gòu)(包括S)如何生成的規(guī)則/有不同的語法規(guī)則體系—句法分析選定一種體系,依據(jù)該體系的符號生成句法樹中每個節(jié)點(diǎn)語法的來源—語言學(xué)家觀察大量的語言現(xiàn)象從中歸納/人工標(biāo)注樹庫,然后自動抽取第9章自然語言理解簡介42搜索句法分析樹句法分析看作是搜索句法分析樹的過程通常有2種方法—自頂向下(Top-Down)和自底向上(Bottom-Up)自頂向下—從S出發(fā),搜索一棵以指定詞匯為葉子節(jié)點(diǎn)的句法樹自底向上—從給定的詞匯出發(fā),搜索一棵以S為根節(jié)點(diǎn)的樹這兩種方法都可以用搜索問題的4個組成部分來描述(初始狀態(tài)/后繼函數(shù)/目標(biāo)檢測,但是通常不涉及路徑耗散)第9章自然語言理解簡介43自頂向下搜索過程初始狀態(tài)—根節(jié)點(diǎn)+未知子節(jié)點(diǎn)[S:?]后繼函數(shù)—選擇未知子節(jié)點(diǎn)中最左節(jié)點(diǎn),然后在語法規(guī)則中嘗試匹配根標(biāo)記出現(xiàn)在規(guī)則左部的那些規(guī)則;一旦匹配成功,“?”位置上產(chǎn)生后繼狀態(tài)即“?”被相應(yīng)的規(guī)則右部代替/例如[S:?]可以被[S:[NP:?][VP:?]]代替/隨后,[NP:?]繼續(xù)擴(kuò)展,生成多個后繼狀態(tài),直到匹配葉子節(jié)點(diǎn)等等目標(biāo)測試—檢驗(yàn)句法樹的葉子節(jié)點(diǎn)是否符合輸入的字符串/若符合,說明自頂向下的句法分析成功第9章自然語言理解簡介44自底向上搜索過程初始狀態(tài)—輸入字符串中全部詞匯,形成一個列表(看作節(jié)點(diǎn)序列)后繼函數(shù)—對于列表中的每個節(jié)點(diǎn)i和句法規(guī)則中每條規(guī)則的右部,檢查列表中起始于節(jié)點(diǎn)i的子序列是否與規(guī)則右部相匹配/如果匹配,則該子序列被新的樹替代,其子樹根節(jié)點(diǎn)為規(guī)則左部符號,子節(jié)點(diǎn)就是原序列目標(biāo)測試—檢查某個狀態(tài)是否包含一棵以S為根節(jié)點(diǎn)的樹自底向上分析的例子見下頁圖第9章自然語言理解簡介45自底向上分析的例子第9章自然語言理解簡介46句法分析中的遇到的問題自頂向下分析中的“左遞歸”問題形如“X→X”的規(guī)則—采用深度優(yōu)先搜索,就會陷入無限循環(huán);采用廣度優(yōu)先搜索則會因?yàn)檩斎氲恼Z句是非法語句而陷入無限搜索空間自底向上分析可能生成不完全句法分析由于短語組合的多樣性,自頂向下和自底向上句法分析都存在分析效率低的問題,因?yàn)樗鼈兌紩蜕删浞洳幌嚓P(guān)的部分而浪費(fèi)時間—提高效率第9章自然語言理解簡介479.3概率語言模型
9.3.1概率語言模型的建立
9.3.2概率上下文無關(guān)語法第9章自然語言理解簡介48語料庫語言學(xué)語料庫語言學(xué)在20世紀(jì)90年代初期崛起,隨即成為自然語言處理的主流語料庫(corpus/plural=corpora)—大規(guī)模的文本集合—語料庫方法意味著使用統(tǒng)計(jì)和學(xué)習(xí)的方法來利用語料庫/通過學(xué)習(xí)(使用統(tǒng)計(jì)手段)從數(shù)據(jù)中獲得概率語言模型對于大多數(shù)任務(wù)來說,大量數(shù)據(jù)可以補(bǔ)償較簡單的語言模型帶來的問題第9章自然語言理解簡介49統(tǒng)計(jì)語言模型什么是統(tǒng)計(jì)語言模型(LanguageModel)統(tǒng)計(jì)語言模型試圖捕獲自然語言的統(tǒng)計(jì)規(guī)律以改善自然語言應(yīng)用系統(tǒng)的性能一個概率模型,對各種語言單位如字、詞、句子或文章進(jìn)行概率分布的估計(jì)。廣泛地應(yīng)用于語音識別、手寫體識別、機(jī)器翻譯、音字轉(zhuǎn)換、信息檢索。。。。。。50完美的語言模型對于詞序列(或其他語言單位)如何計(jì)算概率分布?根據(jù)鏈?zhǔn)揭?guī)則:即使對于很小的m,上面的理想公式也很難計(jì)算,因?yàn)閰?shù)太多。51例子52Markov鏈有限的記憶能力不考慮太“舊”的歷史只記住前n-1個詞,稱為n-1階Markov鏈近似53例子(Bigram,Trigram)54N-gram模型:相當(dāng)于n-1階Markov鏈?!皀-gram”=n個詞構(gòu)成的序列,Unigram n=1;Bigram n=2;Trigram n=3;模型結(jié)構(gòu)模型:由一組模型參數(shù)組成。
每個N-gram模型參數(shù):n-gram及其頻度信息,形式為: 或這里:模型作用:計(jì)算概率。模型訓(xùn)練:在訓(xùn)練語料庫中統(tǒng)計(jì)獲得n-gram的頻度信息N-gram模型55參數(shù)訓(xùn)練系統(tǒng)
56N的選擇:可靠性vs.辨別力“我 正在 ________”
講課?圖書館?聽課?學(xué)習(xí)?借書?……“我 正在圖書館 ________”
學(xué)習(xí)?借書?……57可靠性vs.辨別力更大的
n:對下一個詞出現(xiàn)的約束性信息更多,更大的辨別力更小的n:在訓(xùn)練語料庫中出現(xiàn)的次數(shù)更多,更可靠的統(tǒng)計(jì)結(jié)果,更高的可靠性
可靠性和可區(qū)別性成反比,需要折中。58N的選擇
詞表中詞的個數(shù)|V|=20,000詞n所有可能的n-gram的個數(shù)2(bigrams)400,000,0003(trigrams)8,000,000,000,0004(4-grams)1.6x101759N-gram模型應(yīng)用-音字轉(zhuǎn)換給定拼音串:tashiyan
jiu
sheng
wude可能的漢字串踏實(shí)研究生物的他實(shí)驗(yàn)救生物的他使煙酒生物的他是研究生物的……60音字轉(zhuǎn)換計(jì)算公式61可能的轉(zhuǎn)換結(jié)果,分詞結(jié)果踏實(shí)研究生物的:踏實(shí)/研究/生物/的他實(shí)驗(yàn)救生物的:他/實(shí)驗(yàn)/救生/物/的他使煙酒生物的:他/使/煙酒/生物/的他是研究生物的:他/是/研究/生物/的
……如果使用Bigram計(jì)算:P(踏實(shí)研究生物的)=P(踏實(shí))×P(研究|踏實(shí))×P(生物|研究)×P(的|生物)P(他實(shí)驗(yàn)救生物的)=P(他)×P(實(shí)驗(yàn)|他)×P(救生|實(shí)驗(yàn))×P(物|救生))×P(的|物)P(他是研究生物的)=P(他)×P(是|他)×P(研究|是)×P(生物|研究
)×P(的|生物)選擇概率最大的句子,作為轉(zhuǎn)換結(jié)果62N-gram模型應(yīng)用-中文分詞給定漢字串:他是研究生物的。可能的分詞結(jié)果:1)他|是|研究生|物|的2)他|是|研究|生物|的63統(tǒng)計(jì)分詞計(jì)算公式
64采用Bigram計(jì)算P(他/是/研究生/物/的)=P(他)×P(是|他)×P(研究生|是)×P(物|研究生)×P(的|物)×P(的)P(他/是/研究/生物/的)=P(他)×P(是|他)×P(研究|是)×P(生物|研究)×P(的|生物)×P(的)65模型參數(shù)估計(jì)——模型訓(xùn)練兩個概念訓(xùn)練語料:用于建立模型的給定語料。最大似然估計(jì):用相對頻率計(jì)算概率的方法。66模型參數(shù)估計(jì)——模型訓(xùn)練67零概率問題大量的低頻詞,無論訓(xùn)練數(shù)據(jù)的規(guī)模如何擴(kuò)大,其出現(xiàn)頻度仍舊很低甚至根本不出現(xiàn)。如果采用MLE估算它們的概率分布,將出現(xiàn)大量的,從而導(dǎo)致的情況,這種情況大大削弱了該模型的描述能力。68例子假設(shè)我們使用Trigram模型如果某個那么P(S)=0這就是數(shù)據(jù)稀疏問題(零概率問題)必須保證從而使
69模型中的可能元素設(shè)詞典中有15000個詞語,則這些詞語產(chǎn)生的可能詞對數(shù)量就是二元模型中具有的元素個數(shù)=150002=2.25*108而Russell的這本厚達(dá)700頁的書包含的英語詞語數(shù)目=5*105,遠(yuǎn)遠(yuǎn)無法覆蓋建立一個二元模型所需的詞對/其中99.8%的詞對出現(xiàn)的概率=0但是,我們并不希望這些詞對出現(xiàn)的數(shù)量為0,否則無法計(jì)算相關(guān)的概率第9章自然語言理解簡介70解決數(shù)據(jù)稀疏問題概率為0的問題就是所謂數(shù)據(jù)稀疏問題—解決方法—平滑(smoothing)最簡單的方法—加1平滑—語料庫中有n個詞語/b個可能的詞對,則每個實(shí)際次數(shù)為c的二元組的估計(jì)概率=(c+1)/(n+b)線性插值平滑—把一元模型/二元模型/三元模型結(jié)合起來^P(wi|wi-2wi-1)=c3P(wi|wi-2wi-1)+c2P(wi|wi-1)+c1P(wi)其中c3+c2+c1=1各種估計(jì)方法/特別是如何為那些當(dāng)前語料庫中為0的部分預(yù)留概率第9章自然語言理解簡介71平滑的效果數(shù)據(jù)平滑的效果與訓(xùn)練語料庫的規(guī)模有關(guān)數(shù)據(jù)平滑技術(shù)是構(gòu)造高魯棒性語言模型的重要手段訓(xùn)練語料庫規(guī)模越小,數(shù)據(jù)平滑的效果越顯著,訓(xùn)練語料庫規(guī)模越大,數(shù)據(jù)平滑的效果越不顯著,甚至可以忽略不計(jì)72模型的評價N元模型的評價標(biāo)準(zhǔn)考察模型在測試語料庫上的概率—往往因?yàn)閷τ陂L的字符串的概率過小而引起計(jì)算問題模型混亂度(perplexity)取代概率其中N是words的個數(shù)(二元模型就是二元對的個數(shù))/P(words)是該模型下所有words的概率乘積混亂度越低,則模型越好第9章自然語言理解簡介739.4信息檢索
9.4.1
信息檢索模型
9.4.2檢索結(jié)果評價與表示
9.4.3信息檢索系統(tǒng)實(shí)現(xiàn)
9.4.4信息抽取第9章自然語言理解簡介74基本概念信息檢索(InformationRetrieval,IR):在一個文檔集合中找出與用戶需要的信息相關(guān)的文檔,也稱為特定信息的檢索問題(ad-hocretrievalproblem)信息檢索和數(shù)據(jù)庫檢索的區(qū)別檢索對象不同數(shù)據(jù)庫檢索:結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)庫記錄)。信息檢索:非結(jié)構(gòu)文本(網(wǎng)頁、自然語言文本)75IR處理對象檢索對象非結(jié)構(gòu)化文本自然語言文本:新聞、文獻(xiàn)資料等網(wǎng)頁:HTML、XML多媒體信息:圖像、視頻、圖形、音頻檢索范圍互聯(lián)網(wǎng)圖書館文獻(xiàn)資料庫局域網(wǎng)網(wǎng)站76IR系統(tǒng)77IR任務(wù)給定文檔集合(documentcollection)用戶查詢(Query)用戶特定的信息需求(informationneed)檢索式:關(guān)鍵詞序列、布爾表達(dá)式、自然語言問句
檢索查找所有與用戶Query相匹配的文檔計(jì)算Query與它們之間的相關(guān)性(relevance)根據(jù)相關(guān)性排序(rank),輸出78信息檢索系統(tǒng)的體系結(jié)構(gòu)文本數(shù)據(jù)庫數(shù)據(jù)庫管理建索引索引查詢操作搜索排序排序后的文檔用戶反饋文本操作用戶界面檢出的文檔用戶需求文本提問邏輯視圖倒排文檔分詞刪除停用詞Stemming(提取詞干)為文檔建立倒排索引表根據(jù)倒排索引表檢索出與提問相關(guān)的文檔將檢索出的文檔根據(jù)相關(guān)性排序Query輸入和文檔輸出相關(guān)反饋結(jié)果的可視化對query進(jìn)行變換,以改進(jìn)檢索結(jié)果79IR系統(tǒng)的組件用戶接口管理和用戶的交互過程,包括:提問輸入和文檔輸出相關(guān)反饋結(jié)果的可視化用戶查詢文本操作&文檔文本操作
過濾停用詞(stopword)詞形還原(stemming)轉(zhuǎn)換為機(jī)器內(nèi)部的文檔表示格式用戶查詢處理將用戶查詢進(jìn)行同義詞擴(kuò)充根據(jù)用戶信息偏好對查詢進(jìn)行限制。80IR系統(tǒng)的組件索引
建立文檔集合的倒排索引數(shù)據(jù)庫管理文檔數(shù)據(jù)庫的維護(hù)搜索根據(jù)用戶查詢,借助于倒排索引表和數(shù)據(jù)庫管理模塊從數(shù)據(jù)庫中抽取出包含用戶查詢中關(guān)鍵字的文檔
相關(guān)性排序計(jì)算用戶query與文檔的相關(guān)性根據(jù)文檔的相關(guān)性排序819.4.1信息檢索模型如何表示一個文檔(文本)—把文檔中的每個詞(或字)當(dāng)作一個特征,每個文檔構(gòu)成一個特征向量主要有3種模型布爾模型—特征出現(xiàn)于文檔中取值為1/否則為0,返回包含查詢向量的文檔向量空間模型(VectorSpaceModel)—計(jì)算文檔向量和查詢向量之間的距離,返回最近距離的文檔概率模型—給定文檔條件下,計(jì)算查詢概率句法分析技術(shù)并沒有應(yīng)用于IR系統(tǒng)中第9章自然語言理解簡介82布爾模型描述文檔表示一個文檔被表示為關(guān)鍵詞的集合查詢式表示查詢式(Queries)被表示為關(guān)鍵詞的布爾組合,用“與、或、非”連接起來,并用括弧指示優(yōu)先次序匹配一個文檔當(dāng)且僅當(dāng)它能夠滿足布爾查詢式時,才將其檢索出來檢索策略基于二值判定標(biāo)準(zhǔn)83舉例Q=病毒AND(計(jì)算機(jī)OR電腦)ANDNOT醫(yī)文檔:D1:…據(jù)報道計(jì)算機(jī)病毒最近猖獗D2:小王雖然是學(xué)醫(yī)的,但對研究電腦病毒也感興趣…D3:計(jì)算機(jī)程序發(fā)現(xiàn)了艾滋病病毒傳播途徑上述文檔哪一個會被檢索到?84IR模型(2)布爾模型的優(yōu)點(diǎn):簡單易行缺點(diǎn):相關(guān)度只用0/1表示,無法對相關(guān)文檔排序查詢結(jié)果改進(jìn)比較難改進(jìn):使用基于詞語頻率的統(tǒng)計(jì)模型詞語頻率如何計(jì)算:詞條權(quán)重—tf-idf公式/向量空間模型文檔和查詢之間概率關(guān)系如何:推導(dǎo)概率模型第9章自然語言理解簡介85向量空間模型(VectorSpaceModel)詞表:若干獨(dú)立的詞項(xiàng)被選作索引項(xiàng)(indexterms)or詞表vocabulary索引項(xiàng)(term)集合,可以給每個詞項(xiàng)附加權(quán)重。Query和文檔表示索引項(xiàng)(Term)及其權(quán)重組成的n維向量表示。未加權(quán)的詞項(xiàng):Q=?database;text;information?加權(quán)的詞項(xiàng):Q=?database0.5;text0.8;information0.2?查詢和文檔進(jìn)行向量的相關(guān)性計(jì)算:夾角余弦或者內(nèi)積優(yōu)點(diǎn):簡潔直觀缺點(diǎn):標(biāo)引項(xiàng)之間的獨(dú)立性假設(shè)與實(shí)際不符。86詞語的權(quán)重常用的3種權(quán)重第9章自然語言理解簡介度量符號定義詞條頻度tfi,j單詞wi在文檔dj中出現(xiàn)次數(shù)文檔頻度dfi出現(xiàn)單詞wi的文檔數(shù)收集頻度cfi單詞wi出現(xiàn)的總次數(shù)tf=termfrequencydf=documentfrequency dfi
≤cficf=collectionfrequency ∑tfi,j
=cfi87權(quán)重的含義計(jì)算前提:假設(shè)文檔集合總存在詞條頻度tfi,j—反映詞條在給定文檔中的重要程度,越大說明對該文檔越重要該值通常平滑—開平方或取對數(shù)(相關(guān)性不是倍數(shù)的關(guān)系)文檔頻度dfi—反映詞條的信息度信息量大的詞集中于一或幾篇文檔,在所有文檔中均勻分布的詞屬于非核心詞第9章自然語言理解簡介88Idf
計(jì)算示例89權(quán)重計(jì)算公式將tfi,j和dfi結(jié)合在一個公式中其中的log(N/dfi)稱為倒排文檔頻度(inversedocumentfrequency)或idf權(quán)重當(dāng)dfi=1時,某個詞條全部集中于1個文件,idf最大當(dāng)dfi=N時,某個詞條均勻分布于全部文檔,idf最小,w=1第9章自然語言理解簡介90查詢式的詞項(xiàng)權(quán)重如果詞項(xiàng)出現(xiàn)在查詢式中,則該詞項(xiàng)在查詢式中的權(quán)重為1,否則為0也可以用用戶指定查詢式中詞項(xiàng)的權(quán)重一個自然語言查詢式可以被看成一個文檔查詢式:“有沒有周杰倫的歌?”
會被轉(zhuǎn)換為:
<周杰倫,歌>查詢式:
“請幫我找關(guān)于俄羅斯和車臣之間的戰(zhàn)爭以及車臣恐怖主義首腦的資料”
會被轉(zhuǎn)換為:
<俄羅斯2,車臣
2,戰(zhàn)爭1,恐怖主義1,首腦1>
過濾掉了:“請幫我找”,“和”,“之間的”,“以及”,“的資料”兩個文檔之間的相似度可以同理計(jì)算91由索引項(xiàng)構(gòu)成向量空間2個索引項(xiàng)構(gòu)成一個二維空間,一個文檔可能包含0,1或2個索引項(xiàng)di=0,0 (一個索引項(xiàng)也不包含)dj=0,0.7 (包含其中一個索引項(xiàng))dk=1,2
(包含兩個索引項(xiàng))類似的,3個索引項(xiàng)構(gòu)成一個三維空間,n個索引項(xiàng)構(gòu)成n維空間一個文檔或查詢式可以表示為n個元素的線性組合92文檔集
–
一般表示向量空間中的N個文檔可以用一個矩陣表示矩陣中的一個元素對應(yīng)于文檔中一個詞項(xiàng)的權(quán)重?!?”意味著該詞項(xiàng)在文檔中沒有意義,或該詞項(xiàng)不在文檔中出現(xiàn)。
T1T2….
TtD1d11d12…d1tD2
d21d22…d2t
::::
::::Dndn1dn2…dnt93圖示舉例:D1=2T1+3T2+5T3D2=3T1+7T2+T3Q=0T1+0T2+2T3T3T1T2D1=2T1+3T2+5T3D2=3T1+7T2+T3Q=0T1+0T2+2T37325D1比D2更接近Q嗎?怎樣衡量相似程度?夾角還是投影94相似度計(jì)算相似度是一個函數(shù),它給出兩個向量之間的相似程度,查詢式和文檔都是向量,各類相似度存在于:兩個文檔之間(文本分類,聚類)兩個查詢式之間(常問問題集)一個查詢式和一個文檔之間(檢索)人們曾提出大量的相似度計(jì)算方法,因?yàn)樽罴训南嗨贫扔?jì)算方法并不存在。95相似度度量–內(nèi)積(InnerProduct)文檔D
和查詢式Q
可以通過內(nèi)積進(jìn)行計(jì)算:sim(D
,Q)=
(dik
qk)dik
是文檔di中的詞項(xiàng)k
的權(quán)重,qk
是查詢式Q中詞項(xiàng)k的權(quán)重對于二值向量,內(nèi)積是查詢式中的詞項(xiàng)和文檔中的詞項(xiàng)相互匹配的數(shù)量對于加權(quán)向量,內(nèi)積是查詢式和文檔中相互匹配的詞項(xiàng)的權(quán)重乘積之和96內(nèi)積的特點(diǎn)內(nèi)積值沒有界限不象概率值,要在(0,1)之間對長文檔有利內(nèi)積用于衡量有多少詞項(xiàng)匹配成功,而不計(jì)算有多少詞項(xiàng)匹配失敗長文檔包含大量獨(dú)立詞項(xiàng),每個詞項(xiàng)均多次出現(xiàn),因此一般而言,和查詢式中的詞項(xiàng)匹配成功的可能性就會比短文檔大。97余弦(Cosine)相似度度量余弦相似度計(jì)算兩個向量的夾角余弦相似度是利用向量長度對內(nèi)積進(jìn)行歸一化的結(jié)果2t3t1t2D1D2Q1CosSim(Di,Q)=D1=2T1+3T2+5T3CosSim(D1
,Q)=5/38=0.81D2=3T1+7T2+T3CosSim(D2
,Q)=1/59=0.13
Q=0T1+0T2+2T3用余弦計(jì)算,D1
比
D2
高6倍;用內(nèi)積計(jì)算,D1
比
D2
高5倍98其它相似度度量方法存在大量的其它相似度度量方法JaccardCoefficient:D1=2T1+3T2+5T3Sim(D1
,Q)=10/(38+4-10)=10/32=0.312D2=3T1+7T2+T3Sim(D2
,Q)=2/(59+4-2)=2/61=0.033
Q=0T1+0T2+2T3D1
比
D2
高9.5倍99示例100向量空間優(yōu)點(diǎn)術(shù)語權(quán)重的算法提高了檢索的性能部分匹配的策略使得檢索的結(jié)果文檔集更接近用戶的檢索需求可以根據(jù)結(jié)果文檔對于查詢串的相關(guān)度通過CosineRanking等公式對結(jié)果文檔進(jìn)行排序101不足標(biāo)引詞之間被認(rèn)為是相互獨(dú)立隨著Web頁面信息量的增大、Web格式的多樣化,這種方法查詢的結(jié)果往往會與用戶真實(shí)的需求相差甚遠(yuǎn),而且產(chǎn)生的無用信息量會非常大隱含語義索引模型是向量空間模型的延伸1029.4.2檢索結(jié)果評價與表示設(shè)有100篇文檔,檢索結(jié)果如下表第9章自然語言理解簡介在結(jié)果集合中不在結(jié)果集合中相關(guān)3020無關(guān)1040準(zhǔn)確率=結(jié)果集合中實(shí)際相關(guān)文檔所占比例 =30/(30+10)=0.75誤判率=1-0.75=0.25召回率=結(jié)果集合中相關(guān)文檔在所有相關(guān)文檔中所占比例=30/(30+20)=0.60漏報率=1-0.60=0.40103104相關(guān)文本檢索出的文本全部文本集合檢出且相關(guān)未檢出且相關(guān)檢出且不相關(guān)未檢出且不相關(guān)檢出未檢出相關(guān)不相關(guān)準(zhǔn)確率和召回率(查全率和查準(zhǔn)率)召回率(Recall)=檢出的相關(guān)文檔數(shù)/相關(guān)文檔數(shù)準(zhǔn)確率(Precision)=檢出的相關(guān)文檔數(shù)/檢出文檔數(shù)假設(shè):文本集中所有文獻(xiàn)已進(jìn)行了檢查104檢索結(jié)果評價(1)在互聯(lián)網(wǎng)的搜索中,具有超大規(guī)模文檔集合,召回率很難計(jì)算采樣估計(jì)召回率只計(jì)算精確率精確率和召回率不能兼顧,需要折中第9章自然語言理解簡介105檢索結(jié)果評價(2)面向互聯(lián)網(wǎng)的評價—對于精確率和召回率并不關(guān)心,而關(guān)心立刻得到結(jié)果第一個相關(guān)結(jié)果的平均排序倒數(shù)(reciprocalrank)第一個結(jié)果排序=1,則RR=1;排序=2,則RR=0.5……應(yīng)答時間還可以考慮:檢索結(jié)果集合topn中相關(guān)結(jié)果的個數(shù)第9章自然語言理解簡介106檢索結(jié)果的效用與表示消除檢索結(jié)果中內(nèi)容相同或者太近似的返回—提高效用,涉及到結(jié)果表示允許相關(guān)反饋—用戶判定之后獲得與之相關(guān)的相似結(jié)果的集合文檔分類—事先確定主題/有指導(dǎo)的學(xué)習(xí)文檔聚類—沒有事先確定的主題,從無到有地建立類別樹/無指導(dǎo)的學(xué)習(xí)第9章自然語言理解簡介107K均值聚類k-meansclustering產(chǎn)生恰好k個類別的均勻集合(1)隨機(jī)挑選k個文檔表示k個類別(2)將每篇文檔分配到最近的類別中(3)計(jì)算每簇(每個類別)的中心,并用k個均值表示k個類的新值(4)重復(fù)(2)(3)步驟直到收斂為止(類內(nèi)文檔不再變化)算法復(fù)雜性O(shè)(n)/準(zhǔn)確性稍差類別的表示—代表性詞語/文檔標(biāo)題第9章自然語言理解簡介108層次聚類基本算法(1)初始狀態(tài)N個文檔各表示1個類別(2)計(jì)算兩兩類別相似度;(3)合并相似度最大的類別對形成新的類別,更新類別列表(4)重復(fù)(2)(3)步驟直到最終只剩一個類別或者滿足某一限定條件,算法停止算法復(fù)雜性O(shè)(n2)/準(zhǔn)確性強(qiáng)于劃分聚類。第9章自然語言理解簡介1099.4.3信息檢索系統(tǒng)實(shí)現(xiàn)對于一個IR系統(tǒng)來說,2個關(guān)鍵數(shù)據(jù)結(jié)構(gòu)文檔集合中所有詞語的詞典每個詞語在文檔集合中出現(xiàn)位置的倒排索引詞典—結(jié)構(gòu)=Hash表或其他允許快速查詢的數(shù)據(jù)結(jié)構(gòu)(排序)去掉停用詞—信息量很少的“功能詞”倒排索引—詞語-文檔命中表每個詞語在各文檔中的位置及頻率列表=<文檔,頻率>&位置列表第9章自然語言理解簡介110對文檔進(jìn)行索引索引結(jié)構(gòu):hashing,B+-trees,tries.可以進(jìn)行部分匹配:’%comput%’可以進(jìn)行短語搜索:查找包含“computergraphics”的文檔文檔索引D1D2D3computerD1,23,97,104D3,43graphicsD2,5D3,44“computer”在D1中出現(xiàn)的位置111倒排文檔組成倒排文檔一般由兩部分組成:詞匯表(vocabulary)和記錄表(postinglist)詞匯表是文本或文本集合中所包含的所有不同單詞的集合。對于詞匯表中的每一個單詞,其在文本中出現(xiàn)的位置或者其出現(xiàn)的文本編號構(gòu)成一個列表,所有這些列表的集合就稱為記錄表112一般的倒排索引索引文件可以用任何文件結(jié)構(gòu)來實(shí)現(xiàn)索引文件中的詞項(xiàng)是文檔集合中的詞表architecturecomputerdatabaseretrieval...D1,a1D1,a2D1,a3索引項(xiàng)/詞表索引/索引文件/索引數(shù)據(jù)庫Postings列表Q=term1,term2,term3,...附加信息例如:詞位置,出現(xiàn)次數(shù)113查詢過程輸入=單詞輸出=含該單詞的文檔集合獲得命中表地址提取文檔集合中文檔并檢查詞語在該文檔中出現(xiàn)頻率保持集合中文檔數(shù)目=R,按照頻率從高到低順序查詢時間=O(H+R*logR)/H=命中表中文檔數(shù)如果查詢中有n個詞語,需要合并n個命中表,則為O(nH+R*logR)第9章自然語言理解簡介114IR系統(tǒng)的可改進(jìn)方面詞語的相關(guān)性與計(jì)算機(jī)關(guān)聯(lián)—電腦/computer/PC機(jī)大小寫同一處理(casefolding)詞干處理(stemming)可提高召回率(英語2%)對準(zhǔn)確率有不良影響—如stocking→stock/通過查詞典綜合解決同義詞處理—有合并也有區(qū)別元數(shù)據(jù)—文檔之外的數(shù)據(jù)用于改進(jìn)系統(tǒng)第9章自然語言理解簡介115IR系統(tǒng)的國際評測TREC(TextREtrievalConference)—國際IR系統(tǒng)的評測會議,由美國NIST主辦認(rèn)識典型IR任務(wù)的數(shù)量級75萬篇文檔,存儲量=2GB詞典=50萬/經(jīng)過取詞干和大小寫同一處理,存儲量=7~10MB<文檔,頻率>倒排索引=324M/可壓縮到83M支持短語查詢—索引達(dá)到1200M第9章自然語言理解簡介116Web搜索的規(guī)模Web上的文檔數(shù)(頁面數(shù))=近100億Google收集網(wǎng)頁=80億+中文網(wǎng)頁=44億(今年1月數(shù)據(jù))倒排索引規(guī)模是TREC檢索的幾千上萬倍(書中提及3000倍,2002)單臺計(jì)算機(jī)不可操作,索引分為k段查詢并行地送往各計(jì)算機(jī),k個結(jié)果合并成單一結(jié)果顯示給用戶查詢的并發(fā)處理—每秒鐘有上千個查詢第9章自然語言理解簡介1179.5信息抽取
9.5.1信息抽取技術(shù)特點(diǎn)
9.5.2互聯(lián)網(wǎng)信息抽取
9.5.3ACE會議
9.5.4命名實(shí)體識別第9章自然語言理解簡介1189.5.1信息抽取技術(shù)特點(diǎn)信息抽取(InformationExtraction:IE)的目標(biāo)—把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點(diǎn),以統(tǒng)一形式存儲信息以統(tǒng)一形式集成在一起—優(yōu)點(diǎn)方便檢查和比較—例如比較不同的招聘和商品信息能對數(shù)據(jù)作自動化處理—例如用數(shù)據(jù)挖掘方法發(fā)現(xiàn)和解釋數(shù)據(jù)模型第9章自然語言理解簡介119信息抽取技術(shù)的特點(diǎn)信息抽取技術(shù)并不試圖全面理解整篇文檔,只是對文檔中包含相關(guān)信息的部分進(jìn)行分析/至于哪些信息是相關(guān)的,由系統(tǒng)設(shè)計(jì)時定下的領(lǐng)域范圍而定應(yīng)用對象:信息抽取技術(shù)對于從大量的文檔中抽取需要的特定事實(shí)來說是非常有用的互聯(lián)網(wǎng)—存在海量文檔(頁面)/網(wǎng)上同一主題的信息分散存放在不同網(wǎng)站上,表現(xiàn)的形式也各不相同若能將這些信息收集在一起,用結(jié)構(gòu)化形式儲存,那將是有益—成功的信息抽取系統(tǒng)將把互聯(lián)網(wǎng)變成巨大的數(shù)據(jù)庫第9章自然語言理解簡介120IR與IEIR和IE的不同—IR從文檔庫中檢索相關(guān)的文檔,而IE是從文檔中取出相關(guān)信息點(diǎn)/互補(bǔ)技術(shù)—結(jié)合起來可以為文本處理提供強(qiáng)大的工具IR已有很長的歷史,而自動信息抽取技術(shù)則是近十年來發(fā)展起來的/IE的前身是文本理解,但整篇文檔的精確理解是極其困難的,一直也未能實(shí)現(xiàn)推動IE發(fā)展的兩個因素在線和離線文本數(shù)量的幾何級數(shù)增加“消息理解研討會”(MUC,MessageUnderstandingConference)/ACE近十幾年來對該領(lǐng)域的關(guān)注和推動
第9章自然語言理解簡介121信息抽取方法IE系統(tǒng)設(shè)計(jì)主要有兩大方法知識工程方法(KnowledgeEngineeringApproach)自動訓(xùn)練方法(AutomaticTrainingApproach)知識工程方法—主要靠手工編制規(guī)則使系統(tǒng)能處理特定知識領(lǐng)域的信息抽取問題自動訓(xùn)練方法—系統(tǒng)主要通過學(xué)習(xí)已經(jīng)標(biāo)記好的語料庫獲取規(guī)則或參數(shù)任何對該知識領(lǐng)域比較熟悉的人都可以根據(jù)事先約定的規(guī)范標(biāo)記語料庫經(jīng)訓(xùn)練后的系統(tǒng)能處理沒有見過的新文本方法實(shí)現(xiàn)快,但需要足夠數(shù)量的訓(xùn)練數(shù)據(jù),才能保證其處理質(zhì)量第9章自然語言理解簡介122文本形式(1)信息抽取面對的3種格式文本自由式文本結(jié)構(gòu)化文本半結(jié)構(gòu)化文本自由式文本:沒有固定格式從自由文本中抽取有限的主要信息—例如,從報道恐怖襲擊活動的新聞中析取襲擊者、所屬組織、地點(diǎn)、受害者等信息處理自由文本的IE系統(tǒng)主要處理步驟包括:句法分析、語義標(biāo)注、專有對象的識別(如人物、公司)和抽取規(guī)則信息抽取技術(shù)確實(shí)可行,因?yàn)樾枰阉鞯哪J筋愋陀泻軓?qiáng)的限定第9章自然語言理解簡介123文本形式(2)結(jié)構(gòu)化文本:是一種數(shù)據(jù)庫里的文本信息或者是根據(jù)事先規(guī)定的嚴(yán)格格式生成的文本從這樣的文本中抽取信息是非常容易的,準(zhǔn)確度也高半結(jié)構(gòu)化文本:一種界于自由文本和結(jié)構(gòu)化文本之間的數(shù)據(jù),通常缺少語法也沒有嚴(yán)格的格式對于半結(jié)構(gòu)化文本不能使用傳統(tǒng)的IE技巧/抽取模式通常依賴字符和象html標(biāo)記那樣的分隔標(biāo)志互聯(lián)網(wǎng)信息源—往往是半結(jié)構(gòu)化的,雖然中間夾雜著結(jié)構(gòu)化和自由文本第9章自然語言理解簡介1249.5.2互聯(lián)網(wǎng)信息抽取互聯(lián)網(wǎng)上存在一個被稱為“暗藏網(wǎng)”(thehiddenweb)的網(wǎng)上數(shù)據(jù)庫系統(tǒng)有人估計(jì)因特網(wǎng)上80%的內(nèi)容存在于這種看不見的因特網(wǎng)中/搜索引擎的“網(wǎng)絡(luò)爬蟲”抓不到這些網(wǎng)頁需要一種獨(dú)立的工具從這些網(wǎng)頁中收集數(shù)據(jù)—即“分裝器”(Wrapper或譯“包裝器”)的程序完成分裝器接受針對特定信息源的查詢請求,并從該信息源中找出相關(guān)的網(wǎng)頁,然后把需要的信息提取出來返回給用戶—由一系列抽取規(guī)則組成/一個分裝器只能處理一種特定的信息源第9章自然語言理解簡介125分裝器的實(shí)現(xiàn)手工構(gòu)造的IE系統(tǒng)難于適應(yīng)處理對象所屬領(lǐng)域的變化,而這正是互聯(lián)網(wǎng)的特點(diǎn)半自動化生成分裝器使用向?qū)ё層脩舾嬖V系統(tǒng)那些信息是需要抽取的—通過圖形界面標(biāo)示出需要抽取的區(qū)域/用這種方法也需要對新站點(diǎn)進(jìn)行重新學(xué)習(xí)全自動分裝器利用機(jī)器學(xué)習(xí),主要是歸納學(xué)習(xí)方法生成抽取規(guī)則—人工給出例子,學(xué)習(xí)算法從例子中歸納出規(guī)則第9章自然語言理解簡介1269.5.3ACE會議信息抽取的大規(guī)模發(fā)展,主要得益于美國DARPAR推出的兩大評測會議的推動MUC(MessageUnderstandingConference)1987~1998共舉行了7屆ACE(AutomaticContentExtraction)2000年開始,取代了MUC,目前為止共舉行了6屆目標(biāo)—促進(jìn)自動內(nèi)容抽取技術(shù)的發(fā)展具體研究目標(biāo)包括—實(shí)體檢測與跟蹤(EDT);關(guān)系檢測與識別(RDR);事件檢測與識別(VDR)
第9章自然語言理解簡介127ACE會議特點(diǎn)強(qiáng)調(diào)自然文本形式的處理/提供標(biāo)注大綱、語料庫和語言學(xué)資源/支持TIDES項(xiàng)目的抽取評測語料庫支持的語種有:英文、中文、阿拉伯文,數(shù)據(jù)來源:廣播、新聞專線、報紙等強(qiáng)調(diào)對文本基本意義或者基本概念的刻畫評測任務(wù)分成了幾項(xiàng)子任務(wù)/如ACE05的任務(wù)有:1)實(shí)體的檢測(發(fā)現(xiàn))和識別 2)關(guān)系的檢測和識別3)事件的檢測與識別4)數(shù)值的識別 5)時間的檢測和識別第9章自然語言理解簡介128各種識別子任務(wù)(1)實(shí)體發(fā)現(xiàn)與識別(EntityDetectionandRecognition,EDR)
關(guān)系發(fā)現(xiàn)和識別(RelationDetectionandRecognition,RDR)—發(fā)現(xiàn)數(shù)據(jù)流中特定類型的關(guān)系,識別這些關(guān)系的相關(guān)信息,并將這些信息組合成統(tǒng)一的格式輸出涉及關(guān)系的屬性和論元的識別關(guān)系屬性(地理位置,雇傭關(guān)系等等)relationargument—有關(guān)系的兩個實(shí)體的角色分別稱為Arg-1和Arg-2,每個角色中只能有一個實(shí)體relationmention—提及關(guān)系的句子或短語第9章自然語言理解簡介129各種識別子任務(wù)(2)事件發(fā)現(xiàn)和識別(EventDetectionandRecognition,VDR)—發(fā)現(xiàn)信息流中特定類型的事件,并且識別該事件的相關(guān)信息,并且組織成統(tǒng)一的格式輸出一個ACE事件是指包含0個或多個ACE實(shí)體、值以及時間表達(dá)式的事件—輸出包括屬性/論元/范圍第9章自然語言理解簡介130各種識別子任務(wù)(3)值的發(fā)現(xiàn)和識別(ValueDetectionandRecognition,VAL)—發(fā)現(xiàn)數(shù)據(jù)流中特定類型的值(value),識別這些值的相關(guān)信息,并將這些信息組合成統(tǒng)一的格式輸出。主要包括兩類Contact-Info:E-mail,Phone-number,URLNumeric:Money,Percent
時間的發(fā)現(xiàn)和識別(TimeDetectionandRecognition,TERN)—識別數(shù)據(jù)流中的特定類型的時間表達(dá)式,包括絕對時間和相對時間第9章自然語言理解簡介1319.5.4命名實(shí)體識別信息抽取的主要任務(wù)之一是命名實(shí)體識別(NamedEntityRecognition,NER)或?qū)嶓w識別發(fā)現(xiàn)數(shù)據(jù)流中特定類型的實(shí)體,識別這些實(shí)體的相關(guān)信息,并將這些信息組合成統(tǒng)一的格式輸出評測輸出包括實(shí)體的屬性和實(shí)體的提及(mention)即提及實(shí)體的句子或短語其中屬性包括實(shí)體類型(type),實(shí)體子類型(subtype),實(shí)體類別(class),表示實(shí)體的名稱(name)/每個實(shí)體只能有一種類別,一種子類和一個class第9章自然語言理解簡介132實(shí)體的類型和子類第9章自然語言理解簡介TypeSubtypesFAC(Facility)Airport,Building-Grounds,Path,Plant,Subarea-FacilityGPE(Geo-PoliticalEntity)Continent,County-or-District,GPE-Cluster,Nation,Population-Center,Special,State-or-ProvinceLOC(Location)Address,Boundary,Celestial,Land-Region-Natural,Region-General,Region-International,Water-BodyORG(Organization)Commercial,Educational,Entertainment,Government,Media,Medical-Science,Non-Governmental,Religious,SportsPER(Person)Group,Indeterminate,IndividualVEH(Vehicle)Air,Land,Subarea-Vehicle,Underspecified,WaterWEA(Weapon)Biological,Blunt,Chemical,Exploding,Nuclear,Projectile,Sharp,Shooting,Underspecified133實(shí)體的類別ACE中實(shí)體類別Class定義(4種)Specific(SPC,指特殊的唯一存在的實(shí)體)Generic(GEN,一類實(shí)體)negativelyquanitified(NEG,中文中不包含這項(xiàng),英文中主要指nobody等)Underspecified(USP,不是一類,也不是特指)例子建立[一支與打贏未來戰(zhàn)爭相適應(yīng)的人才指揮部隊(duì)
](GEN)[高科技部隊(duì)]如果沒有[高素質(zhì)人才
]支撐,再先進(jìn)的裝備也是一堆廢鐵。(GEN)對于長時間耽誤請求外援的作法,[人們]尤其感到憤怒。(USP)[您]現(xiàn)在收聽的是美國之音的《時事經(jīng)緯》節(jié)目。(USP)第9章自然語言理解簡介134提及的方式ACE定義實(shí)體的mention:在文本中可以用名稱(NAM),普通名詞/短語(NOM),或代詞(PRO)表示實(shí)體例子:北京奧申委常務(wù)副主席劉敬民在接受記者采訪時表示,此行達(dá)到了他預(yù)想效果。NameMention:劉敬民NominalMention:北京奧申委常務(wù)副主席PronounMention:他第9章自然語言理解簡介135名實(shí)體識別方法將名實(shí)體的識別看作分類問題是/否名實(shí)體—二值分類是哪一類名實(shí)體—多分類問題識別方法—各種統(tǒng)計(jì)學(xué)習(xí)方法/模式識別方法難點(diǎn):在不同領(lǐng)域、場景下,命名實(shí)體的外延有差異;數(shù)量巨大,不能枚舉,難以全部收錄在詞典中;某些類型的實(shí)體名稱變化頻繁,并且沒有嚴(yán)格的規(guī)律可以遵循;表達(dá)形式多樣;首次出現(xiàn)后往往采用縮寫形式;
第9章自然語言理解簡介1369.6統(tǒng)計(jì)機(jī)器翻譯
9.6.1機(jī)器翻譯的層次
9.6.2統(tǒng)計(jì)機(jī)器翻譯模型
9.6.3翻譯參數(shù)學(xué)習(xí)
9.6.4統(tǒng)計(jì)機(jī)器翻譯的發(fā)展第9章自然語言理解簡介1379.6.1機(jī)器翻譯的層次機(jī)器翻譯從語言分析角度可以分為4個層次(自底向上):詞法/句法/語義/中間語言第9章自然語言理解簡介EnglishWordsJohnlovesMaryEnglishSyntaxS(NP(John),VP(loves,NP(Mary)))EnglishSemanticsLoves(John,Mary)FrenchWordsJeanaimeMarieFrenchSyntaxS(NP(Jean),VP(aime,NP(Marie)))FrenchSemanticsAime(Jean,Marie)InterlinguaSemanticsAttraction(NameJohn,NameMary,High)138語言分析和轉(zhuǎn)換的層次兩種語言的翻譯可以在不同層次實(shí)現(xiàn),依賴于對源語言分析的深度無任何處理:查詢已翻譯的實(shí)例庫→翻譯轉(zhuǎn)化為檢索/目前的方法:基于記憶的翻譯(translationmemory—TM)最底層—詞法:詞匯級分析與翻譯中間層—句法:句法分析,然后結(jié)構(gòu)轉(zhuǎn)換中間層—語義:語義分析,獲得源語言深層結(jié)構(gòu),在此基礎(chǔ)上進(jìn)行轉(zhuǎn)換最高層—中間語言:對語言完全理解之后再行翻譯/n種語言只要2n對轉(zhuǎn)換第9章自然語言理解簡介139目前機(jī)器翻譯的用途機(jī)器翻譯的應(yīng)用前景不可限量由于目前機(jī)器翻譯系統(tǒng)性能的限制,應(yīng)用也就被限制目前可用之處:信息瀏覽—對于完全不懂的語言,糟糕的翻譯比沒有翻譯還是好:網(wǎng)頁瀏覽源語言受限翻譯—成功的例子:天氣預(yù)報翻譯系統(tǒng)TAUM-METEO/其他如命名實(shí)體翻譯預(yù)編輯翻譯—源語言人工預(yù)編輯+多語言翻譯第9章自然語言理解簡介1409.6.2統(tǒng)計(jì)機(jī)器翻譯模型統(tǒng)計(jì)方法在機(jī)器翻譯中應(yīng)用很早就提出來了能否像翻譯密碼一樣進(jìn)行語言翻譯語言翻譯必須涉及語言的含義,而密碼不需要20世紀(jì)90年代開始重提統(tǒng)計(jì)機(jī)器翻譯,已經(jīng)成為主流方法利用大規(guī)模語料庫統(tǒng)計(jì)出相關(guān)參數(shù)根據(jù)參數(shù)尋
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國智慧養(yǎng)老服務(wù)行業(yè)全國市場開拓戰(zhàn)略制定與實(shí)施研究報告
- 2025-2030年中國車載視頻監(jiān)控行業(yè)并購重組擴(kuò)張戰(zhàn)略制定與實(shí)施研究報告
- 2025-2030年中國制氫行業(yè)營銷創(chuàng)新戰(zhàn)略制定與實(shí)施研究報告
- 2025-2030年中國柔性O(shè)LED行業(yè)開拓第二增長曲線戰(zhàn)略制定與實(shí)施研究報告
- 2025-2030年中國電子紗行業(yè)全國市場開拓戰(zhàn)略制定與實(shí)施研究報告
- 關(guān)于煎餅的市場調(diào)查問卷
- 2024-2030年中國滾裝船行業(yè)市場全景監(jiān)測及投資前景展望報告
- 二年級數(shù)學(xué)計(jì)算題專項(xiàng)練習(xí)
- 天燃?xì)獍踩R培訓(xùn)課件
- 二零二五年度國有企業(yè)保安隊(duì)伍建設(shè)合同范本
- 老年患者跌倒的危險因素及護(hù)理研究進(jìn)展
- 全過程工程咨詢作業(yè)指導(dǎo)書
- (完整版)形式發(fā)票模版(國際件通用)
- 機(jī)械設(shè)備租賃合同范本簡單版(9篇)
- 城市生活垃圾分選系統(tǒng)設(shè)計(jì)
- 綠色施工管理體系與管理制度管理辦法(新版)
- 機(jī)動車交通事故快速處理協(xié)議書(最新格式)
- 最新拉鏈廠安全操作規(guī)程
- 述職報告評分表
- 變壓器交接試驗(yàn)報告(1250)
- LOI外貿(mào)采購意向(標(biāo)準(zhǔn)樣本)
評論
0/150
提交評論