文本挖掘 信息提取(IE_第1頁
文本挖掘 信息提取(IE_第2頁
文本挖掘 信息提?。↖E_第3頁
文本挖掘 信息提?。↖E_第4頁
文本挖掘 信息提?。↖E_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1文本挖掘 信息提?。↖E)參考Jaime Carbonell教授講稿2文本中信息的提取文本中信息的提取 出發(fā)點:從文本中挖掘信息,而不是簡單的詞項匹配 上下文無關(guān)實體的提取 Context-Free Entity Extraction 基于規(guī)則的實體提取 關(guān)系提取(Relational Extraction) 在eBusiness中的應(yīng)用3Text Mining (1) 文本本來是給人讀的,不是計算機 大多數(shù)信息以文本形式存儲 100 times as much online text as online DBs HTML網(wǎng)頁是帶有結(jié)構(gòu)標記的文本(帶來機會和挑戰(zhàn)) 數(shù)據(jù)挖掘操作的是數(shù)據(jù)表 (

2、i.e. numbers, fixed fields, adherence to data models).4Text Mining (2)許多應(yīng)用,我們需要從文本到數(shù)據(jù)庫表的轉(zhuǎn)換器一般的自然語言理解問題依然太困難但我們能夠解決簡單些、同時也有用的子問題嗎?Yes! 1.對文本按照主題分類2.并且從文本中或者標記結(jié)構(gòu)文字中提取某些信息是可能的。5Text Mining (3)Components of Text Mining(基本策略)(基本策略) 按照主題(話題,topics)分類 今天稍提一下,以后專門有一講 從分類的文本中提取事實(本講主要內(nèi)容) 在數(shù)據(jù)庫或者提取的事實中進行信息挖掘6T

3、ext Categorization (文本分類文本分類)Definition:給文檔或者網(wǎng)頁貼上“標簽”(label)這些標簽可能是像Yahoo類型那樣的主題e.g. finance, sports, newsworldasiabusiness“還可能是題材種類(genre)e.g. editorials“, movie-reviews“, news標簽還可以是二元的e.g. interesting-to-me not-interesting-to-me“要點: “類”是一個很寬的概念,由應(yīng)用目標定7Text Categorization (2)Methods 人工指定 (as in Yah

4、oo) 按照事先確定的簡單規(guī)則 (as in Reuters) 通常是事先建立一個“詞語的布爾組合”和類別的對應(yīng)關(guān)系。當一篇文檔包含的詞語滿足了那個布爾組合,則就認定它為相應(yīng)的類別。8Text Categorization (3)機器學習法 k-最近鄰法(簡單,有效,以后介紹) 決策樹歸納(最常用的方法) 支持向量機法(Support-vector machines),時髦的方法9命名實體的識別命名實體的識別(Named Entity Identification)目的(回答下面這樣的問題):目的(回答下面這樣的問題): 在這100篇文章中提到了哪些人? 在這2000篇網(wǎng)頁中提到了哪些地點?

5、在這些專利申請表中提到了哪些公司? 今年的消費者報告評估了什么產(chǎn)品? 注意,我們并不是給定X,問哪些文檔含有X。此時需要有一定的語法分析能力(詞匯表+有限狀態(tài)機)。10Named Entity Identification I (2)ExamplePresident Clinton decided to send special trade envoy Mickey Kantor to the special Asian economic meeting in Singapore this week. Ms. Xuemei Peng, trade minister from China, an

6、d Mr. Hideto Suzuki from Japans Ministry of Trade and Industry will also attend. Singapore, who is hosting the meeting, will probably be represented by its foreign and economic ministers. The Australian representative, Mr. Langford, will not attend, though no reason has been given. The parties hope

7、to reach a framework for currency stabilization.11Named Entity Identification I (3)Extracted Named Entities (NEs)PEOPLEPLACES_President Clinton SingaporeMickey Kantor JapanMs. Xuemei Peng ChinaMr. Hideto Suzuki AustraliaMr. Langford12Named Entity Identification II有限狀態(tài)機有限狀態(tài)機Finite-State Machines 有限狀態(tài)

8、接收器有限狀態(tài)接收器Finite State Acceptor (FSA)的定義的定義 FSA是一個有向圖 它有一個起始節(jié)點,start node 它至少有一個接收節(jié)點,accepting nodes 有一個輸入源(例如,string of words) 在節(jié)點上可能輸出YES or NO13Finite-State Machines (2)Definition of Finite State Acceptor (FSA) 節(jié)點之間的鏈接標記和輸入項的匹配 精確匹配,exact-match links labelse.g. China matching only China 通配符(?)匹配e

9、.g. ? matches 100 or China or . 特征匹配(feature-match)e.g. CAP matches any capitalized word 表成員匹配(list-membership,例如稱呼)e.g. if HON-LIST := (Mr, Ms, Dr, President, .)it would match any of those words in the input14Named Entity Identification IIIFinite-State Machines有限狀態(tài)變換器,有限狀態(tài)變換器,A Finite State Transdu

10、cer (FST) 帶有變量綁定的FSA 在輸出“NO”或“YES”的同時給出特定變量的綁定,從而可以給出對具體實體的識別e.g. YES 15Finite State Acceptor (FSA)StartStateAcceptStateCAPCAP HON-LIST16Finite State Transducer (FST)CAP HON-LISTCAPHON := FirstName := LastName := 17帶有角色信息的命名實體帶有角色信息的命名實體 (1)Motivation 知道命名實體的角色常常是有用的,例如: 誰參加了經(jīng)濟會議? 誰主持了這個會議? 在這經(jīng)濟會上討論

11、了誰的情況? 這次經(jīng)濟會議誰缺席了?18Role-Situated Named Entities (2)如何確定實體的角色?如何確定實體的角色? 一個FSM不夠了,考慮用三個FSMs 其中左邊和右邊的上下文幫助確定中間實體的角色19Role-Situated Named Entities (3)例子(根據(jù)左右內(nèi)容的含義)例子(根據(jù)左右內(nèi)容的含義)If = Then entity.role = ABSENTIf =Then entity.role = HOST20關(guān)系信息的提取關(guān)系信息的提取 (1)目的目的想知道誰對誰做了什么。21關(guān)系信息提取關(guān)系信息提取 (2)ExampleJohn Snel

12、l reporting for Wall Street. Today Flexicon Inc. announced a tender offer for Supplyhouse Ltd. for $30 per share, representing a 30% premium over Fridays closing price. Flexicon expects to acquire Supplyhouse by Q4 2001 without problems from federal regulators22關(guān)系信息提取關(guān)系信息提取 (3)此時,提取系統(tǒng)可以看成是若干此時,提取系統(tǒng)可

13、以看成是若干FSMs構(gòu)成的一個模構(gòu)成的一個模板,其設(shè)計根據(jù)具體應(yīng)用確定板,其設(shè)計根據(jù)具體應(yīng)用確定Corporate-acquisition(公司收購)(公司收購)acquirer acquiree company-FSM)share-price date 23關(guān)系信息提取關(guān)系信息提取 (4)輸出就是輸出就是FSM的事例化的事例化Corporate-acquisitionacquirer Flexicon Inc.acquiree Supplyhouse Ltd.share-price 30 USDdate Q4 200124事實提?。寒斍八绞聦嵦崛。寒斍八?(1)觀察觀察 實體 = 實體

14、+ 角色 = 關(guān)系模板 所提取信息的豐富性不斷增加 但還是不等于是自然語言理解 因為只是提取了預(yù)先確定的信息類型25Fact Extraction: State of the Art (2)它們已經(jīng)有些用處 例如可以產(chǎn)生用于數(shù)據(jù)庫的數(shù)據(jù)Acquirer Acquiree Sh.price Year_Flexicon Logi-truck 18 1999Flexicon Supplyhouse 30 10 2000. . . .26Fact Extraction: State of the Art (3)目前常用的技術(shù)途徑目前常用的技術(shù)途徑 手工建立若干提取規(guī)則 手工建立FSTs 從預(yù)先選定的例

15、子中進行基于特征的訓(xùn)練(Naive Bayes, Decision Trees) 隱馬爾科夫模型(Hidden Markoff Models, HMM) 帶有反饋驅(qū)動調(diào)整的FSTs27文本提取的應(yīng)用文本提取的應(yīng)用財經(jīng)財經(jīng) Email的自動答復(fù) 例如,要答復(fù)這樣的email:What is the balance of account N007623013? 首先,將這email分類成balance-request類別(預(yù)先需要學習或者定規(guī)則) 然后提取賬號,用賬號去數(shù)據(jù)庫查余額28文本提取的應(yīng)用文本提取的應(yīng)用 (2)財經(jīng)財經(jīng) 銀行指令的模板填充 e.g. Please transfer 100

16、,000 USD from N007623013 to checking account A011129081 tomorrow“ 首先將它分類為“資金轉(zhuǎn)移”類別29文本提取的應(yīng)用文本提取的應(yīng)用 (3)財經(jīng)財經(jīng) 然后提取出:account-transfer 然后雇員檢查模板,糾正錯誤,并添加其他必須的信息(例如,也許系統(tǒng)不會解釋“tomorrow”,于是要人工給出具體日期)30文本提取的應(yīng)用文本提取的應(yīng)用 II (1)信息服務(wù)信息服務(wù) BBS上公布的所有講座通知提取 時間/地點/講者/題目首先也還是得到一段文字的“講座通知”類別 email消息中公布的會議通知提取 時間/參加人/地點31文本提取的大規(guī)模文本提取的大規(guī)模Web應(yīng)用應(yīng)用 建立工作職位招聘大全的數(shù)據(jù)庫 掃描各種網(wǎng)站,通過分類,確定哪些網(wǎng)頁是關(guān)于工作機會的描述 提取 公司/日期/工資/等級/ 將提取的信息填

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論