




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
北京郵電大學(xué)模式識別實(shí)驗(yàn)室信息抽取與信息檢索
徐蔚然信息時(shí)代的機(jī)遇和挑戰(zhàn)信息檢索信息抽取機(jī)器學(xué)習(xí)主要內(nèi)容信息時(shí)代的機(jī)遇和挑戰(zhàn)信息檢索信息抽取機(jī)器學(xué)習(xí)主要內(nèi)容信息技術(shù)革命(第三次技術(shù)革命)250年前,發(fā)明蒸汽機(jī)工業(yè)革命100年前,電磁場理論,發(fā)現(xiàn)電子電氣革命50年前,發(fā)明計(jì)算機(jī),信息數(shù)字化信息革命信息時(shí)代的機(jī)遇和挑戰(zhàn)4-1
我們生活在大變革的時(shí)代生活方式的改變送別、信件、娛樂學(xué)習(xí)方法的改變圖書館、互聯(lián)網(wǎng)、MOOC工作方式的改變信息行業(yè)、SOHO社會的改變經(jīng)濟(jì)全球化信息時(shí)代的機(jī)遇和挑戰(zhàn)4-2
信息時(shí)代改變了我們給我們帶來革命的基盤技術(shù)是什么?IBM PC機(jī)硬件微軟
軟件Netscape 瀏覽器Yahoo 門戶網(wǎng)站Google/百度
搜索引擎Twitter/新浪微博
微博
Facebook /騰訊
社交網(wǎng)絡(luò)服務(wù)網(wǎng)站……信息時(shí)代的機(jī)遇和挑戰(zhàn)4-3
信息時(shí)代的機(jī)遇信息技術(shù)內(nèi)容處理技術(shù)文本信息處理技術(shù)未來技術(shù)的暢想:新的Google/百度是什么樣?白手起家到身價(jià)千億集中在IT行業(yè)從硬件到軟件從信息到內(nèi)容從內(nèi)容的傳輸?shù)絻?nèi)容的處理傳輸技術(shù)/網(wǎng)絡(luò)技術(shù)的發(fā)展和成熟內(nèi)容處理的挑戰(zhàn)最有代表性的內(nèi)容處理問題:語言文字語言文字專門用來傳遞信息和承載知識與人類的智能密不可分大數(shù)據(jù)時(shí)代的技術(shù)瓶頸互聯(lián)網(wǎng)有我們需要的海量
信息和知識,但是我們找
不到它們。信息時(shí)代的機(jī)遇和挑戰(zhàn)4-4
文本信息處理技術(shù)信息時(shí)代的機(jī)遇和挑戰(zhàn)信息檢索信息抽取機(jī)器學(xué)習(xí)主要內(nèi)容什么是信息檢索信息檢索的方法:怎樣構(gòu)建自己的Google或百度搜索引擎中科院研究生院2011年度秋季課程10中科院研究生院2011年度秋季課程11中科院研究生院2011年度秋季課程12四個(gè)應(yīng)用例子的共同特征給定需求(或者是對象),從信息庫中找出最匹配的信息(或?qū)ο?信息檢索:什么是信息檢索查詢請求信息庫返回結(jié)果傳統(tǒng)圖書檢索系統(tǒng)書名=“現(xiàn)代信息檢索”收錄圖書數(shù)據(jù)庫數(shù)目列表谷歌搜索引擎“現(xiàn)代信息檢索”互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)庫網(wǎng)頁列表卓越-亞馬遜(淘寶)“天王表LS3522S(黑色)”商品數(shù)據(jù)庫商品列表世紀(jì)佳緣網(wǎng)“白富美”交友數(shù)據(jù)庫人員列表信息檢索是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。信息檢索:什么是信息檢索14索引
數(shù)據(jù)集信息需求查詢結(jié)果列表檢索系統(tǒng)檢索fromJian-YunNie信息檢索系統(tǒng)給定:索引數(shù)據(jù)集合+用戶查詢請求查找:相關(guān)的數(shù)據(jù)列表信息檢索:什么是信息檢索15索引
數(shù)據(jù)集信息需求查詢結(jié)果列表檢索系統(tǒng)檢索fromJian-YunNie谷歌或百度的原理?構(gòu)建自己的全文搜索引擎信息檢索:什么是信息檢索16索引
數(shù)據(jù)集信息需求查詢結(jié)果列表檢索系統(tǒng)檢索Web爬取索引Nutch/about.html
Java開源Web爬蟲和搜索引擎谷歌或百度的原理?構(gòu)建自己的全文搜索引擎信息檢索:信息檢索中的關(guān)鍵問題和方法文檔數(shù)據(jù)集查詢結(jié)果列表內(nèi)容表示內(nèi)容表示查詢表示文檔表示相似度計(jì)算數(shù)據(jù)索引SlideisfromJimmyLin’stutorial爬取Crawling內(nèi)容表示Representation數(shù)據(jù)索引Indexing相似度計(jì)算Retrieval系統(tǒng)評價(jià)Evaluation信息檢索:信息檢索中的關(guān)鍵問題和方法目標(biāo)表示出文檔的內(nèi)容和語義,方便于信息的查找考慮因素準(zhǔn)確表達(dá)文本的語義全面覆蓋文本全部內(nèi)容方便計(jì)算機(jī)處理主要方法向量空間模型(VectorSpaceModel)詞袋模型(BagOfWords):忽略文檔的詞語順序和語法、句法等要素,僅將其看作是若干個(gè)詞匯的集合。TF(詞頻):一個(gè)詞在一篇文檔中出現(xiàn)的次數(shù)DF(文檔頻率):全部文檔集合中包含該詞的文檔數(shù)IDF:ID的倒數(shù)信息檢索:文檔和查詢的內(nèi)容表示信息檢索:文檔和查詢的內(nèi)容表示信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀(jì)下半葉首先開始發(fā)展,至20世紀(jì)40年代,索引和檢索成已為圖書館獨(dú)立的工具和用戶服務(wù)項(xiàng)目。信息檢索
起源
于
圖書館
的
參考
咨詢
和
文摘
索引
工作
從19世紀(jì)
下半葉
首先
開始
發(fā)展
至20世紀(jì)40年代
索引
和
檢索
已
成為
圖書館
獨(dú)立
的
工具
和
用戶
服務(wù)
項(xiàng)目分詞去標(biāo)點(diǎn)基于TF-IDF的詞袋模型特點(diǎn):頻率高的詞權(quán)重大問題:這次詞能代表這篇文檔嗎?詞典TF191201401參考1成為1從1的2獨(dú)立1發(fā)展1服務(wù)1工具1工作1和3檢索1開始1年代1起源1世紀(jì)2首先1索引2圖書館2文摘1下半葉1項(xiàng)目1信息檢索1已1用戶1于1至1咨詢1TF*IDF10.010.010.05.05.02.55.05.05.05.05.05.07.510.05.05.05.010.03.320.020.010.05.05.010.02.53.33.33.35.0DF0.10.10.10.20.20.40.40.20.20.20.20.20.40.10.20.20.20.20.30.10.10.10.20.20.10.40.30.30.30.2一篇文檔TF-IDF權(quán)重的向量查詢的內(nèi)容表示理想的查詢:一篇文檔實(shí)際的查詢:幾個(gè)詞方法查詢擴(kuò)展:擴(kuò)展出相關(guān)詞例如,查詢詞=馬航擴(kuò)展詞=MH370,客機(jī),失聯(lián),波音777,......生成詞向量[與文檔表示方法一樣]
TF-IDF權(quán)重的詞向量信息檢索:文檔和查詢的內(nèi)容表示問題海量數(shù)據(jù):谷歌,百度這樣大型的商業(yè)搜索引擎索引都是億級甚至幾千億的網(wǎng)頁數(shù)量。針對一個(gè)查詢,如何快速找到包含查詢詞的文檔?毫秒級時(shí)間方法對文檔建立倒排索引(InvertedIndex)記錄每個(gè)詞條在哪些文檔中出現(xiàn)過信息檢索:倒排索引(InvertedIndex)信息檢索:倒排索引(InvertedIndex)ThisisasampledocumentwithonesamplesentenceDoc1ThisisanothersampledocumentDoc2詞典倒排索引項(xiàng)TermDFTFThis22is22sample23another11………DocidFreq11211121122121…………SlideisfromChengXiangZhai問題索引數(shù)據(jù)集合:已經(jīng)表示成詞向量集合,記為{Di}
用戶查詢請求:已經(jīng)表示成詞向量,記為Q查找:相關(guān)的數(shù)據(jù)列表關(guān)鍵問題:計(jì)算Di與Q的相似度,排序給出最相關(guān)的結(jié)果相似度計(jì)算余弦相似度信息檢索:
檢索查詢θDiQ系統(tǒng)評價(jià)系統(tǒng)效率和效果怎么樣。效率時(shí)間:算法速度空間:存儲資源,計(jì)算資源效果檢索到的文檔是否相關(guān)?查準(zhǔn)率(精度precision)所有相關(guān)文檔是否都找到了?查全率(召回率recall)信息檢索:系統(tǒng)評價(jià)開源搜索引擎平臺面向研究卡耐基-梅隆大學(xué)的Lemur
和Indri
面向應(yīng)用LuceneXapianSphinx信息檢索:搭建自己的搜索引擎信息時(shí)代的機(jī)遇和挑戰(zhàn)信息檢索信息抽取機(jī)器學(xué)習(xí)主要內(nèi)容谷歌和百度是否足夠?信息檢索功能:從文檔集中找到最相關(guān)的文檔。是否有正好符合需求的文檔?能不能讓計(jì)算機(jī)把相關(guān)信息自動搜集整理起來,一起提供給用戶?信息抽取:什么是信息抽取信息抽取(Informationextraction,IE)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。例如:從新聞報(bào)道中抽取出恐怖事件的詳細(xì)情況:時(shí)間、地點(diǎn)、作案者、受害者、襲擊目標(biāo)、使用的武器等;從經(jīng)濟(jì)新聞中抽取出公司發(fā)布新產(chǎn)品的情況:公司名、產(chǎn)品名、發(fā)布時(shí)間、產(chǎn)品性能等;從病人的醫(yī)療記錄中抽取出癥狀、診斷記錄、檢驗(yàn)結(jié)果、處方、治療結(jié)果等等。信息抽取:什么是信息抽取信息檢索(IR)與信息抽?。↖E)信息檢索從文檔集中找到相關(guān)的文檔。用戶必須從找到的文檔中翻閱自己所要的信息。相關(guān)理論:信息論,概率論,統(tǒng)計(jì)學(xué)技術(shù)相對成熟信息抽取從文檔集中提取相關(guān)的信息。相關(guān)理論:計(jì)算語言學(xué),自然語言處理技術(shù),機(jī)器學(xué)習(xí)技術(shù)不成熟兩者聯(lián)系滿足不同層次的信息需求,逐漸結(jié)合。信息抽取:什么是信息抽取習(xí)近平奧巴馬蘋果公司蘋果水果喬布斯習(xí)近平奧巴馬蘋果公司北京國家主席喬布斯命名實(shí)體識別(NamedEntityRecognition)識別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。信息抽?。盒畔⒊槿〉难芯繂栴}命名實(shí)體識別人名地名組織機(jī)構(gòu)名知識庫共指消解語義消岐實(shí)體鏈接關(guān)系抽取確定實(shí)體之間的關(guān)系,包括隱含的關(guān)系和明確的關(guān)系。信息抽?。盒畔⒊槿〉膯栴}習(xí)近平奧巴馬蘋果公司蘋果水果習(xí)近平蘋果公司國家主席知識庫喬布斯喬布斯奧巴馬北京創(chuàng)建關(guān)系知識庫填充蘋果公司創(chuàng)建人:創(chuàng)建時(shí)間:子公司:主要產(chǎn)品:…….關(guān)系抽取事件檢測抽取出新聞報(bào)到中的各種事件,提取出每個(gè)事件的關(guān)鍵信息(動態(tài)信息的提?。┛植酪u擊:時(shí)間、地點(diǎn)、作案者、受害者、襲擊目標(biāo)、使用的武器等;自然災(zāi)害:時(shí)間、地點(diǎn)、事件原因、人員傷亡、財(cái)產(chǎn)損失;傾向判斷對某一人物、商品和事件的態(tài)度淘寶商品的傾向抽取信息抽?。盒畔⒊槿〉膯栴}手工模板(某人)創(chuàng)建了(某個(gè)組織)機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí):支持向量機(jī)半監(jiān)督學(xué)習(xí):bootstrapping信息抽取:信息抽取的主要方法機(jī)器學(xué)習(xí)要解決什么問題?信息抽取:機(jī)器學(xué)習(xí)簡介學(xué)習(xí)數(shù)據(jù)物理觀測數(shù)據(jù)學(xué)習(xí)算法問題模型(函數(shù))物理理論學(xué)習(xí)過程完成學(xué)習(xí)怎樣評價(jià)學(xué)習(xí)的好壞?理論模型的好壞?預(yù)測能力推廣能力最簡單化解釋數(shù)據(jù)能力問題模型(函數(shù))物理理論例:是否有上帝?信息抽?。簷C(jī)器學(xué)習(xí)簡介物理理論預(yù)測能力推廣能力最簡單化上帝論物理理論+上帝論解釋數(shù)據(jù)能力強(qiáng)較強(qiáng)較強(qiáng)較強(qiáng)較強(qiáng)強(qiáng)較強(qiáng)較簡單很弱很弱很復(fù)雜很復(fù)雜信息抽取的難度將依賴與機(jī)器學(xué)習(xí)的方法解決。涉及文本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年特許金融分析師考試創(chuàng)新方法試題及答案
- 2025年國際金融理財(cái)師考試知識結(jié)構(gòu)試題及答案
- 銀行從業(yè)資格證的行業(yè)現(xiàn)狀試題及答案
- 財(cái)務(wù)防范國際金融理財(cái)師試題及答案
- 理論結(jié)合實(shí)踐銀行從業(yè)資格證試題及答案
- 輕松掌握特許金融分析師考試試題及答案
- 內(nèi)容深入2024年小語種證書考試試題及答案
- 網(wǎng)絡(luò)編輯師考試學(xué)科知識試題及答案
- 2025年銀行從業(yè)資格證全景試題及答案
- 銀行從業(yè)資格證考試復(fù)習(xí)計(jì)劃試題及答案
- 2025年03月湖南懷化市新晃侗族自治縣事業(yè)單位工作人員10人筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- DB32-T 5085-2025 無機(jī)涂料應(yīng)用技術(shù)規(guī)程
- 用“魔法”打敗“魔法”課件-2024-2025學(xué)年高二下學(xué)期班主任工作經(jīng)驗(yàn)分享
- 2025屆高考物理一輪復(fù)習(xí):人教版(2019)高中物理必修第二冊基礎(chǔ)知識自測填空練習(xí)題(含答案)
- 《陸上風(fēng)力發(fā)電機(jī)組混凝土塔架生產(chǎn)技術(shù)規(guī)程》編制說明
- 酒店新員工安全知識培訓(xùn)
- (高清版)DB11∕T1191.3-2024實(shí)驗(yàn)室危險(xiǎn)化學(xué)品安全管理要求 第3部分:科研單位
- 種子輪融資合同協(xié)議范本
- 2025年安陽職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫有答案
- 7.3 重力(課件)2024-2025學(xué)年人教版八年級物理下冊
- 2025年河南省高職單招計(jì)算機(jī)類職業(yè)技能測試題庫及答案(供參考)
評論
0/150
提交評論