《中文信息檢索專題》PPT課件

上傳人：y*** IP屬地：四川上傳時(shí)間：2020-08-12 格式：PPT 頁數(shù)：41 大?。?10.50KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩36頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、中文信息檢索專題Chinese Information Retrieval,蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,一、歷史,計(jì)算機(jī)信息檢索起源于20世紀(jì)50年代初。1954年美國海軍兵器中心圖書館利用IBM701機(jī)開發(fā)計(jì)算機(jī)信息檢索系統(tǒng)，它標(biāo)志著計(jì)算機(jī)信息檢索階段的開始。計(jì)算機(jī)信息檢索技術(shù)已經(jīng)從脫機(jī)檢索、聯(lián)機(jī)檢索、光盤檢索發(fā)展到了網(wǎng)絡(luò)檢索階段。,一、歷史（續(xù)）,中文文本信息檢索最早見于“748工程”中的漢字情報(bào)檢索。 80年代中期后，由于計(jì)算機(jī)處理能力的大大提高和應(yīng)用的普及化，中文文本信息檢索的研究廣泛開展，各種漢字文本索引方法、檢索算法以及實(shí)用化系統(tǒng)開始出現(xiàn)。,二、信息檢索的定義,信息檢索是一門研

2、究從一定規(guī)模的文檔庫(Document Collection)中找出滿足用戶提出的信息需求(User Information Need)的技術(shù)。文檔可以是Web網(wǎng)頁、郵件、文章、段落和句子等內(nèi)容。,三、信息檢索和數(shù)據(jù)庫檢索,信息檢索處理的主要數(shù)據(jù)往往是無結(jié)構(gòu)(Unstructured)或者半結(jié)構(gòu)的(Semi-structured)，最典型的例子是無任何結(jié)構(gòu)的文章或者只有tag標(biāo)記的Html文檔等；另一方面，信息檢索的結(jié)果也往往是不精確的，不能像數(shù)據(jù)庫查詢那樣有100的正確率。如查找關(guān)于“雅典奧運(yùn)會(huì)”，可能會(huì)漏掉有關(guān)“2004奧運(yùn)會(huì)”的文章。,四、信息檢索相關(guān)技術(shù),自然語言處理人工智能模

3、式識(shí)別機(jī)器學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò) 數(shù)理統(tǒng)計(jì) 計(jì)算機(jī)網(wǎng)絡(luò) 內(nèi)容管理 ,五、信息檢索的對(duì)象,文本圖像音頻視頻 ,六、結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化的數(shù)據(jù)包含了各種可以命名的部分，并按照一定的結(jié)構(gòu)對(duì)內(nèi)容進(jìn)行組織。如數(shù)據(jù)庫中就包含了各種結(jié)構(gòu)化的記錄。非結(jié)構(gòu)化數(shù)據(jù)無法用一定的格式對(duì)它進(jìn)行組織和定義，搜索工具也無法根據(jù)特定的語義通過SQL的方法對(duì)它進(jìn)行檢索。如一本小說中的一段文字，一份報(bào)紙中的一則廣告等都屬于非結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是指部分有結(jié)構(gòu)，部分沒有結(jié)構(gòu)的數(shù)據(jù)。,七、例子（結(jié)構(gòu)化數(shù)據(jù)）,表11.1學(xué)生信息表,七、例子（非結(jié)構(gòu)化數(shù)據(jù)）,播激勵(lì)網(wǎng)絡(luò)(Spreading Activation N

4、etworks)是一種最常見的基于神經(jīng)網(wǎng)絡(luò)的信息檢索模型，一般由概念層和文檔層組成，有時(shí)還有提問層。用戶提問的概念在概念層被激活，被激活的切題概念和關(guān)聯(lián)概念按權(quán)值不同傳送到文檔層，并到達(dá)潛在相關(guān)的概念和文檔，然后將最高度激活的文檔作為結(jié)果返回給用戶。而且，允許由文檔或文檔和概念結(jié)合形成初始提問。為了提高檢索質(zhì)量，用戶得到檢索結(jié)果時(shí)，可以就某些文檔做出相關(guān)性反饋，給它們分配一個(gè)相關(guān)值；也可以隨時(shí)改變一些高度激活的概念和文檔節(jié)點(diǎn)的相關(guān)性，評(píng)價(jià)和影響被激活的節(jié)點(diǎn)。系統(tǒng)在相關(guān)和不相關(guān)的文檔內(nèi)分析概念的分布，優(yōu)化用戶的提問。此外，當(dāng)層間的激活傳送過幾次后，在相同文檔中經(jīng)常出現(xiàn)的概念也作為提問概念被激活，

5、這樣就可以自然地、靈活地進(jìn)行概念擴(kuò)展，讓用戶和系統(tǒng)相互作用。,七、例子（半結(jié)構(gòu)化數(shù)據(jù)）,From: Subject: xxxx Date: Wed, 15 Sep 2004 07:24:01 +0800 MIME-Version: 1.0 Content-Type: text/plain;charset=gb-2312 Content-Transfer-Encoding: 7bit X-Priority: 3 X-MSMail-Priority: Normal X-Unsent: 1 X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2800.116

6、5 在相同文檔中經(jīng)常出現(xiàn)的概念也作為提問概念被激活，這樣就可以自然地、靈活地進(jìn)行概念擴(kuò)展，讓用戶和系統(tǒng)相互作用。,八、信息檢索系統(tǒng)的模型,九、中文信息檢索特點(diǎn),詞語切分和詞語詞法分析進(jìn)行詞性標(biāo)注及相關(guān)的自然語言處理信息擴(kuò)展,十、信息檢索的評(píng)測,召回率（Recall，又稱查準(zhǔn)率）和準(zhǔn)確率（precision，又稱查全率）。準(zhǔn)確率是一個(gè)給定被檢索文檔的相似度的概率。召回率是一個(gè)給定相關(guān)性文檔的被檢索的概率。,十、信息檢索的評(píng)測（續(xù)）,其中，E（效率）用來指定準(zhǔn)確率和召回率重要性。 P代表準(zhǔn)確率，R表示召回率，是變量，值為01。如果取值是0，表示召回率更重要；取值1/2表示召回率和準(zhǔn)確率同等

7、重要；取值1表示準(zhǔn)確率更重要。,十一、信息檢索的模型,一般而言，有兩種信息檢索的模型：基于統(tǒng)計(jì)的模型和基于語義的模型。基于統(tǒng)計(jì)的模型是應(yīng)用某些統(tǒng)計(jì)的手段從被檢索文檔和高標(biāo)注等級(jí)文檔中查詢與用戶需求匹配程度最好的文檔；而基于語義的模型則嘗試對(duì)需求實(shí)現(xiàn)一定程度語法和語義的分析，即對(duì)用戶輸入的自然語言文本進(jìn)行一定程度的理解并重新生成查詢。,十一、信息檢索的模型（續(xù)）,基于統(tǒng)計(jì)的模型主要有：布爾模型（Boolean Model）擴(kuò)展布爾模型（Extended Boolean Model）向量空間模型（Vector Space Model）概率模型（Probabilistic Model）

8、二元獨(dú)立模型(Binary Independency Model) 雙泊松模型(Two Poisson Model) 推理網(wǎng)絡(luò)模型(Inference Network Model) 信度網(wǎng)絡(luò)模型(Belief Network Model) 貝葉斯網(wǎng)絡(luò)模型（Bayesian Network Model）,十一、信息檢索的模型（續(xù)）,基于語義的模型主要有：自然語言處理（Natural Language Process）潛在語義索引模型（Latent Semantic Indexing Model）神經(jīng)網(wǎng)絡(luò)（Neural Network）,十二、索引項(xiàng)、檢索項(xiàng)、權(quán)值和停用詞,一般把檢索表達(dá)式和

9、文檔分成一個(gè)一個(gè)的項(xiàng)（Term），通常每個(gè)項(xiàng)就是在文檔和檢索條件中的一個(gè)字、詞或短語等，而且是經(jīng)過預(yù)處理的。一般把檢索條件中的項(xiàng)稱為檢索項(xiàng)，把文檔中的項(xiàng)稱為索引項(xiàng)。然后為每個(gè)索引項(xiàng)和文檔確定一個(gè)權(quán)值（Weight），一般值為0和1，0表示相關(guān)而1則表示不相關(guān)。索引項(xiàng)和檢索項(xiàng)不包括那些不具有區(qū)分度的普通字、詞和短語，如“我”、“的”“你好”和“基于”等，這些字詞有時(shí)稱為停用詞（Stop Words）。,十三、信息檢索系統(tǒng)介紹,LEXIS/NEXIS LEXIS/NEXIS 是一個(gè)用來獲取法律（LEXIS）或者新聞（NEXIS）文檔的商用系統(tǒng)。LEXIS/NEXIS支持傳統(tǒng)的嚴(yán)格匹配的布爾查詢

10、。它還特別支持以布爾算子形式提交的查詢。這些算子在LEXIS/NEXIS中被稱作聯(lián)接子（Connector）,包括OR、AND和W/n等（W/n是用來表示接近查詢），并且它還支持通配符查詢。最近，LEXIS/NEXIS還提供了自然語言查詢的功能，被稱作FREESTYLETM搜索。這種查詢方式不需要布爾聯(lián)接子。LEXIS/NEXIS提供了一些對(duì)于自然語言特有的結(jié)果顯示選項(xiàng)。例如，用戶可以顯示“文本中權(quán)重最大的塊也即與查詢最相符的部分”?！癢HY”這個(gè)選項(xiàng)用來表示“解釋你的搜索結(jié)果”等。,十三、信息檢索系統(tǒng)介紹（續(xù)）,DIALOG DIALOG是一個(gè)用來搜索下列主題領(lǐng)域數(shù)據(jù)庫文檔的商用系統(tǒng)。這些主

11、題包括：商業(yè)、知識(shí)產(chǎn)權(quán)/法律/政府、醫(yī)藥、新聞、人文、科學(xué)、社會(huì)科學(xué)以及技術(shù)等。用戶選擇一個(gè)主題，然后選擇該主題下的一個(gè)（或者一組）數(shù)據(jù)庫。對(duì)于不同的數(shù)據(jù)庫有不同的搜索選項(xiàng)。例如對(duì)于新聞數(shù)據(jù)庫包括：主題（關(guān)鍵字），標(biāo)題，作者和期刊等等。,十三、信息檢索系統(tǒng)介紹（續(xù)）,Dow Jones News/Retrieval Dow Jones News Retrieval 是一個(gè)可以搜索多達(dá)1900個(gè)新聞來源的商用系統(tǒng)。例如，報(bào)紙、雜志等等。和上面介紹的系統(tǒng)相類似，它也支持嚴(yán)格布爾查詢以及一組算子，例如AND、OR、NOT、SAME、NEAR等。并且可以根據(jù)日期、領(lǐng)域、在文檔中的位置、主題、特定新聞源

12、等進(jìn)一步限制搜索。,十三、信息檢索系統(tǒng)介紹（續(xù)）,Topic 與上面三個(gè)商業(yè)文本檢索系統(tǒng)不同，Topic并不是利用自己擁有的文本集合提供信息服務(wù)而是一個(gè)單獨(dú)的文本檢索工具。用戶購買Topic，然后裝載自己的信息，利用Topic提供自己的信息服務(wù)。,十三、信息檢索系統(tǒng)介紹（續(xù)）,SMART SMART是由康奈爾大學(xué)的Gerard Salton開發(fā)的，是最早的文本檢索系統(tǒng)之一。它具有以下特點(diǎn)：（1）自動(dòng)建立索引；（2）自動(dòng)生成聚類層次計(jì)算聚類中心；（3）進(jìn)行查詢/文檔相似度計(jì)算并且根據(jù)文檔與查詢的相似程度對(duì)文檔排序；（4）將文檔以基于詞匯的向量空間表示；（5）根據(jù)用戶反饋?zhàn)詣?dòng)提高對(duì)查詢的處理。,十

13、三、信息檢索系統(tǒng)介紹（續(xù)）,INQUERY 這個(gè)系統(tǒng)是馬薩諸塞州大學(xué)智能信息檢索中心的產(chǎn)品。它是一個(gè)基于貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的概率模型，包括兩個(gè)部分：文本網(wǎng)絡(luò)與查詢網(wǎng)絡(luò)。給定一定的集合，文本網(wǎng)絡(luò)是靜態(tài)的，節(jié)點(diǎn)表示文本，它與表示單詞的節(jié)點(diǎn)相連。所以給定一個(gè)文本，INQUERY能計(jì)算一個(gè)特定單詞的概率。而查詢式中的單詞與那些應(yīng)該與之有聯(lián)系的節(jié)點(diǎn)有一連線。,十四、Web信息檢索,傳統(tǒng)的數(shù)據(jù)庫是靜態(tài)和結(jié)構(gòu)化的，而且有嚴(yán)格的組織。而Web是自發(fā)形成和發(fā)展的，Web上的頁面是動(dòng)態(tài)和半結(jié)構(gòu)化的，通過超鏈接彼此纏繞。因此對(duì)Web頁面的查詢和對(duì)數(shù)據(jù)庫的查詢是完全不同的。據(jù)統(tǒng)計(jì)Web上每天大約要新增一百萬個(gè)網(wǎng)頁，目前

14、的網(wǎng)頁數(shù)目已經(jīng)達(dá)到上百億。這給信息的組織和檢索技術(shù)提出了十分嚴(yán)峻的挑戰(zhàn)。對(duì)如此海量的數(shù)據(jù)如何幾秒鐘內(nèi)就完成快而準(zhǔn)的檢索，傳統(tǒng)的檢索技術(shù)顯得力不從心。 Web上的大部分網(wǎng)頁都是有一定格式的(如HTML)，有豐富的標(biāo)記。比如標(biāo)題（Title）信息、字體(Font)信息、大小(Size)信息，以及META信息等等，所以網(wǎng)頁的信息實(shí)際上是半結(jié)構(gòu)化的。,十五、Web信息檢索系統(tǒng),一般的信息檢索系統(tǒng)需要有一個(gè)存儲(chǔ)檢索數(shù)據(jù)的文檔庫，然后才能針對(duì)這個(gè)庫進(jìn)行檢索。一般而言絕大多數(shù)的文檔庫相對(duì)比較穩(wěn)定，更新不是很頻繁。而基于Web的信息檢索則是針對(duì)在Internet上的通過WWW協(xié)議發(fā)布的網(wǎng)頁進(jìn)行檢索，和通常的信

15、息檢索是不一樣的。Web信息檢索系統(tǒng)一般被稱為搜索引擎（Search Engine）。搜索引擎一般沒有自己的文檔庫，整個(gè)Web就是它的文檔庫！它需要建立一個(gè)索引來指向這個(gè)Web頁面。Web頁面具有數(shù)量龐大、在全世界分布以及更新迅速等特點(diǎn)。因此，搜索引擎面臨的第一個(gè)挑戰(zhàn)是如何及時(shí)、全面、正確地對(duì)Web網(wǎng)頁生成和維護(hù)索引。另外，使用搜索引擎的絕大多數(shù)人是計(jì)算機(jī)外行，所以如何為他們提供一個(gè)使用方便的操作界面和人性化的檢索方法是第二個(gè)挑戰(zhàn)。由于Web網(wǎng)頁的信息是包羅萬象的，不能像一般的信息檢索系統(tǒng)確定各個(gè)文檔集合，所以第三個(gè)挑戰(zhàn)是如何為用戶在數(shù)量龐大的網(wǎng)頁中找到他所關(guān)心的內(nèi)容。,十六、Web信息

16、檢索特點(diǎn),數(shù)據(jù)分布數(shù)據(jù)量巨大數(shù)據(jù)的動(dòng)態(tài)性結(jié)構(gòu)性差且數(shù)據(jù)冗余數(shù)據(jù)質(zhì)量不高數(shù)據(jù)的異構(gòu) 多語種和多內(nèi)碼,十七、搜索引擎,搜索引擎是以Web頁面（也可以說是超鏈接）為檢索文檔的信息檢索系統(tǒng)，它的核心就是信息檢索技術(shù)。另外，搜索引擎還需要進(jìn)行Web頁面的抓取、分類、索引、存儲(chǔ)、更新等工作，所以它比一般的信息檢索系統(tǒng)更加復(fù)雜。,十八、搜索引擎結(jié)構(gòu),十八、搜索引擎結(jié)構(gòu)（續(xù)）,搜索器搜索器（一般稱為Spider或Crawler）的功能是在Internet遍歷網(wǎng)址，發(fā)現(xiàn)和搜集網(wǎng)頁信息。它常常是一個(gè)機(jī)器人（Robot）程序，日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集Internet上的新網(wǎng)頁，還要定

17、期更新已經(jīng)搜集過的舊網(wǎng)頁，以避免死鏈接和無效鏈接。,十八、搜索引擎結(jié)構(gòu)（續(xù)）,索引器索引器的功能是理解搜索器所搜索的信息，從中抽取出索引項(xiàng)，用于表示網(wǎng)頁以及生成頁面庫的索引表。,十八、搜索引擎結(jié)構(gòu)（續(xù)）,檢索器檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出網(wǎng)頁，進(jìn)行網(wǎng)頁與查詢的相似度評(píng)價(jià)，對(duì)將要輸出的結(jié)果進(jìn)行排序，并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。,十八、搜索引擎結(jié)構(gòu)（續(xù)）,用戶接口用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎，高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法，以充分適應(yīng)人類

18、的思維習(xí)慣。,十九、Google的搜索機(jī)制,三個(gè)部分網(wǎng)頁抓取、索引入庫和用戶檢索。網(wǎng)頁抓取主要負(fù)責(zé)網(wǎng)頁的抓取，由URL服務(wù)器（URL Server）、抓取器（Crawler）、存儲(chǔ)器（Store Server）、和URL解析器（URL Resolver）四個(gè)部件組成，抓取器是該模塊的核心。索引入庫主要負(fù)責(zé)對(duì)網(wǎng)頁內(nèi)容進(jìn)行分析，對(duì)網(wǎng)頁進(jìn)行索引并存儲(chǔ)到數(shù)據(jù)庫里，由索引器（Indexer）和分類器（Sorter）兩個(gè)部件組成，該模塊涉及許多文件和數(shù)據(jù)，有關(guān)于桶（Barrels）的操作是該部分的核心。用戶檢索主要負(fù)責(zé)分析用戶輸入的檢索表達(dá)式，匹配相關(guān)網(wǎng)頁，把檢索結(jié)果返回給用戶，由查詢器（Searc

19、her）和網(wǎng)頁級(jí)別評(píng)定器（PageRank）兩個(gè)部件組成，其中網(wǎng)頁等級(jí)的計(jì)算是該模塊的核心。,十九、Google的搜索機(jī)制（續(xù)）,二十、搜索引擎分類,目錄(Dictionary)搜索引擎機(jī)器人(Robot)搜索引擎元（Meta）搜索引擎,二十、搜索引擎分類（續(xù)）,目錄(Dictionary)搜索引擎以人工方式或半自動(dòng)方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站，提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?，所以信息?zhǔn)確、導(dǎo)航質(zhì)量高，缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是：Yahoo、LookS

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《中文信息檢索專題》PPT課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

《中文信息檢索專題》PPT課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔