《中文信息檢索專題》PPT課件_第1頁
《中文信息檢索專題》PPT課件_第2頁
《中文信息檢索專題》PPT課件_第3頁
《中文信息檢索專題》PPT課件_第4頁
《中文信息檢索專題》PPT課件_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、中文信息檢索專題Chinese Information Retrieval,蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,一、歷史,計(jì)算機(jī)信息檢索起源于20世紀(jì)50年代初。1954年美國海軍兵器中心圖書館利用IBM701機(jī)開發(fā)計(jì)算機(jī)信息檢索系統(tǒng),它標(biāo)志著計(jì)算機(jī)信息檢索階段的開始。 計(jì)算機(jī)信息檢索技術(shù)已經(jīng)從脫機(jī)檢索、聯(lián)機(jī)檢索、光盤檢索發(fā)展到了網(wǎng)絡(luò)檢索階段。,一、歷史(續(xù)),中文文本信息檢索最早見于“748工程”中的漢字情報(bào)檢索。 80年代中期后,由于計(jì)算機(jī)處理能力的大大提高和應(yīng)用的普及化,中文文本信息檢索的研究廣泛開展,各種漢字文本索引方法、檢索算法以及實(shí)用化系統(tǒng)開始出現(xiàn)。,二、信息檢索的定義,信息檢索是一門研

2、究從一定規(guī)模的文檔庫(Document Collection)中找出滿足用戶提出的信息需求(User Information Need)的技術(shù)。 文檔可以是Web網(wǎng)頁、郵件、文章、段落和句子等內(nèi)容。,三、信息檢索和數(shù)據(jù)庫檢索,信息檢索處理的主要數(shù)據(jù)往往是無結(jié)構(gòu)(Unstructured)或者半結(jié)構(gòu)的(Semi-structured),最典型的例子是無任何結(jié)構(gòu)的文章或者只有tag標(biāo)記的Html文檔等; 另一方面,信息檢索的結(jié)果也往往是不精確的,不能像數(shù)據(jù)庫查詢那樣有100的正確率。如查找關(guān)于“雅典奧運(yùn)會(huì)”,可能會(huì)漏掉有關(guān)“2004奧運(yùn)會(huì)”的文章。,四、信息檢索相關(guān)技術(shù),自然語言處理 人工智能 模

3、式識(shí)別 機(jī)器學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò) 數(shù)理統(tǒng)計(jì) 計(jì)算機(jī)網(wǎng)絡(luò) 內(nèi)容管理 ,五、信息檢索的對(duì)象,文本 圖像 音頻 視頻 ,六、結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化的數(shù)據(jù)包含了各種可以命名的部分,并按照一定的結(jié)構(gòu)對(duì)內(nèi)容進(jìn)行組織。如數(shù)據(jù)庫中就包含了各種結(jié)構(gòu)化的記錄。 非結(jié)構(gòu)化數(shù)據(jù)無法用一定的格式對(duì)它進(jìn)行組織和定義,搜索工具也無法根據(jù)特定的語義通過SQL的方法對(duì)它進(jìn)行檢索。如一本小說中的一段文字,一份報(bào)紙中的一則廣告等都屬于非結(jié)構(gòu)化數(shù)據(jù)。 半結(jié)構(gòu)化數(shù)據(jù)是指部分有結(jié)構(gòu),部分沒有結(jié)構(gòu)的數(shù)據(jù)。,七、例子(結(jié)構(gòu)化數(shù)據(jù)),表11.1學(xué)生信息表,七、例子(非結(jié)構(gòu)化數(shù)據(jù)),播激勵(lì)網(wǎng)絡(luò)(Spreading Activation N

4、etworks)是一種最常見的基于神經(jīng)網(wǎng)絡(luò)的信息檢索模型,一般由概念層和文檔層組成,有時(shí)還有提問層。用戶提問的概念在概念層被激活,被激活的切題概念和關(guān)聯(lián)概念按權(quán)值不同傳送到文檔層,并到達(dá)潛在相關(guān)的概念和文檔,然后將最高度激活的文檔作為結(jié)果返回給用戶。而且,允許由文檔或文檔和概念結(jié)合形成初始提問。為了提高檢索質(zhì)量,用戶得到檢索結(jié)果時(shí),可以就某些文檔做出相關(guān)性反饋,給它們分配一個(gè)相關(guān)值;也可以隨時(shí)改變一些高度激活的概念和文檔節(jié)點(diǎn)的相關(guān)性,評(píng)價(jià)和影響被激活的節(jié)點(diǎn)。系統(tǒng)在相關(guān)和不相關(guān)的文檔內(nèi)分析概念的分布,優(yōu)化用戶的提問。此外,當(dāng)層間的激活傳送過幾次后,在相同文檔中經(jīng)常出現(xiàn)的概念也作為提問概念被激活,

5、這樣就可以自然地、靈活地進(jìn)行概念擴(kuò)展,讓用戶和系統(tǒng)相互作用。,七、例子(半結(jié)構(gòu)化數(shù)據(jù)),From: Subject: xxxx Date: Wed, 15 Sep 2004 07:24:01 +0800 MIME-Version: 1.0 Content-Type: text/plain;charset=gb-2312 Content-Transfer-Encoding: 7bit X-Priority: 3 X-MSMail-Priority: Normal X-Unsent: 1 X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2800.116

6、5 在相同文檔中經(jīng)常出現(xiàn)的概念也作為提問概念被激活,這樣就可以自然地、靈活地進(jìn)行概念擴(kuò)展,讓用戶和系統(tǒng)相互作用。,八、信息檢索系統(tǒng)的模型,九、中文信息檢索特點(diǎn),詞語切分和詞語詞法分析 進(jìn)行詞性標(biāo)注及相關(guān)的自然語言處理 信息擴(kuò)展,十、信息檢索的評(píng)測,召回率(Recall,又稱查準(zhǔn)率)和準(zhǔn)確率(precision,又稱查全率)。 準(zhǔn)確率是一個(gè)給定被檢索文檔的相似度的概率。 召回率是一個(gè)給定相關(guān)性文檔的被檢索的概率。,十、信息檢索的評(píng)測(續(xù)),其中,E(效率)用來指定準(zhǔn)確率和召回率重要性。 P代表準(zhǔn)確率,R表示召回率,是變量,值為01。如果取值是0,表示召回率更重要;取值1/2表示召回率和準(zhǔn)確率同等

7、重要;取值1表示準(zhǔn)確率更重要。,十一、信息檢索的模型,一般而言,有兩種信息檢索的模型:基于統(tǒng)計(jì)的模型和基于語義的模型。 基于統(tǒng)計(jì)的模型是應(yīng)用某些統(tǒng)計(jì)的手段從被檢索文檔和高標(biāo)注等級(jí)文檔中查詢與用戶需求匹配程度最好的文檔; 而基于語義的模型則嘗試對(duì)需求實(shí)現(xiàn)一定程度語法和語義的分析,即對(duì)用戶輸入的自然語言文本進(jìn)行一定程度的理解并重新生成查詢。,十一、信息檢索的模型(續(xù)),基于統(tǒng)計(jì)的模型主要有: 布爾模型(Boolean Model) 擴(kuò)展布爾模型(Extended Boolean Model) 向量空間模型(Vector Space Model) 概率模型(Probabilistic Model)

8、二元獨(dú)立模型(Binary Independency Model) 雙泊松模型(Two Poisson Model) 推理網(wǎng)絡(luò)模型(Inference Network Model) 信度網(wǎng)絡(luò)模型(Belief Network Model) 貝葉斯網(wǎng)絡(luò)模型(Bayesian Network Model),十一、信息檢索的模型(續(xù)),基于語義的模型主要有: 自然語言處理(Natural Language Process) 潛在語義索引模型(Latent Semantic Indexing Model) 神經(jīng)網(wǎng)絡(luò)(Neural Network),十二、索引項(xiàng)、檢索項(xiàng)、權(quán)值和停用詞,一般把檢索表達(dá)式和

9、文檔分成一個(gè)一個(gè)的項(xiàng)(Term),通常每個(gè)項(xiàng)就是在文檔和檢索條件中的一個(gè)字、詞或短語等,而且是經(jīng)過預(yù)處理的。 一般把檢索條件中的項(xiàng)稱為檢索項(xiàng),把文檔中的項(xiàng)稱為索引項(xiàng)。然后為每個(gè)索引項(xiàng)和文檔確定一個(gè)權(quán)值(Weight),一般值為0和1,0表示相關(guān)而1則表示不相關(guān)。 索引項(xiàng)和檢索項(xiàng)不包括那些不具有區(qū)分度的普通字、詞和短語,如“我”、“的”“你好”和“基于”等,這些字詞有時(shí)稱為停用詞(Stop Words)。,十三、信息檢索系統(tǒng)介紹,LEXIS/NEXIS LEXIS/NEXIS 是一個(gè)用來獲取法律(LEXIS)或者新聞(NEXIS)文檔的商用系統(tǒng)。LEXIS/NEXIS支持傳統(tǒng)的嚴(yán)格匹配的布爾查詢

10、。它還特別支持以布爾算子形式提交的查詢。這些算子在LEXIS/NEXIS中被稱作聯(lián)接子(Connector),包括OR、AND和W/n等(W/n是用來表示接近查詢),并且它還支持通配符查詢。最近,LEXIS/NEXIS還提供了自然語言查詢的功能,被稱作FREESTYLETM搜索。這種查詢方式不需要布爾聯(lián)接子。LEXIS/NEXIS提供了一些對(duì)于自然語言特有的結(jié)果顯示選項(xiàng)。例如,用戶可以顯示“文本中權(quán)重最大的塊也即與查詢最相符的部分”?!癢HY”這個(gè)選項(xiàng)用來表示“解釋你的搜索結(jié)果”等。,十三、信息檢索系統(tǒng)介紹(續(xù)),DIALOG DIALOG是一個(gè)用來搜索下列主題領(lǐng)域數(shù)據(jù)庫文檔的商用系統(tǒng)。這些主

11、題包括:商業(yè)、知識(shí)產(chǎn)權(quán)/法律/政府、醫(yī)藥、新聞、人文、科學(xué)、社會(huì)科學(xué)以及技術(shù)等。用戶選擇一個(gè)主題,然后選擇該主題下的一個(gè)(或者一組)數(shù)據(jù)庫。對(duì)于不同的數(shù)據(jù)庫有不同的搜索選項(xiàng)。例如對(duì)于新聞數(shù)據(jù)庫包括:主題(關(guān)鍵字),標(biāo)題,作者和期刊等等。,十三、信息檢索系統(tǒng)介紹(續(xù)),Dow Jones News/Retrieval Dow Jones News Retrieval 是一個(gè)可以搜索多達(dá)1900個(gè)新聞來源的商用系統(tǒng)。例如,報(bào)紙、雜志等等。和上面介紹的系統(tǒng)相類似,它也支持嚴(yán)格布爾查詢以及一組算子,例如AND、OR、NOT、SAME、NEAR等。并且可以根據(jù)日期、領(lǐng)域、在文檔中的位置、主題、特定新聞源

12、等進(jìn)一步限制搜索。,十三、信息檢索系統(tǒng)介紹(續(xù)),Topic 與上面三個(gè)商業(yè)文本檢索系統(tǒng)不同,Topic并不是利用自己擁有的文本集合提供信息服務(wù)而是一個(gè)單獨(dú)的文本檢索工具。用戶購買Topic,然后裝載自己的信息,利用Topic提供自己的信息服務(wù)。,十三、信息檢索系統(tǒng)介紹(續(xù)),SMART SMART是由康奈爾大學(xué)的Gerard Salton開發(fā)的,是最早的文本檢索系統(tǒng)之一。它具有以下特點(diǎn):(1)自動(dòng)建立索引;(2)自動(dòng)生成聚類層次計(jì)算聚類中心;(3)進(jìn)行查詢/文檔相似度計(jì)算并且根據(jù)文檔與查詢的相似程度對(duì)文檔排序;(4)將文檔以基于詞匯的向量空間表示;(5)根據(jù)用戶反饋?zhàn)詣?dòng)提高對(duì)查詢的處理。,十

13、三、信息檢索系統(tǒng)介紹(續(xù)),INQUERY 這個(gè)系統(tǒng)是馬薩諸塞州大學(xué)智能信息檢索中心的產(chǎn)品。它是一個(gè)基于貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的概率模型,包括兩個(gè)部分:文本網(wǎng)絡(luò)與查詢網(wǎng)絡(luò)。給定一定的集合,文本網(wǎng)絡(luò)是靜態(tài)的,節(jié)點(diǎn)表示文本,它與表示單詞的節(jié)點(diǎn)相連。所以給定一個(gè)文本,INQUERY能計(jì)算一個(gè)特定單詞的概率。而查詢式中的單詞與那些應(yīng)該與之有聯(lián)系的節(jié)點(diǎn)有一連線。,十四、Web信息檢索,傳統(tǒng)的數(shù)據(jù)庫是靜態(tài)和結(jié)構(gòu)化的,而且有嚴(yán)格的組織。而Web是自發(fā)形成和發(fā)展的,Web上的頁面是動(dòng)態(tài)和半結(jié)構(gòu)化的,通過超鏈接彼此纏繞。因此對(duì)Web頁面的查詢和對(duì)數(shù)據(jù)庫的查詢是完全不同的。 據(jù)統(tǒng)計(jì)Web上每天大約要新增一百萬個(gè)網(wǎng)頁,目前

14、的網(wǎng)頁數(shù)目已經(jīng)達(dá)到上百億。這給信息的組織和檢索技術(shù)提出了十分嚴(yán)峻的挑戰(zhàn)。對(duì)如此海量的數(shù)據(jù)如何幾秒鐘內(nèi)就完成快而準(zhǔn)的檢索,傳統(tǒng)的檢索技術(shù)顯得力不從心。 Web上的大部分網(wǎng)頁都是有一定格式的(如HTML),有豐富的標(biāo)記。比如標(biāo)題(Title)信息、字體(Font)信息、大小(Size)信息,以及META信息等等,所以網(wǎng)頁的信息實(shí)際上是半結(jié)構(gòu)化的。,十五、Web信息檢索系統(tǒng),一般的信息檢索系統(tǒng)需要有一個(gè)存儲(chǔ)檢索數(shù)據(jù)的文檔庫,然后才能針對(duì)這個(gè)庫進(jìn)行檢索。一般而言絕大多數(shù)的文檔庫相對(duì)比較穩(wěn)定,更新不是很頻繁。而基于Web的信息檢索則是針對(duì)在Internet上的通過WWW協(xié)議發(fā)布的網(wǎng)頁進(jìn)行檢索,和通常的信

15、息檢索是不一樣的。Web信息檢索系統(tǒng)一般被稱為搜索引擎(Search Engine)。 搜索引擎一般沒有自己的文檔庫,整個(gè)Web就是它的文檔庫!它需要建立一個(gè)索引來指向這個(gè)Web頁面。Web頁面具有數(shù)量龐大、在全世界分布以及更新迅速等特點(diǎn)。因此,搜索引擎面臨的第一個(gè)挑戰(zhàn)是如何及時(shí)、全面、正確地對(duì)Web網(wǎng)頁生成和維護(hù)索引 。 另外,使用搜索引擎的絕大多數(shù)人是計(jì)算機(jī)外行,所以如何為他們提供一個(gè)使用方便的操作界面和人性化的檢索方法是第二個(gè)挑戰(zhàn)。由于Web網(wǎng)頁的信息是包羅萬象的,不能像一般的信息檢索系統(tǒng)確定各個(gè)文檔集合,所以第三個(gè)挑戰(zhàn)是如何為用戶在數(shù)量龐大的網(wǎng)頁中找到他所關(guān)心的內(nèi)容。,十六、Web信息

16、檢索特點(diǎn),數(shù)據(jù)分布 數(shù)據(jù)量巨大 數(shù)據(jù)的動(dòng)態(tài)性 結(jié)構(gòu)性差且數(shù)據(jù)冗余 數(shù)據(jù)質(zhì)量不高 數(shù)據(jù)的異構(gòu) 多語種和多內(nèi)碼,十七、搜索引擎,搜索引擎是以Web頁面(也可以說是超鏈接)為檢索文檔的信息檢索系統(tǒng),它的核心就是信息檢索技術(shù)。另外,搜索引擎還需要進(jìn)行Web頁面的抓取、分類、索引、存儲(chǔ)、更新等工作,所以它比一般的信息檢索系統(tǒng)更加復(fù)雜。,十八、搜索引擎結(jié)構(gòu),十八、搜索引擎結(jié)構(gòu)(續(xù)),搜索器 搜索器(一般稱為Spider或Crawler)的功能是在Internet遍歷網(wǎng)址,發(fā)現(xiàn)和搜集網(wǎng)頁信息。它常常是一個(gè)機(jī)器人(Robot)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集Internet上的新網(wǎng)頁,還要定

17、期更新已經(jīng)搜集過的舊網(wǎng)頁,以避免死鏈接和無效鏈接。,十八、搜索引擎結(jié)構(gòu)(續(xù)),索引器 索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示網(wǎng)頁以及生成頁面庫的索引表。,十八、搜索引擎結(jié)構(gòu)(續(xù)),檢索器 檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出網(wǎng)頁,進(jìn)行網(wǎng)頁與查詢的相似度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。,十八、搜索引擎結(jié)構(gòu)(續(xù)),用戶接口 用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類

18、的思維習(xí)慣。,十九、Google的搜索機(jī)制,三個(gè)部分網(wǎng)頁抓取、索引入庫和用戶檢索。 網(wǎng)頁抓取主要負(fù)責(zé)網(wǎng)頁的抓取,由URL服務(wù)器(URL Server)、抓取器(Crawler)、存儲(chǔ)器(Store Server)、和URL解析器(URL Resolver)四個(gè)部件組成,抓取器是該模塊的核心。 索引入庫主要負(fù)責(zé)對(duì)網(wǎng)頁內(nèi)容進(jìn)行分析,對(duì)網(wǎng)頁進(jìn)行索引并存儲(chǔ)到數(shù)據(jù)庫里,由索引器(Indexer)和分類器(Sorter)兩個(gè)部件組成,該模塊涉及許多文件和數(shù)據(jù),有關(guān)于桶(Barrels)的操作是該部分的核心。 用戶檢索主要負(fù)責(zé)分析用戶輸入的檢索表達(dá)式,匹配相關(guān)網(wǎng)頁,把檢索結(jié)果返回給用戶,由查詢器(Searc

19、her)和網(wǎng)頁級(jí)別評(píng)定器(PageRank)兩個(gè)部件組成,其中網(wǎng)頁等級(jí)的計(jì)算是該模塊的核心。,十九、Google的搜索機(jī)制(續(xù)),二十、搜索引擎分類,目錄(Dictionary)搜索引擎 機(jī)器人(Robot)搜索引擎 元(Meta)搜索引擎,二十、搜索引擎分類(續(xù)),目錄(Dictionary)搜索引擎 以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是:Yahoo、LookS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論