第二講:信息檢索技術(shù)_第1頁(yè)
第二講:信息檢索技術(shù)_第2頁(yè)
第二講:信息檢索技術(shù)_第3頁(yè)
第二講:信息檢索技術(shù)_第4頁(yè)
第二講:信息檢索技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息檢索技術(shù)計(jì)算機(jī)信息檢索的基本概念二、基本信息檢索技術(shù)三、進(jìn)階檢索技術(shù)四、檢索效果評(píng)價(jià)五、信息檢索策略的制定和實(shí)施一、計(jì)算機(jī)信息檢索的基本概念1、計(jì)算機(jī)信息檢索的定義2、計(jì)算機(jī)信息檢索的原理3、計(jì)算機(jī)信息檢索類(lèi)型4、計(jì)算機(jī)信息檢索的發(fā)展5、計(jì)算機(jī)檢索系統(tǒng)構(gòu)成6、計(jì)算機(jī)信息檢索對(duì)象計(jì)算機(jī)信息檢索簡(jiǎn)稱(chēng)機(jī)檢狹義:指使用特定(或非特定的)指令形成的檢索策略在計(jì)算機(jī)檢索系統(tǒng)中檢索出需要的信息,并在檢索端上顯示(或打?。┑倪^(guò)程廣義:包括計(jì)算機(jī)信息存儲(chǔ)和計(jì)算機(jī)信息檢索2個(gè)方面信息檢索經(jīng)歷了從手工檢索到機(jī)械檢索再到計(jì)算機(jī)化檢索的發(fā)展過(guò)程。1、計(jì)算機(jī)信息檢索定義信息檢索的定義根據(jù)特定的需求、按照一定的方法查找所需信息的過(guò)程。廣義:包括信息存貯、信息檢索狹義:信息的查找過(guò)程2、信息檢索的原理就是將特定的用戶信息需求與檢索系統(tǒng)中的文獻(xiàn)線索進(jìn)行有無(wú)、異同及大小的比較和匹配,選取兩者相符或部分相符的文獻(xiàn)予以輸出。無(wú)論手工檢索還是計(jì)算機(jī)檢索,其基本原理都是一樣的。計(jì)算機(jī)信息檢索的原理同信息檢索原理就是將特定的用戶信息需求與檢索系統(tǒng)中的文獻(xiàn)線索進(jìn)行有無(wú)、異同及大小的比較與匹配,選取兩者相符或部分相符的文獻(xiàn)予以輸出3、信息檢索類(lèi)型依檢索結(jié)果內(nèi)容

劃分依信息存儲(chǔ)與

檢索方式劃分手工檢索計(jì)算機(jī)檢索事實(shí)信息檢索文獻(xiàn)信息檢索數(shù)據(jù)信息檢索信息檢索類(lèi)型文獻(xiàn)線索檢索全文檢索文獻(xiàn)檢索(LiteratureRetrieval

):以文獻(xiàn)為檢索對(duì)象的信息檢索數(shù)據(jù)信息檢索(DataRetrieval):電話號(hào)碼、觀測(cè)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、參數(shù)、市場(chǎng)行情、圖表、化學(xué)分子式等事實(shí)信息檢索(FactRetrieval):事物(事件)的性質(zhì)、定義、原理以及發(fā)生的時(shí)間、地點(diǎn)、過(guò)程等。3.1文獻(xiàn)信息檢索凡是利用目錄、文摘或索引等二次信息查找某一課題、某一著者、某一地域、某一機(jī)構(gòu)、某一事物的有關(guān)信息以及這些信息的出處和收藏單位,都屬于文獻(xiàn)信息檢索范疇,其檢索的結(jié)果就是文獻(xiàn)信息。例如,“設(shè)計(jì)人行天橋的參考文獻(xiàn)有哪些?”3.2數(shù)據(jù)信息檢索

凡是利用參考工具書(shū)、數(shù)據(jù)庫(kù)等檢索工具檢索包含在文獻(xiàn)中的某一數(shù)據(jù)、參數(shù)、公式或化學(xué)分子式等,統(tǒng)稱(chēng)為數(shù)據(jù)信息檢索。例如,“某一新型載貨汽車(chē)的載重量是多少,百公里油耗是多少?”

“今日人民幣對(duì)美元匯率”3.3事實(shí)信息檢索

凡是利用百科全書(shū)等檢索工具從存儲(chǔ)事實(shí)的信息系統(tǒng)中查找出某一事實(shí)的具體答案的過(guò)程稱(chēng)為事實(shí)信息檢索,其檢索結(jié)果是基本事實(shí)。例如,“世界上最長(zhǎng)的斜拉橋是哪座,該橋位于什么地方,何時(shí)建成?”手工信息檢索:印刷型檢索工具機(jī)械信息檢索:是手工檢索向計(jì)算機(jī)信息檢索的過(guò)渡階段計(jì)算機(jī)信息檢索:目前,計(jì)算機(jī)信息檢索已成為用戶獲取信息的主要方式,我們所說(shuō)的現(xiàn)代信息檢索一般指計(jì)算機(jī)信息系檢索。計(jì)算機(jī)信息檢索可劃分為脫機(jī)檢索、聯(lián)機(jī)檢索、光盤(pán)檢索和網(wǎng)絡(luò)檢索4個(gè)階段。

4、信息檢索的發(fā)展:機(jī)檢與手檢比較

檢索原理存儲(chǔ)方式檢索途徑檢索策略檢索效率機(jī)檢匹配電子型較多檢索式較高手檢匹配印刷型較少腦海中較低5.計(jì)算機(jī)檢索系統(tǒng)的構(gòu)成聯(lián)機(jī)檢索中心:中央計(jì)算機(jī)處理器、數(shù)據(jù)庫(kù)、外設(shè)通信網(wǎng)絡(luò):橋梁檢索終端:電傳終端、數(shù)傳終端、微機(jī)終端順排文檔與倒排文檔文獻(xiàn)型數(shù)據(jù)庫(kù)(書(shū)目數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù))和非文獻(xiàn)型數(shù)據(jù)庫(kù)基本索引字段和輔助索引字段6.計(jì)算機(jī)檢索的對(duì)象——數(shù)據(jù)庫(kù)AU=:作者字段CS=:作者所在單位字段SO=:文獻(xiàn)出處字段,包含期刊名稱(chēng)、卷、期、頁(yè)等,也包含會(huì)議事項(xiàng)。CO=:期刊代碼字段LA=:語(yǔ)種字段,表示原文語(yǔ)種DT=:文獻(xiàn)類(lèi)型字段CC=:分類(lèi)代碼字段/AB:文摘字段/TI:篇名字段/DE:敘詞字段,都是選自敘詞表、主題詞表中的詞/ID:自由標(biāo)引詞字段,非系統(tǒng)詞表中的詞。二、基本檢索技術(shù)1、布爾邏輯2、檢域限制在進(jìn)行信息檢索時(shí),檢索項(xiàng)之間概念有相交關(guān)系、同義關(guān)系或相關(guān)關(guān)系,這時(shí)采用布爾邏輯進(jìn)行檢索項(xiàng)之間的邏輯組配。即用“與”(AND)、“或”(OR)、“非”(NOT)來(lái)表達(dá)。1、布爾邏輯(1)邏輯“與”在計(jì)算機(jī)信息檢索時(shí),“與”

(and或*)是表達(dá)概念交叉和限定關(guān)系的一種組配,具有縮小檢索范圍和提高專(zhuān)指性的功能。實(shí)際操作中,表達(dá)式為:

AandB或

A*B例:?Scomputerandlibrary?Scomputer*librarycomputerandlibrarycomputerlibrarycomputerandlibrary(2)邏輯“或”邏輯“或”算符,表示主題概念之間的同義、近義、相關(guān)或多個(gè)并列的檢索概念。具有擴(kuò)大檢索范圍,減少漏檢的功能。AorB或A+B例:aerocraftORaircraftaerocraft+aircraftaerocraftORaircraftaerocraftORaircraftaerocraftaircraft(3)邏輯“非”邏輯“非”算符,是具有概念包含關(guān)系的一種組配,可以從原檢索范圍中排除某一內(nèi)容。具有縮小命中范圍,提高查準(zhǔn)率,增強(qiáng)檢索的專(zhuān)指性,減少輸出量的作用。AnotBA–B例:?SCarnotautomobileCarnotAutomobileCarAutomobileCarnotAutomobile2、檢域限制限定檢索詞出現(xiàn)在數(shù)據(jù)庫(kù)記錄中某一字段范圍的一種檢索技術(shù)。專(zhuān)業(yè)檢索界面,檢域限制用于對(duì)信息的特定年代、特定類(lèi)別、特定檢索點(diǎn)作限制。分前綴限制符和后綴限制符。Au=限查特定作者JN=限查特定刊名LA=限查特定語(yǔ)種PN=限查特定專(zhuān)利號(hào)PY=限查特定年代/TI限在題目中查/AB限在文摘中查/DE限在敘詞標(biāo)引中查/ID限在自由詞中查郎大地2012年前在南京航空航天大學(xué)期間發(fā)表的文章檢索式:作者=郎大地and單位=南京航空航天大學(xué)and年<2012AU=郎大地andCS=南京航空航天大學(xué)andPY<20121、檢索錢(qián)偉長(zhǎng)在清華大學(xué)或上海大學(xué)時(shí)發(fā)表的文章檢索式:作者=錢(qián)偉長(zhǎng)and(單位=清華大學(xué)or單位=上海大學(xué))2、檢索錢(qián)偉長(zhǎng)1980年以前在清華大學(xué)期間發(fā)表的題名或摘要中都包含“物理”的文章檢索式:作者=錢(qián)偉長(zhǎng)and單位=清華大學(xué)and(題名=物理or摘要=物理)and年<1980三、進(jìn)階檢索技術(shù)1、位置邏輯2、截詞檢索如果檢索詞之間的鄰近位置和先后關(guān)系,只用邏輯組配算符而不按概念關(guān)系加以限定,就容易使詞與詞之間的概念組配產(chǎn)生歧義和誤差。如:天線反射器和反射器天線。位置算符可以表達(dá)并限定檢索詞在記錄中出現(xiàn)的位置關(guān)系。提高檢索的專(zhuān)指性。1、位置邏輯(P)或()—withA(P/0)BA、B兩詞之間不容許插入其他詞或代碼(標(biāo)點(diǎn)、連字符、空格除外),前后次序不變。

例如:power(p/0)system或

“powersystem”

flight(p/0)control括flightcontrol,flight-control等

(P/n)A(P/n)BA、B兩詞之間可插入最多n個(gè)詞,前后次序不變(n=1~9)n=1時(shí)A(P/1)B

例如:flight(P/1)control包括flightcontrol,

flightintelligentcontrol(N)算符

A(N/0)BA、B中間不能插詞,前后位置可互換。例如:flight(N/0)control

包括:flightcontrol,controlflight(N/n)算符A(N/n)BA、B兩詞之間最多可插入n個(gè)詞,前后次序可顛倒N=1時(shí)A(1N)B例如:

solar(1n)energy

包括solarandenergy,energyandsolarSubfield(S)要求檢索詞出現(xiàn)在一個(gè)子字段(一個(gè)句子)中Solar(S)energyField(F)要求被連接的2個(gè)詞出現(xiàn)在一個(gè)字段中,詞序不限例如:Computer(F)control常用的位置算符算符

功能

表達(dá)式

檢索結(jié)果

P兩詞相鄰,按輸入時(shí)順序排列Education(P/0)school,或Educationschool

P/n同上,兩詞中間允許插入n個(gè)詞Education(P/1)schoolEducationschoolEducationschoolsEducationandmusicschoolSchoolofcontinuededucationN兩詞緊密相鄰,中間不能插入其他詞,順序可以顛倒

Education(N/0)school,EducationschoolSchooleducationN/n同上,兩詞中間可以插入n個(gè)詞

Education(N/1)schoolEducationschoolSchoolofeducationEducationmusicschoolS兩個(gè)詞同在一個(gè)標(biāo)引字段中Education(S)school例如同時(shí)出現(xiàn)在一個(gè)子字段(題名或文摘)中F兩個(gè)詞同在一個(gè)段落中Education(F)school同時(shí)出現(xiàn)在一個(gè)段落中主要位置算符檢索精確度排序:

P/0

P/NN/0N/nSF漸弱括號(hào)中檢索詞高(P),(N),(S),(L),(F)NOTANDOR低優(yōu)先級(jí)排序在檢索過(guò)程中,還常常會(huì)遇到相同詞干不同詞尾的詞義相近的詞,單復(fù)數(shù)詞,拼法不同的詞等等。如果將這些詞都輸進(jìn)系統(tǒng),勢(shì)必會(huì)增多檢索手續(xù)和時(shí)間,增加檢索費(fèi)用。所以,聯(lián)機(jī)系統(tǒng)提供了一種截詞符的使用。利用截詞法,可以擴(kuò)大查找范圍,提高查全率,節(jié)省檢索費(fèi)用。2、截詞檢索截詞檢索的方式按截詞位置可分為前截詞、后截詞、前后截詞和中間截詞

截?cái)嘧址麛?shù)的不同,可分為有限截?cái)嗪蜔o(wú)限截?cái)?/p>

(1)無(wú)限截詞

在詞干后加“*”,表示其后可跟任意個(gè)字母。

例如:computer*

包括:computer,computers,computery,computerization...…主詞干后無(wú)限個(gè)可變字符左截詞,右截?cái)嘀虚g截?cái)唷?”*statin*(2)有限截詞$1,[*1]

computer$1包括:computer,computers...0-1個(gè)變化字符

computer$2包括:computer,computers,computered...0-2個(gè)變化字符(3)中間截詞

通常用于解決英美拼法的差異,在詞間加一個(gè)或幾個(gè)“?”

例如:wom$1n中間有限截詞包括woman,womenfib$2board包括:fiberboard,fibreboard中間無(wú)限截詞*注意:檢索詞如為單詞,而且未指定檢索字段時(shí),系統(tǒng)將在基本索引的一切字段中進(jìn)行檢索;使用字段檢索(檢域限制)對(duì)檢索出的文獻(xiàn)數(shù)量和相關(guān)程度有極大影響。禁用詞詞表:ANFORTHEANDFROMTOBYOFWITH等

⑴檢全率/查全率:是檢索系統(tǒng)在進(jìn)行某一課題檢索時(shí),檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫(kù)中相關(guān)文獻(xiàn)總量的比率;⑵檢準(zhǔn)率/查準(zhǔn)率:是檢索系統(tǒng)在進(jìn)行某一課題檢索時(shí),檢出的相關(guān)文獻(xiàn)與檢出文獻(xiàn)總量的比率;⑶檢索時(shí)間:指檢索過(guò)程所耗費(fèi)的時(shí)間;⑷檢索費(fèi)用。五、信息檢索效果評(píng)價(jià)檢索效果評(píng)價(jià)的指標(biāo)

評(píng)價(jià)檢索效果的常用指標(biāo)有:查全率(Recallratio)——用R表示查準(zhǔn)率(Precisionratio)——用P表示漏檢率(Omissionratio)——用O表示誤檢率(Fall-outratio)——用F表示

高查全率和查準(zhǔn)率是人們?cè)跈z索活動(dòng)中通常所追求的目標(biāo)。1、查全率查全率:反映用戶在文獻(xiàn)檢索時(shí),檢出的相關(guān)文獻(xiàn)與數(shù)據(jù)庫(kù)中與自己研究課題相關(guān)文獻(xiàn)的數(shù)量比例。又稱(chēng)“檢全率”、“命中率”查準(zhǔn)率:是指檢出的相關(guān)文獻(xiàn)量與檢出的全部文獻(xiàn)總量的比率,是衡量信息檢索系統(tǒng)精確度的尺度.2、查準(zhǔn)率查全率R和查準(zhǔn)率P兩者之間存在互逆關(guān)系3、漏檢率漏檢率就是漏檢的相關(guān)文獻(xiàn)量與檢索系統(tǒng)中相關(guān)文獻(xiàn)總量的比率,是衡量信息檢索系統(tǒng)漏檢文獻(xiàn)的尺度,可用下式表示:漏檢率=漏檢相關(guān)文獻(xiàn)量*100%

系統(tǒng)中相關(guān)文獻(xiàn)總量誤檢率是指誤檢(檢不出相關(guān))文獻(xiàn)總量的比率,是衡量信息檢索系統(tǒng)誤檢文獻(xiàn)和程度的尺度??捎孟率奖硎荆赫`檢率=誤檢文獻(xiàn)量*100%檢出文獻(xiàn)總量4、誤檢率

5、提高查全率的主要方法——(1)準(zhǔn)確把握檢索對(duì)象及目的,選擇合適的數(shù)據(jù)庫(kù)。(2)采用分類(lèi)法或規(guī)范化詞檢索。(3)增加同義詞、近義詞(4)減少邏輯“與”及邏輯“非”的使用。(5)增加邏輯“或”及截詞檢索技術(shù)的使用。(6)采用截詞符或通配符。(7)字段限制不宜過(guò)多。

6、提高查準(zhǔn)率的主要方法——(1)準(zhǔn)確把握檢索對(duì)象及目的,選擇合適的數(shù)據(jù)庫(kù)。(2)提高檢索詞或分類(lèi)號(hào)的專(zhuān)指度。(3)選擇邏輯“與”及邏輯“非”的使用。(5)減少或不采用邏輯“或”及截詞檢索技術(shù)的使用。(6)限定檢索詞出現(xiàn)的字段。(7)不選“全文檢索”.(8)限定檢索對(duì)象的文獻(xiàn)類(lèi)型、時(shí)間段、文種及其它特征。計(jì)算機(jī)信息檢索策略編寫(xiě)1、分析課題的檢索要求2、確定課題的檢索范圍(選擇檢索工具,了解檢索系統(tǒng))3、選定檢索詞,構(gòu)造檢索表達(dá)式4、確定檢索途徑,選定檢索方法5、實(shí)施檢索策略,瀏覽初步檢索結(jié)果6、調(diào)整檢索策略,實(shí)施并輸出檢索結(jié)果7、索取原始文獻(xiàn)

步驟示意圖第一步:分析課題的檢索要求明確檢索目的明確課題的主題或主要內(nèi)容課題涉及的學(xué)科范圍所需信息的數(shù)量、語(yǔ)種、年代范圍、類(lèi)型等具體指標(biāo)第二步:確定課題的檢索范圍檢索工具的取舍檢索工具的學(xué)科范圍檢索工具的覆蓋年限檢索工具的語(yǔ)種第三步:確定檢索詞,構(gòu)造檢索式確定檢索詞1、檢索標(biāo)識(shí)必須反映課題內(nèi)容和信息需求;2、檢索標(biāo)識(shí)和數(shù)據(jù)庫(kù)的標(biāo)引標(biāo)識(shí)應(yīng)相一致;3、所選檢索工具或系統(tǒng)具有敘詞表或主題詞表的,優(yōu)先選用敘詞或主題詞作為檢索詞;4、要從詞表規(guī)定的專(zhuān)業(yè)范圍出發(fā),選用各學(xué)科內(nèi)具有檢索價(jià)值的基本名詞或術(shù)語(yǔ);5、如選擇的檢索詞無(wú)詞表可查,或在詞表中未反映

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論