版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第二章計算機(jī)信息檢索技術(shù)
鄭州大學(xué)信息檢索教研室2024/2/26122024/2/26第1節(jié)計算機(jī)檢索概述第2節(jié)計算機(jī)信息檢索系統(tǒng)組成第3節(jié)計算機(jī)信息檢索的分類第4節(jié)計算機(jī)信息檢索技術(shù)第5節(jié)信息檢索的方法*第6節(jié)信息檢索的策略*1計算機(jī)檢索概述1.1國內(nèi)外計算機(jī)信息檢索發(fā)展階段1975年,從國外引進(jìn)數(shù)據(jù)庫開展機(jī)檢服務(wù);1980年,建立國際聯(lián)機(jī)終端開展檢索服務(wù);20世紀(jì)80年代中后期,自建數(shù)據(jù)庫;90年代初,發(fā)展光盤檢索;90年代中期,Internet網(wǎng)絡(luò)化檢索階段。32024/2/26國外計算機(jī)信息檢索發(fā)展階段(P5)脫機(jī)檢索階段(20世紀(jì)50-60年代)聯(lián)機(jī)檢索階段(20世紀(jì)60-80年代)光盤檢索階段(20世紀(jì)80年代中-90年代)網(wǎng)絡(luò)信息檢索階段(1995-)42024/2/261.2計算機(jī)信息檢索的原理計算機(jī)信息檢索的實質(zhì)就是由計算機(jī)將輸入的檢索策略與系統(tǒng)中存儲的文獻(xiàn)特征標(biāo)識及其邏輯組配關(guān)系進(jìn)行類比、匹配的過程,主要包括2個部分:信息存儲是將文獻(xiàn)、數(shù)值、事實等信息按一定的格式輸入到計算機(jī)中,構(gòu)成可供檢索的數(shù)據(jù)庫。主要包括信息的采集、著錄、標(biāo)引、整序等過程。信息檢索是將檢索提問式按一定的要求輸入計算機(jī)中,經(jīng)計算機(jī)系統(tǒng)與已存貯在計算機(jī)中的數(shù)據(jù)庫進(jìn)行匹配運算,然后將符合檢索提問的數(shù)據(jù)按要求的格式輸出。52024/2/26計算機(jī)信息檢索的原理(P8-11)62024/2/26
信息存儲
原始信息
信息主題
數(shù)據(jù)庫記錄及信息特征標(biāo)識
信息檢索
信息需求
檢索主題
檢索提問式及提問標(biāo)識
計算機(jī)
檢索結(jié)果
主題分析著錄標(biāo)引類比輸出主題分析選定編制檢索語言(主題詞表)信息存儲過程信息存儲就是按照一定標(biāo)準(zhǔn),將收集到的原始文獻(xiàn)進(jìn)行主題概念分析,用系統(tǒng)規(guī)定的語言(主題詞、分類號)進(jìn)行標(biāo)引,形成信息的特征標(biāo)識,進(jìn)行整理與排序,構(gòu)成可供檢索的數(shù)據(jù)庫,主要包括:信息的采集、著錄、標(biāo)引和整序等過程。72024/2/26信息檢索過程用戶對檢索課題加以分析,明確檢索范圍,弄清主題概念,然后用系統(tǒng)檢索語言來表示主題概念,形成檢索標(biāo)識及檢索策略,輸入到計算機(jī)進(jìn)行檢索。計算機(jī)按照用戶的要求將檢索策略轉(zhuǎn)換成一系列提問,在專用程序的控制下進(jìn)行邏輯運算,選出符合要求的信息輸出。計算機(jī)檢索的過程實際上是一個比較、匹配的過程,檢索提問只要與數(shù)據(jù)庫中的信息的特征標(biāo)識及其邏輯組配關(guān)系相一致,則屬“命中”,即找到了符合要求的信息。82024/2/261.3計算機(jī)信息檢索特點檢索速度快,效益高;檢索功能強(qiáng),數(shù)量大;檢索途徑多,手段靈活;檢索范圍廣;服務(wù)方式多。2計算機(jī)信息檢索系統(tǒng)組成2.1系統(tǒng)設(shè)備硬件:運算器、控制器、存儲器、輸入輸出裝置等軟件:系統(tǒng)操作程序、數(shù)據(jù)庫管理程序、聯(lián)機(jī)控制程序、應(yīng)用程序等。通訊線路:電話通訊網(wǎng)、數(shù)據(jù)通訊網(wǎng)、衛(wèi)星通訊網(wǎng)等。檢索終端:信息用戶與檢索系統(tǒng)主機(jī)進(jìn)行人機(jī)對話,實現(xiàn)聯(lián)機(jī)檢索的設(shè)備。包括上網(wǎng)設(shè)備、調(diào)制解調(diào)器等。數(shù)據(jù)庫:是計算機(jī)檢索的對象。是由一個或數(shù)個文檔構(gòu)成,并能夠滿足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)集合。2.2數(shù)據(jù)庫的構(gòu)成構(gòu)成數(shù)據(jù)庫的三大要素:
文檔——記錄——字段112024/2/26一定專業(yè)范圍內(nèi)的信息記錄及其索引的集合體,是計算機(jī)信息檢索系統(tǒng)的重要組成部分,是信息資源,是檢索對象。一定專業(yè)范圍內(nèi)的信息記錄及其索引的集合體,是計算機(jī)信息檢索系統(tǒng)的重要組成部分,是信息資源,是檢索對象。文檔(File)數(shù)據(jù)庫中一部分記錄的集合,文檔由若干記錄構(gòu)成。數(shù)據(jù)庫是由一個順排文檔和若干個倒排文檔所構(gòu)成
順排文檔是數(shù)據(jù)庫的主體,又稱主文檔,按每條記錄的順序號大小排列,檢索結(jié)果都來自于順排文檔。
倒排文檔是從順排檔中抽取有檢索意義的檢索標(biāo)識,如主題詞、著者姓名、化學(xué)物質(zhì)名、刊名等,并按索引詞的字順排列,同時在檢索標(biāo)識后注明入藏順序號,這就是常見的數(shù)據(jù)庫中的主題詞索引、著者索引、刊名索引。122024/2/26132024/2/26由若干字段組成的文獻(xiàn)單元,是數(shù)據(jù)庫中的基本文獻(xiàn)單元,每條記錄描述了原始信息的外部和內(nèi)部特征。數(shù)據(jù)庫中的一條記錄通常代表一篇文獻(xiàn)。例如:在書目型數(shù)據(jù)庫中,一條記錄相當(dāng)于一條題錄或文摘;在全文型數(shù)據(jù)庫中,一條記錄相當(dāng)于一篇完整的文獻(xiàn);在其它類型數(shù)據(jù)庫中,一條記錄則代表一個信息單元。記錄越多,數(shù)據(jù)庫的容量就越大。142024/2/26記錄(Record)152024/2/26記錄列表162024/2/26內(nèi)部特征外部特征字段(Field)字段是構(gòu)成記錄的基本單元,是對文獻(xiàn)某一方面的特征(包括外表特征和內(nèi)容特征)進(jìn)行描述的結(jié)果。
例如:題名、主題詞、分類號、文摘、作者、作者地址、出版年、來源(出處)等字段是書目數(shù)據(jù)庫中必備字段。為識別每一個字段所表達(dá)的文獻(xiàn)特征,通常每個字段都有固定的名稱和縮寫(或稱字段標(biāo)識符),如,題名字段的標(biāo)識符為TI,作者字段的標(biāo)識符為AU等。
172024/2/262.3數(shù)據(jù)庫的類型*(P3-4)參考(文獻(xiàn)書目型)數(shù)據(jù)庫全文數(shù)據(jù)庫事實數(shù)據(jù)庫數(shù)值數(shù)據(jù)庫182024/2/26參考(文獻(xiàn)書目型)數(shù)據(jù)庫是指包含各種數(shù)據(jù)、信息或知識的原始來源和屬性的數(shù)據(jù)庫;是機(jī)讀的目錄、索引和文摘檢索工具,檢索結(jié)果是文獻(xiàn)的線索而非原文。存儲的是二次文獻(xiàn),包括文獻(xiàn)的外部特征、題錄、文摘和主題詞等。這類數(shù)據(jù)庫占用很大的比例,其代表性的數(shù)據(jù)庫有《EICompendexPlus》(工程索引)、《INSPEC》(科學(xué)文摘)和《全國報刊索引》等。圖書館提供的基于網(wǎng)絡(luò)的聯(lián)機(jī)公共檢索目錄(OPAC)系統(tǒng)192024/2/26
事實數(shù)據(jù)庫存儲的是用來描述人物、機(jī)構(gòu)、事物等信息的情況、過程、現(xiàn)象的事實數(shù)據(jù)。如名人錄、機(jī)構(gòu)指南、大事記、百科全書、手冊、地圖集、企事業(yè)名錄、計算機(jī)程序、音樂等,均可歸入事實數(shù)據(jù)庫。例如:中國咨詢行、國研網(wǎng)、萬方數(shù)據(jù)(中國企業(yè)、公司及產(chǎn)品、中國科技名人、中國科研機(jī)構(gòu)等等)202024/2/26數(shù)值數(shù)據(jù)庫主要包含的是數(shù)字?jǐn)?shù)據(jù),如各種統(tǒng)計數(shù)據(jù)、科學(xué)實驗數(shù)據(jù)、科學(xué)測量數(shù)據(jù)等。氣像數(shù)據(jù)、地質(zhì)資料、化學(xué)或物理化合物特性的文獻(xiàn)數(shù)據(jù)、人口統(tǒng)計資料、市場調(diào)研數(shù)據(jù)等。212024/2/26222024/2/26全文數(shù)據(jù)庫存儲的是原始文獻(xiàn)的全文,如雜志論文、報紙新聞、法院案例等。全文檢索可直接獲取原始資料,而不是書目檢索時的線索,提高了用戶的檢索效率。如:中國知網(wǎng)(CNKI)、萬方數(shù)據(jù)庫、維普數(shù)據(jù)庫、《Elsevier數(shù)據(jù)庫》等等全文數(shù)據(jù)庫。3計算機(jī)信息檢索的分類1按信息資源的存儲形式分2按信息訪問模式分
3.1按信息資源的存儲形式分*
(P7-8)(1)全文檢索。以全文數(shù)據(jù)庫存儲為基礎(chǔ)的檢索方式,所謂全文數(shù)據(jù)庫是將一個完整的信息源的全部內(nèi)容轉(zhuǎn)化為計算機(jī)可以識別、處理的信息單元而形成的數(shù)據(jù)集合。全文檢索系統(tǒng)對全文數(shù)據(jù)庫進(jìn)行詞(字)、句、段落等深層次的編輯、加工,同時允許用戶采用自然語言表達(dá),借助邏輯組配、截詞、鄰詞匹配等檢索手段直接查閱文獻(xiàn)原文信息。全文檢索的應(yīng)用范圍包括:各種科技期刊、專利文獻(xiàn)、新聞報紙、年鑒、百科、手冊、圖書等全文數(shù)據(jù)庫,例如:我國引進(jìn)的OCLC的firstsearch、IEL、SpringerLink、EBSCO等全文數(shù)據(jù)庫以及我國CNKI的中國期刊全文數(shù)據(jù)庫、重慶維普的中文科技期刊數(shù)據(jù)庫、超星數(shù)字圖書館、萬方資源系統(tǒng)的數(shù)字化期刊、學(xué)位論文、會議論文等。
242024/2/26(2)二次文獻(xiàn)檢索*是針對全文檢索而言,也就是分別將文獻(xiàn)的內(nèi)部特征(主題、題名、分類等)和外部特征(作者、出處、年代、ISSN、語言等)作為存儲和檢索的匹配標(biāo)識而形成的數(shù)據(jù)集合,利用檢索系統(tǒng)的檢索結(jié)果是文獻(xiàn)信息的題錄及文摘。學(xué)科領(lǐng)域覆蓋面廣,信息量大,可以利用文獻(xiàn)線索獲取到一次文獻(xiàn)。例如:COMPENDEX、INSPEC、SCI等國外數(shù)據(jù)庫;萬方數(shù)據(jù)的學(xué)位論文、會議論文數(shù)據(jù)庫、全國報刊索引、Calis西文期刊目次數(shù)據(jù)庫等252024/2/26(3)多媒體檢索就是把文字、聲音、圖像(形)等多種信息的傳播載體通過計算機(jī)進(jìn)行數(shù)字化加工、處理而形成的一種綜合存儲技術(shù)。利用多媒體檢索系統(tǒng)可分別進(jìn)行視頻檢索、聲音檢索、圖像檢索。多媒體信息檢索系統(tǒng)有著廣闊的應(yīng)用前景,它將廣泛用于電子會議、遠(yuǎn)程教學(xué)、遠(yuǎn)程醫(yī)療、電子圖書館、藝術(shù)收藏和地球資源管理、天氣預(yù)報、時裝設(shè)計、智能群體決策、計算機(jī)支持協(xié)同工作、金融市場、軍事指揮系統(tǒng)、防汛指揮系統(tǒng)等方面。各大網(wǎng)站均可進(jìn)行多媒體信息的檢索,如:GOOGLE、百度等搜索引擎、新華社多媒體數(shù)據(jù)庫是國內(nèi)最大規(guī)模的多媒體、多文種新聞信息綜合性數(shù)據(jù)庫。262024/2/26(4)超文本檢索超文本(Hypertext)是利用計算機(jī)將多介質(zhì)信息按照一定的邏輯聯(lián)接關(guān)系加工、貯存起來,構(gòu)成可任意連接的、有層次的網(wǎng)狀結(jié)構(gòu)數(shù)據(jù)庫,是一種聯(lián)想式的綜合信息管理系統(tǒng)。其中的某些字、符號或短語、圖形和圖像起著“熱鏈路”(Hotlink)的作用,在顯示出來時其字體或顏色變化或者標(biāo)有下橫線、以區(qū)別于一般的正文。當(dāng)鼠標(biāo)器的光標(biāo)移到某個熱鏈路上,并且按了一下鼠標(biāo)鍵之后,鼠標(biāo)器光標(biāo)便沿著這條鏈路跳到該文件的另一處或另一個文件。計算機(jī)信息檢索在經(jīng)歷了傳統(tǒng)信息檢索、全文文本檢索之后,隨著多媒體技術(shù)的發(fā)展和應(yīng)用,出現(xiàn)目前這種超文本檢索方式??捎糜跈z索人物、新聞、文檔、文藝小說、旅游景點、繪畫、古文物、生物等內(nèi)容廣泛的各種信息。272024/2/263.2按信息訪問模式分(P5)根據(jù)檢索方式分:(1)脫機(jī)檢索(2)聯(lián)機(jī)檢索(3)國際聯(lián)機(jī)檢索(4)光盤檢索(5)鏡像檢索(6)網(wǎng)絡(luò)檢索282024/2/26(3)國際聯(lián)機(jī)檢索*該系統(tǒng)是70年代出現(xiàn)的一門現(xiàn)代化情報檢索手段,目前已發(fā)展到相當(dāng)高的水平,計算機(jī)聯(lián)機(jī)網(wǎng)絡(luò)和檢索終端已遍及世界所有主要國家和地區(qū)。優(yōu)點:(1)可以實現(xiàn)資源共享;(2)檢索速度快;(3)信息資源專業(yè)化;(4)查全率和查準(zhǔn)率較高。2024/2/2632國際聯(lián)機(jī)檢索的缺點
檢索費用高;對檢索系統(tǒng)及其文檔(數(shù)據(jù)庫)的收錄、標(biāo)引、特點等問題較難了解、熟悉;檢索技術(shù)和技巧不易掌握世界上最著名的國際聯(lián)機(jī)檢索系統(tǒng)1、DIALOG系統(tǒng)*是世界最大的國際聯(lián)機(jī)檢索系統(tǒng)1963年,原屬美國洛克希德公司,系統(tǒng)設(shè)在加洲PaloAlto市,1988年轉(zhuǎn)讓給美國Knight-Ridder公司。2000年又轉(zhuǎn)入DIALOG公司經(jīng)營。目前,該系統(tǒng)的聯(lián)機(jī)服務(wù)網(wǎng)遍布世界70多個國家和地區(qū)的200多個城市,共設(shè)有聯(lián)機(jī)檢索終端25000余臺。系統(tǒng)中各類型數(shù)據(jù)庫數(shù)量的發(fā)展速度相當(dāng)快,擁有數(shù)據(jù)庫約900多個,占全世界機(jī)存總量的60%,內(nèi)容涉及自然科學(xué)、社會科學(xué)、經(jīng)濟(jì)、商業(yè)等各個領(lǐng)域。342024/2/26DIALOG系統(tǒng)主頁(/)DIALOGWEB系統(tǒng)檢索平臺352024/2/26(4)光盤數(shù)據(jù)庫檢索光盤:80年代發(fā)展起來的激光存儲載體,繼紙張感光材料、磁性載體之后問世的又一種新型的信息存儲介質(zhì)。能存儲數(shù)據(jù)、文字、圖形、圖像、聲音、動畫等各種信息。一張普通的光盤、信息存儲量約為650兆。光盤的分類:按存儲方式分為
(1)只讀型光盤:CD-ROM(2)寫讀光盤:WORM(3)可擦寫型光盤:ERM光盤檢索的定義和特點定義:是一種用激光技術(shù)在特制圓盤上記錄信息的檢索方式。特點:
(1)投資成本低;
(2)價格低;
(3)運行速度快;
(4)檢索效果好;
(5)下載方便;
(6)安全性能高。光盤檢索的系統(tǒng)組成單機(jī)光盤檢索系統(tǒng)組成:
(1)數(shù)據(jù)庫:光盤
(2)軟件:系統(tǒng)軟件和檢索軟件
(3)硬件:計算機(jī)、光盤驅(qū)動器、顯示屏、打印機(jī)等網(wǎng)絡(luò)光盤檢索系統(tǒng)組成:
(1)光盤塔
(2)光盤組網(wǎng)軟件
(3)光盤塔服務(wù)器(5)鏡像數(shù)據(jù)庫檢索*鏡像:最原始的含義是在鏡子里看到的你自己的像,在IT界中,將“鏡像”這個詞的含義進(jìn)行了擴(kuò)展,指的是完全一樣的兩個東西。鏡像數(shù)據(jù)庫:就是將光盤版、網(wǎng)絡(luò)版數(shù)據(jù)庫或主網(wǎng)站資源的數(shù)據(jù)復(fù)制到不同的地理位置(某地或本地)的鏡像服務(wù)器上,成為該服務(wù)器的鏡像數(shù)據(jù)庫,并為網(wǎng)絡(luò)用戶提供檢索服務(wù)。目的是分擔(dān)訪問流量;如,CNKI、維普、萬方數(shù)據(jù)、超星等392024/2/26通過計算機(jī)網(wǎng)絡(luò)系統(tǒng)可以連接世界上各種公用數(shù)據(jù)庫和商用數(shù)據(jù)庫,可以幫助用戶獲取希望得到的信息。網(wǎng)絡(luò)化信息檢索系統(tǒng)的特點是:一般基于客戶機(jī)/服務(wù)器,客戶與服務(wù)器是同等關(guān)系,只要遵循共同協(xié)議(TCP/IP協(xié)議是目前最成功的網(wǎng)絡(luò)體系結(jié)構(gòu)和協(xié)議規(guī)范),一個服務(wù)器可被多個客戶訪問,一個客戶可訪問多個服務(wù)器。網(wǎng)絡(luò)的用戶數(shù)量不受到限制,它是一個開放系統(tǒng)而不是封閉式系統(tǒng)網(wǎng)絡(luò)化信息檢索將在全球范圍內(nèi)實現(xiàn)信息資源共享,全球網(wǎng)絡(luò)是信息存貯與檢索進(jìn)一步發(fā)展的方向。常見檢索有:GOOGLE、百度、多媒體、咨詢行及所有的外文數(shù)據(jù)庫402024/2/26(6)網(wǎng)絡(luò)數(shù)據(jù)庫檢索*412024/2/264計算機(jī)信息檢索技術(shù)*(P11)1.布爾邏輯檢索2.截詞檢索3.位置運算檢索4.字段限定檢索4.1布爾邏輯檢索*(P11)布爾邏輯檢索(Booleanlogical):是用布爾邏輯算符將檢索詞、短語或代碼進(jìn)行邏輯組配,指定文獻(xiàn)的命中條件和組配次序,凡符合邏輯組配所規(guī)定條件的為命中文獻(xiàn),否則為非命中。布爾邏輯運算符:在檢索過程中用于表達(dá)詞與詞之間的邏輯關(guān)系的算符。分為三種邏輯關(guān)系:邏輯與(AND)(*)、邏輯或(OR)(+)、邏輯非(NOT)(—)表示。邏輯與AANDB:檢索詞A和檢索詞B同時出現(xiàn)在一條記錄中,例如:汽車和飛機(jī)發(fā)動機(jī)。其作用是縮小檢索范圍,提高查準(zhǔn)率。442024/2/26A=汽車發(fā)動機(jī)B=飛機(jī)發(fā)動機(jī)汽車與飛機(jī)發(fā)動機(jī)ABAandB邏輯“與”運算邏輯或(OR)AORB:記錄中出現(xiàn)檢索詞A或檢索詞B或兩詞同時出現(xiàn)在一條記錄中。其作用是擴(kuò)大檢索范圍,提高查全率452024/2/26汽車發(fā)動機(jī)或飛機(jī)發(fā)動機(jī)AB邏輯“或”運算邏輯非(NOT)ANOTB:記錄必須包含檢索詞A但不能包含檢索詞B。即在含有A檢索詞的文獻(xiàn)中去除含有B檢索詞的文獻(xiàn)。其作用是縮小檢索范圍,提高查準(zhǔn)率。462024/2/26A汽車發(fā)動機(jī)汽車、飛機(jī)發(fā)動機(jī)飛機(jī)發(fā)動機(jī)BAnotB邏輯“非”運算邏輯組合式的表達(dá)它表示具有概念交叉和限定關(guān)系的一種組配。如:
高強(qiáng)度低合金鋼:highstrengthandlowalloyandsteel
生化工程設(shè)備:biochemical*engineering*equipment472024/2/26482024/2/26492024/2/26502024/2/26布爾邏輯算符的運算次序用布爾邏輯算符組配檢索詞構(gòu)成的檢索提問式,邏輯算符AND、OR、NOT的運算次序,在不同的檢索系統(tǒng)中有不同的規(guī)定。在有括號的情況下,括號內(nèi)的邏輯運算先執(zhí)行。在無括號的情況下,有下列幾種處理順序:
NOT最先執(zhí)行,AND其次執(zhí)行,OR最后執(zhí)行。AND最先執(zhí)行,NOT其次執(zhí)行,OR最后執(zhí)行。OR最先執(zhí)行,AND其次執(zhí)行,NOT最后執(zhí)行。按自然順序,AND、OR、NOT誰在先就先執(zhí)行誰。檢索時,要事先了解檢索系統(tǒng)的規(guī)定,避免邏輯運算次序處理不當(dāng)而造成錯誤的檢索結(jié)果。因為,對同一個布爾邏輯提問式,不同的運算次序會有不同的檢索結(jié)果。512024/2/264.2截詞檢索截詞檢索:就是把檢索詞截斷,取其中的一部分,在加上截詞符號一起進(jìn)行檢索。主要用于檢索詞的單復(fù)數(shù)、詞性的詞尾變化、詞根相同的一類詞,以及同一詞的拼法變異等。截詞的作用:采用截詞檢索表達(dá)式,既能防止漏檢,又能節(jié)省時間,能有效提高檢索效率。截詞符的使用:利用截詞檢索時,注意截詞的部位,一定不能截的太深,否則誤檢率會很大。常用的截詞符有:“?”、“*”、“$”、“#”截詞方法無限截斷:即該詞根后可跟任何字符,且字符數(shù)不限;如:child*,可查到child,children,childish,childhood等所有以child開頭的單詞。如:coumput?,可檢出Compute,Computer,Computing,computable
有限截斷:即該詞根后至多可跟n個字符,如需要n個有限詞符截詞,請輸入n個?即可;如,輸入stud???表示截3個字母,可檢出帶有study、studies、studing等的文獻(xiàn)。中間截斷:又稱前后方一致,允許檢索詞中間有若干變化。如,wom?n可以檢索出:woman,women532024/2/264.3位置運算檢索位置算符:表示其連接的兩個檢索詞之間的位置關(guān)系,不同的系統(tǒng)有不同的位置算符,以DIALOG系統(tǒng)為例:(W)與(nW)算符—with的縮寫。表示其連接的兩個檢索詞必須按序出現(xiàn),中間不允許插詞,只能有一空格或標(biāo)點、符號。如:high(W)class(N)與(nN)算符—near的縮寫。表示其連接的兩個檢索詞的順序可以互易,但兩詞間不允許插詞。(nN)中的n表示允許插詞量少于或等于n個。
如:internet(N)accessing
命中記錄中匹配詞可能有:internetaccessing,accessinginternet。(S)算符—Subfield的縮寫。表示其連接的兩個檢索詞必須出現(xiàn)在同一子字段中。子字段是指字段中的一部分,如一句句子,一個詞組、短語。字段不限,詞序不限。
如:silicon(S)sensor
命中記錄出現(xiàn)的匹配情況如:
Avacuummagneticsensor(VMS)usingasiliconfieldemittertipwasfabricatedanddemonstrated.(F)算符—Field的縮寫。表示其連接的兩個檢索詞必須出現(xiàn)在同一字段中,字段不限,詞序不限。552024/2/26
4.4字段限制針對特定年代、特定類別、特定檢索點等作限制,包括前綴限制符和后綴限制符562024/2/26后綴限制符例如:
/TI限在題目中查
/AB限在文摘中查
/DE限在敘詞標(biāo)引中查前綴限制符例如:
AU=限查特定作者
JN=限查特定刊名
LA=限查特定語種
PN=限查特定專利號
PY=限查特定年代5信息檢索的方法檢索方法是指查尋文獻(xiàn)信息的具體方法。選擇科學(xué)有效的檢索方法,對廣、快、精、準(zhǔn)地獲取文獻(xiàn)信息,提高檢索效率,是非常重要的。572024/2/26文獻(xiàn)的檢索方法主要有以下幾種類型直查法指直接從有關(guān)的一次文獻(xiàn)中獲取所需信息的檢索方法追溯法指利用引文關(guān)系獲取所需文獻(xiàn)信息的檢索方法工具法利用檢索工具或檢索系統(tǒng)獲取所需文獻(xiàn)信息的檢索方法順查法、倒查法、抽查法綜合法又稱循環(huán)法,是指將直查法、追溯法、工具法綜合運用的檢索方法交替檢索、分段檢索、間隔檢索
582024/2/26第6節(jié)信息檢索的策略信息檢索是一項實踐性很強(qiáng)的活動。俗話說:“熟能生巧”,只有在較長期的檢索活動中舍得花氣力,才能逐步掌握檢索規(guī)律,使自己成為信息的主人。文獻(xiàn)信息檢索過程,是根據(jù)課題的要求,使用一定的工具,按照可行的步驟、方法、途徑,查尋文獻(xiàn)線索或事實、數(shù)據(jù),獲取所需信息的過程。手工檢索與計算機(jī)檢索在步驟與方法上有共性,但也各有特點。592024/2/266.1信息檢索步驟*分析課題,確定檢索目標(biāo)選擇檢索詞,制定檢索策略選擇數(shù)據(jù)庫上機(jī)檢索及調(diào)整檢索策略輸出和分析結(jié)果602024/2/26
明確檢索的目的明確用戶是要查新、查參考資料還是查詢論文被收錄或引用情況等,以便對檢索的查準(zhǔn)、查全和時間范圍的指標(biāo)要求有一個大致的了解,從而制定出符合情況的檢索策略。
課題分析對課題內(nèi)容進(jìn)行分析,找出核心概念和隱含概念,排除無關(guān)的概念,明確概念之間相互的邏輯關(guān)系。612024/2/261、分析課題,確定檢索目標(biāo)具體可從以下幾方面著手:(1)分析主題內(nèi)容。通過主題分析,形成檢索需要的主題概念,以便確定檢索途徑。(2)分析課題所涉及的內(nèi)容及學(xué)科范圍,以便確定有關(guān)檢索標(biāo)識(分類號)及選擇合適的檢索工具或檢索文檔。(3)分析課題所需信息的類型,包括文獻(xiàn)媒體、出版類型、所需文獻(xiàn)量、年代范圍、涉及語種、有關(guān)著者、機(jī)構(gòu)等。622024/2/26(4)確定課題對查新、查準(zhǔn)和查全的指標(biāo)要求。若要了解某學(xué)科理論、課題、工藝過程等最新進(jìn)展和動態(tài),則要檢索最近的文獻(xiàn)信息,強(qiáng)調(diào)“新”字;若要解決研究中某具體問題,找出技術(shù)方案,則要檢索有針對性、能解決實際問題的文獻(xiàn)信息,強(qiáng)調(diào)“準(zhǔn)”字;若要撰寫綜述、述評或?qū)V?,要了解課題、事件的前因后果、歷史和發(fā)展,則要檢索詳盡、全面、系統(tǒng)的文獻(xiàn)信息,強(qiáng)調(diào)“全”字。632024/2/262、選擇檢索詞,制定檢索策略642024/2/26選擇檢索詞:是表達(dá)文獻(xiàn)信息需求的基本元素,是計算機(jī)檢索系統(tǒng)中有關(guān)數(shù)據(jù)庫進(jìn)行匹配的基本單元。原則一對課題進(jìn)行主題分析,掌握課題的內(nèi)容實質(zhì),檢索詞應(yīng)緊密切合課題,詞義明確、具體,表達(dá)概念清晰,不可使用過于寬泛、含義不確切的詞匯。原則二分析課題切忌局限于字面,應(yīng)著重從詞義入手,找出最能代表主題概念的若干檢索詞,以保證概念抽取準(zhǔn)確,完整表達(dá)檢索要求。652024/2/26選詞原則(1)該詞的所有拼寫形式和方法(包括同義詞,
元素和元素符號、縮寫和全稱等)(2)該詞的廣義詞、狹義詞、相關(guān)詞及多義詞等。(3)確定檢索詞和詞的截斷部位,調(diào)整詞之間的位置關(guān)系及組配關(guān)系。(4)對于泛指的主題概念詞,應(yīng)選用其包容特性的具體內(nèi)容來表達(dá)。662024/2/26選擇檢索詞應(yīng)注意問題方法一:切分
以詞為單位,對課題語句進(jìn)行拆分例:土地荒漠化的氣候特征土地荒漠化氣候特征環(huán)境監(jiān)測與評價環(huán)境監(jiān)測環(huán)境評價方法二:刪除
去除禁用詞及不具檢索意義的詞匯例:中成藥常見劑型中成藥劑型染料電化學(xué)性能的研究染料電化學(xué)性能方法三:置換
用含義明確的詞匯替換原課題用語例:集裝箱探測集裝箱射線輻射成像食品綠色包裝食品包裝無污染可降解方法四:增補(bǔ)
分析隱含概念,挖掘潛在的主題詞例:高層建筑優(yōu)化設(shè)計高層建筑優(yōu)化設(shè)計結(jié)構(gòu)設(shè)計垃圾處理垃圾回收再生無害化制定檢索式就是指計算機(jī)信息檢索系統(tǒng)中用來表達(dá)檢索提問的邏輯表達(dá)式,由檢索詞和各種運算符及系統(tǒng)規(guī)定的其它組配符構(gòu)成。合理運用邏輯運算符構(gòu)造檢索式。符號的使用一定要正確、符合概念邏輯,并力求簡潔、優(yōu)化,還應(yīng)注意運算符的優(yōu)先級和括號的使用。例如:纖維混凝土與既有混凝土粘結(jié)性能及施工技術(shù)
1.(纖維混凝土+新混凝土)*(既有混凝土+老混凝土)*粘結(jié)*(剪切+劈拉+抗?jié)B+抗凍+斷裂+收縮)
2.(fiberornew)(2w)old(3w)concrete??(7n)(bond?????oradherenceoradhesi??)and(shear????orsplit?????orcleavageorfractureorruptureorshrinkageorcontractionorfrostorfreez????orpermeability)712024/2/263、選擇數(shù)據(jù)庫或檢索工具根據(jù)檢索目標(biāo),確定檢索目的、涉及的學(xué)科范圍和信息類型,選擇合適的數(shù)據(jù)庫。具體選擇過程中還應(yīng)考慮數(shù)據(jù)庫的類型(參考、全文還是電子期刊)、內(nèi)容(專利、標(biāo)準(zhǔn)、會議)、收錄的數(shù)據(jù)學(xué)科范圍、數(shù)據(jù)庫的更新周期,收錄文獻(xiàn)的語種等因素。例如,要看全文就要選用全文數(shù)據(jù)庫或電子期刊;要查標(biāo)準(zhǔn)或?qū)@鸵x擇標(biāo)準(zhǔn)庫或?qū)@麕?22024/2/264.確定檢索途徑進(jìn)行信息檢索時,總是以文獻(xiàn)的某種特征作為出發(fā)點,按一定的途徑進(jìn)行的。一般地說,文獻(xiàn)的內(nèi)容特征和外表特征都可以成為檢索的出發(fā)點。4.1內(nèi)部特征途徑(根據(jù)課題內(nèi)容特征查找有關(guān)文獻(xiàn)資料)與文獻(xiàn)信息主題內(nèi)容密切相關(guān)的檢索標(biāo)識稱為文獻(xiàn)信息的內(nèi)部特征。表達(dá)文獻(xiàn)信息內(nèi)容特征的檢索標(biāo)識主要有各種形式的主題詞和分類號。文獻(xiàn)內(nèi)容特征的檢索途徑包括:分類途徑、主題途徑(標(biāo)題、關(guān)鍵詞、主題詞、文摘、全文)732024/2/264.2外部特征途徑與文獻(xiàn)信息主題內(nèi)容沒有關(guān)系或關(guān)系不大的信息稱為文獻(xiàn)信息的外表特征表達(dá)文獻(xiàn)外部特征的檢索標(biāo)識有:著者、著者單位、文獻(xiàn)出處、專利號、報告號等。1)題名途徑:根據(jù)文獻(xiàn)題名來檢索文獻(xiàn)的途徑2)作者途徑:根據(jù)已知作者姓名查找文獻(xiàn)的途徑3)文獻(xiàn)出處:根據(jù)期刊名稱、年、卷、期號途徑742024/2/265、實際檢索調(diào)整檢索策略
在手工檢索條件下,通過手翻、眼看、思考作出判斷,尋找相應(yīng)的分類號、主題詞、著者姓名、代碼等,瀏覽其中著錄的文獻(xiàn),選出對口文獻(xiàn)。在計算機(jī)檢索條件下,需輸入檢索邏輯表達(dá)式,由計算機(jī)進(jìn)行查找和掃描,并打印或顯示出命中結(jié)果。聯(lián)機(jī)檢索時,需要在終端呼叫通訊線路,用口令字表明自己是合法用戶,進(jìn)入檢索系統(tǒng)并開始檢索對話。在這些過程中都需要使用檢索系統(tǒng)認(rèn)可的“檢索指令”。752024/2/265、實際檢索及調(diào)整檢索策略
檢索后通過查看文獻(xiàn)檢索結(jié)果數(shù)量的多少或相關(guān)程度的高低,可以評價檢索策略的好壞。通常情況下,需要多次修改檢索策略,直到檢索結(jié)果滿意為止。在實際檢索中,當(dāng)放寬檢索以提高查全率時,就會降低查準(zhǔn)率;反之,當(dāng)縮小檢索范圍以提高查準(zhǔn)率時,就會降低查全率。因此要正確分析誤檢、漏檢原因,及時調(diào)整策略。762024/2/26調(diào)整檢索策略的具體方法擴(kuò)大檢索范圍的措施降低檢索詞的專指度,可從詞表或檢出文獻(xiàn)中選擇泛指詞。調(diào)節(jié)檢索式的網(wǎng)羅度,如刪除某個不重要的檢索詞。進(jìn)行族性檢索,可用分類號或用OR連接一組同義詞和近義詞。取消某些限制過嚴(yán)的限制符。772024/2/26縮小檢索范圍的措施提高檢索詞的專指度。增加AND連接,進(jìn)一步限定主題詞。把檢索詞限定在主要字段,如標(biāo)題字段、主題詞字段等??s短檢索年限,或限定某些刊物。782024/2/266、輸出和分析結(jié)果
檢索完成后,采用一定的輸出方式(套錄或打?。┖透袷捷敵鰴z索結(jié)果。各個數(shù)據(jù)庫提供了多種輸出格式,每種格式能得到的文獻(xiàn)內(nèi)容特征和外表特征都不一樣,一般情況下,文獻(xiàn)檢索中篇名、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年深冷技術(shù)設(shè)備合作協(xié)議書
- 北師大版歷史八年級上冊第21課《民族工業(yè)的曲折發(fā)展》聽課評課記錄
- 首師大版道德與法治七年級上冊10.1《多樣的情緒》聽課評課記錄
- 人教版地理七年級下冊《8.3撒哈拉以南非洲》聽課評課記錄
- 湘教版地理八年級上冊2.2《中國的氣候》聽課評課記錄
- 湘教版地理八年級下冊《第三節(jié) 東北地區(qū)的產(chǎn)業(yè)分布》聽課評課記錄2
- 環(huán)境工程投資咨詢合同(2篇)
- 新版華東師大版八年級數(shù)學(xué)下冊《16.2.1分式的乘除》聽評課記錄5
- 浙教版數(shù)學(xué)七年級下冊《5.5 分式方程》聽評課記錄2
- 湘教版數(shù)學(xué)七年級下冊5.2《旋轉(zhuǎn)》聽評課記錄
- 保潔班長演講稿
- 課題研究實施方案 范例及課題研究方法及技術(shù)路線圖模板
- 牙髓炎中牙髓干細(xì)胞與神經(jīng)支配的相互作用
- 勞務(wù)雇傭協(xié)議書范本
- 【2022屆高考英語讀后續(xù)寫】主題升華積累講義及高級句型積累
- JGJ52-2006 普通混凝土用砂、石質(zhì)量及檢驗方法標(biāo)準(zhǔn)
- 環(huán)境監(jiān)測的基本知識
- 電動車棚施工方案
- 《中國十大書法家》課件
- 超實用可編輯版中國地圖全圖及分省地圖
- 西方法律思想史ppt
評論
0/150
提交評論