第8講 計算機(jī)信息檢索課件_第1頁
第8講 計算機(jī)信息檢索課件_第2頁
第8講 計算機(jī)信息檢索課件_第3頁
第8講 計算機(jī)信息檢索課件_第4頁
第8講 計算機(jī)信息檢索課件_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中國科學(xué)院研究生院科技文獻(xiàn)檢索課程第八講計算機(jī)信息檢索第8講計算機(jī)信息檢索

計算機(jī)信息檢索的定義與類型計算機(jī)信息檢索發(fā)展概況計算機(jī)信息檢索原理國際著名聯(lián)機(jī)檢索系統(tǒng)第8講計算機(jī)信息檢索計算機(jī)信息檢索的定義

計算機(jī)信息檢索是指利用計算機(jī)進(jìn)行信息存貯和檢索的全過程。廣義上講,凡是用計算機(jī)來查詢特定的問題都可以說是計算機(jī)信息檢索。又可以定義為利用計算機(jī)在有限的數(shù)據(jù)集合中查找具有某些特性的子集的過程。第8講計算機(jī)信息檢索計算機(jī)信息檢索的定義

一般來說,一個計算機(jī)信息檢索系統(tǒng)應(yīng)由三部分構(gòu)成:(1)計算機(jī)硬件:包括計算機(jī)、輸入輸出設(shè)備,及網(wǎng)絡(luò)系統(tǒng)等。(2)計算機(jī)軟件:包括數(shù)據(jù)加工、處理和檢索的各種系統(tǒng)軟件和應(yīng)用軟件。(3)機(jī)讀數(shù)據(jù)庫:包括各種類型的數(shù)據(jù)集合,是檢索的對象,存儲在磁帶、磁盤或光盤上。第8講計算機(jī)信息檢索計算機(jī)信息檢索的類型根據(jù)檢索系統(tǒng)的工作方式,可以分為:(1)脫機(jī)檢索:利用計算機(jī)的輸入輸出裝置進(jìn)行檢索,用戶不參與檢索過程。(2)聯(lián)機(jī)檢索:用戶直接與計算機(jī)對話,參與檢索過程,可隨時修改檢索策略。(3)網(wǎng)絡(luò)化信息檢索:利用網(wǎng)絡(luò),特別是互聯(lián)網(wǎng)進(jìn)行檢索的方式。(4)光盤檢索:利用光盤存儲和傳送數(shù)據(jù),在本地進(jìn)行檢索的方式。第8講計算機(jī)信息檢索計算機(jī)信息檢索的類型根據(jù)信息的服務(wù)方式,可以分為:(1)定題檢索:根據(jù)課題的需要,事先編寫出檢索提問式,定期檢索不斷更新的數(shù)據(jù)庫,定期將檢索結(jié)果提供給用戶。(2)回溯檢索:針對某一課題的需要,一次檢索若干年的數(shù)據(jù),或檢索數(shù)據(jù)庫中所包含的所有數(shù)據(jù)。第8講計算機(jī)信息檢索計算機(jī)信息檢索發(fā)展概況

40多年來,隨著現(xiàn)代計算機(jī)技術(shù)、現(xiàn)代通訊技術(shù)以及存貯介質(zhì)的發(fā)展,計算機(jī)信息檢索大體經(jīng)歷了三個階段:(1)脫機(jī)檢索階段(1954——1964)(2)聯(lián)機(jī)檢索階段(1965——1972)(3)網(wǎng)絡(luò)化聯(lián)機(jī)檢索階段(72年至今)第8講計算機(jī)信息檢索脫機(jī)檢索階段(1954——1964)

1946年發(fā)明計算機(jī),50年代開始應(yīng)用于信息檢索。54年美國海軍建成世界第一個試驗性的計算機(jī)檢索系統(tǒng),59年建成第一個定題檢索服務(wù)系統(tǒng),61年CA開始用計算機(jī)編制《化學(xué)題錄》,64年美國醫(yī)學(xué)圖書館完成醫(yī)學(xué)文獻(xiàn)分析與檢索系統(tǒng)MEDLARS。第8講計算機(jī)信息檢索聯(lián)機(jī)檢索階段(1965——1972)

60年代初已開始進(jìn)行計算機(jī)聯(lián)機(jī)信息檢索試驗,62年MIT建成試驗性的聯(lián)機(jī)檢索系統(tǒng)。65年進(jìn)行了首次全國性的聯(lián)機(jī)檢索表演,67年后,許多聯(lián)機(jī)檢索系統(tǒng)相繼建成。包括69年的NASA的RECON系統(tǒng),70年的洛克希德公司的DIALOG、SDC的ORBIT和MEDLARS的MEDLINE系統(tǒng)。第8講計算機(jī)信息檢索網(wǎng)絡(luò)化聯(lián)機(jī)檢索階段(72年至今)

現(xiàn)代通訊技術(shù)的發(fā)展,為網(wǎng)絡(luò)化的聯(lián)機(jī)檢索階段奠定了基礎(chǔ)。72年DIALOG、ORBIT和MEDLINE相繼開展網(wǎng)絡(luò)化的聯(lián)機(jī)檢索服務(wù),通過電纜和衛(wèi)星通訊進(jìn)行易地聯(lián)機(jī)檢索。90年代以來,互聯(lián)網(wǎng)逐步成為世界上規(guī)模最大、用戶最多的通訊工具。第8講計算機(jī)信息檢索光盤檢索階段(1985年至今)1985年世界上第一張商品化的光盤數(shù)據(jù)庫-Bibliofile問世,隨即出版了大量的以光盤為載體的電子出版物和文摘數(shù)據(jù)庫。在10余年的時間里,處于與國際聯(lián)機(jī)檢索平分秋色地位。目前仍有著廣泛的應(yīng)用領(lǐng)域。第8講計算機(jī)信息檢索

我國計算機(jī)檢索發(fā)展概況1、試驗準(zhǔn)備階段--70年代中期至80年代初期2、聯(lián)機(jī)檢索階段--80年代中期至90年代初期3、網(wǎng)絡(luò)化檢索階段--90年代中期至現(xiàn)在第8講計算機(jī)信息檢索檢索原理(一)

計算機(jī)信息檢索是用計算機(jī)代替人工檢索的匹配過程。計算機(jī)一方面接受檢索提問(即檢索提問表達(dá)式),另一方面從數(shù)據(jù)庫中接受文獻(xiàn)記錄,然后在兩者之間進(jìn)行匹配運(yùn)算,即將檢索提問與數(shù)據(jù)庫中文獻(xiàn)記錄標(biāo)識進(jìn)行比較,如果比較結(jié)果一致,那么這篇文獻(xiàn)可能是需要的;如果比較結(jié)果不一致,則這篇文獻(xiàn)就不是符合檢索要求的,不是用戶所需要的。第8講計算機(jī)信息檢索檢索原理(二)計算機(jī)信息檢索的原理可以用下圖表示:檢索提問匹配運(yùn)算數(shù)據(jù)庫命中文獻(xiàn)第8講計算機(jī)信息檢索檢索技術(shù)1、邏輯檢索2、加權(quán)檢索3、詞表助檢4、截詞檢索5、限定檢索第8講計算機(jī)信息檢索機(jī)讀文獻(xiàn)數(shù)據(jù)庫的類型1、文獻(xiàn)參考數(shù)據(jù)庫ReferenceDatabase①書目數(shù)據(jù)庫BibliographicDatabase②指示數(shù)據(jù)庫ReferralDatabase2、源數(shù)據(jù)庫SourceDatabase①數(shù)值數(shù)據(jù)庫NumericDatabase②事實數(shù)據(jù)庫FactDatabase③全文數(shù)據(jù)庫Full-textDatabase第8講計算機(jī)信息檢索計算機(jī)信息檢索的基本程序與策略

一、分析檢索課題二、選擇檢索系統(tǒng)和數(shù)據(jù)庫三、選擇檢索詞,構(gòu)造檢索提問式,確定檢索策略四、分析檢索結(jié)果,調(diào)整檢索策略第8講計算機(jī)信息檢索分析檢索課題分析檢索課題應(yīng)注意以下幾個方面:1、了解情報需求的目的和意圖。2、分析檢索課題的主題要求。3、時間要求。4、檢索效果要求。5、檢索費(fèi)用及其它要求。第8講計算機(jī)信息檢索選擇檢索系統(tǒng)和數(shù)據(jù)庫在具體數(shù)據(jù)庫選擇過程中應(yīng)注意:1、明確數(shù)據(jù)庫收錄的數(shù)量、類型、存貯年限和更新周期。2、明確數(shù)據(jù)庫所具有的獨(dú)特性和交叉性。3、明確數(shù)據(jù)庫所提供的檢索途徑、功能和服務(wù)方式。第8講計算機(jī)信息檢索檢索詞的選擇(一)

檢索詞是表達(dá)文獻(xiàn)信息需求的基本元素,也是計算機(jī)檢索系統(tǒng)中有關(guān)數(shù)據(jù)庫進(jìn)行匹配的基本單元。在計算機(jī)檢索系統(tǒng)中,檢索詞一般有如下三種形式:1、規(guī)范詞:是經(jīng)過規(guī)范化處理的詞或詞組。2、規(guī)范化的代碼:是經(jīng)過規(guī)范化處理的索引代碼。3、自由詞:是未經(jīng)規(guī)范化處理的自然語言詞匯。第8講計算機(jī)信息檢索檢索詞的選擇(二)選擇檢索詞一般要考慮以下基本原則:1、所選數(shù)據(jù)庫具有敘詞表和主題詞表的,優(yōu)先選用敘詞或主題詞作為最基本的檢索項目。2、要從詞表規(guī)定的專業(yè)范圍出發(fā),選用各學(xué)科內(nèi)具有檢索價值的基本名詞術(shù)語。3、如選擇的檢索詞無詞表可查,或在詞表中未反映的,此時,檢索詞為自由詞。4、選詞要適應(yīng)待檢數(shù)據(jù)庫的檢索用詞規(guī)則。5、要多選常用的基本詞匯進(jìn)行組配。第8講計算機(jī)信息檢索檢索提問式的構(gòu)造方法

檢索提問式,是指計算機(jī)信息檢索中用來表達(dá)用戶檢索提問的邏輯表達(dá)式,由檢索詞和各種布爾邏輯算符、位置算符以及系統(tǒng)規(guī)定的其它組配連接符號組成。一種規(guī)范性地構(gòu)造檢索式的方法叫做“聚類組合法”,它是對構(gòu)造檢索式的思維過程加以總結(jié)和規(guī)范化的結(jié)果,是指對課題名稱按序?qū)嵤┤缦缕唔棽僮鳎呵蟹帧h除、替換、聚類、補(bǔ)充、增加、組合,從而生成檢索式的方法。第8講計算機(jī)信息檢索第一步切分例:“染料電化學(xué)性能的研究”,經(jīng)切分后為“|染料|電化學(xué)|性能|的|研究|”

注意:詞是語義切分的最小單元,也是檢索單元。切分必須到詞為止,否則就會失去原來的涵義而產(chǎn)生錯誤。如上例中若將“電化學(xué)”繼續(xù)切分為“|電|化學(xué)|”,就會與原義相差甚遠(yuǎn)。第8講計算機(jī)信息檢索第二步刪除

刪除是對經(jīng)切分后的課題語句中不適宜作為檢索詞的詞進(jìn)行刪除。1、刪除不具有檢索意義的虛詞及其他非關(guān)鍵詞。2、刪除過分寬泛和過分具體的限定詞。3、刪除存在蘊(yùn)涵關(guān)系的可合并詞。第8講計算機(jī)信息檢索第三步替換

用戶在提出課題時,可能會用一些表達(dá)欠佳的詞匯來表達(dá)其情報需求,或用詞太寬泛,或太狹窄,或根本不可作為檢索詞的詞。在這些情況下,應(yīng)用概念替換法,引入更明確、更具體、更本質(zhì)的概念作為替換詞或補(bǔ)充詞。例如:大氣中細(xì)菌濃度的計算方法大氣污染的計算方法(替換為)第8講計算機(jī)信息檢索第四步聚類“聚類組合法”的第四步是對切分出來的單元按語義進(jìn)行聚類(同類合并),即將“彼此非常相關(guān)的詞”歸于一組?!氨舜朔浅O嚓P(guān)的詞”意指同義詞或彼此有依附關(guān)系的詞等,亦即在檢索式中可以相互替換、相互補(bǔ)充以及相互等效的詞。聚類的實質(zhì)是進(jìn)行組面分析,經(jīng)過聚類,語句由詞的集合轉(zhuǎn)換為概念(組面)的集合。第8講計算機(jī)信息檢索第四步聚類(二)

例如:高層建筑的優(yōu)化設(shè)計(切分)高層|建筑|的|優(yōu)化|設(shè)計(刪除)高層|建筑|優(yōu)化|設(shè)計(替換)高層|建筑|優(yōu)化|結(jié)構(gòu)設(shè)計(聚類)高層建筑|優(yōu)化|結(jié)構(gòu)設(shè)計第8講計算機(jī)信息檢索第五步補(bǔ)充

許多名詞是由詞組縮略而成的;有的詞或詞組具有同義詞或相關(guān)詞。對于由詞組縮略而成的詞,它一般與原詞組同義,為了提高檢索結(jié)果的查全率,我們可以采用與縮略相反的操作程序——補(bǔ)充還原,并將補(bǔ)充還原得到的詞組作為原詞的同義詞,補(bǔ)充檢索提問式。例如:煤田勘探煤田勘探+煤田*地質(zhì)第8講計算機(jī)信息檢索第六步增加限義詞

采用增加“限義詞”的手段可以解決由于檢索詞一詞多意而造成誤檢的問題。增加“限義詞”的方法有兩種,邏輯“與”和邏輯“非”。例:將檢索范圍限定在煤田勘探方面,可以采取勘探勘探*煤田(與)要將其檢索范圍限定在煤田勘探以外,可以采取勘探勘探--煤田(非)第8講計算機(jī)信息檢索第七步組合

一個檢索課題在經(jīng)過上述六個步驟之后,即可將它們組合成合乎需要的檢索式。第8講計算機(jī)信息檢索分析檢索結(jié)果,調(diào)整檢索策略(一)擴(kuò)檢時,調(diào)整檢索式的主要方法1、選全同義詞并以“OR”方式與原詞連接后加入到檢索式中。2、降低檢索詞的專指度,從詞表或檢出文獻(xiàn)中選一些上位詞或相關(guān)詞。3、采用分類號進(jìn)行檢索。4、刪除某個不重要的概念組配。5、取消某些過嚴(yán)的限制符。6、調(diào)整位置算符,由嚴(yán)變松。第8講計算機(jī)信息檢索分析檢索結(jié)果,調(diào)整檢索策略(二)縮檢時,調(diào)整檢索式的主要方法:1、提高檢索詞的專指度,增加或換用下位詞和專指性較強(qiáng)的自由詞。2、增加概念組配。3、限制檢索詞出現(xiàn)的可檢字段。4、利用文獻(xiàn)的外表特征限制。5、用邏輯非來排除一些無關(guān)的檢索項。6、進(jìn)行加權(quán)檢索。7、調(diào)整位置算符,由松變嚴(yán)。第8講計算機(jī)信息檢索DIALOG聯(lián)機(jī)檢索系統(tǒng)OCLC聯(lián)機(jī)檢索系統(tǒng)STN聯(lián)機(jī)檢索系統(tǒng)國際著名聯(lián)機(jī)檢索系統(tǒng)第8講計算機(jī)信息檢索

聯(lián)機(jī)檢索是一種使用最廣泛、最方便的計算機(jī)信息檢索系統(tǒng)。它允許用戶通過網(wǎng)絡(luò)系統(tǒng)以聯(lián)機(jī)會話的方式直接訪問異地的檢索系統(tǒng)及數(shù)據(jù)庫。聯(lián)機(jī)檢索系統(tǒng)主要由聯(lián)機(jī)檢索中心、通信網(wǎng)和檢索終端三大部分構(gòu)成。聯(lián)機(jī)檢索第8講計算機(jī)信息檢索聯(lián)機(jī)檢索的特點(diǎn)

可供選擇的數(shù)據(jù)庫多,學(xué)科覆蓋面廣聯(lián)機(jī)數(shù)據(jù)庫收錄文獻(xiàn)的時間長,可以進(jìn)行追溯檢索聯(lián)機(jī)數(shù)據(jù)庫的數(shù)據(jù)標(biāo)引質(zhì)量高、檢索入口點(diǎn)多具有原文支持能力方便、快捷的檢索功能

第8講計算機(jī)信息檢索DIALOG聯(lián)機(jī)檢索系統(tǒng)

美國DIALOG系統(tǒng)是目前世界上最強(qiáng)大的國際聯(lián)機(jī)檢索系統(tǒng),也是目前運(yùn)作最成功的聯(lián)機(jī)商業(yè)數(shù)據(jù)庫系統(tǒng)之一,它擁有80多個國家約10萬多個終端用戶,主機(jī)系統(tǒng)位于美國加利福尼亞州的PALOALTO市。DIALOG擁有近600個聯(lián)機(jī)數(shù)據(jù)庫,其內(nèi)容涉及40多個語種和占世界發(fā)行總量的60%的6萬多種期刊,它的服務(wù)是收費(fèi)服務(wù)。第8講計算機(jī)信息檢索DIALOG數(shù)據(jù)庫的學(xué)科范圍

DIALOG學(xué)科覆蓋面廣,幾乎涉及全部學(xué)科范圍。包括綜合性科學(xué)、自然科學(xué)、應(yīng)用科學(xué)和工藝學(xué),社會科學(xué)和人文科學(xué),時事報道和商業(yè)、經(jīng)濟(jì)等。其數(shù)據(jù)來源于各種不同的圖書、報紙、雜志期刊、技術(shù)報告、會議論文、專著、專利、標(biāo)準(zhǔn)、報表、目錄、手冊等上的信息。第8講計算機(jī)信息檢索DIALOG的一些著名數(shù)據(jù)庫列舉DIALOG的近600個數(shù)據(jù)庫中,有許多極具代表性的和常用的數(shù)據(jù)庫,著名的數(shù)據(jù)庫如CA(化學(xué)文摘)、INSPEC(英國科學(xué)文摘)、MEDLINE(醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫)、MATHSCI(數(shù)學(xué)文獻(xiàn)數(shù)據(jù)庫)、BA(生物學(xué)文摘)、NTIS(美國政府報告)等都加入到DIALOG系統(tǒng)中。第8講計算機(jī)信息檢索DIALOG的一些著名數(shù)據(jù)庫列舉(續(xù))

還有SCI(科學(xué)引文索引)、EI(工程索引)、ISTP(科技會議錄索引)、SSCI(社會科學(xué)引文索引)、A&HSCI(藝術(shù)與人文科學(xué)引文索引)等。再有世界著名的DERWENT專利數(shù)據(jù)庫,以及美國專利、歐洲專利、日本專利數(shù)據(jù)庫等。DIALOG更有一些全文數(shù)據(jù)庫,如IAC的計算機(jī)全文庫、《紐約時報》和《華盛頓郵報》的全文庫等。第8講計算機(jī)信息檢索DIALOG系統(tǒng)主要數(shù)據(jù)庫簡介參見:index/ljjx/dialog2.htm第8講計算機(jī)信息檢索OCLC聯(lián)機(jī)檢索系統(tǒng)OCLC(OnlineComputerLibraryCenter,Inc.),即聯(lián)機(jī)計算機(jī)圖書館中心,是世界上最大的文獻(xiàn)信息服務(wù)機(jī)構(gòu)之一。它的總部設(shè)在美國的俄亥俄州,主要通過Internet遠(yuǎn)程通訊網(wǎng)向成員館及其它組織提供各種文獻(xiàn)信息服務(wù)。

第8講計算機(jī)信息檢索FirstSearch系統(tǒng)簡介FirstSearch聯(lián)機(jī)信息檢索服務(wù)是OCLC從1992年開始推出的一個產(chǎn)品。1999年8月,OCLC完成了FirstSearch系統(tǒng)更新工作。新系統(tǒng)以Web為基礎(chǔ),采用當(dāng)前信息通訊領(lǐng)域的高新技術(shù),提供給用戶一個便捷、友好的界面。目前,通過該系統(tǒng)可檢索70多個數(shù)據(jù)庫,其中30多個庫可檢索到全文,總計包括7,500多種期刊的聯(lián)機(jī)全文,達(dá)900多萬篇全文文章。數(shù)據(jù)庫涉及廣泛的主題范疇,覆蓋了各個領(lǐng)域和學(xué)科。第8講計算機(jī)信息檢索FirstSearch系統(tǒng)簡介

通過一個簡單的界面,F(xiàn)irstSearch可完成對OCLCILL(館際互借)的無縫鏈接,可在記錄表中顯示用戶所在圖書館的館藏標(biāo)識等。數(shù)千種印刷型和電子版期刊的全文的跨數(shù)據(jù)庫的聯(lián)機(jī)顯示,直接鏈接Internet資源,幫助使用者選擇合適的數(shù)據(jù)庫,具有靈活的檢索功能。第8講計算機(jī)信息檢索FirstSearch數(shù)據(jù)庫簡介

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論