文獻(xiàn)檢索與利用_第1頁
文獻(xiàn)檢索與利用_第2頁
文獻(xiàn)檢索與利用_第3頁
文獻(xiàn)檢索與利用_第4頁
文獻(xiàn)檢索與利用_第5頁
已閱讀5頁,還剩129頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、文獻(xiàn)檢索與利用 推薦教材及參考書1。信息檢索,張海濤 等編著, 機(jī)械工業(yè)出版社2. 信息檢索,黃如花 主編, 武漢大學(xué)出版社3信息檢索與利用,鄒廣嚴(yán) 等編著, 科學(xué)出版社4. 信息檢索系統(tǒng)導(dǎo)論,劉挺 等編著, 機(jī)械工業(yè)出版社教學(xué)目的與意義Why-為什么要學(xué)習(xí)信息檢索What-什么是信息檢索(概念、原理、類型等等) 了解相關(guān)知識How-怎樣實施信息檢索(方法、途徑、步驟等) 恰當(dāng)運用方法 Where-在哪里實施信息檢索(檢索系統(tǒng)介紹) 熟悉檢索工具How-to-better-如何提高檢索效率和效果(策略、技巧等) 掌握相關(guān)技能教學(xué)內(nèi)容(理論與應(yīng)用相結(jié)合)第一篇 信息檢索理論基礎(chǔ) 第一章 信息檢索

2、概述 第二章 信息檢索途徑與檢索策略 第三章 計算機(jī)信息檢索概述第二篇 科技文獻(xiàn)檢索篇 第四章 事實和數(shù)據(jù)信息檢索 第五章 科技期刊及其檢索 第六章 特種文獻(xiàn)及其檢索 第三篇 計算機(jī)信息檢索篇 第七章 國內(nèi)重要的綜合性信息檢索系統(tǒng) 第八章 國外重要的綜合性信息檢索系統(tǒng) 第九章 光盤信息檢索第四篇 網(wǎng)絡(luò)信息檢索篇 第十章 網(wǎng)絡(luò)信息檢索概述 第十一章 網(wǎng)絡(luò)信息檢索工具的使用介紹補(bǔ)充內(nèi)容:信息資源的集中與分散規(guī)律:(1)馬太效應(yīng)-富集與貧集(2)布拉德福定律-論文在期刊中的離散分布(3)洛特卡定律-信息生產(chǎn)者分布規(guī)律(4)普賴斯定律-核心生產(chǎn)者的平方根定律 文獻(xiàn)的增長與老化規(guī)律:(1)指數(shù)增長律 (

3、文獻(xiàn)累計數(shù))(2)逐漸過時律-半衰期和普賴斯指數(shù)信息資源分布的馬太效應(yīng) 馬太效應(yīng)是美國學(xué)者R。默頓引用圣經(jīng)新約全書馬太福音中的一段話:“凡有的,還要加給她,叫他有余;凡沒有的,連他所有的也要奪去”。信息分布的“富集”與“貧集”現(xiàn)象信息富集分布表現(xiàn)為核心趨勢和集中取向,例如:核心期刊、核心作者、核心網(wǎng)站、核心檢索系統(tǒng)、核心機(jī)構(gòu)等等作用:選擇核心信息源 序號刊 名主 辦 單 位中國社會科學(xué)中國社會科學(xué)院中國社會科學(xué)(英文版)中國社會科學(xué)院新華文摘(須全文轉(zhuǎn)載)人民出版社進(jìn)入SSCI檢索的國外學(xué)術(shù)刊物(須用外文發(fā)表)進(jìn)入A&HCI檢索的國外學(xué)術(shù)刊物(須用外文發(fā)表)序號刊 名主 辦 單 位管理世界(限

4、理論部分)國務(wù)院發(fā)展研究中心馬克思主義研究中國社會科學(xué)院馬列主義毛澤東思想研究所哲學(xué)研究中國社會科學(xué)院哲學(xué)研究所世界宗教研究中國社會科學(xué)院世界宗教研究所外語教學(xué)與研究北京外國語大學(xué)中國語文中國社會科學(xué)院語言研究所文學(xué)評論中國社會科學(xué)院文學(xué)研究所外國文學(xué)評論中國社會科學(xué)院外國文學(xué)研究所文藝研究中國藝術(shù)研究院歷史研究中國社會科學(xué)院考古學(xué)報中國社會科學(xué)院考古研究所經(jīng)濟(jì)研究中國社會科學(xué)院經(jīng)濟(jì)研究所政治學(xué)研究中國社會科學(xué)院政治學(xué)研究所法學(xué)研究中國社會科學(xué)院法學(xué)研究所社會學(xué)研究中國社會科學(xué)院社會學(xué)研究所民族研究中國社會科學(xué)院民族研究所新聞與傳播研究中國社會科學(xué)院新聞與傳播研究所、寧波日報社教育研究中央教育

5、科學(xué)研究所體育科學(xué)中國體育科學(xué)學(xué)會心理學(xué)報中國心理學(xué)會、中國科學(xué)院心理研究所求是中共中央委員會中國社會科學(xué)文摘(須全文轉(zhuǎn)載)中國社會科學(xué)雜志社文史中華書局吉林大學(xué)哲學(xué)社會科學(xué)A類期刊目錄注:SSCI為國外社會科學(xué)索引;A&HCI為國外藝術(shù)與人文科學(xué)索引。吉林大學(xué)哲學(xué)社會科學(xué)B類期刊目錄序號刊 名主 辦 單 位科研管理中國科學(xué)院科技政策與管理科學(xué)研究所、中國科學(xué)與科技政策研究會中國軟科學(xué)科學(xué)技術(shù)部政策法規(guī)與體制改革司、中國軟科學(xué)研究會科學(xué)學(xué)研究中國科學(xué)學(xué)與科技政策研究會、中科院科技政策與管理科研所、清華大學(xué)科技與社會研究中心外國經(jīng)濟(jì)與管理上海財經(jīng)大學(xué)南開管理評論南開大學(xué)管理科學(xué)學(xué)報國家自然科學(xué)基

6、金委員會管理科學(xué)部中國管理科學(xué)中國優(yōu)選法統(tǒng)籌法與經(jīng)濟(jì)數(shù)學(xué)研究會、中國科學(xué)院科技政策與管理科學(xué)研究所中國行政管理中國行政管理學(xué)會經(jīng)濟(jì)管理中國社會科學(xué)院工業(yè)經(jīng)濟(jì)研究所3管理學(xué) (9種)布拉德福分散定律文獻(xiàn)信息學(xué)家布拉德福經(jīng)過長期的觀察和統(tǒng)計分析的基礎(chǔ)上發(fā)現(xiàn),某一學(xué)科領(lǐng)域中的相關(guān)論文在期刊中的分布是不均勻的,而且具有明顯的集中與分散規(guī)律。定律的內(nèi)涵:如果將科學(xué)期刊按其刊載某個學(xué)科主題的論文數(shù)量以遞減順序排列起來,就可以在所有這些期刊中區(qū)分出載文率最高的“核心”部分和包含著與核心部分同等數(shù)量論文的隨后幾個區(qū),這時核心區(qū)和后繼各區(qū)中所含的期刊數(shù)成1:a:a的關(guān)系(a1)。目的:關(guān)注核心期刊洛特卡定律是關(guān)

7、于信息生產(chǎn)者的分布規(guī)律洛特卡通過大量的統(tǒng)計研究后發(fā)現(xiàn),在論文數(shù)x與發(fā)表了x篇論文的作者數(shù)y(x)之間,存在以下關(guān)系:y(x) =c/x,c是相對于這一典型數(shù)據(jù)集合而估計出的常數(shù)。指導(dǎo)意義:首先檢索高產(chǎn)作者的文獻(xiàn) 普賴斯定律核心生產(chǎn)者分布的“平方根定律”,即在某一特定領(lǐng)域中,全部論文的半數(shù)是由該領(lǐng)域中全部作者的平方根的那些人撰寫的?!澳切┤恕睙o疑就是核心或高產(chǎn)作者。指導(dǎo)作用:首先檢索核心作者的文獻(xiàn) 逐漸過時率(針對科技文獻(xiàn)信息的老化)文獻(xiàn)信息的老化一般指這樣四種情形:文獻(xiàn)中所含信息仍然有用,但現(xiàn)在已被包含在其他更新的論著中;文獻(xiàn)中的信息仍舊有用,但現(xiàn)在正處于一個人們對其興趣下降的學(xué)科;文獻(xiàn)中的信

8、息仍舊有用,但為后來的著作所超越;信息不再有用。文獻(xiàn)的半衰期:是指某學(xué)科領(lǐng)域現(xiàn)時尚在利用的全部文獻(xiàn)中的一半是在多長一段時間內(nèi)發(fā)表的。例如,物理學(xué)文獻(xiàn)的半衰期是4.6年。普賴斯指數(shù):即某一學(xué)科領(lǐng)域內(nèi),對發(fā)表年限不超過5年的文獻(xiàn)的引用次數(shù)與總的引用次數(shù)之比值。一般來講,普賴斯指數(shù)越大,半衰期就越小,文獻(xiàn)老化的速度就越快。指導(dǎo)作用:重點檢索近五年內(nèi)的文獻(xiàn)。文獻(xiàn)檢索與利用(第一篇) - 信息檢索理論基礎(chǔ) 第一章 信息檢索概述本章要點:掌握信息檢索的概念、類型、原理熟悉信息檢索語言了解信息檢索的發(fā)展趨勢 文獻(xiàn)與信息的概念文獻(xiàn)國際標(biāo)準(zhǔn)化組織文獻(xiàn)情報術(shù)語國際標(biāo)準(zhǔn)(ISO/DIS5217)對文獻(xiàn)的定義:“文獻(xiàn)

9、是在存貯、檢索、利用或傳遞記錄信息的過程中,可作為一個單元處理的,在載體內(nèi)、載體上或依附于載體而存貯有信息或數(shù)據(jù)的載體”。我國中華人民共和國國際標(biāo)準(zhǔn)文獻(xiàn)著錄總則(GB3792.1-83)定義:“文獻(xiàn)是記錄有知識的一切載體”?,F(xiàn)代文獻(xiàn)囊括了各種信息載體,比如圖書、期刊、光盤、電子出版物等。信息信息是指人們對世界的認(rèn)識所形成的各種知識、學(xué)問、消息等,有文字信息、數(shù)據(jù)信息、圖像信息、語音信息等類型。文獻(xiàn)是信息的載體,是獲取信息的主要來源。信息源的類型:圖書、期刊、報紙、專利文獻(xiàn)、會議文獻(xiàn)、科技報告、學(xué)位論文、標(biāo)準(zhǔn)文獻(xiàn)等。1.1 信息檢索的概念與類型1 信息檢索的概念1950年,莫爾斯(Calvin

10、NMooers)首次提出信息檢索(Information Retrieval)一詞,發(fā)表“把信息檢索看做是時間性的通訊”一文。 對信息檢索可以從以下三個角度來認(rèn)識:(1)時間性通訊角度的認(rèn)識-突出用戶需求的重要性(2)信息處理角度的認(rèn)識-強(qiáng)調(diào)信息結(jié)構(gòu)的構(gòu)建 (3)文獻(xiàn)查找角度的認(rèn)識-強(qiáng)調(diào)查找特定用戶所需的特定信息 -主流觀點 例如:英國著名學(xué)者維克利(BCVickery)和美國著名信息專家蘭卡斯特(FWLancaster)均持這種觀點。信息檢索的含義具有廣義和狹義之分:廣義地講,信息檢索包含信息存儲(信息組織)和信息查找兩個過程。 狹義地講,信息檢索僅僅指信息查找的過程。 信息檢索的概念: 根

11、據(jù)特定的需求,利用某種檢索工具,按照一定的方法與步驟,從大量文獻(xiàn)中查找出符合用戶需求的信息與文獻(xiàn)的過程。2. 信息檢索的類型(1)按檢索對象區(qū)分 按照檢索的查找對象,信息檢索分為書目信息檢索、全文信息檢索和數(shù)據(jù)事實信息檢索。數(shù)據(jù)事實檢索是確定性檢索,書目和全文檢索是相關(guān)性檢索。 (2)按檢索方式區(qū)分 按照檢索的操作方式,信息檢索分為手工信息檢索和機(jī)器信息檢索。(3)按檢索要求區(qū)分 按照用戶對檢索的要求,信息檢索分為強(qiáng)相關(guān)檢索(強(qiáng)調(diào)查準(zhǔn)率)和弱相關(guān)檢索(強(qiáng)調(diào)查全率)。(4) 按檢索性質(zhì)區(qū)分 按照檢索的運行性質(zhì),信息檢索分為定題檢索(查找有關(guān)特定主題的最新信息)和回溯檢索(查找一段時期內(nèi)有關(guān)特定主

12、題的信息) 。 在檢索實踐中,用戶利用最多的是回溯檢索,大多數(shù)的檢索課題都屬于回溯檢索。 (5) 按檢索的信息形式區(qū)分 按照檢索的信息形式,信息檢索分為文本檢索和多媒體檢索。1.2 信息檢索的發(fā)展歷程1. 手工信息檢索(起源于19世紀(jì)前期,20世紀(jì)40年代以前的唯一檢索方式)手工信息檢索的主要優(yōu)點有:(1)幾乎不需要特殊設(shè)備,檢索方法簡單、靈活;(2)可以邊查邊思考,隨時修改檢索策略;(3)無檢索經(jīng)費或費用較低。主要缺點是:(1)效率低,檢索速度慢,所需時間較長,特別是進(jìn)行專題檢索和回溯檢索時需要查閱大量工具書,費時費力;(2)在進(jìn)行復(fù)雜問題的多途徑檢索時,需要反復(fù)查找若干檢索工具;(3)查全

13、率一般較低。2機(jī)械檢索(20世紀(jì)40-50年代) 出現(xiàn)了一些半機(jī)械化、機(jī)械化的檢索操作方式,例如各種穿孔卡片檢索工具。提出了組配的檢索思想,為計算機(jī)信息檢索的發(fā)展提供了邏輯基礎(chǔ)。3.脫機(jī)批處理信息檢索(50年代中期至60年代中后期)脫機(jī)批處理信息檢索有許多優(yōu)點:(1)批處理可同時進(jìn)行多項檢索;(2)可處理檢索關(guān)系相當(dāng)復(fù)雜的檢索詞匯;(3)一次輸入作業(yè),生產(chǎn)多種輸出的多種服務(wù)能力。 脫機(jī)批處理信息也有以下缺點:(1)用戶不能在檢索過程中與主機(jī)進(jìn)行“對話”和瀏覽文獻(xiàn);(2)不能在檢索的同時修改檢索策略,用戶必須事先把可能的途徑都考慮周全;(3)不能及時獲得檢索結(jié)果;(4)批處理是委托式檢索,信息需

14、求和查詢結(jié)果之間有一定誤差。4.聯(lián)機(jī)信息檢索(從60年代中后期開始) 用戶使用終端設(shè)備,通過通信線路與中央計算機(jī)連接,直接與計算機(jī)對話進(jìn)行檢索,結(jié)果由終端輸出。聯(lián)機(jī)信息檢索有以下幾個特點:(1)用戶通過檢索終端和通信網(wǎng)絡(luò)直接與遠(yuǎn)程中央計算機(jī)相連,檢索遠(yuǎn)程數(shù)據(jù)庫內(nèi)文獻(xiàn)信息,這幾乎是同時的、直接的,無需委托;(2)檢索過程是“人-機(jī)對話”式,可及時修改檢索策略,及時顯示、瀏覽文獻(xiàn)信息;(3)可根據(jù)用戶的不同需求進(jìn)行各種輸出,及時取得檢索結(jié)果;(4)檢索指令復(fù)雜,多為專業(yè)檢索人員才能熟練使用。90年代后聯(lián)機(jī)檢索隨著計算機(jī)、數(shù)據(jù)庫、通信網(wǎng)絡(luò)技術(shù)的發(fā)展而迅猛發(fā)展。5.光盤信息檢索(80年代中期開始)光盤

15、檢索主要有以下特點:(1)在通信不發(fā)達(dá)地區(qū)、聯(lián)網(wǎng)較困難的地區(qū),使用網(wǎng)絡(luò)信息服務(wù)比較困難。而使用光盤檢索,可以免去聯(lián)機(jī)檢索必須支付的聯(lián)機(jī)系統(tǒng)使用費,只需支付數(shù)據(jù)庫生產(chǎn)者收取的數(shù)據(jù)庫費即可。(2)有些出版商出于保密、版權(quán)及控制等方面的考慮,還不可能將收費信息產(chǎn)品很快上網(wǎng)。此情況下,CD-ROM就成為獲取此類信息的最佳途徑。(3)CD-ROM可以替代或補(bǔ)充圖書情報機(jī)構(gòu)的印刷本收藏,其多媒體的書籍、游戲和參考資料是用戶最歡迎的類型之一。6.網(wǎng)絡(luò)信息檢索(從90年代開始)主要特點:(1)信息量大,支持多媒體功能,信息共享。(2)使用方便、靈活,信息即時獲取。(3)用戶檢索費用低,通信費用較高。(4)檢索

16、技術(shù)要求不高,檢索結(jié)果中的誤檢率較高。1.3 信息檢索的原理 信息檢索包括信息存儲與信息檢索兩個過程,它們是同一事物中兩個相互對立的方面。實施檢索的主要方法就是利用各種檢索工具,通過使用信息存取系統(tǒng)(亦稱檢索工具)來實現(xiàn) 。信息檢索的原理圖 信息資源信息選擇收集主題概念分析信息標(biāo)引信息用戶信息需求主題概念分析檢索提問檢索結(jié)果信息檢索系統(tǒng)檢 索(標(biāo)引)語 言比較/匹配提問標(biāo)識文獻(xiàn)標(biāo)識信息存儲過程信息檢索過程(1)信息存儲 信息存儲是對文獻(xiàn)進(jìn)行收集、著錄及標(biāo)引,并加以有序化編排,編制信息檢索的工具的過程;是信息檢索的基礎(chǔ)。1)選擇文獻(xiàn)。根據(jù)信息檢索系統(tǒng)的主題、性質(zhì)及任務(wù)等,結(jié)合原始文獻(xiàn)本身的研究水

17、平、角度及其信息質(zhì)量,對原始文獻(xiàn)進(jìn)行適當(dāng)?shù)脑u價,從中篩選出符合要求的文獻(xiàn)。2)文獻(xiàn)的概念分析, 歸納出代表文獻(xiàn)內(nèi)容的若干主題概念 。3)信息標(biāo)引,實現(xiàn)詞匯轉(zhuǎn)換,把主題概念轉(zhuǎn)換為文獻(xiàn)標(biāo)識。 4)信息檢索工具的編制。 檢索工具是信息檢索系統(tǒng)的核心和概括,它主要包括兩個有序化的序列,即文獻(xiàn)序列和文獻(xiàn)標(biāo)識序列。 文獻(xiàn)序列是由文獻(xiàn)描述體或文獻(xiàn)本身按照一定的方式組織形成的有序化序列,構(gòu)成文獻(xiàn)庫。 文獻(xiàn)標(biāo)識的序列,是由文獻(xiàn)標(biāo)識按照特定的順序形成的有序化序列,構(gòu)成文獻(xiàn)庫的索引。 (2)信息檢索 信息檢索是從大量的信息中查找出用戶所需的特定信息的過程,是信息存儲的目的。1)用戶提問,給出檢索需求。 2)提問的概

18、念分析,把檢索提問概括為主題概念并明確它們之間的關(guān)系。3)檢索提問的詞匯轉(zhuǎn)換,把主題概念轉(zhuǎn)換為相應(yīng)的提問標(biāo)識(或稱為檢索詞)。4)檢索的實施,對文獻(xiàn)標(biāo)識與提問標(biāo)識進(jìn)行匹配比較。 信息檢索的原理就是提問標(biāo)識與文獻(xiàn)標(biāo)識的對比與匹配。 即將描述特定用戶所需信息的提問特征(檢索式)與信息存儲的檢索(信息)標(biāo)識進(jìn)行相符性比較和匹配,從中找出與提問特征一致或基本一致的信息的應(yīng)用過程。1.4 信息檢索語言1、信息檢索語言概述(1)信息檢索語言的概念 信息檢索語言是人們在加工、存儲及檢索信息時所使用的標(biāo)識符號,也就是一組有規(guī)則的、能夠反映出信息內(nèi)容及特征的概念標(biāo)識體系(標(biāo)識符)。 檢索語言是標(biāo)引人員與檢索人員

19、之間進(jìn)行交流的媒介,也是人與檢索系統(tǒng)之間進(jìn)行交流的橋梁,實質(zhì)上就是雙方之間約定的共同語言,用來聯(lián)系文獻(xiàn)信息與用戶需求的“人工語言”。(2)信息檢索語言的作用 信息檢索語言的作用表現(xiàn)在兩個層次上 (操作層面和原理層面)文獻(xiàn)信息內(nèi)容用戶信息需求主題概念主題概念文獻(xiàn)標(biāo)識檢索標(biāo)識檢索結(jié)果信息檢索語言檢索系統(tǒng)2.信息檢索語言的種類 分類語言 等級體系分類語言 分面組配分類語言 標(biāo)題詞語言 元詞語言 主題語言 敘詞語言 關(guān)鍵詞語言 引文語言 分類主題一體化語言 代碼語言 不同的檢索語言可以構(gòu)成不同的標(biāo)識和索引系統(tǒng),提供用戶不同的檢索點和檢索途徑。信息檢索語言3分類檢索語言分類檢索語言是用分類號來表達(dá)各種文

20、獻(xiàn)的概念,并將各種概念按照學(xué)科、專業(yè)性質(zhì)進(jìn)行分類和系統(tǒng)排列。分類表是分類法的具體體現(xiàn),它與分類規(guī)則一起構(gòu)成分類語言,是進(jìn)行分類工作的依據(jù)和規(guī)范。信息資源分類法按照其編制方式,通常可以分為: (1)等級列舉式分類法(基于概念的劃分與概括)。能直接體現(xiàn)知識分類的等級制概念標(biāo)識系統(tǒng)。 它的特點是按學(xué)科、專業(yè)集中文獻(xiàn),用等級來表示類目的從屬性,用列舉法來表示類目的完整性,在類目表上盡量地把類目列舉出來。這種分類法有利于藏書組織,便于人們從學(xué)科分類角度進(jìn)行文獻(xiàn)檢索。 O 數(shù)理科學(xué)和化學(xué) O4 物理學(xué) F 經(jīng)濟(jì) O41 理論物理學(xué) F2 經(jīng)濟(jì)管理 O42 聲學(xué) F20 國民經(jīng)濟(jì)管理 O43 光學(xué) F21

21、經(jīng)濟(jì)計算與規(guī)劃 O44 電磁學(xué)、電動力學(xué) F23 會計 O441 電磁學(xué) F24 勞動經(jīng)濟(jì) O442 電學(xué) F27 企業(yè)經(jīng)濟(jì) G 文化、科學(xué)、教育、體育 F270 企業(yè)經(jīng)濟(jì)理論與方法 G2 信息與知識傳播 F271 企業(yè)體制 G25 圖書館事業(yè)、信息事業(yè) F272 企業(yè)管理 G250 圖書館學(xué)、情報學(xué) F273 企業(yè)生產(chǎn)管理 G251 圖書館管理、信息工作管理 F274 企業(yè)營銷管理與市場 G252 信息資源服務(wù) F275 財務(wù)管理與資本運營 G253 信息資源建設(shè) G254 信息組織 G254.9 信息檢索 G254.928 網(wǎng)絡(luò)搜索引擎C 社會科學(xué)總論 C93 管理學(xué) C931 管理技術(shù)與

22、方法 .1 管理數(shù)學(xué) .2 管理的方式方法 .3 管理工作管理人員 .4 辦公室工作 .5 文書工作 .6 管理信息系統(tǒng) .9管理工作自動化 C932 咨詢學(xué) C933 領(lǐng)導(dǎo)學(xué) (2)分面組配式分類法(基于概念的分析與綜合)。 是以簡單概念組成復(fù)合類目的方式。其基本思想是:任何復(fù)合主題,不管它多么復(fù)雜,都可以分解為相應(yīng)的基本概念;同時,它們也可以通過相應(yīng)基本概念的組合加以表達(dá)。 (3) 列舉組配式分類法 是上述良種編制方法的結(jié)合,是一種在詳盡類表的基礎(chǔ)上,廣泛采用各種組配方法的分類法.分類法體系結(jié)構(gòu)信息資源分類法主要是通過類目體系的系統(tǒng)排列進(jìn)行詞匯控制的。 對于分類法的結(jié)構(gòu)組成目前大致有兩種劃

23、分方法:一種按照分類法組成部分的功能,將分類法的組成分為類目體系、標(biāo)記符號、說明與注釋、類目索引四部分; 另一種按照分類法構(gòu)成的形式,將其分為編制說明、主表、副表、類目索引。 分類法-基本部類。是分類法對知識范疇所作的最概括、最本質(zhì)的劃分。 中圖法、資料法等 杜威法 布立斯書目分類法 中國檔案分類法 馬列主義、毛澤東思想、鄧小平理論哲學(xué)、宗教社會科學(xué)自然科學(xué)綜合性圖書 理性知識想象知識記憶知識 哲學(xué)科學(xué)歷史技術(shù)和藝術(shù) 政治科學(xué)文化經(jīng)濟(jì) 中國圖書館分類法(第五版) 中圖法類目體系是一個層層展開的分類系統(tǒng)。其基本大類以科學(xué)分類為基礎(chǔ),結(jié)合文獻(xiàn)分類的需要,在五大部類的基礎(chǔ)上展開,序列如下:馬克思主義

24、、列寧主義、毛澤東思想 A 馬克思主義、列寧主義、 毛澤東思想、鄧小平理論 哲學(xué)B 哲學(xué)、宗教 社會科學(xué) C 社會科學(xué)總論 D 政治、法律 E 軍事 F 經(jīng)濟(jì) G 文化、科學(xué)、教育、體育 H 語言、文字 I 文學(xué) J 藝術(shù) K 歷史、地理自然科學(xué) N 自然科學(xué)總論 O數(shù)理科學(xué)和化學(xué) P 天文學(xué)、地球科學(xué) Q 生物科學(xué) R 醫(yī)藥、衛(wèi)生 S 農(nóng)業(yè)科學(xué) T 工業(yè)技術(shù) TB 一般工業(yè)技術(shù) TD 礦業(yè)工程 TE 石油、天然氣工業(yè) TF 冶金工業(yè) TG 金屬學(xué)與金屬工藝 TH 機(jī)械、儀表工業(yè) TJ 武器工業(yè) TK 能源與動力工程 TL 原子能 技術(shù) TM 電工技術(shù) TN 無線電電子學(xué)、電信技術(shù) TP 自動

25、化技術(shù)、計算機(jī)技術(shù) TQ 化學(xué)工業(yè) TS 輕工業(yè)、手工業(yè) TU 建筑科學(xué) TV 水利工程 U 交通運輸 V航空、航天 X 環(huán)境科學(xué)、安全科學(xué)綜合性圖書Z綜合性圖書雅虎(Yahoo?。┭呕⒒旧鲜且粋€分類字順體系,在按照主題內(nèi)容關(guān)系層層展開的同時,并沒有根據(jù)類目之間的關(guān)系排列同位類,因此國外一般又將其稱為主題指南。 Yahoo!的類目體系是一個按等級和字順逐級展開的瀏覽系統(tǒng)。按照網(wǎng)絡(luò)資源的特點和用戶使用需要,Yahoo!設(shè)置14個基本大類,按照其英文字順排列如下: 藝術(shù)與人文 新聞與媒體 商業(yè)與經(jīng)濟(jì) 休閑與運動 計算機(jī)與網(wǎng)絡(luò) 參考資料 教育 地區(qū) 娛樂 科學(xué) 政府 社會科學(xué) 健康與醫(yī)藥 社會文化

26、 4主題檢索語言主題是指信息資源論述的主題對象,包括事物、問題、現(xiàn)象等。經(jīng)過選擇,用來表達(dá)信息資源主題的語詞,稱為主題詞。主題法是指就直接以表達(dá)主題內(nèi)容的語詞作檢索標(biāo)識,以字順為主要檢索途徑,并通過參照系統(tǒng)等方法揭示詞間關(guān)系的標(biāo)引和檢索信息資源的方法。特征: 1)直接以語詞作為檢索標(biāo)識。 2)以字順作為主要檢索途徑。 3)以特定的事物、問題、現(xiàn)象,即主題為中心集中信息源。 4)通過詳盡的參照系統(tǒng)等方式揭示主題詞之間關(guān)系。 通過在主題詞下設(shè)置用、代、屬、分、參等多種參照項,建立起“隱蔽的分類體系”。同時,一些系統(tǒng)還備有詞族索引、范疇索引、輪排索引等多種輔助索引 。 主題法的類型按照主題法的選詞方

27、式,可以分為標(biāo)題法、元詞法、敘詞法、關(guān)鍵詞法;按照語詞受控情況,可以分為受控主題法與非控主題法。 1)標(biāo)題法 標(biāo)題法是一種以標(biāo)題詞作為主題標(biāo)識,以詞表預(yù)先確定的組配方式標(biāo)引和檢索的主題法,屬于列舉式的主題法。 例如:”信息存儲與檢索” 2)元詞法 是以元詞作為主題標(biāo)識,通過字面組配的方式表達(dá)文獻(xiàn)主題的主題法。 所謂元詞,是指用來標(biāo)引文獻(xiàn)主題的、最基本的、字面上不能再分的語詞。如“物理” 3)敘詞法 所謂敘詞法,是以從自然語言中精選出來的、經(jīng)過嚴(yán)格處理的語詞作為文獻(xiàn)主題標(biāo)識,通過概念組配方式表達(dá)文獻(xiàn)主題的主題法類型。敘詞,國內(nèi)亦稱主題詞,是經(jīng)過規(guī)范化處理的,以基本概念為基礎(chǔ)的表達(dá)文獻(xiàn)主題的詞和詞

28、組。 4)關(guān)鍵詞法 就是將文獻(xiàn)原來所用的,能描述主題概念的那些具有實質(zhì)意義的詞抽出,不加規(guī)范或只作極少量的規(guī)范化處理,按字順排列,以提供檢索途徑的方法。 1) 受控主題法指依據(jù)特定詞表或類表揭示文獻(xiàn)信息的整序方法。各種標(biāo)題法、敘詞法以及后期的元詞法等均屬于這一類型。它們的共同特點是,標(biāo)引和檢索均依據(jù)預(yù)先確定的檢索詞表對主題概念進(jìn)行轉(zhuǎn)換,從而可以通過詞表對文獻(xiàn)內(nèi)容的規(guī)范表達(dá)和相互關(guān)系的揭示來改進(jìn)檢索效果。 2) 自然語言檢索系統(tǒng)是直接使用文獻(xiàn)或用戶檢索使用的自然語言語詞進(jìn)行的整序方法。這種方式包括關(guān)鍵詞法、自然語言文本檢索等,早期的元詞法也屬于這一類型。這類整序法的特點是不需要使用受控詞表,但一

29、般仍需遵守一定的文獻(xiàn)標(biāo)引規(guī)則或檢索措施,以改進(jìn)使用效果。漢語主題詞表 1)主表 漢表的主表是由眾多敘詞及與其相關(guān)的語義關(guān)系項構(gòu)成的字順表,根據(jù)大型工具書的特點,按社會科學(xué)和自然科學(xué)兩大范疇分別組織。 主表敘詞款目結(jié)構(gòu),通常由款目敘詞、漢語拼音、英文譯名、范疇號、注釋項及其語義關(guān)系項組成。如下例為族首詞的款目格式: Qingbao jiansuo 族首詞符號 情報檢索* 07k Information retrieval D 文獻(xiàn)檢索 F 專題檢索 追溯檢索2)附表 漢表的附表收入“世界各國政區(qū)名稱”、“自然地理區(qū)劃名稱”、“組織機(jī)構(gòu)”和“人物”等四個范疇中常用的專有名詞。 3)輔助索引 漢表的

30、輔助索引是通過改變組織方式,提供從不同途徑著手查找敘詞的工具,包括范疇索引、詞族索引、輪排索引和英漢對照索引四種。主題法與分類法的異同 相同點 1)都用來揭示信息內(nèi)容 2)都需要對信息進(jìn)行主題分析 3)一般都使用預(yù)先編制的專門語言工具 4)賦予的主題標(biāo)識都是對信息主題的表達(dá)不同點 1)主題概念表達(dá)的形式及效果不同 2)標(biāo)識所揭示信息的角度不同 3)檢索方法有所不同 4)作用范圍有所不同 中國分類主題詞表 中國分類主題詞表是在中圖法類目與漢表主題詞對應(yīng)的基礎(chǔ)上,將分類法與主題法、先組與后組融為一體的一種文獻(xiàn)標(biāo)引和檢索的工具。 全表共分2卷6冊,收錄分類法類目5萬余個,主題詞及主題詞串21萬余條,

31、包括分類號一主題詞對應(yīng)表和主題詞一分類號對應(yīng)表兩部分。 分類號一主題詞對應(yīng)表是以中圖法的類目體系為基礎(chǔ),把漢表主題詞及主題詞組配形式,對應(yīng)于各級類目之下編制而成,從分類角度進(jìn)行分類主題一體化標(biāo)引的工具。分類號一主題詞對應(yīng)表款目構(gòu)成要素包括:分類號、類名、類目注釋及對應(yīng)的主題詞、主題詞串、對應(yīng)參見和注釋。對應(yīng)款目的編排格式分為左右兩欄,中間用豎線隔開。 F41 世界工業(yè)經(jīng)濟(jì) 工業(yè)經(jīng)濟(jì) 世界 F410 工業(yè)政策 工業(yè)政策 世界工業(yè)政策 F414 工業(yè)建設(shè)與發(fā)展 工業(yè)經(jīng)濟(jì) 經(jīng)濟(jì)建設(shè)世界:工業(yè)經(jīng)濟(jì) 經(jīng)濟(jì)發(fā)展 世界工業(yè)危機(jī) 世界 F415 國際工業(yè)經(jīng)濟(jì)關(guān)系 工業(yè)經(jīng)濟(jì) 國際經(jīng)濟(jì)關(guān)系 F415.1 國際分工

32、、聯(lián)合 工業(yè)經(jīng)濟(jì) 國際分工:工業(yè)經(jīng)濟(jì)國際合作 主題詞一分類號對應(yīng)表是以主題詞的字順排列為基礎(chǔ),把分類號對應(yīng)于各個主題詞或主題詞串之下編制而成的,是從主題詞角度查找主題詞和分類號,進(jìn)行分類主題一體化標(biāo)引的工具。主題詞及對應(yīng)分類號款目的結(jié)構(gòu)如下: 機(jī)場 TU248.6;V35;V351 D航空港 D航空站 垂直起落機(jī)場 國際機(jī)場 軍用機(jī)場 水上機(jī)場 直升機(jī)機(jī)場 C 導(dǎo)航臺 C 飛機(jī)庫 C 機(jī)場建筑物中國分類主題詞表的特點是: 1)通過將中圖法類目與漢表主題詞的對應(yīng),建立起了一個分類語言與主題語言結(jié)合的一體化工具. 2)其分類法部分是將中圖法、資料法融為一體的類目體系,可以同時供圖書資料單位標(biāo)引使用

33、; 3)其主題法部分,除收入原有的敘詞外,還包括近年來中文圖書標(biāo)引中新增的敘詞和對應(yīng)表編制時的新增詞,以及分類號一主題詞對應(yīng)表中出現(xiàn)的主題詞組配形式,是漢表敘詞比較完整的版本。 4)改進(jìn)了字順表的款目結(jié)構(gòu),改進(jìn)了排序方法,采用音序和字形結(jié)合排序,符合人們查找習(xí)慣,使得編排緊湊,便于查找,易于使用。 中國分類主題詞表的不足主要是: 1)本表中的類目和對應(yīng)的主題詞之間只是一種先組語言和后組語言之間的兼容互換關(guān)系,很難進(jìn)行兩者之間精確的轉(zhuǎn)換,不少類目下對應(yīng)主題詞的數(shù)量往往不夠,不能詳盡包括標(biāo)引較深層次的類目含義或隱含主題。 2)類目的處理由人工按照概念關(guān)系的理解轉(zhuǎn)換而成,存在隨意性和不一致性,有時過

34、多,有時過少,有時存在著錯誤,影響對應(yīng)的質(zhì)量。5其它檢索語言(1)自然語言1)關(guān)鍵詞語言 用計算機(jī)自動抽取文獻(xiàn)題名、文摘或正文中有檢索意義的語詞,通過輪排生成各種類型的關(guān)鍵詞索引, 同時也建立數(shù)據(jù)庫供計算機(jī)檢索使用, 是目前主要應(yīng)用形式。關(guān)鍵詞法的特點是:關(guān)鍵詞法基本屬自然語言,在標(biāo)引階段只進(jìn)行少量控制或不控制。通常使用禁用詞表(Stop-list),來淘汰題名中的非關(guān)鍵詞。一般不建立關(guān)鍵詞表,即使建立關(guān)鍵詞表,也比標(biāo)題表、敘詞表簡單得多,通常不設(shè)置任何參照或詞間關(guān)系,因而篇幅較小,處理方便。2)文本檢索 又稱為自然語言檢索,這是一種不進(jìn)行標(biāo)引、直接利用計算機(jī)的功能,通過自然語言中的語詞或語詞

35、組配,對文本形式的信息資源進(jìn)行匹配檢索的方式。匹配的對象包括題名、文摘、正文等。 3)自由標(biāo)引 通常指由標(biāo)引人員直接選擇自然語言中語詞進(jìn)行標(biāo)引的形式。這種標(biāo)引可以克服受控標(biāo)引速度慢、周期長,比關(guān)鍵詞標(biāo)引準(zhǔn)確度高,可以用于文獻(xiàn)資源增長量大、需求迫切的領(lǐng)域。自由標(biāo)引不依據(jù)詞表,但一般應(yīng)通過建立嚴(yán)格的標(biāo)引規(guī)則 4)自動標(biāo)引 亦稱機(jī)標(biāo),指直接使用計算機(jī)對信息資源進(jìn)行標(biāo)引,通常包括自動主題標(biāo)引(自動抽詞標(biāo)引、自動賦詞標(biāo)引)和自動分類標(biāo)引(自動歸類、自動聚類、類號的自動轉(zhuǎn)換)兩種類型。(2) 引文語言引文是指一篇學(xué)術(shù)論文中所引用的參考文獻(xiàn),通常是以腳注或尾注的形式出現(xiàn)。利用文獻(xiàn)之間引用與被引用的關(guān)系,作為

36、文獻(xiàn)內(nèi)容主題標(biāo)識,并以此標(biāo)引和檢索文獻(xiàn)的語言就是引文語言。引文語言的基本原理:1)以文獻(xiàn)之間的引用關(guān)系,作為文獻(xiàn)主題內(nèi)容之間的聯(lián)系,換言之,若兩篇文獻(xiàn)發(fā)生引用關(guān)系,那么它們在主題上就是相關(guān)的;2)以引用文獻(xiàn)或被引用文獻(xiàn),通常按著者姓名字順排檢,作為標(biāo)引和檢索文獻(xiàn)的標(biāo)識。引文語言的檢索特性:1)以引用文獻(xiàn)或被引用文獻(xiàn)進(jìn)行標(biāo)引和檢索,擺脫了人工符號標(biāo)識或詞語標(biāo)識的限制,使用容易,一致性好;2)以引用關(guān)系形成的“文獻(xiàn)網(wǎng)”作為“主題網(wǎng)”,檢索明確而有效,且能夠查找到較為重要的文獻(xiàn) ;3)引文語言系統(tǒng)的標(biāo)引深度很深,一般的手工標(biāo)引深度為平均每篇文獻(xiàn):1-5個詞,而一篇文獻(xiàn)的引文數(shù)量常常達(dá)到十幾篇,即可提

37、供十幾個檢索點;4)引用關(guān)系本身非常穩(wěn)定,但作為主題關(guān)系的可靠性不夠穩(wěn)定 ;5)引用關(guān)系要受到文獻(xiàn)可得性的影響;6)引文的著錄有時不夠統(tǒng)一規(guī)范;7)引文語言無需編制詞表,可利用計算機(jī)自動進(jìn)行文獻(xiàn)標(biāo)引和處理,檢索系統(tǒng)的成本低、速度快,提供的信息回溯性和及時性都令人滿意。 1.6 信息檢索的研究內(nèi)容與發(fā)展趨勢1信息檢索的主要研究內(nèi)容(1)信息檢索理論與形式模型(2)信息存取系統(tǒng)(體系結(jié)構(gòu)、DB、DM等)(3)內(nèi)容表示與文本挖掘(4)信息抽取、自動分類、自動文摘、信息過濾等(5)數(shù)字圖書館(6)跨語言檢索、基于內(nèi)容的多媒體檢索(7)信息檢索策略與評價方式2信息檢索的發(fā)展趨勢多樣化發(fā)展趨勢檢索資源形態(tài)

38、的多樣化,基于內(nèi)容的檢索技術(shù)和語音識別技術(shù)是研究熱點與發(fā)展趨勢之一;多國化和多語種化,研究多語種信息檢索是另一個發(fā)展趨勢;(跨語言檢索)檢索工具和檢索服務(wù)的多樣化,集多種檢索功能于一體的檢索系統(tǒng)也是一個熱點;個性化發(fā)展趨勢注重檢索內(nèi)容的特色化,如何根據(jù)個人需求的不同實現(xiàn)個性化是未來信息檢索發(fā)展的趨勢之一;注重信息檢索個性化的服務(wù),體現(xiàn)用戶喜好;可視化發(fā)展趨勢 用圖象取代文字;智能化發(fā)展趨勢-是信息檢索發(fā)展的重要方向 基于自然語言的檢索;智能搜索引擎、智能代理、智能瀏覽器等;知識化發(fā)展趨勢專門化發(fā)展趨勢地域化發(fā)展趨勢簡單化發(fā)展趨勢第二章 信息檢索途徑與檢索策略本章要點:掌握信息檢索的步驟以及檢索

39、策略 熟悉信息檢索的方法和檢索途徑2.1信息檢索的方法、途徑及步驟1. 信息檢索的一般方法(1) 追溯法(又稱回溯法或引文法),是利用文獻(xiàn)末尾所附的參考文獻(xiàn)或引用文獻(xiàn),由近及遠(yuǎn)(由現(xiàn)在到以前)地進(jìn)行追蹤查找。所查到的信息主題內(nèi)容較為切合,但易出現(xiàn)漏檢和誤檢。 追溯法是利用引文語言進(jìn)行檢索的兩種方法之一。還有另一種引文檢索方法,如利用科學(xué)引文索引(SCI),從被引用文獻(xiàn)入手,查到引用它的文獻(xiàn),再把所查出的文獻(xiàn)作為被引用文獻(xiàn),查找出引用它們的文獻(xiàn),如此反復(fù)操作,即可獲得大量的有關(guān)文獻(xiàn)信息。要注意,這樣查找所獲得的文獻(xiàn)是越來越新的。(2) 直接查找法(又稱工具法) 常用法的具體操作,可分為順查、倒查

40、、抽查三種方式。 (1) 順查方式 (查全率和查準(zhǔn)率較高) (2) 倒查方式 (查準(zhǔn)率較高,查全率較低) (3) 抽查方式 (3) 循環(huán)查找法(又稱分段法) 是綜合常用法和追溯法的檢索方法,即在查找文獻(xiàn)信息時,既利用成套的檢索工具書查找,又利用原始文獻(xiàn)后所附的參考引用文獻(xiàn)進(jìn)行回溯,分階段按周期地交替使用,也稱為分段法。 循環(huán)法常常以五年為周期,輪流交替使用常用法和追溯法。2信息檢索的途徑 檢索途徑主要是指信息檢索的角度或渠道,通常分為內(nèi)容特征檢索途徑和外表特征檢索途徑兩類。(1)內(nèi)容特征檢索途徑 內(nèi)容特征檢索途徑,是從文獻(xiàn)所包含的信息內(nèi)容特征來檢索信息的途徑。按照所采用的檢索語言不同,又分為兩

41、種: 1)主題途徑 按文獻(xiàn)的信息內(nèi)容,利用主題檢索語言檢索文獻(xiàn)信息的途徑。主題檢索的實施,需要使用各種主題詞索引,如主題索引、關(guān)鍵詞索引等。 2)分類途徑 按文獻(xiàn)的信息內(nèi)容,利用分類檢索語言,檢索文獻(xiàn)信息的途徑。分類檢索的實施,需要使用各種分類目錄或索引,如分類目次、分類索引等。 (2)外表特征檢索途徑 外表特征檢索途徑,是利用文獻(xiàn)的外表特征來檢索文獻(xiàn)信息的途徑。按照所采用的外表特征不同,可分為多種具體的檢索途徑。 1)著者途徑, 按照已知的文獻(xiàn)著者姓名或名稱,檢索文獻(xiàn)信息的途徑。 2)刊名途徑, 按照已知的期刊名稱,檢索文獻(xiàn)信息的途徑。 3)序號途徑, 有些文獻(xiàn)具有獨特的編序號碼或標(biāo)識號碼,

42、如專利、報告、標(biāo)準(zhǔn)等文獻(xiàn)類型。 4)引文途徑 5)其他途徑, 可按照專業(yè)領(lǐng)域的需要以及文獻(xiàn)的出版類型、日期、地址、國別、語種等特征,進(jìn)行文獻(xiàn)信息的檢索。3. 信息檢索的步驟 不滿意 滿意分析研究問題選擇檢索系統(tǒng)確定檢索方法確定檢索途徑制定檢索式輸出檢索結(jié)果提交檢索系統(tǒng)用 戶修改檢索式2.2 信息檢索的策略與效果評價1. 信息檢索的策略(1)信息檢索策略的含義 信息檢索策略就是為實現(xiàn)檢索目標(biāo)而制定的全盤計劃和方案,是對整個檢索過程的謀劃和指導(dǎo),如選擇哪種檢索系統(tǒng)和數(shù)據(jù)庫、采用什么檢索途徑、如何編寫檢索式等,其目的是為了達(dá)到一定的查全率和查準(zhǔn)率。 檢索策略是影響檢索效果的最重要的因素。(2)信息檢

43、索策略的制定方法與步驟1)確定檢索系統(tǒng) 根據(jù)信息需求,選擇檢索系統(tǒng) 例如,檢索科研方面的信息,一般要利用光盤檢索系統(tǒng)和 聯(lián)機(jī)檢索系統(tǒng)。 根據(jù)對檢索信息熟悉的程度,選擇檢索系統(tǒng)(選取準(zhǔn)確 的檢索詞) 根據(jù)經(jīng)濟(jì)條件,選擇檢索系統(tǒng) 2)選擇檢索數(shù)據(jù)庫(收集信息的專業(yè)范圍、時間、文獻(xiàn)類型等) 選擇數(shù)據(jù)庫所采用的方法一般有兩種:一種是查閱有關(guān)檢索系統(tǒng)的數(shù)據(jù)庫使用指南或手冊一類的工具書。在這些工具書中給出了數(shù)據(jù)庫的專業(yè)范圍、時間范圍、記錄樣例、可檢字段、輸出格式等內(nèi)容。另一種是根據(jù)聯(lián)機(jī)檢索系統(tǒng)所提供的數(shù)據(jù)庫總索引進(jìn)行查閱。 3)明確檢索途徑 在確定檢索途徑時既要根據(jù)檢索需求確定檢索途徑,又要由數(shù)據(jù)庫所提供

44、的檢索項來確定檢索途徑。 4)制定檢索方案 檢索方案就是用已經(jīng)選擇好的檢索詞,利用各種算符組配成能反映所需信息概念的檢索式,以及限定檢索字段的方案。 (3)信息檢索方案實施 1)用戶上機(jī)檢索(光盤檢索系統(tǒng)和Internet網(wǎng)絡(luò)檢索) 2)委托信息服務(wù)機(jī)構(gòu) 選擇信息服務(wù)機(jī)構(gòu) 如何向檢索人員介紹課題 介紹主要有兩個方面: 1) 是要闡明檢索的目的及最終要達(dá)到的效果,以便于檢索人員確定所使用的檢索系統(tǒng); 2) 是介紹檢索課題的內(nèi)涵,尤其是在檢索人員對所要檢索的課題所涉及的學(xué)科范圍不熟悉的時候,更要詳細(xì)解釋課題所涉及的概念。 (4)索取原始文獻(xiàn) 目前索取原文的方法如下: l)查找館藏單位,可以利用各種

45、期刊聯(lián)合目錄和各館館藏目錄查找原文收藏單位?,F(xiàn)在許多單位已將館藏目錄放到了Internet上,可以較方便地查找原文收藏單位; 2)與收藏單位聯(lián)系索取原文。一般收藏單位需收到服務(wù)費后才寄原文; 3)直接向作者索取原文; 4)聯(lián)機(jī)訂購,利用Internet進(jìn)行索取。2. 信息檢索的效果評價(1)信息檢索效果的評價指標(biāo) 信息檢索效果是指信息檢索的準(zhǔn)確性和全面性,分別以查準(zhǔn)率和查全率兩個定量指標(biāo)來表示。 1)查準(zhǔn)率和查全率 查準(zhǔn)率(precision ratio),簡稱為P),是指檢出的相關(guān)文獻(xiàn)數(shù)占檢出文獻(xiàn)總數(shù)的百分比。查準(zhǔn)率反映檢索準(zhǔn)確性,其補(bǔ)數(shù)就是誤檢率(miss ratio,簡稱為M)。 查全率

46、(recall ratio,簡稱為 R),是指檢出的相關(guān)文獻(xiàn)數(shù)占系統(tǒng)中相關(guān)文獻(xiàn)總數(shù)的百分比。查全率反映檢索全面性,其補(bǔ)數(shù)就是漏檢率(omission ratio,簡稱為O)。在信息檢索系統(tǒng)中,每進(jìn)行一次檢索,就把系統(tǒng)中所有的文獻(xiàn)分為四個部分 相關(guān)文獻(xiàn) 非相關(guān)文獻(xiàn) 檢出文獻(xiàn) a合理的命中 b 誤查 c漏查 d合理的排除 未檢出文獻(xiàn) 查全率和查準(zhǔn)率及其補(bǔ)數(shù)漏查率和誤查率的計算公式分別為:查全率(recall ratio): R= (%)查準(zhǔn)率(precision ratio): P= (%)漏查率(omission ratio): O= (%)誤查率(miss ratio): M= (%) 查準(zhǔn)率

47、的計算沒有問題,而查全率的計算存在明顯的問題,那就是如何知道漏檢文獻(xiàn)的數(shù)量。 在實際的檢索評價中,對于漏檢文獻(xiàn)數(shù)量,一般采用近似的估計值。 獲得漏檢文獻(xiàn)數(shù)量估計值的方法有兩種: 其一,利用其他的同類檢索系統(tǒng),進(jìn)行相同的檢索,然后通過對命中結(jié)果的分析和比較,推斷哪些文獻(xiàn)被漏檢; 其二,利用原有的檢索系統(tǒng),放大檢索范圍查找,然后對命中結(jié)果進(jìn)行分析,看是否有原先未被檢出的相關(guān)文獻(xiàn),從而得到漏檢文獻(xiàn)的近似值。查全率的計算方法:聯(lián)營法專家法2)查準(zhǔn)率與查全率之間的關(guān)系通過大量的檢索,就可以得到檢索系統(tǒng)的性能曲線(見圖1 和圖2),從圖中可見檢索系統(tǒng)1的性能水平要高于檢索系統(tǒng)2。大量的檢索評價試驗表明,在

48、一個信息檢索系統(tǒng)中,當(dāng)查準(zhǔn)率和查全率達(dá)到一定程度以后,兩者就會呈現(xiàn)出非線性的反變關(guān)系。查準(zhǔn)率和查全率是信息檢索效率評價的量化指標(biāo),在檢索系統(tǒng)的評價中具有舉足輕重的作用。但也有其局限性,主要表現(xiàn)在:1)它能夠評價一次檢索或一個系統(tǒng)的性能水平,卻不能指出是什么原因產(chǎn)生了這樣的檢索效率。 2)它以相關(guān)性為基礎(chǔ),具有相關(guān)性本身所固有的局限性。比如:不考慮文獻(xiàn)的重要性程度等。需要注意的是,信息檢索的效果與信息檢索系統(tǒng)的性能之間,存在著密切的關(guān)聯(lián),但是也有著顯著的區(qū)別。對于每一次檢索而言,其檢索效率的高低,不僅要依賴于檢索系統(tǒng)的性能水平,而且還要取決于本次檢索的具體措施和手段(選詞是否合理、措施和手段是否

49、得當(dāng))。 第三章 計算機(jī)信息檢索概述本章要點: 熟悉計算機(jī)信息檢索的系統(tǒng)結(jié)構(gòu)掌握計算機(jī)信息檢索技術(shù)以及檢索策略 3.1 計算機(jī)信息檢索的概念與類型1. 計算機(jī)信息檢索的概念是指利用計算機(jī)進(jìn)行信息存貯和檢索的過程,既人們在計算機(jī)或計算機(jī)檢索網(wǎng)絡(luò)的終端機(jī)上,使用特定的檢索指令、檢索詞和檢索策略,從計算機(jī)檢索系統(tǒng)的數(shù)據(jù)庫中檢索出需要的信息,繼而再由終端設(shè)備顯示或打印的過程。計算機(jī)信息檢索基本原理圖 用戶提問匹配運算命中文獻(xiàn)數(shù)據(jù)庫計算機(jī)信息檢索的類型 根據(jù)檢索系統(tǒng)的工作方式,可以分成:脫機(jī)檢索聯(lián)機(jī)檢索光盤檢索網(wǎng)絡(luò)檢索(1994年出現(xiàn)第一個全文搜索引擎) 根據(jù)信息的服務(wù)方式,可以分成:定題檢索( 用戶能

50、及時得到最新的文獻(xiàn)信息)回溯檢索 (讓用戶一次檢索一段時期內(nèi)與某一課題有關(guān)的信息) 3.2 計算機(jī)信息檢索系統(tǒng)的構(gòu)成 1邏輯構(gòu)成 主要指系統(tǒng)所包括的功能模塊或子系統(tǒng)及其相互關(guān)系。詞表子系統(tǒng)采集子系統(tǒng)標(biāo)引子系統(tǒng)建庫(存儲)子系統(tǒng) 數(shù) 據(jù) 庫用戶接口子系統(tǒng)控制子系統(tǒng)查詢與匹配子系統(tǒng)傳輸子系統(tǒng)2.物理構(gòu)成 硬件及通訊設(shè)施 1)主機(jī) 是檢索系統(tǒng)的核心,它是完成信息檢索的主要設(shè)備。 2)檢索終端 3)通信網(wǎng)絡(luò) 4)數(shù)據(jù)輸出設(shè)備軟件系統(tǒng) 1)系統(tǒng)管理軟件 信息檢索軟件通常是基于各種不同操作系統(tǒng)的基礎(chǔ)上開發(fā)的,如萬方數(shù)據(jù)庫系統(tǒng)就有 DOS和 Windows二種版本。 2)檢索系統(tǒng)應(yīng)用軟件數(shù)據(jù)庫 數(shù)據(jù)庫是計算

51、機(jī)信息檢索系統(tǒng)的信息源。 3.3 數(shù)據(jù)庫的類型與結(jié)構(gòu)數(shù)據(jù)庫(Database)是儲存在磁帶或磁盤上的文獻(xiàn)或數(shù)據(jù)記錄的集合,通常由一組相關(guān)的文檔組成。數(shù)據(jù)庫是計算機(jī)信息檢索系統(tǒng)的核心組成部分,也是計算機(jī)信息檢索操作的直接對象,不同的數(shù)據(jù)庫,其儲存文獻(xiàn)信息的內(nèi)容、形式各有差異,檢索途徑和方法也就有所不同。1.數(shù)據(jù)庫的類型 數(shù)據(jù)庫的種類繁多,從檢索角度出發(fā),以數(shù)據(jù)庫所含信息記錄的內(nèi)容結(jié)構(gòu)作為基本的分類標(biāo)準(zhǔn),數(shù)據(jù)庫可以分為兩大類:文獻(xiàn)參考數(shù)據(jù)庫和源數(shù)據(jù)庫。 (1)文獻(xiàn)參考數(shù)據(jù)庫(reference database) 文獻(xiàn)參考數(shù)據(jù)庫又可以細(xì)分為書目數(shù)據(jù)庫和指示(咨詢)數(shù)據(jù)庫。它們都是二次文獻(xiàn)數(shù)據(jù)庫,其

52、中包括各種機(jī)讀版的文摘、索引、目錄等。在書目數(shù)據(jù)庫中,用戶檢索出來的是一些文獻(xiàn)的題目、文摘、作者和文獻(xiàn)的出處等項目,其價值主要在于向信息用戶指引所需的一次文獻(xiàn)。例如:科學(xué)文摘(INSPEC)、醫(yī)學(xué)文摘等英文數(shù)據(jù)庫,中文的有中文科技期刊數(shù)據(jù)庫、中國化學(xué)化工文獻(xiàn)數(shù)據(jù)庫等。指示數(shù)據(jù)庫是存儲關(guān)于某些機(jī)構(gòu)、人物、出版、計劃、活動、程序等對象的簡要描述,其價值也在于指引用戶找到合適的信息源,它本身并不直接提供用戶所需要的信息,而是起著一種指引、介紹、牽線、搭橋的作用。例如:各種機(jī)構(gòu)名錄數(shù)據(jù)庫(公司名錄、人名錄、機(jī)構(gòu)名錄等)、產(chǎn)品數(shù)據(jù)庫(產(chǎn)品目錄)、基金數(shù)據(jù)庫、軟件數(shù)據(jù)庫等。 (2)源數(shù)據(jù)庫(source

53、database) 源數(shù)據(jù)庫也稱非文獻(xiàn)數(shù)據(jù)庫。它的特點在于其本身含有一次信息,既可以直接提供用戶所需要的原始資料或具體數(shù)據(jù) 。 為了與文獻(xiàn)數(shù)據(jù)庫有所區(qū)別,在英文中常用“data bank”來表示源數(shù)據(jù)庫.源數(shù)據(jù)庫又包括以下四種類型的數(shù)據(jù)庫:1)數(shù)值數(shù)據(jù)庫: 某些產(chǎn)品的統(tǒng)計數(shù)據(jù),人口統(tǒng)計數(shù)據(jù),某些國家的工業(yè)增長率和經(jīng)費等。2)文字與數(shù)值數(shù)據(jù)庫:數(shù)據(jù)庫能同時提供文本信息和數(shù)值數(shù)據(jù)。如產(chǎn)品市場報告數(shù)據(jù)庫。3)特性數(shù)據(jù)庫:數(shù)據(jù)庫記錄含有字典式和手冊式的數(shù)據(jù),用于存儲名詞術(shù)語等信息,如化合物的物理化學(xué)性質(zhì)和結(jié)構(gòu)等。4)全文數(shù)據(jù)庫:數(shù)據(jù)庫記錄含有文獻(xiàn)的全文,如法律全文和新產(chǎn)品通告全文等。 20世紀(jì)80年代

54、以來,源數(shù)據(jù)庫得到迅速的發(fā)展,到1995年,源數(shù)據(jù)庫在整個數(shù)據(jù)庫中所占的比例達(dá)到了76%。 2.數(shù)據(jù)庫的結(jié)構(gòu) 數(shù)據(jù)庫是由一組相關(guān)文檔組成的。文檔(file)是文獻(xiàn)或數(shù)據(jù)記錄的集合。每一條記錄都由若干字段構(gòu)成。有些字段因內(nèi)容較多,還可進(jìn)一步劃分為若干子字段。(1)字段(field) 字段用來描述實體的某一屬性,是數(shù)據(jù)庫中的基本信息單位。在文獻(xiàn)記錄中,字段的劃分與文獻(xiàn)著錄事項的劃分相一致,一個字段與一個著錄事項相對應(yīng),比如說著者字段、題目字段等 ;字段可以分作三種類型(DIALOG系統(tǒng)中的Compendex Plus數(shù)據(jù)庫中的文獻(xiàn)記錄格式): 存取號AN(accession number):是計算

55、機(jī)為數(shù)據(jù)庫的每篇記錄規(guī)定的入藏號。 基本索引字段(basic index):是記錄中主要用來表達(dá)文獻(xiàn)內(nèi)容特征的字段。表示基本索引字段的標(biāo)識符為一個斜杠(/)后跟兩個字符,稱為后綴代碼。常見的有:篇名/TI(title)、文摘/AB(abstract)、敘詞/DE(descriptor)、受控詞/CT(Controlled terms)、自由標(biāo)引詞/ID(identifier)、非控詞/UT(uncontrolled terms)。輔助索引字段(additional index):主要是一些表達(dá)文獻(xiàn)外表特征的字段。表示輔助索引字段的標(biāo)識符為兩個字符后跟一個等號(=),稱為前綴代碼。常見的有:著者

56、AU=(author)、期刊名稱JN=(journal name)、出版年份PY=(publication year)、語種 LA=(language)、出版物識別代碼CO=(code)、國際標(biāo)準(zhǔn)刊號SN=(ISSN)、文獻(xiàn)類型DT=(document type)、分類代碼 CC=(classification code)、機(jī)構(gòu)名稱 CS=(corporate source)等。(2)記錄(record) 一條記錄相當(dāng)于一條著錄項目,它是由若干字段組成,是作為一個單位來處理的有關(guān)數(shù)據(jù)的集合。在文獻(xiàn)數(shù)據(jù)庫中,被描述的實體是某一特定的文獻(xiàn),實體的屬性就是該文獻(xiàn)的特征,如文獻(xiàn)的題名、作者、主題詞等。

57、每條記錄都編有一個按照順序排列的信息檢索系統(tǒng)入藏號。(3)文檔及其結(jié)構(gòu) 若干個記錄構(gòu)成的信息集合稱為文檔(file)。它是一個處理單位,可以存儲在磁帶或磁盤上。文檔是聯(lián)機(jī)信息檢索數(shù)據(jù)庫中數(shù)據(jù)組織的基本形式。文檔有倒排文檔和順排文檔之分,大部分聯(lián)機(jī)信息檢索系統(tǒng)都是典型的倒排文檔檢索系統(tǒng)。順排文檔(sequential file)。順排文檔是指文檔中的全部記錄按順序一個接一個地存放。也稱主文檔。 記錄之間的邏輯順序和物理順序一致。這種存儲方式?jīng)Q定了對記錄的存取只能順序進(jìn)行,存取時間與數(shù)據(jù)的物理位置有關(guān)。在順排文檔中,文獻(xiàn)存取號越大,內(nèi)容越新,也是用戶最先輸出的記錄。要對順排文檔進(jìn)行機(jī)檢,計算機(jī)就要

58、逐一掃描數(shù)據(jù)庫中的每條記錄,這樣檢索效率太低。倒排文檔(inverted file)。 對數(shù)據(jù)庫重新組織,將每個可檢索字段中一切有意義的檢索詞(或代碼)按一定順序排列,即構(gòu)成倒排文檔, 檢索標(biāo)識與文獻(xiàn)號之間是一對多的關(guān)系 。 順排文檔以文獻(xiàn)的完整記錄為處理和檢索單元,倒排文檔則以文獻(xiàn)的屬性(即記錄中的字段)為處理和檢索單元。 倒排文檔又可分為: 基本索引文檔 和 輔助索引文檔 索引順序文檔, 它既是順排文檔,又把文檔按存儲的地址分成若干物理塊,并指出各塊的地址與塊中的最低和最高文獻(xiàn)序號(為塊設(shè)置索引)。用戶由倒排文檔查得有關(guān)標(biāo)引詞的文獻(xiàn)序號,然后利用索引順利文檔迅速確定所在的塊,并在該塊進(jìn)行順

59、序檢索,從而提高了檢索速度。 3.4 計算機(jī)信息檢索中的檢索技術(shù)1單詞檢索(Single-word term searching) 單詞檢索是整個單詞的全等匹配。 對于一些包含數(shù)值的標(biāo)識,比如出版年、銷售額等,除全等比較運算之外,還可以進(jìn)行大于、小于、大于等于、小于等于的比較運算。2詞組檢索(MultiWord term searching) 詞組檢索是整個詞組的全等匹配,通常用雙引號“”括起。 只有當(dāng)檢索詞與標(biāo)引詞完全相同時,文獻(xiàn)才被命中輸出。 3布爾邏輯檢索(Boolean logic searching) 布爾邏輯檢索是多個檢索項(可以是單詞、詞組或檢索式)之間通過運用布爾邏輯算符來準(zhǔn)確

60、的表達(dá)檢索提問的檢索技術(shù)。(1)布爾邏輯算符 共有邏輯與、邏輯或和邏輯非三種:分別表示概念之間的相交關(guān)系、并列關(guān)系和排斥關(guān)系,以 AND、OR和 NOT來表達(dá)。邏輯“與”-AND 或 * 用于交叉概念或限定關(guān)系概念之間的組配,可以縮小檢索范圍,提高檢準(zhǔn)率。它所連接的兩個檢索詞必須同時出現(xiàn)在檢索結(jié)果中才滿足檢索條件。 邏輯“或”-OR 或 +用于并列關(guān)系的概念組配,相當(dāng)于增加了檢索詞主題的同義詞或近義詞,有助于擴(kuò)大檢索范圍,提高查全率。它所連接的兩個檢索詞中任何一個出現(xiàn)在檢索結(jié)果中就滿足檢索條件。邏輯“非”-NOT 或 用于排斥與選擇關(guān)系的組配,能夠縮小命中文獻(xiàn)的范圍,增強(qiáng)檢索的準(zhǔn)確性。表示它所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論