版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、12021-12-10信息檢索基本知識(shí)及技巧 The principles and skills on information retrieval主 講 人 :22021-12-10目錄 outline1信息檢索的定義、分類及其作用二 檢索語(yǔ)言三 檢索的效率、手段和方法32021-12-101信息檢索的定義、分類及其作用1.1 信息檢索的定義 信息檢索(Information Retrieval):,是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)信息用戶的需要找出有關(guān)的信息過(guò)程,所以它的全稱又叫“信息的存儲(chǔ)與檢索(Information Storage and Retrieval),這是廣義的信
2、息檢索。 狹義的信息檢索則僅指該過(guò)程的后半部分,即從信息集合中找出所需要的信息的過(guò)程,相當(dāng)于人們通常所說(shuō)的信息查尋(Information Search)。42021-12-101.2 信息檢索的手段(1)手工檢索 eg:美國(guó)工程索引(2)光盤檢索 eg:medline (3)網(wǎng)絡(luò)檢索 eg:springerlink52021-12-101.3 信息檢索的對(duì)象(1) 文獻(xiàn)檢索(Document Retrieval) : 是以文獻(xiàn)(包括題錄、文摘和全文) 為檢索對(duì)象的檢索??煞譃槿臋z索 和書目檢索兩種。(2) 事實(shí)檢索 (Fact Retrieval) :是以某一客觀事實(shí)為檢索對(duì)象,查找某一事
3、物 發(fā)生的時(shí)間、地點(diǎn)及過(guò)程的檢索。(3) 數(shù)據(jù)檢索(Data Retrieval) :是以數(shù)值或數(shù)據(jù)(包括數(shù)據(jù)、圖表、公式等) 為對(duì)象的檢索。62021-12-10二 信息檢索的要素 (1)前提信息意識(shí)/信息素養(yǎng) information literacy 信息素養(yǎng)這一概念是信息產(chǎn)業(yè)協(xié)會(huì)主席保羅澤考斯基于1974年在美國(guó)提出的。簡(jiǎn)單的定義來(lái)自1989年美國(guó)圖書館學(xué)會(huì)(American Library Association ,ALA ),它包括: 能夠判斷什么時(shí)候需要信息,并且懂得如何去獲取信息,如何去評(píng)價(jià)和有效利用所需的信息。72021-12-10美國(guó)高等教育信息素養(yǎng)能力五大標(biāo)準(zhǔn)具有信息素養(yǎng)能
4、力的學(xué)生能決定所需要的信息種類和程度具有信息素養(yǎng)能力的學(xué)生能有效而又高效地獲取所需信息具有信息素養(yǎng)能力的學(xué)生能評(píng)價(jià)信息及其來(lái)源,并能把所遴選出的信息與原有的知識(shí)背景和評(píng)價(jià)系統(tǒng)結(jié)合起來(lái)具有信息素養(yǎng)能力的學(xué)生無(wú)論是個(gè)體還是團(tuán)體的一員,能有效地利用信息達(dá)到某一特定的目的具有信息素養(yǎng)能力的學(xué)生懂得有關(guān)信息技術(shù)的使用所產(chǎn)生的經(jīng) 濟(jì)、法律和社會(huì)問(wèn)題,并能在獲取和使用信息中遵守公告法律主動(dòng)獲取創(chuàng)新能力檢索能力分析能力個(gè)人修養(yǎng)82021-12-10(2)基礎(chǔ)信息源A、信息的載體: 印刷型 縮微型 機(jī)讀型+ 聲像型92021-12-10B、信息的內(nèi)容和加工級(jí)次: 一次文獻(xiàn) 二次文獻(xiàn) 三次文獻(xiàn)102021-12-
5、10C、信息的出版形式:圖書期刊會(huì)議資料學(xué)位論文專利標(biāo)準(zhǔn)報(bào)告百科全書、類書112021-12-10圖書的檢索途徑主要用到: 書名 作者 出版社 ISBN 關(guān)鍵詞 期刊的檢索途徑主要用到: 刊名 篇名 作者 關(guān)鍵詞 ISSN122021-12-10 會(huì)議論文的檢索途徑主要用到: 會(huì)議名稱 主辦單位 會(huì)議地點(diǎn) 關(guān)鍵詞 作者 會(huì)議文章篇名 學(xué)位論文的檢索途徑主要用到: 作者 學(xué)位授予單位 導(dǎo)師姓名 關(guān)鍵詞 論文篇名132021-12-10 專利資料的檢索途徑主要用到: 關(guān)鍵詞 專利權(quán)人 發(fā)明人 國(guó)際專利分類號(hào) 公開(kāi)號(hào) 標(biāo)準(zhǔn)資料的檢索途徑主要用到: 標(biāo)準(zhǔn)編號(hào) 標(biāo)準(zhǔn)名稱 發(fā)布單位 發(fā)布日期 關(guān)鍵詞142
6、021-12-10 報(bào)告資料的檢索途徑主要用到: 報(bào)告號(hào) 關(guān)鍵詞 作者 報(bào)告單位 合同戶報(bào)告代碼 百科全書、類書資料的檢索途徑主要用到: 音 形 義152021-12-10(3)核心信息利用能力掌握各種信息源掌握檢索語(yǔ)言熟練使用檢索工具對(duì)檢索結(jié)果的評(píng)價(jià),判斷162021-12-10附:期刊的指數(shù)計(jì)算(1)影響因素=該年引用該刊前兩年文章的總次數(shù)當(dāng)年該刊所發(fā)表文章的總數(shù)即年指標(biāo)前兩年該刊所發(fā)表文章的總數(shù)=一特定年度對(duì)該刊當(dāng)年發(fā)表文章的引用次數(shù)影響因素是一種期刊中論文的平均被引率特定年度的影響因素用于測(cè)度一種期刊被利用的速度,也是測(cè)度期刊重要性的依據(jù)即年指標(biāo)172021-12-10自引率與被引率
7、自引率是指一種期刊中引用本刊的參考文獻(xiàn)對(duì)全部參考文獻(xiàn)之比;被自引率是一種期刊被本刊中文章引用的次數(shù)與該刊被引用的總次數(shù)之比。=自引率某刊自引的引文量該刊全部引文量被引率 =某刊自引的引文量某刊被引用的總次數(shù)182021-12-10二 檢索語(yǔ)言2.1 按表現(xiàn)形式劃分的檢索語(yǔ)言 外表特征語(yǔ)言 內(nèi)容特征語(yǔ)言192021-12-10外表特征:就是文獻(xiàn)上記明的、顯而易見(jiàn)的特征。 外表特征語(yǔ)言(書目引文語(yǔ)言)題名(書名、篇名)著者姓名文獻(xiàn)序號(hào)(如:ISBN、ISSN、專利號(hào)、報(bào)告號(hào)等)書目引文出版事項(xiàng)文獻(xiàn)類型202021-12-10 內(nèi)容特征語(yǔ)言非句法語(yǔ)言句法語(yǔ)言等級(jí)制體系分類法標(biāo)題詞關(guān)鍵詞敘 詞單元詞加
8、標(biāo)志的敘詞組面詞(如:組面分類法)短 語(yǔ)文獻(xiàn)全文的自然語(yǔ)言212021-12-102. 2 按應(yīng)用功能劃分的檢索語(yǔ)言 分類語(yǔ)言 主題語(yǔ)言222021-12-102.21 分類語(yǔ)言 是用分類號(hào)和相應(yīng)的分類款目名稱來(lái)表達(dá)信息內(nèi)容的主題概念,并按學(xué)科體系的邏輯次序?qū)⑿畔①Y源系統(tǒng)地加以劃分和組織的語(yǔ)言。 分類語(yǔ)言能反映事物的從屬派生關(guān)系,便于按學(xué)科門類進(jìn)行族檢索。232021-12-10杜威十進(jìn)分類法 Dewey Decimal Classification ,DC/DDC美國(guó)M.杜威編制的綜合性等級(jí)列舉式分類法。分為詳、簡(jiǎn)兩種版本,詳本于1876年問(wèn)世,取名為圖書館圖書小冊(cè)子排架及編目適用的分類法和
9、主題索引,1951年的第15版改名杜威十進(jìn)分類法000總論 100哲學(xué) 200宗教 300社會(huì)科學(xué) 400語(yǔ)言 500自然科學(xué)和數(shù)學(xué) 600技術(shù)(應(yīng)用科學(xué)) 700藝術(shù)、美術(shù)和裝飾藝術(shù) 800文學(xué) 900地理、歷史及輔助學(xué)科 第一層展開(kāi)層630農(nóng)業(yè) 631農(nóng)業(yè)經(jīng)營(yíng) 631.5作物栽培 242021-12-10通用十進(jìn)制圖書分類法 Universal Decimal Classification UDC十進(jìn)制圖書分類法由兩位比利時(shí)書目專家(Paul Otlet、Henri la Fontaine)19世紀(jì)末在杜威十進(jìn)制圖書分類法的基礎(chǔ)上繼續(xù)研發(fā)的分類方法。此種分類方法由數(shù)字和特殊符號(hào)組成,把涉及
10、各種知識(shí)體系及學(xué)科的書籍予以分類。介于數(shù)字和符號(hào)無(wú)語(yǔ)言障礙的特性,該分類法在世界各地的圖書館中被廣泛應(yīng)用。 總分類 0 總匯 1 哲學(xué),心理學(xué) 2 宗教,神學(xué) 3 社會(huì)學(xué),政治,經(jīng)濟(jì),法律,教育,人類學(xué) 4 暫無(wú)(由圖書館具體添加) 5 自然學(xué)科,數(shù)學(xué) 6 實(shí)用學(xué)科,醫(yī)學(xué),科技,企業(yè)經(jīng)濟(jì)學(xué),計(jì)算機(jī) 7 藝術(shù),手工藝品,音樂(lè),競(jìng)技,體育 8 語(yǔ)言學(xué),文學(xué) 9 地理,生物,歷史 252021-12-10附加 + :并列符(例:178.1+33 酒精主義者 和 國(guó)民經(jīng)濟(jì)國(guó)民經(jīng)濟(jì)) :關(guān)系符(例:178.1:33 酒精主義對(duì)國(guó)民經(jīng)濟(jì)的影響) / :包含符(例:592/599 系統(tǒng)動(dòng)物學(xué),從592到59
11、9) = :語(yǔ)言符(例:=71 拉丁語(yǔ)) (0.) :書類符(例:(042)演講,講義) (.):地域符(例:(234.3) 阿爾卑司阿爾卑司) 262021-12-10美國(guó)國(guó)會(huì)圖書館圖書分類法 Library of Congress Classification 272021-12-10第一層282021-12-10末層292021-12-10中國(guó)圖書館圖書分類法Chinese Library Classification, CLC 中國(guó)圖書館分類法,簡(jiǎn)稱中圖法。包括“馬列主義、毛澤東思想,哲學(xué),社會(huì)科學(xué),自然科學(xué), 綜合性圖書五大部類,22個(gè)基本大類,具體如下:302021-12-10中國(guó)
12、科學(xué)院圖書館圖書分類法簡(jiǎn)稱科圖法。1958年由中國(guó)科學(xué)院圖書館編寫,1974年、1979年、1994年分別進(jìn)行了修訂。分為25大類。中國(guó)科學(xué)院圖書館圖書分類法312021-12-10國(guó)際專利分類法 International Patent Classification , IPC 關(guān)于國(guó)際專利分類斯特拉斯堡協(xié)定與1975年10月7日生效,它為發(fā)明專利,包括出版的專利申請(qǐng)書、發(fā)明證書說(shuō)明書、實(shí)用新型說(shuō)明書(一下簡(jiǎn)稱為“專利文獻(xiàn)”)提供了一種共同的分類。 分類表示使各國(guó)專利文獻(xiàn)獲得統(tǒng)一分類的一種工具。它的基本目的是作為各專利局以及其他使用者在確定專利申請(qǐng)的新穎性、創(chuàng)造性(包括對(duì)技術(shù)先進(jìn)性和實(shí)用價(jià)值
13、作出評(píng)價(jià))而進(jìn)行的專利文獻(xiàn)檢索是的一種有效檢索工具。 322021-12-10332021-12-10342021-12-10352021-12-10362021-12-10372021-12-10382021-12-10392021-12-10402021-12-10412021-12-10422021-12-10432021-12-10442021-12-10技術(shù)主體的分析452021-12-102.22 主題語(yǔ)言 462021-12-10472021-12-10 INSPEC 敘詞表舉例: Locomotive NT diesel-electric locomotive BT vehic
14、les TT vehicles RT rail traffic railways traction CC B8520-n C3360D FC b8520-n c3360De DI January 19731、下位敘詞2、上位敘詞3、族首詞4、相關(guān)詞5、INSPEC數(shù)據(jù)庫(kù) 使用的分類號(hào)6、輸入到INSPEC 數(shù)據(jù)庫(kù)使用的 分類號(hào)7、該敘詞的啟用日期英國(guó)電氣工程學(xué)會(huì)(Institute of Electric Engineering 簡(jiǎn)稱 IEE)下設(shè)的國(guó)際物理和工程信息服務(wù)部(International Information Services for the Physics and Engin
15、eering Communities,簡(jiǎn)稱 INSPEC )482021-12-10三 檢索的效率、手段和方法3.1 檢索效率評(píng)價(jià)492021-12-103.2 索引語(yǔ)言中改善查全率的措施(1)同義詞控制法 是指當(dāng)一個(gè)概念具有多個(gè)同義詞的時(shí)候,為了保證標(biāo)引與檢索的一致性,避免文獻(xiàn)的分散和漏檢,指引詞匯的使用者從其他的同義詞找到一個(gè)被專門選擇作為正式主題詞的詞的用法。 例如: 用符號(hào) USE、SEE、Y (用) 從正式詞引見(jiàn)非正式的詞,則用 USE FOR、D(代)502021-12-10(2)詞的關(guān)聯(lián)法索引詞的關(guān)聯(lián),最普通的形式是等級(jí)上的關(guān)聯(lián)。例如:A、由專指詞到較泛指的詞,使用符號(hào) BT (
16、broader term),或者 S (屬) B、由泛指詞到較專指的詞,使用符號(hào) NT (narrower term),或者 F (分) C、由指向近義的詞,使用符號(hào) RT (related term),或者 C (參),或 see also (參見(jiàn)) 512021-12-10漢語(yǔ)主題詞表詞的關(guān)聯(lián)舉列 交流發(fā)電機(jī)F 同步發(fā)電機(jī) 異步發(fā)電機(jī)S 發(fā)電機(jī) 交流換向電機(jī)D 交流整離子電機(jī)S 交流電機(jī)Z 電機(jī)C 調(diào)速電動(dòng)機(jī) 異步電動(dòng)機(jī)522021-12-10(3)字形的控制法 即把具有同一詞根的字組合在一起。當(dāng)然這不是提供標(biāo)引的措施,而是提供檢索用的輔助手段。在計(jì)算機(jī)檢索中,是采用截詞實(shí)現(xiàn)的:例如: “
17、反射”、“反射波”、“反射性”、“反射望遠(yuǎn)鏡” 等。 都有 reflect,用 reflect 進(jìn)行截詞檢索,就能檢索出與“反射”有關(guān)的 所有文獻(xiàn)。532021-12-10(4)聚類法 在對(duì)檢索詞進(jìn)行統(tǒng)計(jì)的基礎(chǔ)上,將有關(guān)的索引次進(jìn)行聚類,可以查出更多的文獻(xiàn),從而改善查全性。例如:“枯萎” 是與 “莊稼”、“植物生長(zhǎng)” 聯(lián)系在一起的,如果 “銹菌”也是常與 “植物生長(zhǎng)”等詞聯(lián)系在一起的話,我們就可以推斷 “枯萎” 與 “銹菌” 之 間存在某種聯(lián)系。542021-12-103.3 索引語(yǔ)言中改善查準(zhǔn)率的措施組 配即兩個(gè)或兩個(gè)以上概念的組合,有兩種組配形式,先組和后組。 先組式是指概念之間的組合是在
18、詞表編制階段就已經(jīng)定義好的,組配后的符合概念成為供標(biāo)引的完整索引詞。 心理聲學(xué)(是心理學(xué)與聲學(xué)的組配) 蒸發(fā)冷卻(是蒸發(fā)與冷卻的組配) 后組式是指在檢索階段把兩個(gè)或兩個(gè)以上的有關(guān)索引詞進(jìn)行組合。 “計(jì)算機(jī)” 與 “設(shè)計(jì)” 552021-12-10 先組式有助于提高索引詞的專指度,減少標(biāo)引到每個(gè)詞的文獻(xiàn)數(shù)量,減少和避免假組配,從而有利于查準(zhǔn)率。但是先組式的詞在數(shù)量上是有限的,不能適應(yīng)各種角度和深度的符合概念檢索。 后組式便于各種角度和深度的檢索,有利于查準(zhǔn)率的提高,但是可能出現(xiàn)假組配,致使誤檢的增多。對(duì)于先組和后組式的評(píng)價(jià)562021-12-103.4 計(jì)算機(jī)檢索語(yǔ)言(1)布爾邏輯檢索功能邏輯或(OR、+)檢索項(xiàng) A、B 若用 “邏輯或” 組配,則邏輯式為 “A OR B”,或者 “A + B”AB表示被檢索的文獻(xiàn)只要包含有其中的一個(gè)檢索項(xiàng),或者同時(shí)含有這兩個(gè)檢索項(xiàng),那么它就會(huì)被命中
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園籃球培訓(xùn)
- 思科交換機(jī)培訓(xùn)
- (基礎(chǔ)卷)第一單元 圓和扇形(單元測(cè)試)數(shù)學(xué)六年級(jí)上冊(cè)單元速記巧練系列(冀教版)教師版
- 河北省唐山市灤州市2024-2025學(xué)年七年級(jí)上學(xué)期11月份期中考試生物試題(無(wú)答案)
- T-YNZYC 0085-2023 綠色藥材 云黃連產(chǎn)地加工規(guī)程
- T-TSSP 029-2023 鮮筍漿(粉)加工技術(shù)規(guī)程
- 河北省邯鄲市部分校2024-2025學(xué)年高三上學(xué)期第二次聯(lián)考生物試題 含解析
- 河北省邢臺(tái)市邢襄聯(lián)盟2024-2025學(xué)年高三上學(xué)期10月份期中聯(lián)考數(shù)學(xué)試題 含解析
- Windows Server網(wǎng)絡(luò)管理項(xiàng)目教程(Windows Server 2022)(微課版)課件項(xiàng)目2 活動(dòng)目錄的配置與管理
- 浙江大學(xué)《現(xiàn)代漢語(yǔ)語(yǔ)法修辭》在線作業(yè)及答案
- 河道清淤施工方案和專項(xiàng)施工方案
- 快消品行業(yè)新零售整體解決方案
- 浙教版小學(xué)二年級(jí)下冊(cè)《綜合實(shí)踐活動(dòng)》我的課間活動(dòng)-課件
- 全國(guó)職業(yè)院校技能大賽中職組法律實(shí)務(wù)比賽試題附答案
- 《耳鼻咽喉-頭頸外科學(xué)》見(jiàn)習(xí)教學(xué)大綱(五官)
- 第3課中國(guó)特色社會(huì)主義進(jìn)入新時(shí)代(高教版2023基礎(chǔ)模塊)
- 危重癥常見(jiàn)的管道護(hù)理
- 《一匹出色的馬》說(shuō)課課件
- 生物的多樣性及其保護(hù) 單元作業(yè)設(shè)計(jì)
- 村級(jí)財(cái)務(wù)培訓(xùn)課件
- 二級(jí)安全教育考試卷及答案
評(píng)論
0/150
提交評(píng)論