文獻(xiàn)信息檢索基礎(chǔ)-劉雁書_第1頁
文獻(xiàn)信息檢索基礎(chǔ)-劉雁書_第2頁
文獻(xiàn)信息檢索基礎(chǔ)-劉雁書_第3頁
文獻(xiàn)信息檢索基礎(chǔ)-劉雁書_第4頁
文獻(xiàn)信息檢索基礎(chǔ)-劉雁書_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、文獻(xiàn)信息檢索基礎(chǔ) 中南大學(xué)中南大學(xué) 劉雁書劉雁書 2011年年9月月2大 綱一文獻(xiàn)信息檢索技術(shù)二文獻(xiàn)信息檢索途徑三文獻(xiàn)信息檢索策略四文獻(xiàn)信息檢索語言3一、文獻(xiàn)信息檢索技術(shù)一、文獻(xiàn)信息檢索技術(shù) (一)文本信息檢索技術(shù)(一)文本信息檢索技術(shù)(P27) 1.布爾邏輯檢索布爾邏輯檢索 邏輯與(邏輯與(A AND B) 邏輯或(邏輯或(A OR B)A 邏輯非(邏輯非(A NOT B) 邏輯異或(邏輯異或(A XOR B) 布爾邏輯檢索示意圖布爾邏輯檢索示意圖ABABABAB4 2.截詞檢索截詞檢索 用截詞符號用截詞符號“?”、“*”或或“$”加加在檢索詞的前后或中間,以檢索一組概在檢索詞的前后或中間,

2、以檢索一組概念相關(guān)或同一詞根的詞。這種檢索方式念相關(guān)或同一詞根的詞。這種檢索方式可以擴大檢索范圍,提高查全率??梢詳U大檢索范圍,提高查全率。 主要用于西文數(shù)據(jù)庫檢索。中文數(shù)據(jù)主要用于西文數(shù)據(jù)庫檢索。中文數(shù)據(jù)庫通常不使用這種技術(shù)。庫通常不使用這種技術(shù)。(一)文本信息檢索技術(shù)5(一)文本信息檢索技術(shù) 3. 鄰近檢索(proximity searching) 是用來表示檢索詞之間位置關(guān)系的檢索技術(shù),通過用位置算符來實現(xiàn),常用的位置算符有near,with等 “near”:表示兩個檢索詞位置相鄰,出現(xiàn)順序可前可后,如 gene near apoptois “with”:表示兩個檢索詞位置相鄰,且兩詞出

3、現(xiàn)順序與輸入順序一致,如 liver with cancer6(一)文本信息檢索技術(shù)4. 限定檢索(limit searching):又稱限定字段檢索,利用檢索詞出現(xiàn)的字段進(jìn)行的檢索。Pubmed Limits檢索界面檢索界面7(一)文本信息檢索技術(shù)5. 擴展檢索(expand search)6. 加權(quán)檢索(weighing searching)8(一)文本信息檢索技術(shù) 7.精確檢索與模糊檢索 精確檢索(exact searching) 模糊檢索(fuzzy searching)98. 跨庫檢索中國知網(wǎng)跨庫檢索界面中國知網(wǎng)跨庫檢索界面109. 相關(guān)信息反饋檢索中國知網(wǎng)相關(guān)信息反饋檢索界面中國知

4、網(wǎng)相關(guān)信息反饋檢索界面1110. 智能檢索原提問詞”birth defect”系統(tǒng)轉(zhuǎn)換后的檢索策略12(二)、多媒體信息檢索技術(shù) 基于文本描述的檢索 基于內(nèi)容的圖像檢索 顏色特征提取 紋理特征提取 形狀提取 相關(guān)反饋技術(shù)13百度圖片高級檢索界面“搜索結(jié)果”、“搜索結(jié)果類型”:基于文本的檢索“圖片大小”:基于內(nèi)容的檢索,形狀特征提取“選擇顏色”:基于內(nèi)容的檢索,顏色特征提取“圖片格式”、“站內(nèi)圖片”:基于文本的檢索14(三)、可視化信息檢索技術(shù) 可視化檢索(Visual retrieval) 檢索過程透明化 檢索結(jié)果輸出高效化 更為有效的檢索結(jié)果排序機制 有效的用戶反饋機制對近二十年能量醫(yī)學(xué)文獻(xiàn)

5、可視化檢索發(fā)現(xiàn)目前能量醫(yī)學(xué)有兩個主要研究領(lǐng)域:1. 病人(尤指女性)的飲食和運動與疾病的關(guān)系;2. 醫(yī)學(xué)影像學(xué)。 15二、文獻(xiàn)信息檢索途徑16二、文獻(xiàn)信息檢索途徑 檢索途徑為檢索系統(tǒng)的檢索入口,即檢索系統(tǒng)所提供的、用以查尋獲取資源的各種標(biāo)識,在計算機檢索中通常表現(xiàn)為字段檢索。17二、文獻(xiàn)信息檢索途徑 1. 主題詞檢索途徑 是利用主題詞(Subject Headings) 作為檢索入口查找文獻(xiàn)的途徑。 主題詞是經(jīng)過優(yōu)選和規(guī)范化處理的詞匯,由主題詞表來控制,常見的醫(yī)學(xué)主題詞表有美國國立醫(yī)學(xué)圖書館編制的Medical Subject Headings及中醫(yī)藥學(xué)主題詞表 主題詞途徑有助于提高查全率與查

6、準(zhǔn)率,但維護成本高。 目前支持主題詞檢索的檢索系統(tǒng)主要有CBMDisc和Pubmed.18二、文獻(xiàn)信息檢索途徑 2. 自由詞檢索途徑 自由詞途徑是利用自由詞(Text Word)作為檢索入口查找文獻(xiàn)的途徑. 自由詞是檢索工具中所出現(xiàn)的任意詞匯(通常除開無實質(zhì)意義的詞匯),主要包括題名詞、關(guān)鍵詞、文摘詞和全文詞等有實質(zhì)意義的詞。 自由詞檢索用詞靈活、自由、直觀、符合用戶習(xí)慣,因而應(yīng)用廣泛。 但自由詞不能反映概念間的一一對應(yīng)關(guān)系,也不能反映概念間的等級從屬關(guān)系,因而自由詞檢索時應(yīng)同時考慮使用所選自由詞的同義詞、近義詞、專指詞等相關(guān)詞進(jìn)行檢索,避免漏檢文獻(xiàn)。19二、文獻(xiàn)信息檢索途徑 3. 分類檢索途

7、徑 分類途徑是利用文獻(xiàn)在分類體系中的位置(類目名稱或分類號)作為檢索入口查找文獻(xiàn)的途徑,可滿足用戶從學(xué)科、專業(yè)等內(nèi)容出發(fā)獲取文獻(xiàn)的需要。 常見的分類標(biāo)準(zhǔn)主要有中國圖書館分類法20二、文獻(xiàn)信息檢索途徑 4. 著者檢索途徑 是利用文獻(xiàn)上署名的作者、編者或機關(guān)團體名稱作為檢索入口查找文獻(xiàn)的途徑。 查外文數(shù)據(jù)庫時,須注意外文數(shù)據(jù)庫對著者姓名的特殊處理方式。21個人著者的處理方法 常規(guī)姓名:姓在前用全稱,名在后用縮寫 如:Susan Ann Webster Webster SA 復(fù)姓時所有的姓以全稱的形式保留,放于名之前。 Julie C. Fanbury-Smith 如何處理? 帶前綴(如De,Des

8、,Du,La, Dal, La, Von, Van, den,der)的姓名,多數(shù)將前綴作為姓名的一個組成部分,并參與排序 Kinder Von Werder 如何處理?(Von Werder K) 作者姓名中的頭銜(如Lord、PhD、MD)在著者索引中常略去。22 西文檢索工具對中國人名的處理較混亂 如Xia Jia-hui文獻(xiàn)可能被分散在“Xia JH”及“ Xia J”下面,檢索時需綜合考慮,盡可能查全。 由中華人民共和國新聞出版署印發(fā)、1999年2月試行的“中國學(xué)術(shù)期刊(光盤版)檢索與評價數(shù)據(jù)規(guī)范”中相關(guān)規(guī)定為: “中國作者姓名的漢語拼音采用如下寫法: 姓前名后, 中間為空格. 姓氏

9、的全部字母均大寫, 復(fù)姓應(yīng)連寫. 名字的首字母大寫, 雙名中間加連字符; 名字不縮寫. 如: ZHANG Ying (張穎), WANG Xi-lian (王錫聯(lián)), ZHUGE Hua (諸葛華).” 23二、文獻(xiàn)信息檢索途徑 5. 題名檢索途徑 利用題名(如書名、刊名、篇名)作為檢索入口的查找文獻(xiàn)的途徑。 計算機檢索系統(tǒng)都提供題名檢索途徑,題名是文章內(nèi)容的高度濃縮,將提問詞限制在題名中可以提高查準(zhǔn)率24 6. 序號檢索途徑 利用文獻(xiàn)特有序號查找文獻(xiàn)的途徑. 常見序號有專利號、報告號、化學(xué)物質(zhì)登記號等 提供從信息本身的序號入手查找信息的途徑 由于序號通常具有唯一性、專指性和實用性等特點,因此

10、利用文獻(xiàn)序號來查找相關(guān)信息能提高查準(zhǔn)率,并有效提高檢索速度。25二、文獻(xiàn)信息檢索途徑 7. 機構(gòu)檢索途徑 是以機構(gòu)名稱為檢索入口查找文獻(xiàn)的途徑。不少數(shù)據(jù)庫將機構(gòu)名并入地址字段 8. 引文途徑 從參考文獻(xiàn)入手查找文獻(xiàn)的途徑。 代表:美國科學(xué)引文索引SCI26二、文獻(xiàn)信息檢索途徑9. 缺省檢索途徑 指自動在檢索系統(tǒng)預(yù)先設(shè)定的多個字段中同時進(jìn)行檢索。如CBMDisc的缺省字段包括“中文題名”、“關(guān)鍵詞”、“主題詞”、“文摘”、“刊名”、“特征詞”等字段 10.其他途徑 化學(xué)文摘的分子式索引 生物學(xué)文摘的生物體索引27三、文獻(xiàn)信息檢索策略 (一)檢索策略定義(一)檢索策略定義 廣義的檢索策略是指用戶根

11、據(jù)檢索需求選擇相應(yīng)的數(shù)據(jù)庫、確定檢索方式、檢索途徑及相應(yīng)檢索表達(dá)式進(jìn)行檢索的一系列操作或方案,是用戶檢索目標(biāo)的體現(xiàn)。 狹義的檢索策略僅指用戶確定檢索表達(dá)式進(jìn)行檢索的系列操作。 28(二)、檢索策略的構(gòu)建分析課題,明確實質(zhì)需求分析課題,明確實質(zhì)需求選擇合適的檢索工具或數(shù)據(jù)庫選擇合適的檢索工具或數(shù)據(jù)庫概念分析并轉(zhuǎn)換成系統(tǒng)檢索詞概念分析并轉(zhuǎn)換成系統(tǒng)檢索詞擬定檢索提問式和檢索途徑擬定檢索提問式和檢索途徑檢索檢索修正調(diào)整修正調(diào)整檢索策略檢索策略獲取原文獲取原文,完成完成檢索結(jié)果是否滿意檢索結(jié)果是否滿意NOYES流程圖29(二)檢索策略的構(gòu)建 1. 分析檢索課題,明確檢索要求 分析課題的主題內(nèi)容 確定課題

12、的文獻(xiàn)類型 確定檢索時間范圍 分析用戶的檢索評價要求30(二)檢索策略的構(gòu)建 2. 選擇檢索系統(tǒng),確定檢索方法 數(shù)據(jù)庫選擇“4C”原則 Content(內(nèi)容) Coverage(覆蓋范圍) Currency(更新) Cost(成本)31(二)檢索策略的構(gòu)建 3. 確定檢索途徑,編寫檢索策略表達(dá)式 4. 評價檢索結(jié)果,修正檢索策略32四、信息檢索語言33 Q:文獻(xiàn)檢索就是從一定的文獻(xiàn)集合(即檢索系統(tǒng))中查找出符合特定需要的文獻(xiàn),檢索系統(tǒng)中收集了許多文獻(xiàn)線索,這些線索是按什么方式組織的呢?34文獻(xiàn)組織方式 形式特征:文獻(xiàn)題名、作者等 內(nèi)容特征:主題詞、分類號等35(一) 檢索語言概述 36(一)

13、檢索語言概述37(一) 檢索語言概述3. 種類1 文獻(xiàn)形式特征檢索語言1題名索引1著者索引 1文獻(xiàn)序號索引1引文索引1文獻(xiàn)內(nèi)容特征檢索語言1分類檢索語言1主題檢索語言1代碼檢索語言1本體語言38(二) 文獻(xiàn)分類法1文獻(xiàn)分類法是根據(jù)文獻(xiàn)知識內(nèi)容所屬的學(xué)科性質(zhì),分門別類地、系統(tǒng)地揭示和組織文獻(xiàn)的一種方法。1常用文獻(xiàn)分類法1中國圖書館分類法1圖書館藏書組織1檢索系統(tǒng)重要檢索途徑39圖書館藏書是按什么方法組織的?醫(yī)學(xué)文獻(xiàn)信息檢索 / 羅愛靜 G252.7-43 /LAJ.3 索書號 分類號 + 書次號(+輔助區(qū)分號) = 索書號分類標(biāo)準(zhǔn):中國圖書館分類法,簡稱中圖法,1999年第四版40中國圖書館分類

14、法中圖法將所有的學(xué)科體系分為 22大類,每個大類用一個字母表示, 中圖法基本大類表詳見教材P38提問:代表醫(yī)藥衛(wèi)生大類的字母是哪一個?41中國圖書分類法“R 醫(yī)藥衛(wèi)生”的主要類目:詳見教材P3942中圖法體系結(jié)構(gòu)R醫(yī)藥衛(wèi)生R5內(nèi)科學(xué)R52結(jié)核病R521肺結(jié)核R521.1原發(fā)綜合征R521.2支氣管淋巴結(jié)核43R78 口腔科學(xué)下位類目 R78 口腔科學(xué) R780.1 口腔疾病的預(yù)防與衛(wèi)生 R780.2 口腔病理學(xué) R781 口腔內(nèi)科學(xué) R782 口腔頜面部外科學(xué) R783 口腔矯形學(xué) R787 老年口腔疾病 R788 兒童口腔疾病 44中圖法復(fù)分號:用于區(qū)分某一類圖書-43 教材 -44 習(xí)題、

15、試題及題解-53 論文集 -6 參考工具書-61 術(shù)語、辭典、百科全書-62 手冊、名錄、指南-64 圖解、數(shù)據(jù)、地圖45問題:“R243”分類號代表何種圖書?46 圖書排架排序題:F735C913.5R47R714R647(三)國際疾病分類法 國際疾病分類法(International Classification of Diseases, ICD),起源于1853年,1948年世界衛(wèi)生組織接管了國際疾病分類工作,現(xiàn)最新版本為1993年的第十次修訂版本(ICD-10),改稱為疾病及有關(guān)健康問題國際分類統(tǒng)計分類(The International Statistical Classificat

16、ion of Diseases and Related Health Problems,為保持其連續(xù)性,簡稱仍沿用“國際疾病分類”(ICD),但其使用范圍不僅局限于疾病和損傷分類的范疇,還擴展到對其他健康問題進(jìn)行分類。48 學(xué)習(xí)國際疾病分類法的意義: 在WHO倡導(dǎo)與推動下,ICD現(xiàn)已成為世界性的疾病、損傷和死亡原因分類的統(tǒng)一標(biāo)準(zhǔn)化工具。 我國于1987年起正式使用ICD進(jìn)行疾病和死亡原因的統(tǒng)計分類。我國衛(wèi)生部要求縣級及以上醫(yī)院采用ICD編制醫(yī)院出院病人疾病分類統(tǒng)計報告,并頒發(fā)了全國統(tǒng)一使用的、注有ICD編碼的醫(yī)院病案首頁,首頁中很多內(nèi)容(如各種診斷、手術(shù)名稱、損傷、根本死因等)都需要臨床醫(yī)生參

17、照ICD來正確書寫。49ICD編碼醫(yī)院信息系統(tǒng)中的病案首頁醫(yī)院信息系統(tǒng)中的病案首頁50ICD的分類體系 ICD是一個可變軸心的分類,其結(jié)構(gòu)按照流行性疾病、全身性疾病、局部疾病(按部位排列)、發(fā)育性疾病、損傷等排列。 ICD的基本分類:三位數(shù)類目表(list of three-character categories),三位數(shù)類目表:將所有疾病分為21大類(章),每一大類類目編號為一組三位數(shù)(第一位是英文字母,第二三位是數(shù)字),如第九大類“循環(huán)系統(tǒng)疾病“類目編碼為I00-J99,見教材P43,“表2-2 ICD-10三位數(shù)類目表” 三位數(shù)類目表是ICD的核心,是向世界衛(wèi)生組織死亡率數(shù)據(jù)庫提交報告

18、和一般國際比較用的強制性編碼水平。51 ICD的詳細(xì)類目表:內(nèi)容類目表和四位數(shù)亞目(Tabular list of inclusions and four character subcategories),是三位數(shù)類目表的詳細(xì)類目表,類目編號包括一個字母、三位數(shù)字和一個小數(shù)點。 舉例: I15 繼發(fā)性高血壓 I15.0 腎血管高血壓 I15.1 繼發(fā)于其他腎疾患的高血壓 I15.2 繼發(fā)于內(nèi)分泌疾患的高血壓 I15.8 其他繼發(fā)性高血壓 I15.9 繼發(fā)性高血壓,未特指52ICD-10的主體結(jié)構(gòu)第一卷:類目表第一卷:類目表 第二卷第二卷 指導(dǎo)手冊指導(dǎo)手冊 第三卷第三卷 字母順序索引字母順序索引53(四)醫(yī)學(xué)主題詞表醫(yī)學(xué)主題詞表(Medical Subject Headings,Mesh)1印刷本1電子版1Mesh Browser1UMLS Metathesaurus1Mesh網(wǎng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論