第二章信息檢索基本知識(shí)及技巧_第1頁
第二章信息檢索基本知識(shí)及技巧_第2頁
第二章信息檢索基本知識(shí)及技巧_第3頁
第二章信息檢索基本知識(shí)及技巧_第4頁
第二章信息檢索基本知識(shí)及技巧_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二章信息檢索基本知識(shí)及技巧1第1頁,課件共61頁,創(chuàng)作于2023年2月目錄outline信息檢索的定義、分類及其作用二檢索語言三檢索的效率、手段和方法2023/9/132第2頁,課件共61頁,創(chuàng)作于2023年2月信息檢索的定義、分類及其作用1.1信息檢索的定義信息檢索(InformationRetrieval):,是指將信息按一定的方式組織和存儲(chǔ)起來,并根據(jù)信息用戶的需要找出有關(guān)的信息過程,所以它的全稱又叫“信息的存儲(chǔ)與檢索(InformationStorageandRetrieval),這是廣義的信息檢索。狹義的信息檢索則僅指該過程的后半部分,即從信息集合中找出所需要的信息的過程,相當(dāng)于人們通常所說的信息查尋(InformationSearch)。2023/9/133第3頁,課件共61頁,創(chuàng)作于2023年2月1.2信息檢索的手段(1)手工檢索eg:美國工程索引(2)光盤檢索eg:medline(3)網(wǎng)絡(luò)檢索eg:springerlink2023/9/134第4頁,課件共61頁,創(chuàng)作于2023年2月1.3信息檢索的對象(1)文獻(xiàn)檢索(DocumentRetrieval):是以文獻(xiàn)(包括題錄、文摘和全文)為檢索對象的檢索。可分為全文檢索和書目檢索兩種。

(2)事實(shí)檢索(FactRetrieval):是以某一客觀事實(shí)為檢索對象,查找某一事物發(fā)生的時(shí)間、地點(diǎn)及過程的檢索。

(3)數(shù)據(jù)檢索(DataRetrieval):是以數(shù)值或數(shù)據(jù)(包括數(shù)據(jù)、圖表、公式等)為對象的檢索。

2023/9/135第5頁,課件共61頁,創(chuàng)作于2023年2月1.4信息檢索的作用(1)信息檢索是獲取知識(shí)的捷徑

eg:princeton的學(xué)生約翰·菲利普利用圖書館公開資料設(shè)計(jì)原子彈。

(2)信息檢索是科學(xué)研究的向?qū)?/p>

eg:(美)阿波羅飛船的燃料箱的重復(fù)研究問題。(3)信息檢索是終身教育的基礎(chǔ)

unesco:可以防止知識(shí)老化,不斷更新知識(shí)2023/9/136第6頁,課件共61頁,創(chuàng)作于2023年2月二信息檢索的要素

(1)前提——信息意識(shí)/信息素養(yǎng)informationliteracy新聞閱讀:《武漢的士起步價(jià)調(diào)為兩公里16元12月1日起執(zhí)行》

看到標(biāo)題,能聯(lián)想到什么?

從信息認(rèn)知、信息情感和信息行為三個(gè)方面進(jìn)行分析!2023/9/137第7頁,課件共61頁,創(chuàng)作于2023年2月(2)基礎(chǔ)——信息源A、信息的載體:

印刷型

縮微型機(jī)讀型聲像型2023/9/138第8頁,課件共61頁,創(chuàng)作于2023年2月B、信息的內(nèi)容和加工級次:

一次文獻(xiàn)

二次文獻(xiàn)三次文獻(xiàn)2023/9/139第9頁,課件共61頁,創(chuàng)作于2023年2月C、信息的出版形式:圖書期刊會(huì)議資料學(xué)位論文專利標(biāo)準(zhǔn)報(bào)告百科全書、類書2023/9/1310第10頁,課件共61頁,創(chuàng)作于2023年2月圖書的檢索途徑主要用到:

書名作者出版社ISBN關(guān)鍵詞期刊的檢索途徑主要用到:

刊名篇名作者關(guān)鍵詞ISSN2023/9/1311第11頁,課件共61頁,創(chuàng)作于2023年2月會(huì)議論文的檢索途徑主要用到:

會(huì)議名稱主辦單位會(huì)議地點(diǎn)關(guān)鍵詞作者會(huì)議文章篇名學(xué)位論文的檢索途徑主要用到:

作者學(xué)位授予單位導(dǎo)師姓名關(guān)鍵詞論文篇名2023/9/1312第12頁,課件共61頁,創(chuàng)作于2023年2月專利資料的檢索途徑主要用到:

關(guān)鍵詞專利權(quán)人發(fā)明人國際專利分類號(hào)公開號(hào)標(biāo)準(zhǔn)資料的檢索途徑主要用到:

標(biāo)準(zhǔn)編號(hào)標(biāo)準(zhǔn)名稱發(fā)布單位發(fā)布日期關(guān)鍵詞2023/9/1313第13頁,課件共61頁,創(chuàng)作于2023年2月報(bào)告資料的檢索途徑主要用到:

報(bào)告號(hào)關(guān)鍵詞作者報(bào)告單位合同戶報(bào)告代碼百科全書、類書資料的檢索途徑主要用到:

音形義2023/9/1314第14頁,課件共61頁,創(chuàng)作于2023年2月(3)核心——信息利用能力掌握各種信息源掌握檢索語言熟練使用檢索工具對檢索結(jié)果的評價(jià),判斷2023/9/1315第15頁,課件共61頁,創(chuàng)作于2023年2月附:期刊的指數(shù)計(jì)算(1)影響因素=該年引用該刊前兩年文章的總次數(shù)當(dāng)年該刊所發(fā)表文章的總數(shù)即年指標(biāo)前兩年該刊所發(fā)表文章的總數(shù)=一特定年度對該刊當(dāng)年發(fā)表文章的引用次數(shù)影響因素是一種期刊中論文的平均被引率特定年度的影響因素用于測度一種期刊被利用的速度,也是測度期刊重要性的依據(jù)即年指標(biāo)2023/9/1316第16頁,課件共61頁,創(chuàng)作于2023年2月自引率與被引率

自引率是指一種期刊中引用本刊的參考文獻(xiàn)對全部參考文獻(xiàn)之比;被自引率是一種期刊被本刊中文章引用的次數(shù)與該刊被引用的總次數(shù)之比。=自引率某刊自引的引文量該刊全部引文量被引率

=某刊自引的引文量某刊被引用的總次數(shù)2023/9/1317第17頁,課件共61頁,創(chuàng)作于2023年2月二檢索語言2.1按表現(xiàn)形式劃分的檢索語言

外表特征語言內(nèi)容特征語言2023/9/1318第18頁,課件共61頁,創(chuàng)作于2023年2月外表特征:就是文獻(xiàn)上記明的、顯而易見的特征。外表特征語言(書目引文語言)題名(書名、篇名)著者姓名文獻(xiàn)序號(hào)(如:ISBN、ISSN、專利號(hào)、報(bào)告號(hào)等)書目引文出版事項(xiàng)文獻(xiàn)類型2023/9/1319第19頁,課件共61頁,創(chuàng)作于2023年2月

內(nèi)容特征語言非句法語言句法語言等級制體系分類法標(biāo)題詞關(guān)鍵詞敘詞單元詞加標(biāo)志的敘詞組面詞(如:組面分類法)短語文獻(xiàn)全文的自然語言2023/9/1320第20頁,課件共61頁,創(chuàng)作于2023年2月2.2按應(yīng)用功能劃分的檢索語言

分類語言主題語言2023/9/1321第21頁,課件共61頁,創(chuàng)作于2023年2月2.21分類語言

是用分類號(hào)和相應(yīng)的分類款目名稱來表達(dá)信息內(nèi)容的主題概念,并按學(xué)科體系的邏輯次序?qū)⑿畔①Y源系統(tǒng)地加以劃分和組織的語言。分類語言能反映事物的從屬派生關(guān)系,便于按學(xué)科門類進(jìn)行族檢索。2023/9/1322第22頁,課件共61頁,創(chuàng)作于2023年2月杜威十進(jìn)分類法——

DeweyDecimalClassification,DC/DDC美國M.杜威編制的綜合性等級列舉式分類法。分為詳、簡兩種版本,詳本于1876年問世,取名為《圖書館圖書小冊子排架及編目適用的分類法和主題索引》,1951年的第15版改名《杜威十進(jìn)分類法》000總論

100哲學(xué)

200宗教

300社會(huì)科學(xué)

400語言

500自然科學(xué)和數(shù)學(xué)

600技術(shù)(應(yīng)用科學(xué))

700藝術(shù)、美術(shù)和裝飾藝術(shù)

800文學(xué)

900地理、歷史及輔助學(xué)科

第一層展開層630農(nóng)業(yè)

631農(nóng)業(yè)經(jīng)營

631.5作物栽培

2023/9/1323第23頁,課件共61頁,創(chuàng)作于2023年2月

通用十進(jìn)制圖書分類法——UniversalDecimalClassificationUDC十進(jìn)制圖書分類法由兩位比利時(shí)書目專家(PaulOtlet、HenrilaFontaine)19世紀(jì)末在杜威十進(jìn)制圖書分類法的基礎(chǔ)上繼續(xù)研發(fā)的分類方法。此種分類方法由數(shù)字和特殊符號(hào)組成,把涉及各種知識(shí)體系及學(xué)科的書籍予以分類。介于數(shù)字和符號(hào)無語言障礙的特性,該分類法在世界各地的圖書館中被廣泛應(yīng)用。

總分類0總匯1哲學(xué),心理學(xué)2宗教,神學(xué)3社會(huì)學(xué),政治,經(jīng)濟(jì),法律,教育,人類學(xué)4暫無(由圖書館具體添加)5自然學(xué)科,數(shù)學(xué)6實(shí)用學(xué)科,醫(yī)學(xué),科技,企業(yè)經(jīng)濟(jì)學(xué),計(jì)算機(jī)

7藝術(shù),手工藝品,音樂,競技,體育8語言學(xué),文學(xué)9地理,生物,歷史2023/9/1324第24頁,課件共61頁,創(chuàng)作于2023年2月附加+:并列符(例:178.1+33酒精主義者和國民經(jīng)濟(jì))::關(guān)系符(例:178.1:33酒精主義對國民經(jīng)濟(jì)的影響)

/:包含符(例:592/599系統(tǒng)動(dòng)物學(xué),從592到599)

=:語言符(例:=71拉丁語)(0...):書類符(例:(042)演講,講義)(...):地域符(例:(234.3)阿爾卑司)2023/9/1325第25頁,課件共61頁,創(chuàng)作于2023年2月美國國會(huì)圖書館圖書分類法——LibraryofCongressClassification

2023/9/1326第26頁,課件共61頁,創(chuàng)作于2023年2月第一層2023/9/1327第27頁,課件共61頁,創(chuàng)作于2023年2月末層2023/9/1328第28頁,課件共61頁,創(chuàng)作于2023年2月中國圖書館圖書分類法——ChineseLibraryClassification,

CLC

中國圖書館分類法,簡稱《中圖法》。包括“馬列主義、毛澤東思想,哲學(xué),社會(huì)科學(xué),自然科學(xué),綜合性圖書五大部類,22個(gè)基本大類,具體如下:2023/9/1329第29頁,課件共61頁,創(chuàng)作于2023年2月中國科學(xué)院圖書館圖書分類法簡稱科圖法。1958年由中國科學(xué)院圖書館編寫,1974年、1979年、1994年分別進(jìn)行了修訂。分為25大類。中國科學(xué)院圖書館圖書分類法2023/9/1330第30頁,課件共61頁,創(chuàng)作于2023年2月國際專利分類法——InternationalPatentClassification,IPC

《關(guān)于國際專利分類斯特拉斯堡協(xié)定》與1975年10月7日生效,它為發(fā)明專利,包括出版的專利申請書、發(fā)明證書說明書、實(shí)用新型說明書(一下簡稱為“專利文獻(xiàn)”)提供了一種共同的分類。分類表示使各國專利文獻(xiàn)獲得統(tǒng)一分類的一種工具。它的基本目的是作為各專利局以及其他使用者在確定專利申請的新穎性、創(chuàng)造性(包括對技術(shù)先進(jìn)性和實(shí)用價(jià)值作出評價(jià))而進(jìn)行的專利文獻(xiàn)檢索是的一種有效檢索工具。

2023/9/1331第31頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1332第32頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1333第33頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1334第34頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1335第35頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1336第36頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1337第37頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1338第38頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1339第39頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1340第40頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1341第41頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1342第42頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1343第43頁,課件共61頁,創(chuàng)作于2023年2月技術(shù)主體的分析2023/9/1344第44頁,課件共61頁,創(chuàng)作于2023年2月2.22主題語言

2023/9/1345第45頁,課件共61頁,創(chuàng)作于2023年2月2023/9/1346第46頁,課件共61頁,創(chuàng)作于2023年2月

INSPEC敘詞表舉例:Locomotive

NT①

diesel-electriclocomotiveBT

②vehicles

TT③

vehiclesRT

④railtrafficrailwaystractionCC⑤

B8520-nC3360DFC

b8520-nc3360DeDI

⑦January19731、下位敘詞2、上位敘詞3、族首詞4、相關(guān)詞5、INSPEC數(shù)據(jù)庫使用的分類號(hào)6、輸入到INSPEC數(shù)據(jù)庫使用的分類號(hào)7、該敘詞的啟用日期英國電氣工程學(xué)會(huì)(InstituteofElectricEngineering簡稱IEE)下設(shè)的國際物理和工程信息服務(wù)部(InternationalInformationServicesforthePhysicsandEngineeringCommunities,簡稱INSPEC)2023/9/1347第47頁,課件共61頁,創(chuàng)作于2023年2月三檢索的效率、手段和方法3.1檢索效率評價(jià)2023/9/1348第48頁,課件共61頁,創(chuàng)作于2023年2月3.2索引語言中改善查全率的措施(1)同義詞控制法

是指當(dāng)一個(gè)概念具有多個(gè)同義詞的時(shí)候,為了保證標(biāo)引與檢索的一致性,避免文獻(xiàn)的分散和漏檢,指引詞匯的使用者從其他的同義詞找到一個(gè)被專門選擇作為正式主題詞的詞的用法。例如:用符號(hào)USE、SEE、Y(用)從正式詞引見非正式的詞,則用USEFOR、D(代)2023/9/1349第49頁,課件共61頁,創(chuàng)作于2023年2月(2)詞的關(guān)聯(lián)法索引詞的關(guān)聯(lián),最普通的形式是等級上的關(guān)聯(lián)。例如:A、由專指詞到較泛指的詞,使用符號(hào)BT(broaderterm),或者S(屬)

B、由泛指詞到較專指的詞,使用符號(hào)NT(narrowerterm),或者F(分)

C、由指向近義的詞,使用符號(hào)RT(relatedterm),或者C(參),或seealso(參見)

2023/9/1350第50頁,課件共61頁,創(chuàng)作于2023年2月《漢語主題詞表》詞的關(guān)聯(lián)舉列交流發(fā)電機(jī)F同步發(fā)電機(jī)異步發(fā)電機(jī)S發(fā)電機(jī)

交流換向電機(jī)D交流整離子電機(jī)S交流電機(jī)Z電機(jī)C調(diào)速電動(dòng)機(jī)異步電動(dòng)機(jī)2023/9/1351第51頁,課件共61頁,創(chuàng)作于2023年2月(3)字形的控制法

即把具有同一詞根的字組合在一起。當(dāng)然這不是提供標(biāo)引的措施,而是提供檢索用的輔助手段。在計(jì)算機(jī)檢索中,是采用截詞實(shí)現(xiàn)的:例如:“反射”、“反射波”、“反射性”、“反射望遠(yuǎn)鏡”等。都有reflect,用reflect進(jìn)行截詞檢索,就能檢索出與“反射”有關(guān)的所有文獻(xiàn)。2023/9/1352第52頁,課件共61頁,創(chuàng)作于2023年2月(4)聚類法

在對檢索詞進(jìn)行統(tǒng)計(jì)的基礎(chǔ)上,將有關(guān)的索引次進(jìn)行聚類,可以查出更多的文獻(xiàn),從而改善查全性。例如:“枯萎”是與“莊稼”、“植物生長”聯(lián)系在一起的,如果“銹菌”也是常與“植物生長”等詞聯(lián)系在一起的話,我們就可以推斷“枯萎”與“銹菌”之間存在某種聯(lián)系。2023/9/1353第53頁,課件共61頁,創(chuàng)作于2023年2月3.3索引語言中改善查準(zhǔn)率的措施組配即兩個(gè)或兩個(gè)以上概念的組合,有兩種組配形式,先組和后組。

先組式是指概念之間的組合是在詞表編制階段就已經(jīng)定義好的,組配后的符合概念成為供標(biāo)引的完整索引詞。

心理聲學(xué)(是心理學(xué)與聲學(xué)的組配)蒸發(fā)冷卻(是蒸發(fā)與冷卻的組配)

后組式是指在檢索階段把兩個(gè)或兩個(gè)以上的有關(guān)索引詞進(jìn)行組合。

“計(jì)算機(jī)”與“設(shè)計(jì)”2023/9/1354第54頁,課件共61頁,創(chuàng)作于2023年2月

先組式有助于提高索引詞的專指度,減少標(biāo)引到每個(gè)詞的文獻(xiàn)數(shù)量,減少和避免假組配,從而有利于查準(zhǔn)率。但是先組式的詞在數(shù)量上是有限的,不能適應(yīng)各種角度和深度的符合概念檢索。

后組式便于各種角度和深度的檢索,有利于查準(zhǔn)率的提高,但是可能出現(xiàn)假組配,致使誤檢的增多。對于先組和后組式的評價(jià)2023/9/1355第55頁,課件共61頁,創(chuàng)作于2023年2月3.4計(jì)算機(jī)檢索語言(1)布爾邏輯檢索功能邏輯或(OR、+)檢索項(xiàng)A、B若用“邏輯或”組配,則邏輯式為“AORB”,或者“A+B”AB表示被檢索的文獻(xiàn)只要包含有其中的一個(gè)檢索項(xiàng),或者同時(shí)含有這兩個(gè)檢索項(xiàng),那么它就會(huì)被命中。20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論