社科文獻(xiàn)檢索(檢索原理)_第1頁
社科文獻(xiàn)檢索(檢索原理)_第2頁
社科文獻(xiàn)檢索(檢索原理)_第3頁
社科文獻(xiàn)檢索(檢索原理)_第4頁
社科文獻(xiàn)檢索(檢索原理)_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

社科文獻(xiàn)檢索(六)文獻(xiàn)信息檢索原理2023/2/61本課要點一、檢索的意義二、檢索的基本原理三、檢索點四、檢索手段五、檢索效果2023/2/62一、檢索的意義

“意義”一詞有兩個意義:

1、他清楚地闡釋了“人文”這個術(shù)語的意義。

2、你們這樣做到底有什么意義?在句1中的意思是“含義”,在句2中是“功用”。就前者而言:文獻(xiàn)信息具有共享性,信息資源共享(informationresourcesharing)是當(dāng)今社會的一個熱點問題。為了分享人類共同的知識財富、研究成果,人們必須通過一種科學(xué)的方法從取之不盡的信息源中去識別和獲取所需要的那部分信息,這個過程就是檢索(searching)。2023/2/63檢索的意義就后者而言:信息具有可擴(kuò)充性,人們對信息的處理能力越強(qiáng),信息擴(kuò)充得就越快。檢索在信息處理和增值中有重要意義。信息的檢索、利用和創(chuàng)造是一個循環(huán)和增值的過程,人們通過工具檢索獲得信息,經(jīng)過處理篩選出需要的部分,在利用信息的過程中又創(chuàng)出新的信息,這些信息經(jīng)過核準(zhǔn)后又被標(biāo)引、組織進(jìn)檢索工具,再提供人們使用,信息在這個循環(huán)的處理過程中不斷得到擴(kuò)充,它的增長是沒有窮盡的。

2023/2/64檢索的意義進(jìn)一步說,信息的檢索是與信息的存貯對應(yīng)的。從廣義上講,信息檢索應(yīng)包括信息存貯與檢索兩方面的含義。沒有存儲就無所謂檢索。圖書館里沒有書,就用不著檢索;有了很多書,放了很多書架、甚至有很多書庫,就需要檢索,否則就找不到要用的那一本書。所以信息檢索應(yīng)包括信息存貯與檢索兩方面的含義。2023/2/65檢索的意義存貯(informationstoring):將信息按一定的方式有序的組織起來。檢索

(informationretrieval):根據(jù)用戶特定的需求將相關(guān)信息準(zhǔn)確的提取出來。所以當(dāng)前更普遍使用的術(shù)語是信息存取。

信息存取

(informationaccess):"Access"該詞源于計算機(jī)學(xué)科領(lǐng)域,指計算機(jī)訪問文檔或數(shù)據(jù)集的方式。引入信息檢索范疇,則從本質(zhì)上拓寬了檢索的內(nèi)涵及其應(yīng)用。信息存取將所有信息的組織、檢索活動及其先進(jìn)的技術(shù)手段融合在一起。如果檢索的對象是文獻(xiàn)信息,那么就屬于文獻(xiàn)檢索。

2023/2/66二、檢索的基本原理

信息檢索基本原理的核心是用戶信息需求與文獻(xiàn)信息集合的比較和選擇,是兩者匹配(match)的過程。

2023/2/67檢索的基本原理

一方面是用戶的信息需求,一方面是組織有序的文獻(xiàn)信息集合,檢索就是從用戶特定的信息需求出發(fā),對特定的信息集合采用一定的方法、技術(shù)手段,根據(jù)一定的線索與規(guī)則從中找出(search,locate,hit)相關(guān)的信息。

2023/2/68檢索的基本原理匹配有其匹配標(biāo)準(zhǔn),這里涉及到兩者一致性、相關(guān)度等問題,按一定的標(biāo)準(zhǔn)篩選出符合要求的信息。其圖示如右:

2023/2/69三、檢索點

檢索點(accesspoint)是檢索的出發(fā)點,切入點。

每件文獻(xiàn)均有內(nèi)部的(信息內(nèi)容)特征及其相關(guān)的外部特征,在檢索系統(tǒng)中檢索點是標(biāo)目的總稱。從文獻(xiàn)的特征出發(fā),將其特征值與檢索系統(tǒng)中標(biāo)目數(shù)據(jù)進(jìn)行計算比較,通過匹配達(dá)到檢索目的。

2023/2/610檢索點文獻(xiàn)信息特征是多方面的,可供用于文獻(xiàn)檢索的檢索點很多。反映文獻(xiàn)信息內(nèi)容特征的有: 分類檢索,按照圖書的分類來檢索主題檢索;按照書或文章內(nèi)容主題詞(關(guān)鍵詞)來檢索反映文獻(xiàn)外部特征的有:作者檢索,按照書或文章的作者來檢索名稱檢索,按照書名或篇名來檢索號碼檢索,按照書刊號碼來檢索,

等等。2023/2/6111.分類檢索廣泛用于圖書資料的是圖書分類法。圖書分類法的作用是指示用戶根據(jù)學(xué)科內(nèi)容檢索圖書資料,指導(dǎo)用戶從開架書庫(openshelf)中按類號順序找到指定的圖書及其內(nèi)容相關(guān)的資料。許多出版物上都有“圖書在版編目”CIP(CatalogingInPrint)。在我國出版的圖書、專著上“圖書在版編目”數(shù)據(jù)中有"中圖法分類號"一項。2023/2/6122.主題檢索

主題(subject)檢索是從反映文獻(xiàn)內(nèi)容的有關(guān)主題詞出發(fā)來檢索文獻(xiàn),主題是檢索點,它對應(yīng)文獻(xiàn)主題概念。我國出版的《漢語主題詞表》是通用的漢語敘詞表,分為自然科學(xué)和社會科學(xué)兩個部分。《中國分類主題詞表》是一部大型綜合性的分類語言和主題語言兼容的文獻(xiàn)標(biāo)引工具,是一種新型的文獻(xiàn)檢索語言。詞表共收錄分類法類目5萬多個,主題詞(串)21萬多條,包括社會科學(xué)和自然科學(xué)各學(xué)科領(lǐng)域的主題概念。2023/2/613

3.作者檢索作者(author)檢索是從文獻(xiàn)的作者姓名出發(fā)來檢索其文獻(xiàn)。

"作者"廣義上還應(yīng)包括:匯編者(compiler)、編者(editor)、主辦者(sponsoringbody)、譯者(translator)等。

2023/2/6144.名稱檢索名稱(title)檢索點包括:書名、刊名、資料名、出版物名、出版社名、會議名、物質(zhì)名稱等等,也包括人名和機(jī)構(gòu)名。2023/2/6155.號碼檢索號碼包括文獻(xiàn)的編號(number)、代碼(code)等。

在對圖書和期刊檢索時常用到兩個號碼:國際標(biāo)準(zhǔn)書號ISBN(InternationalStandardBookNumber)及國際標(biāo)準(zhǔn)刊號ISSN(InternationalStandardSerialNumber),它們分別是一種圖書和一種期刊的唯一標(biāo)號。

2023/2/616國際標(biāo)準(zhǔn)書號ISBNISBN號有十位,分四段構(gòu)成,第一段為組號,第二段為出版社編號,第三段為圖書序號,第四段為校驗碼。如:

ISBN7-215-04848-9(《瀟灑人生》)其中:組號有:0(英、美、加拿大、南非等英語區(qū)),1(其它英語區(qū)),2(法語區(qū)),3(德語區(qū)),4(日本),5(俄語區(qū)),7(中國),8(印度等),9(新加坡等東南亞地區(qū))。

2023/2/617國際標(biāo)準(zhǔn)刊號ISSNISSN號有八位數(shù)字組成,前七位為出版物序號,最后一位為校驗碼。如:

ISSN

1008-4339(天津大學(xué)學(xué)報[社科版])2023/2/618檢索點

由于文獻(xiàn)加工的細(xì)化,計算機(jī)標(biāo)引的介入,新型電子文獻(xiàn)出現(xiàn)等情況,形成了更多的可檢索點,比如:文獻(xiàn)類型、文獻(xiàn)屬性、參考文獻(xiàn)、語種、出版年份等檢索點,它們提供了更多的檢索途徑。

2023/2/619四、檢索手段

1.檢索手段的分類2.計算機(jī)檢索的優(yōu)勢3.計算機(jī)檢索系統(tǒng)

2023/2/6201.檢索手段的分類檢索從技術(shù)手段上分有:手工檢索(手檢)和計算機(jī)檢索(機(jī)檢)

2023/2/621手工檢索手工檢索(manualretrieval)使用的多為印刷型或書本型檢索(paper-basedretrieval)

工具,早些有檢索卡片,現(xiàn)在使用最多的是檢索刊,手檢工具能提供的檢索點十分有限,檢索結(jié)果往往不盡人意。

2023/2/622計算機(jī)檢索計算機(jī)檢索(computer-basedretrieval)技術(shù)含量高,它通過數(shù)據(jù)庫系統(tǒng)來實現(xiàn)的。機(jī)檢不僅需要先進(jìn)的技術(shù)設(shè)施,也要求較高的人的文化素質(zhì)。

2023/2/6232、計算機(jī)檢索的優(yōu)勢2、計算機(jī)檢索的優(yōu)勢

計算機(jī)檢索明顯優(yōu)于手工檢索,主要表現(xiàn)為1)檢索的信息量大,2)數(shù)據(jù)更新快,3)檢索功能強(qiáng),4)檢索結(jié)果輸出的多樣性等。

2023/2/6241)檢索的信息量大

且不說大型機(jī)器的海量存貯,一張普通光盤的信息存貯量就達(dá)650M,相當(dāng)與幾十萬頁的書。高密度的光盤可以容納4G以上的信息。計算機(jī)若與全球網(wǎng)絡(luò)相連,就能獲得世界范圍的信息。

2023/2/6252)數(shù)據(jù)更新快計算機(jī)處理與電子傳輸?shù)难杆佟?shù)據(jù)的動態(tài)和即時、及時的更新、檢索的實時性都是手檢工具無法比擬的。但是我們也不能迷信計算機(jī)。有時候計算機(jī)業(yè)會讓我們上當(dāng)。商家常常說“電腦哪會有錯”,坑害顧客。

2023/2/6263)檢索功能強(qiáng)

機(jī)檢系統(tǒng)可提供很多檢索點,對一個檢索點還可以同時取若干個檢索屬性值,從多點交叉切入,有多重限定,有多種組合方式,允許人機(jī)交互,能達(dá)到高效、高精度的檢索效果。并具多庫檢索,多媒體和知識檢索功能。2023/2/6274)檢索結(jié)果輸出的多樣性用戶可以選擇各種輸出形式和輸出格式,比如屏幕顯示、拷貝、下載、打印等都是常用的方式,輸出的內(nèi)容、格式和形式可選擇或自行定義。

總的趨勢是機(jī)檢方將逐步取代手檢方式。當(dāng)前許多經(jīng)典的印刷型工具都有其對應(yīng)的電子數(shù)據(jù)格式、數(shù)據(jù)庫,印刷工具則成了電子數(shù)據(jù)加工輸出的"副產(chǎn)品",許多新生的數(shù)據(jù)庫不再與印刷型工具有緣,僅有其電子版本。

2023/2/6283.計算機(jī)檢索系統(tǒng)

1)信息主體。2)檢索語言。

2023/2/6291)信息主體信息主體。這里指的是文獻(xiàn)全文數(shù)據(jù)庫、文獻(xiàn)書目數(shù)據(jù)庫等。

書目型數(shù)據(jù)庫有字段,記錄,文檔等構(gòu)成。文獻(xiàn)全文數(shù)據(jù)庫還包括文獻(xiàn)的全文(文本型或照片型)2023/2/6302)

檢索語言

檢索語言。語言是一種人們用以交流溝通的重要工具,用于人與人之間的通信活動(communication)。人與計算機(jī)對話,需要有計算機(jī)語言,人與檢索系統(tǒng)對話來實施檢索,則需要有檢索語言(retrievallanguage)。

2023/2/631檢索語言的分類

A)根據(jù)檢索語言不同的特征將檢索語言進(jìn)行分類。

2023/2/632檢索語言的分類

B)按其規(guī)范的情況分類可分為:人工語言

(規(guī)范語言)

自然語言(非規(guī)范語言);

2023/2/633自然語言自然語言有較大的靈活性,使用隨意,專指性強(qiáng),查準(zhǔn)率高。它能及時地反映最新出現(xiàn)的詞匯,反映規(guī)范詞難于表達(dá)的特定概念或新概念。在全文檢索中自然語言獨領(lǐng)風(fēng)騷。大容量、高速、高性能的計算機(jī)檢索系統(tǒng)的自動標(biāo)引,使得自由詞的全文檢索,即自由文本檢索(free-textsearch)占的比例越來越高。自然語言的缺點是由于它不規(guī)范,缺乏對詞匯的控制能力,也無法指示概念之間的關(guān)系,影響到檢索效率。

2023/2/634人工語言人工語言(規(guī)范語言)(artificiallanguage,controlledlanguage)。人工語言的規(guī)范處理重在兩個方面:一是使一個概念只用一個詞匯來表達(dá),這樣就避免了多詞一義的情況;二是使一個標(biāo)引詞只能表達(dá)一個概念,這樣就排除了一詞多義現(xiàn)象。

2023/2/635檢索語言

在實際檢索中,檢索詞的選擇是個復(fù)雜的問題,必須考慮表達(dá)概念的準(zhǔn)確與完善,通常是規(guī)范語言和非規(guī)范語言交混使用來滿足各種不同的需要。

2023/2/636五、檢索效果

檢索效果(retrievaleffectiveness)的評價指標(biāo)有6項,包括:收錄范圍查全率查準(zhǔn)率響應(yīng)時間用戶負(fù)擔(dān)輸出形式。其中兩個主要的衡量指標(biāo)是查全率(Recallratio)和查準(zhǔn)率(precisionratio),分別用R和P大寫字母表示。

2023/2/637檢索效果2023/2/638檢索效果2023/2/639檢索效果一系列的實驗結(jié)果表明查全率與查準(zhǔn)率之間存在互逆關(guān)系。即查全率高時,查準(zhǔn)率較低,反之亦然。R和P各自的最佳狀態(tài)是逼近100%,魚和熊掌不可得兼。

2023/2/640檢索效果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論