




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第二章 計算機檢索基礎(chǔ)一、 計算機檢索概述(一)概論1、計算機檢索的意義我們已步入信息社會,傳統(tǒng)的手工檢索方法很難從大量的文獻中及時難確地獲取所需的資料,無法信息滿足時代的需求有一種速度快、效果好的自動檢索方法。隨著微電子技術(shù)、計算機技術(shù)和通訊技術(shù)的飛速發(fā)展,計算機文獻檢索成為當(dāng)今人們查找信息的最主要方式。它能夠跨越時空,在短時間內(nèi)查閱不同的大型數(shù)據(jù)庫,還能快速地對幾十年前的文獻資料進行回溯檢索,而且大多數(shù)的聯(lián)機檢索系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)更新速度非???,檢索者隨時可以得到更新的文獻信息,具有手工檢索不可比擬的優(yōu)勢:(1)速度快、效率高,僅幾分鐘就可以從成千上萬條記錄中找出所需信息;(2)檢索范圍廣
2、,可以迅速而方便地瀏覽相關(guān)學(xué)科或主題的所有數(shù)據(jù)庫中的記錄,在網(wǎng)絡(luò)中,幾乎每一臺個人計算機都可以成為信息源;(3)檢索不受時空的限制,只要擁有相應(yīng)的軟件和硬件設(shè)備,就可以在任何地方借助光盤和通信網(wǎng)絡(luò)查詢所需信息;(4)由于數(shù)據(jù)更新快,可以及時獲得最新信息;(5)檢索輔助功能完善,使用方便,檢索軟件可采用菜單驅(qū)動,幾乎所有檢索系統(tǒng)都有查詢服務(wù)或提供操作演示盤,界面友好的程度在不斷提高,檢索結(jié)果的輸出方式豐富多樣,并可以按要求做排序、統(tǒng)計、繪圖等加工。 1993年9月,美國克林頓政府宣布推出“信息高速公路”計劃以來,在全球范圍內(nèi)掀起了一股“信息高速公路”熱潮。信息高速公路“是一個能給用戶提供大量信息
3、的、由通信網(wǎng)絡(luò)、計算機、數(shù)據(jù)庫以及日用電子產(chǎn)品組成的完備網(wǎng)絡(luò)”也就是計算機、光導(dǎo)纖維和其他通信設(shè)備組成的聯(lián)接千家萬戶的通信網(wǎng)絡(luò)。隨著信息高速公路的建立,原來的時空概念將被徹底打破,人們可以坐在辦公室或家里查找圖書館的文獻信息,了解某學(xué)科領(lǐng)域在世界上的發(fā)展水平及動向,查找所需的文獻資料。計算機檢索是今后文獻檢索的發(fā)展方向和主要手段。隨著信息高速公路的建立,計算機檢索將在全球范圍內(nèi)得到普及。掌握計算機文獻檢索枝術(shù)是大學(xué)生和現(xiàn)代科技工作者必須具備的基本技能之一。2、計算機檢索的發(fā)展概況 計算機文獻檢索經(jīng)歷了批量處理、聯(lián)機檢索與網(wǎng)絡(luò)系統(tǒng)三個階段。 1954年,美國海軍武器試驗站圖書館在一臺電子管計算機
4、上建立了世界上第一個計算機情報檢索系統(tǒng),存入 14000篇文獻。 50年代末,IBM公司利用一臺第二代計算機(IB一650)成功地編制出關(guān)鍵詞索引,并建立了世界上第一個“定題情報檢索”系統(tǒng),為用戶定期檢索和提供一定主題的新到文獻,并很快得到了推廣應(yīng)用。 進入60年代,計算機情報檢索進入了實用和全面發(fā)展階段。60年代末,大容量計算機分時系統(tǒng)和強功能檢索軟件研制成功,使脫機檢索發(fā)展到聯(lián)機檢索。70年代初,隨著通信技術(shù)的發(fā)展,出現(xiàn)了數(shù)據(jù)通信網(wǎng)絡(luò),通信線路費用降低,使得聯(lián)機情報檢索系統(tǒng)在美國迅速地得到了推廣。隨后,衛(wèi)星通信用于計算機網(wǎng)絡(luò),世界各大計算機情報檢索系統(tǒng)紛紛進入通信網(wǎng)絡(luò),從而形成了國際聯(lián)機情
5、報檢索。西歐一些國家也于6O年代開始著手計算機文獻檢索的研制與發(fā)展工作。70年代后,這些國家也逐漸把計算機文獻批量處理系統(tǒng)改成了聯(lián)機系統(tǒng)。 目前,發(fā)達國家的一些計算機情報聯(lián)機檢索系統(tǒng),通過衛(wèi)星通訊網(wǎng)絡(luò)和計算機專用終端,在世界范圍內(nèi)提供聯(lián)機情報檢索服務(wù)?,F(xiàn)在全球已有數(shù)百個聯(lián)機檢索系統(tǒng),其中擁有情報數(shù)據(jù)庫最多、聯(lián)機檢索業(yè)務(wù)最廣泛的聯(lián)機情報檢索系統(tǒng)有美國的 DIALOG系統(tǒng)、ORBIT系統(tǒng)、BRS系統(tǒng)、歐洲的ESAIRS系統(tǒng)和STN系統(tǒng)等。我國的計算機檢索雖然起步較晚,但發(fā)展速度很快。我國從70年代起著手進行計算機情報檢索的研究,并積極開展國際聯(lián)機檢索服務(wù)。1975年起,國防科工委情報所和機械工業(yè)部
6、情報所等單位先后引進國外數(shù)據(jù)庫,開展定題服務(wù)。1980年,中國建筑科學(xué)院情報所等15個單位聯(lián)合租用香港數(shù)據(jù)終端,連接國際通信衛(wèi)星至美國的網(wǎng)絡(luò)系統(tǒng)聯(lián)機檢索,檢索結(jié)果從香港寄回北京。1981年,先后在北京、上海、廣州、西安、武漢、沈陽等30個城市建立了近80個遠程終端,通過國際通訊網(wǎng)與歐美11個大型聯(lián)機檢索系統(tǒng)聯(lián)機。此外,還先后引進數(shù)據(jù)庫65種,引進光盤數(shù)據(jù)庫40余種,自建數(shù)據(jù)庫260多個。我國還自行開發(fā)了一批計算機檢索系統(tǒng)。(二)計算機檢索系統(tǒng)簡介計算機檢索是指通過檢索系統(tǒng),采用一定的技術(shù)手段,根據(jù)一定的準則,在數(shù)據(jù)庫或其他形式的網(wǎng)絡(luò)信息資源中自動找出用戶所需相關(guān)信息。計算機檢索流程如圖所示:計
7、算機檢索系統(tǒng)的物理構(gòu)成:硬件、軟件、數(shù)據(jù)庫三部分。1、 計算機硬件主要包括具有一定性能的主機、外部設(shè)備以及與數(shù)據(jù)處理或數(shù)據(jù)傳送有關(guān)的其他設(shè)備。主機,是計算機檢索系統(tǒng)的中樞,要求其配置具有較強的邏輯運算能力,較快的響應(yīng)速度和較大的存儲容量,能處理大量的文獻,聯(lián)機檢索系統(tǒng)的主機還必須具有多道程序處理和分時處理等更強的功能。外部設(shè)備包括:外部存儲器、輸入輸出設(shè)備等。輸入輸出設(shè)備包括各種必要的數(shù)據(jù)錄入裝置,如鍵盤、光筆、鼠標(biāo)器、光學(xué)字符識別器裝置、語音或圖像輸入裝置、顯示終端、打印機、繪圖機、輸出設(shè)備等。2、 計算機軟件分為系統(tǒng)軟件和應(yīng)用軟件。系統(tǒng)軟件包括:操作系統(tǒng)、編譯程序與匯編程序、診斷程序等。應(yīng)
8、用軟件包括:數(shù)據(jù)庫管理系統(tǒng)、建庫程序、數(shù)據(jù)輸入輸出程序、自動標(biāo)引程序、文件管理系統(tǒng)程序等。3、數(shù)據(jù)庫數(shù)據(jù)庫是計算機閱讀的信息集合。至少由一種文檔組成,并能滿足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)。(用手工方式把大量的原始文獻或數(shù)據(jù)進行加工,包括分析文獻主題后寫出文獻摘要或題錄,主題詞、分類號和文獻的其它特征等等,再把這些經(jīng)過“前處理”的數(shù)據(jù)按一定格式輸入計算機存貯起來,計算機在程序的控制下對數(shù)據(jù)進行處理,形成機讀數(shù)據(jù)庫(database)或者各種文獻資料檔,存貯在磁帶或磁盤上,完成文獻的加工存貯過程。計算機在存貯文獻后,就可接受檢索人員的查找。)計算機檢索的對象一般是文獻信息數(shù)據(jù)庫。按照不同的劃
9、分標(biāo)準,數(shù)據(jù)庫可分成不同的類型。國際上通常根據(jù)數(shù)據(jù)庫內(nèi)容將數(shù)據(jù)庫劃分成三大類,即參考數(shù)據(jù)庫(Reference Database)、源數(shù)據(jù)庫(Source Database)和混合數(shù)據(jù)庫(Mixed Database)。另一種劃分數(shù)據(jù)庫的實用方法是分為文獻信息數(shù)據(jù)庫與非文獻信息數(shù)據(jù)庫兩大類。如下圖所示數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù)庫是由文獻信息記錄(Record)構(gòu)筑而成,因此文獻記錄是數(shù)據(jù)庫的基本單元。每條記錄又都表達了一篇原始文獻信息的內(nèi)容特征和外表特征。數(shù)據(jù)庫的結(jié)構(gòu)就是根據(jù)這些特征而建立的。不同的類型、內(nèi)容的數(shù)據(jù)庫,它們的文獻信息記錄標(biāo)引的內(nèi)容和形式有很大的差別,即數(shù)據(jù)庫結(jié)構(gòu)就有很大的差異。盡管如此,文
10、獻信息記錄基本上都由三個部分組成:存取號,基本索引字段,輔助索引字段。所謂“數(shù)據(jù)庫結(jié)構(gòu)”,就是關(guān)于這些存取號和字段的定名(代碼)和說明。我們進行計算機檢索的目的,就是從海量的數(shù)據(jù)庫記錄中,找出我們需要的文檔信息。(三)計算機檢索的分類1、光盤檢索系統(tǒng)² 構(gòu)成:聯(lián)機光盤檢索系統(tǒng)由若干臺微機、光盤驅(qū)動器、光盤服務(wù)器、光盤數(shù)據(jù)庫、檢索系統(tǒng)軟件、管理系統(tǒng)軟件構(gòu)成。² 光盤檢索系統(tǒng)的特點:(1)由于存儲介質(zhì)和空間的限制,多以二次文獻(文摘、索引)為主。(2)數(shù)據(jù)庫系統(tǒng)建立在用戶方,出版商必須寄送光盤給用戶,因此更新速度慢。一般為月更新或季更新。這方面不如聯(lián)機數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫,后兩者
11、的數(shù)據(jù)庫更新可以隨時進行,頻率通常為日更新和周更新。(3)與網(wǎng)絡(luò)數(shù)據(jù)庫檢索相比,數(shù)據(jù)庫和系統(tǒng)集中式管理,負擔(dān)重,數(shù)據(jù)庫用戶越多,響應(yīng)時間越長。(4)檢索模式:以客戶端/ 服務(wù)器方式為主,客戶方在微機上運作,這種檢索模式與聯(lián)機數(shù)據(jù)庫相比,檢索效率提高了很多。(5)信息組織模式:普通線性文本。(6)檢索機制:檢索功能強,索引多,不同的檢索系統(tǒng)使用不同的檢索命令,具備命令檢索和菜單檢索兩種方式,后者對非專業(yè)人員來說,易學(xué)易用。(7)系統(tǒng)訪問通過局域網(wǎng)就可以進行,不受大的網(wǎng)絡(luò)環(huán)境影響。不需支付網(wǎng)絡(luò)通信費用。(8)檢索環(huán)境寬松,不存在聯(lián)機檢索的通信費、機時費、數(shù)據(jù)費,檢索費用低。(9)用戶界面比較友好,
12、較為直觀。2、聯(lián)機檢索系統(tǒng)檢索終端通過通信線路與系統(tǒng)的主機連接,在中央處理機控制下查詢系統(tǒng)的幾十個甚至上百個數(shù)據(jù)庫,并能夠與系統(tǒng)實時對話,隨時調(diào)整檢索策略。² 聯(lián)機檢索構(gòu)成聯(lián)機系統(tǒng)由聯(lián)機檢索中心、通信設(shè)施、檢索終端三部分組成。聯(lián)機檢索中心是該系統(tǒng)的中樞部分,主要包括中央計算機(硬件)、數(shù)據(jù)庫、系統(tǒng)檢索軟件等部分。中央計算機又稱為“主機”,其功能是在系統(tǒng)和檢索軟件支持下完成對信息的存儲、處理和檢索。通信設(shè)施由通信網(wǎng)(電話網(wǎng),專用數(shù)據(jù)庫網(wǎng))、調(diào)制解調(diào)器及其他通信設(shè)備組成。終端則可以使用傳統(tǒng)的終端機或個人計算機。 ² 聯(lián)機檢索系統(tǒng)特點:(1)數(shù)據(jù)庫數(shù)量多,信息量大內(nèi)容豐富。以DI
13、ALOG系統(tǒng)為例,目前已有數(shù)據(jù)庫300多個,記錄3億多條,內(nèi)容廣泛,涉及自然科學(xué)、入文及社會科學(xué)多個領(lǐng)域。檢索時可以一次檢索多個數(shù)據(jù)庫,檢索范圍廣泛全面。(2)數(shù)據(jù)庫更新快,每日可隨時進行更新,很容易檢索到最新文獻。(3)數(shù)據(jù)庫和系統(tǒng)集中式管理,安全性好,可以在存儲設(shè)備上直接處理大量數(shù)據(jù),但主機的負擔(dān)重,網(wǎng)絡(luò)擴展性差。(4)檢索模式:主仆式,即所有的工作都在主機上進行,一旦主機癱瘓,所有系統(tǒng)都處于癱瘓狀態(tài),因此對主機的性能要求極高。(5)信息組織模式:普通線性文本,包括:按照文檔號組成的順排文檔;按照記錄的特征標(biāo)識(如題名、作者等)組成的倒排文檔。(6)檢索機制:檢索功能強,索引多,途徑多,所
14、有的數(shù)據(jù)庫使用統(tǒng)一的命令檢索,因此可以同時保證查全、查準。檢索效率和檢索質(zhì)量高。但系統(tǒng)要求必須使用統(tǒng)一的檢索命令,用戶必須記住各類檢索指令并且能夠靈活綜合運用,因此必須由專業(yè)人員檢索。這種檢索機制不利于在網(wǎng)絡(luò)環(huán)境下擴展為大規(guī)模的使用。(7)檢索費用高,每下載一條記錄都要支付相關(guān)費用,包括記錄的顯示或打印費、字符費、機時費、通信費(由于系統(tǒng)連接需通過通信線路如電話或網(wǎng)絡(luò)進行,需支付高額通信費用),檢索時必須快速進行,一般用戶因此望而卻步,不敢使用。(8)檢索界面單一,過于呆板。自20世紀70年代以來,聯(lián)機數(shù)據(jù)庫檢索系統(tǒng)發(fā)展異常迅速,盛極時曾有DIALOG、STN、LEXISNEXIS、ORBIT
15、等多個大型檢索系統(tǒng),為用戶提供了高質(zhì)量、遠勝于傳統(tǒng)手工查詢的信息服務(wù),幾乎每個圖書館或信息服務(wù)機構(gòu)、中大型公司里都有專門進行聯(lián)機檢索、為用戶或本機構(gòu)決策提供信息服務(wù)的檢索專家。但進入80年代末、90年代初以后,互聯(lián)網(wǎng)的迅速發(fā)展,導(dǎo)致越來越多的用戶在網(wǎng)上自行尋找自己所需的信息,而聯(lián)機檢索由于對檢索人員的要求高、費用貴等原因,開始進入衰退時代,幾家著名的聯(lián)機檢索公司逐漸被并購或倒閉,僅存的DIALOG公司、LEXISNEXIS公司等,被并購后仍保留了原有的系統(tǒng)名稱和品牌,但也相繼推出了基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)檢索機制,以提供普通檢索用戶使用。目前,聯(lián)機檢索的方式雖然仍然存在,光盤檢索、網(wǎng)絡(luò)檢索相比。用戶量
16、較少且大部分使用者仍然是檢索專家。3、網(wǎng)絡(luò)數(shù)據(jù)庫檢索通過網(wǎng)絡(luò)接口軟件,用戶可在任意終端查詢各地網(wǎng)上信息資源。網(wǎng)絡(luò)檢索是一種廣義的聯(lián)機檢索,如使用遠程登錄(Telnet),通過Internet連接用戶所指定的遠程計算機,共享該主機上的資源。² 分布式存儲的網(wǎng)絡(luò)數(shù)據(jù)庫分布式存儲,即不同的數(shù)據(jù)庫分散在不同的數(shù)據(jù)庫生產(chǎn)者的服務(wù)器上;網(wǎng)絡(luò)數(shù)據(jù)庫檢索為用戶分布式檢索,即用戶在任何地方的終端都可以訪問并存儲數(shù)據(jù);網(wǎng)絡(luò)數(shù)據(jù)庫的數(shù)據(jù)可進行分布式處理,即任何數(shù)據(jù)都可以在網(wǎng)上的任何地點進行處理。² 網(wǎng)絡(luò)數(shù)據(jù)庫的特點(1) 數(shù)據(jù)庫分布式存儲,且多存放在硬盤上,因此數(shù)量多,信息量大。同時由于超文本語
17、言和超文本傳輸協(xié)議的作用,提供了大量相關(guān)資源的鏈接,使資源內(nèi)容更加豐富。(2) 數(shù)據(jù)庫內(nèi)容形式向多媒體化發(fā)展,不僅有文本,還有大量圖像、動畫、聲音等,給用戶提供了更為直觀的服務(wù)。(3) 數(shù)據(jù)庫更新速度快,一般為日更新。(4) 數(shù)據(jù)庫和系統(tǒng)分布式管理,響應(yīng)速度快。(5) 檢索模式:以客戶端網(wǎng)關(guān)服務(wù)器服務(wù)器方式為主,客戶方在微機上運作,分析從服務(wù)器上返回的數(shù)據(jù),給用戶顯示信息;服務(wù)方則給用戶提供客戶端應(yīng)用程序,通過網(wǎng)關(guān)分析處理各類請求,并提供數(shù)據(jù)服務(wù),提高了檢索效率。(6) 應(yīng)用程序與數(shù)據(jù)隔離,數(shù)據(jù)相對獨立、完整、安全性好;但對客戶方來說,由于訪問是通過互聯(lián)網(wǎng)進行的,安全性較差。(7) 信息組織模
18、式:非線性化,超文本形式,因此可以從某一資源點上快速、直接地指向相關(guān)資源鏈接點。(8) 檢索機制:檢索功能強,索引多,多數(shù)通過WWW瀏覽器提供檢索,對非專業(yè)人員來說,易學(xué)易用。缺點是,不同的數(shù)據(jù)庫使用的檢索系統(tǒng)不同,檢索命令也不盡相同,用戶需學(xué)習(xí)檢索系統(tǒng)的使用。(9) 系統(tǒng)訪問通過互聯(lián)網(wǎng)進行,在網(wǎng)絡(luò)條件不發(fā)達地區(qū),用戶需支付通信費用。(10)檢索環(huán)境寬松,檢索費用較聯(lián)機檢索低很多。但由于數(shù)據(jù)庫開發(fā)費用較高,價格較高,因此總體費用高于光盤檢索。(11) 用戶界面多基于WWW瀏覽器開發(fā),方便友好。² 數(shù)據(jù)庫的選擇原則面對圖書館提供的大量數(shù)據(jù)庫,讀者應(yīng)了解自己可使用的數(shù)據(jù)庫資源;了解所在的
19、學(xué)科應(yīng)該有哪些資源。在檢索文獻選擇數(shù)據(jù)庫時,應(yīng)考慮到內(nèi)容、范圍、時效和費用等四方面因素(國際上稱之為“4C”原則),(1)內(nèi)容(Content)。從主題內(nèi)容(即收錄的學(xué)科領(lǐng)域)、數(shù)據(jù)來源(來自于新聞、專利、期刊論文等中的某一類),記錄內(nèi)容,記錄中的數(shù)據(jù)類型(全文、文摘、數(shù)值數(shù)據(jù)),內(nèi)容的技術(shù)含量(即是屬于科普性質(zhì)還是屬于該領(lǐng)域的最新科學(xué)研究)等方面來考慮。(2)范圍(Coverage)。從數(shù)據(jù)庫的規(guī)模(即記錄量,記錄的起訖年代)及涵蓋地理范圍(是涉及某一個國家的文獻還是世界范圍的文獻、收錄期刊的種類和文獻的數(shù)量、公司的類型等)來考慮。(3)時效(Currency)。從數(shù)據(jù)庫的更新頻率與印刷出版
20、物的時差來考慮。(4)費用(Cost)。選擇費用最合適的資源。如美國 DIALOG 系統(tǒng)收費包括聯(lián)機時間費和記錄的輸出費用兩部分。依數(shù)據(jù)庫的質(zhì)量,其聯(lián)機時間費用從$0.255/min 不等,每一條記錄的輸出費用從$0.1 到$85 不等。利用我校的校園網(wǎng),使用圖書館購置的數(shù)據(jù)庫是完全免費的。4、視頻數(shù)據(jù)檢索亦稱電視信息查詢,是數(shù)字通信、電視和計算機相結(jié)合的產(chǎn)物。用戶將顯示器或改裝過的電視機作為終端,直接接受電視中心播放的信息或與視頻系統(tǒng)的數(shù)據(jù)庫進行聯(lián)機對話。這種檢索又分為兩種,一種是廣播式(teletex或teletext),即利用電視廣播網(wǎng)循環(huán)傳送專門的信息頁,用圖文電視接收機即可接收和檢索
21、所需的信息畫面,該系統(tǒng)又稱圖文電視;另一種是交互式的(videotex或videodata),用戶可以與中心雙向?qū)υ?,通過視頻(數(shù)據(jù)頁)查詢系統(tǒng)的數(shù)據(jù)庫。近年來,我國許多單位接通了以videotex技術(shù)為主的國際聯(lián)機檢索系統(tǒng),其中許多是以提供經(jīng)濟領(lǐng)域的最新信息為主的系統(tǒng),如英國路透社的系統(tǒng)、美國道.瓊斯公司的Dow Jones Bankers Report以及Financial Broadcast Service系統(tǒng)等。江蘇的圖文電視也為企業(yè)開設(shè)了四個專業(yè)經(jīng)濟信息網(wǎng)江蘇綜合經(jīng)濟信息網(wǎng)、國際期貨信息網(wǎng)、物質(zhì)供求信息網(wǎng)和化工商情信息網(wǎng)。二、計算機檢索技術(shù)(一)布爾邏輯檢索布爾邏輯檢索是當(dāng)今檢索理論
22、中最成熟的理論之一,也是構(gòu)造檢索表達式最基本、最簡單的匹配模式。布爾邏輯檢索是通過布爾邏輯算符來實現(xiàn)的,這些算符能把一些簡單的檢索詞組配成一個復(fù)雜的檢索式,以表達用戶的檢索需求。布爾邏輯算符有四種:邏輯或(OR)、邏輯與(AND)和邏輯非(NOT)和邏輯異或,它們分別表示不同的邏輯思想。1、邏輯或(OR)可用“”表示,是一種用于并列關(guān)系的組配,它可以擴大檢索范圍,防止漏檢,有利于提高查全率。如“A OR B”,則表示在一篇文獻記錄中只要含有 A 和 B 中的任何一個即算命中。2、邏輯與(AND)可用“*”表示,是一種用于交叉概念和限定關(guān)系的組配,它可以縮小檢索范圍,有利于提高查準率。如“A A
23、ND B”,即表示被檢索的文獻記錄中必須同時含有 A和 B才算命中。推而廣之,凡是使用AND的檢索式,AND兩側(cè)的檢索詞必須同時出現(xiàn)在同一篇文獻記錄中,該篇文獻才算命中。3、邏輯非(NOT)可用“”表示,是一種排斥關(guān)系的組配,排斥關(guān)系組配用來從原來的檢索范圍中排除不需要的概念或影響檢索結(jié)果的概念。如“A NOT B”則表示從含有 A 的文獻中去掉其中也含有 B 的文獻記錄。4、邏輯異或(XOR)XOR是Exclusive OR 的縮寫,表示“命中信息中包含A、也包含B,但不包含同時含有A和B的信息”嚴格地講,XOR邏輯不屬于布爾邏輯,只能說是數(shù)理邏輯中的一類,但在情報檢索及其它一些應(yīng)用中,XO
24、R被劃歸在布爾類的運算中。不過XOR運算可以通過OR、AND、NOT等運算來實現(xiàn)。布爾邏輯算符關(guān)系圖:在不同的檢索系統(tǒng)里,布爾邏輯的運算次序有所不同。布爾運算次序一般為:² 有(),先內(nèi)后外;² 無(),邏輯算符的優(yōu)先順序NOT,AND,OR;² 同級從左向右。對于同一個布爾邏輯提問式來說,不同的運算順序會有不同的檢索結(jié)果。(二)截詞檢索 截詞檢索是預(yù)防漏檢提高查全率的一種常用檢索技術(shù),截詞是指在檢索詞合適的位置進行截斷,然后使用截詞符進行處理,可節(jié)省輸入的字符,又可達到較高的查全率。尤其在英語等西方語言中,常常有詞語單、復(fù)數(shù)表示形式不同、英美拼寫方式不同、詞根相
25、同、含義相近而詞尾形式不同等情況,為使檢索時不遺漏相關(guān)詞,提高檢索效率,一般信息檢索系統(tǒng)都發(fā)展了截詞技術(shù)。截詞符“*,?,$,#,!”(表示截斷一個詞所用的截斷符號,各情報檢索系統(tǒng)有不同的規(guī)定)加在檢索詞的詞干或不完整詞形上,使詞的意義完整以便進行檢索。其實質(zhì)是利用計算機特有的指定位置對比判斷功能進行“類比匹配”。截詞檢索技術(shù)主要是針對由于近義詞、同一詞根、單復(fù)數(shù)等詞匯的變化,為防止對檢索詞列舉不全而形成漏檢現(xiàn)象而提出來的,它實際上是布爾邏輯“OR”功能的擴展。v截詞檢索根據(jù)截斷的字符數(shù)量劃分為:有限截詞無限截詞;根據(jù)詞的截斷位置劃分為:前截斷、后截斷、中截斷。通用截詞符:“?,*”一般用“*
26、”表示無限截斷,用“?”表示有限截斷。1、后截斷是最常用的截詞檢索技術(shù)。將截詞符號置放在一個字符串右方,允許檢索詞后有若干變化,以表示其右的有限或無限個字符不影響該字符串的檢索。這種方式稱為檢索詞的后截斷。從檢索性質(zhì)上講,后截斷是前方一致檢索。如后截斷檢索式comput*,將檢索出包含 computer,computing 等詞匯的結(jié)果。2、前截斷與后截斷相對,前截斷是將截詞符號置放在一個字符串左方,以表示其左的有限或無限個字符不影響該字符串的檢索。這種方式稱為檢索詞的前截斷。從檢索性質(zhì)上講,前截斷是后方一致檢索。用前截斷進行一個學(xué)科的不同應(yīng)用領(lǐng)域的檢索是很方便的。前截斷是一種極為有用的技巧,
27、目前僅有少數(shù)聯(lián)機系統(tǒng)(如ORBIT系統(tǒng))允許使用前截斷檢索,這主要是由于詞典存貯方式的限制。3、 中截斷這種截斷是把截斷符號置放在一個檢索詞的中間,而不是左右兩側(cè)。中截斷僅允許有限裁斷。英語中有些單詞的拼寫方式有英式、美式之分,有些詞則在某個元音位置上出現(xiàn)單復(fù)數(shù)不同。如: 為了在文獻檢索時不漏檢,使用這類詞進行檢索時,用中截斷檢索技術(shù):organi?ationdefen?em?n(三)位置算符用來標(biāo)識檢索詞組中詞與詞之間的位置關(guān)系,以提高查準率。位置檢索是用于多個單詞之間的位置比較運算,只有當(dāng)記錄中單詞之間的位置關(guān)系符合檢索式的要求時,才算是命中文獻。位置關(guān)系包括詞距和詞序兩個方面:詞距指的是
28、兩個單詞之間的間隔距離,即相隔多少個單詞;詞序指的是兩個單詞之間的先后詞序,即哪個在先,哪個在后。位置檢索是一種允許有一定范圍變化的相似性比較運算,在全文檢索和自由文本檢索中具有重要的作用。由于布爾邏輯運算符不能確定檢索詞的相對位置關(guān)系,對許多檢索課題不能滿足要求,所以在一些先進的檢索系統(tǒng)中,為了彌補有些提問式難以用邏輯算符準確表達提問要求的缺陷,避免誤檢,許多檢索系統(tǒng)發(fā)展了位置檢索技術(shù)。在不同的檢索系統(tǒng)中位置算符的種類和表達形式不完全相同,使用位置檢索技術(shù)時,注意所利用系統(tǒng)的使用規(guī)則。這里以著名的 Dialog系統(tǒng)常用的位置算符為例,說明其檢索技術(shù)如下:1、(W)和(nW)算符Wwith 的
29、縮寫。(W)( W=1 時,可簡寫為“()”) 表示在(W)算符必須緊挨著,且詞序不可顛倒,中間也不可以插入其他的詞或字母,但允許有一個空格或標(biāo)點符號; (nW)中的 n 表示兩檢索詞中間允許插入的單詞數(shù)目少于或等于 n (n=1,2,3)個。(nW)算符的主要作用是用來替代檢索式中出現(xiàn)的 the,of 等禁用詞,但算符兩側(cè)檢索詞的詞序不能顛倒。如:“building(W)construction”檢索命中的記錄中將有:“building construction”或 “building-construction”等形式?!癰uilding(1W)construction”在命中的記錄中除以上
30、形式外,還可能會有“building and construction”,“building under construction”等形式。2、(N) 和(nN)算符N是near的縮寫。(N)表示在(N)算符兩側(cè)的兩個檢索詞相鄰,順序可以互換,但兩詞間不允許插詞。(nN)表示在(nN)兩側(cè)的兩個檢索詞相鄰,順序可以互換,允許插詞量少于或等于n個。3、(F)和(S)算符(F)是Field 的縮寫。兩個檢索詞必須出現(xiàn)在同一標(biāo)引字段中。如:標(biāo)題詞字段、敘詞字段、文摘字段等。它們之間的順序不限,夾在其中的其他詞數(shù)量也不限。(S)是SAME的縮寫。(S)算符表示其兩側(cè)的檢索詞(或檢索項)必須同時出現(xiàn)在文
31、獻記錄的同一子字段(即同一個短語、句子、段落)內(nèi),詞序不限,中間可插入任意數(shù)量的詞,此字段通常由數(shù)據(jù)庫確定。位置算符的執(zhí)行順序為(W) 或(nW)、(N) 或(nN)、(S)、(F),如有括號,則優(yōu)先執(zhí)行括號內(nèi)的位置算符。(四)限制檢索限制檢索是對檢索詞范圍(時間、國別、語種、信息類型等)進行約束或壓縮的方法,它大多通過檢索系統(tǒng)的限制符號或限制命令來實現(xiàn)。限制檢索主要有以下幾種方式:1、 字段限制針對特定年代、特定類別、特定檢索點等做限制,主要分為兩種類型2、 二次檢索檢索結(jié)果中再檢索,或稱為進階檢索。有三種方式:重新查詢、在結(jié)果中再查、在結(jié)果中去除。三、計算機檢索步驟1、分析檢索課題,明確檢
32、索目標(biāo)² 明確檢索目的,以便用戶對信息檢索的查新、查準、查全和檢索速度的指標(biāo)要求有一個大致了解,從而制定出符合實際情況的檢索策略;² 分析所需檢索的主題概念和各個子概念之間的內(nèi)在關(guān)系;² 確定檢索所要涉及的學(xué)科范圍;² 確定需求文獻的語種、年代范圍及類型是期刊論文、會議論文、專利等。檢索策略:為實現(xiàn)檢索目標(biāo)而制訂的全盤計劃或方案,指導(dǎo)整個檢索過程。幾乎包括了全部檢索有關(guān)的基本知識的應(yīng)用。檢索策略,就是在分析課題內(nèi)容具有哪些概念單元的基礎(chǔ)上,確定檢索系統(tǒng)、檢索文檔、檢索途徑和檢索詞,并科學(xué)安排各檢索詞之間的位置關(guān)系和邏輯關(guān)系以及查找步驟等。檢索策略考慮得是否周全,直接影響文獻的查全率和查準率。2、選用檢索工具和檢索系統(tǒng)當(dāng)檢索課題明確以后,就要選擇與課題相符、質(zhì)量較高、檢索手段比較完善的檢索工具或系統(tǒng)。檢索時,一般既要選擇專業(yè)性檢索工具,也要考慮綜合性檢索工具,一般對檢索工具的要求是:收錄文獻資料的專業(yè)廣、類型齊全、數(shù)量大、報道速度快、文摘詳細,并附有各種索引。綜合使用各種檢索工具,以獲得滿意的查全率。3、選擇檢索詞(入口),構(gòu)造檢索表達式根據(jù)所需信息的內(nèi)部和外部特征線索確定檢索詞,構(gòu)造檢索表達式。(1)內(nèi)部特征分類號、主題詞、關(guān)鍵詞等;(2)外部特征著者名、題名、機構(gòu)名、代碼、信息源類型等;(3)檢索詞是構(gòu)成檢索式的基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 不同文化中的文學(xué)表達試題及答案
- 普通邏輯考試中需掌握的技能試題及答案
- 漢語語言的認知與理解能力試題及答案
- 新聞與文學(xué)的敘事方式比較試題及答案
- 文學(xué)與哲學(xué)的交匯之處試題及答案
- 現(xiàn)代漢語考試輕松應(yīng)對試題及答案
- 網(wǎng)絡(luò)管理工具的使用技巧試題及答案
- 2025年邏輯考試挑戰(zhàn)與應(yīng)對策略試題及答案
- 2025年計算機一級MSExcel重要公式試題及答案
- 關(guān)鍵思維中的邏輯分析試題及答案
- 2024年小學(xué)科學(xué)教師專業(yè)考試試題及答案(三套)
- 雜交育種與誘變育種
- 企業(yè)退休人員管理制度
- 請老師授課協(xié)議書范本模板
- TTJSFB 002-2024 綠色融資租賃項目評價指南
- 2024年江蘇省鎮(zhèn)江市中考化學(xué)試卷(含答案解析)
- 黃金卷06(解析版)-【贏在高考·黃金8卷】備戰(zhàn)2024年高考生物模擬卷(河北專用)
- 中國高血壓防治指南(2024年修訂版)核心要點解讀
- 2024年江蘇省南京玄武區(qū)八下英語期末考試試題含答案
- 2024-2030年中國桑蠶絲市場消費需求潛力與前景競爭優(yōu)勢分析研究報告
- 汛期安全隱患重點排查清單
評論
0/150
提交評論