




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、整合檢索系統(tǒng)發(fā)展概述TheDevelopmentofUnifiedRetrievalSystemsXiaCuijun(GuangdongUniversityofForeignStudiesLibrary,Guangzhou,Guangdong,510420):Thispapermainlyintroducesthedevelopmentofunifiedretrievalsystem.Then,theauthoranalysestwokindsofunifiedretrievalsystem:searchinjust-in-casemetadatacentralindexes,andjust-
2、in-timesearchincross-databaseresourcesthatarenotindexed.Finallytheauthorintroducesdiscoverysystemandunifiedresourcemanagement.CLCnumber:G254.92Documentcode:AArticleID:1003-6938(2011)05-0025-04整合檢索由最初的“Google-like”一站式檢索圖書館電子資源發(fā)展到強力存取圖書館各種資源(物理館藏和虛擬館藏)的探索發(fā)現(xiàn)系統(tǒng),更進一步提出以統(tǒng)一資源管理平臺管理圖書館的各種資源。系統(tǒng)開發(fā)商積極開發(fā)新功能組件的系
3、統(tǒng),圖書館面臨更多的選擇,也有了更多思考。本文試圖通過梳理整合檢索系統(tǒng)的發(fā)展脈絡,引發(fā)圖書館思考如何讓讀者利用整合檢索成更加方便、快捷的獲取所需信息資源,并以整合檢索系統(tǒng)為新的信息服務起點做好信息服務工作。1整合檢索系統(tǒng)的興起面對復雜多元的網(wǎng)絡信息環(huán)境,圖書館與數(shù)據(jù)庫商、系統(tǒng)服務商等都在努力開發(fā)可以像Google一樣一站式檢索圖書館各種信息資源的工具一一整合檢索系統(tǒng)。整合檢索并不是近幾年出現(xiàn)的新概念,上世紀70年代開始發(fā)展的Z39.50及90年代與網(wǎng)絡資源搜尋有關的Metacrawler都體現(xiàn)了整合檢索的訴求,它們均是架構于透過一個共通的搜尋接口檢索異質信息來源概念所形成的信息檢索通訊協(xié)議或程
4、序工具。也有的通過API程序對檢索接口的分析、指令的包裝與數(shù)據(jù)的重整達到整合檢索。這類型的通訊協(xié)議與程序工具的設計目的都是希望能夠透過一個共通的檢索接口,降低信息使用者檢索多個信息來源、重復輸入多次相同檢索策略的繁瑣。1但由于技術限制,不論是Z39.50、API程序或者Metacrawler,檢索范圍多限于單一形態(tài)資源,整合程度有限。近年來隨著OpenURL以及相關程序工具的發(fā)展,整合檢索在圖書館運用的成效也日見顯著,metasearch,parallelsearch,federatedsearch,broadcastsearchcross-databasesearch,searchporta
5、l這些詞匯從不同角度反映了對檢索圖書館電子期刊、電子圖書、自建資源等多種異構數(shù)據(jù)庫信息資源的探索。在整合檢索系統(tǒng)的功能要求上,2005年美國國家信息標準組織(NationalInformationStandardsOrganization、簡稱NISO)在“整合檢索先導計劃(NISOMetasearchInitiative)”的網(wǎng)站上對整合檢索系統(tǒng)提出了三點要求,即:整合檢索系統(tǒng)服務商能提供更有效的服務;內容供應商提供更多的內容并能保障他們的知識產(chǎn)權;圖書館能提供異于Google和其它免費網(wǎng)絡資源的服務。2這三點要求是開發(fā)整合檢索系統(tǒng)的基本要求,整合檢索系統(tǒng)的發(fā)展也經(jīng)歷了一個由初步發(fā)展到相對成
6、熟的過程。2整合檢索的技術方案目前進入商業(yè)化開發(fā)的整合檢索的技術方案有兩種。一是基于備用性(just-in-case)處理的元數(shù)據(jù)集中索引式整合檢索,預先將各個數(shù)據(jù)庫資源的元數(shù)據(jù)集中到一臺或幾臺中間服務器上,用戶通過向這幾臺中間服務器發(fā)送檢索請求的方式來完成整合檢索。3二是基于即時性(just-in-time)處理的跨庫檢索系統(tǒng),用戶即時將查詢提交給整合系統(tǒng),通過整合服務器向源數(shù)據(jù)庫發(fā)送請求,獲取實時檢索結果的整合方式。4這兩種方案各有優(yōu)缺點,也都各自的適用范圍。2. 1基于元數(shù)據(jù)集中索引的整合檢索系統(tǒng)基于元數(shù)據(jù)索引的整合檢索系統(tǒng)就是通過抽取、映射和導入等手段對分布異構資源的元數(shù)據(jù)(也可能包括
7、對象數(shù)據(jù))進行收集和聚合,安裝在本地系統(tǒng)或者中心系統(tǒng)平臺提供統(tǒng)一的檢索和服務。5這是一種備用性的整合檢索,需要預先集中外部數(shù)據(jù)庫源的元數(shù)據(jù),檢索是針對本地系統(tǒng)或中心系統(tǒng)平臺的元數(shù)據(jù)庫進行的,不需要跨多個外部數(shù)據(jù)庫源,也不受源數(shù)據(jù)庫訪問方式的限制,檢索速度快。從讀者使用體驗看,檢索速度快是這種方式的最大優(yōu)點。元數(shù)據(jù)整合是目錄信息的整合,基于元數(shù)據(jù)的整合檢索系統(tǒng)會充分發(fā)現(xiàn)各個源數(shù)據(jù)庫的共性,它會按照異構數(shù)據(jù)的共性,組新的學科體系,做到分類體系統(tǒng)一,實現(xiàn)對所有異構資源的學科聚合,實現(xiàn)學科導航檢索功能。6基于元數(shù)據(jù)索引的整合檢索系統(tǒng)需要建立一個龐大的集中式索引,強調元數(shù)據(jù)的提交與處理,注重元數(shù)據(jù)的更新
8、與維護,存在著較大的管理難題。最初由于這種方式由于涉及數(shù)據(jù)庫廠商的商業(yè)利益,不要說將所有資源的元數(shù)據(jù)集中到一起,就是集中不斷更新,已經(jīng)集中索引的元數(shù)據(jù)也面臨數(shù)據(jù)更新和維護問題。圖書館訂購的那些資源的元數(shù)據(jù)也很難操作。而且由于源數(shù)據(jù)庫隨著開放獲取運動的發(fā)展,這一困境正在得到緩解。傳統(tǒng)數(shù)據(jù)庫商擔心免費資源會影響到他們的用戶,開始與Google合作,些學術性商業(yè)數(shù)據(jù)庫和出版商已將其全文或文摘讓GoogleScholar編入索引。有些學術性商業(yè)數(shù)據(jù)庫和出版商與圖書館系統(tǒng)服務商簽約,同意系統(tǒng)服務商從他們數(shù)據(jù)庫中直接收割元數(shù)據(jù)甚至是全文文本,并可存取這些元數(shù)據(jù)和生成索引。元數(shù)據(jù)集中索引的整合檢索在電子期刊
9、整合中用的比較多。SwetsWise的元數(shù)據(jù)庫SwetsWiseMetaData收錄了22000種刊名目錄、3.5億條篇名目次信息。7360Core的KnowledgeWorks是電子期刊、電子圖書及其它資源的權威知識庫,SerialsSolution公司與全球各地的資源提供商合作,從中收集元數(shù)據(jù),并集成到KnowledgeWorks中,通過KnowledgeWorks合作伙伴認證計劃,確保數(shù)據(jù)庫商按要求正確收集和呈現(xiàn)元數(shù)據(jù)。目前KnowledgeWorks包括來自2700多個全文和4720多個非全文的出版社權威數(shù)據(jù)庫的18.5萬多種電子期刊、50余萬種電子圖書的元數(shù)據(jù),并以每月新增150個數(shù)
10、據(jù)庫資源的速度增加。8元數(shù)據(jù)集中索引的整合檢索也應用在資源探索發(fā)現(xiàn)系統(tǒng)。ExLibris公司的PrimOCentral就是這樣一個元數(shù)據(jù)集中式索引,它由ExLibris統(tǒng)一維護、更新,將來自不同數(shù)據(jù)庫商的數(shù)據(jù)進行集中索引,力求整合、揭示全世界的各主要電子期刊、電子數(shù)據(jù)庫。ExLibris公司與各個數(shù)據(jù)庫商協(xié)商并簽訂合同,定時從供應商處直接收割元數(shù)據(jù)甚至是全文文本。從不同供應商收割回來的數(shù)據(jù)全部進入Primo系統(tǒng)中,進行統(tǒng)一的數(shù)據(jù)加工、規(guī)范化,最終建立一個單一的集中式索引。目前,PrimOCentral中已經(jīng)整合了世界上大部分的外文電子期刊文章和部分報紙、子書元數(shù)據(jù),目前已收錄記錄超過2.5億條
11、。9SerialsSolution公司的SummonUnifiedSearchIndex也是這樣一個元數(shù)據(jù)集中式索引。經(jīng)加工處理的元數(shù)據(jù)(部分包括全文)被預先收割到SummonUnifiedSearchIndex,并可深度索引,內容涵蓋了數(shù)字資源庫、報告、引文、灰色文獻、會議錄、學術倉儲、電子期刊、報紙、電子圖書、學位論文、圖書館書目記錄等。口0:與SummO簽約的出版商和內容供應商持續(xù)增長,目前,已有超過6800家出版商、約10萬種期刊向Summo提供超過5億條的記錄。112.2基于即時性處理的跨庫檢索系統(tǒng)基于即時性處理的跨庫檢索系統(tǒng)指用戶即時將查詢提交給系統(tǒng),系統(tǒng)將用戶的檢索要求轉化為不同
12、數(shù)據(jù)源的檢索表達式,并發(fā)地檢索本地的和廣域網(wǎng)上的多個分布式異構數(shù)據(jù)源,并對檢索結果加以整合,在經(jīng)過去重和排序等操作后,以統(tǒng)一的格式將結果呈現(xiàn)給用戶。12對異構分布資源的整合,最佳的方式是采用標準的數(shù)據(jù)格式XML和標準的通用檢索協(xié)議,如Z39.50、OpenURLZing、ODLOAI以及WebService等,但實際上大多數(shù)電子資源并不支持或者并不開放這些接口,在實際情況中,也經(jīng)常遇到資源提供商不公開他們所遵循的協(xié)議情況。針對未知協(xié)議,通常采用“頁面分析技術”實現(xiàn)跨庫檢索,即通過分析各數(shù)據(jù)庫的URL和HTML頁面,通過抽取、嘗試和分析去判定檢索請求和頁面內容???通過標準的通訊協(xié)議和標準的數(shù)據(jù)
13、格式來進行的整合檢索能夠提供準確、全面、及時的檢索結果,而通過Http頁面分析和模擬進行的整合檢索由于受到源數(shù)據(jù)庫訪問方式的限制,整合的效果和準確性會受到不同程度的影響。基于即時性處理的跨庫檢索系統(tǒng),使用完全實時的目標資源數(shù)據(jù),可即時檢索到源數(shù)據(jù)庫的最新數(shù)據(jù),也避免了數(shù)據(jù)的更新與維護問題。但當源數(shù)據(jù)庫檢索接口、數(shù)據(jù)字段、數(shù)據(jù)結構發(fā)生變化時,跨庫檢索系統(tǒng)必須重新配庫。基于即時性處理的跨庫檢索系統(tǒng)的具體產(chǎn)品,國內目前使用比較多的有Metalib元搜索,已有許多詳細介紹,此處不贅述。DeepWebTechnology在檢索獲取集成分析深層網(wǎng)頁數(shù)據(jù)庫資源方面有獨到之處,它開發(fā)的Explorit能同時并
14、發(fā)檢索數(shù)百個資源庫,在幾秒鐘內返回高度相關性的檢索結果,并將檢索結果以智能聚類方式呈現(xiàn)給用戶。14360Secarch將全球領先的兩大聯(lián)邦檢索引擎360Secarch和WebFeat整合在一起,形成了一個功能強大、齊全的服務,可對檢索結果進行整理和綜合,并的Encore通過ResearchPro來檢索資源,ResearchPro異構資源整合檢?系統(tǒng)采用的是Muse異構資源整合檢索引擎。Swets公司的SwetsWiseSearcher采用的也是Muse的技術,2010年2以聚類方式顯示在一個簡單易用的界面中。15Innovative月,Swets宣布與DeepWebTechnology合作來改
15、進SwetsWiseSearcher的功能。163整合檢索的發(fā)展整合檢索的兩種技術方案各有優(yōu)缺點,也都有各自的適用范圍。如何讓這兩種方案揚長避短優(yōu)勢互補呢?資源探索與發(fā)現(xiàn)系統(tǒng)正在做這方面的嘗試,而整合檢索也從最初嘗試按Google族的使用習慣為讀者提供一個簡易的檢索入口來查找圖書館豐富的電子館藏,發(fā)展到強力存取、管理圖書館各種資源(物理館藏和虛擬館藏)的統(tǒng)一資源管理平臺。3. 1從整合檢索到探索發(fā)現(xiàn)系統(tǒng)兩種方案各有優(yōu)缺點,也都有各自的適用范圍。元數(shù)據(jù)集中索引的整合檢索需要學術性商業(yè)數(shù)據(jù)庫、出版商等數(shù)據(jù)提供商的配合,經(jīng)許可才可采集、索引元數(shù)據(jù)?;诩磿r性處理的跨庫檢索實現(xiàn)了對異構資源庫的并發(fā)檢索
16、,但若要訪問多個外部源數(shù)據(jù)庫,則檢索進程緩慢,且受外部源數(shù)據(jù)庫訪問方式的限制容易出現(xiàn)檢索中斷。如果將兩種技術集成,既可解決元數(shù)據(jù)集中索引中未提供元數(shù)據(jù)的數(shù)據(jù)庫的整合檢索問題,又可減少跨庫檢索中要訪問的外部數(shù)據(jù)庫數(shù)量,換而言之,既擴大了檢索范圍又提高了檢索效率。隨著數(shù)字環(huán)境的形成,兩種技術也整合在一起,并作為關鍵技術應用到圖書館的資源門戶中,單一技術的整合系統(tǒng)發(fā)展到兩種技術并用的資源發(fā)現(xiàn)與獲取平臺。SerialsSolution公司的探索發(fā)現(xiàn)解決方案集成了Summon互聯(lián)網(wǎng)級探索發(fā)現(xiàn)和360Search聯(lián)邦檢索服務。Innovative的EncoreDiscovery通過ResearchPro聯(lián)
17、邦檢索工具和EncoreHarvestingServices收割0AI元數(shù)據(jù)生成的索引集來發(fā)現(xiàn)資源,2010年1月宣稱所整合的內容供應商的文章層級的內容,都是基串流XML模式而成,而不僅僅提前作內容的收割與索引。17:ExLibris將MetaLib整合檢索集成到Primo中,成為Primo的組件PrimoMetasearch。Primo設計為通過PrimoCentral提供的元數(shù)據(jù)集中式檢索方式和MetaLib元搜索提供的整合檢索方式進行檢索和發(fā)現(xiàn)資源,采取了以下幾種檢索:本地Primo檢索。通過檢索Primo本地索引、Primo其它用戶的遠程索引、PrimoCentral索引來進行。本地索
18、引來自當前圖書館資源的元數(shù)據(jù),其它用戶的遠程索引指Primo其它用戶圖書館的索引。Primo深度檢索。沒有被預先抽取元數(shù)據(jù)索引的資源,而且這些資源符合Primo的深度檢索的要求。Primo元搜索。適用于沒有被預先抽取元數(shù)據(jù)索引的資源Metalib 元搜索。18”檢索界面改進到發(fā)現(xiàn)一方面提升讀者的使用且不符合Primo深度檢索。其核心組件是3.2從整合檢索到統(tǒng)一資源管理整合檢索則由最初的“Google-like界面,以此為基礎建立服務導向的架構,體驗,另一方面與開放鏈接、聚類導航、個性化空間與信息定制、用戶認證和權限控制等功能一起構成一個實用的數(shù)字資源整合系統(tǒng)。國外圖書館和軟件商相繼開發(fā)出十幾種
19、數(shù)字資源整合系統(tǒng),在資源整合的基礎上進行更深入的資源管理研究,提出了一些新的概念,如ExLibris提出的統(tǒng)一資源管理(UnifiedResourceManagement,簡稱URM,OCLC隹出的Web-scaleManagementServices(簡稱WM)S;國內ALIS提出了三期建設和服務計劃。ExLibris的統(tǒng)一資源管理平臺將可處理各類資源(包括印刷資源、電子資源和數(shù)字資源),統(tǒng)一整合圖書館自動化系統(tǒng)、電子資源管理系統(tǒng)、機構倉儲管理系統(tǒng)及其它系統(tǒng),2011 年 1月公布了Alma解決方案。Alma采用統(tǒng)一資源管理框架,支持圖書館所有資源的全部業(yè)務,不管這些資源是什么載體或格式、是在本地還是遠程,全部業(yè)務涵蓋了采分編、元數(shù)據(jù)管理、數(shù)字化以及日常業(yè)務???如:Alma提供高質量、可共享的元數(shù)據(jù),統(tǒng)一管理圖書館的各類資源,簡化圖書館的工作流程,智能的館藏管理讓圖書館在有限的經(jīng)費范圍內實現(xiàn)最優(yōu)的館藏發(fā)展計劃等。OCLC指出WM可讓地方圖書館擁有完整自動化解決方案,而不需本地圖書館自動化系統(tǒng),希望通過擴展WorldCatLocal的功能來取代本地圖書館自動
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同管理制度職責
- 農(nóng)業(yè)科技園區(qū)規(guī)劃設計與運營管理手冊
- 2025年毫州考從業(yè)資格證貨運試題
- 家政公司家政服務合同
- 建筑鋼筋班組合同8篇
- 購銷合同格式
- 房屋代理出租合同
- 建繼續(xù)教育建設工程合同管理
- 2025年景德鎮(zhèn)貨運從業(yè)資格證考試試題及答案
- 第07講 文言文翻譯 講義 中考語文復習
- 2024-2025學年八年級地理下冊第七章《南方地區(qū)》檢測卷(人教版)
- 2025年湖南鐵路科技職業(yè)技術學院單招職業(yè)技能測試題庫參考答案
- 《ISO 56000-2025創(chuàng)新管理 基礎和術語》之1:“引言+范圍+術語和定義”專業(yè)深度解讀與應用指導材料(雷澤佳編寫2025A0)-1-150
- DB37-T4817-2025 瀝青路面就地冷再生技術規(guī)范
- 2025年公共營養(yǎng)師三級理論試題及答案
- 提高設備基礎預埋螺栓一次安裝合格率
- 煤礦防治水安全質量標準化評分表
- 2024年科技節(jié)小學科普知識競賽題及答案(共100題)
- 2025年度教育培訓機構學生綜合素質評價協(xié)議3篇
- 氧氣管道吹掃、打壓方案
- 第28課 改革開放和社會主義現(xiàn)代化建設的巨大成就 教學設計(表格式)必修 中外歷史綱要(上)
評論
0/150
提交評論