國外Web-Archive項目對我國的啟示.doc_第1頁
國外Web-Archive項目對我國的啟示.doc_第2頁
國外Web-Archive項目對我國的啟示.doc_第3頁
國外Web-Archive項目對我國的啟示.doc_第4頁
國外Web-Archive項目對我國的啟示.doc_第5頁
免費預(yù)覽已結(jié)束,剩余7頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

國外Web Archive項目對我國的啟示以澳大利亞PANDORA為例閆曉創(chuàng)2012-11-13 9:38:07來源:浙江檔案(杭州)2011年10期【英文標題】Enlightenment of Foreign Web Archive Project to China: With Australian PANDORA Project as an Example【作者簡介】閆曉創(chuàng),中國人民大學(xué)信息資源管理學(xué)院(北京100872)?!緝?nèi)容提要】分析澳大利亞PANDORA項目的網(wǎng)絡(luò)信息采集策略、資源保存方式、服務(wù)提供、信息檢索及技術(shù)架構(gòu),提出對我國網(wǎng)絡(luò)信息資源保存在法律環(huán)境、戰(zhàn)略定位、合作模式等方面的啟示?!娟P(guān) 鍵 詞】Web Archive/PANDORA/網(wǎng)絡(luò)信息保存目前,網(wǎng)絡(luò)信息資源已經(jīng)成為世界上最大的信息資源庫,許多網(wǎng)頁具有重要的社會、經(jīng)濟等價值;然而由于網(wǎng)頁不斷更新,其壽命一般較短,因此對網(wǎng)絡(luò)信息資源進行保存,建立網(wǎng)頁檔案館(Web Archive)十分必要和迫切。從國際上來看,網(wǎng)絡(luò)信息資源保存的研究始于1996年,目前開展了眾多的相關(guān)項目,其中澳大利亞PANDORA項目是開展較早且至今發(fā)展較完善的一個項目;我國在網(wǎng)絡(luò)信息資源保存方面還未取得太多進展,僅有國家圖書館和北京大學(xué)進行了相關(guān)的研究。本文通過對PANDORA項目的分析,提出了它對我國網(wǎng)絡(luò)資源保存的借鑒意義,進一步明確我國檔案部門應(yīng)在其中發(fā)揮的作用。一、PANDORA項目分析(一)基本情況1996年,澳大利亞國家圖書館發(fā)起了對澳大利亞在線出版物、具有重要文化價值網(wǎng)站開展的長期保存計劃,即PANDORA(Preserving and Accessing Networked Documentary Resources of Australia)項目。它是世界上最早的Web Archive項目之一,現(xiàn)在已發(fā)展為與其他11個澳大利亞各地的圖書館和文化遺產(chǎn)機構(gòu)共同合作進行,到目前為止已經(jīng)較為完善。PANDORA保存的網(wǎng)絡(luò)資源主要包括:政府的公開出版物、教育機構(gòu)出版物、會議論文、電子期刊、索引和摘要代理商提供的item、在某主題領(lǐng)域運行三年以上和記載當前重要社會、政治等內(nèi)容的網(wǎng)站(如選舉網(wǎng)站、2000年悉尼奧運會網(wǎng)站)等。截止到2011年6月22日,PANDORA共保存超過240 437 896條網(wǎng)絡(luò)資源,提供藝術(shù)與人文、商業(yè)與經(jīng)濟、電腦與網(wǎng)絡(luò)、教育、環(huán)境、健康、歷史與地理、青少年、法律與犯罪學(xué)、新聞與媒體、政治與政府、科學(xué)與技術(shù)、社會與文化、運動與休閑15個主題的網(wǎng)絡(luò)信息資源1。(二)采集策略:選擇性采集PANDORA項目是對網(wǎng)絡(luò)資源進行選擇性地搜集,一般情況下對網(wǎng)站資源進行全部采集,有時只會選擇一部分,如對于一個較大網(wǎng)站只會采集電子期刊、科技報告等網(wǎng)絡(luò)出版物。進行選擇性采集時,依據(jù)指定的相關(guān)采集指南,PANDORA項目在采集前會征求所有采集對象所有者的許可,而對外部鏈接,如果不在采集范圍內(nèi),或沒有征得所有者的許可是不會采集的。由于PANDORA項目包括的12個成員中,除了澳大利亞國家圖書館之外都是地區(qū)性的,每個成員所關(guān)注的內(nèi)容不同,采集的內(nèi)容也不相同,所以每個成員都有各自的選擇指南。PANDORA項目對網(wǎng)絡(luò)連續(xù)出版物,進行周期性采集,對專著進行一次性采集。采集的格式主要為常見的15種,占據(jù)了收藏的95,有HTML、JPEG、PDF、TXT等格式。這樣在有限的格式范圍內(nèi)可以保障資源最大程度上的統(tǒng)一,更重要的是減少了格式轉(zhuǎn)換的復(fù)雜性以及可能出現(xiàn)的各種問題2。PANDORA項目對采集到的資源按照澳大利亞國家圖書館的標準進行加工,開發(fā)了PANDAS系統(tǒng),工作流程主要包括:識別、選擇和登記主題;征求發(fā)布者的許可并存檔;制定相應(yīng)的采集制度;進行采集;對質(zhì)量控制進行檢查;進行歸檔;對歸檔的資源組織相關(guān)的元數(shù)據(jù)。PANDORA項目的成員利用PANDAS工作的內(nèi)容包括:登記歸檔文件題名;標明出版商的權(quán)限;設(shè)置采集時間表;保證一個文件的質(zhì)量和準確性;將文件名進行歸檔;生成書名款目;鏈接到出版商的版權(quán)聲明3。由于所有的成員統(tǒng)一采用了PANDAS系統(tǒng)進行質(zhì)量控制、并且由項目成員對采集到的資源實施嚴格的審核,通過審核后才能歸檔,這就保障了PANDORA項目中網(wǎng)絡(luò)資源的質(zhì)量。但由于選擇性采集具有主觀性,并且割裂了網(wǎng)絡(luò)資源之間的關(guān)系,不能完整反映網(wǎng)絡(luò)信息資源的全貌,并且選擇性采集加入了較多的人工干預(yù),因此成本非常高。為了彌補選擇性采集的不足之處,從2005年開始PANDORA還進行了三次大規(guī)模的采集:第一次基于時間限制對.au域名進行采集,后兩次基于文檔規(guī)模,限定最小采集對象為500 Million個對立URL4。采集數(shù)據(jù)如表1、表2和表3所示5,從表中可以看出不同性質(zhì)域名三年的采集數(shù)據(jù)及所占的比例。 除了PANDOILA項目成員進行網(wǎng)絡(luò)資源的采集外,它還接受公眾、出版商、網(wǎng)站所有者等提供資源,在PANDORA網(wǎng)站中有notification form,可以進行相關(guān)網(wǎng)絡(luò)信息資源的提交。提交的信息主要包括機構(gòu)名、負責人名字、電話、e-mail,URL的題名,發(fā)布日期和發(fā)布地點等。這就增加了項目歸檔的內(nèi)容的豐富性,調(diào)動全社會的力量進行也必定能夠取得良好的社會效果。(三)資源存檔:基于多文件服務(wù)網(wǎng)絡(luò)資源的存檔與一般資源不同,不但需要適應(yīng)網(wǎng)絡(luò)資源動態(tài)性強和更新增長速度快的特點,更關(guān)鍵的是還要能夠支撐現(xiàn)在和將來的訪問服務(wù)。PANDORA為解決大量數(shù)據(jù)訪問和保存之間的沖突,將存檔分為三個層次:一是持續(xù)工作所需的存檔,主要是預(yù)存檔數(shù)據(jù);二是確保長期保存的存檔,包括長期保存資源、元數(shù)據(jù);三是提供訪問的存檔,主要用于訪問派生物。出于存檔安全的考慮,PANDORA同一份資源不能用于多種服務(wù),因此,PANDAS系統(tǒng)對數(shù)字對象進行了分類,需要保存的網(wǎng)絡(luò)資源經(jīng)過檢測后,保存在數(shù)字對象存儲服務(wù)系統(tǒng)(Digital Object Storage Service, DOSS)中。該系統(tǒng)是基于SAN結(jié)構(gòu)的底層存儲系統(tǒng)。DOSS包括三部分:1.Preservation Master:采集獲得未經(jīng)改動的備份文件,以tar格式保存在DOSS存儲系統(tǒng)中。2.Archive Master,將經(jīng)過數(shù)據(jù)檢測的備份文件,以tar格式保存在DOSS存儲系統(tǒng)中。3.Metadata Master,保留目錄結(jié)構(gòu)和源web服務(wù)文件名,以及從每個文件中的HTTP應(yīng)答的元數(shù)據(jù),也以tar格式保存在DOSS存儲系統(tǒng)中并以描述性元數(shù)據(jù)為主6。PANDORA的這種存檔策略,通過幾個階段不同的備份形式進行存檔,并將保存和使用資源的方式進行分離,緩解保存和訪問沖突的同時也保障了數(shù)據(jù)的可還原性。(四)資源檢索:獨立的檢索系統(tǒng)PANDORA為檢索服務(wù)建立了一個專門的網(wǎng)站Trove(.au/website)。Trove界面非常友好且內(nèi)容豐富,可注冊論壇,還可購買檢索出的內(nèi)容。它支持對書目、圖片、電子報紙、音視頻、地圖、1996年至今歸檔的網(wǎng)站、人和組織機構(gòu)等的檢索。它提供關(guān)鍵詞、短語、位置、通配符檢索等基本檢索;還提供多項字段組合的高級檢索;打開某主題后,可進一步限定語種、格式、是否可以免費得到等信息限定檢索,并提供每種的具體的數(shù)目信息。(五)服務(wù)提供:分類服務(wù)PANDORA針對不同主體提供更加細致、有效和針對性的分類服務(wù),四大主體分別為出版商、索引和摘要機構(gòu)、研究者和其他檔案機構(gòu)。1.針對出版商:提供了四個指導(dǎo)準則,并且出版商可以通過復(fù)制PANDORA提供的相應(yīng)代碼將PANDORA的檢索框放置到自己的網(wǎng)站上,實現(xiàn)在自己的網(wǎng)站中檢索PANDORA系統(tǒng)中的資源。2.針對索引和摘要機構(gòu):允許機構(gòu)填寫相關(guān)的表格進行相關(guān)信息的提交,信息主要包括機構(gòu)名、負責人名字、電話,E-Mail,URL的題名、發(fā)布日期和發(fā)布地點等。當完成審核后可以對摘要和索引提供永久的UPL,這可以保證在PANDORA中對這些文獻進行索引時將會永久存在。3.針對研究者:服務(wù)主要體現(xiàn)在研究中文獻的引用,它解決了當引用網(wǎng)頁文獻時,由于網(wǎng)頁壽命過一段時間可能消失的情況,PANDORA為網(wǎng)頁文獻提供唯一的標識符(PURL),永遠不用擔心網(wǎng)頁消失。PANDORA的檢索系統(tǒng)還積極與其他商業(yè)搜索引擎合作,可以通過Yahoo!和GOOGLE可以檢索到它保存網(wǎng)頁的標題。這也極大地方便了用戶,也擴大了PANDORA的社會影響以及為公眾提供更加便捷的服務(wù)。為了更好地提供服務(wù),PANDORA還在首頁提供了一個quick survey服務(wù),用戶可以通過它進行反饋,提出自己的意見和建議。便于PANDORA立生行不斷地完善和改進。PANDORA的服務(wù)考慮到了各個層面,相對較為完善,不過對動態(tài)網(wǎng)頁和音視頻等資源的服務(wù)還需進一步提高。此外,在信息采集中如何解決采集的質(zhì)量和速度以及信息采集的合法性問題等都需要深入的進一步研究。(六)技術(shù)架構(gòu)PANDAS采集系統(tǒng)是一個工作流程系統(tǒng),它能使采集信息的負責人依據(jù)設(shè)定的采集標準,基于網(wǎng)絡(luò)進行采集,可以通過一系列的網(wǎng)絡(luò)搜索插件和關(guān)聯(lián)的軟件來查看歸檔的信息。這個系統(tǒng)包括利用Web Objects應(yīng)用框架寫成的Java程序;利用Oracle 8i RDMS進行元數(shù)據(jù)存儲;離線瀏覽器工具和鏡像工具HTT rack:基于Oracle表格和報告的閱讀設(shè)施。流程和元數(shù)據(jù)系統(tǒng)是基于Sun Solaris server,而采集器采用Linux服務(wù)器。采集系統(tǒng)主要由以下幾部分構(gòu)成:1.存儲系統(tǒng)(DOSS):它是基于SAN結(jié)構(gòu)的底層存儲系統(tǒng),web對象經(jīng)過數(shù)據(jù)檢測后以壓縮的形式保存到DOSS存儲系統(tǒng)中(詳細見上文)。2.傳遞系統(tǒng)(Delivery system):該系統(tǒng)利用Apache/WebObjects/Java and Oracle來提供資源開發(fā),導(dǎo)航和獲取的服務(wù),該服務(wù)由Sun Solaris server提供托管。3.檢索系統(tǒng)(Search index via Trove discovery service):Trove是PANDORA專門建立的一個提供搜索服務(wù)的平臺,這個平臺實現(xiàn)了與歸檔的所有資源的無縫連接。Trove檢索平臺非常人性化,進行相關(guān)內(nèi)容的推送等服務(wù)。二、PANDORA項目對我國網(wǎng)絡(luò)信息資源保存的啟示(一)建立網(wǎng)絡(luò)資源保存系統(tǒng)體系我國的互聯(lián)網(wǎng)事業(yè)發(fā)展迅速,網(wǎng)絡(luò)上產(chǎn)生的眾多非常有價值的資源,如果得不到有效的保存,隨著時間的流逝這些都會消失,從而造成巨大的文化記憶的損失。目前對于網(wǎng)絡(luò)信息資源的保存,國內(nèi)的研究非常少,主要有北京大學(xué)的“web信息博物館”(/)和國家圖書館的“網(wǎng)絡(luò)信息采集與保存”項目。前者保存2002年以來.cn域名下的網(wǎng)站和所有中文網(wǎng)站信息,較為簡單,主要為單純的歷史網(wǎng)頁存檔。與數(shù)字檔案館和數(shù)字圖書館相比,這些項目沒有引起足夠的關(guān)注。此外,檔案部門作為保存人類記憶的主要部門,到目前為止在這一方面還沒有發(fā)揮太大的作用。建立網(wǎng)絡(luò)資源保存系統(tǒng),是建立國家數(shù)字遺產(chǎn)的重要部分。檔案部門要在網(wǎng)絡(luò)資源保存系統(tǒng)建設(shè)中充當主力軍的作用,需要與圖書館和其他部門進行合作。在基礎(chǔ)比較薄弱的情況下,需要暫時對現(xiàn)有的項目進行消化吸收,找出最適合自己的進行研究、模仿,開拓檔案部門的新領(lǐng)域。(二)實施網(wǎng)絡(luò)信息資源保存的國家戰(zhàn)略網(wǎng)絡(luò)信息資源是當前社會的主要資源,在未來的社會中會充當更加重要的作用,將網(wǎng)絡(luò)信息資源的保存上升到國家戰(zhàn)略的層面,由國家相關(guān)的機構(gòu)制定相應(yīng)政策,確保以國家規(guī)劃統(tǒng)籌進行。在政策上,需要給予積極的支持,保障網(wǎng)絡(luò)信息資源保存的政策環(huán)境。在資金上,需要國家和各級政府部門支持。技術(shù)上,在借鑒國外同類項目經(jīng)驗的同時,要結(jié)合我國國情創(chuàng)新性的設(shè)計出適合的保存體系。在輿論上,需要讓全社會認識到網(wǎng)絡(luò)資源保存的重要性,鼓勵公眾參與到項目中來,使得項目不斷地完善。借助目前電子文件國家戰(zhàn)略的東風,進一步推進網(wǎng)絡(luò)信息資源保存戰(zhàn)略的實施,檔案部門也可以借此拓寬自身的領(lǐng)域,將網(wǎng)絡(luò)信息的保存和數(shù)字檔案館結(jié)合起來,進行統(tǒng)籌安排,這些都需要國家層面的推動和保障。(三)加強各個機構(gòu)的合作網(wǎng)絡(luò)信息資源的保存不是一個機構(gòu)能夠做的,需要在統(tǒng)一的領(lǐng)導(dǎo)下,分地區(qū)、分部門、跨領(lǐng)域地協(xié)作完成,澳大利亞的PANDORA項目就是在國家圖書館的領(lǐng)導(dǎo)下,由各地圖書館、博物館等共同參與開展的。圖書館和檔案館在網(wǎng)絡(luò)信息的保存方面各有優(yōu)勢,針對網(wǎng)絡(luò)信息的特點,可以實行分工與協(xié)作。檔案館可以主要負責與政府網(wǎng)絡(luò)信息、民生信息、社會事務(wù)信息等的保存,而圖書館進行網(wǎng)絡(luò)出版物、科技信息等的長期保存。建立統(tǒng)一的系統(tǒng)平臺,實現(xiàn)圖書館和檔案館、博物館之間進行協(xié)作,實現(xiàn)對所保存信息的共享。這個統(tǒng)一的平臺可以由國家圖書館聯(lián)合中央檔案館聯(lián)合進行開發(fā),建立相應(yīng)的領(lǐng)導(dǎo)機構(gòu),領(lǐng)導(dǎo)全國的網(wǎng)絡(luò)信息資源的保存工作。(四)建立分布式的網(wǎng)絡(luò)資源保存中心7我國各地的經(jīng)濟、文化發(fā)展差別較大,因此網(wǎng)絡(luò)信息資源的保存也應(yīng)該因地制宜,在國家層面建立統(tǒng)一的標準之后,中央一級的網(wǎng)絡(luò)資源保存中心負責中央一級的各種網(wǎng)絡(luò)資源的保存;各地區(qū)分別建立地區(qū)性的網(wǎng)絡(luò)資源保存中心,負責保存地區(qū)的網(wǎng)絡(luò)資源。(五)建立健全有利的法律環(huán)境目前網(wǎng)絡(luò)信息保存的最重要保障就是合法呈繳制度。合法呈繳制度只有丹麥、新西蘭等明確提出了可以采集網(wǎng)絡(luò)資源,其他國家呈繳范圍僅限于數(shù)字出版物。在澳大利亞,只有The Northern Territory Library對網(wǎng)絡(luò)的信息進行法律規(guī)定呈繳。中國國家圖書館一直在積極推動Web資源呈繳法的起草,以解決WA長遠發(fā)展過程中的法律障礙。網(wǎng)絡(luò)資源的呈繳制度處于正在醞釀和形成之中,檔案部門也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論