國外Web-Archive項目對我國的啟示.doc_第1頁
國外Web-Archive項目對我國的啟示.doc_第2頁
國外Web-Archive項目對我國的啟示.doc_第3頁
國外Web-Archive項目對我國的啟示.doc_第4頁
國外Web-Archive項目對我國的啟示.doc_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

國外Web Archive項目對我國的啟示以澳大利亞PANDORA為例閆曉創(chuàng)2012-11-13 9:38:07來源:浙江檔案(杭州)2011年10期【英文標題】Enlightenment of Foreign Web Archive Project to China: With Australian PANDORA Project as an Example【作者簡介】閆曉創(chuàng),中國人民大學信息資源管理學院(北京100872)?!緝热萏嵋糠治霭拇罄麃哖ANDORA項目的網絡信息采集策略、資源保存方式、服務提供、信息檢索及技術架構,提出對我國網絡信息資源保存在法律環(huán)境、戰(zhàn)略定位、合作模式等方面的啟示。【關 鍵 詞】Web Archive/PANDORA/網絡信息保存目前,網絡信息資源已經成為世界上最大的信息資源庫,許多網頁具有重要的社會、經濟等價值;然而由于網頁不斷更新,其壽命一般較短,因此對網絡信息資源進行保存,建立網頁檔案館(Web Archive)十分必要和迫切。從國際上來看,網絡信息資源保存的研究始于1996年,目前開展了眾多的相關項目,其中澳大利亞PANDORA項目是開展較早且至今發(fā)展較完善的一個項目;我國在網絡信息資源保存方面還未取得太多進展,僅有國家圖書館和北京大學進行了相關的研究。本文通過對PANDORA項目的分析,提出了它對我國網絡資源保存的借鑒意義,進一步明確我國檔案部門應在其中發(fā)揮的作用。一、PANDORA項目分析(一)基本情況1996年,澳大利亞國家圖書館發(fā)起了對澳大利亞在線出版物、具有重要文化價值網站開展的長期保存計劃,即PANDORA(Preserving and Accessing Networked Documentary Resources of Australia)項目。它是世界上最早的Web Archive項目之一,現在已發(fā)展為與其他11個澳大利亞各地的圖書館和文化遺產機構共同合作進行,到目前為止已經較為完善。PANDORA保存的網絡資源主要包括:政府的公開出版物、教育機構出版物、會議論文、電子期刊、索引和摘要代理商提供的item、在某主題領域運行三年以上和記載當前重要社會、政治等內容的網站(如選舉網站、2000年悉尼奧運會網站)等。截止到2011年6月22日,PANDORA共保存超過240 437 896條網絡資源,提供藝術與人文、商業(yè)與經濟、電腦與網絡、教育、環(huán)境、健康、歷史與地理、青少年、法律與犯罪學、新聞與媒體、政治與政府、科學與技術、社會與文化、運動與休閑15個主題的網絡信息資源1。(二)采集策略:選擇性采集PANDORA項目是對網絡資源進行選擇性地搜集,一般情況下對網站資源進行全部采集,有時只會選擇一部分,如對于一個較大網站只會采集電子期刊、科技報告等網絡出版物。進行選擇性采集時,依據指定的相關采集指南,PANDORA項目在采集前會征求所有采集對象所有者的許可,而對外部鏈接,如果不在采集范圍內,或沒有征得所有者的許可是不會采集的。由于PANDORA項目包括的12個成員中,除了澳大利亞國家圖書館之外都是地區(qū)性的,每個成員所關注的內容不同,采集的內容也不相同,所以每個成員都有各自的選擇指南。PANDORA項目對網絡連續(xù)出版物,進行周期性采集,對專著進行一次性采集。采集的格式主要為常見的15種,占據了收藏的95,有HTML、JPEG、PDF、TXT等格式。這樣在有限的格式范圍內可以保障資源最大程度上的統(tǒng)一,更重要的是減少了格式轉換的復雜性以及可能出現的各種問題2。PANDORA項目對采集到的資源按照澳大利亞國家圖書館的標準進行加工,開發(fā)了PANDAS系統(tǒng),工作流程主要包括:識別、選擇和登記主題;征求發(fā)布者的許可并存檔;制定相應的采集制度;進行采集;對質量控制進行檢查;進行歸檔;對歸檔的資源組織相關的元數據。PANDORA項目的成員利用PANDAS工作的內容包括:登記歸檔文件題名;標明出版商的權限;設置采集時間表;保證一個文件的質量和準確性;將文件名進行歸檔;生成書名款目;鏈接到出版商的版權聲明3。由于所有的成員統(tǒng)一采用了PANDAS系統(tǒng)進行質量控制、并且由項目成員對采集到的資源實施嚴格的審核,通過審核后才能歸檔,這就保障了PANDORA項目中網絡資源的質量。但由于選擇性采集具有主觀性,并且割裂了網絡資源之間的關系,不能完整反映網絡信息資源的全貌,并且選擇性采集加入了較多的人工干預,因此成本非常高。為了彌補選擇性采集的不足之處,從2005年開始PANDORA還進行了三次大規(guī)模的采集:第一次基于時間限制對.au域名進行采集,后兩次基于文檔規(guī)模,限定最小采集對象為500 Million個對立URL4。采集數據如表1、表2和表3所示5,從表中可以看出不同性質域名三年的采集數據及所占的比例。 除了PANDOILA項目成員進行網絡資源的采集外,它還接受公眾、出版商、網站所有者等提供資源,在PANDORA網站中有notification form,可以進行相關網絡信息資源的提交。提交的信息主要包括機構名、負責人名字、電話、e-mail,URL的題名,發(fā)布日期和發(fā)布地點等。這就增加了項目歸檔的內容的豐富性,調動全社會的力量進行也必定能夠取得良好的社會效果。(三)資源存檔:基于多文件服務網絡資源的存檔與一般資源不同,不但需要適應網絡資源動態(tài)性強和更新增長速度快的特點,更關鍵的是還要能夠支撐現在和將來的訪問服務。PANDORA為解決大量數據訪問和保存之間的沖突,將存檔分為三個層次:一是持續(xù)工作所需的存檔,主要是預存檔數據;二是確保長期保存的存檔,包括長期保存資源、元數據;三是提供訪問的存檔,主要用于訪問派生物。出于存檔安全的考慮,PANDORA同一份資源不能用于多種服務,因此,PANDAS系統(tǒng)對數字對象進行了分類,需要保存的網絡資源經過檢測后,保存在數字對象存儲服務系統(tǒng)(Digital Object Storage Service, DOSS)中。該系統(tǒng)是基于SAN結構的底層存儲系統(tǒng)。DOSS包括三部分:1.Preservation Master:采集獲得未經改動的備份文件,以tar格式保存在DOSS存儲系統(tǒng)中。2.Archive Master,將經過數據檢測的備份文件,以tar格式保存在DOSS存儲系統(tǒng)中。3.Metadata Master,保留目錄結構和源web服務文件名,以及從每個文件中的HTTP應答的元數據,也以tar格式保存在DOSS存儲系統(tǒng)中并以描述性元數據為主6。PANDORA的這種存檔策略,通過幾個階段不同的備份形式進行存檔,并將保存和使用資源的方式進行分離,緩解保存和訪問沖突的同時也保障了數據的可還原性。(四)資源檢索:獨立的檢索系統(tǒng)PANDORA為檢索服務建立了一個專門的網站Trove(.au/website)。Trove界面非常友好且內容豐富,可注冊論壇,還可購買檢索出的內容。它支持對書目、圖片、電子報紙、音視頻、地圖、1996年至今歸檔的網站、人和組織機構等的檢索。它提供關鍵詞、短語、位置、通配符檢索等基本檢索;還提供多項字段組合的高級檢索;打開某主題后,可進一步限定語種、格式、是否可以免費得到等信息限定檢索,并提供每種的具體的數目信息。(五)服務提供:分類服務PANDORA針對不同主體提供更加細致、有效和針對性的分類服務,四大主體分別為出版商、索引和摘要機構、研究者和其他檔案機構。1.針對出版商:提供了四個指導準則,并且出版商可以通過復制PANDORA提供的相應代碼將PANDORA的檢索框放置到自己的網站上,實現在自己的網站中檢索PANDORA系統(tǒng)中的資源。2.針對索引和摘要機構:允許機構填寫相關的表格進行相關信息的提交,信息主要包括機構名、負責人名字、電話,E-Mail,URL的題名、發(fā)布日期和發(fā)布地點等。當完成審核后可以對摘要和索引提供永久的UPL,這可以保證在PANDORA中對這些文獻進行索引時將會永久存在。3.針對研究者:服務主要體現在研究中文獻的引用,它解決了當引用網頁文獻時,由于網頁壽命過一段時間可能消失的情況,PANDORA為網頁文獻提供唯一的標識符(PURL),永遠不用擔心網頁消失。PANDORA的檢索系統(tǒng)還積極與其他商業(yè)搜索引擎合作,可以通過Yahoo!和GOOGLE可以檢索到它保存網頁的標題。這也極大地方便了用戶,也擴大了PANDORA的社會影響以及為公眾提供更加便捷的服務。為了更好地提供服務,PANDORA還在首頁提供了一個quick survey服務,用戶可以通過它進行反饋,提出自己的意見和建議。便于PANDORA立生行不斷地完善和改進。PANDORA的服務考慮到了各個層面,相對較為完善,不過對動態(tài)網頁和音視頻等資源的服務還需進一步提高。此外,在信息采集中如何解決采集的質量和速度以及信息采集的合法性問題等都需要深入的進一步研究。(六)技術架構PANDAS采集系統(tǒng)是一個工作流程系統(tǒng),它能使采集信息的負責人依據設定的采集標準,基于網絡進行采集,可以通過一系列的網絡搜索插件和關聯(lián)的軟件來查看歸檔的信息。這個系統(tǒng)包括利用Web Objects應用框架寫成的Java程序;利用Oracle 8i RDMS進行元數據存儲;離線瀏覽器工具和鏡像工具HTT rack:基于Oracle表格和報告的閱讀設施。流程和元數據系統(tǒng)是基于Sun Solaris server,而采集器采用Linux服務器。采集系統(tǒng)主要由以下幾部分構成:1.存儲系統(tǒng)(DOSS):它是基于SAN結構的底層存儲系統(tǒng),web對象經過數據檢測后以壓縮的形式保存到DOSS存儲系統(tǒng)中(詳細見上文)。2.傳遞系統(tǒng)(Delivery system):該系統(tǒng)利用Apache/WebObjects/Java and Oracle來提供資源開發(fā),導航和獲取的服務,該服務由Sun Solaris server提供托管。3.檢索系統(tǒng)(Search index via Trove discovery service):Trove是PANDORA專門建立的一個提供搜索服務的平臺,這個平臺實現了與歸檔的所有資源的無縫連接。Trove檢索平臺非常人性化,進行相關內容的推送等服務。二、PANDORA項目對我國網絡信息資源保存的啟示(一)建立網絡資源保存系統(tǒng)體系我國的互聯(lián)網事業(yè)發(fā)展迅速,網絡上產生的眾多非常有價值的資源,如果得不到有效的保存,隨著時間的流逝這些都會消失,從而造成巨大的文化記憶的損失。目前對于網絡信息資源的保存,國內的研究非常少,主要有北京大學的“web信息博物館”(/)和國家圖書館的“網絡信息采集與保存”項目。前者保存2002年以來.cn域名下的網站和所有中文網站信息,較為簡單,主要為單純的歷史網頁存檔。與數字檔案館和數字圖書館相比,這些項目沒有引起足夠的關注。此外,檔案部門作為保存人類記憶的主要部門,到目前為止在這一方面還沒有發(fā)揮太大的作用。建立網絡資源保存系統(tǒng),是建立國家數字遺產的重要部分。檔案部門要在網絡資源保存系統(tǒng)建設中充當主力軍的作用,需要與圖書館和其他部門進行合作。在基礎比較薄弱的情況下,需要暫時對現有的項目進行消化吸收,找出最適合自己的進行研究、模仿,開拓檔案部門的新領域。(二)實施網絡信息資源保存的國家戰(zhàn)略網絡信息資源是當前社會的主要資源,在未來的社會中會充當更加重要的作用,將網絡信息資源的保存上升到國家戰(zhàn)略的層面,由國家相關的機構制定相應政策,確保以國家規(guī)劃統(tǒng)籌進行。在政策上,需要給予積極的支持,保障網絡信息資源保存的政策環(huán)境。在資金上,需要國家和各級政府部門支持。技術上,在借鑒國外同類項目經驗的同時,要結合我國國情創(chuàng)新性的設計出適合的保存體系。在輿論上,需要讓全社會認識到網絡資源保存的重要性,鼓勵公眾參與到項目中來,使得項目不斷地完善。借助目前電子文件國家戰(zhàn)略的東風,進一步推進網絡信息資源保存戰(zhàn)略的實施,檔案部門也可以借此拓寬自身的領域,將網絡信息的保存和數字檔案館結合起來,進行統(tǒng)籌安排,這些都需要國家層面的推動和保障。(三)加強各個機構的合作網絡信息資源的保存不是一個機構能夠做的,需要在統(tǒng)一的領導下,分地區(qū)、分部門、跨領域地協(xié)作完成,澳大利亞的PANDORA項目就是在國家圖書館的領導下,由各地圖書館、博物館等共同參與開展的。圖書館和檔案館在網絡信息的保存方面各有優(yōu)勢,針對網絡信息的特點,可以實行分工與協(xié)作。檔案館可以主要負責與政府網絡信息、民生信息、社會事務信息等的保存,而圖書館進行網絡出版物、科技信息等的長期保存。建立統(tǒng)一的系統(tǒng)平臺,實現圖書館和檔案館、博物館之間進行協(xié)作,實現對所保存信息的共享。這個統(tǒng)一的平臺可以由國家圖書館聯(lián)合中央檔案館聯(lián)合進行開發(fā),建立相應的領導機構,領導全國的網絡信息資源的保存工作。(四)建立分布式的網絡資源保存中心7我國各地的經濟、文化發(fā)展差別較大,因此網絡信息資源的保存也應該因地制宜,在國家層面建立統(tǒng)一的標準之后,中央一級的網絡資源保存中心負責中央一級的各種網絡資源的保存;各地區(qū)分別建立地區(qū)性的網絡資源保存中心,負責保存地區(qū)的網絡資源。(五)建立健全有利的法律環(huán)境目前網絡信息保存的最重要保障就是合法呈繳制度。合法呈繳制度只有丹麥、新西蘭等明確提出了可以采集網絡資源,其他國家呈繳范圍僅限于數字出版物。在澳大利亞,只有The Northern Territory Library對網絡的信息進行法律規(guī)定呈繳。中國國家圖書館一直在積極推動Web資源呈繳法的起草,以解決WA長遠發(fā)展過程中的法律障礙。網絡資源的呈繳制度處于正在醞釀和形成之中,檔案部門也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論