古籍?dāng)?shù)字化:現(xiàn)狀、問題與趨勢-從一個(gè)使用者的角度看_第1頁
古籍?dāng)?shù)字化:現(xiàn)狀、問題與趨勢-從一個(gè)使用者的角度看_第2頁
古籍?dāng)?shù)字化:現(xiàn)狀、問題與趨勢-從一個(gè)使用者的角度看_第3頁
古籍?dāng)?shù)字化:現(xiàn)狀、問題與趨勢-從一個(gè)使用者的角度看_第4頁
古籍?dāng)?shù)字化:現(xiàn)狀、問題與趨勢-從一個(gè)使用者的角度看_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、古籍?dāng)?shù)字化:現(xiàn)狀、問題與趨勢從一個(gè)使用者的角度看題記:這是我2002年9月參加“漢文化聯(lián)盟第二屆漢文化資料庫國際學(xué)術(shù)研討會(huì)提交的論文。近因人索要,網(wǎng)上未見下載,故刊于此。原文寫作之時(shí),正值ggle被封,隨后又逢“七一,網(wǎng)羅資料頗為不便,故文章最后一局部沒有最后完成。特別抬出羅先生一文,實(shí)行文需要,非謂筆者對此無有所思也。事過境遷,目今焦頭爛額,已無心再去“遐想當(dāng)年了。載文網(wǎng)上,聊示紀(jì)念而已數(shù)字圖書館電子圖書館、虛擬圖書館和大型電子文獻(xiàn)資料庫的開發(fā)和建立,近年來業(yè)已成為學(xué)術(shù)界和相關(guān)技術(shù)部門的一個(gè)熱門話題。在這個(gè)話題中,古籍的數(shù)字化也得到了高度重視。并且,伴隨著一些重要產(chǎn)品的發(fā)行,數(shù)字化的古籍在學(xué)

2、術(shù)研究中的利用率也在不斷進(jìn)步。而古籍?dāng)?shù)字化的價(jià)值,也正是在這樣的使用中一點(diǎn)一點(diǎn)表達(dá)出來。然而,僅就筆者個(gè)人的專業(yè)應(yīng)用來看,古籍?dāng)?shù)字化在技術(shù)處理和用戶的使用需求之間仍然有一些間隔 。本文即擬對此談一點(diǎn)粗淺的看法,供有興趣者參考。因筆者對中國大陸以外地區(qū)的相關(guān)產(chǎn)品理解很少,取例有所側(cè)重,尚祈讀者諒之。一、現(xiàn)狀一瞥二、存在的問題毫無疑問,古籍?dāng)?shù)字化的最終目的,是更大范圍、更便捷、更有效地使這些文獻(xiàn)為人們所利用。而由于用戶群體及其需求的差異,這個(gè)“用也顯示出不同的層次。因此,滿足這些用戶群體的需求,也應(yīng)該是古籍?dāng)?shù)字化所需要考慮的問題。從這方面看,目前的古籍?dāng)?shù)字化產(chǎn)品還有不少可以完善的地方。一選題內(nèi)容重

3、復(fù),分散了數(shù)字化資源開發(fā)的力量選題的好壞直接關(guān)乎一個(gè)產(chǎn)品的成功與否。在這方面,?四庫全書?的原文電子版圖像,濟(jì)南、?四庫全書?的全文檢索版、?四部叢刊?全文檢索版,以及超星圖書館中的北大古籍等“館藏pdg圖像格式,等等,從解決用戶的迫切需求上而言,都是成功的。但也無庸諱言,在今天的各種數(shù)字化產(chǎn)品中,內(nèi)容的大量重復(fù)也是一個(gè)不爭的事實(shí)。這種重復(fù)不僅存在于一些小規(guī)模帶有普及性的電子書制作上,而且也同樣存在于一些大型的數(shù)字化工程中。最明顯的例子是?二十五史?,幾乎如今稱得上數(shù)字化工程的產(chǎn)品都全部或局部包含了它們。這種重復(fù)在人力和財(cái)力上都是一種浪費(fèi),它進(jìn)步了開發(fā)本錢,相應(yīng)減少了對其他可開發(fā)工程的投入。造

4、成這種重復(fù)的原因,除了有些文獻(xiàn)本身屬于根本之根本的典籍,制作單位需要利用它們以獲得根本的用戶外,資源共享上的隔膜恐怕也是一個(gè)重要原因。特別是在電子文獻(xiàn)資源、技術(shù)資源和信息資源上的共享上,這種隔膜對更多更好工程的開發(fā)是相當(dāng)不利的。這方面的例子可以列出許多,其大而又大者如?四庫全書?原文圖像版就有兩種,超星圖書館和國家圖書館及其他公共圖書館在圖書內(nèi)內(nèi)容上的大量重復(fù)。特別是對后者擁有的數(shù)字化資源在互利互惠的前提下進(jìn)展合理合法的利用,使致力于R、全文檢索引擎等數(shù)字化技術(shù)和實(shí)用工具開發(fā)的公司將更多的精力投向相關(guān)技術(shù)開發(fā),對產(chǎn)品質(zhì)量的進(jìn)步無疑是有重要作用的。二文件格式繁多,造成了閱讀和資料提取的費(fèi)事數(shù)字化

5、圖書格式之繁多,從上文的相關(guān)羅列中就可以看出。由于不同的圖書閱讀器互相難以兼容,因此給讀者帶來了許多費(fèi)事。頗為有趣的是,有一個(gè)數(shù)字圖書館采取pdf文件存儲(chǔ)格式,卻只能使用arbatreader去閱讀,連adbearbat也不支持。事實(shí)上,沒有一個(gè)讀者會(huì)愿意在自己的電腦上安裝七八個(gè)不同的閱讀器去閱讀圖書。以筆者個(gè)人為例,筆者曾經(jīng)是許多網(wǎng)上圖書館或書庫的注冊用戶,但因?yàn)闊┎粍贌?,如今常常光臨的只剩下超星數(shù)字圖書館了。不僅如此,由于許多圖書采用了圖片格式,也給使用者提取資料帶來了許多困難。這當(dāng)中,超星因其宏大的影響而常常成為批評的對象。筆者無意于否認(rèn)超星保護(hù)版權(quán)之努力的必要性和合法性,但因其相關(guān)技術(shù)

6、開發(fā)不同步,其本應(yīng)發(fā)揮更大作用的大量圖書資源并未得到很好的利用。限制打印頁數(shù)每次10頁、閱讀器所帶的截圖工具每次只能截取頁面的1/4最新版本已經(jīng)改成可整頁截圖徒自給合法用戶讀書卡注冊用戶增添費(fèi)事因?yàn)槠溟喿x器的破解版本完全可以破除這些限制,而且其所提供的R工具,對當(dāng)代標(biāo)準(zhǔn)印刷的直排繁體圖書的文字識(shí)別已經(jīng)無能為力,更談不上識(shí)別古代寫、刻、鈔、稿本的文字了。在這一點(diǎn)上,超星以及類似的數(shù)字圖書館似乎僅僅把自己定位在為讀者提供普通的圖書閱讀,而對專業(yè)研究者所需要的快速檢索、并將檢索結(jié)果直接轉(zhuǎn)換成編輯文本方面還關(guān)注不夠超星提供的全文檢索工具頗差。三隊(duì)伍組織、工程規(guī)劃單調(diào),導(dǎo)致了產(chǎn)品開發(fā)缺乏連續(xù)性在隊(duì)伍組織

7、方面,多數(shù)工程的開發(fā)以計(jì)算機(jī)技術(shù)和圖書館人員為主,技術(shù)公司和圖書館之間的合作,更多的是因?yàn)閳D書館擁有原始文獻(xiàn)資源。而圖書館本身對館藏圖書的數(shù)字化,又常常拘泥于傳統(tǒng)圖書館的圖書借閱形式,而只是將過去的人工手段轉(zhuǎn)化成計(jì)算機(jī)通訊這可能也是如今的數(shù)字圖書館多數(shù)采取圖片存儲(chǔ)格式的一個(gè)原因。在這一點(diǎn)上,如今的一些工程的開發(fā)與用戶的需求之間還有相當(dāng)?shù)拈g隔 。應(yīng)該說,在隊(duì)伍組織和工程規(guī)劃方面,目前并非沒有比擬成功的范例可以借鑒。臺(tái)灣中央研究院的系列電子化工程、元智大學(xué)的“網(wǎng)路展書讀、漢文化聯(lián)盟的?漢文化資料庫?采取的都是專業(yè)研究專家與技術(shù)人員、圖書館三方合作的方式,使得開發(fā)的工程與用戶尤其是專業(yè)研究者的實(shí)際需

8、求相切合。北京大學(xué)的?中國根本古籍庫?在設(shè)計(jì)思路上也采取了這種方式。而超星數(shù)字圖書館目前在其閱讀器設(shè)計(jì)中已參加了可由用戶編輯專題的虛擬圖書館,使資源開發(fā)者與用戶之間建立起一種動(dòng)態(tài)合作關(guān)系,也顯示出一種可喜的變化。在工程的整體規(guī)劃方面,也有不少可以挑剔的地方。按照我個(gè)人的理解,一個(gè)工程的開發(fā)至少應(yīng)該包含這樣的一些步驟:開發(fā)者對自身開發(fā)才能的合理評估和開展目的的合理定位根據(jù)前者選擇選題方式、進(jìn)展市場調(diào)查和確定選題選題可開發(fā)內(nèi)容的信息搜集確定開發(fā)的詳細(xì)目的主產(chǎn)品和副產(chǎn)品采樣技術(shù)處理過程測試修改與完善發(fā)布市場反應(yīng)補(bǔ)??梢钥闯?,從選題開場,工程開發(fā)就是一種多方互動(dòng)的活動(dòng)。從選題方式上看,單純依賴開發(fā)者自

9、己的想像,或者依賴文獻(xiàn)資源擁有者的倡導(dǎo),或者依賴局部學(xué)者的評議,甚至依賴權(quán)威的一兩句斷言,顯然都是不適宜的。最根本的一點(diǎn),就是工程開發(fā)應(yīng)該根據(jù)“什么最需要而非“是否有價(jià)值假如考慮到開發(fā)公司自身的生存問題,還應(yīng)該加上“是否可以盈利或具有盈利的希望的原那么去選定,而專家學(xué)者的看法通常著眼于“價(jià)值,這種價(jià)值認(rèn)定又往往因其專業(yè)限制而難免有局限。選題確定以后,對選題可開發(fā)內(nèi)容的信息搜集直接關(guān)乎工程開發(fā)的連續(xù)性。尤其是一些具有“原創(chuàng)性質(zhì)的開發(fā)工程,其本身所具有的系列開發(fā)內(nèi)容就很豐富。僅我個(gè)人所思及,就有這樣一些方面:其一,版本信息版本類型、年代、版式、字體、刊刻地點(diǎn)、刻工姓名等。這局部內(nèi)容可以通過掃描而得

10、到影象資料而進(jìn)一步開發(fā)。其二,全部書籍的詳細(xì)目錄匯總用以滿足不能購置整套軟件但希望掌握相關(guān)信息的用戶的需求。其三,最常用或極具價(jià)值的書籍資料單行或選編進(jìn)一類專用書籍中,以滿足一般用戶的需求。其四,工程中所包含的各類專題資料用以滿足專題研究者需求,或引導(dǎo)一般用戶進(jìn)展相關(guān)查詢。反觀如今的一些開發(fā)工程特別是全文檢索工程,除了所謂“單機(jī)板、“網(wǎng)絡(luò)版之類的“系列外,在其他方面的開發(fā)幾乎為零。工程開發(fā)者常常抱怨開發(fā)出的好產(chǎn)品沒有更多的用戶使用,卻往往忽略了另外一個(gè)問題:為什么不利用已有的開發(fā)成果,而再開發(fā)出能適應(yīng)不同用戶群體需求的產(chǎn)品來?除以上三方面外,技術(shù)處理上的缺陷、成果推廣上的緩慢、開發(fā)本錢過高導(dǎo)致

11、產(chǎn)品價(jià)格過高等,也都對成果的更大范圍的應(yīng)用有著一些影響。轉(zhuǎn)貼于論文聯(lián)盟.ll.三、“我需要什么:?四庫?全文檢索案例分析選擇?四庫全書?全文檢索版作為案例,是因?yàn)樗悄壳肮偶當(dāng)?shù)字化的一個(gè)非常突出的代表。而對它進(jìn)展分析,只是想根據(jù)我自己的使用感受答復(fù)這樣一個(gè)問題:用戶終究需要什么?一信息容量包含3400余種書的?四庫全書?全文檢索,無疑是如今容量最大的一個(gè)古籍?dāng)?shù)字化工程了。雖然?四庫?本身因編纂、版本等方面的問題而為學(xué)者所詬病,但因其文獻(xiàn)集中,而影印本又可以很快解決掃描底本問題,選擇它進(jìn)展數(shù)字化在目前無疑是非常正確的。比擬一下它和?中國根本古籍庫?的工作進(jìn)度,就可以發(fā)現(xiàn)?四庫?全文檢索在解決用戶

12、的最迫切需求上厥功甚偉。?中國古籍根本庫?自1998年啟動(dòng),至今將近四年,尚未見到成型的產(chǎn)品面世。而?四庫?前后僅三年就完全開發(fā)成功。甚至當(dāng)初竭力反對這項(xiàng)工程的學(xué)者,如今也成為它的積極的使用者,這本身就說明了這項(xiàng)工程的價(jià)值所在。?四庫?全文檢索之受到歡送的一個(gè)重要原因,就是其信息量的宏大。這種情形,也反映出另外一個(gè)問題:倘假設(shè)在版本與信息容量上不能兼顧,是選擇版本好但容量少,還是選擇版本稍差但信息容量大的圖書進(jìn)展數(shù)字化?據(jù)筆者本身以及所知的一些情況來看,恐怕多數(shù)人還是選擇后者。舉例說來,筆者的一位學(xué)友想搜集歷史上蝗災(zāi)的資料,每日前往圖書館翻閱圖書逐頁翻查,苦不堪言,猶恐遺漏,后通過筆者檢索?四

13、庫?“蝗字,即刻得4535卷、11329個(gè)匹配。由此把節(jié)省的大量時(shí)間轉(zhuǎn)入資料的考訂和搜集?四庫?所無之書中的資料,較之其先前的工作方式,優(yōu)劣判然。也因?yàn)槿绱?,筆者深感已經(jīng)大大超越同類數(shù)字化工程容量的?四庫?全文檢索,在容量上仍然不能滿足要求。比方筆者目前正在進(jìn)展?明儒學(xué)案?的文獻(xiàn)學(xué)研究,想查證其中的傳記資料和黃宗羲摘編的學(xué)術(shù)資料的原始來源,?四庫?全文檢索對多數(shù)人物無能為力。?四庫?中宗教類資料很少,明代著作未收者頗多,而清代因修書時(shí)代限制幾乎無法利用,這些缺憾都還需要其他數(shù)字化工程來補(bǔ)充。二顯示形式?四庫?電子版采取了檢索結(jié)果、原文圖像、全文閱讀三種顯示形式并可快速切換,亦屬獨(dú)創(chuàng)。這種顯示形

14、式確實(shí)有它的好處。原文圖像和全文閱讀的準(zhǔn)確對應(yīng),在兩者之間建立起了直接的勘校關(guān)系,可以解決全文閱讀時(shí)的局部文字錯(cuò)誤。特別是對古今字、異體字、避諱字等的關(guān)聯(lián)檢索沒有到達(dá)完善匹配的時(shí)候,原文圖像在補(bǔ)字和校正錯(cuò)字方面就有重要作用。但是,這種方式也存在諸多問題,匯總?cè)缦隆?檢索結(jié)果方面1單機(jī)版的檢索結(jié)果能打印但不能復(fù)制網(wǎng)絡(luò)版可以通過網(wǎng)頁拷貝方式復(fù)制,有卷數(shù)、書名而無其他可顯示該條資料的內(nèi)容,使得在缺乏隨身攜帶全文檢索的情況下無法與其他的書籍內(nèi)容進(jìn)展比對。這一點(diǎn)在書同文?四部叢刊?的開發(fā)中已經(jīng)得到修正。2檢索結(jié)果必須通過閱讀原文才能知曉詳細(xì)內(nèi)容,不能集中顯示,也給用戶使用帶來了一些費(fèi)事。比方“朱子的檢索

15、結(jié)果就高達(dá)9133卷、37910個(gè)匹配,假設(shè)將此外的“文公13180卷,33153個(gè)匹配、“晦庵1665、3293、“朱熹1839、4508加在一起,計(jì)有25817卷、78864個(gè)匹配。至于“孔子,更是高達(dá)23757卷、111641個(gè)匹配。假定每個(gè)匹配的閱讀時(shí)間平均為1分鐘加上復(fù)制相關(guān)資料、標(biāo)點(diǎn),實(shí)際一條資料的處理時(shí)間遠(yuǎn)遠(yuǎn)超過1分鐘,每天八小時(shí)不連續(xù)地閱讀,那么“朱子等條資料需要花164天、“孔子需要花233天才能閱讀完畢。假如是通過網(wǎng)絡(luò)閱讀,其費(fèi)事會(huì)更大些。臺(tái)灣中央研究院的?漢籍電子文獻(xiàn)?、陳郁夫先生的“寒泉檢索系統(tǒng)都采用了可以分段顯示的方法,甚是便利。2原文閱讀方面1原文顯示上區(qū)分正文和注

16、文,一方面將有些并非注文的小字誤作注文,另一方面在拷貝時(shí)將注文置于頁末,頗為不便。后者在?四部叢刊?全文檢索中已經(jīng)得到糾正。2未妥善解決異體字等關(guān)聯(lián)問題,導(dǎo)致有些文章在拷貝后必須補(bǔ)充大量空缺的文字四庫自帶了方正楷體大字庫,但并非所用使用者的本地機(jī)上都有這種字庫,因此在無此字庫支持的電腦上閱讀和編輯都不方便。此兩者可舉?晦庵集?中一條為例。原文截圖如下:拷貝到相關(guān)編輯器中的結(jié)果如下截圖:3原文圖像方面筆者無意否認(rèn)附帶原文圖像的價(jià)值,但這種做法事實(shí)上造成了產(chǎn)品難以在更大范圍推廣。?四庫?的全文檢索安裝盤僅16張光盤,而圖像盤高達(dá)167張,這無疑也進(jìn)步了制作本錢,從而相應(yīng)帶來了價(jià)格的進(jìn)步。國內(nèi)不少用

17、戶對?四庫?全文檢索心向往之,卻最終沒有去購置,高昂的價(jià)格大概是使他們望而卻步的一個(gè)重要原因。三檢索形式?四庫?提供了全文檢索、分類檢索、書名檢索、著者檢索以及“開啟當(dāng)前檢索條件用以修正當(dāng)前檢索的內(nèi)容。全文檢索還可分部、分書或分著者進(jìn)展,并支持復(fù)合檢索。而在全文閱讀狀態(tài)下,還可以通過選擇當(dāng)前閱讀頁面中的文字進(jìn)展再檢索。分類、書名、著者檢索提供簡單、詳細(xì)、詳細(xì)三種顯示方式并提供了相關(guān)鏈接以進(jìn)展切換。此外,在全文檢索、書名檢索、著者檢索中還增添了一些輔助功能設(shè)計(jì),分類檢索中那么包含了部、類、書、目錄的層級搜索方式。這些檢索方式,可以滿足用戶不同的檢索要求,使用也很方便,非常值得贊賞。而附加的聯(lián)機(jī)字

18、典、添加筆記、放大鏡等工具也頗具實(shí)用價(jià)值其聯(lián)機(jī)字典猶具價(jià)值,惜釋義稍簡。感覺不方便的地方是:原文的卷次顯示于頁面的底端,位置不當(dāng)。有些著作的卷次顯示尤有問題。比方別集類明代的一些著作,標(biāo)成“集部,別集,洪武至崇禎,?為書名的第一個(gè)字,顯示了前面一堆無用的信息,而關(guān)鍵的卷次信息卻被省略。四檢準(zhǔn)率從整體上看,?四庫?全文檢索的命中率應(yīng)該是很高的。筆者利用它考證一些概念的演變、人物的生平、古籍整理上引文的查核以及??钡龋极@得了滿意的結(jié)果。甚至偷閑的時(shí)候胡亂檢索一些字詞,也常常得到意想不到的結(jié)果。比方“愛情兩字,檢索得159卷163個(gè)匹配,雖然其中許多都是兩字碰巧排在一起,但也確實(shí)有兩字連用者。如?

19、禮記集說?“假設(shè)愛情在心,那么聲和柔、?續(xù)資治通鑒長編?卷一六九“伏望陛下斷以大義,稍割愛情、?清河畫舫錄?卷一二上“自亦不堪屬目,以徇愛情而已之類,雖意思與現(xiàn)代的男女情愛邈不相關(guān),亦頗見古今詞義之變化。尤為有趣者,現(xiàn)代人通常把歷史上的禮制想像得非??膳?,而且似乎歷久不變,然檢索“離婚兩字,得172卷192個(gè)匹配,其事件可追于春秋,而?晉書?即屢屢見“離婚二字,假設(shè)輔以其他記載,諸資料內(nèi)容頗有可判今人認(rèn)識(shí)之誤者。要求?四庫?全文檢索在命中率上到達(dá)完全無誤,顯然是一種太過苛刻的要求。但從完善產(chǎn)品的角度言,?四庫?在檢索的準(zhǔn)確率上確實(shí)還有待進(jìn)步。由于版本不同,筆者無法用其他的全文檢索產(chǎn)品來進(jìn)展比照,在此僅列舉一個(gè)事例以作說明。檢索“講會(huì)二字資料,得36卷、37條。然通過個(gè)人所知者復(fù)核,覺察?四庫?脫漏甚多。比方?法苑珠林?一條,另載于?廣博物志?卷五、?太平廣記?卷九九兩條未檢出;?東都事略?卷一一四、?宋名臣言行錄外集?卷三所載“赴講,會(huì)條,另載于?續(xù)資治通鑒長編卷?四0四、?太平治跡統(tǒng)類?卷二五、?伊洛淵源錄?卷四、?二程遺書?附錄、?近思錄集注?附說、?御纂朱子全書?卷五三、?晦庵集?卷九八諸條未檢出。?晦庵集?檢索得一條,但

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論