《文集》中的xml技術(shù)與古文獻(xiàn)整理_第1頁
《文集》中的xml技術(shù)與古文獻(xiàn)整理_第2頁
《文集》中的xml技術(shù)與古文獻(xiàn)整理_第3頁
《文集》中的xml技術(shù)與古文獻(xiàn)整理_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《文集》中的xml技術(shù)與古文獻(xiàn)整理

xml技術(shù)的引入為對古代文獻(xiàn)的分類和科學(xué)研究提供了新的研究領(lǐng)域?!都崱肥潜彼喂傩薜捻崟?在文字學(xué)、音韻學(xué)、訓(xùn)詁學(xué)、辭書學(xué)等方面都具有重要的研究價值。我們以《集韻》XML建模和處理為例,展示了如何利用新的標(biāo)注技術(shù)輔助古代文獻(xiàn)整理和學(xué)術(shù)研究。一、數(shù)據(jù)庫技術(shù)可以改變傳統(tǒng)的內(nèi)容計算機(jī)技術(shù)應(yīng)用于整理古代文獻(xiàn)整理和學(xué)術(shù)研究,它最常用的功能就是全文檢索,檢索結(jié)果顯示的是字、詞、句子,但計算機(jī)不過是在對字符的編碼進(jìn)行匹配,對記錄字符串的數(shù)值進(jìn)行運(yùn)算。計算機(jī)并不能懂得文檔的內(nèi)容———知識。雖然關(guān)系數(shù)據(jù)庫技術(shù)出現(xiàn)后,可以將文檔的內(nèi)容分析為字段和記錄的形式加以存儲,也在某種程度上實現(xiàn)了內(nèi)容的可理解。但是數(shù)據(jù)庫一方面依賴于特定的軟件管理系統(tǒng),另一方面它又肢解了原文檔內(nèi)容的整體性,降低了古文獻(xiàn)的可讀性。同時大量的古代文獻(xiàn),其文檔結(jié)構(gòu)為立體型,如用關(guān)系數(shù)據(jù)庫存儲,將不得不建立多個數(shù)據(jù)庫表進(jìn)行關(guān)聯(lián),如此程序的編寫和語言知識的提取分析都將不勝其煩。所以要使計算機(jī)技術(shù)服務(wù)于古文獻(xiàn)整理,就要使計算機(jī)“理解”文檔內(nèi)容,必須采用標(biāo)記(Tag)對文檔內(nèi)容進(jìn)行標(biāo)識。因此,引入一種自定義的、面向純文本的、能存儲結(jié)構(gòu)化數(shù)據(jù)的新的標(biāo)注技術(shù)就是必要和必須的了。二、表面活性劑的生成和應(yīng)用為了推動語料存儲格式的標(biāo)準(zhǔn)化,實現(xiàn)語料的交換和共享,1986年ISO正式發(fā)布了國際標(biāo)準(zhǔn)SGML(StandardGeneralizedMarkupLanguage,標(biāo)準(zhǔn)通用置標(biāo)語言),標(biāo)準(zhǔn)號是ISO8879-1986。我國于1995年也把SGML語言作為國家標(biāo)準(zhǔn),標(biāo)準(zhǔn)號為GB14814。XML(eXtensibleMarkupLanguage,可擴(kuò)充置標(biāo)語言)是SGML的一個子集,被廣泛地用作語料庫標(biāo)注的元語言,通過DTD(DocumentTypeDefinition,文件類型定義)和Schema來規(guī)范XML文件,從而使表現(xiàn)與內(nèi)容分離,規(guī)范與實現(xiàn)分離,具有良好的擴(kuò)縮性。XML與其他置標(biāo)語言相比,它有以下優(yōu)勢:基于自然語言、可擴(kuò)展性、屬性標(biāo)注、結(jié)構(gòu)化、校驗等。首先,基于自然語言,就讓我們利用它來為古代漢語文獻(xiàn)標(biāo)記成為可能,而且只要大家用同套術(shù)語,可以共享資源;其次,可擴(kuò)展性就可以根據(jù)需要自己設(shè)定標(biāo)記,以定義需要的新標(biāo)記。這意味著在創(chuàng)建XML文檔時,不會局限于一套預(yù)先定義的標(biāo)簽,而可以根據(jù)你自己的需要創(chuàng)建所需要的任何標(biāo)簽,如我們古文獻(xiàn)中音韻學(xué)研究獨(dú)有的大韻、小韻、反切、引書、引人等均可自行定義;第三,結(jié)構(gòu)化也是它的一個顯著優(yōu)點,可以表示任意復(fù)雜程度的數(shù)據(jù),可嵌套層層標(biāo)記。這一特點尤其適用于處理文檔結(jié)構(gòu)類型為立體型的古代文獻(xiàn);第四,校驗,可以檢查數(shù)據(jù)的結(jié)構(gòu)正確性。如果某個文檔符合XML語法規(guī)范,那么我們就說這個文檔是“結(jié)構(gòu)良好”的文檔。使用XMLSpy2006工具就可以測試某文檔是否為結(jié)構(gòu)良好的XML文檔。所謂有效的XML文檔是指通過了DTD或者Schema的驗證的,具有良好結(jié)構(gòu)的XML文檔。我們一般采用Schema來驗證XML文檔的有效性。在古代文獻(xiàn)整理和學(xué)術(shù)研究中,我們應(yīng)用XML技術(shù)包括了文本的生產(chǎn)、數(shù)據(jù)建模、文本標(biāo)注、屬性提取、文本轉(zhuǎn)換等工作。三、xml建模和處理1.對古堂影宋本的校正我們主要以曹刻本作為我們研究的底本,同時參照長沙本《集韻》和1985年上海古籍出版社影印出版的述古堂影宋抄本進(jìn)行校對,同時吸收方成珪、黃侃、白滌洲、邱棨鐊、邵榮芬、趙振鐸等的??背晒?對《集韻》進(jìn)行???。由于《集韻》中許多字都屬于超大字符,在我們在處理電子文獻(xiàn)生產(chǎn)過程中遇到繁難冷僻的漢字時主要就是采用導(dǎo)師尉遲治平教授設(shè)計開發(fā)的中文超大字符集輸入法。2.xml建模、建模和處理大韻集合的構(gòu)成《集韻》文檔的結(jié)構(gòu)較為復(fù)雜,據(jù)曹刻本分析,其全文主要包括目錄和正文兩個部分。初步分析,目錄部分包括書名、卷名、卷次、大韻集合等。大韻集合又包括韻目、反切、次序、用法、頁碼。正文部分是206個大韻構(gòu)成的一個整體。每個大韻大致都由若干個小韻構(gòu)成,每個小韻由小韻首字、韻字組成。小韻首字和韻字,其內(nèi)部情況紛紜多樣,但大略可析分出字頭和注釋和反切。我們的研究目的不一,對其可以做出完全不同的分析。比如反切里面的主切、又切以及注釋里面的引書、引人等等都可能構(gòu)成一個個元素。綜合以上種種情況,我們畫出了《集韻》文檔的樹形結(jié)構(gòu)圖,如下圖帶教標(biāo)記的漢字語為了文檔結(jié)構(gòu)層次的簡潔、經(jīng)濟(jì),我們擬直接以”集韻”作為我們的根元素。另外,由于目前大量主流軟件尚不支持漢字標(biāo)記,我們便采用漢語拼音作為標(biāo)記。根元素及各節(jié)點子元素的標(biāo)記我們分別定義如下:根元素:集韻:jiyun其他備用葉子元素:題目:mulu正文:zhengwen書名:shuming卷名:juanming卷次:juanci大韻集合:dayunjihe大韻:dayun小韻:xiaoyun小韻首字xiaoyunshouzi韻字:yunzi字頭:zitou注釋:zhushi反切:fanqie擴(kuò)展名稱的源文件前面我們提到,Schema是一個強(qiáng)大而靈活的數(shù)據(jù)建模工具。XMLSchema的W3C的推薦標(biāo)準(zhǔn)叫做XSD,它可以準(zhǔn)確地描述文檔結(jié)構(gòu),即定義XML文件中允許哪些元素和屬性、哪些元素和屬性是必需的、哪些又是可選的、允許的數(shù)據(jù)種類以及XML文件內(nèi)容和結(jié)構(gòu)的其他方面。使用XSD建模的成品就是擴(kuò)展名為xsd的源文件。如我們創(chuàng)建jiyunzhengwen.xsd文件,代表上面我們對《集韻》正文文檔結(jié)構(gòu)分析的成果。該XSD文件既能夠連接到已有的XML文檔中,以驗證其文檔的有效性,也可以作為模式架構(gòu)添加到文本編輯器中,以實現(xiàn)XML標(biāo)記的自動標(biāo)注。當(dāng)然我們這里為《集韻》XML文檔建立的架構(gòu)仍是粗線條的,對于字頭和注釋節(jié)點下的子元素有待研究者根據(jù)自己的需要加以定義。生成“ssr”1.添加架構(gòu)新發(fā)布Office2003聲稱全面支持XML,我們使用其組件中文微軟Word2003作為我們XML文檔的編輯器和解析器。首先我們用Word2003打開我們制作的《集韻》電子純文本。然后在“工具”菜單上,單擊“模板和加載項”,然后單擊“XML架構(gòu)”選項卡。單擊“添加架構(gòu)”,瀏覽并找到要添加到架構(gòu)庫中的XML架構(gòu)jiyunzhengwen.xsd,然后單擊“打開”。在“架構(gòu)設(shè)置”對話框中,選擇所需的選項,在“別名”框中鍵入架構(gòu)的名稱,最后點擊確定完成。2.半自動標(biāo)注增加架構(gòu)后,Word2003編輯框右邊會出現(xiàn)如下“XML結(jié)構(gòu)”任務(wù)窗格。我們依次可以在“集韻節(jié)選”文檔中選擇相應(yīng)元素,然后在“XML結(jié)構(gòu)”任務(wù)窗格的“選擇一種元素并應(yīng)用于當(dāng)前的選定內(nèi)容”框中單擊一個元素,則完成對該元素的標(biāo)注,已標(biāo)注的元素被圖2所見的紅色光帶所嵌套。標(biāo)注中或完成標(biāo)注后,如文檔結(jié)構(gòu)不符合架構(gòu)規(guī)則,將會在文檔中以紫色波浪線標(biāo)記出來,并在“XML結(jié)構(gòu)”任務(wù)窗格中報告此違規(guī)錯誤。整個標(biāo)注界面如下圖所示:3.“質(zhì)”文件存:“”命令存完成標(biāo)注且通過架構(gòu)驗證的文檔可選擇“文件”菜單上的“另存為”命令保存為“jiyunzhengwen.xml”文檔。為保證其他XML的軟件也能閱讀并處理我們保存為XML格式的文檔數(shù)據(jù),我們選擇“僅保存數(shù)據(jù)”的備選項。在形成系統(tǒng)文件時,把所使用的元素和知識轉(zhuǎn)化為形式表創(chuàng)建的漢語史XML文檔,由于各個元素都被加上了相應(yīng)的標(biāo)簽,我們就可以按圖索驥,從中提取我們需要的元素和知識。要從原有XML文檔中提取、轉(zhuǎn)換并顯示出我們需要的元素和信息,我們可以利用XML的樣式表技術(shù)。樣式表有兩種:即層疊樣式表(CSS)和可擴(kuò)展樣式表(XSL)。鑒于目錄在word中不易固定位置,我們用CSS來實現(xiàn)mulu.xml文件的轉(zhuǎn)換。具體步驟如下:1.押韻集上平卷的xml文件2.顯示平聲卷一目錄編寫好“mulu.css”后,欲顯示“mulu.xml”文檔中的所有元素,將“mulu.css”文檔與“mulu.xml”鏈接,就可以顯示《集韻》平聲卷一目錄。四、價值漢字的收入XML還是一種處于發(fā)展之中的技術(shù),而古籍字形的計算機(jī)處理還未得到完善解決。最集中的一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論