古籍自動(dòng)化整理.doc_第1頁
古籍自動(dòng)化整理.doc_第2頁
古籍自動(dòng)化整理.doc_第3頁
古籍自動(dòng)化整理.doc_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

論古籍整理自動(dòng)化北京大學(xué)中文系 李鐸信息科技在古代典籍的整理方面,經(jīng)歷著三個(gè)階段。一是數(shù)據(jù)文獻(xiàn)的錄入。八十年代,臺(tái)灣中央研究院率先錄入整理重要的古代典籍。由于大陸較早使用的GB2312漢字系統(tǒng)僅支持6763個(gè)漢字,且不支持繁體,所以,大陸在文獻(xiàn)的整理上僅限于現(xiàn)當(dāng)代文學(xué)作品、大型報(bào)刊等。自96年WIN95支持CJK以來,大陸纔開始啟動(dòng)這方面的工作,但大多數(shù)仍處于計(jì)算器加手工作坊的階段,即人工錄入。九十年代末香港迪志公司與北京書同文公司聯(lián)合開發(fā)四庫全書,使用非特定人手寫識(shí)別系統(tǒng),極大的節(jié)約了人力物力。僅兩年多的時(shí)間,我們就可以使用四庫全書這部近八億漢字的叢書了,后來書同文公司又開發(fā)了四部叢刊近一億漢字的古籍?dāng)?shù)據(jù)庫,目前該公司又著手四部叢刊的四編整理。二是文獻(xiàn)的檢索。一旦整理出古籍文獻(xiàn),它就進(jìn)入了使用階段,對(duì)于小量的文檔,就可以直接在自己的WORD中使用檢索,查找需要字詞,如果會(huì)使用VBA,還可以編輯引得、關(guān)聯(lián)相關(guān)的數(shù)據(jù)庫等等。如果是海量數(shù)據(jù),可以使用特定的檢索平臺(tái),甚至可以直接對(duì)數(shù)據(jù)庫操作。還有多種的搜索引擎用來搜索互聯(lián)網(wǎng)上的學(xué)術(shù)資源,這使古代文學(xué)、古代漢語的研究有了突破性的進(jìn)展。三是古籍文獻(xiàn)的自動(dòng)化整理、多維數(shù)據(jù)庫建設(shè)、智能分析階段。它是在積累了一定的文本數(shù)據(jù)后的更高級(jí)的數(shù)據(jù)整理與多任務(wù)的應(yīng)用開發(fā),這一階段的特征是,數(shù)據(jù)整理與學(xué)術(shù)研究相互促進(jìn),數(shù)據(jù)整理帶有學(xué)術(shù)性,學(xué)術(shù)研究對(duì)數(shù)據(jù)庫建設(shè)提出更精細(xì)的要求。也就是我們目前所處的階段。我想以我們近期的工作及設(shè)想來說明之。全宋詩的自動(dòng)化分析過程一、文字整理大陸的出版機(jī)構(gòu)在九十年代初就比較廣泛得使用了北大方正的排版系統(tǒng),今天還有80%以上出版商仍在使用著,迄今出版了數(shù)萬種圖書。當(dāng)初這一系統(tǒng)僅是為出版紙介而開發(fā)設(shè)計(jì)的,并未考慮到已輸入到計(jì)算器的數(shù)據(jù)以后可以更進(jìn)一步開發(fā)利用。如繁體字文獻(xiàn),該系統(tǒng)仍使用簡體字內(nèi)碼,只是在輸出照排時(shí)改變字型輸出繁體字,而且此內(nèi)碼字庫太少,亦無法適應(yīng)古代文獻(xiàn)的輸出,所以北大方正又自行設(shè)計(jì)了一套擴(kuò)充字庫,用來補(bǔ)充那6763漢字,而這擴(kuò)充字庫未使用通用的標(biāo)準(zhǔn)系統(tǒng),在內(nèi)碼上與后來的GBK中的繁體字完全不兼容,這在轉(zhuǎn)換上造成了一定的困難,如文獻(xiàn)中的“風(fēng)B7E7”字,我們?nèi)绻麑⒅D(zhuǎn)換為繁體的“風(fēng)”字(EF4C),就會(huì)發(fā)現(xiàn),“風(fēng)”字的數(shù)量增大了,因?yàn)樵谵D(zhuǎn)換前,文獻(xiàn)中已有“風(fēng)(EF4C)”,相對(duì)GBK而言,它則應(yīng)是字庫中的“鹙”字,如果先將繁體的“風(fēng)”(實(shí)際上是“鹙”字)轉(zhuǎn)換為“鹙”,則與文獻(xiàn)中另一位置的“鹙”(另外一個(gè)字)沖突,又多出了很多個(gè)“鹙”字。所以北大方正排版系統(tǒng)為排版而制作的數(shù)據(jù)需要經(jīng)過復(fù)雜的轉(zhuǎn)換過程,北京大學(xué)中文系語言學(xué)實(shí)驗(yàn)室開發(fā)了一套北大方正內(nèi)碼向GBK代碼的轉(zhuǎn)換系統(tǒng),除人工實(shí)時(shí)造字外,基本上可以完整轉(zhuǎn)換。全宋詩的整理便是基于這一轉(zhuǎn)換系統(tǒng),加人工補(bǔ)字來完成的。最初我們也曾考慮到使用錄入、掃描識(shí)別等手段,但是由于當(dāng)時(shí)掃描識(shí)別率較低,工作量過大,僅校對(duì)一項(xiàng)就要花費(fèi)掉該項(xiàng)目的全部費(fèi)用。二、格律詩的標(biāo)注我們?cè)阡浫胝砣圃姇r(shí)還是使用手工作坊的方式:雙機(jī)錄入,單機(jī)校對(duì)。在全唐詩上網(wǎng)前,我想,我們不是一般的公司開發(fā)軟件,我們應(yīng)盡可能地利用我們的學(xué)術(shù)資源,在數(shù)據(jù)中融入一些商業(yè)公司無法操作的學(xué)術(shù)內(nèi)容。所以,首先想到的是將全唐詩標(biāo)注出格律來,這對(duì)我們這個(gè)項(xiàng)目組(我和一些研究生們)來說,是一項(xiàng)比較繁重的工作,由于有211項(xiàng)目的資助,我們還是決定人工加標(biāo)識(shí)。可是,有很多作品我們無法判定其格律,所以請(qǐng)了袁行霈、蔣紹愚兩位先生為我們的顧問,我們凡遇到無法判定的詩作就求教于這二位先生。僅此一項(xiàng)標(biāo)注工作,就占去了全唐詩開發(fā)工作總量的四分之一。全宋詩有二十五萬余首詩,是全唐詩的五倍,其格律詩的比例也遠(yuǎn)遠(yuǎn)大于全唐詩,如果一首一首標(biāo)注,恐怕需要若干年的時(shí)間。如果使用計(jì)算器自動(dòng)標(biāo)注,會(huì)不會(huì)出現(xiàn)過大誤差,我們實(shí)驗(yàn)性地開始此項(xiàng)工作。首先,我們依據(jù)佩文韻府建設(shè)了詩韻庫,又根據(jù)詩的格律特征,依據(jù)王漁洋的律詩定體建設(shè)了二十八種格律詩模型庫。然后,就由計(jì)算器對(duì)全宋詩掃描分析,使用加權(quán)重算法,使相當(dāng)一部分的拗體詩(不符合二十八種格律的)也能被檢索到,標(biāo)識(shí)出十六萬余首格律詩。經(jīng)過分析對(duì)比,這種標(biāo)識(shí)方法比我們?cè)瓉碚硖圃姇r(shí)人工標(biāo)注的更為準(zhǔn)確。由于佩文韻府所定義的漢字,有太多的多音字,且分屬不同韻部,尤其是同時(shí)分布在平聲字和仄聲字中。而在建宋詩平仄庫時(shí),由于沒有宋詩的詞語庫(我們正在考慮建設(shè)),那么計(jì)算器在識(shí)別判斷平仄時(shí)便遇到了困難,如“相”字,在“相思”詞中,是平聲,在“宰相”中則是仄聲,如果有語詞庫,我們將語詞權(quán)重加上,會(huì)比較容易地解決這個(gè)問題?,F(xiàn)在的問題是:我們雖然可以根據(jù)詩的格律來判定當(dāng)平當(dāng)仄,可是這格律又是在建庫時(shí)就要確定的,為解決這一問題,我們引入了層次分析算法,即第一步先將固定平仄的字標(biāo)識(shí)出來,使用“向量空間模型”,允許有一定量的誤差,做第一層的格律詩數(shù)據(jù)庫,然后在第二個(gè)層面上,使用另一音韻庫二次判別詩的平仄。結(jié)果定為:非格律詩,我們保留了原來多音字的信息,而格律詩,則以比較準(zhǔn)確的形式顯示詩的格律,這一做法是比較成功的,以后對(duì)語料庫做深加工時(shí),仍有必要使用這種算法。三、重出詩的自動(dòng)提取臺(tái)灣林枚儀教授率先使用計(jì)算器研究全宋詞的重出問題。她對(duì)重出詞的初步提取,主要是依據(jù)詞的句長特征,而我們面對(duì)宋詩,則無法使用這種方法。所以我們認(rèn)為使用格律詩的“向量空間模型”可以幫助解決這個(gè)問題?,F(xiàn)在,我們提取出全部五千余首重出詩,而且這些重出詩并不是指文字完全相同,而且指達(dá)到了一定的相似度。四、信息檢索模型的建設(shè)我們?cè)?998年開發(fā)的全唐詩檢索系統(tǒng)并不是單一模式的全文檢索,我們使用了新西蘭國家圖書館的布爾模型(Boolean Model),這一模型突破了原布爾模型檢索結(jié)果的無序性,使我們?cè)跈z索相關(guān)信息時(shí),可以得到特定序列的數(shù)據(jù),如在詩內(nèi)容中輸入“酒”字,同時(shí)選擇“部分匹配”,返回的結(jié)果,第一首詩是李白的月下獨(dú)酌之二“天若不愛酒,酒星不在天。地若不愛酒,地應(yīng)無酒泉”這首含“酒”字最多的詩,如果使用“完全匹配”,則使用一般全文檢索的規(guī)則,并返回原書順序。這種檢索方法目前在互聯(lián)網(wǎng)上相當(dāng)普遍。在全宋詩的開發(fā)中,我們需要檢索出重出詩,需要標(biāo)識(shí)詞的格律,需要檢索出內(nèi)容相似的詩作,需要檢索形式相近的詩作,Boolean Model已不能滿足這方面需要。所以,我們參考Cornell大學(xué)Salton教授開發(fā)的“向量空間模型”(Vector Space Model),它與Boolean Model不同,它把查詢項(xiàng)和數(shù)據(jù)庫中的信息顯示為檢索構(gòu)成的向量空間中的點(diǎn)。這樣,我們可以通過計(jì)算向量之間的距離來判斷原數(shù)據(jù)與檢索項(xiàng)的相似度,這便是“格律詩標(biāo)識(shí)”和“相似詩檢索”的基礎(chǔ)。如果達(dá)到一定的“相似度”,也就是根據(jù)向量夾角的余弦值,就可以確定這是一首重出詩或僅是一定程度上的相似詩。這一算法在宋詩的運(yùn)用中比較成功,然而在未來海量的數(shù)據(jù)處理中,面對(duì)不同類型的數(shù)據(jù),這種模型還要進(jìn)一步完善。我們相信在未來唐宋詩的自動(dòng)切分語詞或語料庫的整理中,這種模型會(huì)發(fā)揮更大的作用。查詢擴(kuò)展功能在全宋詩中的實(shí)現(xiàn)。依據(jù)作者檢索宋詩,如果輸入的是“王安石”,自然應(yīng)當(dāng)找到王安石的全部作品,可是如果輸入“王荊公”或者“王介甫”呢?我們?cè)谧髡唔?xiàng)里加入了擴(kuò)展項(xiàng)的查詢。目前還僅限于作者,在全文檢索中還沒有實(shí)現(xiàn)這樣的擴(kuò)展功能,因?yàn)檫@需要我們擴(kuò)充語詞的相關(guān)內(nèi)容,它的基礎(chǔ)是建設(shè)語詞庫。如果擴(kuò)展功能應(yīng)用到全文檢索,當(dāng)您輸入了“李白”,它同時(shí)能檢索到“太白”“青蓮居士”等等相關(guān)詩作。目前我們開發(fā)的全宋詩檢索系統(tǒng),今年九月將由北京大學(xué)出版社出版發(fā)行。我們希望以后出版的這類檢索能融入更多的科研成果,有更高的學(xué)術(shù)價(jià)值。古籍自動(dòng)化整理中的學(xué)術(shù)研究一、高深度的數(shù)據(jù)庫建設(shè)現(xiàn)在世界各地所整理的文獻(xiàn)從數(shù)量上看,已達(dá)到一定的規(guī)模,但是,許多文獻(xiàn)庫質(zhì)量不高,而且深度不夠。因此,我們下一步的工作,將把重點(diǎn)放到文獻(xiàn)庫的精加工上面。我們已經(jīng)完成了詩經(jīng)楚辭先秦兩漢魏晉南北朝詩樂府詩集全唐詩全宋詩等,下一步的工作不是去開發(fā)全明詩全清詩,而是擬對(duì)宋及宋前的詩詞進(jìn)行深加工整理。它包括:(一)建設(shè)詩歌語詞歷史庫,即將已有的文獻(xiàn)做分詞整理,在這方面,我們已經(jīng)擬定了工作的流程及基本算法,如在分詞的同時(shí),記錄保留原文獻(xiàn)位置等信息。這樣,我們對(duì)中國古代詩人詩作的研究并不是簡單基于字頻、用韻等,而且加上了語詞特征分析及歷史沿習(xí)特征分析,在建設(shè)宋詩的語詞庫時(shí),關(guān)聯(lián)到宋前作品,如同對(duì)用典的分析一樣,這樣可以推出詩歌語詞的流變過程。(二)建設(shè)二十五史的人名地名關(guān)系庫,這是一項(xiàng)極其龐大但又十分有意義的工作。(三)依據(jù)袁先生主編的中國文學(xué)史,建設(shè)“數(shù)字中國文學(xué)史”,將中國文學(xué)史相關(guān)的文獻(xiàn)進(jìn)行精加工整理,建成一個(gè)內(nèi)容豐富的中國文學(xué)科研與教學(xué)的輔助系統(tǒng)。二、帶著課題做數(shù)據(jù)很多文獻(xiàn)庫的整理,都有一定的商業(yè)性,所以,它所面對(duì)的是一般使用者,其功能往往是定義過的,數(shù)據(jù)本身也是封裝的。我們?cè)谶M(jìn)一步的開發(fā)中,則是面向?qū)W術(shù)研究的,例如,我們通過對(duì)唐宋詩詞的整理,我們將單獨(dú)為釋家、女詩人、流派、家族等建庫,這樣結(jié)合歷史文獻(xiàn)的研究,可以析出女性詩作的用韻、格律、字頻、詞頻等相關(guān)曲線,可以對(duì)佛教文化對(duì)中國詩歌發(fā)展的影響進(jìn)行研究,可以分析宋代家族文學(xué)興起發(fā)展的過程,可以進(jìn)一步江西詩派及其影響做更深入的分析。通過地名人名關(guān)系庫,我們可以分析歷代文學(xué)家在地理上的分布及發(fā)展過程,有利于研究中國文學(xué)的興衰因素。在精加工數(shù)據(jù)的同時(shí),自然會(huì)要求錄入新的文獻(xiàn)數(shù)據(jù),我們也要將之學(xué)術(shù)化,將學(xué)術(shù)研究課題融入建庫的過程中。三、自然語言的查詢我們?cè)陂_發(fā)全宋詩的查詢模型時(shí),曾考慮過使用“概率檢索模型”(Probabilistic Model),而非“向量空間模型”,如果這樣的話,可以讓使用者使用自然語言來查詢分析數(shù)據(jù),如使用者可以輸入“宋代和尚中用酒字最多的詩”。但是,后來我們認(rèn)為由于詩歌的數(shù)據(jù)類型比較統(tǒng)一,檢索要求也往往一致,數(shù)據(jù)建庫者又往往是熟悉計(jì)算器的人員。所以,使用了“向量空間模型”并加了擴(kuò)展功能,將底層分析過的數(shù)據(jù)二次建庫,這樣可以節(jié)省數(shù)據(jù)庫使用者的大量時(shí)間。在我們目前準(zhǔn)備開始開發(fā)的新系統(tǒng)數(shù)字中國文學(xué)史中,我們便決定使用概率檢索模型,因?yàn)?,該?xiàng)目的數(shù)據(jù)量大,而且數(shù)據(jù)類型復(fù)雜,除文本數(shù)據(jù)外,還有大量的超文本(音頻、視頻文獻(xiàn))。如果給出一個(gè)復(fù)雜的接口,一方面很難做到適合多種需求的查詢,另一方面,使用者會(huì)在學(xué)習(xí)使用該界面上耗費(fèi)大量時(shí)間。我們?cè)O(shè)想,使用者在一檢索對(duì)話框中輸入“李白曾到過哪些地方”,就可以調(diào)出李白游蹤表和地理圖;輸入“唐代河南有哪些著名詩人”,就可以顯示出“杜甫、李賀、李商隱”等詩人;在讀到琵琶行時(shí),雙擊“琵琶”,就可以看到“琵琶”的圖形,甚至聽一首琵琶曲。目前我們所面臨的難題,一是現(xiàn)有的數(shù)據(jù)庫模型對(duì)西方語言支持度高,對(duì)中文支持度低。需要自己重新搭建適合漢語的平臺(tái),一是目前的數(shù)據(jù)庫主要是面向商業(yè)管理的,在數(shù)據(jù)更新方面功能強(qiáng)大,而我們的數(shù)據(jù)多是靜態(tài)的,需要的是查詢功能的強(qiáng)大,這也需要自己動(dòng)手開發(fā)。四、選擇適合計(jì)算器的大型課題計(jì)算器進(jìn)入文科研究領(lǐng)域后,會(huì)出現(xiàn)許許多多新的課題,如全宋詩的重出問題,可以說沒有計(jì)算器,這種工作幾乎是不可能的。我們利用全宋詩數(shù)據(jù)庫查出了全部的重出詩,進(jìn)一步需要將重出的詩作整理定位,依舊利用全宋詩的數(shù)據(jù)庫可以定位約三分之一的詩作。另外考慮到使用其它數(shù)據(jù),如四庫全書、四部叢刊、二十五史等,當(dāng)然也要進(jìn)行大量的人工分析,手工檢索大量數(shù)據(jù),這樣,我們將用一年的時(shí)間整理出一部全

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論