版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、古籍?dāng)?shù)字化與古典文學(xué)研究的未來鄭永曉內(nèi)容提要:具有前瞻性眼光的學(xué)者決不能僅僅滿足于把計(jì)算機(jī)當(dāng)作一個(gè)檢索工具。人類如何適應(yīng)并利用其獨(dú)特的思維方式,在古籍?dāng)?shù)字化的基礎(chǔ)上將古代文學(xué)研究提升到一個(gè)更高境界,是廣大文學(xué)研究者和IT業(yè)者共同面對(duì)的挑戰(zhàn)。計(jì)算機(jī)人工智能首先在古籍整理方面大有用武之地,在古典文學(xué)研究方面也有其契合點(diǎn)。文章同時(shí)對(duì)版本意識(shí)淡薄、字庫設(shè)計(jì)不規(guī)范以及缺乏合適的程序設(shè)計(jì)語言等古籍電子化過程中面臨的問題作了探討。關(guān)鍵詞:古籍?dāng)?shù)字化;古代文學(xué)研究方法;人工智能作者簡(jiǎn)介:鄭永曉,男,1963年生。2003年畢業(yè)于中國(guó)社科院研究生院,獲博士學(xué)位,現(xiàn)為中國(guó)社科院文學(xué)所副研究員。發(fā)表過專著黃庭堅(jiān)年譜
2、新編等。IT技術(shù)的飛速發(fā)展在人文、社會(huì)科學(xué)中的一個(gè)重要表現(xiàn)就是傳統(tǒng)紙質(zhì)文本向電子文本的轉(zhuǎn)化,亦即報(bào)刊、書籍的數(shù)字化,這其中又以古籍?dāng)?shù)字化的成果最為引人注目。中國(guó)傳統(tǒng)古籍浩如煙海,二千馀年來,沒有被充分開掘和利用者不計(jì)其數(shù),因此,對(duì)古籍予以數(shù)字化的迫切性和必要性較之現(xiàn)代書籍而言,顯然有過之而無不及。相關(guān)機(jī)構(gòu)正是著眼于數(shù)字化古籍在應(yīng)用方面具有深廣的潛力,且一般不存在版權(quán)問題,才投入大量人力物力,先后完成了電子版四庫全書、四部叢刊、二十五史、全唐詩、全宋詩等一系列有關(guān)傳統(tǒng)文獻(xiàn)的數(shù)據(jù)庫,而廣大文史工作者也確實(shí)受惠于這些數(shù)字化古籍。此足以說明,數(shù)字化古籍對(duì)古典文學(xué)研究不僅必要而且必將有著十分光輝的未來。
3、具有前瞻性眼光的學(xué)者決不能僅僅滿足于把計(jì)算機(jī)當(dāng)作一個(gè)檢索工具,滿足于把計(jì)算機(jī)檢索到的資料復(fù)制到自己的文章中,以省卻自己的翻檢之勞。計(jì)算機(jī)具有自己的思維特點(diǎn),人類如何適應(yīng)并利用其獨(dú)特的思維方式,將人的創(chuàng)造性思維與計(jì)算機(jī)的強(qiáng)大功能有機(jī)結(jié)合起來,把古代文學(xué)研究提升到一個(gè)更高境界,是廣大文學(xué)研究者和IT業(yè)者共同面對(duì)的挑戰(zhàn)。令人欣慰的是,已經(jīng)有一些機(jī)構(gòu)和學(xué)者在這方面做了非常有益的探索并取得了可觀的成績(jī),如北京大學(xué)中文系李鐸博士主持開發(fā)的全宋詩電子分析系統(tǒng),即具有較高的智能化特色。筆者有幸使用過這一系統(tǒng),并拜讀了李鐸博士和王毅先生關(guān)于古代文獻(xiàn)信息化工程與古典文學(xué)研究之間互動(dòng)關(guān)系的對(duì)話(以下簡(jiǎn)稱對(duì)話),深感
4、獲益匪淺。因此,愿意把自己近年來有關(guān)此問題的一些想法發(fā)表在此處,作為這一精彩文章的蛇足之論,欠妥之處,還請(qǐng)李鐸、王毅先生和眾方家批評(píng)指正。一、計(jì)算機(jī)智能化的前景及其對(duì)古典文學(xué)研究的影響伴隨計(jì)算機(jī)科學(xué)技術(shù)的日新月異及其在各行各業(yè)中的廣泛應(yīng)用,人們對(duì)計(jì)算機(jī)軟硬件的要求愈來愈高,對(duì)計(jì)算機(jī)科學(xué)所能攻克的難題也愈來愈抱有更高的期望。于是,學(xué)術(shù)界很自然地進(jìn)而提出究竟計(jì)算機(jī)能否具備類似人類的思維方式,完成人類大腦所能支配的工作,亦即計(jì)算機(jī)能否實(shí)現(xiàn)人工智能的問題,由此誕生了二十一世紀(jì)三大尖端技術(shù)之一的“人工智能”。作為計(jì)算機(jī)科學(xué)的一個(gè)重要分支,人工智能是一門研究運(yùn)用計(jì)算機(jī)模擬和延伸人腦功能的綜合性學(xué)科,其目的
5、在于讓計(jì)算機(jī)這樣的“機(jī)器”能夠像人一樣思考和判斷,具有人類的某些智慧以及解決復(fù)雜問題的能力。信息技術(shù)的這一前沿分支,其研究、應(yīng)用和發(fā)展在一定程度上決定著計(jì)算機(jī)科學(xué)的發(fā)展方向。那么,人工智能這樣尖端的科學(xué),與我們的古典文學(xué)研究究竟有什么關(guān)系呢?據(jù)筆者觀察,在上個(gè)世紀(jì)90年代前期,人文、社科學(xué)者利用計(jì)算機(jī)基本上僅限于打字,95年互聯(lián)網(wǎng)引入中國(guó)以后,少數(shù)學(xué)者開始嘗試?yán)镁W(wǎng)絡(luò)查閱學(xué)術(shù)資料,一些具有前瞻性眼光的公司開始制作古籍資料檢索光盤,如商務(wù)國(guó)際有限公司制作發(fā)行的全唐詩光盤等。90年代末至本世紀(jì)初,古籍?dāng)?shù)字化進(jìn)入迅速發(fā)展階段。1998年全國(guó)高校古籍整理委員會(huì)批準(zhǔn)立項(xiàng)并直接資助了“中國(guó)基本古籍庫光盤工
6、程”,目前很多學(xué)者尤其是古代文史研究者手中使用著由迪志公司、書同文公司等開發(fā)的四庫全書、四部叢刊等,大陸、臺(tái)灣和香港各種網(wǎng)站上也提供了愈來愈多的數(shù)字化古籍文獻(xiàn)等。很顯然,經(jīng)過近十年的快速發(fā)展,數(shù)字化古籍的總量已經(jīng)十分可觀,程序提供的檢索手段也已經(jīng)相當(dāng)完善。在這種日益強(qiáng)大的檢索手段基礎(chǔ)上,如果能輔以更加智能化的統(tǒng)計(jì)、分析、綜合、判斷程序,那么以人工智能為支撐的信息技術(shù)在古籍整理和古典文學(xué)研究方面將產(chǎn)生劃時(shí)代影響,便絕非故作危辭聳聽之論。誠然,學(xué)者個(gè)性千差萬別,學(xué)術(shù)道路、學(xué)術(shù)方法也多種多樣。計(jì)算機(jī)沒有產(chǎn)生之前的學(xué)術(shù)大師固然成就不凡,當(dāng)代學(xué)人中從未使用過電腦而能取得很大學(xué)術(shù)成就者也大有人在。但是,這
7、并不表明信息技術(shù)的發(fā)展對(duì)這部分學(xué)者不會(huì)產(chǎn)生影響。這里有兩個(gè)因素需要特別注意:第一,傳統(tǒng)學(xué)者治學(xué)過程中對(duì)私人藏書或公共圖書館的依賴在不遠(yuǎn)的將來會(huì)不復(fù)存在。因?yàn)榘殡S存儲(chǔ)技術(shù)的日新月異,將中國(guó)歷史上的所有古籍存儲(chǔ)在一張DVD光盤或一張郵票大小芯片上的可能性并不遙遠(yuǎn)。近年來,光盤存儲(chǔ)容量正朝著單碟20GB以上規(guī)格邁進(jìn),而熒光多層光碟(Fluorescent Multilayer Disc)技術(shù)成熟后更使得目前CD大小的盤片可以存儲(chǔ)100GB的數(shù)據(jù),第二代FMD技術(shù)將使盤片存儲(chǔ)量升至1TB甚至更高。所以,盡管傳統(tǒng)古籍浩如煙海,此前從未有人能夠全部擁有,更遑論能夠全部讀完。但是,隨著存儲(chǔ)技術(shù)的迅速發(fā)展,將
8、所有古籍隨身攜帶卻不再是一個(gè)遙遠(yuǎn)的夢(mèng)想。第二,與傳統(tǒng)圖書的閱讀方式不同,可隨身攜帶的這些古籍是可以快速檢索、統(tǒng)計(jì)的電子文本,在不遠(yuǎn)的將來完全可以在此基礎(chǔ)上實(shí)現(xiàn)自動(dòng)標(biāo)點(diǎn)、箋注、翻譯等功能,甚至進(jìn)而實(shí)現(xiàn)歷史年表的編撰、作家年譜的纂輯以及數(shù)字化文學(xué)史等更具智能化的功能。這就使得此前乾嘉學(xué)派那套治學(xué)功夫基本沒有了用武之地,像標(biāo)點(diǎn)、箋注、翻譯等工作完全可以交給機(jī)器去處理。同時(shí),現(xiàn)代人推崇的美學(xué)分析、文本分析、文化研究等等也必將面臨重大變革,因?yàn)閷?duì)文學(xué)史所作的理論和美學(xué)分析建立在對(duì)歷史文獻(xiàn)的解析、歸納之上,而一旦對(duì)文獻(xiàn)的處理發(fā)生了劃時(shí)代的變革,則整個(gè)古典文學(xué)研究方式也必將隨之變革??傊瑢㈦娔X與人腦的長(zhǎng)處
9、和優(yōu)勢(shì)結(jié)合起來,將為古籍整理和古典文學(xué)研究注入一股強(qiáng)大的新生力量,在資料采集、推理求證、綜合分析等方面帶來思維方式和研究方法的革命,從整體上促進(jìn)學(xué)科發(fā)展水平的大幅提高。下文對(duì)此稍作疏解。二、關(guān)于計(jì)算機(jī)的思維方式與古籍整理計(jì)算機(jī)人工智能的開發(fā)在不同領(lǐng)域有不同的側(cè)重和研發(fā)方向。在人文和社會(huì)科學(xué)研究領(lǐng)域,筆者以為,開發(fā)計(jì)算機(jī)的人工智能應(yīng)側(cè)重發(fā)揮計(jì)算機(jī)“思維方式”(借用李鐸先生的提法)的長(zhǎng)處,同時(shí)結(jié)合計(jì)算機(jī)摹擬人腦的功能。在這方面,計(jì)算機(jī)首先在古籍整理方面大有用武之地。古籍整理主要包括標(biāo)點(diǎn)、??薄⒐{注等工作。關(guān)于利用計(jì)算機(jī)進(jìn)行古籍標(biāo)點(diǎn)的問題,李鐸、王毅先生在其對(duì)話中已經(jīng)闡述得相當(dāng)清楚,我完全同意他們的
10、觀點(diǎn)。利用計(jì)算機(jī)的自學(xué)習(xí)功能,由易到難,先選用已經(jīng)標(biāo)點(diǎn),且質(zhì)量較高的古籍文本讓計(jì)算機(jī)學(xué)習(xí)、摹擬,從而不斷擴(kuò)充知識(shí)庫,在此基礎(chǔ)上完全可能實(shí)現(xiàn)對(duì)大規(guī)模古籍的標(biāo)點(diǎn)工作。在具體操作上,除了需要注意古漢語的規(guī)律,找出字與字之間的親和度以外,還需要讓計(jì)算機(jī)學(xué)習(xí)不同文體的特點(diǎn)。因?yàn)樵谖覈?guó)傳統(tǒng)文化史上,產(chǎn)生過數(shù)十種文體,每一種文體都有不同的行文方式,計(jì)算機(jī)如能首先判斷出需要標(biāo)點(diǎn)的文本是何種文體,便可根據(jù)這種文體的特點(diǎn)和規(guī)律做出高質(zhì)量的標(biāo)點(diǎn)切分工作。因?yàn)槎鄶?shù)讀者沒有編程方面的知識(shí),我們以大家都熟知的字處理軟件,微軟WORD“工具”菜單中提供的“宏(Micro)為例,簡(jiǎn)單驗(yàn)證利用計(jì)算機(jī)標(biāo)點(diǎn)文本與文體的關(guān)系。如果我
11、們用“宏”來標(biāo)點(diǎn)一首不分行的七言詩,且要求排列成每聯(lián)為一行,我們只需使用Visual Basic編輯器或錄制“宏”的辦法告訴計(jì)算機(jī)從第一個(gè)字算起,至第七字后加逗號(hào),至第十四個(gè)字后加句號(hào)及一個(gè)段落標(biāo)記(硬回車),第二十一個(gè)字后加逗號(hào),第二十八個(gè)字后加句號(hào)及一個(gè)段落標(biāo)記,馀者以此類推。這樣一個(gè)簡(jiǎn)單的小程序(宏)標(biāo)點(diǎn)一首七言詩的時(shí)間不足一秒鐘,這是因?yàn)槌绦蛟O(shè)計(jì)者已經(jīng)告訴計(jì)算機(jī)或者計(jì)算機(jī)已經(jīng)能夠判斷這是一首七言詩。如果遇到一首詞,計(jì)算機(jī)能夠根據(jù)其詞牌去判斷標(biāo)點(diǎn)位置,無疑將做出十分精確的切分和標(biāo)點(diǎn)。反之,如果僅憑字詞之間的親和度以及漢語構(gòu)詞法,對(duì)于用詩、詞、曲這種文體寫成的文本,便可能出現(xiàn)誤判和錯(cuò)誤標(biāo)點(diǎn)
12、。例如像杜甫的拗體詩“香稻啄馀鸚鵡粒,碧梧棲老鳳凰枝”(秋興八首第八),如果程序在不能判斷這是一首七言詩的前提下,除了不會(huì)在“香稻”、“鸚鵡”、“碧梧”、“鳳凰”等詞語處切分外,其他字詞之后都有可能,很容易造成誤判。又如王之渙詩“羌笛何須怨楊柳,春風(fēng)不度玉門關(guān)”(涼州詞),如果不能事先斷定這是七言詩的話,也可能斷成“羌笛何須怨,楊柳春風(fēng),不度玉門關(guān)”。所以,在設(shè)計(jì)這類程序時(shí),充分考慮各種文體的特點(diǎn)并做出有針對(duì)性的處理是非常必要的。另外需要注意的是,不同時(shí)代的文章在行文風(fēng)格、句法、所用詞匯方面也頗有不同,計(jì)算機(jī)在處理文獻(xiàn)時(shí)固然無需判斷文本的風(fēng)格,但是不同時(shí)代文章的句法差別很大。所幸六朝以前的文章
13、大都已有人工標(biāo)點(diǎn)本,屬于計(jì)算機(jī)建立知識(shí)庫時(shí)的學(xué)習(xí)對(duì)象,需要計(jì)算機(jī)大規(guī)模標(biāo)點(diǎn)的是唐宋以后的文獻(xiàn),在句法方面的差異不是很懸殊,但是,像清人的文章中時(shí)常夾雜著西洋詞匯的音譯,而且各人譯法不同,這都是在設(shè)計(jì)程序時(shí)需要注意的。古籍整理的另外一項(xiàng)重要任務(wù)是校勘。這是一項(xiàng)十分細(xì)致、龐雜的工作,人工校勘由于參校版本有限、視覺模糊等因素,難免出現(xiàn)異文不能出校,或在眾多版本具有若干異文的情況下難以確定最佳方案。如果設(shè)計(jì)合理科學(xué),這同樣是計(jì)算機(jī)可以發(fā)揮其特長(zhǎng)的項(xiàng)目。校勘的目的一是勘正錯(cuò)別字,二是校出不同版本的相異之處。關(guān)于錯(cuò)別字的甄別,利用計(jì)算機(jī)從事古籍整理時(shí)會(huì)涉及三種情況:第一,由于OCR軟件識(shí)別率不能達(dá)到100
14、%正確導(dǎo)致的錯(cuò)字;第二,底本本身的錯(cuò)誤,包括因書寫或印刷造成的錯(cuò)誤;第三,不符合現(xiàn)代漢語規(guī)范的異體字。如果不是將古籍整理成簡(jiǎn)體文本,第三種情況按一般??币蠖?,可以忽略,無需出校,需要處理的是第一和第二種情況造成的文字錯(cuò)誤。以目前的技術(shù)和實(shí)際應(yīng)用而言,基于現(xiàn)代漢語詞匯的文本糾錯(cuò)技術(shù)已經(jīng)比較成熟。在這方面,以北京某公司的產(chǎn)品“黑馬校對(duì)2004”較為突出,該軟件具有數(shù)量龐大的錯(cuò)誤詞匯數(shù)據(jù)庫,查錯(cuò)規(guī)則設(shè)置也比較合理,能夠輕易標(biāo)出文本中不合規(guī)范的用詞。遺憾的是,該系統(tǒng)僅適用于作為現(xiàn)代漢語文字載體的報(bào)刊雜志的??惫ぷ?,如用于校對(duì)艱深古奧的古漢語,尚難以勝任。但是,該軟件所使用的技術(shù)原理和設(shè)計(jì)思路應(yīng)該同
15、樣適用于古籍文本的??保皇窃~匯庫的設(shè)置要求更具專業(yè)特點(diǎn),如能有精于古漢語和古代文學(xué)方面的專家與IT人士攜手,在技術(shù)上是不難辦到的。當(dāng)然,??惫偶荒軆H僅校正詞匯組合方面的錯(cuò)誤,必然也涉及到語句中的單字,涉及到在不同語法狀態(tài)下單字的對(duì)錯(cuò)。這就要求計(jì)算機(jī)在學(xué)習(xí)積累正確漢語語法結(jié)構(gòu)的基礎(chǔ)上,正確判斷一個(gè)字詞在某句中的位置是否背離了古代漢語的語法規(guī)則,這方面的技術(shù)目前還不成熟,亟需加大研發(fā)力度,早日達(dá)到應(yīng)用水平。所幸對(duì)古籍??倍?,如果底本十分清晰,OCR軟件識(shí)別率很高,那么由于識(shí)別問題造成的差錯(cuò)基本不存在。如果選用底本精良,也基本上不存在原書作者或印刷造成的錯(cuò)誤。剩下的問題就是拿底本與他本互校,比
16、較其異同,標(biāo)出參校本與底本的相異之處,而這正是計(jì)算機(jī)的長(zhǎng)項(xiàng)。微軟WORD“工具”菜單中有一個(gè)不常為人所用的工具“比較并合并文檔”,即可用于比較兩篇文檔的異同。當(dāng)然,微軟開發(fā)的這一工具如用于中國(guó)傳統(tǒng)古籍???,尚嫌簡(jiǎn)略,不夠?qū)I(yè)。從程序設(shè)計(jì)角度而言,在技術(shù)上讓計(jì)算機(jī)比較底本與參校本的異同,并自動(dòng)生成校記是完全可以實(shí)現(xiàn)的。至于用計(jì)算機(jī)從事古籍的箋注工作,似乎比用于標(biāo)點(diǎn)艱深古奧的文本更具可行性。為達(dá)到這一目的,我們首先需要建立一個(gè)龐大的冷僻字詞和典故數(shù)據(jù)庫。計(jì)算機(jī)在掃描文本時(shí),每當(dāng)發(fā)現(xiàn)有與數(shù)據(jù)庫中的字詞相似或相同的情況,則即刻調(diào)用該字詞的解釋并寫到程序設(shè)定的位置,如該冷僻字詞之后或章節(jié)、段落之后。設(shè)想
17、我們?cè)谧x到某篇比較難以理解的文章時(shí),鼠標(biāo)一點(diǎn),相關(guān)注釋即刻添加到文本之中,即使不能保證100%正確,至少讀懂該文章應(yīng)該沒有問題。當(dāng)然,鑒于漢語言的構(gòu)詞特點(diǎn)和文學(xué)修辭的豐富多彩,同一個(gè)典故會(huì)有多種表述方法,曹操短歌行:“月明星稀,烏鵲南飛。繞樹三匝,何枝可依”,后人常借用其意寄托羈旅漂泊之感,如駱賓王望鄉(xiāng)夕泛:“今夜南枝鵲,應(yīng)無繞樹難。”李華海上生明月:“素娥嘗藥去,烏鵲繞枝驚。”同樣的典故,駱賓王和李華的用法并不一樣,此外還有“繞樹枝”、“三繞枝”、“繞鵲”等等不同用法。所以在設(shè)計(jì)這樣一個(gè)程序時(shí),一要保證冷僻字詞和典故數(shù)據(jù)庫盡可能全面,應(yīng)具有開放性和可擴(kuò)充性,其次應(yīng)使用模糊查詢方法,遇到非典型
18、性用法,應(yīng)能夠自動(dòng)判斷是否應(yīng)該予以箋注及調(diào)用哪一條數(shù)據(jù)做出解釋。當(dāng)然,計(jì)算機(jī)最為人熟知的長(zhǎng)項(xiàng)是可以窮盡所有可以搜索到的字詞出處,這在從事箋注這類工作中更是必不可少的。根據(jù)同樣的機(jī)理,利用數(shù)據(jù)庫的排序、篩選功能輔以必要的人工也可以快速編制作家年譜、歷史年表;借鑒計(jì)算機(jī)不同語種的相互翻譯功能可以嘗試將其運(yùn)用于大型古籍文獻(xiàn)的白話文翻譯。總之,以數(shù)字化古籍為依托,大力挖掘、開發(fā)計(jì)算機(jī)的智能化應(yīng)用,在古籍整理以及古籍整理的延伸如編制作家年譜和歷史年表方面的前景是無限廣闊的。三、智能化計(jì)算機(jī)在古典文學(xué)研究領(lǐng)域的應(yīng)用計(jì)算機(jī)智能化在古籍整理中的應(yīng)用既略如上述,那么,如果進(jìn)入到古典文學(xué)研究這樣一個(gè)需要人的高智商
19、和個(gè)體情感的高度投入才能從事的創(chuàng)造性領(lǐng)域,其前景又當(dāng)如何?李鐸、王毅先生在其對(duì)話中,談到了“人機(jī)互動(dòng)關(guān)系及人機(jī)各自的權(quán)界問題”,對(duì)人的心智和情感作為文學(xué)研究靈魂的重要性,以及電子公共信息平臺(tái)對(duì)文學(xué)研究的拓展作了精彩的闡述,筆者深有同感,因而不打算重復(fù)他們二位的觀點(diǎn),僅就高度智能化的計(jì)算機(jī)與未來的古典文學(xué)研究之關(guān)系及可能性作一個(gè)展望和預(yù)期性的推測(cè)。筆者以為,我們不能把計(jì)算機(jī)與人之間的“權(quán)界”絕對(duì)化和擴(kuò)大化。誠如李鐸先生所言,計(jì)算機(jī)可能永遠(yuǎn)也無法完全替代人來“思考”,并且用計(jì)算機(jī)充當(dāng)人來思考,解決人能夠輕易解決的問題在成本方面也不劃算。所以,計(jì)算機(jī)不必模擬人腦,人也沒必要依照計(jì)算機(jī)的方式思考問題。
20、筆者在對(duì)此深表贊同的同時(shí)也想補(bǔ)充一點(diǎn),即從信息科學(xué)的總體發(fā)展而言,計(jì)算機(jī)將愈來愈人性化和具備一定程度的思維能力是一個(gè)必然的發(fā)展趨勢(shì),這其中的關(guān)鍵在于計(jì)算機(jī)程序是人設(shè)計(jì)和編寫的,人的思維控制著計(jì)算機(jī)的思維,計(jì)算機(jī)的思維是人腦思維的延伸而并非人腦思維的異化。伴隨人工智能科學(xué)的成熟,計(jì)算機(jī)具備一定的人腦思維能力并非天方夜譚,這種摹擬的人腦思維能力即使還處于非常幼稚、膚淺的階段,如與計(jì)算機(jī)本身所固有的優(yōu)勢(shì),計(jì)算機(jī)的思維方式相結(jié)合,也很可能結(jié)出某些令人驚嘆的碩果。假定某些需要人工解決的問題相對(duì)比較簡(jiǎn)單且數(shù)量龐大,那么,伴隨計(jì)算機(jī)軟硬件的飛速發(fā)展,計(jì)算速度的幾何級(jí)增長(zhǎng),以及智能化程度的逐步提高,利用計(jì)算機(jī)
21、進(jìn)行預(yù)處理仍然是可行的,富有成果的。例如,關(guān)于唐宋詩優(yōu)劣問題這樣一個(gè)持續(xù)爭(zhēng)論了近千年的命題,錢鍾書先生說:“唐詩多以豐神情韻擅長(zhǎng),宋詩多以筋骨思理見勝”,繆鉞先生則說:“唐詩以韻勝,故渾雅,而貴蘊(yùn)藉空靈;宋詩以意勝,故精能,而貴深折透辟。唐詩之美在情辭,故豐腴;宋詩之美在氣骨,故瘦勁。唐詩如芍藥海棠,秾華繁彩;宋詩如寒梅秋菊,幽韻冷香?!边@是上個(gè)世紀(jì)有關(guān)唐宋詩之別最經(jīng)典的論述。那么,這樣一種論述能否使用計(jì)算機(jī)對(duì)此進(jìn)行更精確的闡釋呢?答案是在一定范圍內(nèi)可以做到。我們可以依據(jù)現(xiàn)有技術(shù)設(shè)計(jì)程序根據(jù)題材、用韻、格律、字頻、詞頻、用典等數(shù)據(jù)來對(duì)唐宋詩的異同予以比較,根據(jù)計(jì)算機(jī)產(chǎn)生的數(shù)據(jù)和所描繪的曲線對(duì)唐
22、宋詩的區(qū)別做出一個(gè)比較精確的判斷,從而為錢、繆二先生的論述提供有力的佐證。但是這樣一個(gè)研究還不能說很到位,因?yàn)樗卧娭械哪承┳髌吩陲L(fēng)格上與唐詩非常相似,難分彼此,從而為錢、繆二先生的論述提供有力的佐證。但是這樣一個(gè)研究還不能說很到位,因?yàn)樗卧娭械哪承┳髌吩陲L(fēng)格上與唐詩非常相似,難分彼此,正如錢鍾書先生在談藝錄中所說:“唐詩、宋詩,亦非僅朝代之別,乃體格性分之殊。天下有兩種人,斯分兩種詩?!笨娿X先生在論宋詩中也說:“雖唐詩之中,亦有下開宋派者,宋詩之中,亦有酷肖唐人者?!蹦暇┐髮W(xué)莫礪鋒先生通過證明唐詩三百首所收唐人張旭之詩桃花溪實(shí)為宋人蔡襄之作渡南澗,推論出唐宋詩之間的差別沒有想象的那樣大。既然如
23、此,計(jì)算機(jī)在掃描分析全唐詩、全宋詩各自的用韻、格律、字頻等要素之后,雖然可以從整體上,從比較宏觀的角度比較出唐宋詩之間在某些方面的異同,卻還并不能從微觀角度判斷宋詩中哪些詩作是典型的宋詩,哪些詩作酷肖唐詩,近二十五萬首宋詩中有多少作品可以劃歸“唐詩”范疇,多少作品屬于典型的“宋詩”范疇。要解決這個(gè)問題,就需要計(jì)算機(jī)作出進(jìn)一步分析。首先我們需要在上述唐宋詩數(shù)據(jù)比較所產(chǎn)生曲線的基礎(chǔ)上,確定一個(gè)適當(dāng)?shù)淖鴺?biāo)作為唐宋詩的分界點(diǎn),由于這個(gè)分界點(diǎn)是建立在對(duì)全部全唐詩和全宋詩的有關(guān)數(shù)據(jù)進(jìn)行窮盡分析的基礎(chǔ)之上,應(yīng)該能夠確切地劃分出唐宋詩各自在題材、體裁、用韻、格律、字頻、詞頻等方面的不同特征。用這些數(shù)據(jù)為唐宋詩
24、各自制作一個(gè)虛擬模型,而后再依照這個(gè)模型去比照每一首唐宋詩作,即可區(qū)分出哪些作品屬于“唐詩”,哪些作品屬于“宋詩”,以及各自所占比例如何?這里所謂“唐詩”或“宋詩”是指風(fēng)格意義上的區(qū)分,并非唐人或宋人所作的詩篇。在這個(gè)事例中,計(jì)算機(jī)按照事先設(shè)計(jì)的程序,掃描分析唐宋詩歌的字頻、詞頻等,顯然是在發(fā)揮計(jì)算機(jī)的長(zhǎng)處,屬于運(yùn)用計(jì)算機(jī)的“思維方式”;而在確定哪首作品屬于“唐詩”或“宋詩”的過程中,是判斷每首詩的格律、用韻、題材等方面的特征是否與“唐詩”或“宋詩”相符合,這顯然是在運(yùn)用人的邏輯,只不過計(jì)算機(jī)做得更快而已。當(dāng)然,無論是計(jì)算機(jī)還是唐宋詩歌研究方面非常有素養(yǎng)的專家,在這一問題上都很難做到百分之百的
25、正確無誤。因?yàn)檫@個(gè)命題包含著審美判斷,并非純數(shù)理的結(jié)構(gòu)化問題,并不能單純依靠數(shù)字比例的大小來確定是或否。命題本身的性質(zhì)導(dǎo)致學(xué)術(shù)界很難就“唐詩”或“宋詩”的特征問題達(dá)成一個(gè)沒有疑義的定論,而計(jì)算機(jī)程序設(shè)計(jì)者根據(jù)這些還不屬于定論的指導(dǎo)意見去設(shè)計(jì)程序,必然會(huì)把這種不確定性帶入計(jì)算機(jī)的思維中。但問題的另一面卻足以使我們大受鼓舞,盡管計(jì)算機(jī)是在按照人所發(fā)出的一些還不十分完善的指令去執(zhí)行任務(wù),但因?yàn)橛?jì)算機(jī)能夠?qū)φ麄€(gè)唐宋詩數(shù)據(jù)進(jìn)行窮盡式掃描分析,必然能夠得出雖不全面但卻很準(zhǔn)確的一些數(shù)據(jù)。亦即我們雖然無法全部理清“唐詩”或“宋詩”在美學(xué)特質(zhì)、創(chuàng)作手法、作品風(fēng)格、章法句法、字頻詞頻等方面的異同,至少我們無法用數(shù)
26、字表示這些異同。但是利用計(jì)算機(jī)我們卻可以就其中部分特征進(jìn)行窮盡式掃描分析,而僅把需要審美判斷的那部分排除在外。計(jì)算機(jī)在掃描全部現(xiàn)存唐宋詩歌作品以后,盡管只是就其部分可統(tǒng)計(jì)排比的特征進(jìn)行了分析,但由于這種分析是建立在全部唐宋詩歌作品之上,仍然具有極其廣泛的代表性,所以其結(jié)論仍然是相當(dāng)可靠的。按照這個(gè)結(jié)論制作的虛擬模型用于比照每一首具體詩作,所得結(jié)論自然也相對(duì)更科學(xué)縝密一些。在這一個(gè)案中,既充分發(fā)揮了計(jì)算機(jī)的特長(zhǎng),也摻雜著人工智能因素,計(jì)算機(jī)并非僅僅承擔(dān)統(tǒng)計(jì)工作,它要在人的協(xié)助下,運(yùn)用復(fù)合條件綜合作出自己的判斷。多年來我們對(duì)宋詩的特征、唐宋詩的優(yōu)劣、宋詩接受唐詩的影響等問題沒有一個(gè)十分明晰的結(jié)論,
27、計(jì)算機(jī)顯然可以幫助我們將這一研究向前推進(jìn)一大步。上述例證充分說明即使在比較復(fù)雜的研究中,在歷來只屬于人所從事的研究的范圍內(nèi),計(jì)算機(jī)也大有可為。推而廣之,在某種意義上而言,利用計(jì)算機(jī)治學(xué)與傳統(tǒng)治學(xué)方法其實(shí)并無本質(zhì)不同。治學(xué)的一般步驟無非第一收集材料,第二論證推理,最后得出結(jié)論,這與計(jì)算機(jī)的工作流程幾乎沒有什么不同,而計(jì)算機(jī)只有做得更好。計(jì)算機(jī)的特長(zhǎng)在于海量數(shù)據(jù)的存儲(chǔ)、運(yùn)算,包括對(duì)數(shù)據(jù)的排序、篩選、統(tǒng)計(jì)和分類等,尤其善于窮盡文獻(xiàn),發(fā)現(xiàn)知識(shí),并推導(dǎo)出結(jié)論。這與人文研究工作的一般過程,即確立選題,閱讀文獻(xiàn),篩選分類,統(tǒng)計(jì)分析,得出結(jié)論十分相似。因此,將計(jì)算機(jī)技術(shù)運(yùn)用于人文科學(xué)研究領(lǐng)域是有其契合點(diǎn)的,作
28、為人文科學(xué)的代表性學(xué)科古代文學(xué)研究當(dāng)然也不例外。按照這一思路,除了美學(xué)鑒賞方面的工作計(jì)算機(jī)確實(shí)無能為力以外,伴隨計(jì)算機(jī)軟件技術(shù)的快速發(fā)展和人工智能理論的不斷完善,利用計(jì)算機(jī)從事古典文學(xué)研究的前景無疑是十分光明的。四、面臨的問題與亟需克服的困難人類智能的本質(zhì)特征和最高表現(xiàn)形式是創(chuàng)造。因此,計(jì)算機(jī)人工智能模擬人的智能,其難點(diǎn)不在于人腦所進(jìn)行的各種必然性的演繹推理,而是最能體現(xiàn)人的智能特征的創(chuàng)造性思維,是那些具有某種不確定性的歸納、類比以及模糊推理等,包括學(xué)習(xí)、修正、推理、復(fù)雜條件下的判斷等,例如能夠選擇性地搜集相關(guān)的信息(文獻(xiàn)),在沒有獲得充分信息的基礎(chǔ)上作出嘗試性的判斷,并隨時(shí)根據(jù)反饋信息調(diào)整、
29、修正自己的運(yùn)行軌跡,最終推導(dǎo)出正確的結(jié)論。人工智能的前景雖然在本世紀(jì)前景廣闊,給人以無限遐想。但這并不表明在其運(yùn)用于古典文學(xué)研究的進(jìn)程中毫無阻礙,一片坦途。李鐸先生在對(duì)話一文中談到了文獻(xiàn)信息化過程中面臨的一些亟待解決的問題,筆者亦深表贊同,并不揣谫陋,對(duì)此稍加補(bǔ)充。第一,版本意識(shí)淡薄。大凡從事古典文學(xué)研究的學(xué)者都不會(huì)輕視版本在學(xué)術(shù)研究中的基礎(chǔ)作用,根據(jù)不同版本的文獻(xiàn)所作的學(xué)術(shù)研究完全可能得出相反的結(jié)論,這在古典文學(xué)研究中屬于常識(shí)問題。但在近年來古籍文獻(xiàn)的數(shù)字化過程中這一問題卻被嚴(yán)重忽略。除了電子版四部叢刊、景印文淵閣四庫全書這些按照特定版本所作的數(shù)字化文獻(xiàn)以外,多數(shù)網(wǎng)站和光盤提供的電子版古籍只
30、追求數(shù)據(jù)量的龐大而極少注意文獻(xiàn)的版本。而眾多的用戶也滿足于從這些電子文本中查詢到所需文獻(xiàn)后再去核對(duì)印刷版書籍。如果僅僅滿足于電子版書籍的查詢功能,則此種狀況長(zhǎng)期延續(xù)下去本無不可,但若想在此基礎(chǔ)上開發(fā)更深層次的功能,尤其是以此為研究平臺(tái),從事一些帶有研究性質(zhì)的開發(fā),則不講版本的現(xiàn)狀殊堪憂慮。第二,字庫設(shè)計(jì)不規(guī)范。為使計(jì)算機(jī)能夠處理中文文獻(xiàn),國(guó)家有關(guān)機(jī)構(gòu)和國(guó)際標(biāo)準(zhǔn)化組織先后制訂了GB2312,GB18030以及Unicode3.0等中國(guó)大陸和臺(tái)灣地區(qū)以及韓國(guó)等字符規(guī)范標(biāo)準(zhǔn)。微軟Windows2000以上版本支持的“方正超大字符集”即含有65531個(gè)字符,數(shù)量不可謂不大,但若用于古籍整理仍嫌不夠?qū)I(yè),仍有很多冷僻字不能輸入。因而如何進(jìn)一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度跨境電商倉儲(chǔ)租賃合同合法經(jīng)營(yíng)拓展全球市場(chǎng)4篇
- 二零二五年度建筑工地鋼筋施工安全培訓(xùn)合同
- 二零二五版網(wǎng)絡(luò)短視頻剪輯師招聘合同范本3篇
- 二零二五年度建筑用沙子購銷及環(huán)保審計(jì)合同3篇
- 2025年皮包原材料進(jìn)口合同二零二五年度版4篇
- 二零二五年度拍賣會(huì)籌備及組織服務(wù)合同4篇
- 2025年度牛羊肉品牌保護(hù)及侵權(quán)糾紛處理合同
- 二零二五年度內(nèi)墻抹灰工程質(zhì)量監(jiān)督合同范例
- 二零二五版摩托車二手車交易評(píng)估與收購合同4篇
- 2025年建筑物清潔與智能安防系統(tǒng)維護(hù)合同3篇
- 2024-2025學(xué)年北京石景山區(qū)九年級(jí)初三(上)期末語文試卷(含答案)
- 第一章 整式的乘除 單元測(cè)試(含答案) 2024-2025學(xué)年北師大版數(shù)學(xué)七年級(jí)下冊(cè)
- 春節(jié)聯(lián)歡晚會(huì)節(jié)目單課件模板
- 中國(guó)高血壓防治指南(2024年修訂版)
- 糖尿病眼病患者血糖管理
- 抖音音樂推廣代運(yùn)營(yíng)合同樣本
- 教育促進(jìn)會(huì)會(huì)長(zhǎng)總結(jié)發(fā)言稿
- 北師大版(2024新版)七年級(jí)上冊(cè)數(shù)學(xué)第四章《基本平面圖形》測(cè)試卷(含答案解析)
- 心理調(diào)適教案調(diào)整心態(tài)積極應(yīng)對(duì)挑戰(zhàn)
- 小學(xué)數(shù)學(xué)6年級(jí)應(yīng)用題100道附答案(完整版)
- 噴漆外包服務(wù)合同范本
評(píng)論
0/150
提交評(píng)論