詩(shī)詞研究:以數(shù)字映射古代文學(xué)經(jīng)典_第1頁(yè)
詩(shī)詞研究:以數(shù)字映射古代文學(xué)經(jīng)典_第2頁(yè)
詩(shī)詞研究:以數(shù)字映射古代文學(xué)經(jīng)典_第3頁(yè)
詩(shī)詞研究:以數(shù)字映射古代文學(xué)經(jīng)典_第4頁(yè)
詩(shī)詞研究:以數(shù)字映射古代文學(xué)經(jīng)典_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

以數(shù)字映射古代文學(xué)經(jīng)典大數(shù)據(jù)及其相應(yīng)技術(shù)已經(jīng)對(duì)社會(huì)知識(shí)體系及思維方式產(chǎn)生重大影響?;谶@一技術(shù)對(duì)古代文學(xué)經(jīng)典文本進(jìn)行深度而高效的分析,可使文學(xué)研究進(jìn)入更宏觀的視野,提高研究結(jié)論的精準(zhǔn)性、穩(wěn)定性及可驗(yàn)證性,促生新的研究理念、方法與范式。信息革命以來(lái),古籍文獻(xiàn)數(shù)據(jù)化積累和知識(shí)庫(kù)建設(shè)卓有成效。浩如煙海的古籍,可以組成大小不等的任意文本集合,具有不同維度的數(shù)據(jù)特征。對(duì)它們進(jìn)行基于字詞、語(yǔ)句、篇體等方面的統(tǒng)計(jì),可以獲得不同于紙本閱讀的認(rèn)知。對(duì)古籍進(jìn)行散點(diǎn)透視谷歌與哈佛大學(xué)利用其共同開發(fā)的數(shù)據(jù)庫(kù)對(duì)公元1800年至公元2000年出版的近520萬(wàn)冊(cè)書籍的單詞和短語(yǔ)的使用頻率進(jìn)行統(tǒng)計(jì),任意詞或詞組在過(guò)去數(shù)百年典籍中的出現(xiàn)頻率與變化趨勢(shì)得以清晰呈現(xiàn)。這一詞頻統(tǒng)計(jì)器廣泛應(yīng)用于如探索名物的興衰沿革、話題的熱度變化、人物或群體的影響力等研究。同樣,大數(shù)據(jù)時(shí)代下新的技術(shù)和研究思路為彌補(bǔ)紙質(zhì)古籍在結(jié)構(gòu)化整理、大量資料匯聚排列、關(guān)系立體化勾連呈現(xiàn)等方面的不足提供了可能性。我們利用《國(guó)學(xué)寶典》數(shù)據(jù)庫(kù)收錄的超1萬(wàn)種逾22億字的歷代古籍精良數(shù)據(jù),在其中篩選出最為核心的經(jīng)典近百部,對(duì)其從用字量、用字比、字頻等不同角度進(jìn)行統(tǒng)計(jì),將時(shí)代與文體來(lái)源廣泛的文獻(xiàn)以前人不曾設(shè)想過(guò)的方式進(jìn)行關(guān)聯(lián)比較,獲得了一系列涉及漢語(yǔ)史、文體學(xué)、知識(shí)考古學(xué)、蒙學(xué)研究、近代文白轉(zhuǎn)型等眾多領(lǐng)域與交叉學(xué)科的重大命題與發(fā)現(xiàn),是“數(shù)字映射經(jīng)典,技術(shù)更新人文”的有效例證??v向概覽從先秦到清代典籍?dāng)?shù)據(jù),首先可以關(guān)注到的是單部經(jīng)典總字?jǐn)?shù)和用字量的漸增趨勢(shì)。顯然,前者與文獻(xiàn)的物質(zhì)形態(tài)的變化發(fā)展直接相關(guān),后者除了受中古漢語(yǔ)雙音化等自身發(fā)展因素的影響之外,同樣與漢代至中古以來(lái)總體書籍量的增長(zhǎng)及社會(huì)的知識(shí)好尚有關(guān)。用字量排名靠前的首先是知識(shí)性工具書與承擔(dān)識(shí)字教材功能的蒙學(xué)讀本,如《爾雅》(3360字)、《水經(jīng)注》(4490字)、《古文觀止》(3863字)等。漢代以降,士人逐漸重視學(xué)術(shù)與社會(huì)觀點(diǎn)的積累以及人生精華的總結(jié),故而其著述常有豐厚淵博的知識(shí)性特質(zhì)?!熬刻烊酥H,通古今之變”的《史記》與“言其大也,則燾天載地;說(shuō)其細(xì)也,則淪于無(wú)垠”的《淮南子》用字量分別為4730字與3900字,在參與統(tǒng)計(jì)的上古至中古文獻(xiàn)中十分突出,已可與明清長(zhǎng)篇章回體小說(shuō)作品比肩(四大名著和《聊齋志異》用字量在3931~4936字之間)。僅依靠數(shù)據(jù)自身不能完成“智慧型”轉(zhuǎn)化,比數(shù)據(jù)更重要的是闡釋數(shù)據(jù)的方式。除了將統(tǒng)計(jì)分析與經(jīng)典論題相關(guān)聯(lián),數(shù)據(jù)的切分與聚類也是至關(guān)重要的基礎(chǔ)環(huán)節(jié)。一項(xiàng)經(jīng)典研究案例是,將《紅樓夢(mèng)》以四十回為單位進(jìn)行文本切分,最后一部分在用字量方面的顯著不同剛好佐證關(guān)于作者的疑問(wèn)。然而,以用字量直接衡量作品質(zhì)量或閱讀難度又會(huì)墮入機(jī)械的統(tǒng)計(jì)分析思維。例如統(tǒng)計(jì)中居首的幾部小說(shuō)文獻(xiàn),其體量大、涉及內(nèi)容廣、雅俗語(yǔ)體并包等因素共同提升了用字量。同樣,受常用漢字總量限制,文獻(xiàn)篇幅的增加反而會(huì)導(dǎo)致用字比下降。故而統(tǒng)計(jì)中引入計(jì)算語(yǔ)言學(xué)常用的模型以修正用字比,最終結(jié)果顯示,用字比最高者皆為蒙學(xué)讀本:《千字文》(1)、《百家姓》(0.986)、《三字經(jīng)》(0.894)、《聲律啟蒙》(0.857)??梢姡幹哂幸庾R(shí)地在有限的篇幅和內(nèi)容難度中增加用字量,讓學(xué)童能比較密集地習(xí)得盡可能多的漢字。蒙學(xué)讀物的編纂者選字標(biāo)準(zhǔn)是什么,是當(dāng)時(shí)常見經(jīng)典文獻(xiàn)中的高頻字,還是日常生活中的常用字,還是有別的標(biāo)準(zhǔn)?這種選擇是以何種方式完成的?這些都是值得進(jìn)一步探究的話題。從用字特征探測(cè)經(jīng)典命題字頻統(tǒng)計(jì)中,考慮到虛字和實(shí)字的不同屬性和闡釋功能,二者通常被分別計(jì)算。虛詞在漢語(yǔ)史等領(lǐng)域的研究中經(jīng)常被作為特征數(shù)據(jù)使用,同時(shí)也是作品風(fēng)格比對(duì)的標(biāo)志性參數(shù),虛詞的使用比重本身便構(gòu)成不同作者間的風(fēng)格標(biāo)識(shí)?!拔褰?jīng)”之中,參照后世“文筆之辨”,《詩(shī)》為有韻之文,因而與其他幾部書相比,高頻詞中實(shí)詞比重更大,古人“實(shí)字多則健,虛字多則弱”的詩(shī)論觀點(diǎn)或?yàn)E觴于此。以高頻字的虛實(shí)映射“文筆之辨”的方法可推及后世,普遍而言,在詩(shī)歌與詞曲等文體中,實(shí)詞作為高頻詞的概率大于散文文體。作為“五經(jīng)”中成書年代最早的《尚書》,其虛字運(yùn)用特征同樣保存了上古漢語(yǔ)的流變痕跡。《尚書》中頻次居首者是極具上古色彩的虛詞“惟”,這不僅與其中許多篇目的記言性質(zhì)有關(guān),也體現(xiàn)了早期漢語(yǔ)與后來(lái)“之乎者也于”時(shí)代的分野。以相同視角觀照近古作品,可以窺見漢語(yǔ)史上的另一重大變革。對(duì)話是小說(shuō)中的重要元素,表達(dá)說(shuō)話行為的動(dòng)詞自然享有高頻地位,在《三國(guó)演義》與《聊齋》中體現(xiàn)為“曰”,而《西游記》和《水滸傳》中則體現(xiàn)為“道”,這是后一組作品文言色彩減弱的重要標(biāo)志。而真正的白話轉(zhuǎn)型發(fā)生在《紅樓夢(mèng)》身上,“的”首次取代語(yǔ)法功能相同的“之”而上榜,成為第二高頻詞。《紅樓夢(mèng)》中居首的高頻詞是另一個(gè)極具白話特征的虛詞“了”,這也是《水滸傳》中的第一高頻詞。與虛詞相反相成的實(shí)詞是文獻(xiàn)內(nèi)容和主題的映射,其背后涉及反映觀念史演變的重大命題。同樣以“五經(jīng)”為例,《詩(shī)》《書》《禮》《易》《春秋》中的第一高頻實(shí)詞分別為“我”“王”“人”“象”“子”?!对?shī)經(jīng)》具有最強(qiáng)的主體抒情色彩,恰如《毛詩(shī)序》所謂“以一國(guó)之事,系一人之本”?!渡袝窞樯瞎湃弁醯?、謨、訓(xùn)、誥、誓、命等文獻(xiàn)記載,以記錄“王”之言行為核心。孔子以“克己復(fù)禮”來(lái)約束人,“禮”是人內(nèi)在品質(zhì)的外化,因此談“禮”不基于人則會(huì)失去根基?!跋蟆弊鳛椤吨芤住返慕庾x對(duì)象是不言自明的?!肮耪哜覡奘现跆煜乱玻鰟t觀象于天,俯則觀法于地,觀鳥獸之文與地之宜,近取諸身,遠(yuǎn)取諸物,于是始作《易》八卦,以垂憲象。”《說(shuō)文解字序》中的這段話,說(shuō)明“象”不僅是《周易》的關(guān)鍵,也是漢字造字觀念及中華文化思維的體現(xiàn)?!洞呵镒髠鳌分惺孜桓哳l字為“子”,其中包含第二人稱單數(shù)與諸侯國(guó)君稱謂雙重意義。后者是《春秋》敘事的核心所在,孔子作《春秋》,正是為了以微言大義記錄“禮樂(lè)征伐自諸侯出”的非常時(shí)代,作為編年體史書,各諸侯國(guó)君臣的秩序與道德選擇構(gòu)成了其潛在的緯線。用數(shù)據(jù)來(lái)表征“詩(shī)分唐宋”錢鐘書《談藝錄》以“詩(shī)分唐宋”開篇,影響甚廣。此說(shuō)實(shí)承續(xù)前人而來(lái),宋代嚴(yán)羽論詩(shī)便有“本朝人尚理,唐人尚意興”之說(shuō)。唐宋詩(shī)之別在于體格性分,相對(duì)較為玄妙。通過(guò)量化分析,可對(duì)其語(yǔ)言層面的特征作出細(xì)致把握。通過(guò)對(duì)《全唐詩(shī)》57000余首和《全宋詩(shī)》254000余首的詞頻統(tǒng)計(jì)顯示,居于前十位的高頻詞分別為:不知、何處、萬(wàn)里、千里、不見、不可、白云、今日、春風(fēng)、不得(《全唐詩(shī)》);不知、春風(fēng)、平生、不可、萬(wàn)里、千里、人間、不見、十年、何處(《全宋詩(shī)》。下文中詞頻位序?qū)⒃诶ㄌ?hào)中注出,故不再一一說(shuō)明)。將統(tǒng)計(jì)擴(kuò)展至前100位,有關(guān)唐宋詩(shī)風(fēng)之辨的許多命題都能夠在語(yǔ)詞的褶皺中被展開。作為嚴(yán)羽論斷的例證,在前100位中,唐詩(shī)里比興尚意的寫景語(yǔ)匯更居前列,如排名第7位的“白云”與第11位的“明月”,雖只是詞匯片段,唐人氣象儼若可見。作為參照,這兩個(gè)意象在《全宋詩(shī)》詞頻統(tǒng)計(jì)中分別降至第19位與第23位。嚴(yán)羽“本朝尚理”的觀點(diǎn)同樣能在統(tǒng)計(jì)數(shù)據(jù)中獲得佐證:宋詩(shī)中“平生”(第3位)、“人間”(第8位)等哲思人生的“理語(yǔ)”排位較唐代(分別居于第30位、第13位)又有上升。另一點(diǎn)值得玩味的是,宋人雖崇尚自守慎獨(dú)、內(nèi)求于心的理學(xué),詩(shī)中卻不乏唐人所極少寫到的“功名”(第36位)、“富貴”(第78位),而唐詩(shī)中常見的“惆悵”(第15位)、“相思”(第22位)等與“理語(yǔ)”相對(duì)的“情語(yǔ)”在宋詩(shī)詞頻列表中跌出了前100位。唐詩(shī)偏重空間,而宋詩(shī)偏重時(shí)間。敻絕的宇宙意識(shí)和無(wú)垠的空間,從《全唐詩(shī)》詞頻前5位中(不知、何處、萬(wàn)里、千里、不見)可見一斑。日本漢學(xué)家吉川幸次郎曾提出,唐詩(shī)是凝視著人生貴重瞬間的燃燒,所注視的只是對(duì)象的頂點(diǎn)。而宋詩(shī)是時(shí)間性的,詩(shī)人視人生為漫長(zhǎng)的持續(xù)。以語(yǔ)詞的統(tǒng)計(jì)來(lái)衡量這一觀點(diǎn),唐詩(shī)排序最高的時(shí)間詞是“今日”(第8位),時(shí)空與情感凝注于此一點(diǎn),而宋詩(shī)中居首的是“十年”(第9位),繼而是“今日”(第12位)與“百年”(第20位)。吉川將“燃燒與持續(xù)”的說(shuō)法推進(jìn)至意象選用的對(duì)比方面,夕陽(yáng)是燃燒的景象,雨是持續(xù)的景象,于是有了“唐人寫夕陽(yáng)宋人寫雨”的經(jīng)典論斷。詞頻統(tǒng)計(jì)恰也驗(yàn)證了這點(diǎn),《全唐詩(shī)》詞頻居于前列的“落日”(第55位)、“日暮”(第59位)、“夕陽(yáng)”(第69位),在宋詩(shī)中都排在90位之后。不同于信息爆炸的現(xiàn)代,傳世文獻(xiàn)中的經(jīng)典文本邊界是相對(duì)清晰的,然而其體量對(duì)于專注于某一選題或領(lǐng)域的研究者依然難以全體掌握。基于大數(shù)據(jù)技術(shù)的古代文學(xué)經(jīng)典文本分析,既著眼于經(jīng)典文獻(xiàn),又以海量的基礎(chǔ)文獻(xiàn)為基礎(chǔ),希望在較短時(shí)間內(nèi)用高效、全面的數(shù)據(jù)挖掘,來(lái)進(jìn)行準(zhǔn)確有效的文本分析。傳統(tǒng)古典學(xué)研究中的結(jié)論多通過(guò)個(gè)人有限閱讀過(guò)程中的觀察、思索、領(lǐng)悟等方式獲得,這類方式往往具備一定的主觀性乃至先驗(yàn)色彩。大數(shù)據(jù)的匯聚和計(jì)算分析方法的運(yùn)用,能夠使既出人意表又允執(zhí)厥中的結(jié)論“自動(dòng)涌現(xiàn)”。利用大數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論