數(shù)據(jù)庫:歷史研究的社會科學(xué)化_第1頁
數(shù)據(jù)庫:歷史研究的社會科學(xué)化_第2頁
數(shù)據(jù)庫:歷史研究的社會科學(xué)化_第3頁
數(shù)據(jù)庫:歷史研究的社會科學(xué)化_第4頁
數(shù)據(jù)庫:歷史研究的社會科學(xué)化_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)庫歷史研究的社會科學(xué)化

一從“選精”與“集粹”談起2000年,李伯重先生以“宋代江南農(nóng)業(yè)革命”為議題,公開批評經(jīng)濟(jì)史研究中存在的“選精法”與“集粹法”。[1]他認(rèn)為,正是由于研究方法的失誤,才造成有關(guān)“江南農(nóng)業(yè)革命的虛像”。由于涉及歷史研究的方法論,因此,在很長一段時間里,這一議題一直為人津津樂道。按照李伯重的定義,所謂“選精法”,“即從有關(guān)史料中選取一兩種據(jù)信是最重要者(或是最典型、最有代表性者),以此為據(jù)來概括全面”。所謂“集粹法”,“就是在對發(fā)生于一個較長的時期或/和一個較大的地區(qū)中的重大歷史現(xiàn)象進(jìn)行研究時,將與此現(xiàn)象有關(guān)的各種史料盡量搜尋出來,加以取舍,從中挑選出若干最重要(或最典型,最有代表性)者,集中到一起,合成一個全面性的證據(jù),然后以此為根據(jù),勾畫出這個重大歷史現(xiàn)象的全貌”。這兩種在李伯重看來均不正確的方法,“在本質(zhì)上并無大異,都是同一方法的不同表現(xiàn)。二者的差別只不過在于前者比較簡單,而后者則使用史料較多而已”。李伯重認(rèn)為,采用這兩種研究方法進(jìn)行歷史研究者,都相信他們所選出的例子具有代表性,而對于什么是“代表性”和什么樣的例子才具有“代表性”的問題,卻未見有人作出明確的說明。以歷史時期畝產(chǎn)量的計算為例,一是根據(jù)某種成說(如“宋代農(nóng)業(yè)革命”)來選取,一是采取“中庸”的辦法,或者舍棄最高與最低的例子,或?qū)⑹占降娜繑?shù)據(jù)作算術(shù)平均。李伯重特別認(rèn)為算術(shù)平均數(shù)并不很科學(xué),這是因為現(xiàn)存的古代畝產(chǎn)量記錄存在問題,如地域分布與時間分布的不均衡,記錄本身的質(zhì)量問題,今日對這些記錄理解的問題等。在我看來,在討論“畝產(chǎn)量”之前,還需要討論“畝”本身。雖然各地大小不一的畝制,已經(jīng)引起學(xué)者們的注意,但不同性質(zhì)的“畝”,至今未有人關(guān)注。有的地方之“畝”是“面積畝”,有的地方之“畝”是“稅畝”或“產(chǎn)量畝”。在清代的許多地方,不論土地廣狹,只要其產(chǎn)量達(dá)到4石,即可算為一畝。這一計算方法,類似于各地通行的“折畝”,它符合稅收公平的原則,因而通行于中國鄉(xiāng)村。同樣,這一原則也可推廣到山地稅負(fù)的計算上,在浙江南部山區(qū),我們就見過這樣的案例,在某一個時期,某村數(shù)百畝甚至數(shù)千畝山場,只有數(shù)畝的稅負(fù),因為,在山地開發(fā)初期,幾百畝山地的產(chǎn)值,可能與幾畝田的產(chǎn)值相當(dāng)。因此,切不可以為天底下所有的“畝”都代表一定的面積。拋開“畝”的大小及含義不論,為何統(tǒng)計學(xué)意義上的平均畝產(chǎn),并不能算是科學(xué)的?細(xì)細(xì)揣摸,李伯重想要表達(dá)的意思可能是這樣的:將各地或各個時期的平均畝產(chǎn)相加后相除,所得為簡單算術(shù)平均數(shù)。簡單算術(shù)平均數(shù)并不是科學(xué)意義上的平均,科學(xué)意義上的平均是加權(quán)平均。舉例說,假定有11畝土地,其中10畝土地畝產(chǎn)1石,1畝土地畝產(chǎn)2石,簡單的算術(shù)平均為畝產(chǎn)為[(1+2)/2]=1.5石,加權(quán)平均則為[(10×1)+(1×2)]/11=1.09石。顯然,簡單算術(shù)平均數(shù)是不科學(xué)的,加權(quán)平均數(shù)才是科學(xué)的。根據(jù)歷史文獻(xiàn)所載“畝產(chǎn)量”,即便是作全面統(tǒng)計,所得也只是簡單算術(shù)平均數(shù),而非加權(quán)平均數(shù),即非科學(xué)意義上的平均值。什么才是科學(xué)的“平均畝產(chǎn)量”?這里涉及的問題更多。最科學(xué)的辦法當(dāng)然是將某一地區(qū)全部的收獲農(nóng)作物曬干后過秤,將總產(chǎn)量除以總面積,所得即為完全科學(xué)的“平均畝產(chǎn)量”。事實上,這一計算產(chǎn)量的方法是沒有人運用的。通常被認(rèn)為是“科學(xué)”的測產(chǎn)方法,是選取不同類型的地畝,在每個類型中量取一個平方米的面積,將其中的收獲農(nóng)作物,曬干后稱重,將所得產(chǎn)量乘以666.667倍,即為此類型地塊上的每畝平均產(chǎn)量。再根據(jù)不同類型的田地面積,求得總的畝產(chǎn)量。更為簡單的方法,則是測定一塊中等收獲水平的田地畝產(chǎn)量,當(dāng)作總體地塊的畝產(chǎn)量。怎么樣才是“中等收獲水平”,則依據(jù)老農(nóng)與統(tǒng)計工作者的經(jīng)驗來確定??傊?,在平均畝產(chǎn)的測定上,所謂的“科學(xué)方法”在實踐中是不存在的。既然本來就不存在所謂科學(xué)的平均畝產(chǎn)量,那么,平均畝產(chǎn)的確定就是一個推測或統(tǒng)計的過程。在“畝”的面積不存在疑義的前提下,欲估測某一時期某一地區(qū)的“每畝平均產(chǎn)量”,可以采用統(tǒng)計學(xué)上的“眾數(shù)”作為其代表,即在一般水平的耕地上,出現(xiàn)最多的單位畝產(chǎn)量。為了正確尋找“眾數(shù)”意義上的平均畝產(chǎn)量,我們也只能通過建立數(shù)據(jù)庫的方法來完成。簡單地說,在確定“畝”的性質(zhì)及其面積的前提下,我們可以將所有的畝產(chǎn)資料搜集起來,并將與此有關(guān)的所有信息標(biāo)識出來:地區(qū)、區(qū)塊、田則、豐年、平年或歉年、年份、農(nóng)作物、茬口,從中尋找最一般田畝中最大量的畝產(chǎn)記載,所得就是我們需要的亦即最科學(xué)的平均畝產(chǎn)量。這樣一來,數(shù)據(jù)庫方法便有可能成為求解歷史時期畝產(chǎn)量的最佳方法。二數(shù)據(jù)庫方法在經(jīng)濟(jì)史及人口史研究中的應(yīng)用事實上,最近幾十年來,數(shù)據(jù)庫方法已經(jīng)在經(jīng)濟(jì)史及人口史研究中得到了具有示范意義的運用。其中最著名者,有王業(yè)鍵教授建立的清代糧食價格數(shù)據(jù)庫以及劉翠溶教授建立的宗族人口數(shù)據(jù)庫。王業(yè)鍵將清代內(nèi)閣檔案中記載的大量糧食價格,以數(shù)據(jù)庫的方式進(jìn)行整理,在此基礎(chǔ)上進(jìn)行的研究,大大超越了前人。目前,這一數(shù)據(jù)庫已經(jīng)轉(zhuǎn)移至臺北“中研院”近代史研究所,該所準(zhǔn)備將其整理后上網(wǎng)公布。劉翠溶選擇了中國南方和北方50種族譜,將其中所包含的30萬個人口數(shù)據(jù)(包括姓名、生年、卒年、婚姻、生育、功名等)整理成一個龐大的數(shù)據(jù)庫,在此基礎(chǔ)上展開的有關(guān)中國傳統(tǒng)時代人口特征的研究,奠定了中國人口研究的基礎(chǔ)。在個人電腦尚未普及的1980年代,王業(yè)鍵與劉翠溶敏銳地把握住了技術(shù)進(jìn)步的時代特征,在大型數(shù)據(jù)庫的建立上投入大量精力,取得了巨大的成就,開一代研究新風(fēng),兩人也因此而被推選為臺北“中研院”院士。幾乎在同一時代,美國學(xué)者李中清也在致力于建立中國人口數(shù)據(jù)庫。他建立清代皇室譜牒的人口數(shù)據(jù)庫與清代遼寧八旗戶口數(shù)據(jù)庫,也屬于大型數(shù)據(jù)庫之列。建立在這兩個數(shù)據(jù)庫基礎(chǔ)之上的中國人口史研究,從微觀層面講,堪稱典范。在大陸方面,早在1980年代,也有人嘗試建立數(shù)據(jù)庫進(jìn)行學(xué)術(shù)研究。如陳春聲有關(guān)清代廣東糧食市場的研究,王躍生關(guān)于刑科題本中清代家庭及婚姻的研究,侯楊方關(guān)于蘇南地區(qū)兩個宗族人口的研究。比較而言,大陸學(xué)者以個人之力建立的數(shù)據(jù)庫,規(guī)模偏小,其成果的重要性也相對較小。當(dāng)然,學(xué)術(shù)研究成果的重要性并不以數(shù)據(jù)庫規(guī)模為標(biāo)志。問題在于,數(shù)據(jù)庫規(guī)模大、樣本量大,統(tǒng)計學(xué)意義上的結(jié)論也就更可靠、更準(zhǔn)確。不過,對于一些小規(guī)模的研究而言,小型數(shù)據(jù)庫同樣具有不可替代的作用。在1990年代,我曾經(jīng)撰文,討論清代玉米、番薯在中國的分布。當(dāng)時面臨的棘手問題,是如何區(qū)別物種意義上的少量分布與經(jīng)濟(jì)意義上集中產(chǎn)區(qū)的形成。根據(jù)地方志中的記載,我將有大規(guī)模種植的記載、充當(dāng)主要農(nóng)作物的記載與充當(dāng)主要食品的記載,當(dāng)作“集中產(chǎn)區(qū)”的標(biāo)志。也就是說,只要地方志中有三類記載中的任何一種,就可以判定這個地方為“集中產(chǎn)區(qū)”。將玉米、番薯“集中產(chǎn)區(qū)”做成數(shù)據(jù)庫后,在地圖上標(biāo)示出來,就可以發(fā)現(xiàn)清代中期的中國,形成了西南山區(qū)玉米種植帶和東南丘陵區(qū)番薯種植帶。[2]再舉例說,在筆者最近的一項研究中,曾對嘉慶二十五年(1820)一本題名為“闕彤昌號”的冶鐵爐賬本進(jìn)行分析。其內(nèi)容包括賬簿頁碼、條目序號、來往戶名(商號或人名)、來往戶性質(zhì)(供砂戶或買鐵戶等)、年、月、日、延續(xù)天數(shù)(供貨及購買持續(xù)的時間)、來(如鐵砂、木炭及大米、食鹽、豬肉等)、去(如鐵、貨款、稅金、工資及大米、豬肉及糖等)、對除結(jié)算(每隔一段時間,爐主分別與供貨及購貨戶結(jié)賬)、物品名稱、數(shù)量、單位、單價、總價、單位換算、附注等共18項。這一年該號來往賬目共有1332條[3],如不采用數(shù)據(jù)庫方法,研究者根本無法著手進(jìn)行分析。賬本與會薄,以及分家書及農(nóng)家流水賬等,是民間文書的重要組成部分。在我們經(jīng)手過的徽州文書與浙南文書中,此類資料可謂汗牛充棟,但相應(yīng)的研究成果不多,出色的成果更少。究其原因,就在于學(xué)者尚未掌握數(shù)據(jù)庫這一強(qiáng)有力的研究方法。今天,數(shù)據(jù)挖掘已經(jīng)成為社會科學(xué)常用的研究工具,青年學(xué)者們聚在一起,交流最多的詞匯可能就是“DataMining”(數(shù)據(jù)挖掘)。在此背景下,挖掘數(shù)據(jù)已經(jīng)成為一種時尚。一些為人熟知的材料,由此而獲得新的生命。如1930年代前后日本滿鐵在中國進(jìn)行的村落調(diào)查,其基本資料已為黃宗智、馬若孟、曹幸穗等利用,他們?nèi)藢@批資料的分析結(jié)果,已經(jīng)成為中國經(jīng)濟(jì)史研究的經(jīng)典著作。即便如此,仍有學(xué)者發(fā)現(xiàn),這三人的研究,尚處于前數(shù)據(jù)庫時代,他們對于資料的整體把握,在技術(shù)上存在嚴(yán)重缺陷。今天的學(xué)者們相信,采用數(shù)據(jù)庫方法重新整理并解讀滿鐵資料,有可能獲得一些全新的成果。我們還可以舉出許多例子,來說明數(shù)據(jù)庫方法在經(jīng)濟(jì)史與人口史研究中的應(yīng)用。可以毫不夸張地說,在經(jīng)濟(jì)史及人口史研究中采用數(shù)據(jù)庫方法,無疑是現(xiàn)有各種研究方法中最為科學(xué)的方法之一。三數(shù)據(jù)庫方法在其他研究領(lǐng)域中的應(yīng)用1.環(huán)境史如果將視角拉開,最近幾十年來,有一個重要的數(shù)據(jù)庫為歷史學(xué)家廣泛應(yīng)用,這就是氣象學(xué)家編制的《中國近五百年旱澇分布圖集》[4]。該圖集雖然以圖為主,卻在書后附錄了一個龐大的數(shù)據(jù)庫。與其他數(shù)據(jù)庫不同的是,歷史文獻(xiàn)中關(guān)于旱澇的記載,本身就不是數(shù)據(jù)化的。圖集的編者將歷史文獻(xiàn)中所涉站點中有關(guān)旱澇的描寫,進(jìn)行分級,分級后的數(shù)據(jù)形成數(shù)據(jù)庫。由于涉及全國的旱澇數(shù)據(jù)只能選擇有限的觀察點,因此,有學(xué)者在從事區(qū)域災(zāi)荒史的研究時,會采用同樣的方法,在所研究的區(qū)域內(nèi),建立更多的觀察點。他們的觀測,更加細(xì)膩、更加具體。我所在的上海交通大學(xué)歷史系的同仁在研究中國海洋生物種群歷史的過程中,嘗試在各海區(qū)如黃渤海、東海、南海等海區(qū)建立海洋生物種群數(shù)據(jù)庫。他們依據(jù)的主要資料為地方志,其內(nèi)容包括省名、府名、縣名、漁場名、魚之俗名、學(xué)名、長度、寬度、重量、顏色、其他外形特征、現(xiàn)代標(biāo)準(zhǔn)、味覺、產(chǎn)量豐歉、魚汛時間、魚汛特征,等等,所有相關(guān)信息一一收入庫中。各個數(shù)據(jù)庫按照統(tǒng)一的格式進(jìn)行建設(shè),以利將來整合成為一個大型數(shù)據(jù)庫。通過數(shù)據(jù)庫的分析,可以把握中國海洋生物種群變動的基本特征,揭示海洋生物種群變化的自然及社會背景,深入理解海洋生物種群之間以及人與海洋生物的關(guān)系。也有年輕的研究生嘗試將明清地方志中記載的各種疫情以數(shù)據(jù)庫的方式進(jìn)行整理,此舉也取得了不錯的效果。其數(shù)據(jù)庫內(nèi)容包括省名、府名、縣名、疫情俗名、臨床癥狀、傳染方式、傳染源、易感人群、現(xiàn)代疫名、死亡狀況等。與以上兩種數(shù)據(jù)庫一樣,所有的分析結(jié)果可以直接以地圖的形式呈現(xiàn)出來,而根據(jù)地圖所進(jìn)行的分析,可以加深人們對于分析主題的理解。在最近《歷史研究》發(fā)表的一組有關(guān)環(huán)境史的筆談中,關(guān)于環(huán)境史的研究方法,學(xué)者們各抒己見,新意迭出。如王利華教授認(rèn)為,環(huán)境史的研究方法主要是生態(tài)學(xué)的研究方法,最為新穎。然而,究竟何為生態(tài)學(xué)的研究方法,本身就是一件值得討論的事情。以上兩例表明,盡管數(shù)據(jù)庫本身并不是生態(tài)學(xué)研究的獨有方法論,但它仍然可以用于環(huán)境史研究。我們并不愿意討論什么是某某學(xué)科的研究方法,而更愿意討論,某某方法可能或如何為某某學(xué)科所采用。2.政治史最近,我在研究河南基層的反右運動時,曾經(jīng)就某縣數(shù)十份1962年右派甄別結(jié)論進(jìn)行分析。這批右派甄別結(jié)論頗為新鮮,它引錄了右派致罪的言論,這些言論可以分為七個方面:抱怨農(nóng)民生活苦與農(nóng)民地位低;批評合作化不好與農(nóng)村經(jīng)濟(jì)今不如昔;批評農(nóng)村教學(xué)質(zhì)量差,農(nóng)村教師地位低;批評黨政關(guān)系中以黨代政,外行黨員領(lǐng)導(dǎo)內(nèi)行;批評干部政策與干群關(guān)系;批評歷次政治運動;批評各級領(lǐng)導(dǎo)。我將這七個方面的言論歸納為涉農(nóng)言論、教育問題、政治運動、向領(lǐng)導(dǎo)提意見,以及言論形式等五個方面,每一條言論得1分,建立一個小型數(shù)據(jù)庫。分析結(jié)果表明,有關(guān)農(nóng)村農(nóng)民問題、以往政治運動的批評以及批評的語言方式這三項統(tǒng)計顯著,顯著水平均在5%以上。從這個結(jié)果可以看出,這三個方面對于劃分“右傾”還是“右派”是十分重要的,并且從回歸系數(shù)可知,如果鳴放中包含對歷次政治運動進(jìn)行批評的言論,那么則最容易被劃分為“右派”。這一結(jié)論是相當(dāng)有趣的,因為,對于右派的定性在很大程度上是依據(jù)他們對于歷次政治運動的態(tài)度,而這主要又是由對于整風(fēng)“反右”以及“反右傾”運動的態(tài)度決定的。運動的本身竟然成為運動的目的,即反對運動者成為運動的對象。這一特點,從此成為中國政治運動的常態(tài)。采用數(shù)據(jù)庫方法進(jìn)行政治史研究,上述研究可能只是一個嘗試。就反右而言,如果能夠掌握更多的資料,并據(jù)此建立一個大型數(shù)據(jù)庫,我們就有可能在一個更大的范圍和更大的樣本量上檢驗本文的結(jié)論。這一嘗試,令我對數(shù)據(jù)庫方法運用于政治史研究有著無限憧憬。最新的進(jìn)展來自我指導(dǎo)的一名碩士研究生,他在整理江西某縣土改資料時發(fā)現(xiàn),如果采用傳統(tǒng)史學(xué)方法整理該縣500余名“工商業(yè)兼地主”的個案資料,行文時只能采取舉例子的方法。一不小心,就會掉入李伯重批評的“選精”與“集粹”的泥淖當(dāng)中。他決定采用數(shù)據(jù)庫方法,將每一位工商業(yè)兼地主的姓名、年紀(jì)、教育程度、婚姻與生育、家庭人口、家庭收入、從事行業(yè)、資本規(guī)模、房產(chǎn)、土地、罰款數(shù)額等全部輸入數(shù)據(jù)庫,借此分析土地改革對于城市工商業(yè)的影響。與現(xiàn)有的土改研究相比,這一構(gòu)思的新穎之處是值得稱道的。四結(jié)論李伯重在上述引文的最后,贊成并推崇吳承明先生主張的“史無定法”,認(rèn)為在經(jīng)濟(jì)史研究中,“史料學(xué)和考據(jù)學(xué)的方法、歷史唯物主義的方法、經(jīng)濟(jì)計量學(xué)的方法、發(fā)展經(jīng)濟(jì)學(xué)的方法、區(qū)域經(jīng)濟(jì)史的方法、社會學(xué)的方法,乃至系統(tǒng)論的方法,都在選擇之列”。對此我完全贊成。本文只想強(qiáng)調(diào),隨著時間的推移,數(shù)據(jù)庫方法越來越成為歷史研究的常備方法。這可能也是歷史學(xué)社會科學(xué)化的最大收獲之一??赡茉诓痪玫膶?,學(xué)者們見面時的問候語,就是“你建了庫沒有?”,這一問候猶如我們的父輩見面時常問的“你吃了飯沒有?”。這一流行的趨勢開始呈現(xiàn),我已經(jīng)感覺到其來勢洶洶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論