首页 >> 历史学 >> 史学评议
“大数据时代史学研究的理论与方法”笔谈 ——数字人文及其对历史学的新挑战
2019年02月18日 09:41 来源:《史学月刊》2018年第9期 作者:包伟民 字号
关键词:数据库;数字史学;文本分析;考据

内容摘要:一检索资料在实际史学研究工作中,近年来计算机数据库的发展真正产生广泛影响的,是多数学者已经习惯利用历史文献数据库来搜寻资料。第二个结果,这也是本人在日常研究工作中常常感到困惑之处,那就是对于某一史事,常常难以确定哪些词汇应该被纳入检索字串的范围,而且检索出来的成百上千条的结果,常常绝大多数与研究主题并不相关,对检索结果一条条地分析阅读,徒然增加了工作量。由于数据库能够帮助研究者比以前更加方便地搜集资料,并据以展开分析讨论,因此有论者特别强调“量化研究的一个重要优势是,能够发现靠传统文献阅读无法发现的隐藏在历史资料堆中的史实”(梁晨、董浩、李中清:《量化数据库与历史研究》,《历史研究》2015年第2期。

关键词:数据库;数字史学;文本分析;考据

作者简介:

  作者简介:包伟民,历史学博士,中国人民大学历史学院教授。

 

  近代以来,人文学研究一直为科学的发展所左右。数十年来,已经开始深刻影响其演进走向的,是日新月异的计算机信息技术。据说,目前我们已经处于一个被称之为“数字人文”的时代。

  史学研究也不例外。学界已经为历史资料数据库的建设,投入了巨大的人力和物力。也有一些敏感的商界人士,将此视为攫取商业利润的新场域,投入巨资,开疆拓土。各方面先后建立起来的各种类型的历史资料数据库,不胜枚举。例如在中国古代历史研究领域,具有标志性意义的,先是有香港迪志文化出版有限公司在1999年推出了文渊阁四库全书全文检索数据库,后更有北京爱如生数字化技术研究中心开发制作、于2005年推出的“中国基本古籍库”。这些数据库,已经将中国存世古籍的绝大多数收录其中。与中国古代历史研究直接相关的当代学术文献数据库,执其牛耳者则非中国知网莫属。尽管因其明显地轻视学者个人著作权益而多受诟病,然而这个始建于1999年,集期刊、硕博士学位论文、会议论文、报纸、工具书、年鉴、专利、标准、海外文献资源为一体的巨无霸式的网络出版平台,已经成为学者从事史学研究工作须臾不可离开的帮手。而资本对于高额回报的期待,也开始对学术机构产生越来越沉重的经费压力。

  在差不多每一个从业人员都感受到了新技术无所不在的影响的同时,历史学作为人文学的重要组成部分,其在数字人文时代的境遇,也引起不少学者的关注与讨论。多数意见,是竭力称颂新技术将给历史学带来全新的发展机遇,出现了“大数据时代似乎给史学研究带来了前所未有的兴奋”的现象(郭辉:《大数据时代史学研究的趋势与反思》,《史学月刊》2017年第5期,第7页)。例如有学者认为,“大数据使历史资料利用产生革命性变革”(姜义华:《大数据催生史学大变革》,《中国社会科学报》,2015年4月29日,第B05版)。在研究方法层面,有学者归纳出了关于利用信息技术的所谓“e-考据时代”的概念,认为“e-考据”“已使文史学界的研究环境与方法面临千年巨变”(黄一农:《e-考据时代的新曹学研究:以曹振彦生平为例》,《中国社会科学》2011年第2期,第189~207页)。更有人将“传统史学”与数字人文时代的“新史学”直接对立了起来(李振宏:《论互联网时代的历史学》,《史学月刊》2016年第11期,第97~113页),甚至提出了“信息技术革命会‘终结’人文学科吗”这样耸人听闻的问题(徐英瑾:《信息技术革命会“终结”人文学科吗?》,《文汇报》,2017年1月20日,第11版)。但也有学者持冷静迟疑的立场,从近年来数字化技术在史学研究中的实际应用情况出发作观察,指出,“当我们以数字化的方式在一定范围内穷尽史料之后,我们所期待的‘史料大发现’的时代却并没有到来,我们依旧要在那几部最基本史著的字里行间寻求突破。技术手段的更新,也并没有带来终极意义上的学术思维革命”(陈爽:《回归传统:浅谈数字化时代的史料处理与运用》,《史学月刊》2015年第1期,第14~17页)。

  可以说,相关议题已经展开了比较充分的讨论,各位论者所言,基本也可以自成其说。只不过,对于涉及领域极为宽泛的历史学研究,论者常常仅就其所熟悉且相对有利的部分来举例论证,涵盖面常有不足,不免难以周全;与此同时,不少看法则明显是陈述多于论证,属于“愿景”而已。

  因此,本人谨以自己具体研究的心得为例,在中国古代史研究领域的范围之内,对论者的讨论提出几点补充,以期有助于“数字史学”的发展——如果可以如此来称呼它的话。

  一 检索资料

  在实际史学研究工作中,近年来计算机数据库的发展真正产生广泛影响的,是多数学者已经习惯利用历史文献数据库来搜寻资料。这也是我们首先应该讨论的。

  新技术在给研究工作带来极大便利的同时,也带来了一些前所未有的新问题,值得注意。

  利用数据库来搜寻资料这一方法的广泛应用,所带来的第一个结果,无疑是从中得到的搜索结果的数量大增,正如黄一农所指出的,“随着出版业的蓬勃以及图书馆的现代化,再加上网际网路和数位资料库的普及,一位文史工作者往往有机会掌握前人未曾寓目的材料,并在较短时间内透过逻辑推理的布局,填补探究历史细节时的隙缝”。正由于学者们“有机会在很短时间内就掌握前人未曾寓目的材料”(黄一农:《e-考据时代的新曹学研究:以曹振彦生平为例》,《中国社会科学》2011年第2期,第190页;《两头蛇:明末清初的第一代天主教徒》,新竹:台湾清华大学出版社2005年版,第43~44、63~64页),就可以经分析研究,得出新的结论。这也正是他“深感史学研究已晋入一前人所无法想象的新局”的原因(黄一农:《两头蛇:明末清初的第一代天主教徒》,第63页),也是他提出“e-考据”说的依据所在。

  尽管这种检索的结果可能极大地扩展了学者们搜寻资料的范围与数量,并帮助他们在不同类型的资料之间建立起联系,推进分析思考,不过这种搜寻资料的路径,本来就是“传统”考据学所要求的,只不过学者们常受条件之限,不太容易做到而已。因此就其本质而言,从传统考据到“e-考据”,仍属量变而非质变。这也是为什么有论者以为“e-考据作为一种考据方法的创新,并未改变考据学的性质”之故(张金洁:《E-考据的荣耀与困窘》,《鲁东大学学报》2016年第1期,第17页)。此外,黄一农所实践的两个案例,无论是关于第一代天主教徒,还是关于曹振彦的生平事迹,都发生在明末清初,其存世的历史文献相比于前代要丰富得多,有例如“明人文集资料库”那样信息量十分丰富的数据库,其所能够提供的帮助就十分显著。如果事涉更早一些的历史时期,情况也许会有所不同。

  第二个结果,这也是本人在日常研究工作中常常感到困惑之处,那就是对于某一史事,常常难以确定哪些词汇应该被纳入检索字串的范围,而且检索出来的成百上千条的结果,常常绝大多数与研究主题并不相关,对检索结果一条条地分析阅读,徒然增加了工作量。因此,有学者感叹数据库检索并未使得搜寻资料变得容易,反而是更难了。

  这就反映了文史类数据库建设所面临的一大难题:中国传统历史文献绝大多数是出于文人之手的描述性文本,其中最大量的是文学作品,到了数字人文时代,不管是“细读”还是“远读”,计算机的阅读,只可能落实于文字表面,将数据信息与检索字串机械地一一对应。至少在目前的条件下,还不太可能应对传统文人士大夫笔下常见的各种看似“词不达意”的、灵活多变的表述方式。简言之,当文本未能在字面上直接反映历史信息时,我们该怎么办?

  这里又可以分为三种不同的层次。

  其一,一个对象物,文献中可能用不同的词汇来指称它,研究者非遍览史籍,则难以知晓,不太可能仅依靠检索数据库来完成资料的收集。黄一农在讨论曹振彦生平时,就曾以“瞿汝稷”为例指出,在资料库中可以发现其人共有十数种称谓。他一共举出了诸如“瞿元立”“瞿洞观”等17种不同的称谓(黄一农:《两头蛇:明末清初的第一代天主教徒》,第43页)。一个历史人物有他的姓名、表字、雅号、别名、官职、籍贯等等,这当然是常见的现象。有的时候,厘清历史人物的雅号别名就已经是一项并不轻松的研究议题。例如关于宋代名相王安石的表字,吴曾《能改斋漫录》卷十四曾载:“(王)荆公少字介卿,后易介甫。”今人对此有专文讨论,但莫衷一是(参见张海鸥:《王介甫又称介卿、介父》,《阴山学刊》2001年第3期,第31页;侯体健:《王安石字“介”说》,《古典文学知识》2008年第2期,第114~119页)。更麻烦的是,相比于同名同姓的案例,一个字号为多人所共享的情况则更为普遍。例如仅据《宋人传记资料索引》,一些典雅的字号,往往相同者众多。例如“子文”,相同者有王埜等26人;“子正”,相同者则多至33人。即便如“希文”这样相对冷僻的字号,也有范仲淹等相同者5人(昌彼得等编,王德毅增订:《宋人传记资料索引》,北京:中华书局1988年版,第6~8、136页)。

  不仅是历史人物,制度、事物等也常见一事多名的现象。例如南宋时期有一个中央向地方征调财赋的重要项目,叫月桩钱,文献所载,又称月给钱、月解钱、月桩大军钱等等,甚至简称“大军钱”。而“大军钱”一词,当时还指另外的财政项目,相互间的辨别,全凭研究者细读文献上下文才能做出判断。

  这样一来,在具体的研究过程中,以往依靠通读文献,细细品味,遗漏、返工的情况相对较少。现在如果主要依靠数据库检索来搜寻资料,则往往需要每发现一个新的与研究议题相关的关键词,就返工再做一次检索,最后却仍无法保证是否已经将相关记载搜寻无遗。这无疑会给研究工作带来不小的困惑。也许,技术专家会告诉我们,现今大数据技术的发展,已经完全可以由研究者归纳出其中的规律,设置必要的前提条件,让计算机经过学习,掌握相关的分辨、判断技术,再让它将相关记载的文本“挖掘”出来。这样的设想是否适合于中国古代历史资料的搜寻,笔者尚无法判断。不过比较明确的是,归纳词频规律与为检索设置必要的前提条件,当然是只有史学工作者才能够胜任的一项工作。而这样一来,实际上研究过程恐怕已经完成,无须再烦劳机器了;同时其可能需要的人力、物力投入,也多半会得不偿失。

  其二,在中国古代历史文献的记载中,文本字面含义与史实之间常常存在错位,这就使得事情变得更为复杂了。笔者近年从事的两个专题研究,有一定的示范意义。

  讨论宋代乡村基层管理组织,存世的宋元地方志是核心文献。从宋到元,存在着一个从乡里、乡管到乡都的制度演变过程,这是公认的史实。但是数十种存世宋元方志关于乡村基层管理组织的描述,从南宋至元代,在“乡”之下,超过80%却仍记载着已经退出历史舞台的“里”,至于当时实际运行之中的“都”与“保”,则甚少记载。如果完全依赖数据库的检索统计,就可能使人误以为当时的乡村基层管理组织,仍是以“乡”与“里”为核心来建构的,这就反而远离了史实。实际上这些“里”,看似乡村基层管理组织,却不过是经过演变的某种地理单元而已(参见拙文:《中国近古时期“里”制的演变》,《中国社会科学》2015年第1期,第183~201页)。这样的认识,仅凭数据库的检索阅读,当然是无法达到的。

  又关于宋代城市的城区布局与管理,存世地方志的记载无不以“坊”为中心,无论是“坊巷”“坊市”或者“坊陌”,都是如此。多数地方志几乎不记载关于街巷的情况。即便有的地方志,如《嘉泰会稽志》,设有“衢巷”之目,看似专为街巷而立,实际记载的内容,却仅有坊而无巷。这就给了读者一个直观的印象,似乎当时的城区一切都以“坊”为中心来展开。实际上,“坊”在宋元方志的文本中有多重含义,既可能是城市管理组织“坊区”,又多指耸立于街巷两端的兼具装饰与实用功能的坊额坊表,同时也有可能是纯粹作为纪念性建筑物的牌坊,如各地常见的状元坊、功德坊之类的东西。但是宋元地方志对于其间的区别几乎都不做说明,只是将它们混杂在一起记载了下来。究其原因,就是因为地方志编纂者们“历史书写”的用心所在,是要凸显各地城区坊额的“为美名以志”(戴栩:《浣川集》卷五《永嘉重建三十六坊记》,敬乡楼丛书本,第3页),即其某种“为邑之壮观”(形象工程)与“此政也而有教焉”(宣传栏)的功能(参见凌万顷、边实纂修:《淳祐玉峰志》卷上《坊陌桥梁》,续修四库全书第696册,上海:上海古籍出版社2002年影印本,第573页;戴栩:《浣川集》卷五《永嘉重建三十六坊记》,第5页)。同时,对于在民众日常生活中扮演着主角的街巷,他们却嫌其名称“出于俚俗”,“多非驯雅”(谈钥:《嘉泰吴兴志》卷二《坊巷·州治》,宋元方志丛刊第5册,北京:中华书局1990年影印本,第4689、4690页),不屑于记述了。这种在历史书写中畸轻畸重的失真现象,长期误导了人们对于当时城市制度的认识。如果仅仅依靠数据库对历史文本的统计分析,无疑也会得出坊主巷从的结论,难以解开这个历史的谜团(参见拙文:《说“坊”——唐宋城市制度演变与地方志书的“书写”》,《文史哲》2018年第1期,第85~103页)。

  其三,更进一步,文人士大夫行文遣墨,笔下常见的隐语、反讽、比拟、转喻等手法,使得有时文本与史实之间隔着好几层关系,史家常常不得不依靠自己对史事大背景的掌握以及上下文的逻辑联系,有时甚至还得依靠揣摸作者行文的语气与心态,来做出判断。这就使得事情更加复杂了。

  例如,古人书信中,常以“某氏”“某丈”之类简称,类似于今人所言“老张”“老李”之类的泛称,来指称通信双方都熟悉的某位人物,如南宋理学家吕祖谦(1137-1181),在其与朱熹(1130-1200)的信函中,经常提到一位“张丈”,熟悉南宋理学史的学者很容易判断,这应该是指当时另一位著名的理学家张轼(1133-1180)(参见吕祖谦:《东莱吕太史别集》卷七、卷八《与朱侍讲元晦》,《吕祖谦全集》第1册,杭州:浙江古籍出版社2008年版,第396~439页)。但是仅凭类似于今人“老张”这一泛称,想要请计算机通过数据检索来追索到具体是哪一位老张,无疑太过难为机器了。

  又如,古人还常有以兄弟排行来指称人物的书写方法,类似于今人称某人为老大、老二等等。若无其他更为明确的信息,计算机恐怕也是难以做出判断的。如北宋末年权臣蔡京(1047-1126)的小儿子蔡絛,因与长兄蔡攸(1077-1126)不谐,在其于南宋初年所撰笔记《铁围山丛谈》中,概以“伯氏”一词指称之,其他信息全无,依靠数据库检索,恐怕也是难以从此书中把关于蔡攸的记载挖掘出来的。

  古人又多以官职、籍贯来指称人物,如杜工部(杜甫)、康南海(康有为)之类就是显例。黄一农就曾提到,瞿汝稷还有“瞿黄州”“瞿太虚运使”等别称。但如果这类指称连姓氏都被省略,学者有时不免得考索一番,才弄得清究竟所指为何人。数据库看来是无能为力的。例如北宋后期宰臣曾布(1036-1107)的《曾公遗录》,因属于私人日记性质,指称人物的用词就相当简单。如“元符二年三月丁卯日”条载:“是日,夔、辖不入。”(曾布著,顾宏义点校:《曾公遗录》卷七,北京:中华书局2016年版,第10页)这里被简略至仅一个字的“夔”与“辖”所指何人,就颇费思量。据同书卷九“元符三年正月己卯日”条载,宋哲宗驾崩之后,向太后与宰执们商量帝位继任大事。“章惇厉声云:‘依礼典律令,简王乃母弟之亲,当立。’余愕然未及对,太后云……余即应声云:‘章惇并不曾与众商量,皇太后圣谕极允当。’蔡卞亦云:‘在皇太后圣旨。’许将亦唯唯,夔遂默然。”(曾布:《曾公遗录》,第174页)可知“夔”即为时任宰相、尚书左仆射兼门下侍郎的章惇(1035-1105)。然而此“夔”字,既非章惇的表字,更非其雅号,显然是曾布因与其政见不合、在自己的私记中为其所取带有鄙意的别称。至于“辖”,文中也多见有“两辖”一词,当指“左辖”与“右辖”,即尚书左丞与尚书右丞的别称。时任尚书左丞是蔡卞(1048-1117),尚书右丞为黄履(1030-1101)(脱脱等:《宋史》卷二一二《宰辅表三》,北京:中华书局1977年版,第5509页)。从人名到其官职,又从官职到别称,更将别称简化,这中间几重转折的线索,检索工具怕是接不上的。

  又如南宋乾道八年(1172年),朱熹致信吕祖谦:“熹自泉、福间得侍郎中丈教诲,蒙以契旧之故,爱予甚厚。”[朱熹著,刘永翔、朱幼文点校:《晦庵先生朱文公文集》卷三三《答吕伯恭》,《朱子全书》第21册,(上海)上海古籍出版社、(合肥)安徽教育出版社2002年版,第1434~1435页]这里提到的“郎中丈”究系何人,就有点没头没脑。查吕祖谦年谱及其他相关资料,才得以明了原来指的是吕祖谦之父吕大器。绍兴二十五年(1155年)吕大器任福建提刑司干官,当时朱熹应该拜见过他,因此才说自己在泉、福间得其教诲。吕大器于乾道八年二月初七日过世,朱熹得知此消息后,致信好友表示慰问。吕大器官至右朝散郎,所以朱熹以“郎中丈”尊称之。但是,我们若要讨论吕大器这样的历史人物,应该是不会想到将其曾任之右朝散郎之简略词“郎”等词汇列为检索字串的。即便检索字串的设置周全得无以复加,能够将其列入,那么不管是某氏某丈、伯氏季氏,还是夔、辖、郎之类,利用“中国基本古籍库”那样的数据库,当然都能很快地将它们全部检索出来,罗列无遗,但是每一字串所得到的起码数千及至十数万个检索结果,在实际的研究工作中显然也是没有任何利用价值的。

  所以说,仅就全文检索这一层面而言,对于以上这几类现象,计算机数据库看来仍然是无能为力。如果仅仅依靠数据库来搜寻历史资料,至少在目前的技术水平下,仍有其明显不足,难以将资料搜寻完备。黄一农曾指出:“当然,别忘了,‘e-考据’的研究方法,不仅得熟悉网络或电子资源,还必须建立在深厚的史学基础之上。而清晰的问题意识与灵活的搜寻技巧,亦将是考据功力的深浅所系。”(黄一农:《两头蛇:明末清初的第一代天主教徒》,第64页)我们或许还可以对此稍做补充,在清晰的问题意识与灵活的搜寻技巧之外,对于一些基本历史文献,认真通读,细心体会,仍然是中国古代历史研究必不可少的一道“工序”。

作者简介

姓名:包伟民 工作单位:历史学博士,中国人民大学历史学院教授

转载请注明来源:中国社会科学网 (责编:田粉红)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们