首页 > 大数据 > 正文

“大数据”与考据新生态

2019-01-09 14:07:21  来源:中国社会科学网

摘要:“大数据”如今已渗透到人类生活的方方面面。随着各种数据库的大量出现,传统文史研究也发生了变化。近年来,与“e考据”和“数字人文”相关的研究日趋增多,因此,进一步探索如何更切实地将理论、方法与研究实践有机结合,就变得十分重要。
关键词: 大数据
  “大数据”如今已渗透到人类生活的方方面面。随着各种数据库的大量出现,传统文史研究也发生了变化。近年来,与“e考据”和“数字人文”相关的研究日趋增多,因此,进一步探索如何更切实地将理论、方法与研究实践有机结合,就变得十分重要。

\
  扬弃既有研究成果
 
  大数据时代对传统文史研究产生的影响,首先表现在资料上。近些年新推出的电子资源在内容上甚至有超越传统出版物之势,检索的快捷性和精确度,可以令学者省却翻检群书、游历访书之劳。在这样的学术环境下,探讨某些疑难问题可能只需简单检索,许多“悬案”的解决难度也相应大幅度降低。前人因资料局限而不得不大量运用的“理校”“推论”“悟证”诸方法,在大数据时代无疑要重新进行扬弃。
 
  在学术史研究中,清人往往因所见善本不丰而大量运用“理校”法展开研究,其中有的结论或与善本相合或遭善本否定。今人既然已经能够在研究中大量占有善本供校勘,那么这种研究方法虽仍有学习的必要,但其实用性也难免会打些折扣。大量新材料理应引发大量新结论,一些“常识”或“定论”必然也会随之遭到质疑甚至颠覆,这对于现有的研究自然会有相当明显的刺激作用。近年来学界对于近代学人的成就时有争论,原因之一就在于当时学者以一人之力所做的资料性工作,精度和效率都很容易被数据库所超越。不少在民国时期“古史辨”中几乎成为公认的定论,随着出土文献的发现而被推翻(典型的例子如对《孙子兵法》的辨伪),足见新材料在某些研究领域确实处于相当核心的地位。
 
  通过数据库重新打捞那些以往不被关注的文献,这实际上仍是发现新材料,其性质与考古相似,亦可称之为当下的“预流之学”(陈寅恪:《敦煌劫余录序》)。与此相关的一个问题是,在超过120亿字的可检索的古典文本,以及各种不同类型的数据库中,还蕴藏无限问题可供发掘。而这些数据资源能否被学者使用,很大程度上取决于其所在单位购买的数据库数量。在高校间已有明显“数位落差”的现实条件下,学者个人的学术水准有可能受到所处文献环境的制约,而不同文献环境导致的信息素养的差异可能会进一步拉大这一差距。
 
  数据库大量涌现,学术评判标准也会发生变化。出于“功利”眼光计算,当代学者费尽周折的考据工作,很可能被下一代学者轻易解决。其原因并非人的智力、才能有别,而是文献环境不断变化提供的巨大方便使然。一代有一代之学术,面对不同的环境,学术范式也应随之转移。所以,当下正是海量文献可供使用、可以大有作为的时代,也是考据研究缺乏亮点而趋于同质化的时代。换言之,即使是在数据仍未被充分电子化的当下,考据研究的合法性也正在受到冲击。一般性的文献挖掘仍然重要,但能够解决核心学术问题的研究更为重要。
 
  引发学术伦理讨论
 
  在电子检索受到学界瞩目的同时,一些批评尤其是对于学术伦理的讨论也随之热门起来。电子检索的高效快捷,令不少学者担忧其可能引发更严重的学术不端。比如,有的研究者可能对相关领域了解有限,但在检索工具的助力下仍敢匆匆上马,轻易立说;有的研究者征引繁复,可谓博瞻,但实际上许多材料是脱离语境的“遥读”,经不起细加辨析;有的研究者过于迷信电子文本的全面性,但却因此而忽略了那些未被电子化的文献;有些电子文本存在错误,研究者未核查原书导致误引误断;等等。
 
  对这些实际存在甚至时显泛滥的问题,我们可以尝试从以下几个方面来进一步认识。首先,技术本身是中立的,上述批评很大程度上是在针对研究者个人的文史素养和治学态度,并未否定技术能够令优秀学者如虎添翼。而擅长检索的学者也能够认识到文史素养的重要性,并非一味依赖电子资源。从现实情况看,电子技术确实使那些曾经看上去遥不可及的一流学者(尤其是实证型学者),变得可以企及了,这至少是正在提升学术研究的平均水准。校勘、笺注、考据中的一些前期工作,可由计算机更精准地代劳,在人机结合的研究过程中,“高明子弟,自然沉潜”。
 
  其次,当下的电子文本绝非完美,即使是扫描版也往往不能完全忠于原书,引用之前必须与原始文献核对,不能径用。但这恰好说明,现在的数据库还没有脱去以往“工具书”的性质。前人做研究,亦会查阅类书、索引等,甚至常有转引、代查的现象,这证明“工具”本来也不被排斥。如将数据库理解为一种高级的“逐字索引”,则其学术价值自然彰显。此外,纸质文献(尤其是整理本)同样常常有误。古籍校勘中,也多有以“通行本”为底本的典范。事实上,核心问题不在于当下的电子文本有多少具体错误,而在于能否使注释具有可回溯性和规范性。如果一味排斥征引电子文本,很可能也会使数据库开发者缺乏将电子文本精确化的动力。
 
  促进材料深度辨析
 
  一般观点通常认为,电子检索作为一种“捷径”,往往令学者过于重视关键词,却忽视同一词语所处的不同语境。时代的风气、作者的习惯、史料的性质等,都在大数据时代的考据中付之阙如。在笔者看来,这种弊病在传统文史研究中同样并不少见,却有可能在大数据时代觅得新的解决契机。
 
  首先,大数据时代资源丰富,找寻辅证、反例的难度都较以前小,可以在一定程度上防治孤证武断,并有益于深入理解史料所处的特殊语境。
 
  其次,当大数据呈现出全部信息时,可以在多方面帮助学者辨析问题,甚至可以用“结构取义”的方式展开新的研究思路。例如高树伟在研究《永乐大典》的辑佚条例时,推翻了认为《大典》“直取全文”的成说,并且依靠海量文本对校的方式,提出了《大典》征书的新通例。这一认识既变,或许在一定程度上可以借助通例建立参考系,并以此来重新认识前人辑佚的成果,不妨称之为类似于“理校”的“理辑佚”。黄一农最近在脂批本“宁”字抄写避讳的研究中,也提及抄本研究应建立参照系,这些见解似可遥相呼应。又如在文本细读工作中,作者究竟是直接使用某一典故,还是受到文化传统影响,实际存在多种可能。笺注、考据家往往侧重于锁定甲乙间的因果承袭关系,但容易忽视文化大传统的潜在影响。近年来古代文学研究引入“互文”理论,尝试说明这种影响往往是网络状、多源多流的。张昊苏在此基础上提出“e互文”思路,意在指出大数据时代有助于深入理解这种多样性。
 
  借助大数据提供的便利,考据学出现了“后发先至”的现象。前辈学者经年研究的难题,很可能被新一代学人在短时间内解决。至少在这类问题上,信息素养的意义很可能要高于传统知识体系,掌握查找知识的能力很可能也比掌握知识更为高效且重要。这里并非是说新时代的学者可以不掌握知识而解决问题,而是说,信息素养可以出于研究的需要,迅速进入新的领域并建构具有针对性的知识体系,这种大幅度的跨界是传统学者较难做到的。当然,就目前的研究状况来看,大数据时代“数字人文”研究还没有作出第一流的成果,多数成果仍然是在研究具体问题,而尚未建立新的范式。但近十余年来这一领域的学术积累正以指数级速度增长,足以令人期待由“量变”产生“质变”。或许,未来传统学者也应该未雨绸缪,需要考虑能否做出不被数据库遮蔽、凸显研究者个性的学问。

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:baiyl

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。