穿梭千年:数字人文对档案信息资源开发利用的影响
董聪颖
摘? 要:数字人文将现代信息技术融入到人文学科,推动了人文研究范式的升级与转型。随着信息社会的发展,数字人文在档案信息资源开发利用方面的应用也开始崭露头角,本文以“威尼斯时光机”项目为例,通过案例分析数字人文对档案信息资源开发利用的影响,期望数字人文对我国档案信息资源的开发利用有所启发。
关键词:数字人文档案;开发利用;威尼斯时光机
Abstract:Digital humanities integrates modern information technology into the humanities, and promotes the upgrading and transformation of the humanistic research paradigm.With development of information society, the application of digital humanities in the development and utilization of archive information resources has also shown promise, the paper take the "Venice time machine" project, analyzes the influence of digital humanities on the exploitation and utilization of archive information resources,expected that digital humanities can take effect for our national the development and utilization of archives information resources.
Keywords:digital humanities;Archives ;exploitation and utilization ;the Venice Time Machine
数字人文(Digital Humanities)是计算机学科和人文学科交叉研究的一个新领域。柯平在《数字人文研究演化路径与热点领域分析》中指出,通过领域和主题的初始分析,发现数字人文的主要学科领域集中于文学、计算机科学、语言学、历史学、社会学、艺术学以及文化研究等。主题分布主要集中在与基础设施建设相关的archive、database、electronic text、digital library、information[1]。虽然在主要学科领域,档案学并未明确罗列其中,但档案学与文学、社会学等主要学科均有着千丝万缕的联系,更重要的是,“主题分布”中足以表明数字人文在档案领域的应用已逐步深化。瑞士洛桑联邦理工学院(EPFL)数字人文实验室教授雷德里克·卡普兰也说道:“如果我想建立一个时光机器,需要满足两个条件,即足够多的档案和优秀的专家。”[2]1 数字人文与档案信息资源开发利用
数字人文起源于人文计算[3]。20世纪90年代早期至21世纪初期,随着互联网的出现和计算机技术的发展,“人文计算”的对象从电子文本逐步扩展到超文本、图像、视频、音频、数字地图、网页、虚拟现实、3D等多媒体,计算的领域也不只是在语言学领域,而是扩展到历史、音乐、艺术等多个领域[4]。数字人文的实践先驱意大利著名人文学者Roberto Busa认为,人文计算化的结果更重要的是为传统人文提供全新的研究方法、工具和平台,实现人文研究范式变革。武汉大学教授王晓光认为,数字人文是“将现代信息技术融入于传统的人文研究和教学过程中,从而改变人文知识的获取、标注、比较、取样、阐释与表现方式,实现人文研究范式与教学的全面升级和创新发展”[5]。数字人文是对数字化档案和档案数字化成果的深度开发,数字人文的开展离不开技术,其涉及的技术主要包括文本挖掘、可视化(GIS)、语义检索、数据库、历史流和空间流展示技术等。其中,文本挖掘将大量非结构化的信息以新的模式、规则呈现出来;可视化技术则是把复杂的、不易懂的信息以视觉符号的信息表达出来;数据库或网站是数字人文技术开展的基础设施;语义检索可以大大提高检索效率,避免老式的电脑单一机械检索结果;历史流技术使人们在享受现代环境的同时,“穿梭”到远古记忆中感受古老文化。
国外档案领域对于数字人文的运用已相对成熟,其中最具代表性的是“威尼斯时光机项目”(the Venice Time Machine),它致力于将威尼斯国家档案馆馆藏尽数数字化,利用数字人文等技术还原古老的威尼斯面貌,使人们在借鉴古时档案的同时,利用时光机器“穿梭”时空,对过去档案的“今时”情景再现。另外还有美国乔治梅森大学历史与新媒体研究中心2002年启动的“9·11事件数字档案项目”(The September 11 Digital Archive),以美国9·11事件相关数字档案为主题,目前收集保存的账单、邮件、图片等档案资料总数已经超过150000件;美国弗吉尼亚大学数字历史研究中心1993年启动的以美国南北战争时期平民生活档案为主题的“影谷项目”(The Valley of Shadow)等均是对数字人文的深入运用[6]。相较于国外,数字人文在我国档案实践中虽也有涉及,但多数仅停留在档案数字化阶段,对于更深层次的档案信息资源的开发利用研究相对较少。2 档案穿越千年——“威尼斯时光机”项目
“威尼斯时光机”项目是瑞士洛桑联邦理工学院(EPFL)和威尼斯大学的联合项目,此项目以威尼斯国家档案馆80km的档案记录为基础。EPFL教授弗雷德里克·卡普兰是“威尼斯时光机”项目的主要发起人,他说:“我们的目标是将这些所有记录转化成过去的数字信息数据库。”Kaplan在《Ideas Worth Spreading》TED报告中指出,该项目致力于运用时光机器“穿梭”千年前的威尼斯,比如让人们在谷歌地图中查看路径时,也可以看到十几年前甚至1000年前的道路、建筑。“威尼斯時光机”项目的目的是重建威尼斯的过去,从而更好地理解过去和未来。建立一个多量化的威尼斯模型,它涵盖了1000多年的历史,旨在建设一个可以用于研究和教育的大型开放数据库[7]。EPFL主席Patrick Aebischer认为这个项目合作的共同愿望,就是通过数字化及开发来庆贺过去和未来的记忆可以呈现[8]。“威尼斯时光机”项目从思想的萌芽至正式开展再到如今取得的显著化成果主要是以下几方面因素的作用:
资源基础:自拿破仑时代开始,威尼斯的档案管理模式非常“官僚主义”,威尼斯共和国的执政官们几乎记录下这里发生的一切,记录下了过去1000多年中威尼斯人们生活的方方面面,从出生和死亡记录、纳税记录、建筑设计图、城市规划方案、去其他领土的旅游导览图、和平条约等[9]。威尼斯国家档案馆馆长Raffaele Santoro说:“这里所有的文件都是相互关联的。”80公里的档案资料为项目的开展提供了得天独厚的信息资源,提供途径使人们穿越时空,在真实环境下感受千年威尼斯。
项目主体:“威尼斯时光机”项目是EPFL和威尼斯大学的联合项目,并与意大利电信公司签署了合作协议,现在该项目受到来自斯坦福、哥伦比亚、普林斯顿和牛津等国际知名理事会成员的支持,具有先进的合作团队,为项目的顺利开展奠定了坚实的科研后盾。其主要负责人Frederic Kaplan是计算机科学家,把人工智能(AI)应用于人文学科,主要是语言学。他模仿了语言的演变,例如,用人工智能搜索数个世纪的报纸来寻找词语和短语的模式。运用这些技术,在一个有着几百年历史的欧洲城市里建造时光机,带领他的团队为世界开启档案中的威尼斯之旅。
技术应用:将这种独特的文化遗产转化为数字档案,有许多技术上的挑战。必须建立一个最优的工作流,以实现对数百万手稿的精确文本识别。大规模数字化不仅需要对古代手稿进行系统的扫描,而且还需要对不同的手写风格进行自动处理,同时还需要对拉丁语和其他几种语言进行分析。由于海量的数据,大规模数字化也需要大数据的管理、挖掘和分类。威尼斯时光机就是为了这个而建造的。随着数据的增加和威尼斯人和地方的数据库的增加,自动文本识别算法不断地适应和改进;为了保护档案,不翻页即可对其进行扫描;对于手稿档案采用符号识别等技术。
经费支持:“威尼斯时光机”项目自2012年正式启动后如火如荼地进行,离不开经费的大力支持,毕竟数千万份文档的数字化不是小额经费所能支撑得住的。除了项目经费支持外,还有各社会组织的帮助,如Lombard Odier基金会。3 会“说话”的档案——数字人文对档案信息资源开发利用的影响
3.1叙事主体多元化。加拿大档案学者特里·库克也对档案工作范式做了深刻总结,他将档案工作所经历的范式分为四个超越时间的框架。前三个范式分别以维护档案的原始记录性、文化性和提供利用为目的。现在,第四个范式正呼之欲出。他指出,档案工作者应放下专家的身份,不再控制和管理,与社会/社区(既有真实社会/社区,又有网络空间社会媒体连接起来的虚拟社会/社区)一道共建共享档案[10]。档案本身就是社会活动的产物,具有与生俱来的社会性。特里·库克所提到的“共建”,正是强调每个人都是档案资源的形成者与开发利用者。如今,档案已不仅仅是行政机构记录自身事务的“专用”叙事载体,叙事主体还包括学者、平民、商人等。“威尼斯时光机项目”数字化呈现的就是整个威尼斯城市的生活,并非仅是行政面貌,它将使历史学家能够重建成千上万的普通人的生活——工匠、店主、使节和商人,并建立更全面的历史叙事,将档案中的古老威尼斯社交网络活灵活现地展现出来。
3.2叙事内容丰富化。“没有对档案的控制,就没有政治权力。”德里达如是说[11]。档案自古以来就是权力的代言人。从文件形成到作为档案内容系统的鉴定无不透漏着权力的影子。虽然现在国内外都在积极倡导加大档案信息资源开发,但所呈现的档案信息仍是国家单一、分散的与政务相关的文件,如人们看到某页文件中写到某某年A国家发生了一件大事,他可以很窃喜自己又增长了一些知识,可若想对整个事件的经济背景、社会生活等有番翔实非静态的认知,大多数档案服务是做不到的。威尼斯时光机可以。Kaplan在TED讲坛中说道:“在我的实验室里,我们开发的时光机,对过去的事情不仅在空间上而且可以在时间上展示过去。那么大家要问的问题是:是否有可能建立起过去的Goole地图?我能在Goole地图上添加一个链接,看看它100年前、1000年前是什么样子吗?我能重建过去的社交网络吗?我能创建一个中世纪的facebook吗?也许你会说:不,这是不可能的。但或许我们可以从信息角度来考虑它。这就是我所说的时光机器。这时候你可以知道谁在1323年居住在意大利豪华的宫殿;在1434年the Realto 市场一条鱼多少钱。或者10年后你可以问在这片数字空间里你可以做什么。[12]”在威尼斯档案馆,大部分档案,主要是用拉丁语或威尼斯方言写成的,还从未被现代历史学家阅读过。现在,它将被系统地送入威尼斯时间机器,并提供更多的非传统的数据来源,比如绘画和旅行者的日志[13]。
3.3利用形式多样化。从作为统治阶级自存自用的原始档案到法国《蔷月七日档案法》以法律形式确定档案的开放利用,发展到今天追求开放档案数据库的建设,档案的保存形式也由传统的纸质版逐渐转为电子文件,存储载体由高大威武的密集架、易损伤的光盘向云存储形式转变。新媒体的出现可以满足人们足不出户即可利用档案的需求;大数据环境下使档案信息保存量不受限制。文本挖掘、可视化等数字人文技术的运用更是使档案信息资源开发的成果展示愈加多样化。EPFL大学将威尼斯时光机项目作为学生课程的一部分,2014年7月14日人文学院的两名学生在Kaplan的指导下开发了一种技术成果,让游客在参观威尼斯使用地图时可以看到古建筑的外观,在不涉及版权的前提下这两个学生能够将60张图像匹配到相应的雕刻,并且这个新“皮肤”,被添加到谷歌地图,当游客在威尼斯四处走动时,导航屏幕上会突出显示相关的编辑信息,让用户意识到他们所提供的额外信息。在两次点击后,现在的景象和古代的版画出现在一起,历史文本或建筑解释将一起出现。
3.4档案信息资源开发跨学科研究更加密切。作為独立学科的档案学,受信息化浪潮的影响,日益增强了与图书馆学、情报学的学科交流[14]。档案是生产生活的产物,这一性质就意味着它与许多学科都有着千丝万缕的联系。一般情况下,除档案领域的学者对档案进行深入研究外,其他领域人员对档案主要表现在有针对性的第一价值凭证价值的应用,第二价值的运用相对来说已少一些,档案信息背后的深度挖掘更鲜有人关注,毫无疑问,尤其在信息高速发展背景下,这是对档案信息资源的一种浪费。将大数据技术、人工智能等技术引入人文领域,将档案学领域的视野扩展到多学科是时代的要求。伦敦政治经济学院(London School of Economics and Political Science)经济史学家Joan Roses认为:“对于像威尼斯这样的经济在历史发展中起重要作用的国家,很多经济学理论都是在没有证据性数据的情况下发展起来的,经济学家寻求一个更可靠的证据基础,但缺乏合适的数据集,比如交易和资金流动。”并说到自己想要了解巴塞罗那档案馆进行研究时,他每天只能读3份文件。所以说威尼斯时光机器将会改变这一现象。可见,数字人文的应用加深了档案学与金融领域的联系。EPFL的流行病学家马塞尔·萨拉西已经与威尼斯时光机项目合作,已研究了关于鼠疫的一些文件,这些文件揭示了死者的姓名和地点,通常是关于他们死亡情况的细节。他说它就像一个原始的电子健康记录。在17世纪中叶,鼠疫消灭了威尼斯三分之一人口,现在世界各地仍有疫情暴发,但有关其传播的数据存在很大差距,靠动物研究无法填补它们,而现代人类数据集太小,无法提供帮助。由此可知威尼斯时光机的研究成果对生物学、医学的研究都意义非凡[15]。这个项目同时也促进了科学研究。每年在威尼斯都有一所博士学校,一些学士和硕士课程目前使用的就是在威尼斯时光机的背景下产生的数据[16]。
4 抓住机遇,促进数字人文在档案信息资源开发利用中的应用
在我国,武汉大学率先建立数字人文研究中心,将人文社会科学学者从低档繁杂的资料收集和整理工作中解脱出来,专注于高层次的学术发现,进而加快研究速度,提升研究效率[17]。台湾大学数个典藏研究中心定期开展国际研讨会,为研究人员提供地质学、人类学、动植物标本、文献文物等丰富的数据资源。近年来数字人文在我国也逐渐得到应用,但这些项目研究中图书馆居于主要地位,档案机构多数情况下仅是辅助性参与,而像“威尼斯时光机”项目专门面向档案馆的研究还不存在。档案作为文化遗产的重要组成部分,数字人文在档案信息资源的开发利用中的作用已毋庸置疑。
4.1宏观层面——将数字人文档案信息资源开发利用上升到国家战略。《全国档案事业发展十三五规划纲要》(以下简称《十三五规划》)中明确提出,“档案工作要树立创新、协调、绿色、开放、共享发展理念,主动适应经济发展新常态,抓住机遇、改革创新,为全面建成小康社会作出应有贡献”“到2020年,初步实现以信息化为核心的档案管理现代化,档案信息整合共享程度明显提升,档案利用服务更加便捷普惠,方便人民群众的档案利用体系更加完善,提出深化拓展档案利用服务”[18]。数字人文作为促进档案信息资源开发、深化档案利用服务的重要创新手段,在《十三五规划》中说明了云计算、大数据、移动网络技术带来的新挑战,并未明确涉及数字人文作为一项开发利用档案资源的有效方法。我国档案领域对数字人文的关注主要集中在数字化阶段,甚至一些经济相对落后的地区数字化能力仍然欠缺,这就亟须通过国家层面,加强顶层设计,作为数字人文项目的重要类型,档案领域数字人文项目的建设需求应该列入“国家数字人文基础设施建设工程”的总体规划[19],准确定位数字人文在档案信息资源开发中的角色,促进档案信息资源共享体系的建立。
4.2中观层面——建设数字人文档案信息资源开发利用体系。第一,团队建设体系建设是数字人文应用于档案信息资源开发的关键条件。伦敦大学数字人文研究中心主任梅丽莎·特拉丝表示:“数字人文的发展,需要接受过人文学科训练的、拥有整体思维能力的人才,也需要专攻某一技术领域的专家。构建起这样的平衡并不容易。但是一旦做到了,对社会和组织机构将会产生巨大的影响。数字人文必将成为人文学科研究的主流之一。”威尼斯时光机项目的成功运行与Kaplan团队是分不开的,与其他大学机构的合作密切。我国应充分发挥人口优势,广招贤才,汲取国外先进经验,促进档案信息资源开发利用。第二,数字人文在档案领域的开展离不开技术,健全的技术标准体系有利于数字人文的有序开展,避免各地区标准不一造成不必要的困扰。中国幅员辽阔,各地语言、习惯等都有差异,若数字化标准不一致,势必会对档案信息资源共享体系的建设产生阻碍。第三,经济基础决定上层建筑,充足的经费是数字人文在档案信息资源开发利用中的关键驱动力,“威尼斯时光机”项目完成全部数字化预计需要10年,平均每天需要数字化450本书。中国有五千年的文明史,其档案虽未以公里为单位计算过,需要数字化的档案绝不亚于此,这需要大量人力、物力和财力的支持。另外,数字化设备的引进,文本分析、可视化人才的招募也会增加开销。因此,建立完善的数字人文档案项目资助体系,如成立专项基金、指定或寻找企业外援都是资助体系建立的途径。
4.3微观层面——加强基础设施建设,提升档案数字人文观念。丰富的档案数字资源是档案信息资源开发利用的前提。引进先进数字化设备,通过组建档案信息资源开发团队,充分运用文本挖掘、可视化、GIS等技术展示档案信息的时空联系,加快档案数字化进程,建设档案共享利用平台。内容方面除本土档案资源的开发,要重视对海外档案的追索,这些档案是还原档案情景的重要部分,比如南京大屠杀记忆、慰安妇记忆。思想上,数字人文在档案信息资源开发中的运用对档案工作人员提出了更高的要求。档案人员应提高自身专业素质,应用数字人文技术把海量档案信息资源的联系简洁易懂地表达出来;高校学者提升自己的数字人文意识,紧跟世界潮流,为信息时代档案资源的开发利用献言献策。另外,由于经济发展水平不同,我国各地区档案数字化程度也有显著差异,发挥发达省市的优势,率先开展数字人文项目,为相对落后地区提供经验支持,节省前期资金投入。参考文献:
[1]柯平,宫平.数字人文研究演化路径与热点领域分析[J].中国图书馆学报,2016(6):13-30.
[2][12]FredericKaplan.Howto build an information time machine . [EB/OL].[2013-06].https://www.ted.com/talks/frederic_kaplan_how_i_built_an_information_time_machine#t-604229.
[3]Kirschenbaum,MG. What is digital humanities and whats it doing in English department?[J].Ade Bulletin,2010:55-61.
[4]朱本军,聂华.跨界与融合:全球视野下的数字人文——首届北京大学“数字人文论坛”会议综述[J].大学图书馆学报,2016(5):16-21.
[5]王晓光.数字人文:概念现状与思考.[EB/OL].[2013-06-07].http://meeting.lib.szu.edu.cn/conference/zh-hans/infomation?v=07000003
[6][19]赵生辉. 国外档案领域数字人文项目的实践与启示[J].浙江档案,2015(9):14-17.
[7]VanoirbeekChristine,GenevèsPierre,KaplanFrédéric.Time Venice TIME machine.[EB/OL].[2015-01-01].https://www.mysciencework.com/publication/show/venice-time-machine-8deab1e1.
[8][16]Venice Time Machine: blueprints finalized.[EB/OL].[2014-06-20].https://vtm.epfl.ch/files/content/sites/vtm/files/Press_release_2014_english.pdf.
[9]陳婧.威尼斯的时光机[J].IT经理世界,2016(18):76-80.
[10]特里·库克,李音.四个范式:欧洲档案学的观念和战略的变化——1840年以来西方档案观念与战略的变化[J].档案学研究,2011(3):81-87.
[11]EricKetelaar.Archival temples, Archival prisons: Modes of Power and Protection.[J]Archival Science.2002(2):221-238.
[13][15]AlisonAbbott.Venice gets a time machine.[J].Nature,2017, 546(7658):341-344.
[14]刘磊.档案学与历史学的关系再思考——基于“数字化转向”的视角[J].档案学通讯,2017(5):34-38.
[17]武汉大学成立数字人文研究中心.[EB/OL].[2011-05-10].http://ssroff.whu.edu.cn/info/1009/1407.htm.
[18]全国档案事业发展十三五规划纲要.[EB/OL].[2016-04-11].http://www.cngsda.net/art/2016/4/11/art_57_33934.html.