古籍数字人文平台对民国档案开放利用的借鉴意义

    摘? 要:本文以上海图书馆为代表的古籍数字人文平台建设是馆藏资源开放利用的新型探索,通过总结当前中文古籍联合目录及循证平台、家谱知识服务平台的基本特点,分析了对民国档案开放利用的几点启示,提出了民国档案知识服务平台建设的必要性和建设路径。

    关键词:民国档案;数字人文平台;开放利用;上海图书馆;档案整理

    Abstract: The construction of digital humanistic platform for ancient books represented by Shanghai Library is a new exploration for the open utilization of library resources. By summarizing the basic characteristics of current Chinese ancient books joint catalog, evidence-based platform and genealogy knowledge service platform, this paper analyzes some enlightenment for the open utilization of Archives in the Republic of China, and puts forward the necessity and preliminary ideas for the construction of Archives knowledge service platform in the Republic of China.

    Keywords: Archives of the republic of china; Digital human platform; Open use; Shanghai library; Archive organization

    中国第二历史档案馆是中华民国时期(1912-1949)档案典藏的重镇,近年来,二史馆通过缩微复制、数字化扫描、编研出版等方式开放利用了大批档案史料。笔者借二史馆全面开展全馆以及全国民国档案文件级目录著录工作之机,以上海图书馆为代表的古籍数字人文平台建设为例,希冀有裨于后期民国档案知识服务平台的建设。

    1 古籍数字人文平台建设特点

    上海图书馆充分利用自身古籍、家谱资源收藏优势,搭建了中文古籍联合目录及循证平台、家谱知识服务平台这两个数字人文平台试验型项目。主要实现了几点功能:

    1.1 循证研究。两个平台查询到的数据,包含联合目录、古籍目录或家谱目录中的所有数据。在古籍循证平台,读者可以查看检索的作品在历史上不同目录书里提到的次数,从侧面反引出了该时期此本古籍受到的重视程度。检索结果可以按照以下分面进一步筛选:馆藏机构、版本类型、版本时间、责任者、批校序跋者,可查看作者的详细信息,以及作者批校题跋过的书籍,可以通过点击直接跳转到上海图书馆的人名规范库中。

    在家谱知识平台,读者可以筛选谱名、姓氏、堂号、家谱责任者、先祖、名人等任一字段,详情页为读者提供家谱的版本收藏地和姓氏溯源等信息。

    1.2 知识节点。古籍循证平台的古籍目录收有历史上有名的官修、私家、史志、藏书楼、版本目录书,辅之以人名、地名、印章、刻工、避讳字等额外规范数据,有助于学者循证版本、考镜流藏。家谱知识服务平台以《中国家谱总目》所收录,以及来自全球多地收藏机构所藏的5万4千余种家谱目录为基础,析出姓氏608个,先祖名人7万余个,堂号3万余个,谱籍地名1600余個,[1]以知识组织的方法和关联数据技术,重构了上海图书馆的家谱服务。

    1.3 联合检索。古籍循证平台目前收录有1400余家机构的古籍馆藏目录,其中上海图书馆的古籍馆藏、哈佛燕京图书馆的中文善本馆藏、加州柏克莱大学东亚图书馆的中文善本馆藏、澳门大学图书馆的中文古籍馆藏可在线访问部分扫描影像全文。

    1.4 地图浏览。数字人文平台的地图浏览功能,运用语义可视化技术、GIS技术,实现了在地图上显示古籍或家谱的馆藏地。即在地图上画圈,则可以显示所画圈内的古籍、家谱收藏机构。点击机构,检索出该机构的所有馆藏古籍、家谱,为研究者提供内容分析统计、时空及可视化工具和社会关系分析。

    2 对民国档案开放利用的几点启示

    2.1 挖掘既有成果,建立民国档案文献语料库。家谱知识服务平台的搭建基础已有的馆藏资源和研究成果,包括了上世纪出版的《上海图书馆馆藏家谱提要》《中国家谱总目》《中国家谱通论》《中国家谱资料选编》等工具书。

    二史馆编辑出版了包括中华民国史档案资料汇编、丛刊、丛书在内共200余种10亿字的档案史料,并已完成以民国工具书为主的5740万页资料的全文识别。

    下一步,可以利用新的技术手段来重新组织研究成果,抽取民国公文、职官、机构、军事、人名、区划等,与异名别称规则、分类规则、断句标点规则、书法字体、图片唱片等形成丰富的语料库,为实现规范数据的重用和共享构建基础。

    2.2 充分利用语料库实现民国档案整理与开发自动化。当下数字化的古籍资源除了实现文本字符的数字化,还需具有“研究支持”功能,即能够提供内容本身的统计和计量信息。[2]

    通过基数庞大的语料库,组织编纂期刊论文索引、职官机构索引、卷宗主题索引等各类索引,构建起语料库之间的元数据交叉联系,并结合语言学方法,实现计算机的辅助识别、自动校勘、自动断句,从而实现成果挖掘和知识增值功能。此外,还可以衍生出多种子目级检索系统,极大丰富民国档案利用的视角和方式。

    2.3 基于UGC(用户贡献内容)实现公众互动与检错。上海图书馆另建设有历史文献众包中心,通过公布部分扫描图片,允许研究专家、学生、民间团体依据识别难度,自主协同录入,并且可以通过撰写反馈与不同人士交流互动。经过认证的专家登录系统后,可直接修改数据,经审核通过后发布。

    这种基于UGC的知识平台,将会大大降低民国档案目录著录过程中由于少部分抽检带来的错误率。系统会像“百度百科”一样记录每一次修改。随着民国档案文献语料库的定期更新,读者与编者也将更容易发现数据冲突和错漏,实时修改,保证民国档案著录编目的可持续性发展。

    所以未来的民国档案开放利用平台不能仅是一个展示系统,还需要是一个可写的、支持众包的平台。

    2.4 运用语义可视化技术、GIS技术满足多层次需求。基于时空的浏览、地图画圈浏览等功能,都在功能设计和内容组织上增加了用户使用的趣味性,既满足普通大众了解民国档案、认识民国历史的需求,也能支持学者基于概念及概念间关系匹配的高级检索。

    3 民国档案知识服务平台的建设路径

    上海图书馆数字人文平台的知识网络基于索引式的研究成果,这种模式的不足便是分类提供的信息固然有价值,但信息量仍然有限。通过进一步对中文电子图书全文数据库如超星、方正电子图书等,古籍数据库如爱如生、翰堂典藏、雕龙等了解使用,可以发现借助云存储技术,建设基于多种数据库的知识服务平台将能够更大程度上满足用户需求。

    比较成功的案例就是中华书局基于14个数据库建设的籍合网以及商务印书馆聚合《新华字典》《现代汉语词典》《古代汉语词典》等权威实用的字、词典上线的语言资源知识服务平台(涵芬APP)。笔者在此对民国档案知识服务平台提出几点功能模块上的建设思路。

    3.1 学术功能。首先,要建立民国档案文献语料库,抽取民国公文、职官、机构、军事、人名、区划等,与异名别称规则、分类规则、断句标点规则、书法字体、图片唱片等形成丰富的语料库,为实现规范数据的重用和共享构建基础。

    其次,通过基数庞大的语料库,组织编纂期刊论文索引、职官机构索引、卷宗主题索引等各类索引,构建起语料库之间的元数据交叉联系,实现从一键检索、全文查找、章节阅读、原图查看到条目引用的全流程服务。

    最后,开发民国档案循证服务,通过对同一主题聚类分析,展现近现代人、时、地、事的多维情况;通过指定书籍、指定字词分类查找字频、词频统计,允许导出数据表格,满足计量分析需求。

    3.2 共建功能。首先,要提升知识服务模式的共建化水平,平台可以打通馆藏资源和社会资源、工作人员与档案馆、读者与工作人员之间的联系,而且挖掘出广大社会读者的知识资源。

    其次,转变人员服务角色,构建多主体协同供给机制。借助平台可以实现知识资源的交换,实现用户参与与知识贡献的互动关系,逐步形成档案馆主导,多主体协同共建的知识聚合格局。

    最后,要注重知识挖掘、激励策略等机制的实现,将其转化为用户持续行为的动力。借助于民国档案文件级目录著录工作,实现全体用户参与的民国知识网络节点更新,以及基于GIS的民国区划、大事记、战役系统的搭建。

    3.3 书城功能。首先,开放部分馆藏民国期刊书籍、已出版大型丛书细目。融合既有民国史料题材,征集学术及文学创作、创意,开发绘本、有声书等特色文创,加强民国档案的历史文化教育功能。

    其次,要统一网络文献资源采集的标准规范。针对目前网络文献资源标引不规范导致难以二次开发利用的问题,探索建立“垂直典藏、专题建设、深层检索”的元数据加工制度,实施分类管理。[3]

    最后,构建网络文献资源的信息组织机制。档案馆作为知识的存储机构,可以承担对网络文獻资源的采集与信息组织与分析机制的探索,制定网络文献资源采集、编目、管理工作规范。引导社会公众参与对网络文献资源的信息抽取、知识组织等环节,引入网络文献资源观察评估制度,编制网络文献资源的年度报告书,逐步建立起一个嵌入数字人文服务平台,与既有档案资源数据相互补充的互联网资源服务体系。

    4 建立民国档案知识服务平台的意义

    4.1 知识服务模式的完善。长期以来,民国档案由于涉密等客观因素,开放利用程度远小于古籍文献资源,目前仍局限于到馆查档,这实际并不利于服务模式的升级、服务内容的丰富。

    以“知识地图”的建立为例,布鲁克斯提出的“知识地图”是“以知识网络的形式来说明知识单元的发展变化,从而明确学科知识的发展变化”,[4]基于这个理念建设的民国档案知识地图可以有效组织档案馆知识资源的总目录并揭示各知识资源目录间关系。民国档案开放利用平台可以打通馆藏资源和外部资源、传统载体与现代载体、馆员与档案馆间、读者与馆员间的联系,而且挖掘出广大社会读者的知识资源。[5]

    4.2 人员服务角色的转变。社会读者知识资源的介入并不会替代档案馆工作人员应有的作用。因为这个平台提供检索服务的这背后是线性化文献检索向非线性化检索方式的转变,具有支持知识发现、获取、增值和管理的强大功能。[6]档案馆工作人员需要利用自身的知识资源将不同介质、不同地点的各类知识资源整合、联结、排序,在浩如烟海的平台数据资源中寻找到“知识节”,从而使不同层次、不同专业背景的读者在知识网络中完成资源的利用需求。

    4.3 “群体智慧”模式的实现。非遗档案资源建设中提出一种“群体智慧”模式,即“构建一个公众可以随时上传、共享自己发现和获取的非遗资源,并对现有资源进行鉴

    定、评价和分级,档案部门只需对资源进行筛选和汇总”。[7]

    这种集体协作的创作方式拓展了UGC(用户贡献内容)的外延,使用户由贡献者转化为主导者。民国档案可以通过开放利用平台群体决策模块的设置,由用户上传民国档案史料信息,经审核后建设用户数据集,进而建立起与馆藏数据间的联系,以双向融合后的形式向用户呈现。

    4.4 民国档案著录评估体系的建立。“十三五”期间启动的民国档案文件级目录著录与采集工作,全方面覆盖各省、自治区、直辖市档案馆馆藏的民国时期经济、文化、民俗、商业等民国档案基础信息,将丰富民国档案资源的内涵和外延,有助于促进各学科在各阶段发展历史的有效衔接,充分发挥民国档案在服务社会中的价值。[8]通过对民国档案开放利用平台使用前、中、后反馈报错意见的跟踪研究,可以补足按比例抽检带来的疏漏,了解外包数据资源的实际产出效益,利用档案著录评估体系对平台进行分析研究,在两相对照之中,把控民国档案著录的发展方向,从而进一步优化档案卷宗文件的编目著录工作。[9]

    参考文献:

    [1]刘小琴,吴建中主编.数字图书馆发展趋势研究报告[M].上海:上海科学献出版社,2016:163.

    [2]王雅戈著.古籍计算机自动索引研究 以民国农业文献自动索引为例[M].芜湖:安徽师范大学出版社,2013:2.

    [3]李晓明,马宁宁.国家图书馆网络信息采集的实践与发展[J].网络资源采集与数字资源长期保存学术研讨会论文集,2013:15-17.

    [4]尉迟文珠.试论我国高校图书馆知识服务模式构建[D].天津师范大学,2007:27.

    [5]陈宇.应急保障视角下对网络资源“集聚效应”的重新审视[J].高校图书馆工作,2020(05): 50.

    [6]陈丹.数字出版产业创新模式研究[M].北京:科学献出版社,2012:99.

    [7]周耀林等.基于群体智慧的非物质文化遗产档案资源建设探析[J].中国档案研究:第1辑,2015:112.

    [8]许茵.国家重点档案文件级目录题名著录问题探析——以全国民国档案文件级目录著录为例[J].档案学通讯,2018(06): 59-61.

    [9]姜钦芳.机关数字档案室建设浅议[J].档案管理,2020(04):78+80.

    (作者单位:中国第二历史档案馆 来稿日期:2021-01-26)