基于知识图谱的古籍数字化研究前沿热点及演化趋势分析
范桂红 赵纯洋
【摘要】? 文章利用Cite Space III软件梳理CNKI数据库中1998—2019年以古籍数字化为研究主题的314篇文献,绘制关键词共现知识图谱及关键词共现时区视图,发现古籍数字化研究、古籍数字化与数字人文、特殊古籍数字化、古籍数据库建立与维护、古籍数字出版与著作权维护是当前古籍数字化研究的五大前沿热点。统筹规划并制定统一标准、加强国际合作与交流、培养专业人才等将成为古籍数字化研究的未来研究趋势。
【关? 键? 词】古籍;古籍数字化;主题演化;文献计量;Cite Space III
从商周甲骨到秦汉简帛,从经史子集到清人十三经疏,从唐宋敦煌写本到宋元明刻本古书,古籍传承着中华优秀文化所蕴含的精神血脉和道德规范。古籍数字化以现代信息技术为手段,将古籍中的语言文字或图形符号转化为电子数据,分离了古籍的物质形态和内容,将古籍内容制作成古籍书目、影像、数据库等,为读者提供古籍数字化阅读及检索服务。为探索1998—2019年古籍数字化领域的研究热点及未来研究趋势,本文综合考虑查全率、查准率、可视化布局等相关因素,利用Cite Space III软件对CNKI数据库中古籍数字化研究相关的314篇文献进行关键词共现知识图谱、关键词共现时区视图量化分析,以揭示该领域的研究热点。
一、研究方法与文献选取
1.研究方法
Cite Space III软件能够确保理论研究及实践应用的针对性与可行性,避免因数据信息冗杂对研究结果的科学性与客观性产生影响,可有效提升学术研究的专业性与实践性,显示与预测学科或某研究领域演进过程及前沿热点,便于挖掘研究文献所隐藏的知识信息及实现研究成果的数据分析与应用推广。
2.文献选取
笔者在中国知网高级检索界面设置“主题=‘古籍并含‘数字化”或者“主题=‘典籍并含‘数字化”(精确匹配)检索词,作者及作者单位、发表时间及更新时间、文献来源、支持基金均设置为不限或者模糊状态,期刊选择“核心期刊”“CSSCI”“CSCD”以保证论文质量,得到相关文献共计561条,文献数据采集时间为2020年2月1日。笔者通过阅读过滤了领导致辞、会议通知、新闻宣传、卷首语等非学术性文献,获得可供进行数据分析的有效文献314篇,并点击“导出/参考文献”“Refworks”选项,将下载文献以“.txt”格式导出。
二、研究结果与分析
关键词是学术论文研究主题的精炼表达,为了挖掘古籍数字化研究文献的主题聚类分布情况,笔者利用Cite SpaceⅢ软件对314篇相关文献进行关键词共现知识图谱分析,获得网络核心区域(N=550)、连接点(E=543)、网络中间中心势(Density=0.036),聚類Q值0.8303(>0.5)、S值0.7178(>0.5),得到聚类结构显著且信度较高的知识图谱。由图1可见古籍数字化研究的知识聚类主要集中在以下五个方面:一是古籍数字化研究,如出现古籍数字化(204,0)、数据标准(10,0)等关键词词频;二是古籍数字化与数字人文,如出现古籍整理(82,0)、古籍保护(64,0)、数字人文(13,0)等关键词词频;三是特殊古籍数字化,如出现中医古籍(22,0)、农业古籍(16,0)、少数民族古籍(10,0)、地方志(9,0)等关键词词频;四是古籍数据库建立与维护,如出现古籍数据库(56,0)、自动检索系统(11,0)、大数据(11,0)、古籍数字资源(8,0)、汉字处理(8,0)等关键词词频;五是古籍数字出版与著作权维护,如出现数字出版(12,0)等关键词词频。可以看到,随着研究的深入,古籍数字化研究思路、研究角度、研究对象和研究方向逐渐拓展,研究内容和研究技术更为全面和多样。
1.古籍数字化研究
古籍数字化研究主要围绕古籍数字化政策、定义、原则、对象、标准体系等方面展开阐述。其一,政策。国务院办公厅印发了一系列文件指导古籍数字化建设工作,如2017年1月下发的《关于进一步加强古籍保护工作的意见》、《关于实施中华优秀传统文化传承发展工程的意见》等。其二,定义。一些学者认为,“古籍数字化是以利用和保护古籍为目的,通过相关技术将传世文献中的语言文字或图形符号转化为能被计算机识别的数字符号,进而制成古籍书目、影像、全文数据库的技术”[1]。其三,原则。数字化是古籍再生性保护的重要手段,应遵循利用保真和整理为主的原则。其四,对象。对象主要为汉文古籍、少数民族古籍、金石拓片、甲骨、舆图、中国境内发现的外族遗文、老照片、年画、宣传画等。其五,标准体系。标准体系主要是由实现古籍数字资源高质量管理的技术标准、连接数字化项目各个机构环节的管理标准及开发高质量古籍资源数据库工作标准等标准体系构成,具有目的性、层次性、协调性及比例性等特征。
2.古籍数字化与数字人文
数字人文是将高效计算网络技术应用于人文学科领域,以实践、建模、推论或者本体论等手段对传统人文学科进行挖掘的方式。一些学者提出要将数字人文前沿实践应用到古籍数字化工作中,利用文本挖掘技术提取事先未知、容易理解、有潜在价值的知识[2];借助GIS技术进行文献知识与历史进程的静态与动态可视化分析;构建基于网络数据采集、专业数据库获取、词频分析的古籍文本信息可视化展示库;在全文人工标注的基础上,将大量电子化的文本集合为语料库,构建自动识别模型[3]。现阶段落地的数字人文项目有“名人手稿档案关联开放数据集”“唐宋文学编年地图”“丝绸之路历史地理信息系统建设”“馆藏甲骨实物与拓片数字化资源库”“敦煌遗珍数字化资源库”等。
3.特殊古籍的数字化
一些特殊古籍如中医古籍、农业古籍、少数民族古籍等的数字化再生性保护工作值得关注。中医古籍以图文形式记载上古春秋至明清时期中医学发展理论成果和实践操作经验,具有珍贵的史学研究价值和临床指导意义。中医古籍数字化建设起到保护纸质古籍、挖掘科学信息、传承中医文化与知识的作用,目前已取得多项研究成果,如“中华医药典籍资源库(测试版)”“中医药珍善本古籍多媒体数据库”“中医古籍资源数据库及阅览系统”等[4]。
农业古籍记录了古代农业生产过程,反映了我国传统农业历史特征,涉及农、林、牧、副、渔各个方面。农业古籍数字化是一项复杂的系统工程,要充分利用专家学者在目录学、文献学、历史学等方面研究成果,建立以古籍数据化元数据标准为标引,对书目数据进行切分、提炼、处理,便于实现信息资源共建共享的书目信息数据库;构建图像、全文、图文版类型数据;建立专题农业古籍全文数据库;建立以书目检索多样化、参考咨询服务、网络连接、农业古籍展示为特征的数字图书馆。比如《齐民要术》《农政全书》《四民月令》《农桑辑要》等农业古籍的书目信息数据库、图文版类型数据、全文数据库建设就是典型案例。
少数民族古籍数字化是指将蕴藏着少数民族情感的古籍文献进行整理与修复、数字化预处理及转换存储模式,同时结合软硬件平台建设和特色数据库内容建设,以达到将少数民族传统文化传承下去的目的。少数民族古籍种类繁多,载体形式多样,如纸质、石刻、木刻等,表现形式多样,如民族歌舞、风俗习俗、手工技藝等,利用数字化技术可使濒危古籍孤本、善本、珍本通过平台活态化展示。如楚雄州图书馆彝族文献数据库系统中的彝族古籍《彝族毕摩经典译注》《解冤经》《祭龙经》实现了彝族古籍书目信息数据库、全文数据库、电子图书等数字化使用方式;西双版纳州民族宗教事务局的《西双版纳傣文传统书法字体字库》项目满足了受众傣族古籍数字化阅读的需求。
4.古籍数据库的建立与维护
古籍数据库建设遵循创新、开放、共享的发展理念,以数字化技术手段将古籍与现代学者智慧成果进行整合,实现资源共享、知识增值、文化传承,为读者提供完整、可靠的史料文献。当前,古籍数据库建设存在信息处理技术与标准、数据资源平台质量、信息资源共享实现等问题[5]。针对以上问题,首先,应根据古籍选题设定数据库建设目标、分析古籍资源状况和形成数据库建设基本思路与内容;其次,应确定数据库核心模块,统一标准,实现内容资源多维化,标引文献资源、搜集特色资源、以技术串联各类资源,形成目录检索型、全文检索型、知识库型、大数据型等,以呈现古籍的史料价值、专业特色和历史文化价值;再次,挖掘特色数据,优化资源结构,如《年画撷英》《文渊阁四库全书》《中国谱牒库》《中国金石库》等数据库的建立就是典型案例。
5.古籍数字出版与著作权维护
古籍数字出版顺应“互联网+”、大数据的技术潮流,积极探寻古籍数字出版中的著作权问题。古籍数字出版工作虽然成果突出,但在开发形式上以单一图文采集方式为主,对全文检索、数据统计等模块功能开发不够;在数据质量上因字库和字体识别技术存在缺陷,导致多种文字呈现方式并存且出现章节错乱情况[6]。相关机构在古籍数字出版过程中打破了传统出版模式,发挥计算机处理技术优势,使用Unicode编码字符集、OCR移动数据采集、自然语言处理与语义关联、知识组织体系建设等方式实现古籍数字出版及数字资源合作。随着古籍数字出版工作的开展,古籍数字出版过程中的著作权保护问题日益突出,包括古籍整理成果、古籍全文数据库、古籍数字出版物等方面的保护等,对于这些问题,可以采用加密、水印、权限设置、终端认证、提升数字化出版人员著作权保护意识和构建科学完善的古籍数字出版著作权保护机制等措施来解决[7]。比如《中华大典·农业典》《明代科举三录》《茶书食经》《明实录》《清实录》《永乐大典》等全文检索版数字丛书在这些方面做得很好。
三、启示与展望
为了更好地保护传统经典、传承民族精神、弘扬优秀历史文化,相关机构和从业人员致力于保护古籍原貌和内容再现的古籍数字化研究。但这一领域研究尚存在项目规划单调缺乏连续性、格式种类繁多缺乏统一性、专业人才匮乏导致数字化资源力量分散等问题。鉴于此,运用Cite Space III软件绘制古籍数字化研究关键词共现时区视图(图2)是解决相关问题的有效策略。总的来说,把握古籍数字化的研究热点和趋势,应做到以下几个方面。一是要统筹规划并制定统一标准,组建国家级古籍资源共享数据库。现有标准体系虽然多,但大多集中在元数据标准、著录规则、格式转化、文字编码方面,与国际通用计算机识别兼容的标准存在差距,致使很多数字化后的古籍无法实现资源共享。二是要加强国际合作与交流。各国在古籍数字化过程中注重数据标准规范化、开发建设大量古籍数字资源,并注重对其他国家古籍数字化准则的学习,我国古籍数字化建设应借鉴其他国家在专门数据检索标准的制定、开放资源获取平台的搭建、数据加工标准的制定等方面的先进经验。三是专业人才的培养。古籍数字化不仅是一个技术问题,也是一个文化问题和学术问题,因此,需要大量文献学、目录学、版本学、计算机科学与技术等专业复合型人才对传统纸质古籍进行校勘整理、抢救、修复。总的来说,应充分利用古籍数字化研究成果,适时调整理论研究思路和研究方法,更新古籍整理思想观念,逐步形成系统的古籍数字化整理体系。
|参考文献|
[1]毛建军. 古籍数字化的概念与内涵[J]. 图书馆理论与实践,2007(4):82-84.
[2]范佳. “数字人文”内涵与古籍数字化的深度开发[J]. 图书馆学研究,2013(3):29-32.
[3]李娜,包平. 面向数字人文的馆藏方志古籍地名自动识别模型构建[J]. 图书馆,2018(5):67-73.
[4]曹霞,裴丽. 中医古籍数字化建设实践分析与应对策略[J]. 图书馆学研究,2016(13):42-44+66.
[5]陈奕骁,马爱梅. 科技类古籍数据库建设的创新思考与实践——以《中国经典水利史料数据库》为例[J]. 科技与出版,2016(11):89-92.
[6]徐小滨. 中国古籍出版的探究—基于CNKI的考察[J]. 出版广角,2016(20):47-49.
[7]毕翔,唐存琛. 本真与还原—古籍善本的数字化处理研究[J]. 高校图书馆工作,2018(6):47-50+55.