略谈古籍数字化的问题与对策

    刘志江

    摘 要:随着数字技术的发展、经验的积累以及国家政策、资金的扶持,古籍数字化参与主体日益增多,古籍数字化不断取得丰硕的成果,同时也出现了诸多问题。本文认为,为了促进古籍数字化工作健康有序开展,需要建立全国性的领导机构,建立统一的标准规范,培养更多的专业人才。

    关键词:古籍 数字化 标准规范 人才培养

    所谓数字化,就是把文字符号转化为数字符号,也就是把传统的语言文字表达形式改变成计算机能识别的数字表达形式。而古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术、网络信息技术、大数据技术等,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍数据库,用以揭示古籍文献信息资源的一项系统工作。随着信息化时代的到来,具有存储量大、检索方便等优点的古籍数据库,必将迎来快速发展。

    一、古籍数字化的现状

    古籍数字化,不仅是古籍再生性保护的核心方法,更是促进古籍利用的关键手段。我国的古籍数字化工作开始于20世纪80年代,经过几十年的发展,逐步形成了以古籍存藏单位、高校科研院所、商業公司、出版机构为主的开发主体。在古籍数字化的过程中,这些主体由于建设目的、技术标准、人力物力投入等方面存在着一些差异,这也导致不同主体建设的古籍数字化资源各具特色。但从总体上来看,都有力地保护了古籍资源,数字化也取得丰硕成果。

    (一)建设主体多元

    近年来,随着互联网的普及以及党和国家对中华优秀传统文化的重视,我国古籍数字化开发多点开花,取得了一系列成果,呈现出一派欣欣向荣的景象。如古籍存藏单位几乎都开始了古籍数字化建设,特别是国家图书馆,开发了“中华古籍资源库”“海外中华古籍书目数据库”等重点古籍数据库,仅“中华古籍资源库”已在线发布古籍资源超过3.2万部。高校科研院所开发的古籍数据库主要服务于教学和科研,数据库具有智能性和探索性特色。如北京大学的“北大国学二十五史研习系统”、中南民族大学的“唐宋文学编年地图”等。商业公司中规模较大、且有一定影响的有书同文数字化技术有限公司、爱如生数字技术有限公司等,他们主要根据市场需求进行开发,如开发的中国基本古籍库、国学宝典等。出版单位目前较为成熟的产品有中华书局的“中华经典古籍库”、上海交通大学出版社“地方历史文献数据库”、国家图书馆出版社的“中华再造善本数据库”等。

    (二)资源类型丰富

    目前,古籍数字化产品类型十分丰富,从数据载体上看,不仅包括磁盘类文献和硬盘类文献,还开发出了网络版、U盘版及便携式阅读器版等。从数据库类型上看,主要包括古籍电子索引、古籍书目数据库和古籍全文数据库以及可供征引的点校本数据库。据笔者粗略统计,近20年来,国内外利用计算机技术开发研制了近500种古籍数字化资源,其中包括80余种古籍电子索引,近148种古籍书目数据库和近270种古籍全文数据库。这些古籍数字化资源包含内容也十分庞大,如爱如生数字技术有限公司开发的古籍数字化产品,除中国基本古籍库外还有中国方志库、中国谱牒库等20个全文检索、图文对照的大型数据库等,分类详细,为古籍整理和学术研究提供了重要的参考资料。

    (三)功能日益完善

    各类古籍数据库不仅不断扩充容量和种类,还积极完善各项使用功能。如提供高效精准的检索方式,方便用户快速查找资料;原古籍影像图片及录入文字可以左右对照;添加纪年换算、联机字典、人名标引等小工具;提供经过校勘整理的高质量古籍数字化内容,便于用户进行标记引用;利用计算机技术进行经典比对,提高书稿编校质量。另外,有些古籍数据库还具有出版的功能,通过平台发布众包的古籍整理任务,认证用户经过一定的培训后,可以在线领取任务,开展古籍整理工作,有利于充分利用社会上各类专业人才参与古籍整理出版事业,促进大型古籍整理项目的出版。

    (四)系统开放度高

    学术界和图书馆界在古籍数字化的过程中起到了至关重要的作用,他们借助互联网、大数据、云服务等高新技术,率先对馆藏特色文献和珍贵古籍进行数字化,实时在线公布,促进资源共享,提高利用效率。大部分图书馆建设的古籍数据库通过互联网完全对读者开放,其余的数据库只需读者注册该馆会员或在该馆IP范围内就可以免费访问。如国家图书馆的“中华古籍资源库”、中国台北“中研院”的“古汉籍善本数位化资料库检索系统”都可以通过互联网直接进行访问检索,十分便捷。

    二、现存的主要问题

    经过几十年的发展,我国的古籍数字化工作虽然取得了不少成绩,但也存在不少问题,主要表现在以下几个方面。

    (一)工作缺乏统筹

    长期以来,古籍存藏单位、高校科研机构、企业根据自身发展需要,规划开展了古籍数字化工作,但由于缺乏国家层面的宏观管理和统筹,各部门各单位之间各自为政,缺乏交流与合作,热点项目重复建设,冷门项目少有问津,不仅在资源共享和建设方面未能形成有效的合力,还造成了重复建设和建设盲区并存的问题。如《四库全书》《二十四史》等,多家单位都通过自造字库的形式对其进行数字化,而个别古籍存藏单位仅考虑自身利益,拒绝资源共享,致使一些珍贵的古籍还未实现数字化。同时,经过精细校勘的、可征引的古籍数据库资源较少。长远来看,只有在相关机构的统一规划和协调下,发挥各方优势,古籍数字化工作才能更加高效、快速、健康地开展。另外,由于没有统一规划和指导,还缺乏统一的发布平台,大部分单位开发的古籍数字化系统只在局域网发布,不方便读者使用。

    (二)标准尚不统一

    由于开发主体多元,各单位在古籍元数据制作、古籍标引、古籍影像采集、古籍著录、数据格式、检索语言、传输方式等方面都存在差异。大家往往都是根据自身需要制定相应的数字化标准,至今尚未形成全国性的标准,这给古籍资源整合和数据兼容带来了很大的障碍。如在古籍元数据制作方面,数据格式目前就有txt、doc、html、exe、pdf、wdl、dg、ebk等20余种,导致数据交换不顺畅,难以共享使用。再如在古籍影像采集方面,标尺摆放、色标使用、图像分辨率高低等也存在不同标准,也使不同单位之间的数据资源无法共享使用。此外,古籍著录也尚未执行统一的分类表和分类原则,造成了书目数据不准确的问题,如不同的书被著录成一种书,或一种书被著录为多种书,版本说明张冠李戴等,给读者的使用和研究带来极大不便。

    (三)技术仍是瓶颈

    古籍数字化并不是简单地将古籍文字录入计算机,还涉及汉语信息处理、计算机技术等诸多方面,目前来看,在古籍字符、字库、输入法、文本加工、检索等方面还存在不少问题,严重制约了古籍数字化进程。如计算机用字的处理,当前通用的是Unicode编码字符集,从基本集到扩展E集,共有8万余个国际标准编码的汉字。即便如此,依然有很大一部分古籍整理作品中的字形无法表示。再如输入法问题,古籍文本输入主要采用人工输入与光学字符识别(OCR)扫描输入,人工输入效率低,成本高。OCR扫描输入也存在图像质量不高,扫描速度低,单位成本高,识别率低等技术性问题,特别是竖排繁体字,识别效果依然不理想。另外,在检索程序的快速性和准确性上也难以令人满意,如在《四库全书》中检索 “尺子”时,“尺予”“尺于”“斥予”“斥于”“斥子”等条目都被检索出来,大大影响效率。

    (四)人才培养滞后

    古籍数字化工作不仅涉及版本、目录、校勘等传统文献学专业知识,同时也涉及计算机技术、信息科学等学科知识,是传统学术方法与现代科学技术的结合。但目前从事古籍数字化工作的人才非常少,特别是既具备古籍整理知识又能熟练应用现代信息技术的高层次人才更为匮乏。虽然我国部分高校开设古籍整理的相关专业,如北京大学、首都师范大学等高校已经开始培养古籍数字化研究生,个别高校也已经开设古籍数字化相关课程。但全国开展古籍数字化人才培养的高校还是少数,每年的招生人数还很有限,尤其是有很多学生虽然读的是古典文献或计算机等相关专业,等到毕业时,却纷纷改行从事其他行业的工作。另外,由于古籍数字化企业的薪资与互联网公司相比非常低,技术人才往往很难留住。因此,古籍资源数字化专门人才的培养亟待提上日程。

    (五)经费较为缺乏

    古籍进行数字化,离不开资金的支持,我国现存的古籍按品种计约15万种,按版本计约40万版本,如果全部进行数字化,需要一大笔资金。目前,一批大型图书馆、高校、数字企业凭借自身资源优势,取得了不少成果,但由于古籍开发的成本较高,很多存藏单位由于缺少经费,无法购置必需的设备和软件,也缺乏足够的人力和相关的计算机技术人才,古籍数字化工作仍然比较落后,还有一些存藏单位古籍数字化工作尚未开展,导致一些很有价值的古籍资源无法进行数字化,传播和利用严重受限。另外,一些基于大数据深度开发面向具体应用的古籍数据库,由于前期需要大量资金的投入,导致这方面的工作远远落后于國外。

    三、古籍数字化未来发展建议

    我国悠久的历史流传下来的古籍卷帙浩繁,运用现代化手段对这些中华民族的宝贵文化遗产进行深入合理的开发利用,实现资源共建共享,是传承中华优秀传统文化、弘扬民族精神的重要途径,对推动中华文化创造性转化和创新性发展具有重大意义。

    (一)加强统筹规划管理

    古籍数字化建设是一项长期的、庞大的系统工程,需要国家加强顶层设计统筹规划,避免各自为政重复浪费。一是建议由全国性的权威机构负责古籍数字化的统筹工作,加强协调规划管理,统筹团结各方面力量,加强沟通合作,统一规划、统一标准、资源共享,形成协同高效的古籍数字化资源开发新格局。二是建立古籍联合数据库开放总平台,将各类单位建设开发的古籍数据库进行统一规划并实行系统化管理,同时尽量免费向广大读者提供文献获取、传递等信息服务,实现资源的共建共享,充分发挥文献资源的价值。三是推动数字人文研究和古籍的深度整理,鼓励协调相关单位采用社会科学的方法论和电脑运算工具,如超文本、资料视觉化、统计学、文本探勘、数位制图等,对古籍数据进行深度挖掘。另外,积极推动国内古籍整理出版骨干企业加强古籍数字化项目合作,强强联合,资源共享,形成合力,开发符合用户需求和学术规范的产品。

    (二)完善古籍数字化标准

    标准是古籍数字化资源整合的重要基础。国家应整合现有资源,借鉴国内外相关标准,制定全国统一的古籍数字化标准。一是要推动古籍数字化行业标准建设,积极联系相关机构进行古籍数字化的相关标准规范研究,由行业标准上升为国家标准。二是要加强存储标准建设,应该按照实用性的原则实现文献存储格式的标准化,协调联合骨干企业,开发统一的文件存储格式,进而向全国推广。三是制定专门的数据加工标准,扫描时标尺摆放、色标使用、图像分辨率高低、内存大小等都需制定明确的标准,规范数据加工流程。

    (三)开发古籍数字化技术

    技术在数字出版领域占据重要作用,只有不断开发完善的汉字关联表、准确的历史纪年换算工具、在线显示超大字符集和版权保护技术等,才能保障古籍数字化工作的开展。一是要加快 “中华字库工程”“国家数字图书馆汉字规范处理”的开发,不断扩容字库。二是持续优化OCR系统,梳理整理本古籍的特殊体例和要求,建立相关的数据加工规范,通过技术升级,提升扫描录入的速度和准确率。三是提升数据库检索技术,制订标准化的数字化全文检索系统,在关键词检索、条件检索、逻辑检索、模糊检索、组配检索等方面制定标准规范。

    (四)加大政策资金扶持

    古籍数字化是公益性文化事业,中央财政应该对古籍数字化工作给予必要的资金支持和保障。一是要对列入《国家珍贵古籍名录》的古籍和国家古籍重点保护单位给予重点支持。二是要制定鼓励政策,积极吸纳社会资金参与、支持古籍保护工作。三是要依托财政资金重点建设一批代表国家水准的古籍数字化平台,统筹规划并实施一批具有计量统计、定位查询和可视化功能的重点项目,提高我国古籍数字化整体水平。

    (五)培养古籍数字人才

    人才是事业发展的基础,古籍数字化建设需要培养一批既通古籍知识又能熟练运用计算机技术的新型人才。相关部门要制订人才培养规划,多渠道、分层次培养古籍数字化人才。一是在有条件的高等院校设置古籍数字化专业,培养一批技术精湛、素质较高的人才。二是推动出版单位与高校研究机构加强合作、建设培训基地,构建学位教育、项目培养、职业培训相结合的古籍数字化人才培养体系,加强古籍数字化人才的学位培养和在职培训。三是积极开展国际与地区间古籍数字化人才的交流与合作。最终形成古籍数字化人才培训长效机制,培养一批业务骨干,为古籍数字化建设提供人才保障。

    古籍是中华优秀传统文化的重要载体,古籍数字化是古籍整理出版的一种重要形式,是古籍保护、利用和传播的全新路径。作为融合传统文化与现代技术、传统出版与新兴媒体的新业态,古籍数字化工作的重要性和必要性日益彰显。做好古籍数字化工作,是传承发展中华优秀传统文化的重要手段,是满足广大读者阅读需求和专业人员研究的迫切需求,也是出版业数字化转型升级的必由之路。

    参考文献:

    [1]许静.古籍数字化面临的新问题及对策研究[J].内蒙古科技与经济,2013(15):157-158.

    [2]毛建军.韩国古籍数字化的建设与启示[J].图书馆建设,2012(4):40-42.

    [3]梁爱民,陈荔京.古籍数字化与共建共享[J].国家图书馆学刊,2012(7):110-112.

    [4]张文亮,彭媛媛.英国古籍数字化标准建设现状及其启示[J].新世纪图书馆,2016(5):85-89.

    (作者单位系人民出版社)