我国档案形成机构数字档案信息长期保存现状调查
谢永宪 王巧玲 闫格
摘要:本文从数字档案信息的存储量、格式类型、长期保存的责任认识、标准与指南使用率、数字档案信息备份方式、数字档案管理系统的长期保存功能、长期保存的技术措施、长期保存的困难、长期可读取性等九个方面,对我国档案形成机构数字档案信息长期保存情况进行了调查。调研结果显示,我国档案形成机构的数字档案信息长期保存工作整体情况比较严峻,还存在很多需要解决的问题。为了更好地解决实际中的问题,本文提出了七点建议。
关键词:数字档案 信息 长期保存 格式载体标准
档案形成机构是在我国正式登记注册的,能够独立行使职权的各种类型的法人单位,其在履行社会职责的过程中形成了大量具有保存价值的原始记录,即档案。随着信息社会的到来,数字档案信息在电子政务与电子业务系统中、在纸质档案数字化过程中海量生成。作为社会的“记忆”、国家的重要战略资源,数字档案信息必须被长期保存。数字档案信息长期保存就是要保证数字档案信息的真实性、完整性和长期可用性,为国家和社会的长远发展提供有利用价值的数字信息资源。
本文通过调研,试图摸清我国档案形成机构中数字档案信息的长期保存现状,明确我国数字档案信息面临的风险,找到档案形成机构在数字档案信息长期保存工作中存在的问题、面对的困难,以期为我国数字档案信息长期保存研究和实践提供现实依据。
一、调查方案设计
本课题的调查研究对象是档案形成机构,即社会中的正式组织。在调查方案设计中,从操作化的角度看,档案形成机构被界定为在我国正式登记注册的且具有专职档案管理员的法人单位。
(一)调查内容
本课题将调查研究的核心内容“数字档案信息长期保存”,具体化为以下九个方面:第一,数字档案信息的存储量;第二,保存的数字档案信息格式类型:第三,数字档案信息长期保存的责任认识;第四,数字档案信息长期保存的标准与指南使用率;第五,数字档案信息的备份方式;第六,数字档案管理系统长期保存功能;第七,数字档案信息长期保存的技术措施;第八,数字档案长期保存面临的困难:第九,数字档案的长期可读取性,并将其作为问卷的基本设计思路。
(二)抽样方案
本次调查的样本数量为320,为使样本具有典型的代表性,我们采取配额抽样的方法进行抽样。配额的依据主要为组织类型,即国家机关、事业单位和企业的配额比例为1:2:2,由于企业又包括国有企业和私营企业,所以,在企业这个大类中,国有企业和私营企业也按照1:1实施配额控制。
(三)调研数据收集方法
本次调查主要采用“自我管理式问卷调查法”,即按照抽样方案,将问卷发送给作为样本的单位,由样本单位的档案管理人员根据其单位的实际情况进行填写。为保证有效问卷的回收率以及所填数据的可靠性,课题组成员与所有样本单位都就有关调研事宜的配合问题进行了沟通。
二、调查数据分析
2018年7月初至8月底,课题组按照抽样方案,向被抽样单位发放了320份问卷,回收问卷320份,问卷回收率为100%;经数据核查,其中有效问卷为278份,有效问卷回收率为87%。
(一)样本基本信息
根据278个有效样本的数据,样本的组织结构类型中事业单位最多,占比36.7%,之后分别是私营企业占比23%,国有企业占比20.9%和国家机关占比19.4%。
在样本单位中,规模在100人以下的单位最多,占比32%,之后分别是500-1000人的单位占比23.7%,100-500人的單位占比21.9%,1000-2000人及2000人以上的单位较少,各占比11.2%。
在样本单位中,61.9%的单位产生的档案没有对口接收的国家综合档案馆,39.1%的单位产生的档案有对口接收的国家综合档案馆。
(二)数字档案信息长期保存基本情况
1.数字档案信息存储量差异大。调研结果显示,数字档案信息存储量最少的只有302M,最多的达到43.7TB。从存储量规模来看,1GB(含)以下的样本单位占比19.8%,1GB-10GB(含)的样本单位占比52.9%,10GB-100GB(含)的样本单位占比17.3%,100GB-1TB(含)的样本单位占比7.6%,1TB以上的样本单位占比2.5%。
2.数字档案信息格式类型多样。调研结果显示,87.8%的样本单位保存了文本文件,66.2%的样本单位保存了图像文件,55%的样本单位保存了版式文件,42.1%的样本单位保存了视频文件,36%的样本单位保存了数据库文件,18.7%的样本单位保存了音频文件,11.2%的样本单位保存了电子邮件。
样本单位保存的文件格式主要包括:纯文本文件、格式化文本文件、版式文件、图像文件、音频文件、视频文件、数据库文件等,其数量超过70种,主要有TXT、XML、UOF、RTF、Microsoft Office、WPS Office、OFD、PDF、SEP、CEB、TIFF、GIF、JPEG、JPEG-2000、BMP、DjVu、PNG、MP3、WAV、WMA、OGG Vorbis、AVI、MOV、MPEG、MDB、SQL等。同时,7.6%的样本单位保存了业务环节产生的专有格式的电子文件,主要为生产型企业。
3.数字档案信息长期保存责任认识不清。针对长期保存责任的调研结果显示,不清楚责任主体的占比46.4%;认为长期保存的责任主体是国家综合档案馆的样本单位占比30.9%;认为责任主体是本单位的占比15.8%;认为本单位与国家综合档案馆各负其责的占比6.8%。其中,向国家综合档案馆移交了数字档案的样本单位仅占12.9%。
4.数字档案信息管理标准、指南使用率低
从样本单位遵循标准、指南的情况来看,48.6%的样本单位认为自己的数字档案信息长期保存工作遵循了相关标准、指南,其中45%的样本单位选择遵循了国家、行业标准或者指南,2.5%的样本单位选择遵循了国际(外)标准,7.2%的样本单位选择遵循了其他标准,如地方标准、企业标准等,但只有6.5%的样本单位能够说明遵循的具体标准、指南名称;42.1%的样本单位直接声称没有遵循任何标准、指南;9.4%的样本单位不清楚是否遵循了相关标准、指南。其中,使用最多的国际(外)标准是《信息与文献文件管理》(ISO15489),使用最多的国内标准、指南是《企业数字档案馆(室)建设指南》。
5.有效备份方式使用比率低。调查结果表明,15.1%的样本单位以移动硬盘作为离线存储的载体:12.6%的样本单位将光盘作为离线存储的载体:5%的样本单位将磁带作为离线存储的载体;2.2%的样本单位同时使用移动硬盘和光盘作为离线存储的载体。云存储作为一种新生的存储方式,目前还没有被社会广泛应用,只有4.7%的样本单位将数据存储于云平台。64.7%的样本单位没有选择有效的长期保存备份方式。
6.数字档案信息管理系统缺乏长期保存功能。从样本单位数字档案信息管理系统或者模块的功能看,已经使用具有数字档案信息管理功能系统或者模块的单位占75.9%,尽管目前大多数样本单位仅仅是在OA中设置了文件归档模块,但是可以看出,数字档案信息管理的理念与实践已经得到普遍的认可。65.8%的样本单位能够实现元数据的自动捕获,但是捕获的对象不够全面,主要包括文件格式、大小、作者、最后形成时间等几个常用的元数据,并且很少有数字档案信息管理系统设计了结构合理的元数据方案,普遍缺少专门用于实现数字档案信息凭证性与长期保存的元数据;电子文件与数字档案的鉴定无论是在理论上还是在实践中都是一个难以解决的问题,仅有3.55%的数字档案信息管理系统或者模块具有自动鉴定功能。
7.缺少必要的技术措施。调查结果表明,大多数样本单位没有注意到数字档案信息长期可读性的严重威胁,此项活动并没有得到足够的重视,只有22.7%的样本单位采取了主动应对技术措施。主动应对的具体情况如下:定期对光盘、磁带等数字介质备份进行可读性检查的样本单位比例为15.8%,采取迁移方式的样本单位比例为11.2%,保存主要的数字档案信息读取所需的软硬件系统的样本单位比例为5.8%,将特殊格式的数字档案转换为通用格式的数字档案的比例为4.88%,将此项工作承包给第三方的比例为3.6%,采取XML封装形式的比例是2.9%,采用仿真方式的比例是0.7%。
8.数字档案信息长期保存的困难多样。从样本单位数字档案信息长期保存工作中出现的困难看,领导不重视是数字档案信息长期保存工作中最大的问题,高达42.8%的样本单位表示赞同,有36%的样本单位经费投入不足,34.9%的样本单位缺少必要的设备和技术,30.9%的样本单位认为需要加强人力资源建设,有8.6%的样本单位认为保存政策缺乏或不稳定是存在的困难。
9.数字档案信息的长期可读取性不容乐观。调研结果表明,样本单位数字档案信息长期可读取的状况并不理想,仅42.1%的样本单位表示数据完好无损:有26.3%的样本单位出现了数字档案信息不能读取的现象,其中,19.1%的样本单位出现了载体不能读取的现象,11.2%的样本单位出现了数据格式不能读取的现象:31.6%的样本单位表示不清楚是否出现了数字档案信息不能读取的现象。
三、研究结论
根据以上调查数据可知,我国档案形成机构的数字档案信息长期保存工作整体情况比较严峻,还存在很多需要解决的问题。为了更好地解决实际中的问题,笔者针对档案形成机构如何做好数字档案信息长期保存工作提出以下几点建议。
(一)加快档案信息化建设
按照我国档案工作“存量数字化、增量电子化”的信息化战略,各机构首先应根据《纸质档案数字化规范》(DAT31-2017)的相关要求,加快纸质档案数字化;其次应根据《企业数字档案馆(室)建设指南》《数字档案室建设指南》的相关要求建设好数字档案馆(室)、数字档案管理系统,与机构办公系统、业务系统对接,实现原生数字档案的全生命周期管理,以解决数字档案信息长期保存前端数据质量控制问题。
(二)规范管理,加强宣传
机构的数字档案信息长期保存工作涉及大量的人、财、物,需要多个部门的通力配合,规范的管理和统一的理念必不可少。为了更好地协调长期保存工作,各机构需要制定专属的“数字档案信息长期保存规划”或者“数字档案信息长期保存管理办法”,内容应该包括长期保存的目的、本机构及内部各部门的职责、标准应用、技术策略、数据备份、人员培训、经费保障、应急预案、定期演练等;同时,积极利用报告、会议、展板、微信平台、内部交流等多种形式向领导层与内部员工宣传数字档案信息长期保存工作,培养长期保存的理念和意识,以解决责任不明、意识不强、管理不善、政策不稳定的问题。
(三)提高标准、指南的应用程度
根据实践的需要,目前国内外相关组织已经出台了一批专门指导长期保存工作的国际(外)标准、国家标准、行业标准、地方标准和指南,初步形成了关于系统构建、元数据、专用格式等内容可用的标准、指南体系,如《开放档案信息系统》(ISO14721-2003)、《基于文件的电子信息的长期保存》(GB/Z 23283-2009)、《版式电子文件长期保存格式需求》( DAT47-2009)等。各机构应积极学习、选择适用的标准、指南,提高长期保存工作的规范性、安全性,以解决系统功能缺乏、元数据方案不合理、数据格式多样等问题。
(四)主动采用专门技术
各种研究表明,作为数字档案的载体,包括光盘、磁盘、磁带等,其耐久性普遍比紙张相差较远,同时,技术过时被大部分馆藏管理者看作对数字存储的最大威胁。应对这些技术难题的常用方法包括迁移、仿真、标准化、保存软硬件等。各机构应根据数字档案格式类型、存储量的多少制定本单位专用的技术策略,包括技术方案、存储载体、技术管理等内容,以解决载体老化与技术过时问题。
(五)加强人力资源建设
长期保存工作内容涉及文件档案管理、硬件工程、软件设计等专业领域的知识,需要大量应用型、复合型人才,而目前我国的高等教育并不能成规模地培育这种专门人才,因此,各机构首先应该积极引进具有相关知识背景的人才,其次应该加大对工作人员的专业培训,更新知识结构,以解决专业人员缺乏、知识结构不完整的问题。
(六)增加资金投入
数字档案信息长期保存的标准采用、技术投入、规范管理、制度宣传、人才培养等内容都需要资金支持,而且这个过程是伴随长期保存始终的,因此,各机构应根据实际需求做好资金预算,做到专款专用、持续支持,以解决资金不足的问题。
(七)需要政府发挥引领、促进作用
数字档案信息长期保存是社会性问题,需要靠政府引领、促进,需要依靠全社会的力量来解决。因此,政府必须整合各种社会力量,投入到数字档案信息长期保存工作中,解决基础性、复杂性、平台性问题,营造好社会环境,具体包括:通过正反面案例大力宣传长期保存的作用和危害,提高整体社会意识;通过相关法律法规,明确数字档案信息全生命周期中各相关主体的责任和权利:制定简单实用的长期保存标准和指南:引导软硬件提供商研发物美价廉的具备长期保存功能的系统或者模块:帮助相关教学、研究机构建立具备指导、交流、培训等功能于一体的长期保存工作平台等,以解决档案形成机构数字档案信息长期保存意识不足、责任不明、标准缺失、成本高企、学习无门等问题。
*本文为国家社科基金项目“我国数字档案信息长期保存的策略体系研究(批准号:13CTQ051)”的研究成果之一。
作者单位:北京联合大学应用文理学院