政府电子文件长期保存层级研究
李海涛
摘要:本文阐述了政府电子文件长期保存的概念,并从位流、逻辑、概念层级分析了政府电子文件长期保存中维护原始位流的完整性和可读取性,保证电子文件信息以可见的格式呈现、可用、可理解,保证概念层级上政府电子文件长期真实和可信的特点,重点探讨了各保存层级政府电子文件长期保存中存在的问题及对策。
关键词:政府电子文件长期保存保存层级
Abstract:The paper illustrates the concept of government electronic record long-term preserva? tion. From perspectives of physical logical and con? ceptual levels, it analyzes the characters of govern? ment electronic record preservation such as keep? ing the original bit stream of government electronic recordreadable and integrated, keeping govern? ment electronic information presenting and using in visible formations, keeping government electronic information authentic and real in the metadata for? mation in conceptual level. At the same time it ex? plores some problems and solutions related to gov? ernment electronic record preservation in different levels.
Keywords:GovernmentElectronicrecord; Long-term preservation; Preservation levels
一、引言
隨着电子政务等信息化应用领域的迅速发展,无纸化办公越来越普遍。电子文件贯穿于政府信息公布、利用、传递、交换、服务等政府电子政务管理的整个流程,构成了政府信息资源的基础。政府电子文件通过各种软件编辑并存储在不同载体上,包括文本、音频、图像、视频等类型。当前,信息技术在提供政府电子文件海量存储、服务的同时,也给政府电子文件长期保存带来了严峻挑战。从总体上看,我国政府电子文件长期保存状况不容乐观,大量电子文件失存、失效、失控、失信等管理风险普遍存在。为了保证电子文件长期可用,政府机构频繁转换电子文件保存格式,不断升级和维护软、硬件,加大了政府人力与财政负担,电子文件长期保存问题已成为制约我国电子政务发展的瓶颈。
政府电子文件长期保存的问题,实质上是涉及法规、制度、标准、格式、技术及管理等多个层面的综合性问题。不可否认,发展信息技术是解决政府电子文件长期保存问题的关键。但要实现电子文件数据格式多样、可读、可靠、真实可信等系列目标,除了发展信息技术外,还要对政府电子文件长期保存的概念、保存层级及各保存层级的特点、存在问题展开分析,这样才能基于各保存层级有的放矢地制定与完善政府电子文件长期保存相关的政策、法规、标准及对策。
二、政府电子文件长期保存概念分析
电子文件长期保存概念出现于20世纪90年代的档案学领域,早期相关研究文献主要探讨电子文件的可信、可访问性及其他特点。随着信息技术的发展与网络的普及,2000年后,电子文件长期保存研究文献在数量上呈显著上升趋势,研究内容也逐步扩展到电子文件存储载体、版本、保存格式等软、硬件范畴。
结合政府电子政务业务活动分析,政府电子文件长期保存是以管理为核心的,包含制定电子文件长期保存相关政策、法规、标准、对策,选择存储技术、硬件、软件,提供存储服务等确保政府电子文件长期可读的活动。其本质是长期有效保存政府电子文件信息并保证其长期存取。
(一)保存期限
在保存期限上,政府电子文件总体上可以划分为进馆与不进馆两大类,其中不进馆一类电子文件,按保存年限划分为10年、30年和50年等若干档次。[1]而实际政府电子文件管理中,因各业务部门的管理对象、业务流程及面向用户的服务需求不同,电子文件保存的“短期”“长期”“永久”所对应的具体保存时限各异。参考ISO14721:2003标准关于电子文件长期保存的“长期”界定,笔者认为随着信息技术的进步,信息相关概念的发展及不断变化的用户群体,“长期”是一个相对概念,应以政府机构的具体业务及用户的需求设定,不宜以固定的时限限制。
实践中由于电子文件具有海量存储、快捷检索等优点,在遵循国家档案局8号令《机关文件材料归档范围和文书档案保管期限规定》[2]关于保管期限设定原则的基础上,政府机关电子文件保管期限,较传统载体档案可适当延长。同时,由于当前信息技术不断更新,新老信息技术更替中存在一个过渡期。过渡期过长,易影响新信息技术的推广应用及新电子文件的形成存储;过渡期过短则易造成仓促转换和替代后,原有信息技术环境下电子文件资源无法识别和获取。且政府电子文件保存期限受限于其价值规律,经鉴定后不具有保存价值的电子文件应当销毁。因此,政府电子文件长期保存期限可理解为从进入长期保存的范围到确认销毁这段时间周期。[3]
(二)保存分类及保存业务
从形成领域角度分类,需要长期保存的政府电子文件,既包括政府履行公共管理职能过程中形成的电子文件,又包括形成于政府内部行政事务产生的电子文件;从保存电子文件的来源来看,既包括政府原生电子文件,又包括转化型电子文件。[4]需要长期保存的政府电子文件的保存业务包括降低电子文件存储载体老化速度、规范电子文件存储格式、保证电子文件长期真实、完整、可靠等。政府电子文件保存业务的开展是项复杂、系统的工程,需要多个领域、层次、环节、机构合作与协调完成。
结合政府电子政务业务流程来看,电子文件长期保存是电子文件管理周期的关键一环,即当政府电子文件管理系统(ERMS)捕获电子文件后,应随即建立文档关联,存储在服务器内,配合现行业务工作协同开展,当其现行价值消失后归档进入电子文件长期保存系统。
三、政府电子文件长期保存层级分析
政府电子文件长期保存是包含位流、逻辑、概念等多个层级的持续性管理活动,主要解决两个问题:一是宏观上解决电子文件长期保存体制、方式变革下的政府电子文件组织、业务流程整合系列问题。二是微观上解决信息技术发展中,政府电子文件真实、完整、持久性存取访问等一系列问题。根据Thibodeau关于电子文件长期保存的层级的划分,政府电子文件长期保存可分为位流、逻辑、概念层级,[5]本文对政府电子文件位流、逻辑、概念层级保存的特点、存在的问题及保存对策分析如下:
(一)位流层级电子文件长期保存
位流是一个连续的位序列,表示在某个通信路径上一次一位传输的数据流。位流层级电子文件长期保存,不考虑电子文件信息的外观、结构、功能,只保存原始电子文件对象,维护原始位流的完整性和可读取性。位流保存包括异地备份、多重备份和硬件迁移等。与纸质文件保存策略不同,政府电子文件位流层级保存策略的目的是不提供直接访问服务,只提供最简单的数据备份存储能力。开展该层级保存应注意以下几个方面:
1.形成及应用。区别于传统的纸质文件,以比特单位构成的电子文件生成速度远高于纸质文件且其易复制、快传递,形成中存在真实与过程控制等问题。
2.存取载体。从存取载体上看,电子文件存取对于载体、信息系统、设备具有较强依赖性。信息技术发展导致电子文件载体、读取硬件及软件环境易过时,电子文件载体更新、转移频次增加,不同载体对于同一电子文件信息的支持及互操作性要求提升。同时,虽然电子文件载体的容量大,一定程度上降低了保存成本,但其载体老化速度快于纸质文件,导致存储在内的电子文件不易长期保存。
3.保存成本。从保存成本上看,当电子文件载体需要更新或迁移时,会增加政府的财政投入。实施中应以政府电子文件利用频率及电子文件所处生命周期的实际价值为参考,划定需要位流层级保存的政府电子文件的范围。[6]
针对上述形成及应用中的系列问题,可通过确定需要位流层级保存的政府电子文件的范围和各阶段目标加以解决。
互联网促进了政府电子文件的传递,但网络安全问题提高了政府电子文件位流层级长期保存的成本。由于电子文件的存在形式、依附载体以及形成者复杂多样,应根据政府各级机构的现状、需求、服务对象、经费等因素,确定需要位流层级保存的电子文件的范围和各阶段目标。
合理规范政府电子文件长期保存载体选择标准及类型,解决上述存取载体的相关问题。尽管政府行政管理呈现层级划分的特点,但我国政府集中管理的行政体制有利于开展电子文件位流層级保存。政府和提供商基于协议,可就生产经济适用的电子文件载体达成一致,并以法律、制度、指南、建议的形式,规范各级政府机构电子文件长期保存载体的选择标准,减少保存载体、硬软件的类型。
借鉴国外成熟案例,科学开展保存成本管理,解决上述保存成本相关问题。保存资金的来源和成本预算,是电子文件位流层级长期保存管理的主要内容。稳定的资金投入是政府位流层级电子文件长期保存持续开展的基础。目前资金主要源于政府机构的专项投资、电子文件管理部门的业务经费等。在电子文件位流层级长期保存的成本预算、管理、规划及应用上,大英图书馆“电子文件保存周期成本计算”(LIFE: Costing the Digital Preserva? tion Lifecycle)项目基于保存对象选择、技术开发等关键保存活动和影响因素,提出了电子文件长期保存的计算公式;[7]DPE的基于风险评估的电子文件仓储审计方法(DRAMBORA,DigitalRepositoryAuditMethod Based on Risk Assessment),利用机构自审计的方法对电子文件长期保存成本资金预算进行风险管理,这都为我国政府电子文件位流层级的长期保存提供了参考。[8]
此外,评估是促进建设的有效手段,政府可参照Eu? ropean Planets Project的位流保存要求测评系统(Bit Repository Requirement Measuring System,BRReMS)[9]构建有效的评价方法体系,开展保存绩效评价,提高电子文件位流层级的保存质量。
(二)逻辑层级电子文件长期保存
电子文件信息从根上说是“0”和“1”组成的编码,特定的编码方案对应着特定的电子文件格式。政府电子文件逻辑层级长期保存的核心是保证电子文件信息以可见的格式呈现、可用、可理解。电子文件的格式不透明或者淘汰,将导致电子文件信息无法呈现。
政府电子文件逻辑层级保存中存在问题如下:
1.电子文件长期保存格式来源多样,没有通用的标准格式,导致政府电子文件无法有效共享及长期存取。部分政府电子文件为企业研发格式,如ADOBE公司研发的PDF格式;部分为注册格式,如多用途网际邮件扩展协议媒体类型注册(MIME MTR,Media Types Reg? istry)、全球电子文件格式登记系统(GDFR,Global Digi? tal Format Registry)等电子文件格式注册系统的注册格式;部分为不稳定的电子文件保存格式,如html格式,易在长期存取技术转换中,造成电子文件数据丢失。
2.电子文件长期保存格式定义复杂,软件公司或电子文件编码者均可为格式的定义者,且部分电子文件格式封闭或未公开发表,从而阻碍电子文件长期保存标准格式的制定及推广,限制了跨地域、组织间电子文件长期保存合作的开展。
3.电子文件长期保存格式不兼容,随着政府电子文件类型增加且对电子文件长期保存真实、完整、可信、可用的需求提升,新的电子文件长期保存格式逐步取代现有的保存格式,但该过程存在格式不兼容等问题,导致电子文件长期保存过程中大量数据信息丢失,也不利于保存电子文件的共享与存取。
针对电子文件长期保存格式来源多样等问题,为保证电子文件长期可读,政府电子文件逻辑层级长期保存目前有硬件保存、仿真、迁移等方法。但由于通过保留电子文件存取的硬件环境实现未将保存的整个过程纳入考量,硬件保存不适合政府电子文件的长期保存。而采用构建电子文件生成时的读取环境的仿真策略,保证政府电子文件长期存取需要大量投入,并受限于仿真技术人员的信息技能,其保存效果较难预测,故不宜在政府电子文件长期保存的实际应用推广。迁移策略则通过数据格式转换实现电子文件长期保存,该策略可实现政府电子文件管理技术平台、文件格式和硬件环境的转换,具有适用范围广、持续性强、综合效用高的优点。该策略目前普遍应用于政府电子文件逻辑长期保存实践,较为成熟。包括常见的按需迁移,如微软公司和美国国家档案馆合作,为保证计算机文件长期可读,将文件从专有格式转存为公开的Open XML格式;[10]迁移为标准格式,如澳大利亚国家档案馆、澳大利亚维多利亚州档案局使用XENA(Xml Electronic Normalising for Archives,XML正规化软件)检测电子文件对象的文件格式,并将其封装转换为开放的XENA信息包用于长期保存。[11]开展逻辑层级的政府电子文件长期保存,应注意保存格式可持续使用时间、格式转换成本、电子文件真实、完整、安全等影响因素,开展阶段应集中于政府电子文件形成阶段,如电子文件在系统生成或其他载体文件扫描、拍摄生成阶段,电子文件管理系统的电子文件捕获阶段。[12]当政府电子文件转换为其他部门或电子文件资源保存机构要求的格式时,政府和国家档案馆应以法规、制度或指南的形式加以规范,以确保迁移后的电子文件长期可读。
针对长期保存格式定义复杂、不兼容等问题,可通过统一政府电子文件通用标准格式加以协调。保证政府电子文件逻辑层级长期保存的关键是:电子文件元数据应当被世界各地不同网站和国际电子文件格式登记系统,如全球电子文件格式登记系统(GDFR)、统一电子文件格式注册表(UDFR)以及Version Tracker等软件和格式注册登记系统认可,支持机构文件、软件版本自动风险评估或格式风险评估。尽管这些登记系统由不同的组织研发,政府应当考虑使用并不断加以完善。例如,一些政府部门使用并接受长期保存的多种电子文件保存格式,但是实践中仍有部分国家政府部门,采取限制接收电子文件格式类型的做法,以避免电子文件因格式不透明或过时而无法打开。如美国国家档案文件管理署(NARA)只将JPEG、TIFF、PNG、GIF、BIIF格式的图像文件,XML、PDF格式的文本文件纳入接收范围,澳大利亚维多利亚档案馆接收的电子文件格式限于TXT、PDF、PDF/A、TIFF、JPEG、JPEG-2000、MPEG-4等。[13]也有部分政府采取协调的方式,对于格式进行信任评级,优先选择最佳格式,并协调文件格式形成机构与政府电子文件长期保存部门之间的矛盾。[14]
(三)概念层级电子文件长期保存
從概念层级分析,电子文件包含内容信息(如文本、图像、声音、视频等)、背景信息(元数据,如人物、时间、原因等)、外观(如字体、颜色、框架等)、行为(如超链接、更新、计算等)、结构(如页面、段落等)等内容。概念层级的电子文件包含的对象如数据库、复合结构等具有复杂性、动态性和关联性特点。其中关联性特点尤为突出,如网页、数据库、互动内容、程序码等电子文件对象,在电子文件不同业务层级中具有一对多或者多对多的关联性。
以元数据的形式构建电子文件概念对象,解决概念层级上对政府电子文件长期真实和可信的理解问题。从概念层级理解,电子文件对象是信息技术与组织背景在特定时间的外在表现。由于电子文件对象存在的虚拟环境及呈现方式与传统纸质文件不同,电子文件的存取更依赖硬、软件及其链接背景。只有定义政府电子文件对象的本质或者其呈现、使用时的本质,才能在反复访问、使用电子文件时,形成相同的概念。因此政府电子文件概念层级保存要以元数据的形式构建电子文件概念对象,确保概念层级上形成对政府电子文件长期真实和可信的理解。[15]实际操作中,该策略的实现方式为:基于OAIS提供的功能框架,遵循DA/T48的封装规范,通过表征信息转换或内容信息重组,将电子文件数字对象与其元数据封装为档案信息包(AIP),并配套AIP包可读性方案,保证了受保存的政府电子文件长期可用、可读、可理解。
基于可信的数字仓储环境,构建电子文件数据表征信息的模型,解决政府电子文件长期保存中信息持久理解问题。由于政府各部门的电子文件形成、保存,往往基于具体的法规或业务制度、规范,其内容、结构参照原生的电子文件模版,所以位流及逻辑层级的电子文件长期保存,不能保证电子文件对象的原始及可用性,而概念层级的电子文件保存策略则以保存政府电子文件数据和表征信息为目的,将其置于可信的数字仓储环境,形成了可层层被理解的、用于解释政府电子文件数据表征信息的模型,从而维护了政府电子文件表征信息持续、完整、有效循环,实现政府电子文件长期保存且易被理解。[16]为了保证电子文件对象原始性,政府应根据实际,参照ISO15489(文件管理国际标准)构建政府通用的电子文件管理标准及认证软件,减少全生命周期内政府电子文件运动中的概念差异。[17]
注释及参考文献:
[1]田雷.电子文件归档范围与保管期限研究[J].北京档案, 2012(9):21-22.
[2]国家档案局.国家档案局令第8号《机关文件材料归档范围和文书档案保管期限规定》[EB/OL].[2016-11-3]. http://da.xazf.gov.cn/html/fgbz/flfg/2013/0904/33.html.
[3][4]聂云霞.国家层面数字资源长期保存策略研究[D].武汉:武汉大学,2014.
[5]Overview of Technological Approaches to Digital Preservation and Challenges in Coming Years[EB/OL].[2016-12-27].https://www.clir.org/pubs/reports/pub107/ thibo deau.html.
[6] [12] [15]Mitja Decman & Mirko Vintar.A possible solution for digital preservation of e- government[J].Aslib Proceedings,2013, 65 (4):406-424.
[7]WheatleyPaul,AyrisPaul,DaviesRichard, McLeod Rory, Shenton Helen.LIFE: Costing the digital preservation lifecycle[EB/OL].[2016-03-29].http://discov? ery.ucl.ac.uk/4914/1/4914.pdf.
[8]吳振新,刘建华,张玫等.电子文件资源长期保存:当前进展和最佳实践-2007年电子文件资源长期保存国际会议(iPRES207)综述[J].现代图书情报技术,2007(11):1-7.
[9]Eld Zierau; Ulla B?gvad Kejser; HannesKulovits. Evalutaion of Bit Preservation Strategies [EB/OL].[2016-03- 26].http://www.ipres- conference.org/ipres10/papers/ zierau-31.pdf.
[10]Avoiding a Digital Dark Age Data longevity de? pends on both the storage medium and the ability to deci? pher the information [EB/OL].[2016-03-29].http://www. americanscientist.org/issues/pub/avoiding-a-digital-darkage/1.
[11]XENA. [EB/OL]. [2016- 03- 29]. http: //xena. sourceforge.net.
[13]黄玉明.电子文件资源格式困局破解之道[J].中国档案,2010(7):56-58.
[14]Arms, Fleischhauer. Digital Formats: Factors for Sustainability, Functionality, and Quality[EB/OL].[2016-12-27].http://memory.loc.gov/ammem/techdocs/digform/Formats_IST05_paper.pdf.
[16]我国可信电子文件长期保存规范的方向分析[EB/OL].[2016-12-27].http://www.docin.com/p-1221638861.html.
[17]安小米. ISO15489文件管理国际标准中外比较研究[J].档案学通讯,2007(3):21-33.