全生命周期管理中电子文件捕获工作实现研究
李泽锋+于红焱+顾周东
摘要:本文通过分析捕获的内容、时机、方法与过程,明确捕获定义的内涵与外延,结合国家标准研究捕获的功能,提出捕获协议的概念,将捕获的内容、时机、功能等在捕获协议里加以明确约束,以此作为捕获接口的需求指南,以便捕获接口具有最大程度的开放度与适应不同立档单位的灵活性。最后以实际案例提出几种捕获接口的实现方式,提出文件生成系统与ERMS均应以XML为标准格式、以Web service构建捕获接口。
关键词:全生命周期管理电子文件管理捕获
Abstract: By analyzing the content, timing, meth? od and process of capture, the paper defines the con? notation and denotation of capture. Based on the re? search of national standard, the paper proposes the concept of capture protocol, and clearly defines the capture of the content, timing, function, etc. in the cap? ture protocol. The capture protocol serves as a guide to capture interface requirements in order that the cap? ture interface has the greatest degree of openness and flexibility to adapt to different units. Finally the pa? per proposes several practical methods of capture in? terface, and presents that the file generation system and ERMS should take XML as the standard format and build the capture interface with web service.
Keywords: Life cycle management; Electronic re? cord management; Capture
數据捕获最初是计算机学科术语,意思是利用一种装置,将来自各种数据源的数据自动收集到一个装置中。随着电子文件研究深入,“捕获”被引入到档案界,并成为电子文件的术语之一,捕获工作则成为电子文件管理实现前端控制的重要环节。
一、对捕获(capture)概念的理解
档案行业标准《电子档案管理基本术语》(DA/T58-2014,以下简称《基本术语》)将捕获(capture)定义为“对电子文件及其元数据进行收集和存储的方法与过程”,[1]行业标准《文书类电子文件元数据方案》(DA/T 46-2009,以下简称《元数据方案》)定义捕获为“适时获取电子文件及其元数据的方法和过程”,[2]国家标准《电子文件管理系统通用功能要求》中的(GB/T29194-2012,以下简称《通用功能要求》)捕获(capture)是“按照既定要求将电子文件及其元数据纳入ERMS加以管理的过程”。[3]这三个标准的定义共同点是捕获对象均为电子文件及其元数据。然而,由于三个标准关注重点不同,还是有很多方面不尽相同。
(一)捕获时机
《元数据方案》增加了元数据这个捕获对象,是站在元数据管理的角度做出的改动。因为电子文件可以实时,元数据则贯穿于电子文件全生命周期,需要在全生命周期中进行捕获,难以做到实时获取,可能要在文件捕获后补充,该标准用“适时”这个看似准确实则模糊化的词语,便于各档案部门根据自己管理实际来确定什么是适合本单位的适时。
《通用功能要求》提出“按照既定要求”,[4]进一步模糊化,不仅仅包含时机,更能涵盖更多信息,给档案人员留下更多的操作空间。“按照既定要求”,说明捕获前一定要明确捕获对象、动作、时机、方法等,这些捕获内容应与电子文件管理系统(Electronic Record Management System,简称ERMS)的保存规划相关联。捕获对象、动作、时机、方法可以根据档案部门实际工作流以及所用系统而不同。
《基本术语》增加了捕获对象“元数据”,同时删除了“实时”二字。应该说,作为概念,这样的定义适用面最广。
就文件生成系统的捕获而言,实时捕获电子文件及其元数据是最好的选择。一份电子文件在文件生成系统中一旦生成,其相应元数据同时生成,这时不论其是否办理完毕、是否退出现行,均按照既定要求进行捕获。
(二)捕获动作
这几个标准使用了“收集”“存储”“获取”“纳入ERMS加以管理”等动作。按照《基本术语》,捕获定义中的存储是指以经济、有效、安全的方式保护、存取和管理电子档案以便利用的过程。[5]从这个定义看,捕获不仅是捕捉、获取,还有保护、管理的内容。“纳入ERMS加以管理”,纳入ERMS是捕捉、获取,“加以管理”就又有了管理的含义。
就文件生成系统的捕获而言,捕捉、获取(或收集)是恰当的动作,其他管理动作在ERMS中有相应的功能来实现。捕捉、获取是顺序的动作,捕捉要求文件一旦在系统中生成,就应该进行捕捉。即使不是实时而是适时,也应该通过生成系统的审计跟踪功能进行文件固定以留待适时的捕捉,避免文件流失。
同归档一样,获取有逻辑与物理两种方式。逻辑方式是指获取文件的存放路径,通过指针指向文件。这就要求生成系统审计跟踪功能具有审计甚至禁止更换文件存放位置的功能,这也是前文认为实时捕获比较合适的原因,待归档时再实施物理归档。物理方式是指捕获时获取文件本身及其相应元数据,文件生成系统依然审计捕获的动作并记入日志。这种捕获对于文件收集归档来说最好。
需要明确的是,不管哪种方式,捕获不是归档,其捕获范围也不是归档范围,应该是生成系统生成的所有文件及其元数据,等纳入到ERMS中后适时进行鉴定,确定其是否具有归档价值。
(三)方法与过程
前面分析了捕获时机、动作与范围,定义中还有一个需要关注,就是“方法”“过程”。前三个标准均表明捕获是方法与过程,《通用功能要求》定义中虽没有方法二字,“按照既定要求”已隐含了方法在里面。
过程容易理解,方法包含内容较多。方法是为实现目标而采取的手段与行为方式,比如文件与元数据的封装方式、捕获接口、捕获协议等,这些都应该在“既定要求”中提前确定。方法一旦确定,过程也就明确了。
二、捕获功能
《通用功能要求》关于捕获的条款是5.2.1.1中的5.2.1.1.1和5.2.1.1.2,分别规定了电子文件与元数据的捕获。其中5.2.1.1.1主要描述捕获范围与捕获方式,包含27个详细条目(序号1到序号27),5.2.1.1.2主要描述元数据的捕获方式及该阶段的元数据管理要求,包含12个项目条目(序号1到序号12)。限于篇幅以及与本文的高相关性,本文对5.2.1.1.1中的前17个条目做一个分析,即从序号1到序号17,这17个条目规定了捕获的基本功能。
序号1规定ERMS应支持定义、维护捕获活动中电子文件的捕获范围。按照前面的分析,这个捕获范围应该是生成系统与ERMS协商确定好的。按照标准,要自定义和维护,说明捕获范围是可以动态变化的。这就要求接口设计时,生成系统尽可能多地传递文件,最好是生成的全部文件,ERMS才能自定义、维护捕获范围,也就是说前者应大于等于后者。
序号3和4,ERMS應支持以原始格式捕获,说明捕获的电子文件应有两个格式:原始格式与转换后的标准格式,但这些格式应对应同一条目,以此建立有效联系。
序号5和6是对复合文件捕获的约束。要求将各个组件作为一个整体进行捕获,以便捕获后的检索、显示与管理。这样的捕获,一般应将主组件作为其他组件的容器,依托容器从而建立各组件的关系。比如包含图片、视频的网页,则把网页作为主组件,以此为容器将图片、视频等组件包含进来,确定图片、视频在容器中的位置。
序号7、8与9是对组合文件的捕获。对于组合文件,没有主从文件之分,主要是通过文件关联建立组合文件多个文档间的联系。相对于复合文件,组合文件各文档没有位置要求,捕获相对简单。一般在著录时标清有多少文档组成、彼此关系,将其关联起来即可。
序号10与11是进一步对文档格式捕获时的约束。标准要求ERMS应支持授权用户定义和维护能够捕获的文件格式类型,说明标准要求用户能按照需要改变捕获文件的格式,如前文分析,用户改变了捕获格式,应该通知生成系统。对于复合文件内各组件的格式类型ERMS必须能识别,并将格式类型作为元数据予以捕获。复合文件内组件的格式类型繁杂多样,ERMS必须有格式管理功能。
序号13、14、15、16、17说明了捕获的自动与人工、主动与被动、批量与逐个。自动捕获的前提是ERMS与生成系统有应用程序接口。
三、捕获协议
捕获最重要的是质量良好的电子文件与元数据。从现状来看,大多数文件生成系统生成电子文件与元数据时并没有完全考虑长久保存问题,没有足够适应长久保存需要的元数据,其封装方式也可能不同于档案馆。正如已有的纸质档案移交范围,要想满足《通用功能要求》中的捕获功能,需要在生成系统与ERMS之间制定电子文件捕获的制度、规范或标准来约束文件生成者,文中把这样的制度、规范或标准称之为捕获协议(Capture Protocol)。
捕获协议规定了电子文件捕获的术语和环境以及捕获范围、类型、时机、动作、封装方式等,制定了文件元数据编码规则、捕获规程以及捕获与保存规划、与审计跟踪之间的通信与反馈机制。考虑到电子文件特性和捕获的自动化程度,捕获协议还应该有文件与其元数据的映射规程、电子文件的格式、日期、标识符、捕获安全规程、隐私与密级、封装方式、元数据集标识与格式等内容(有些内容在相关标准中具体制定,该标准可引用,如元数据编码规则、电子文件保管期限表、捕获安全规程、捕获接口封装标准等)。
上述内容对于文档部门以及其使用的系统来说,基本在一定时期内是比较固定的,可以定性或定量表述,适合将其制定成为国家或行业标准或区域性规定普遍遵守。这种做法并不是创新,实际上,在传统档案的移交中,有相应的行业标准来约束纸质文件的移交(如《机关文件材料归档范围和文书档案保管期限规定》中的相关规定)。只有将上述更详尽内容纳入到协议中,才能真正实现适应长期保存的前端控制。现有移交或归档标准或不齐全或操作性差,难以真正对我国分离的文档工作进行全生命周期关键环节的约束。
和元数据特性相关的移交规范内容往往随立档单位和档案馆的不同而有所不同,有了可普遍遵守的捕获规定,立档单位可以根据自己电子文件与元数据的特点与档案部门协商形成自己的捕获规范。[6]
和纸质文件移交规范不一样的是,捕获协议应能用计算机语言进行描述并固化在程序中,以提高ERMS捕获的自动化程度。具体是捕获协议相对固定的部分(如封装、移交安全规程、元数据标识等)应该直接固化在系统编程中,灵活可变的部分则可以用XML文件描述出来,通过对文件生成系统的改造嵌入到系统功能模块中,同时建立与其他规范或标准的关联。文件生成系统调用该XML文件,根据相应的规定自动生成元数据、封装,并做好安全移交的准备。该XML文件还应该建立与其他规范的关联,如在封装元数据时需要密级和保管期限,系统就调用与捕获规范相关联的电子文件保管期限表(XML格式),就可以自动对电子文件进行鉴定。
捕获协议的可机读性使得提交、收集、保存规划、保存、著录等活动的自动化大大增强,减少了人工干预的程度。可以说,档案馆电子文件管理的规范、制度可机读越多,其管理过程的自动化程度就越高。例如,电子文件管理系统的格式管理模块对每一个格式记录有大量详细的、可机读的技术与管理元数据,就可以用元数据自动验证文件格式。如果接收到新的格式,系统或将其转换成已有的格式,或登记、注册新格式的表示信息(技术和管理元数据)存储在格式管理模块,使电子文件的格式适应档案馆的需要。如果格式信息只是一张简单描述格式的纸质列表,电子文件的格式验证就只有手动实施了。
将规范、制度、规程等描述为可机读对象,需要档案馆投入相当大的精力。一般来说,自动化最适合那些从相同的文件生成者移交电子文件的档案馆,只有当新的文件形成者或新的文件类型出现,档案馆才会做出相应调整。
四、捕获接口
要想实现电子文件及其元数据从生成系统捕获到ERMS,最好的做法是在两个系统间建立接口。所谓接口,就是在文件生成系统与ERMS间按照预定的数据交换格式建立数据导入/导出的软件模块,实现两个系统的数据流动与流程衔接。
这样的导入导出模块可以是手动操作的,也可以是系统自动进行的。早期的档案移交过程,就是一个手动操作的典型接口案例,如从OA中导出电子文件到光盘,然后将光盘内容再导入到档案管理系统中,这个过程中的导入、导出功能实际就是一个接口。现在应重点研究的是自动捕获,即不需要人工干预,即可实现电子文件及其元数据自动从生成系统捕获到ERMS,从而避免了捕获过程中人为改动数据的可能性,也是电子文件真实性保障与证明的一个重要手段。
编制接口程序,要求必须同时了解生成系统与ERMS两个系统的数据接口,尤其是需要彻底清晰地了解捕获数据的结构,比如相应表结构、字段值的特殊含义等。实际上,这些内容都已经在捕获协议中进行了明确规定和清晰描述。通过捕获接口将捕获协议严格实现,完成捕获的各项任务,从而实现电子文件的前端控制。
(一)接口具体实现方式
接口是两个系统数据交互的工具,通过接口,业务系统传递数据,ERMS接收数据,所有的要求必须在接口设计时得到满足。
1.利用EXCEL表格。该实现方式将元数据写入EX? CEL表格,并与相应的电子文件建立关联即可。或将元数据写入用TAB分割的文本文件,每一个这样的文本文件对应一个电子文件。这样的封装可以进行在线移交或离线移交。在线移交可以根据唯一标识符来识别要移交的电子文件,离线移交则可以根据光盘中的TAB文件和文件名称列表来识别要移交的电子文件。无论哪种方式,都需要对批量移交的数据生成一个说明来描述数据包的结构,还需要在综合档案馆ERMS中开发一个接口来接收数据包。需要注意的是,由于业务系统数据包封装的元数据一般不完全,移交的数据包应暂存在ERMS的收集库中。
这是非常简单的一种方式,简单易行,档案人员容易理解并操作。但缺点很明显,难以控制电子文件及其元数据的修改,不易保障并证明其真实性。在档案信息化早期管理系统应用尚不成熟尚未普及时,该种方式可保障电子文件与元数据的有机联系。
2.利用数据库技术。封装有多种方式,数据库技术其实也是一种封装。它把元数据作为二维表格存储起来,每一条元数据的记录与相应的电子文件建立关联,这其实就实现了内容信息与元数据的简单封装。目前数据库管理系统均支持XML,可很方便地将数据库记录用XML描述出来。
3.XML封装。业务系统将元数据导出为XML文件,同时将公文内容(如Doc文档)导出为实体文件。XML定义如下:
上述XML描述应按照标准DA/T 48-2009规定的元数据项与Schema来实现。
对于ERMS来说,其接收接口传递来的XML文档后,即可进行解释并将数据纳入到自己的系统中。如果XML文件为外部系统生成,ERMS的捕获子系统必须提供XML验证模块,以便和其他系统衔接前验证采集数据的合法性。
(二)动态前端控制与接口的数据双向传输
接口既包含生成系统接口,也包含ERMS的接口,前者的主要功能是对生成系统的电子文件及其元数据按照既定要求封装,并进行传递,后者则将传递来的数据纳入到ERMS中。通常研究的大多是数据的单向传输,即从生成系统到ERMS。
前文提到ERMS的保存规划功能需要进行前端控制,比较好的办法就是通过接口将ERMS生成的控制信息通过接口传递给文件生成系统,生成系统根据接收的控制信息进行相应的改变以适应ERMS的变化满足ERMS的需求。比如,电子文件的标准格式发生了改变,这时ERMS将改变后的标准格式以XML封装方式通过接口传递给文件生成系统。生成系统通过人机交互,改变格式转换的功能,比如将原来格式转换中将原格式向原标准格式转换变更为新的标准格式。再如,接口还可具有真实性、完整性的检测功能,也是一种数据双向传输的体现。
这种由ERMS到生成系统的数据传输,是前端控制的进一步深化,是一种动态的前端控制,也是ERMS保存规划具体实现并深入到前端的较好办法。
五、结语
电子文件捕获是实现前端控制原则重要的一个环节。为实现捕获的自动进行,以及最大程度的灵活性,必须在捕获前由文件生成单位与档案部门以捕获协议的方式明确捕获的内容、时机、功能等,以此作为捕获接口的需求指南,以便捕获接口的开发具有最大程度的开放性与适应不同立档单位的灵活性。这样做并不表示给档案部门带来了许多工作量。档案室针对自己单位的多个业务系统可以根据其电子文件不同制定相应的捕获协议,综合档案馆对应的立档单位在几十家或更多,但这些立档单位捕获的同类别档案基本相类似,因此,综合档案馆可以制定若干个具体的捕获协议即可满足其所有立档单位的电子文件捕获。
捕获接口推荐用XML格式,以Web service技术来构建,从而为立档单位、档案馆之间业务流程的集成提供一个通用机制,便于将来的扩展。需要指出的是,由于业务生成系统往往先于ERMS建设,要想实现捕获功能,还需要对文件生成系统进行改造。如果业务系统即将建设或正在建设,档案部门应参与到系统的规划、设计与实施中,将捕获的相关功能充分体现在业务系统中。
*本文为河南省科技厅软科学项目“政务内网中机关电子文件管理系统评估体系研究”(项目编号:142400410149)、国家社科基金项目“我国数字档案信息长期保存的策略体系研究”(项目编号:13CTQ051)的中期研究成果之一。
注釋及参考文献:
[1][5]国家档案局.DA/T58-2014电子档案管理基本术语[S].
[2]国家档案局.DA/T 46-2009文书类电子文件元数据方案[S].
[3][4]中华人民共和国家质量监督检验检疫总局,中国国家标准化管理委员会GB/T29194-2012,电子文件管理系统通用功能要求[S].
[6]刘越男.电子文件的捕获——基于电子文件管理系统的分析[J].中国档案,2013(7):68.