《文书类电子文件元数据方案》(DA/T46—2009)要点解读及思考
嘎拉森 顾天荣
国家档案局于2009年12月16日发布了《文书类电子文件元数据方案》(DA/T46—2009)(以下简称《方案》),该标准于2010年6月1日起开始实施,根据《中华人民共和国标准化法》(2017年11月4日修订)的规定,该标准属于行业标准中的推荐性标准,是国家档案行政管理部门鼓励采用的行业推荐性标准之一。本文就该标准的主要内容进行解读,并对存在的问题进行探讨,供大家在实际工作中参考。一、《方案》制定的背景
随着信息技术的普及和整个社会的数字化转型,各组织机构的工作环境也在向电子环境迁移,数字化与原生性的电子文件大量形成与积累,支持着组织机构各项业务活动的高效推进。尤其是随着单轨制时代的到来,电子文件已经逐步代替纸质文件,成为很多组织机构业务活动记录的主要记录形式,但原有的针对纸质文件的管理模式显然已不能适应当前的管理需求,如何通过高质量的著录增加精准的检索点,保障电子文件的可检索可利用,并维护其真实性、安全性、可靠性、可读性及长期保存性,实现对电子文件的高效管理,成为电子办公时代各组织机构都面临的一大挑战。
元数据作为描述文件背景、内容、结构及管理过程的数据,对其合理的采集管理能够实现对电子文件信息内容的全面描述,进而为后续的信息组织、检索、共享,乃至系统的互操作提供便利与支持。尤其对于检测和保障电子文件的“四性”有着重要的作用,是电子文件管理活动中极其重要的一部分。
文书类电子文件作为反映党务、政务、生产经营管理等各项管理活动的文件,是各级各类组织机构在日常业务活动中生成数量最多、应用范围最广的文件类型之一。因而我国在2009年率先针对文书类电子文件出台了《文书类电子文件元数据方案》,以期为创建、管理和应用元数据建立统一的方案,以系统有效地记录电子文件的内容特征、形式特征、背景和管理过程信息,为电子政务、办公自动化、文件及档案管理系统的设计提供依据,并全面实现元数据的多种功能和用途。
作为我国第一部元数据管理的行业推荐性标准,《方案》的颁布对于各组织机构文档管理业务指导与我国电子文件管理标准体系建设方向引领都有着重要意义。二、《方案》的体例与内容构成
《方案》共分八章及一个资料性附录,包括:“范围”“规范性引用文件”“术语和定义”“元数据元素、结构及描述方法”“文件实体元数据元素的描述”“机构人员实体元数据元素的描述”“业务实体元数据元素的描述”“实体关系元数据元素的描述”,以及附录A:“文书类电子文件元数据表”。
《方案》规定了以文件和案卷形式的档案为对象的文书类电子文件管理全过程以及元数据设计、捕获、著录的一般要求。其中,前三章明确了该标准的适用范围,界定了标准中涉及的重要术语及其定义。第四章将文书类电子文件所涉及的元数据从概念层次上区分为文件实体元数据、机构人员实体元数据、业务实体元数据、实体关系元数据四个域,并对应给出了每个域包含的元数据元素、结构及其描述方法。第五章至第八章对应第四章划分设置的四个域包含的元数据元素的结构和描述方法详细给出了每个元素的编号、名称、定义、目的、约束性、子元素等16項详细信息。附录“文书类电子文件元数据表”将《方案》规定的88个元数据元素的主要内容进行了整理汇集。三、《方案》主要内容解读及思考
(一)《方案》的适用范围
《方案》适用的主体对象是:各级各类档案馆、机关、团体、企业事业单位和其他社会组织。以上主体均可参照本标准对计算机系统中直接生成的文书类电子文件(含纸质文件/档案数字化图像、文本)进行管理。
(二)术语及定义
《方案》对“电子文件Electronic Records”“文书类电子文件Administrative Electronic Records”“元数据Metadata”“实体Entity”等11个术语进行了定义。
《方案》对“电子文件”的定义是:“在数字设备及环境中生成,以数码形式存储于磁带、磁盘、光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的文件。”现行的档案行业推荐标准中涉及电子文件定义的还有2000年国家档案局发布的《档案工作基本术语》(DA/T1—2000),将电子文件定义为:“以数码形式记录于磁带、磁盘、光盘等载体,依赖计算机系统阅读、处理并可在通信网络上传输的文件。”以及国家档案局分别于2014年、2018年最新发布的《电子档案管理基本术语》(DA/T58—2014)和《文书类电子档案检测一般要求》(DA/T70—2018),以上两项标准均将电子文件定义为:“国家机构、社会组织或个人在履行其法定职责或处理事务过程中,通过计算机等电子设备形成、办理、传输和存储的数字格式的各种信息记录。”对比以上三则定义,就可以看到,随着信息技术的普及、电子文件来源和格式的日益复杂以及对电子文件凭证价值认可程度的提高,人们对于电子文件认识的变化。对电子文件的定义从最早强调其生成方式、存储介质、传输识读方式到侧重关注电子文件的来源与生成背景,而不再过多强调其载体。
《方案》对“元数据”的定义是:“描述文件的背景、内容、结构及其整个管理过程的数据。”电子文件的元数据是描述其各项属性的信息,即对于电子文件这一信息性对象做出的描述与记录。根据《方案》,元数据具体描述的数据即各项元数据所包含的元素:“通过标识、定义、约束性、值域等一组属性描述的数据单元”。早在1997年,国际档案理事会电子文件委员会就已在《电子文件管理指南》中提出了文件的三要素观,即文件由内容Content、结构Structure、背景Context这三个要素构成。其中内容指文件中所包含的表达文件形成者或形成机构的意图的信息;组织方式是指文件内容的信息组织构成、表达方式;背景指文件所处环境,文件的背景信息包括文件之间的相互关系、形成文件的业务活动、文件的技术环境等[1]。此定义中也体现了对于文件三要素观的贯彻,并强调要涵盖整个管理过程的数据,这对于维护电子文件的“四性”具有重要意义。
《方案》对“实体”的定义是:“任何已经存在的、将要存在的或可能存在的具体的或抽象的事物,包括事物间的联系。”实体是一个抽象的概念,此处不仅将各种存在状态的事物定义为实体,并将事物间的联系即“关系”也定义为实体。实体的存在与识别要依赖于事物的属性,而实体间的联系的识别要依赖于事物间的关系。映射到元数据中,就分别对应元数据的描述内容及关系。
(三)元数据元素、结构及描述方法
1.元数据元素与结构
《方案》参照了国际标准ISO23081《信息和文献.记录管理过程.记录用元数据.第1部分:原则》,并结合我国电子文件管理实际,将文书类电子文件元数据从概念层次上区分为文件实体元数据、机构人员实体元数据、业务实体元数据、实体关系元数据四个域。这四个域实际上相当于四个实体类元数据集,内部又根据各域的属性与内容划分了不同等级和类别的元数据元素。
文件实体元数据是描述文件本身的来源、外部特征、内容、数字环境等信息的元数据,包含“M1聚合层次”“M2来源”“M7电子文件号”“M8档号”“M21内容描述”“M40形式特征”“M46电子属性”“M52数字化属性”“M57电子签名”“M65存储位置”“M70权限管理”“M75附注”12个元数据元素和63个子元素共计75项,涵盖了电子文件形成、交换、归档、移交、保管、利用的全过程,兼顾文件的背景、内容、结构、形式、安全保障等全方位信息。文件实体元数据是《方案》中包含元素项最多的一个域,这不仅充分体现了作为一项专门的电子文件管理标准,其对于文件本身的充分关注,也侧面强调了文件本身的信息数据对于文件管理业务的重要意义。
机构人员实体元数据是指记录开展电子文件管理业务过程中所涉及的责任人员和机构信息的元数据。具体包含“M76机构人员类型”“M77机构人员名称”“M78组织机构代码”“M79个人职位”4个元素。以上四项元素的设置均有助于记录电子文件背景信息,提供电子文件业务活动的过程记录,以及合法性与真实性证明。
业务实体元数据是描述电子文件形成、处理和管理等业务行为等具体行为信息的元数据。包含“M80业务状态”“M81业务行为”“M82行为时间”“M83行为依据”“M84行为描述”5个元素。通过对业务活动的审计跟踪描述提供电子文件背景信息,以维护电子文件的证据特性,为电子文件的控制、管理和利用提供便利。
实体关系元数据是指描述电子文件之间、电子文件不同实体之间以及电子文件实体内部各对象之间关系的元数据。包含“M85实体标识符”“M86关系类型”“M87关系”“M88关系描述”4个元素。通过对各实体文件内外部关系的描述,不仅有利于电子文件的管理、利用,更有助于对电子文件的理解。
以上四个域及其25个元素、63个子元素共同构成文书类电子元数据的基本结构框架。该框架的设置可以按照“主体—行为—对象”的逻辑进行理解,即主体在电子文件管理系统环境下,基于业务需求,在形成、交换、归档、移交、保管、利用等全业务流程中对电子文件加以管理和利用,再以“关系”为纽带,将三个域联系起来,实现整个业务活动的互联。具体如图1。
此外,还可以借鉴开发关系数据库常用的“实体—属性—关系”模型(Entity-Relationship模型)对各元数据元素及其关系的设计原理进行理解,实体对应上述文件、机构人员、业务三个域,属性对应各元数据的子元素,关系对应实体关系元数据,通過对实体、属性、关系的分层次描述和多级别著录,实现对各份电子文件实体间,以及电子文件元数据著录项中各子元素间关系的建立,构建多维立体的电子文件记录。具体如图2。
2.描述方法
《方案》参照国际标准ISO11179.3:2003《信息技术.数据元的规范和标准化.第3部分:数据元的基本属性》,对88项元数据元素的描述方法进行了规定。
根据《方案》,本标准所描述的88项元数据元素有四个属性相同:(1)注册版本:1.0;(2)注册机构:中华人民共和国国家档案局;(3)字符集:GB 2312—1980、GB 18030—2005;(4)语言:中文。
除上述四项相同属性外,《方案》为每项元数据元素设定了16项元数据元素描述内容:编号、中文名称、英文名称、定义、目的、约束性、可重复性、元素类型、数据类型、编码修饰体系、值域、缺省值、子元素、信息来源、相关元素及注释。
其中,约束性是说明该元数据元素的强制性程度,分为“必选”“条件选”和“可选”,在《方案》给出的88个元素及子元素中,有20项为必选项,25项为条件选项,43项为可选项。其中“条件选”是表示在特定环境和条件下必须采用。如文件实体元数据中的“室编案卷号”元素,当其满足下列任一条件时,本元素是为必选项,条件有:(1)聚合层次(M1)的值为“案卷”且由档案室著录;(2)聚合层次(M2)的值为“文件”且文件按立卷方式整理并由档案室著录;(3)档案馆选择著录。“可选”则顾名思义,表示可采用也可不采用,由用户根据需要确定即可,如“主题词”“关键词”“控制标识”等均为可选项。
可重复性是说明该元数据元素是否可以重复出现,《方案》中有79项元数据元素不可重复,9项可重复,如“M26主题词“”M51信息系统描述”等。最大程度上保证了对文件著录描述的完整性,同时也体现了《方案》的可扩展性。
元素类型是指元数据元素多属的类别,《方案》将元素分为简单型、容器型和复合型。简单型是指不具有子元素的元素所对应的元素类型;容器型是指具有子元素且本身不能被赋值的元素所对应的元素类型;复合型则是指本身可以被赋值且在一定条件下可以具有子元素的元素所对应的元素类型。在《方案》给出的88个元素及子元素中,有79项元素为简单型,8项为容器型,仅“M8档号”一项为复合型。这是因为档号是由管理电子文件的系统按照设定的规则生成的,根据档案行业推荐标准DA/T13—1994《档号编制规则》,档号的结构可能存在以下三种:第一种结构为:全宗号—案卷目录号—案卷号—件、页(张)号;第二种结构为:全宗号—类别号—案卷号—件、页(张)号;第三种结构为:类别号—项目号—案卷号—件、页(张)号。因此在档号已编制的情况下,系统可为元素可直接赋值对应档号,或按照其结构细分子元素再进行赋值。若电子文件未经整理、立卷、归档,尚未形成档号时,本元素则可以为空值。
数据类型是为表达元数据元素值而规定的具有相同数学特性和相同操作集的数据类别。《方案》将数据类别划分为字符型、数值型、日期时间型三种。其中,容器型元素没有数据类型。
编码修饰体系,是指对元数据元素信息的描述应遵循的编码规则,包括编码修饰体系的标识和名称。以“M8档号”这一元数据元素为例,《方案》规定其编码修饰体系标识参照DA/T13—1994实施,名称为档号编制规则。
信息来源,是指元数据元素值的来源,描述来源的方式有通过电子文件系统选择著录和手工著录两种。
相关元素,是指与该元素有密切联系的元素。如“M5全总名称”,其相关元素为“M6立档单位”和“M9全宗号”。通过对以上三个元素的相关性指明,能够帮助系统和管理人员更便捷高效地对电子文件的来源进行把握,并提供最齐全的检索点,保证所描述信息的完整和全面。
在明确了元数据元素描述方法的基础之上,《方案》的第五到八章依次对文件实体元数据、机构人员实体元数据、业务实体元数据、实体关系元数据四个域下设的88个元素一一进行了详细的规定与说明。以5.4.4保管期限为例,其描述内容及要求如下表1所示。四、《方案》存在的问题及改进建议
(一)未来应考虑增设法规标准实体类元数据
《方案》参照了国际标准ISO23081《信息和文献.记录管理过程.记录用元数据.第1部分:原则》,但将ISO23081元數据概念模型中的法规要求实体剔除,最终将文书类电子文件元数据从概念层次上区分为文件实体、机构人员实体、业务实体、实体关系四个元数据域。此举可以理解是考虑和结合了我国电子文件管理的实际进行了必要的模型调整。但根据ISO15489的规定,文件是机构履行法定义务的记录成果,文件真实性的本质内涵是指文件产生与既定法规要求相符,整个文件管理标准家族都是以文件法制化管理为契机出台的。[2]而且随着整个社会法制意识的增强,各组织机构都开始逐渐重视并强调法规遵从。这就要求组织机构不仅要在各项业务活动中切实遵守相关法律法规,还要能够提供相关证明进行证实。档案作为组织机构业务活动的原始记录自然是提供相关凭证的最佳材料,这就更需要对档案著录工作中的法规遵从情况进行著录与描述。因而增设法规标准实体类元数据是未来进一步完善元数据概念模型设计的题中应有之义。
(二)未来应考虑细化档案内容描述的元数据元素
档案作为组织机构信息资产的重要组成部分,其价值很大程度上体现在档案内容的原始性、真实性,档案中记录的有价值信息能够为组织决策辅助、文化建设等提供支持。但目前档案管理工作还是更多地聚焦于通过信息著录协助实现实体管理的有序化,而忽略了对档案内容的关注。而且随着面向机器智能的新互联网时代的到来,未来的档案管理势必向着数据化、语义化、智能化的方向迈进,将会对档案资源的信息组织程度提出很高的要求。这都需要在对档案内容把握和精细化管理的基础上才能够实现。
《方案》中“M21内容描述元数据”的18项子元素通过对电子文件题名、主题词、责任者、保管期限等外部内容信息的著录为其文件级可检索以及统计、利用等“粗颗粒度”档案管理提供了便利,而真正的档案内容却处于“无人问津”的尴尬境遇。未来应进一步细化档案内容描述的元数据元素,将描述层级真正深入到内容层面,实现电子文件的全文检索和机器可阅读可理解,为档案管理的跨越式发展奠定信息组织基础。
(三)个别元素的具体捕获方式有待进一步明确
捕获是指适时获取电子文件及其元数据的方法和过程。《方案》中对于元数据元素的信息描述来源的方式,规定了通过电子文件系统自动著录和手工著录两种。但由于电子文件生成环境与载体的特殊性,其中某些信息是人无法通过识读直接著录的,需要系统通过技术手段进行捕获与著录,或手工著录和系统自动捕获相配合。尽管《方案》已在每个元数据元素的信息来源中对其捕获方式予以解释,甚至对于某些较为复杂的元素,《方案》还在注释中进一步进行了详细的解释和说明。但根据笔者的调研,在实践过程中,数字档案室系统设计人员在实际参照《方案》进行元数据方案设计时,由于有些元数据元素的捕获方式还是介绍过于笼统,技术人员无法对其进行落地实现,这将导致电子文件元数据采集的不全,进而影响对电子文件信息的全面把控与管理保存。希望在未来的标准升级更新时,能够对元素的捕获方式进行进一步明确,为其有效实施奠定良好的基础。
参考文献
[1]冯惠玲.电子文件管理100问[M].北京:中国人民大学出版社,2014.
[2]刘越男.ISO23081带来的启示与困惑[J].北京档案, 2008(7):26-29.
作者单位:1中国人民大学信息资源管理学院2中国空间技术研究院总环部