面向事件记录的档案事由元数据模型的构建研究
任天琪+崔杰
摘 要:摘 要:档案事由元数据描述了事件的特征及背景信息,是档案元数据核心集的重要组成部分。通过E—R模型构建的事由元数据模型,从中分析出事由实体元数据的组成,及事由联系元数据之间的关系。事由元数据模型的构建为档案元数据核心集系统提供了事由方面的数据设计框架,使系统在再现社会历史面貌、构建全宗群、提高档案检索利用效率方面具有广泛的应用价值。
关键词:事由实体元数据;事由联系元数据;全宗群
Abstract:The subjectmetadata describes the characteristics and background information of events, and is an important component of the archives metadata core set. In this paper, the model of subject metadata is constructed by E - R model. The writer analysises the composition of the subject-entity metadatal, and the relationship between the subject-relation metadata. The model of subject metadata provides a data frame design causes for Archives Metadata Core Set.It has wide application value inthe reproduction of social history, the construction of fonds group, and improving efficiency of retrieval.
Keywords:Subject-Entity metadata ; Subject-Relation metadata; Fonds group
本文是教育部人文社会科学研究项目《“魂系历史主义”的档案元数据核心集的构建研究》(编号批准号:15YJC870007)的延伸研究。在研究项目中,我们根据刘新安教授和伍振华教授提出的“档案历史联系与历史的同构性”的档案本质[1],构建了档案元数据核心集。在核心集中包含了来源、事由和年代三大元数据模型。本文以事件为研究对象,利用“事件六元组”和实体—联系(E—R)模型,对事由元数据模型进行分析研究,从事件中提取出事由实体元数据,并建立元数据之间的联系,形成事由联系元数据,以完成档案元数据核心集对事件的完整记录。
1档案元数据核心集中事由元数据模型的构建
档案元数据核心集是对档案历史联系要素(来源、事由和年代)的本体特征及要素之间的关系进行结构化的详尽描述。其中,事由要素的特征和事由之间的关系,相对于来源的三层次结构和年代的线性结构要复杂得多。首先,事由元数据模型中要素及其关系并不是凌乱地排列的,它是以网络的形式有序存在的。通过图1我们可以看出,档案事由元数据模型是三维网络结构,这种结构在“事由”的体现上更加明显。图中的N0—N9是网络中的节点,它表示一个特征事件,网络中边代表事件间的关系,边的权重体现事件间的关系强度。其次,事由元数据模型不但可以完整地描述事件的本体特征信息,而且还可以将事件间的关联信息准确地揭示出来。那么,模型是如何运作来揭示档案之间的事由联系的?或者说,网络中的点和线是如何排列连接,才能准确完整地描述出一个整体事件呢?
图1档案事由元数据网状模型示意图
从图1中,我们可以了解到事由元数据包括事由实体元数据和事由联系元数据。事由实体元数据就是图1中“点”。在本体研究领域,事件被认为是在某个特定时间和环境下发生的、由若干角色参与、表现出若干动作特征的一件事情。“形式上,事件可表示为e,定義为一个六元组:e=。其中,A为动作要素,表示事件的变化过程及其特征,是对动作的程度、方式、方法等的描述;O为对象要素,包括参与事件的所有角色;T为时间要素,表示事件发生的时间段,从事件发生的起点到事件结束的终点;V 为环境要素,表示事件发生的场所及其环境特征;P为断言要素,包括事件发生的前置断言、中间断言以及后置断言,分别描述事件的开始、过程与结束;L为语言表现要素,表示事件的语言规律,包括核心词集、核心词表现、核心词搭配等。”[2]那么,这六要素即为事件实体的六大特征,通过这六个特征来提取事由实体元数据。事由联系元数据是通过建立事由实体元数据之间的联系,来揭示隐藏在事件内部的联系,以及事件与事件之间的联系,是对图1中“线”的描述。我们可以运用E-R模型对图1进行一个更为直观的解剖。
图2 事由元数据E-R模型示意图
2“事由实体元数据”的提取
事由即事件,事由实体元数据即是对社会实践活动(事件)各种要素的具体描述。依据事件的六个特征,结合“事由原则”记录事件的方法、顺序,我们所提取的事由实体元数据是从单一事件中获得的。其中,O、T、V三个要素是显而易见的,即有确定值,直接从事件中提取即可;A、P、L三个要素则少有确定值,多为叙述性语言,即需要著录者对事件要素进行语言描述。这组元数据中的一部分与传统著录项一致,另一部分是传统著录中没有体现的,但是,是建立事由联系的关键元数据。可以用二维表格(表1)的形式表示,其中元数据取值类型分为字符型、日期型和数值型三类,用M/C将事由元数据分为必选事件元数据(M)、可选事件元数据(C)。
根据人们对事件的认识习惯,档案工作者可以按照语言表现要素(L)、对象要素(O)、时间要素(T)、环境要素(V)、动作要素(A)、断言要素(P)这一顺序进行著录。
表1事由实体元数据
2.1语言表现要素(L)实体元数据。对“事件名称”“事件代码”“关键词”的著录,是对事件的语言表现要素L的著录。“事件代码”由组织机构代码(统一社会信用代码)[3]—事件发生年月—事件发生顺序号三个部分组成。例如“敦煌壁画艺术精品高校公益巡展——天津城建大学站”在2016年10月举行,那么事件代码就是“1212 0000 401359292 M—201610—01”。“关键词”是对事件进行精炼的一组词语,为可扩展元数据,可以是一个,也可以是多个。在著录时为“关键词1”“关键词2”(注:之后出现的可扩展元数据,均以此类推。)……比如“敦煌”“高校”“公益巡展”“天津城建大学”。
2.2对象要素(O)实体元数据。对“参与的组织机构”“组织机构代码”“参与的部门”“部门代码”“参与的个人”“公民身份证号码”的著录,是对事件的对象要素O的著录。因为对象要素是事件的全部参与者,可能是某一机构、机构中的部门,或者是机构中的某个人。对象要素的取值规则可以参考《基于来源的组织机构元数据构建研究——以天津外国语大学为例》[4]论文中对“组织机构、部门、个人”的取值规则。
2.3时间要素(T)实体元数据。对“事件起始时间”“事件结束时间”“事件持续时间”“事件关键时间节点”的著录,是对事件的时间要素T的著录。三个日期型元数据取值规则以八位时间数字表示,“事件持续时间”按数值型取值。比如活动时间起始时间为2016年10月27日,结束时间是2016年11月27日,中间持续31天。那么,“事件起始时间”为20161027,“事件结束时间”为20161127,“事件持续时间”为31。“事件关键时间节点”是指在事件发展过程中的关键节点,为可扩展元数据。比如在建设项目中,会有项目的审批时间、开工时间、竣工时间、某一关键点的时间(如水泥浇筑时间)等。
2.4环境要素(V)实体元数据。对“事件发生地点”“地址代码”“坐标”“环境特征”的著录,是对事件的环境要素V的著录,主要是对发生地点的描述。当事件发生地有具体地址的,比如某建设项目,则“事件发生地点”填写具体地址,并根据GB/T2260-2007[5]和GB/T10114-2003[6]填写“地址代码”。当事件发生地没有具体地址时,比如科研项目中需要采集地矿标本,地点没有具体的地址,那么,只能对“事件发生地点”给出确定的省界,然后根据测量给出“坐标”,并对“环境特征”进行文字描述。
2.5动作要素(A)实体元数据。对“动词摘要”“文件类型”的著录,是对事件的动作要素A的著录,两个元数据均为可扩展元数据。“动词摘要”是指“表彰”“处分”“任职”“免职”“成立”“调整”“撤销”等动作的描述。“文件类型”在文件实体中表现为“通知”“报告”“决定”“请示”“批复”“函”“申请”“意见”等。
2.6断言要素(P)实体元数据。对“文件题名”“文号”“撰文原因”“领导批示”“处理结果”的著录,是对事件断言要素P的著录,表示事件的主要内容。其中“文件题名”“文号”是确定值,“撰文原因”“领导批示”“处理结果”为描述性文字。
3“事由联系元数据”的建立
档案对于事件的记录过程是一环扣一环的,根据人们认识事物的顺序,由小到大揭露事件的背景及全过程。所以,“事由联系元数据”包括了事件内部之间、事件与事件之间两种类型的联系。它与事由实体元数据共同对档案中涉及的活动或事件进行描述。
3.1事由之间的内在联系。对于一件事情来说,小到一个案卷中的文件就可以说明,比如“天津城建大学综合体育馆工程项目竣工报告”,这一个文件就说明了一件事情,即体育馆工程竣工。而相对复杂的事情,每个文件即一件事情的节点,将文件按照事件的实际发展过程进行排序,将事件和事件的过程记录下来,以实现档案“以物记事”的功能,即“一事一卷”。我们在立卷的过程中,可以根据事由实体元数据的时间要素(T)、断言要素(P)、语言表现要素(L)之间的关系,将描述相同事件的文件联系起来,最终形成能够描述事件完整过程的案卷,或专题全宗。
事由实体元数据在对单一事件进行著录时,通常是按照事件发生的实际进度著录的,也就是按照时间顺序(T)来著录。就如上文提到“天津城建大学综合体育馆工程项目竣工报告”,在它之前要有项目的审批文件、相关的招投标文件、合同等前期资料,还有与之相关的施工文件、竣工文件、图纸等。这些文件按照时间顺序进行排列整理,就得到了关于天津城建大学综合体育馆工程项目的完整案卷材料。在工程施工的过程中,初步设计图纸会根据实际情况进行变更,产生的变更图纸根据事由之间的逻辑关系(P),追加在初步设计图纸之后。
对于全宗来说,则是在一个大背景下,对同一类档案的集中整理。比如在天津城建档案馆中,天津城建大学综合体育馆工程项目、天津工业大学的场馆建设项目、天津农学院的场馆建设项目等一系列场馆建设工程项目档案都会集中到这里,这些场馆都是为全国第十三届运动会(以下简称“全运会”)比赛服务的。那么,我们可以将这些项目档案进行集中整理,形成“全运会场馆项目档案全宗”这一客体全宗。
由此可见,事由之间的内在联系是在具体的社会实践活动过程中产生的,是描述同一件事情的档案间的联系。它是对一项具体的社会实践活动的完整记录,可以将按照来源关系整理而被割裂的事件关联起来,对事件的整体过程加以还原。
3.2事由之间的外在联系——背景关系。“在社会活动中,任何事件都不能凭空发生,是有背景和原因的。而案卷只是记录了一个个孤立的事件,虽然保证了一個具体事件的完整性,但是事件的背景并没有被记录下来。换句话说,每件事情的案卷内关于事件发生背景的文字内容不能作为此事件的背景。”[7]简单来说,案卷内文件不能自证其所记录事件的背景。所以单纯地以事立卷并无法揭示事件背景。如何通过事由联系来揭示事件的背景呢?“从社会实践活动过程看,事件的背景和原因有可能是另一件事情,或者是另几件事情。人们在认识客观事件时,通常将一件事孤立起来认识,而这件事件之外的事情暂时不去研究,这样便于将主要事件的来龙去脉了解清晰。但并不是说要扭断主要事件与其他事件之间的客观联系,只是其他事件暂时推后,而这些被推后的事件就成为主要事件的背景。‘事件的背景就是这样在我们认识客观历史的过程中形成的。”[8]
从档案整理实践角度看,档案室在接收案卷后,会根据来源原则,对案卷进行分类整理,所有案卷最终汇聚成一个单位的全宗(主体全宗)。全宗内的案卷“有机地构成了一个更大的事件,形成一个单位的全部历史”。[9]我们可以认为,全宗就是全宗内任何一个孤立事件的大背景,全宗内某一个孤立事件与其他事件之间有背景关系。当主体全宗被移交至档案馆,档案馆可以按照档案间的事由联系,建立客体全宗,或全宗群。客体全宗或全宗群中的档案之间,也存在着相应的背景关系。
举个简单的例子,某企业和某大学分别制发的关于廉洁文化宣传教育的文件,前者为“宣传企业文化”,后者为“树立良好的师德风范”,从标题上看两个文件并非同一件事,但是内容性质是相同的,都是在廉洁文化宣教背景下形成的文件,所以是具有相同背景联系的。从上面的例子,我们可以看出两个单位的档案室分别可以按照“企业文化”和“师德风范”的事由进行立卷归档。在将这部分档案移交至档案馆后,档案馆可以按照“廉洁文化宣传教育”这一事由,建立一个客体全宗,全宗内的档案则可互为背景。
对于档案形成的最大实体——全宗群来说,是对事件及其背景的整体描述,是将多个独立的小事件按照一定的聯系排列起来的。比如全运会即将在天津举行,从运动会的前期准备、运动会比赛期间的活动到运动会闭幕这一全过程将建立起“全国第十三届运动会档案全宗群”。在这个全宗群中会包括天津城建档案馆的“全运会场馆建设项目全宗”。
我们可以根据事由实体元数据中的对象要素(O)、动作要素(A)、断言要素(P)、语言表现要素(L)来构建全宗或者全宗群,以建立事由之间的背景关系。由此可见,从案卷到全宗、全宗群的过程,档案不仅记录了具体事件的全过程,也对事件的背景进行了完整的记录。
4事由元数据模型的功能
4.1真实、完整地再现社会历史的面貌。事由元数据模型的主要功能是以事件的角度记录社会历史。将同一事由形成的文件排列在一起,可以客观地反映出事件发生、发展、结束的全过程。单一事由记录了社会中的一个事件;而多个事由汇总在一起,则记录了更大背景的社会历史。它不仅为研究者提供了完整的事件记录,还可以解释事件背后的景色。
4.2形成更高级的档案物质形态——全宗群。全宗群是非常重要的档案现象和客观事实,是同构性档案本质观点的集中体现。它可以进行多维整理,既不像“案卷”只能按“事由”,也不像“全宗”只能按主体意义上的“来源”整理。[10]它抛开了档案的物质实体,根据档案元数据核心集中来源、事由、年代元数据之间的特征和联系,对档案进行整理。全宗群的这种档案组织方法和方式更加灵活多样,完全符合“具体情况具体分析”和历史主义的基本要求。[11]全宗群的出现,不仅保持了全宗之间档案的历史联系,更维护了同类档案的不可分散性。
4.3提高档案的查全率和查准率。事由元数据模型可以将同一事由的相关文件按照事由原则集中在一起,这样可以弥补因在档案实体整理过程中,只能按照来源原则整理档案的不足。它将隔断的具有事由联系的档案文件汇总在一起,在查阅这一事由的有关文件时,就可以直接查找到全部文件,从而提高查全率;在集中的相关文件中查找某份文件的概率也就增大,也就提高了文件的查准率。
参考文献:
[1]刘新安,伍振华,崔杰.档案历史联系与历史的同构性:一个新的档案本质观点[J].档案学通讯,2016(6).4.
[2]张旭洁.事件本体构建中几个关键问题的研究[D].上海大学,2012.52.
[3]全国组织机构代码管理中心.GB/T 16987-2002 组织机构代码信息数据库(基本库)数据格式[S].北京:中国标准出版社,2002.2.
[4]崔杰,杨文刚,田伟.基于来源的组织机构元数据构建研究——以天津外国语大学为例[J].档案管理,2017(1),34.
[5]中国标准化研究院,民政部区划地名司.GB/T2260-2007 中华人民共和国行政区划代码[S].北京:中国标准出版社,2008.2.
[6]中国标准化研究院,民政部区划地名司,辽宁省标准研究院. GB/T10114-2003县以下行政区划代码编制规则[S].中国标准出版社,2003.12.
[7][8]刘新安,档案记录事件背景的方法[J].北京档案,2000(11).25.
[9]刘新安,档案记录事件背景的方法[J].北京档案,2000(11).27.
[10][11]伍振华,张园园,黄小萍.同构性档案本质观点的寻根——对《档案管理学》“全宗群”等论述的解读[J].档案学通讯,2017(2):29.
(作者单位:任天琪,天津城建大学;崔杰,天津外国语大学 来稿日期:2017-09-05)