数字化建设过程中档案精细化分类探索及实践
马梦华+牛庆玮+万启存
摘 要:存量档案数字化是保护纸质档案、提高服务质量的重要措施,也是建设数字档案馆和智慧档案馆的必由之路,在档案数字化过程中如何解决由于原有组卷信息元数据不足而存在的各种问题,是档案工作者要进行思考和研究的一项命题,本文从具体工作实践出发提出了档案数字化建设过程中的精细化分类方案。
关键词:纸质档案;字迹;保护材料;耐久性
中共中央办公厅、国务院办公厅联合印发的《关于加强和改进新形势下档案工作的意见》明确提出要建立健全覆盖人民群众的档案资源体系、方便人民群众的档案利用体系和确保档案安全保密的档案安全体系。其中在档案利用体系建设上指出:各档案馆(室)要大力开展传统载体档案数字化工作,及时以数字化档案代替原件提供利用。[1]档案数字化工作不仅仅限于纸质档案的扫描,更为重要的是档案内含元数据的形成和包括招生信息库、学位信息库等在内的各类数据库的建立。在数字化进程中如何对原有档案进行细分以及对档案中的各类数据进行梳理和建立,是档案工作者必须解决的一个问题。中国石油大学(华东)档案馆自2013年开始数字化建设以来对档案精细化分类进行了有益的探索和实践,形成了一套适用于高校档案馆的数字化细分方案。本文对分类方案进行了详细阐述,希望能对高校档案同仁有些许帮助。
1 档案精细化分类问题的提出
以“卷”为单位进行档案管理的档案管理机构,通常是将某一事件的相关文件组成一卷,然后拟定案卷标题、录入卷内目录等相关信息。同一门类的案卷,其卷内目录录入信息基本一致,无外乎是档号、题名、责任者、保管期限、页码等通用信息,正是这些过于泛化的通用信息造成了同一门类下不同子类档案的特有数据信息不足。以教学档案为例,其一般分为教学综合、学科与实验室建设、招生、学籍管理、课堂教学与教学实践、学位、毕业生、教材等八个子类。其中招生、学籍管理、学位和毕业生属于学生相关类高频利用档案,中国石油大学(华东)档案利用统计系统的数据显示,仅高考录取名册从2016年9月18日至12月18日就有265人次利用需求。与高频利用性相悖而言的是其卷内信息过于泛化,招生类卷内目录设置通常是一个省份一条目录信息,其余三类一个学院一条目录信息,并注明起始页码。应对其高频利用,为提供优质服务,我们需要的是借助于档案管理信息系统直接定位到人,而不是定位到省份、院系,然后再翻阅档案逐页查找。鉴于此类查找繁琐的实际问题,我们在数字化建设过程中提出了档案精细化分类方案,细化卷内目录到每个学生,并根据不同子类的特性,设计不同的元数据和著录模板,如招生子类的录取省份、入学成绩信息,毕业子类的毕业证号、学位证号信息,这样就可以根据利用需求直接定位到人,快速提供档案服务。需要说明的是,细化卷内目录并不是将原来的卷内目录弃而不用,而是另行建表进行细化信息的录入和扫描文件的挂接,它是对原有组卷方式的有益补充,也是电子档案资源的承载方式。
2 原有组卷方式存在的问题和不足
2.1 目录设置不尽合理。中国石油大学(华东)档案馆采用的是“南大之星”档案管理信息系统,该系统对档案资源进行目录式管理,最多支持三级目录。原有目录设置是以年份作为一级目录,档案类目为二级目录。同样以教学为例,2015年度教学综合档案一级目录设置为2015,二级目录为JX11,一般不设三级目录。此类目录设置适用于大多数档案门类,但对于有些门类却有着更为优化的目录设置方案。以党政公文类档案为例,其归属于党群综合或行政综合,二级目录为DQ11或XZ11,同一类型发文组成一卷。从系统而言党政公文和其他党群行政类综合文件存放一起,而实体存放党政公文是装盒单独存放。如果将党政公文从综合类档案剥离单独建表,保持其档号和一级目录不变,二级目录改为发文类型(中石大东党、中石大东发、中石大东学等)就更为合理易查。
2.2 元数据信息不足。元数据主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能,元数据一般不可再分割。不同档案门类有着不同的元数据。招生录取类档案元数据可以有学生姓名、性别、所在省份、畢业院校等。毕业类档案元数据可以有毕业证号、学位证号等。如文章第一部分所言的案卷卷内目录设置过于泛化,导致各门类元数据无从体现,元数据的缺少和不足,查询和统计就无法实现。
2.3 档案利用过程繁琐。由于缺乏相应元数据信息,许多检索条件不能通过档案管理信息系统进行查询。以查找某个学生的毕业证书发放登记表为例,数字化扫描之前最常见的情形就是询问利用者姓名、毕业年份、学院、专业等相关信息,然后查找目录翻出相应案卷,逐页查找直至找到该利用者信息对应页,进行复印、盖章工作。这样整个流程下来费时较长,而且不利于纸质档案的保护,数字化扫描虽然可以省去翻阅纸质档案这一环节,但同样需要逐页查找,在档案利用高峰时期,利用服务窗口经常出现排长队现象。
2.4 数据统计无法提供。元数据的缺失和近乎一致的著录信息,使学校办学历史上历年基础数据统计工作很难进行。例如统计每年招收人数、毕业人数、某个导师所带的研究生名单、某个学院或专业的毕业生名单等等,在原有组卷方式基础上,要统计这些信息借助于档案管理信息系统是无法实现的。要想进行某项基础数据的统计,只能是全馆动员,深入库房逐卷“数数式”统计,其工作量可想而知,最后统计结果也不尽准确。
2.5 档案编研工作较难推进。档案编研需要大量的材料和数据支撑,难以提供数据造成了档案编研工作的低效和缓慢。数字化之前,档案馆曾做的学校二级干部任免文件汇编,就翻阅了全部党政公文,并挑选任免文件进行复印,整个工作推进下来耗时将近一个学期。这种“全库搜索式”编研方式推进难度之大也可以想象了。
3 档案精细化分类方案设计
鉴于原有组卷方式存在的以上问题,为提供优质服务质量,为学校事业发展提供基础数据支撑,更大程度发挥档案价值,把“死档案”变成“活信息”,把“档案馆”变成“智慧馆”,我们在数字化建设过程中对档案门类进行详细的细分和设计,通过确定目录设置方案、全新组卷方式、元数据著录信息及文件挂接方式等,形成了一套详尽的档案精细化分类方案,在此提出并就教于广大档案工作同仁。
受数字化建设经费限制,秉持高频利用性和保护性原则,我们只对部分档案进行了数字化扫描和信息著录,主要包括历届学生成绩单、学生入学卡片、新生录取名册、学历学位证书发放登记表、毕业工作调配表、硕士学位审批材料、学校党政公文。本文主要对以上门类档案的精细化分类方案进行阐述。
3.1 成绩单和学籍卡片分类方案设计。学生成绩单和学籍卡片都是高校利用频率最高的档案材料。成绩单服务于学生的求职就业、升学升迁等诸多环节;学籍卡片对于学校开展校友会工作、校友返校等有着重要的实际作用,两者分类方案一致,分别建表存储即可。遵循清晰明了易查的目录设置原则,成绩单和学籍卡片设一级目录为毕业年份,二级目录为所在院系,三级目录为所学专业。在组卷上改变原来组卷方式,以每个专业学生成绩单组成一卷,案卷题名拟为××××届××学院(系)××专业学生成绩单。卷内目录设计为每个学生信息,学生信息著录元数据项及数据格式如下表所示:
文件挂接方式上,学生和成绩单或学籍卡关系为一对多关系,即每个学生都至少有一页成绩单和学籍卡,扫表后的成绩单合成PDF后直接挂接在所对应的卷内目录信息学生条目的全文即可,这样通过系统定位到学生信息后直接点击其对应的全文附件即可查看、打印学生成绩单或学籍卡。
3.2 新生录取名册分类方案设计。新生录取名册也属于高频利用档案,特别是在毕业生求职季查询量比较大。新生录取名册属于教学类档案招生子类(JX13)。数字化后目录设置在原有目录基础上增加三级目录,设为案卷序号,即一级目录录取年份,二级目录JX13,三级目录案卷序号。组卷方式保持原有案卷不变,卷内改为每个录取学生信息,录取信息著录元数据项及数据格式如下表所示:
区别于学生成绩单或学籍卡片的一对多对应关系,新生录取名册为多对一关系,即每一页文件上往往记载多名学生录取信息,南大之星档案管理信息系统不支持多条目录挂接同一份扫描文件,如果每个学生都挂载其对应的录取页扫描件,这就造成了十几倍的数据冗余和重复。因此在面对此类多对一对应关系的证明材料时,扫描图片全部挂接在案卷目录上,并为卷内目录的每个学生录取信息设计“所在页”和“页内码”两个字段,用以表明该学生录取信息所在案卷的页数和页内顺序。查询时搜索出学生信息,定位到所在案卷,找到对应页码的扫描文件即可。
3.3 学历学位证书发放登记表分类方案设计。学历学位证书发放登记表同样属于高频利用档案,它是开具学历证明所必需的文件材料之一,能够有效证明校友教育履历。学历学位证书发放登记表属于教学类档案学位(JX16)和毕业生(JX17)子类,现在一般都存放在毕业生子类下。学历学位证书发放登记表分类方案设计和新生录取名册设计一致,同样是增加三级目录,挂接方式和组卷也都参照新生录取名册,在此只列出卷内著录项如下表:
其中学位类型是指獲得学位的类型,如,工学学位、理学学位、文学学位等。
3.4 毕业工作调配表分类方案设计。毕业工作调配表主要证明学校历届学生的求职去向,对于早期统一分配高等教育体制年代意义较大,是证明校友工作履历有效文件材料。毕业工作调配表属于教学类档案毕业生(JX17)子类,其方案设计和学历学位证书发放登记表完全一致,卷内著录项如下表:
3.5 研究生学位审批材料分类方案设计。研究生学位审批材料记录了学生毕业答辩整个过程完整信息,主要服务于学生的求学和评优工作。研究生学位审批材料属于教学类档案学位(JX16)子类,其原有组卷方式是按学生分批组卷,数字化后目录设置和组卷方式均保持不变,细化卷内目录,增加元数据项,卷内著录项如下表所示:
挂接方式选择上,学位审批材料是一对多对应关系,将扫描后的图片合成PDF后直接挂接到卷内对应学生信息条目即可,方便易查。
3.6 学校党政公文分类方案设计。学校党政公文记录了学校的发展、改革和办学历程,是今世可知古,后世可知今的重要文件材料之一。党政公文属于党群综合(DQ11)和行政综合(XZ11),一般一个文件门类组成一卷,卷内为每个文件信息。数字化后需要做的是改变其目录设置,一级目录不变,二级目录改为发文类型(中石大东党、中石大东发、中石大东学等),组卷方式无需改变,卷内著录项如下表所示:
其中关键词是指按文件内容进行提取,如任免类文件、职称评审文件所涉及的人员姓名等。挂接方式是将每个发文扫描文件合成PDF后挂接到其对应卷内目录。
4 精细化分类后取得收益
数字化后的档案精细化分类基本解决了原有纸质档案时代组卷方式所存在的问题和不足,取得了较好的收益,具体有以下几点:
4.1 档案服务质量显著提升。对于这些高频利用档案的数字化扫描和精细化分类,由于设计了相对比较完整的元数据,使得提供档案服务变得极为方便,对于档案利用者的利用需求能够通过档案管理信息系统快速检索、查看、打印,无需再进库房翻阅、复印,大大缩短了服务流程,避免了档案利用接待窗口排队现象,明显提高了档案服务质量,赢得了较好口碑。
4.2 学校基础数据准确易得。档案数字化完成之后,很多学校办学数据能够很容易得到,例如每年学校招生人数、毕业人数,各个学院历年毕业人数、某位导师所培养的研究生名单等,都可以通过检索快速得到,避免了深入库房“数数式”的数据统计工作,提高了工作效率,也解放了人力资源。
4.3 档案编研工作轻松开展。基础数据的支撑为档案编研工作提供了最大便利条件,同时借助数字化的档案资源,基础档案编研所要做的就是检索条目、提取数据、汇编成册,这使得档案编研工作不必再全馆动员齐上阵,只需少量工作人员即可完成。
5 后记
本文从档案数字化实践角度出发,提出了档案精细化分类方案。存量档案的数字化,对于各个档案门类进行细分和设计能够最大限度发挥档案价值。然而对于新增档案,大都有业务系统支持,如果再只是存入纸质档案,然后再进行数字化扫描和录入,就造成了人财物的浪费。我们需要做的就是打通档案管理系统和各业务系统的底层数据,进行系统对接,获取各项元数据甚至全文信息,使档案馆成为学校的数据中心。
参考文献:
[1]关于加强和改进新形势下档案工作的意见.中国档案报.