电子档案管理技术研究
轩红
电子档案是由传统档案数字化的结果,同时也可以是办公自动化后产生的电子文件,都是计算机产生的文字、声音、图片、视频等信息的集合,其管理和使用都需要借助专门的设备。电子档案的出现,改变了传统档案事业的工作方式和管理模式。对电子档案的使用和管理,都需要了解其特征。
1? 电子档案的特征
电子档案不同于传统的纸质档案和实物档案,它有自己的独特特征:(1)电子档案的不稳定性,其主要是存储在磁介质上,主要有磁盘、光盘、磁带等。这种介质容易受到震动、磁信号的影响,载体结构稍微变化,就有可能造成数据的丢失和破坏,这对电子档案保存的环境有严格的要求。(2)电子档案的非直读性,电子档案的阅读需要借助一定的设备来进行,需要相关的软硬件设备来进行阅读,这就要求档案馆在保存电子档案的同时还要保存其专门的阅读设备。(3)电子档案的易更改性,电子档案的更改过程不容易被察觉,更改后不会留下任何痕迹,电子档案在传递或更换其他载体时,容易被更改。电子档案的增加、删除、修改都非常方便,给档案的真实性鉴定和保密性带来一定的困难。(4)电子档案对设备和技术的依赖性,档案信息的加工、组织都需要借助一定的设备和软件,还需要统一标准,标准不健全、不统一,容易出现在其他设备和环境下不能读取、不兼容的情况,档案资源不容易进行载体互换。
2? 电子档案管理的难点
2.1? 档案数据的不兼容性。数字档案产生的途径很多,有办公档案、数据档案、照片、文本、视频、声音等各种形式的档案资源,并且产生这些档案的管理系统和应用程序也不一样。这样产生的各种各样的非结构化数据在兼容性上就不好把握。不同类型的档案需要不同的软件才能打开,即使同一种文件在软件升级后也有可能不兼容或者丢失数据。这种不兼容性给数字档案的保存和使用带来很大的困难。
2.2? 档案信息冗余。由于不是完整的数据库文件,各种各样的数字档案资源容易出现重复,数字文件的易复制性决定了其文档备份较多,并且因工作需要可能会不定期地修改,这样就会造成备份的不统一,尤其是手工备份文档,更容易造成数据的冗余,不利于数据的长期维护,容易造成数据不统一。
2.3? 数字档案信息之间的联系弱。很多数字档案是相对孤立的,缺少相对的联系,导致系统没有办法识别两份电子档案的联系和区别。在保证电子档案安全的同时,强化档案关联共享。这种数字档案的独立性容易产生大量的数据孤岛,如果文件的扩展名被修改或者丢失,该文件所关联的程序则会失效,这种情况给电子档案归档带来不少的麻烦。
3? 电子档案管理技术研究
电子档案的管理技术主要分为原生电子档案归档技术和数字化档案归档技术两种。
3.1? 原生电子档案归档技术。原生电子档案主要是指在生活和工作中,直接产生的电子文件,又具有一定的保存价值,形成原生电子档案。原生电子档案归档技术主要有:在线数据收割技术、网络数字资源镜像、白色档案转换技术、fedora档案存贮系统等。
(1)在线数据收割技术:利用开源的原理,采用自动收割技术下载整个网络空间,对其进行抽取和标引,并组织成检索库供用户使用。奥地利国家图书馆和维也纳科技大学联合开发和使用该项技术,目前已经应用到奥地利数字图书馆和网络学习空间。(2)网络数字资源镜像技术:这种技术主要运用主题和事件的方式对网络资源进行选择,并形成档案资源的元数据,包括对多媒体和超文本的采集、标引、存贮并使用,最后运用人工编目的方式,为每份档案创建一条目录。美国国会图书馆开展的MINERVA项目采用的就是这种方式。(3)白色档案转换技术:这种技术主要为了尽量提高档案的利用效率,并且又不破坏数字档案的结构而采用的方法,即对原生的电子档案逐步地仿真和转化,由黑色档案(原始档案)经过保密加工和灾难恢复等工作,转换成灰色档案,最后再经过访问的限定和迁移变成白色档案,供用户使用,既保证了档案的安全,也提高了档案的利用效率。(4) fedora档案存贮系统:这是一套基于linux操作系统的管理软件。其允许数据的录入、删除和修改,通过这个系统可以实现原生数字档案馆藏资源建设,主要由弗吉尼亚大学、赫尔大学、斯坦福大学、耶鲁大学和英国赫尔历史中心共同参与完成,可以通过系统实现电子档案的评价和初审,可以实现档案的病毒检测、自动生成档案清单和信息包,并形成相关的档案访问权限。同时fedora还有数字对象存储库,并配有数字档案的采集和标引系统,主要由英国惠康图书馆开发,包含对不同标准的元数据重新创建、整理和组织,并开发了元数据自动提取和实施方案。
3.2? 数字化档案归档技术。数字化档案主要是指将纸质档案数字化后形成的档案,这种档案的优点是使用的过程中不会对档案本体造成损坏,并且方便多人同时使用。主要有页面自动分析技术、档案数字化技术、多媒体数字档案技术、3D激光扫描技术。
(1)页面自动分析技术,即在数字化的过程中,自动对档案的信息资源进行采集和标引,该技术首先对图像进行预处理,然后提取图片的信息,包括图片的线、背景线、特殊符号、标题和文本等,最后进行文字的识别和重建。希腊国家信息与电子通信研究中心正在研究使用这种技术。(2)档案数字化技术,主要包括纸质档案的初始转换,数据的管理和访问,采用文章逐条、逐页的数据加载方式,自动创建页面级,手动创建文章即元数据的方式,采用SGML DTD(标记通用语言——文件形态定义)来反映,英国的曼彻斯特大学学者正在开发这种模式的归档技术。(3)多媒体数字档案技术,这种技术主要研究了音频档案信号转换的波段分析和恢复、信号提取、副本保存等关键技术,采用半自动的方式从视频和音频中提取元数据以供检索使用。通过检索相似性和曲线对比来对数字资源进行识别,这样减少了数字化抽取过程中的信息丢失,意大利的帕多瓦大学在对这项技术进行深入研究,欧洲的很多国家都是使用这种技术。(4)3D激光扫描技术,这样技术对实物档案数字化有很大的意义,主要是通过三维扫描和模拟,将其存储和开放使用,目前研究这项技术的主要有斯坦福大学、加州大学和中国科技大学,已经取得了初步的成果。
4? 结语
随着数字化进程的加快,数字档案产生的速度越来越快,研究数字档案的归档技术,已经迫在眉睫了,文中介绍了不少的数字档案方面的新技术,这些是数字档案的保存、提取、收录、检索等技术,国内外关于数字档案满足用户的档案信息需求方面需要进一步加深,要以读者服务为宗旨进行开发。
(作者单位:河南牧业经济学院? 来稿日期:2015-08-20)