电子文件长期保存格式探析
毛义春
电子文件格式是指将信息以某种格式进行编码,而且只有依靠特定组合的软硬件方能对文件实施读写操作。随着信息化建设的发展,已有的电子文件格式很多,新的格式也不断产生。因此,为了确保电子文件的长期存取,档案部门作为永久保存电子文件的基地,应采取各种措施积极应对这种挑战。
一、电子文件内容、形式及常见的格式
电子文件是指在数字设备及环境中生成,以数码形式存储于磁带、磁盘、光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的文件。它主要包括电子文书、电子信件、电子报表、电子图纸等等。按载体划分,可以把电子文件分为光盘文件、硬盘文件、软盘文件和磁带文件;以数据的表现形式为划分标准,有字符文件、表格文件、图文混排文件、数据库文件、图形文件、动态影像文件与声音文件等;以属性为划分标准,数据库文件又有FOXBASE(动态数据基地)数据库、FOXPRO(“京通”软件应用的)数据库、ACCESS(通路)数据库、ORCAL(“灵通”软件应用的)数据库等。
按电子文件的格式划分,有数字文本文件 、数字影像文件、数字图形文件、数字语音文件、数字视频文件。文本文件常见格式有XML、TXT、UOF、RTF、WPS、PDF/A、CEB、SEP;图像文件常见格式有TIFF、JPEG2000、JPEG、GIF、PNG、DjVu;音频文件常见格式有WAV、MP3、WMA、OGG Vorbis 、FLAC;视频文件常见格式有AVI、MOV、MPEG等。
二、电子文件长期保存格式选择存在的问题
选择专用媒体或是专用存储格式将来会导致数字存储问题,例如媒体格式。选择专用媒体格式存储电子文件,必须考虑将来该格式的过时问题。再例如文件格式。为了确保电子文件的长期存取,如果采用专用的文件格式,会由此增添更大的复杂性。专用软件的应用常常升级至最新版本,然而软件的功能却没有像版本变化那么明显。随着时间的过去,文件格式累积的变化更为显著,甚至危及格式逆兼容。对遗产软件的维护显得很急迫,但是存在的问题颇多。就像应用软件一样,操作系统也得定期升级,随着系统基本体系结构的发展,将来不再支持遗产软件,不对遗产软件支持就意味着产生新的安全问题的风险也在增加。
三、电子文件长期保存格式的选择标准
1、按格式种类分析
要作为文本型电子文件的归档格式,马春茂①认为应该符合下列条件:(1)应该是公开的格式,不依赖特定的系统和软件存在,能够在可以预见的时间内被正常读取;(2)应该保持文件生成时的排版格式,即使经过办公软件的不断升级,也能输出同纸质文件一样的格式;(3)应该便于数据交换、便于查找和检索;(4)应能保证电子文件在处理过程中不被篡改和窃取。
为了对数字资源实施长期保存,对保存图像格式的选择尤其重要。叶新民②认为应满足格式使用的标准化和广泛性;格式应是公开的,而非私有的,而且应公开已出版的技术资料;格式应支持元数据;格式应对存储介质无依赖性等要求。
对于数码录音的电子文件长期保存格式,张文浩③认为应支持真实性验证技术、数码音质无损、文件格式开放透明、不绑定软硬件、格式自描述、格式自包含、易于存储、格式紧凑、信息安全、代价最小等要求。
数字摄像(DV) 、数字电视(DTV) 和网络视频系统的广泛应用以及对现有模拟视频的数字化, 视频电子文件的数量和类型不断丰富。项文新等④提出从保证视频文件的原真性和档案保管利用的便捷性出发选择合适的视频电子文件归档格式,认为视频电子文件应尽可能保证视频文件的原真性。
2、综合性分析
对于长期保存人类文化遗产的档案馆、图书馆, 最关心的是数字信息的内容不得丢失。刘家真⑤针对电子文件保存格式的选择问题,认为该格式能在不同的环境下使用;应是通用的、非专用的格式;支持数据从专用格式的环境中移出;最好是标准格式;被业界或用户广泛支持;具有可扩展性;可真实完整地被用户读出并理解, 无论何时何地, 用户所查到的该文件信息都与该文件最初情况完全一致;具有自身的可证明性;具有可评价性。
档案是历史的真实记录,具有凭证价值与情报价值。李泽锋⑥认为档案数字化过程中选用电子文件格式应考虑:保持档案原貌,利于网络平台下的传输交流,具有一定的标准性,具有较好的通用性和可移植性,选用电子格式的支持软件应支持数据从专用格式中方便地移出。
为了应对电子文件长期保存的需求,Adrian Brown⑦对电子文件长期保存格式的选择标准进行了积极的探讨,认为应具备开放标准、普遍性、稳定性、对元数据支持、互操作性、可生存性、真实性、可处理性、固定显示等9个条件。
3、笔者的理解
电子文件的格式选择是由电子文件创建过程的操作要求和电子文件长期存取的要求所决定的。综合各位学者的观点后,笔者认为电子文件长期保存格式的选择标准应具有以下几点:(1)开放性。格式开放,有公开发表的相应标准和技术规范,有与产品无关的技术专家组和标准化组织支持该格式。(2)标准性。该格式被广泛使用,具有自由使用的技术规范,可转换性高,支持保存元数据。(3)稳定性。不会随着时间的推移而作重大的变更,而且新版本的格式也应该能够做到逆兼容。(4)广采性。数字格式的广采性包括个人电脑随机软件包、Web浏览器的本地化支持、数字产品格式易转换等。软件厂商对创建良好和广泛使用的格式往往要比仅仅瞄准新市场的格式具有更宽泛和更长久的支持。流行格式会尽可能多地受到软件厂商的支持,人们可能更喜欢采用。(5)软硬件平台的独立性。被多种操作系统和应用软件支持。支持多种存储技术,或与存储技术无关。当用户不能使用指定产品软件时,可使用已有的插件读取。使用与设备无关的颜色规范实现准确打印和再现,不必考虑软硬件平台。(6)真实性。电子文件的真实性要求保留“原貌”(例如字体、颜色和外观),数据迁移要求选取的文件格式能够保留文件“原貌”。(7)可利用性。要确保电子文件可读、可利用。
四、几种适于长期保存的电子文件格式
1、 PDF/A格式
PDF格式规范已经公开,并可免费获取,具有广泛的支持性。该格式具有与平台、字体无关的特点,解除了电子文件与操作系统的依赖关系,用户可以通过它的通用浏览器Adobe Reader在Windows、UNIX、Mac等任一系统平台上原版原式地读取PDF文档,不受操作系统、网络环境、应用程序的版本、字体的限制,从而从电子文件自身的角度保证了电子文件的可读性。PDF格式所具有的高度兼容性使用户可以轻松地将任何文档原版原式地转换成PDF文档,进而固化信息,使之不易更改,保持了原文档信息内容和结构的完整、真实,为不同软件生成的电子文件提供了一个可完整迁移其信息内容的统一文件格式。PDF/A-1a实现了对文档逻辑结构的保存和以自然阅读顺序保存文本。PDF/A-1b可实现对文本和附加内容的正确显示。在各国政府机构包括美国、英国、德国、新加坡、印度、澳大利亚等的电子政务领域中,PDF格式也被广泛应用。综合来说,PDF/A格式的特点是支持数字签名、格式开放、不绑定软硬件、格式自包含、格式自描述、固定显示、不包含加密、可向其他文本格式转换等。
2、TIFF格式
TIFF(标记图像文件格式)是由Aldus和Microsoft公司为桌面出版系统研制开发的一种灵活的位图图像格式,用于应用程序之间和计算机平台之间交换文件。实际上已被所有绘画、图像编辑和页面排版应用程序所支持,而且几乎所有桌面扫描仪都可以生成TIFF图像。TIFF支持多种编码方法,其中包括RGB无压缩、RLE压缩、LZW压缩、ZIP压缩、CCITT压缩等,6.0版本又增加了JPEG压缩选项。TIFF 格式由于存储图像质量高非常有利于原稿的复制。另外,所有绘画、图像编辑和页面排版应用程序以及大多数扫描仪对TIFF 格式都提供良好的支持,这使得TIFF格式成为数字图像处理的最好选择。
3、JPEG2000格式
JPEG2000于2001年正式成为国际标准。JPEG2000完全采用小波变换代替余弦变换,与JPEG相比,具备了更高的压缩比以及更多新功能。在文件大小相同的情况下,JPEG2000压缩的图像比JPEG质量更高,其压缩率比JPEG高30%左右,精度损失更小。
JPEG2000的特点是⑧:
(1)同时支持有损和无损压缩,而JPEG只能支持有损压缩。(2)能实现渐进传输,先传输图像的轮廓, 然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。(3)支持对图像中细节较多或较为感兴趣的区域进行高精度的无损编码、很强的容错性、支持水印等。(4)JPEG2000的许多优点和新的功能都是建立在复杂的计算与较大的缓存基础上,因此其速度与JPEG相比要慢许多。
4、FLAC格式
FLAC 属于无损音频压缩文件格式(文件名为.flac)。⑨FLAC 格式文件较小,便于播放。OGG 计划支持FLAC,也可将FLAC 音频数据封装在OGG 传输层中,生成OGG FLAC 格式文件(文件名为.ogg)。OGG FLAC 格式文件较大(比OGG Vorbis格式文件大得多),便于传输、编辑、播放。该格式的特点是支持真实性验证技术、数码音质无损、文件格式开放透明、不绑定软硬件、文件格式自描述、格式自包、易于存储、信息安全。
5、MPEG格式
MPEG即Moving Picture Expert Group(运动图像专家组),用该编码器编码的影音文件扩展名可以是MPG、MPE、MP4、M1V、M2V等,其中M1V和M2V都表示该影音文件中不包含音频部分,只有视频部分。这种格式也流行了很长时间。未压缩的AVI格式文件经MPEG-1、MPEG-2和MEG-4等编码压缩后,图像容量大幅度缩小,画质则降低不大,而且图像质量视编码参数而定。该格式具有压缩算法公开、不绑定软硬件、易于转换等特点。
五、电子文件永久可读性问题
文件格式种类繁多,打开方式多种多样,产生它们的软硬件环境也多种多样。对于一代又一代不同系统中生成的各种格式的电子文件,必须确保人类能够阅读,否则保存就失去了应有的意义。解决该问题的办法有:(1)不断地将文件转换成当前通行的新文件格式,使之不至于因为软硬件平台的过时而无法阅读。(2)采用一定的独立于任何计算机系统的统一格式存储文件。(3)将电子文件连同生成该文件的软件及其运行该软件的操作系统和硬件一道保存起来。当然这些方法都还不是解决电子文件永久可读性问题的万全之策。我们在实践中只能在以上方法中选择损失信息较少,可行性较大的方法来作为现阶段的对策。目前,大多数人选择了第二种方法,他们舍弃了对原文件结构、格式的追求,而重点强调对原文件内容的忠实再现,在可能的范围内使用较为通用的编码格式。而对于那些特殊的,没有标准格式的电子文件采用第三种方法,暂时将其支持系统一并保存下来,等待有关标准的出台。另外,在目前电子文件数量较少的情况下,采用第一种方法也是可行的。
六、结语
如今数字技术飞速发展,数字信息的可存取性却变得非常脆弱。电子文件采用可长久存取的文件格式的优越性惠及数据创建者、数据管理者和电子档案工作者。因此,对于电子文件的格式问题,不仅需要电子文件制作者,还需要负责电子文件管理和长久存取的所有人员都特别重视,积极采取措施确保电子文件的长期存取。
注释:
①马春茂:《电子文件归档格式思考》,《北京档案》, 2007年第7期:28-30。
②叶新民:《数字资源长期保存中的图像格式选择分析》,《图书情报工作》,2006年第5期:115-117。
③张文浩:《数码录音电子文件长期保存格式研究》,《黑龙江档案》,2009年第2期:6-7。
④⑨项文新、张照余:《视频电子文件的归档格式研究》,《档案学研究》, 2006年第4期:52-56。
⑤刘家真:《文件保存格式与PDF文档》,《档案学研究》, 2002年第2期:46-51。
⑥李泽锋:《档案数字化的电子格式研究》,《档案学研究》,2004年第5期:51-55。
⑦Adrian Brown:《Selecting File Formats for Long-Term Preservation》, http://www.nationalarchives.gov.uk/documents/selecting_file_formats.pdf。
⑧尹露娟、苑津莎、郭增为:《静态图像压缩技术的研究》,《中国多媒体通信》, 2009年第7期:47-49。
作者单位:江铜集团德兴铜矿档案馆