图像电子文件的归档格式及其转换研究

    夏伟伟+张照余

    摘 要:本文从来源、压缩编码标准、兼容性、原真性保存等方面分析了主流图像文件格式的归档属性,进而推荐JPEG、TIFF、PDF为档案长久保存格式;从开发者、软件免费开源情况、版本更新情况、格式支持等角度研究了常用图像处理软件,优选出适合作为图像文件归档格式转换工具的软件;在反复实验的基础上,梳理出图像文件格式转换通道,同时对格式转换过程中可能出现的问题作了说明。

    关键词:图像文件;格式转换;电子文件

    1 图像文件格式的归档属性分析

    图像文件作为多媒体电子文件归档,必须保证其原真性。理论上,图像文件应采用未压缩或无损压缩的图像格式进行保存。但采用未压缩或无损压缩的图像格式保存图像文件时,大量图像文件会占用巨大的存储空间,欠可操作性。而事实上,正是压缩技术的完善与发展,使数字化存储和网络传输成为可能[1]。因此,图像文件归档,要兼顾原真性和图像文件磁盘占用空间。

    此外,操作系统、应用软件的种类繁多与频繁升级,都给图像文件可识读性带来了挑战。这要求图像文件归档时,优选标准化程度较高的开放格式;工具软件支持较多、业界广泛使用的主流格式;对技术环境的独立程度较高、对不同应用系统兼容性较好的可移植格式。

    基于此,对几种主流图像文件格式作如下归档属性分析(见表1)。

    除此之外,常见的图像格式还有PSD 、PCX、TGA、JPEG XR、JPEG 2000等。

    综合上述图像文件格式归档属性分析,推荐JPEG、TIFF、PDF为通用档案格式。中华人民共和国国家标准GB/T18894-2002指出,“对用扫描仪等设备获得的采用非通用文件格式的图像电子文件,收集时应将其转换成通用格式”[2]。

    2 图像处理软件及其对应的图像文件格式

    对图像文件格式进行转换,需要借助于特定的图像转换工具,即图像处理软件。图像处理软件分为图片查看器和图片编辑器。图片编辑器的体积通常大于图片查看器,功能较图片查看器也更多。表2是常用的图片查看器,表3是常用的图片编辑器。

    图像处理软件对常用图片文件格式支持情况见表4。为了简单明确地表达笔者的想法,笔者对本文中出现的“图像处理软件的格式支持”作如下说明:如果A图像软件可以读取B格式图像,且B格式图像可以通过A软件被转化为另外一种具有可读性的常用图像格式,那么则称A图像软件支持B图像格式。

    备注:表中的RAW格式以DNG为例,DNG是一种开放的RAW格式。

    3 归档图像文件格式转换通道

    全面考虑图像处理软件的开发团队、公开发行时间长短、免费与否、软件更新情况、系统兼容性、格式支持、格式转换性能,从常用图像处理软件中优选出8款图像处理产品:ACDSee;IrfanView;XnView;美图看看;QQ影像;Adobe Photoshop;Corel Photo-Paint;格式工厂。

    给出JPEG、TIFF、PDF、RAW(以DNG为例)、BMP、GIF、PNG等十种常见图像文件格式用这些软件进行格式间转换的路径。

    备注:①代指“ACDSee” ②代指“IrfanView ”③代指“XnView ”④代指“美图看看” ⑤代指”QQ影像” ⑥代指“Adobe Photoshop” ⑦代指“Corel Photo-Paint” ⑧代指“格式工厂”

    备注:①代指“ACDSee” ②代指“IrfanView ”③代指“XnView ”④代指“美图看看” ⑤代指”QQ影像” ⑥代指“Adobe Photoshop” ⑦代指“Corel Photo-Paint” ⑧代指“格式工厂”

    图3是常见格式转换为PDF格式的转换通道。

    备注:①代指“ACDSee” ②代指“IrfanView ”③代指“XnView ”④代指“美图看看” ⑤代指”QQ影像” ⑥代指“Adobe Photoshop” ⑦代指“Corel Photo-Paint” ⑧代指“格式工厂”

    4 归档图像文件格式转换中若干问题说明

    4.1 元数据保存问题。所谓元数据,是指描述电子文件数据属性的数据。国内档案行业已经形成关于文书类电子文件元数据的DA/T 46-2009标准,而并无图像电子文件元数据的统一标准。然而,中华人民共和国档案行业标准DA/T 50—2014指出,“归档的数码照片应是用数字成像设备直接拍摄形成的原始图像文件,不能对数码照片的内容和EXIF信息进行修改和处理”[3]。因此,我们在进行图像格式转换时,要保留图像原有EXIF信息。此外,IPTC元数据作为对图像文件进行描述的一种标准格式,在图像格式转换过程中,也要尽可能保存。

    4.2 可读性问题。图像电子文件作为档案保存,必须具有可读性。图像格式转换过程中出现的可读性问题,可以通过以下几种方式解决。第一,安装插(下转26页)件。例如,可以通过安装插件使IrfanView对PDF图像具有可读性。第二,更换读取软件。例如,同一个通过转换格式得到的PDF文件,可能IrfanView读取效果远远不如Adobe Reader。第三,更换格式转换工具。例如,用Adobe Photoshop CS6转换含有文字的PDF文件时,读取形成文件会出现“黑点”,而使用IrfanView对其转换,则能很好地规避这个问题。第四,通过选择不同的兼容性。例如,将常用格式转换为PDF时,会出现PDF图像无法读取的情况,可在格式转换过程中弹出的“PDF设置”对话框中,选择不同的兼容性来解决。

    4.3 内容原真性问题。不同于传统文件,电子文件的原真性对载体和文件记录形式的依赖性大大降低,电子文件原真性更多是指文件内容的真实可靠[4]。图像内容原真性,落脚到图像文件格式转换上来,就是要保证图像格式转换之后,分辨率、尺寸、清晰度没有太大变化。可以从两个方面对其加以控制:第一,在图片格式化转换过程中,通过设置分辨率、尺寸、压缩比来保证。第二,在通过设置具体参数很难实现的情况下,可以更换转换工具。例如,格式工厂对DNG进行格式转换时,图像尺寸、质量下降明显,而改用ACDSee后,图像尺寸不变、质量几乎无变化。