档案馆保存政府网站策略研究

    石华

    摘 要:本文介绍了政府网站归档的背景,指出网站是政府与公众通过网络交流的证据,保存政府网站是记录政府如何实现电子政府的唯一真实的方法,网站归档应该尽量归档网站上的所有内容。介绍了郑州市档案局馆对于政府网站归档工作进行试点的实践,包括选择归档范围、确定归档时间,介绍了两种归档技术:直接转移和远程采集,并介绍了网站存档格式WARC文件格式。

    关键词:网站归档;政府网站;WARC

    1 网站归档的背景

    互联网给档案工作者带来了许多理论和实践问题。例如,政府网站本身就是电子文件,还是政府网站包含着电子文件?政府网站只是发布信息的平台吗?换句话说,政府网站本身仅仅是另一种出版物吗?随着网络、设备、应用的不断变化,许多政府网站已经变成了政府和公众信息交流的平台。由此,政府网站已经具备了出版物和文件的双重属性。

    在2014年以前,国内很少有档案部门考虑将网站内容纳入归档范围。2014年,杨冬权局长表示要启动为各级国家政府网站网页存档工作,那就对档案部门提出了一个问题:是将政府网站本身作为一个文件归档,还是将其中的某些网页作为文件归档呢?过去档案人员一般认为网站并不是文件,而是包含有文件。根据《电子档案术语》中对电子文件的定义:“电子文件是国家机构、社会组织或个人在履行其法定职责或处理事务过程中,通过计算机等电子设备形成、办理、传输和存储的各种形式的信息记录。”如果政府部门通过网站处理事务,如果用户在做决策时参考了它们,或者如果网站有动态的信息交流,或者如果网站的内容、功能和用户记录具有文件保存价值,那么,网站就包含着电子文件。

    英国国家档案馆对网站文件最初管理方法是运用风险管理方法识别网站中哪些内容属于机构文件,然后确定保管方法,制定管理策略及程序。这种方法仅仅保存网站数据,而不是整个网站,存在信息资源丢失的风险。近年来档案界开始改变对网站的看法,不再将网站仅仅看做文件保存的地方,而将网站本身看做文件,认为网站是政府与公众通过网络交流的证据,保存政府网站是记录政府如何实现电子政府的唯一真实方法,网站归档应该归档网站上所有内容。

    2 郑州市档案局馆对政府网站归档备份工作的实践

    2015年,河南省郑州市档案局馆决定对政府网站归档工作进行试点。

    2.1 确定网站归档范围。在决定收集政府网站之后,我们必须弄清要收集哪些网站。和建立纸质文件归档范围一样,郑州市档案局馆制定了一个收集标准来规定哪些网站需要永久保存。我们决定归档以gov.cn结尾的郑州市所有政府部门、机关单位的网站。许多政府网站更新相对缓慢,对这些网站我们每6个月收集一次,对有些更新较快的网站我们可定为每周收集一次,在网站升级改版的时候必须收集。我们还可根据公众要求收集某些网站,根据重大事件的发生灵活调整网站收集范围。

    2.2 网站归档保存方案。目前,政府所面临的大部分问题都涉及多个部门。未来的人们如果想了解现在的一些事情,仅仅参考某一个政府部门网站是远远不够的,需要利用多个相关的政府部门、非政府组织和个人的网站资源。显然,保存网站是一个跨部门的综合课题,需要集思广益。方案之一便是互联网档案馆(www.archive.org)现在使用的模式,由某一个档案馆负责保存所有的网站。另一种方案是由不同的档案馆分级收集各自管理范围内的网站。最后一种方案就是按需收集。组织一些档案馆就某个专题、某重大事件进行网站收集,如世博会或天津大爆炸事件。总之,保存网站的最终方案也许是上述几种方案的结合。

    2.3 网站归档保存技术。收集网站所需使用的技术也是多种多样的。这些技术可以粗略地分为两大类:直接转移和远程采集。从概念上来讲,收集网站资源最简单的方法就是直接拷贝原数据。这种方法需要网站所有者的合作,允许我们直接访问网站服务器,从服务器上拷贝整个网站的所有文件,并将这些文件转移到网站保存机构。我们可以使用可移动存储介质转移数据,也可以在线收集。

    这种方法相当于在档案馆网站服务器上重新搭建并复制了一个网站,只是网站内容被定格在某一天。这种方法最大的优点是通过精确复制原网站的内容保证了对原有网站最真实的拷贝。可这种方法仍然存在潜在的弊端。首先,这种方法非常耗费时间,并且技术十分复杂,需要再次安装一个完整的资源管理系统,同时还要关闭某些网站内容,如日期显示和计数器等。显然这种方法并不适合大规模保存网站。其次,还必须保持原有的技术架构来支持网站,而这种技术架构可能已经与现在网站的架构不同了。我们希望归档的目标网站应用了各种不同的网站服务器软件、搜索引擎、数据库技术和内容管理系统,由某一家机构来实现这些技术的整合是行不通的。因此,这种方法适用于收集比较简单、数据性的网站,并且是能够跨平台运行的网站。档案馆目前仅针对这类特殊的网站利用这种直接转移的方法进行收集,尤其是对那些生命周期较短的网站进行一次性复制。

    当我们要收集大量网站的时候,我们就会使用远程采集技术。使用网页爬虫软件来模拟网络浏览器,从而实现对网站的远程采集。页面采集列表向网页爬虫传达采集指令。首先,网页爬虫向网站服务器发出访问请求,访问列表上的第一个页面并进行复制保存。网页爬虫会识别该页面所有的超链接并将这些链接加入到采集列表。网页爬虫通过循环记录每个页面的超链接,实现对整个网站所有页面的采集。这个采集程序通常是由一些参数控制的,如网页爬虫所跟踪超链接级数,这个参数可以对采集的范围进行界定。档案部门在操作筛选政策时,可以注明要收集哪些网站,以多长时间为周期对网站进行采集。网站回溯器提供了一个便捷且新颖的访问方式,即重写目标网站所有的超文本链接,而非直接指向原始网站。通过这些重写的链接地址,用户可以在档案馆的系统中浏览当时的网站内容。

    远程采集技术主要优势在于能够高效率和低成本地采集大量网站,各网站数据进入一个总后台,可以跨网站检索。但也有一些缺点。该技术明显局限在于网页爬虫只能采集那些被链接内容,而数据库深层数据和那些只能通过搜索才能访问的内容却不能被采集。该技术不能采集微博、微信等需登录网站,不能采集音、视频。该技术不是备份,不能恢复原网站。

    2.4 网站归档的速度和文件大小。郑州市档案局采用远程采集技术采集政府网站,数据量增长很快。因为网页链接全部重写,系统很难找到增量的点,所以每次均全部采集,无法使用增量采集。举例来说,采集郑州市人民政府、郑州档案信息网等7家单位,耗时28小时,采集网页52万页,采集的文件大小共1.5G。郑州市共约上百家政府网站,都采集下来,其存储容量是惊人的。郑州市档案馆存储共60T左右,就算都存成政府网站,也存不了多长时间。看起来使用云存储是必需的方案了。

    3 网站保存文件格式WARC介绍

    郑州市档案局馆保存的网站采用的存档格式是WARC文件格式,但一般会压缩成gz文件,分卷压缩。WARC (Web Archiving File Format) 网络存档文件格式,2009年5月成为正式国际标准,标准号为ISO 28500:2900。此格式是唯一面向网络资源长期保存的资源保存格式,WARC 格式具有软件生态环境完善、内容丰富、便于管理、易于扩展、支持大容量文件保存等特点,同时适合网络资源和数字资源的长期保存使用[1]。

    WARC 文件可以使用的软件:

    (1)抓取软件:目前最常用的两种采集软件是Heritrix 和GNUWget,面向用户桌面的工具中常用的是WarcCreate 软件。

    (2)文件处理软件:指以保存、交换等应用为目的,对WARC文件进行处理的软件,包括格式验证、切割、组合、元数据抽取等。

    (3)索引、检索与访问软件:可对WARC文件进行索引,用于检索,并提供检索界面,响应用户的检索请求,将检索结果在浏览器中呈现给用户。常用Nutchwax、Wayback Machine、Solr 和Momento。

    (4)综合管理软件:集成了采集、管理、索引和发布等流程,便于保存机构快速开展网络存档活动。其中较知名的是新西兰和英国图书馆开发的Web Curator Tools和荷兰图书馆开发的NetArchiveSuite。

    截至2014 年7 月,英国图书馆互联网存档项目已经保存了24TB 的网络资源,法国国家图书馆保存了450TB的网络资源,澳大利亚图书馆的Pandora项目数据量也达到了12. 22TB。这些资源都以WARC格式保存。美国国家档案馆发布的文件进馆格式指南,也将WARC文件格式列为可接受格式[2]。郑州市档案局馆进行政府网站存档工作,也采用这一格式,这是符合国际潮流的。

    参考文献:

    [1]曲云鹏.网络存档文件格式WARC研究[J].图书馆学研究,2014(24):20~28.

    [2]http://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html#webrecords

    (作者单位:郑州市档案局 来稿日期:2015-10-20)