基于云计算的政府网站网页在线归档管理平台构建研究
摘要:将云计算应用到政府网站网页的长期保存中,发挥其技术与管理优势,能够高效率、低成本地实现海量政府网页的在线归档和集成管理。文章依据文件生命周期理论、OAIS参考模型等理论,设计了政府网站网页在线归档的业务流程。在此基础上,文章结合云计算服务体系结构,界定了云环境下政府网站网页归档的逻辑体系,并依此构建基于云计算的政府网站网页在线归档管理平台,平台具有云上在线采集、云下数据管理、云中资源保存、云端访问利用等重要功能。
关键词:云计算政府网站网页存档长期保存
Abstract: Applying cloud computing to the longterm preservation of government website pages, le? veraging its technical and management advantages, it can realize massive government web pages online archiving and integrated management with high effi? ciency and low cost. According to the theory of docu? ment life cycle and OAIS reference model, this paper designs the business process of government web? site pages online archiving. On this basis, combined with the architecture of cloud computing services, de? fines the logical system of government website pag? es archiving in cloud environment, and builds a cloud- based online archiving management platform for government website pages, which has important functions such as online cloud collection, data man? agement under cloud, resource preservation in cloud, and cloud access utilization.
Key words: Cloud computing; Government web? site; Web archive; Long-term preservation
近年來,随着我国政府信息公开工作的不断推进,政府部门主动公开信息的范围和深度日益扩大,越来越多的政务信息通过政府门户网站以网页的形式创建、发布、传播和利用。这些网页作为互联网时代政府行政过程的真实记录,具有重要的追溯凭证、决策参考与科学研究价值。然而,由于网络资源的易消失性、动态不稳定性,大量以“孤本”形式存在的政府网页会因网站的整合迁移、改版更新等操作面临“丢失”“无法显示”的风险。2017年国务院办公厅印发了《政府网站发展指引》的通知,要求各级政府网站做好网页归档工作。[1]如何有效实现具有保存价值的政府网站网页的长期可存取已成为当前政府面临的新挑战和学界探索的新课题。
云计算作为一种新型的IT服务资源,应用日益广泛,它所采用的集约化、虚拟化、分布式计算等绿色节能技术,以及即插即用、动态架构、智能运作的服务方式,能高效、低成本地实现政府网站网页的在线归档和集成管理。[2]本文将“云计算”创新性地应用到政府网站网页的长期保存中,发挥其技术、管理与成本优势,突破原有的网络资源归档管理平台建设模式,构建基于云计算的政府网站网页在线归档管理平台,为大数据环境下政府网站网页长期可存取问题的解决提供新思路和新方案。一、政府网站网页在线归档的业务流程设计
政府网站网页是政府部门在履行行政职能和处理行政事务过程中,利用其门户网站创作或接收的具有特定内容、结构和背景信息的原始记录,它符合文件的基本特征,是政府电子文件的重要组成部分。[3]因此,指导电子文件归档管理的文件生命周期理论、开放档案信息系统(OAIS)模型等同样适用于政府网站网页的归档管理。根据文件生命周期理论,可以将政府网页的创建、发布、获取、存档、利用等视为一个完整的生命过程。OAIS模型是当前国际上公认的实现电子文件等数字资源长期可存取的标准参考模型和基本概念框架,其功能结构包含信息采集、数据管理、资源存储、系统管控、保存规划、访问利用等模块,不同功能模块之间以信息包的形式对资源内容信息和保存描述信息等信息对象进行传递,从而实现归档资源的长久保存与利用。[4]基于以上分析,参照政府网站网页的生命运动规律,以及OAIS模型的标准业务与功能逻辑,可将其归档流程划分为采集、分类、著录、鉴定、保存、利用等主要阶段,每个阶段的任务各不相同。
(一)网页采集
网页采集作为政府网站网页在线归档的首要环节,就是利用相关工具,以既定的频率和方式,及时选择值得保存的政府网页内容。网页采集的第一步是要确定采集对象,政府网页归档保存的信息采集对象是域名中含有“gov.cn”的政府网站,为确保政府网页的采集质量,需要对目标网站进行评价,将那些信息规模大、原生性信息多、更新频繁的政府网站选定为采集对象。[5]在确定要采集的目标政府网站之后,还应根据实际需求选择相应的采集方式。完整性采集和选择性采集是目前比较常用的网络资源采集方式,它们各有优缺点,为了弥补其各自的不足,可以实现两种采集方式的优势互补,采用融合二者优点的混合型采集方式,在对选定的政府网站中所有网页进行完整性采集的同时,通过人工干预的方式对网页内容进行甄别,对其中有证据价值、历史价值、研究价值的重要网页,有选择性地进行深层次的频繁采集,这样既考虑到了政府网页采集面的广度,同时又照顾到了重要网页采集的深度。而网页的采集与捕获最终还需要依靠相应的网络爬虫工具来实现,目前面向网页存档的爬虫工具比较多,其中Heritrix、HTTrack最为常用,可利用这些工具来有针对性地完成对目标政府网站网页的自动批量在线采集。
(二)数据管理
利用网络爬虫工具从不同目标政府网站中采集获取的网页是海量且无序的,还应对其实施整理、分类、著录、编目、鉴定等数据管理操作,实现信息的规则排序,使其具备增值的潜能,为后续的资源存储和访问利用奠定基础。[6]首先,资源分类。根据采集网页资源的特点,可以按照来源机构、资源主题、格式类型等分类标准,将其中具有某种共同属性特征的网页资源进行归类和整合,建立规范统一的政府网站网页资源分类体系,通过不同类别的属性特征来对海量的政府网页内容进行区分。其次,编目著录。对分类后的网页资源还应基于统一的元数据标准对其内容及结构、来源、背景等特征进行揭示和描述,并在相关元数据之间建立联系,形成政府网站网页资源目录体系,实现对海量无序网页信息的序化组织。最后,鉴定整理。政府网页的鉴定整理主要包括内容的识别以及内容的可用性判断,其中内容的识别就是确保实现政府网页长期可存取的元数据、保存策略等信息要素齐全。内容的可用性判断即是通过人工干预来对政府网页的形成背景、内容质量、重要程度等属性特征进行全面分析,并根据保管期限表对要归档的政府网页标记相应的鉴定标识。
(三)资源保存
资源保存是实现政府网站网页在线归档的核心,与静态的数字资源存储不同,政府网页资源结构复杂且动态增长,其复杂性、动态性、技术依赖性强等特点对存储管理提出了挑战,它更依赖能够满足海量归档网页资源的动态存储需求及长期可访问要求的长久保存策略和相应的存储架构。[7]在长久保存策略的设计上,通常可根据归档网页资源的类型和结构,有针对性地选择数据加密、检测、备份、迁移、仿真、封装等相结合的长期保存技术策略,确保归档网页资源的安全、完整、可靠及长期可用。在存储架构的选择上,可以在当前数字资源长期保存采用的直接连接存储、网络连接存储等传统存储架构的基础上,引入云存储技术,将分布在网络中的数据仓库、数据库、文件存储系统等不同类型的存储设备“联合”在一起,利用云存储的分布式存取和存储节点可动态扩展的技术优势,以及云存储服务端提供的数据备份、容災处理、数据加密等安全保障机制,实现对海量归档政府网页资源的实时动态存储和长期安全保存。
(四)访问利用
访问利用是政府网站网页在线归档要完成的最后一个环节,这既是归档的最终目的,也是归档的价值所在。通常可以提供以下几种服务方式,来将归档的政府网页提供给用户使用。一是检索查询。浏览检索是用户访问和获取存储资源的基本服务,为了方便用户快速、准确地找到所需的资源,需要提供功能完善的检索系统。二是网页还原。可利用网页重现技术将归档存储的网页内容以其原有的样貌呈现给用户,即当用户访问政府网站遇到网页无法链接或无法显示等错误信息时,将被自动定向到对应的归档网页链接地址,以还原归档网页的原始内容。三是决策参考。利用大数据分析、Web挖掘等技术对归档的海量政府网页进行深度的数据挖掘,获取隐含其中的有用知识,为用户决策提供参考。四是可视化分析。利用数据可视化组件、工具和技术,将归档存储的海量政府网页数据分析结果以可视化图形或图像的形式呈现。二、基于云计算的政府网站网页归档的逻辑体系
云计算是在网格计算、分布式计算、并行计算的基础上发展形成的一种新的计算模式,其核心思想是遵循数据资源即服务(DaaS)、软件即服务(SaaS)、基础设施即服务(IaaS)、平台即服务(PaaS)、创新管理即服务(MaaS)、渠道即服务(CaaS)等新生的服务理念,利用先进的网络技术整合大量计算、存储等IT资源,通过对IT资源的集成共享与便捷利用,使终端用户摆脱烦琐的资源管理和系统建设,只需专注于业务。[8]基于云计算的思想,政府网站网页归档的逻辑体系可以分为云技术、云业务、云服务三个层次,如图1所示。
(一)云技术
利用虚拟化技术和分布式资源调度程序将服务器、存储设备、网络设备、安全防护设备等硬件资源连接起来,并进行逻辑分割,形成可以动态管理、统一调度的“资源池”,通过物理资源的集成共享,为政府网站网页归档业务流程的实现提供所需的计算、存储、服务等IT资源;进而通过整合政府网页归档所需的基础设施、平台及软硬件资源,使归档工作专注于网页采集、数据管理、资源存储、访问利用等业务操作和管理,而非归档系统的构建和维护,实现政府网站网页归档系统的云端部署与自由访问。
(二)云业务
参照电子文件归档的相关标准规范,对政府网站网页归档的业务流程进行拆分和封装,使业务流程具备可复制、可重组和可迁移的特性。在此基础上,采用基于弹性部署的云计算业务处理中间件及其提供的API接口,通过数据交互、资源共享、动态拓展、智能运作等方式实现政府网站网页归档相关应用程序的整合,并对云技术支撑的网页采集管理、元数据管理、保存策略管理、数据安全管理、访问利用管理等业务逻辑实施协同管理,从而实现政府网页归档流程的业务协同与云端处理。
(三)云服务
对政府网站网页归档的体系结构与业务流程进行解构、标准化,在云技术与云业务支持下,重塑政府网页归档的资源组织、流程部署和管理方式,使其可以实现按需弹性调度和分配。同时通过构建面向终端服务的浏览器/服务器模式,解决“云端”用户获取系统提供的各项业务功能服务问题。基于该模式可将系统应用程序的流程管理、资源分配、业务处理、数据存取等操作集中在云业务层进行处理。用户利用各种终端设备,通过浏览器即可获得相应的网页采集、管理、保存、利用等业务服务。三、基于云计算的政府网站网页在线归档管理平台构建
(一)平台构建的思路
目前学术界关于云环境下数字资源归档系统的构建主要借鉴OAIS模型的分层思想对系统进行设计,[9][10][11]这种思路是按照OAIS模型的功能实体与云计算服务体系结构之间的逻辑映射关系来设计的。该思路的层级维度比较清晰,可较为系统地反映数字资源归档过程中各个环节的功能要素与业务流程。在实践层面,国外已经有存储机构将云计算应用到网络资源的长期保存中,并构建了相应的网络服务平台,Fedorazon、DuraCloud是其中两个有代表性的项目,这些平台利用云环境下的各种服务资源实现了归档网络资源的实时归档、全程控制、长期存取及创新服务功能,主要包括采集、保存、访问、再利用和云分享等。以上这些理论研究与实践探索成果为平台的构建提供了重要参考与指导。
(二)平台的体系架构
在以上研究内容的基础上,笔者根据云计算服务体系结构,参照国内外相关的行业标准规范,结合上述政府网站网页在线归档的业务流程,以及云环境下政府网站网页归档的逻辑体系,设计如图2所示的基于云计算的政府网站网页在线归档管理平台的体系架构。
1.基础设施层。作为平台建构的基础,基础设施层主要提供政府网站网页在线归档各业务流程所需的网络、计算、存储等IT资源。该层利用虚拟化技术对现有的物理设备资源进行逻辑分割,形成可管理、可调度的虚拟IT资源,从而将一台服务器上的资源,合理分配给多个虚拟服务器,通过物理资源的共享提高平台的整体运作效率,保障平台应用层各类应用程序的最佳运行状态。同时由于操作系统与硬件环境相互独立,使得隶属于不同操作系统的虚拟机,可以在相同的物理环境下独立运行,从而方便各节点资源的全面互联与统一调度管理,以实现较高的计算性能,满足政府网页在线归档不断增长的计算与存储需要。
2.平台层。该层作为整个平台的核心部分,包含数据库与业务逻辑两个部分。为了有效应对政府网页存档面临的海量存储及存档数据的高效存取问题,该层基于分布式数据存储管理系统,应用数据访问组件,为政府网站网页采集、管理、保存、利用等业务功能的实现提供相应数据库的数据存取服务。平台层还提供应用程序运行、监管与维护等相关的服务,包括中间件管理、元数据管理、格式转换、数据封装、策略管理、数据检查、备份恢复、迁移管理、安全控制和归档管理等。此外,该层所提供的API接口能够实现现有应用程序的整合以及新应用程序的加载,进而可支撑整个平台应用功能的扩展。
3.应用层。该层以人机交互接口的形式为用户提供政府网站网页归档涉及的信息采集、数据管理、资源保存、访问利用等各项业务相关的服务内容。应用层的主要作用就是将平台层中的各种业务功能和各类数据库中存储的政府网页数据以统一的人机交互方式呈现给用户,通过为用户提供简单便捷的操作界面,方便用户获取所需的服务信息。同时,该层还提供可扩展的应用服务接口以及用户管理、权限管理等通用的管理服务,并根据需要为不同类型用户提供相应的应用接口,实现平台的差异化功能服务。
4.表现层。表现层是平台的最后一层,也被称作门户平台,它直接面向用户提供各类Web服务,用户可以利用各种联网的终端设备登录平台门户网站,通过瀏览器即可在权限允许的范围内直接访问平台应用层提供的各种服务,获取平台层数据库中存储的信息。而且与传统的网络平台不同,该平台的表现层可以利用云计算高效的数据处理能力,将复杂的计算交由云端处理,极大降低了平台对终端设备的要求。这样用户所使用的访问设备只需具备简单的交互功能即可获得快速的平台服务响应,从而能够拥有良好的访问体验。
(三)平台的功能模块
与传统的数字资源长期保存系统一样,基于云计算的政府网站网页在线归档管理平台也同样具备采集、管理、保存、利用等基本业务功能。
1.云上在线采集功能模块。该模块利用能够兼容多种数据格式的云端数据采集接口,基于一站式云服务模式,在线完成对政府网站上的文本、图像、音频、视频等不同类型网页资源的采集任务,对采集获取的网页资源进行统一格式转换处理,将其批量保存到采集数据库中。该模块通过新增监控与变动监控实时更新获取目标政府网站的最新数据,确保网页采集的质量。同时采用数据加密、安全传输协议等方法保证网页传输安全,确保网页数据真实、完整、可信和可用。
2.云下数据管理功能模块。该模块主要包括内容管理与元数据管理两大功能。其中内容管理的功能是对云端在线采集获取的各类政府网页进行线下的分类、著录、标引、编目、鉴定整理,即按照设定的分类方案,对采集获取的海量政府网页进行自动分类,然后将添加元数据描述信息的政府网页保存到相应的管理数据库。元数据管理的功能则是通过确定元数据元素以及元数据的格式,明确政府网页内容、结构、背景和管理过程等信息与元数据之间的关系,在相关元数据之间建立联系,实现元数据信息的序化组织,确保政府网页信息能够长期可利用。
3.云中资源保存功能模块。该模块基于云存储动态易扩展的技术特性,通过调用云存储服务端的应用程序,对其存储集群中相应数据库进行数据的插入、删除、修改等操作,实现对海量政府网页资源的实时动态归档保存。此外,该模块还具备存储数据的云备份、云迁移等功能,能够根据存储数据的更新情况,利用云存储数据加密、云端数据隔离访问、完整性验证及可用性保护等方法,定期进行存储数据的在线备份和迁移等处理,确保云环境下归档政府网页数据的长期安全保存。
4.云端访问利用功能模块。该模块以浏览器/服务器方式为用户提供归档政府网站网页的云端利用服务。通过该模块,用户可以通过浏览器直接访问云平台,在权限许可的范围内,查询、浏览、批量下载所需的归档政府网页数据,并能够利用辅助决策的数据挖掘、数据分析等功能,实现对归档网页信息的在线统计分析与深度挖掘。同时为了实现归档政府网页资源的开放共享和高效利用,该模块为用户之间及用户与管理员之间提供了在线交流的机制,进而实现资源共享、参考咨询等多种服务方式。
*本文为国家社会科学青年基金项目“基于云计算的政府网站网页在线归档与开发利用研究”(项目编号:18CTQ040)研究成果之一。
注释及参考文献:
[1]国务院办公厅.国务院办公厅印发《政府网站发展指引》[EB/OL].[2019- 07- 23].http://www.gov.cn/ zhengce/content/2017-06/08/content_5200760.htm.
[2]王萍,黄新平,陈为东,等.政府网站原生数字政务信息云归档模型及策略研究[J].情报理论与实践,2016,39(4):60-65.
[3]王熹.网站文件归档问题的若干思考[J].中国档案, 2017(10):68-69.
[4] The Consultative Committee for Space Data Sys? tems. OAIS Reference Model [EB/OL].[2019- 07- 28]. https://public.ccsds.org/pubs/650x0m2.pdf.
[5]李宗富,黄新平.基于5W2H视角的政府网站信息存档研究[J].档案学通讯,2016(2):68-72.
[6]何欢欢.政府网站信息资源保存体系研究[D].武汉:武汉大学,2010.
[7]黄新平.基于集体智慧的政府社交媒体文件档案化管理研究[J].北京档案,2016(11):12-15.
[8]牛力,韩小汀.云计算环境下的档案信息资源整合与服务模式研究[J].档案学研究,2013(5):26-29.
[9]刘准.政府网络信息存档策略研究及系统实现[J].中国档案,2017(12):60-61.
[10]Yan Han. Cloud storage for digital preservation: optimal uses of Amazon S3 and Glacier[J].Library Hi Tech, 2015, 33(2): 261-271.
[11]Mcleod J, Gormly B. Using the cloud for records storage: issues of trust[J]. Archival Science, 2017, 17(2):1-22.
作者单位:清华大学公共管理学院