云计算环境下电子文件管理的关键技术研究
薛四新 朝乐门 田雷
摘要:云计算的出现改变了电子文件管理的技术架构和实现方法。本文在构建云端电子文件管理的技术框架基础上,探讨了云端电子文件管理需要解决的五项关键技术,即电子文件的对象建模技术、海量异构电子文件的分布式存取技术和电子文件及其元数据的溯源技术。在此基础上,提出了云端电子文件管理系统架构的四项基本原则和实现方案。
关键词:电子文件云计算关键技术
云计算的应用将导致支撑电子文件管理实现的技术框架发生本质上的转变。目前,国内外学者在云计算对电子文件管理的影响和所带来的新问题等方面进行了一定研究①,但缺少对云环境下电子文件管理关键技术的系统研究。本文重点探讨整合应用这些技术的通用框架、关键技术、实现原则和建议方案,为云环境下电子文件管理系统的构建提供技术基础和实施依据。
1 云端电子文件管理系统的技术框架
云环境下的电子文件管理系统不仅需要实现SaaS层次上的资源虚拟化,而且还应根据电子文件的特殊性,对其他云服务提供商提供的平台层和设施层的云服务进行选择、配置和优化使用。私有云的成功实践和成熟推广会进一步推动云环境下的电子文件管理的研究、应用与发展,并进一步带动相关管理部门和人员认识水平的提升,最终将逐渐会被混合云或公共云替代。
基于云计算的技术框架和电子文件管理的系统建设和应用需求,采用分层方法设计云环境下电子文件管理系统的技术框架是实现电子文件管理的首要任务,图1呈现了电子文件管理系统的技术框架
1.1固件/硬件层主要包含硬件服务器和交换机等物理基础设施,为软件内核层提供硬件的操作、管理和更新服务;软件内核层负责管理固件/硬件层的物理硬件设备,通常由操作系统内核、虚拟机监控器、集群中间件等工具和技术来实现。
1.2非结构化数据的分布式存储。电子文件通常是以非结构化或半结构化数据方式存在,云计算环境中非结构化大数据的存储通常采用分布式文件管理技术如Google的GFS、Hadoop的HDFS等。非结构化大数据的存储过程中,一般按照实现配置好的大小(默认为64MB)进行分块,并对每个分块进行唯一索引后存储在不同的数据块服务器上,所有数据块服务器由主服务器统一管理,力求控制流和数据流的分离。在云环境下,电子文件特别是大数据对象的文件将被存放到分布式的非结构化文件系统中,由文件系统统一管理。
1.3结构化数据对象的分布式存储。云环境下结构化数据的存储技术有Google的Bigtable、Amazon的RDS、Hadoop的HBase等技术,与传统关系数据库不同的是,云环境下的结构化数据模型一般由一个行关键字、列关键字和时间戳进行索引,其数据访问需要数据锁服务。云环境下的结构化数据的分布式存储一般采用主服务器和子表服务器进行分工管理,其中主服务器负责新子表的分配、子表服务器的监控和负载均衡等问题。在云环境下,电子文件的元数据一般存储在分布式结构化表中,由分布式结构化数据管理系统统一管理。
1.4分布式数据处理。与传统电子文件管理系统不同的是,云环境下的电子文件管理系统中将会采用以MapReduce为代表的分布式数据处理技术来处理电子文件,需要对目前的电子文件管理系统中普遍采用的数据处理算法和技术实现工具进行改进或重新设计。
1.5电子文件管理基础服务。该层为电子文件管理业务层提供一些共性的基础性服务和核心功能,包括电子文件封装、电子凭证管理、完整性校验、分布式存取、电子文件监控和电子文件的溯源。
1.6电子文件管理业务服务。电子文件管理业务服务主要包括信息捕获、安全与监控、保管与处置、检索与再现、系统管理、非电子文件管理,负责实现电子文件管理业务服务的虚拟化,形成电子文件管理的工具资源池。电子文件管理用户可以通过系统提供的接口,包括人机交互界面(如Web界面)和程序编程接口(如Web服务、API等),以租用的方式享用电子文件管理基础服务的各项功能。
除了上述组成部分之外,云环境下电子文件管理还需要系统管理、安全保障、容错机制和服务质量等技术,它们贯穿于云环境下的电子文件管理系统的所有层次,需要统一设计和研发。
2 云端电子文件管理的关键技术
图1所示的云环境下的电子文件管理的通用技术框架的应用需要如下关键技术的突破:
2.1电子文件的对象建模技术
电子文件的对象建模是电子文件管理系统的关键步骤之一。在不同的电子文件管理标准中,对电子文件的封装要求有所不同。如何构建SIP ( Submission Information Package,提交信息包)、AIP ( Archival Information Package,存档信息包)、DIP (Dissemination InformationPackage,发布信息包)的信息模型以及如何实现这些不同信息包之间的相互转换是云端电子文件管理中需要解决的技术问题。此外,电子文件对象建模技术还需要考虑云计算环境本身的技术特殊性,如多副本管理、大文件分块管理、分布式处理等特征。因此,电子文件对象的建模与封装是云环境下的电子文件管理系统实现过程中需要解决的关键技术之一。
2.2海量异构电子文件的分布式存取技术
海量异构电子文件的分布式存取是云端电子文件管理系统与传统电子文件管理系统的区别之一。以Google文件系统为例,主要技术特点是采用中心服务器模式,不缓存数据,在用户态下实现和只提供专用接口。目前的电子文件管理中采用的数据处理技术不能直接应用于云环境下的分布式数据处理任务中。云环境下的电子文件管理需要进行大文件的分块、MapReduce、多副本管理、结点动态加入、用户态下实现等特殊操作。因此,面向海量异构电子文件的分布式存取技术是云端电子文件管理的重要课题之一。
2.3电子文件及其元数据的溯源技术
云计算技术本身的特殊性为电子文件及其元数据的溯源提供了良好的技术保障。云环境下电子文件回溯可分为两类:结构化数据表的溯源和非结构化数据的溯源。以Bigtable为例,其数据模型由行、列、时间戳组成。与传统数据库不同的是,Bigtable中采用了关键字排序、列簇(ColumnFamily)存储和时间戳,可以很容易在不同版本之间回溯。此外,云计算环境中的非结构化数据的存储中采用了多副本技术,也较好地支持文件实体对象的溯源。但是,云计算中的这些技术并不能完全支持电子文件及其元数据的回溯操作,如证据保留和凭证生成等。因此,凭证性回溯技术是云端电子文件管理中需要突破的重要技术。
3 云端电子文件管理的实现方案
图1所示的云环境下的电子文件管理通用技术框架和上述关键技术的实现需要以下基本原则和实现方法。
3.1实现原则
基于以上分析,可以归纳出,云环境下电子文件管理系统的构建需要遵从以下基本原则:
3.1.1底层技术的简单性与上层应用的复杂性之间的平衡原则。简单实用性是云计算服务模式的重要特征。其简单实用性主要体现在两个层面,一是在云计算的设计思想中,云计算的实现并不追求新技术的创造,而更加重视现有技术的重组;另一个是云计算的实现技术上,云计算一般采用简单实用的实现技术,不主张实现技术的复杂化。以Amazon提出的SDB(SimpleDB)为例,这种技术不需要实现定义模式信息,其属性的修改添加以追加形式实现,操作类型简单(不支持像连接、排序等复杂操作)。然而,底层的简单实用往往会增加上层应用的复杂度。因此,在云环境下的电子文件管理系统的设计和实现中,不仅要考虑底层技术的简单实用原则,而且还注重避免上层应用的复杂性,力求在二者之间达到平衡。
3.1.2经济性与稳定性之间的平衡。经济性也是云技术的重要特征之一,云计算的经济性体现云端和终端的经济性。云端的经济性体现在云端部署在成本相对较低的服务器硬件之上,不追求服务器集机群的实时更新换代。在计算能力和存储能力相等的情况下,搭建一个云端服务器集群的成本要低于购买一台超级计算机作为服务器的成本;终端的经济性体现在云计算对终端的要求较低,用户可以使用瘦终端就可以调用功能强大的云服务,不需要购买昂贵的软硬件设备和进行繁琐的软硬件管理与维护工作②。因此,云环境下的电子文件管理系统的设计应遵循经济性原则,可直接部署在配置较低的普通服务器硬件上,而且应支持多种类型的终端设备。但是,经济性原则往往带来稳定性问题,尤其是容错处理问题。经济性带来的容错处理是云计算的重要难题之一,涉及云计算中的Master服务器、Sever服务器、数据管理服务器等每个组成部分。因此,在经济性和稳定性之间的平衡是云环境下电子文件管理的重要指导原则之一。
3.1.3灵活性与安全性的统一。灵活性(或弹性)作为云计算的重要特征,涉及节点动态管理、故障动态监测、动态故障恢复、多副本管理、动态租约管理和弹性服务组合。显然,灵活性给电子文件管理系统的技术实现带来了较大程度的方便性。但是,灵活性也给电子文件的一致性、可靠性和保密性提出了更复杂的管理要求。因此,保证灵活性与安全性之间的平衡是云环境下的电子文件管理系统的IT实现的重要指导原则之一。
3.1.4针对性和可持续性的统一。针对性强调的是电子文件管理系统与其他业务应用系统的区别性,主要强调电子文件管理系统遵循相关的功能要求标准的符合程度。当前国内外关于与电子文件管理系统的功能要求标准有ISO15489、DoD5015.02、Moreq2、ICA、《电子文件归档与管理规范GB/T18894-2002》、《电子文件管理系统通用功能要求》等。因此,云环境下的电子文件管理系统的实现中必须遵循这些原则和要求,具备较强的针对性或专业性。同时,针对性的实现也要支持和遵循可持续性。云环境下的电子文件管理系统的实现并不要求一步到位,应统一规划,分步骤实现,重视部门协同和资源共享。因此,针对性和可持续性的统一是云环境下的电子文件管理系统的研发中必须遵循的原则之一。
3.2实现方法
云计算环境中的电子文件管理系统的实现技术方案有多种,可以分为两大类,即商业解决方案和开源解决方案。考虑到电子文件管理需求的特殊性及未来应用的可扩展性,建议采用开源解决方案。目前,主流的开源方案有Hadoop、Eucalyptus、Nimbus和Sectorand Sphere。其中,Hadoop和Eucalyptus分别模仿了两个主流的商业解决方案,即Google和Amazon的云技术。综合考虑实现技术的成熟度、普及程度、内部技术的公开性和未来发展趋势,建议在云环境下的电子文件管理中采用基于Hadoop的开源解决方案。
在云环境下的电子文件管理系统的开发中应采用基于Hadoop的编程模式或类似于Hadoop的编程模式。Hadoop是Apache开源组织提供的一种具有高可靠性、高可扩展性的分布式计算机框架,包括Hadoop Common、Avro、Vhukwa、HBase、HDFS、Hive、MapReduce、Pig和ZooKeeper等编程技术③。其中,Hadoop HDFS、MapReduce、HBase、ZooKeeper、Pig分别对应Google的GFS、MapReduce、Bigtable、Chubby和Sawzall。因此,在图1所示的通用技术框架中,可以分别使用Hadoop HDFS、HBase、MapReduce和ZooKeeper技术实现非结构化数据的存储、结构化数据的存储、分布式处理和锁服务。
4 结语
以云计算为中心的新型信息生态环境为电子文件管理提供了新的计算模式和技术实现方案。在这种生态环境下,云端电子文件管理系统的初期建设往往定位于SaaS层的私有云。随着关键技术和典型应用的成熟与发展,电子文件管理将逐渐采用混合云或公共云技术,并将渗透至云计算的不同层次。为此,本文将云端电子文件管理系统的通用技术划分为七个层次,探讨所需的四项关键技术,并提出了研发电子文件管理系统的基本原则和实现方案。因此,本文研究对于云环境下的电子文件管理系统的研发活动具有重要的指导意义。在未来的工作中,我们将重点进行实证分析,并进一步完善本文研究成果。
本文是北京市科技计划课题《基于异构系统的电子档案凭证性保障核心技术开发与应用》(项目编号Z111100075011001)、国家自然科学基金项目“语义Web环境下的大规模协同知识处理模型研究”(项目编号71103020)和国家社科基金重大项目《云计算环境下的信息资源集成与服务研究》(项目编号:12&ZD220;)的成果之一。
参考文献:
薛四新,黄萃.云计算环境下电子文件管理研究综述[J].北京档案,2011(09):25-27.
朝乐门,张勇,邢春晓.云端信息资源管理研究[J].情报资料工作,2010(4):44-49.
The Apache Software Foundation.What Is Apache Hadoop[EB/OL]. [2012- 4- 6]. http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F.
作者单位:清华大学档案馆中国人民大学数据工程与知识工程教育部重点实验室北京市档案局