基于云环境下数据容灾技术的研究
李超 卢灿举 张云峰
摘要:21世纪以来,互联网技术日新月异,人们工作、生活对互联网的依赖性也越来越高,因此互联网世界对数据可靠性、安全性的要求也提到了前所未有的高度。云计算环境下,数据高度集中,_旦数据出现问题将会带来不可估量的损失。文章以云计算为背景,分析了当前基于云计算环境下的数据容灾相关技术,并提出了网络数据的备份容灾命令中枢备份服务器的设计。
关键词:云计算;容灾;安全
互联网技术被称为20世纪载体技术的第4次革命,它的发展影响之远、作用之大远远超过了之前的所有技术。随着互联网的深度应用,信息技术的发展,给人们的生活、工作带来便捷的同时,也蕴藏着巨大的风险,各种数据信息的完整性、关联性、真实性成为今后数据安全工作者需要关注的重点。
云环境下,数据高度集中存储,给数据存储降低了成本、管理带来了方便,但数据的安全性却大大地降低。近5年来,黑客入侵、信息泄露、数据丢失给各行各业带来了巨大的损失。在此背景下,云环境数据的安全研究提到了信息安全领域前所未有的高度。在数据安全保护的研究方面,数据的容灾备份是一项重要的技术,本文从云计算的概念入手,分析了云计算环境下数据容灾的现状和流行的数据容灾技术,最后重点针对数据容灾的命令中枢备份服务器提出了一套设计方案。
1.云计算
云计算可理解为计算机+网络技术+服务。云计算包括:存储系统、服务器、交换设备、安全平台等内容。
云计算是20世纪80年代继客户端服务器转变后的一次巨变,它是并行计算、分布式计算、虚拟化、网络存储、热备份冗余、负载均衡等计算机技术与网络技术融合的产物。云计算是一种服务模式,它是互联网上相关服务的使用、叠加以及交付。这种服务模式具有虚拟化服务(用户可在任意位置使用种类终端获得资源,并且不再是有形体,用户无需关注资源的具体形态)、数百上千台超大规模服务器群、数据多副本容错的高可靠性、可同时支撑多个不同应用、高伸展性、数据集中的风险性等特点。
2.云计算环境下数据容灾的现状
在激烈的市场竞争中,企业的发展比任何一个时代更依赖数据,数据的安全性对企业的发展乃至生存起到了不可小觑的作用。对网络中数据的破坏分为“天灾”和‘叭祸”,对于‘‘人祸”而言,对网络中数据的保护,通常采用数据定期备份的形式,备份又分为完整性备份、增量备份,这种数据保护的方式仅对因系统管理员的错误操作、黑客、病毒的恶意攻击导致的数据破坏具有保护和恢复作用,但对一些灾害性“天灾”的数据破坏是无济于事的。
在网络世界中,虽然“天灾”发生的概率远远低于“人祸”,但“天灾”带来的数据的破坏却远远大于“人祸”。如不及早地采取有效措施,将带给云环境下数据致命的破坏。为了应对“天灾”,数据容灾应运而生,它是在数据备份基础上的延伸,将数据备份到安全的地点。当本地数据发生意外时,不影响远程的数据。
据“互联网数据中心”对美国数据灾难企业的统计数据显示,自2000年起,发生过数据灾难的企业中,55%的企业在半年内破产倒闭,另外45%的企业中,有29%的苦苦挣扎2年,也以关门也告终,艰难生存下来的仅有16%。
而另一个事例,却反映了另一个事实,也给企业容灾建设提供了有效的参考。恐怖基地组织发动的“911”事件,炸毁了美国的世贸大厦,大部分企业一时无法继续贸易,然而摩根斯坦利公司却创造了一个奇迹,该公司在第2天就能够恢复正常营业。其主要原因是它们不仅像一般公司那样在内部进行数据备份,而且在数英里外的新泽西州也保留着公司数据的完整备份。
按灾难对数据信息的破坏程度,从高到低分为5个等级。
一级破坏:全部数据丢失。
二级破坏:主要数据及系统丢失。
三级破坏:镜像(非主数据)及系统丢失。
四级破坏:遭受真正的攻击,但没有丢失数据。
五级破坏:没有明显证据的灾难威胁。
3.容灾系统评价的3R标准
数据容灾系统的好坏由3个指标来决定,分别是冗余性(Redundance)、远程性(Remote)、响应性(Replieation),也被称为3R标准。
一个真正的容灾系统要满足冗余性就需要对数据、关键组件、设备进行冗余设计,一旦一个系统或服务器发生故障,备份系统将能及时替代,保证数据的稳定和连续性。数据灾难一定要考虑要距离的影响,如果容灾系统设计(生产中心与备份中心)距离过近,可能导致数据同时受到破坏,因此远程性要求容灾系统的生产中心与备份中心要足够远。容灾系统另外一个评价指标就是数据恢复时间的及时性,也称为响应性,恢复时间的长短直接影响到容灾系统的好坏,也是容灾系统重要的价值体现。
4.云计算环境下数据的容灾技术
4.1Cache技术
Cache是一种缓存技术,它以数据库(Database)的形式将数据存放在存储设备中,对常用的数据进行备份,因此,当用户再次访问同一数据时,就从缓存中访问,大大缩短了访问时间。在容灾系统中,将数据信息缓存在容灾系统中,可以实现对数据的备份和快速恢复。
其中,数据容灾的Cache技术还包括2种算法:第一,本地容灾磁盘的饱和计算,该种方法是指通过对单位时间内数据恢复的次数进行统计与计算,替换恢复次数较少的数据块;第二,对异地数据信息的恢复计算,所谓的异地数据信息恢复计算是指,通过单位时间内数据块恢复的次数确定是否对异地数据块进行替换。
4.2映射技术
映射技术在一般情况下对设备和程序管理之间形成的映射关系进行处理,它是完成信息储存的主要技术,映射关系的出现导致了数据的自动迁移,而自动迁移是由一种指令的触发而形成的自动化操作,如:数据的自动保存、复制和粘贴、删除。当磁盘遭到损坏后,将映射技术应用到数据容灾中,容灾系统就会自动接收到该项指令,并对相关数据进行映射操作。在使用映射技术时,还可对磁盘的透明进行替换,但是用户在使用之前,必须先建立一个云存储环境,然后在云存储环境中将映射的数据进行多项复制和备份到容灾系统中,同时,为了避免磁盘的损坏导致数据的永久不可还原性,在数据备份的过程中可以同时创建多个副本。
4.3互连技术
由于数据容灾系统涉及主节点与冗余备份节点,因此将它们连接起来的互联技术在容灾中十分重要。目前,主节点与冗余备份节点之间的连接主要是光纤通道连接,主要是基于SAN的远程复制,即通过光纤通道Fc,把2个SAN连接起来,进行远程复制。当灾难发生时,由备份数据中心替代主数据中心保证系统工作的连续性,这种远程容灾备份方式存在的一些缺陷是:实现成本高,设备的互操作性差,跨越的地理距离短(10公里)等。
4.4CDP技术
Continuous Data Protection(CDP)是一个实时的数据备份系统,它自动将应用数据的所有变化实时记录下来。它的关键是将每一个应用数据的变化加上了时间索引。这样,当出现数据丢失、数据损坏或者安全问题时,就可能恢复到最近的完好数据。CDP技术不断进步,在数据损耗的情况下,其允许快速的数据恢复,并把数据还原到生命周期任一指定点。
4.5主备机容灾
对正在运行业务的每台主机(业务机)各建立一套备份机(容灾备份系统,主机与备机建立一对一的关系),有条件的在异地建立异地容灾系统,一旦本地主机发生故障,数据错误或丢失,通过异地备份系统进行恢复。