北京数字档案馆(电子文件中心)容灾备份体系建设
熊延萍
容灾备份是指为防止系统出现软硬件故障、人为误操作、自然灾害等造成系统宕机、数据丢失,而将全部或部分系统文件和数据资源复制到备份介质中。当系统宕机、数据丢失时,可从备份介质中恢复。为确保北京数字档案馆(电子文件中心)系统数据的安全性和可持续性,建设高效可靠的容灾备份体系是至关重要的。
一、概述
北京数字档案馆(电子文件中心)的容灾备份体系建设,本着先进性、可靠性、可扩展性的原则,针对系统中不同数据对象和数据量,设计相应的备份架构,采用不同的备份策略,确定相应备份频率、介质、容量等,在北京市档案馆专网、政务外网、因特网分别建设部署。
其中,北京市档案馆专网与政务外网和因特网是完全物理隔离的,而政务外网和因特网则采用的是逻辑隔离。
二、备份架构
北京数字档案馆(电子文件中心)的容灾备份体系主要通过高性能共享文件系统、备份软件和物理磁带库等,在北京市档案馆专网与政务外网、因特网上实现自动化的本地备份,确保系统和数据的有效备份与恢复。总体架构图如图1所示:
在北京市档案馆专网部署独立的备份系统域(图1中备份域1),使用一套备份数据管理软件和备份设备,实现网内业务系统的自动化集中备份;同时考虑应用需求,采用先进的共享文件系统,以满足多应用同时访问同一数据对象的需求。
在北京市档案馆政务外网和因特网内部署统一的备份系统域(图1中备份域2),两网共用一套备份数据管理软件和备份设备,使两网内业务系统可自动化集中备份,实现备份系统在两网间的统一管理。
备份架构在设计选型时考虑如下因素:
一是备份服务器应可建立在集群服务器上,实现物理冗余;还可在异地部署災备备份服务器,实现逻辑冗余,以便本地备份系统发生重大故障时及时恢复。
二是多个介质服务器可共享同一物理磁带库设备,介质服务器与物理磁带库之间采用冗余备份链路,避免单一链路失效导致备份失败。
三是为便于灵活操作,备份软件还应支持数据库图形化备份/恢复操作;对于文件和数据库的备份/恢复,应支持自动断点续传和异机恢复等功能等;还应支持单文件、单虚拟机、物理机等不同恢复方式,以及传统客户端备份配置的全备份、增量备份等备份方式。
(一)专网备份架构
专网备份架构设计应考虑网内各个业务系统,包括数据库应用及文件类应用,涉及的数据包括结构化数据(如数据库文件)及非结构化数据(如纸质档案数字化副本、照片档案、音视频档案数字化副本等)。结构化数据采用一体化备份数据管理平台实现集中备份管理;非结构化数据采用集成高性能共享文件系统,在实现数据共享访问的同时,利用基于共享文件系统的存储管理功能,结合近线存储和大容量物理磁带库多级存储设备,实现数据的自动分层归档和分级存储,并可归档多份数据副本,实现归档数据的备份。因此,专网备份以传统备份和迁移归档两种方式结合完成。专网备份架构如图2所示:
其中,物理磁带库分为两部分:一是作为传统备份软件的专用备份设备;二是作为高性能共享文件系统的专用归档设备,作为分层存储体系中的三级带库存储。
该架构可实现磁盘-磁盘-磁带(D-D- T)的备份模式,只需在二级大容量低速存储阵列中划出一块磁盘空间(图2中磁盘备份空间)给备份服务器,将数据库数据及需要快速恢复的业务数据备份到此空间,通过备份软件的辅助拷贝功能将备份数据拷贝到物理磁带库。磁盘数据应设置较短的保留周期,便于腾出空间继续备份新的数据,磁带库的备份数据应设置较长的保留时间,以便长期保存。
(二)政务外网和因特网备份架构
政务外网和因特网之间采用逻辑隔离,故在不影响业务系统和网络运行的前提下,在两网间部署一体化的备份管理系统,共享一套备份物理磁带库资源,在节省投资的同时,更有利于两网备份的统一管理和资源优化利用。政务外网和因特网的统一备份架构如图3所示:
物理磁带库同时接入到政务外网和因特网的存储区域网络(SAN),为两网分配不同的磁带驱动器。各业务服务器分别部署备份软件的客户端模块,通过专用备份通信链路接收来自政务外网、因特网备份管理服务器的控制指令,经各自的存储区域网络将各业务服务器上的数据备份到磁带、磁盘阵列等设备中。整个过程中,政务外网与因特网仅共享同一个物理磁带库资源,并没有备份数据流交互,从而实现了逻辑隔离。
该架构同样可实现磁盘-磁盘-磁带(D-D-T)的备份模式,具体策略同专网备份架构相同。
三、备份策略
备份策略需要考虑备份方式、备份对象、备份频率等,按照备份对象的不同确定相应的备份频率、介质、容量等。
北京数字档案馆(电子文件中心)主要采用LANFREE备份方式,此种备份方式中数据流不经过局域网(LAN)而直接从磁盘阵列通过存储区域网络备份到物理磁带库中,无需占用局域网网络带宽,从而提高业务系统的网络资源利用率。
由于磁带介质较其他备份介质单位容量成本更低、保存期更长(最长可达50年)、性能更稳定、耗能更低,且磁带读写分离,运输更方便,是一种性价比较高、更可靠的大容量长期保存和备份介质,是北京数字档案馆(电子文件中心)备份介质的首选,同时结合选取大容量低速(较低成本)磁盘阵列作为磁盘辅助备份,达到快速恢复的目的。
另外,应根据现有档案数据、系统管理数据及工作增量计算出所需磁带的数量,并结合当前信息技术的现状及发展趋势,确定性价比较优的磁带类型、物理磁带库和磁盘阵列设备。其中,物理磁带库可以方便扩容,如可增加磁带数目或增加磁带驱动器数目,提高备份容量和并行备份能力。
(一)操作系统和应用系统的备份
服务器操作系统和应用系统是支撑业务系统正常运转的基础,一旦这些系统文件丢失或出错,重新安装系统所需时间较长,为了快速恢复系统,需对这些系统文件和数据进行备份。
备份对象主要包括操作系统和应用系统的安装、配置文件,由于其重要性,采取全备份方式。操作系统和应用系统正式投入运行后,产生变更的情况较少,故采取每月一次的定期全备份;此外,需在系统初次安装完成及每一次配置更改后,由系统管理员手动执行一次全备份。此部分数据量不大,可在磁带和磁盘中进行双备份,用于快速恢复,磁带和磁盘的数据保留时间可设置为3个月。
当然,有一些系统文件,存有与日常业务运行相关的数据文件,且这些文件变化较频繁,具体的备份策略应视系统文件的大小、更新频率及系统恢复时间点目标、系统恢复时间目标而灵活确定。
(二)数据库的备份
数据库是北京数字档案馆(电子文件中心)系统中关键应用,也需要快速恢复,故对数据库采取每周做一次定期全备份;同时,考虑到数据实时变化,故每周其他时间做定期增量备份,缩短备份时间,减少对磁带的使用。可设置为:周一至周六晚做定期增量备份,周日晚做定期全备份等。此种策略结合定期全备份和增量备份两种方式,保证数据快速恢复到指定时间点,灵活与可靠并行。此部分数据量也不大,也可在磁带和磁盘中进行双备份,磁带和磁盘的数据保留时间可设置为3个月。
(三)档案数字资源的备份
北京数字档案馆(电子文件中心)系统的核心是档案数字资源,一般包括传统载体档案数字化副本、电子档案、电子资料和数字编研成果等以数字形式存在的各类档案资源,因此,档案数字资源备份容灾是备份体系的核心所在。考虑到档案数字资源数据量巨大,目前为数百TB,将来会继续增多,故选取磁带作为大容量长期保存介质。由于数据量大,采用每年一次的定期全备份方式,考虑每天可能会有新增档案数字资源,故每天固定时间点做定期增量备份,如每晚做定期增量备份。
为确保档案数字资源的安全,不仅要做好本地备份,还应开展同城、异地备份工作。
北京市档案局(馆)按照国家档案局的相关要求,开展重要档案异地备份工作,于2012年制定了《馆藏档案数字资源备份策略》与《馆藏数字档案资源备份实施方案》,明确了每两年进行一次数据同城(市灾备中心)、异地(陕西省档案馆)备份工作,定期将磁带自动出库,由专人负责运输到异地保存。
截止2016年10月,北京市档案馆已完成了两轮全市档案异地备份数据(市档案馆及十六区档案馆的数据)同城、异地数据备份工作以及第一轮同城、异地备份数据恢复验证工作,经验证,全市档案异地备份数据可读、正确。
四、结语
随着电子政务和信息化技术的快速发展,档案管理工作越来越依赖信息系统,业务数据的丢失、应用系统的停止、网络的异常等造成的损失也越来越大。因此,积极建设容灾备份体系,对档案部门具有越来越重要的价值。我们将结合实际工作,总结经验,不断完善本地、同城、异地备份和恢复策略,完善容灾备份体系建设,确保北京数字档案馆(电子文件中心)系统中档案数字资源的安全、长期保存,进一步提升灾难应对能力。
參考文献:
王建文.北京数字档案馆(电子文件中心)存储体系建设[J].北京档案,2017(5):7-9.