《医院数据中心存储双活实践与探讨》-工学论文，计算机论文-论文范文参考-科学狗论文网

标题

医院数据中心存储双活实践与探讨

范文

沈凯华王彩杰赵晓娴许怀俊

摘要：存储系统与其自身的高可靠性，在数据中心建设中占有重要地位，但在实际运行过程中会出现，因存储单点故障造成系统停机、数据丢失等风险。因此，该文以大型综合医院为例，通过EMC VPLEX构建双活数据中心，最大限度满足Oracle RAC、VMware等系统运行的连续性和高可用性，实现数据中心容灾，避免因存储单点故障造成系统运行风险。

关键词：VPLEX;Oracle RAC;存储双活;存储虚拟化;数据中心双活

中图分类号：TP302? ? ?文献标识码：A

文章编号：1009-3044（2020）16-0053-02

Abstract：The storage system and its own high reliability， in the data center construction occupies an important position， but in the actual operation process will appear， due to storage single point of failure caused by system downtime， data loss and other risks. Therefore， this paper takes the large general hospital as an example， builds dual-active data center through EMC VPLEX， maximizes the continuity and high availability of Oracle RAC， VMware and other systems， realizes the data center disaster， and avoids the risk of system operation caused by storage point failure.

Key words： VPLEX; Oracle RAC; storage dual-active; Storage virtualization; data center dual-active

与服务器本地磁盘相比，专用存储设备在可靠性、连续性、磁盘读写性能上均有显著提高。但面对当下大型综合医院的业务流转，高度依赖于信息系统的支撑，手工纸质流程难以适应医疗业务流转要求，医院信息系统一旦出现停机，将会造成医疗信息无法及时传递，使医疗业务无法正常开展。单套或主备式存储系统无法满足核心业务系统对RPO（Recovery Point Object：是指当灾难或紧急事件发生时，数据可以恢复到的一个过去的時间点，是衡量业务系统所能容忍的数据丢失量）和RTO（Recovery Time Objective：是指在故障或灾难发生后，业务系统重新恢复运行所需要的时间长度）为零的要求。为适应医疗业务对医院信息系统的连续性要求，双活数据中心架构解决方案，可实现存储故障自动切换，当其中一个存储系统发生故障时，数据会自动读写到另一存储，整个过程自动运行，无须人工干预主备切换，保持数据和应用程序持续在线可用。该文通过大型综合医院中Oracle RAC、VMware虚拟化集群在双活存储架构下的应用，探讨双活存储的实践和运维经验。

1 存储双活应用

1.1 业务系统部署介绍

以大型综合医院为例，医院信息系统（HIS）、电子病历系统（EMR）通过Oracle RAC集群实现业务高可用，影像归档和通信系统（PACS）、实验室信息管理系统（LIS）等其他业务通过VMware虚拟化集群实现业务高可用。具体配置如下：

1）HIS系统基本情况：医院信息系统（HIS）通过两台联想System X3850 X6服务器，安装RedHat 6.9操作系统和Oracle 11.2.0.4数据库，搭建Oracle RAC集群。Oracle RAC双活架构与传统数据库双机热备方式截然不同，传统的数据库主备模式始终只有一台服务器在工作，当主服务器出现故障时备服务器才接管主服务器的工作，此时故障主服务器处于空闲状态。而Oracle RAC是一种双活模式，也就是说，集群中的服务器是并行运行状态，可同时接受业务处理请求，因此，Oracle RAC技术既能达到业务高可用目的，又能充分利用计算资源。当集群中一台数据库服务器出现故障时，Oracle RAC通过浮动IP技术，将请求自动转发到其他服务器节点运行，保证业务连续性。同时，传统的双机热备架构出现故障时，常常需要手动或更长的切换时间，而Oracle RAC集群在出现故障时，可自动快速切换，切换后部分客户端只要重发连接请求即可恢复业务。此外，一台联想System X3850 X6服务器，安装RedHat 6.9操作系统和Oracle 11.2.0.4数据库，搭建Oracle ADG服务。通过使用Oracle RAC+ADG架构实现物理级备份和灾备解决方案。Oracle RAC数据库架构实现了高可用性、高并发的访问要求，计算资源得到冗余，但源数据库还是同一个，当源数据库出现损坏或异常时，便不能提供数据访问服务，通过使用Oracle RAC+ADG架构，来保障数据层面的冗余性。三台HIS服务器主要配置如下（CPU：2*E7-4850v4;内存：128GB;硬盘：3*600GB 10K 2.5英寸SAS;网卡：1Gb网口*4 、10Gb网口*2;HBA卡：双口16Gb HBA卡*2;RAID卡：12Gbps带宽支持0、1、5 缓存≥1GB;电源：80+冗余电源）。

2）EMR系统基本情况：电子病历系统（EMR）通过两台惠普DL580 GEN9服务器，安装RedHat 6.9操作系统和Oracle 11.2.0.4数据库，搭建Oracle RAC集群。EMR服务器主要配置如下（CPU：4*E7-4850v4;内存：256GB;硬盘：3*600GB 10K 2.5英寸SAS;网卡：1Gb网口*4 、10Gb网口*2;HBA卡：双口16Gb HBA卡*2;磁盘控制器：内置smart array P830i/2GB阵列控制器;电源：配置4个冗余电源）。与HIS系统一样，通过Oracle RAC+ADG架构实现业务系统的高可用性、连续性，保证数据实时备份，有效灾备。

3）WMware虚拟化集群基本情况：虚拟化集群通过10台联想SR650机架式服务器和8把思科UCS B200 M4刀片服务器，安装ESXI6.0 U3版本系统，组成VMware虚拟化集群。使用虚拟化集群能有效整合服务器资源，平衡服务器资源利用率，降低信息化设备投入。VMware虚拟化集群的高可用技术更是为医疗信息业务发挥重大作用。用18台物理服务器组成的虚拟化集群，将集群内的虚拟服务器分布到多台物理服务器上运行，通过vmotion技术可实现虚拟服务器在线迁移，即将虚拟机服务器在不关闭电源的情况下从一台物理服务器实时迁移到另一台物理服务器，从而可以更加方便地维护硬件、减少停机时间。集群HA（High Availability）技术，可实现当集群内物理服务器出现意外宕机时，故障主机上面的虚拟服务器自动在本集群内其他物理服务器上开机运行，保障业务快速恢复。

1.2 基于EMC VPLEX的双活存储建设

存储集群主要为VM虚拟化集群、数据库等提供统一的存储环境。为提升系统可靠性，基于EMC VPLEX的存储高可用和双活数据中心解决方案，不仅可以帮助医院实现数据中心间，在线透明迁移数据，同时能融合管理不同型号、不同品牌的异构存储，有效利用现有资源，降低投入成本。

2 存在的问题

2.1 VPLEX系统升级对高可用影响

通过系统高可用，存储高可用，网络高可用，从双活架构规划上看，已经满足数据中心双活设计要求。但在实际应用中， VPLEX升级重启系统会导致部分ORACLE RAC节点出现重启现象，对此，进行细致分析，定位故障原因。通过对比发现，只有HIS系统的ORACLE RAC节点出现系统重启现象，同样是ORACLE RAC架构的EMR系统在VPLEX升级重启过程中运行正常，未出现重启，同时VMware虚拟化集群内的虚拟服务器也运行正常，说明数据中心双活架构对EMR和VMware虚拟化集群的双活保护是有效的。从VPLEX和HIS主机的日志分析来看，每个主机上的VPLEX LUN都有8条路径，在NDU（无中断升级）中VPLEX director A先发生重启，在director A重启成功后，director B再发生重启。而对应的主机上发生的变化就是每个LUN的8条路径中的4条，在director重启时会dead，这是预期中的，不会影响I/O访问。但是，主机HIS_RAC1和HIS_RAC2在VPLEX director A重启时发生了重启，而HIS_RAC2在director B重启时又发生了重启，分析可能与RAC的配置有关，缩小故障定位范围，对比HIS、EMR的ORACLE RAC配置情况，发现EMR主机HBA卡的IO超时dev_loss_tmo值为15，HIS主机HBA卡的IO超时dev_loss_tmo值为30。HIS主机HBA卡的IO超时时间未小于RAC心跳仲裁时间，最终导致仲裁失败，HIS主机重启。

3 解决方法

经过分析把故障定位于，因主机HBA卡的IO超时时间未小于ORACLE RAC仲裁时间，而引起仲裁失败，发生主机重启事件。通过修改HIS主机HBA卡的IO超时dev_loss_tmo值为15，避免再发生类似故障。

4 总结

实现数据中心双活，不仅依赖于应用程序、操作系统、网络系统、存储系统的全方位双活架构设计，也要关注各系统模块之间的整体协同性，当设备故障需要自动切换时，各系统之间仲裁时间的设定将直接影响，双活数据中心架构遇到故障时能否正常切换。面对复杂的数据中心双活架构，设计时应充分考虑细节，实践时需多维度测试，以保证数据中心双活架构的有效性。

参考文献：

[1] 张俊茸.基于存储双活技術的数据中心设计和应用[J].信息与电脑（理论版），2019（15）：147-148.

[2] 胡榜洪.医院双活数据中心容灾模式建设的探索与实践[J].信息与电脑（理论版），2019（15）：183-185.

[3] 季贝贝.关于服务器虚拟化在医院信息化系统中的研究与应用[J].科学与信息化，2019（13）：148-150.

[4] 孙国强，金剑，李宁.基于存储虚拟化技术的数据容灾平台设计与实现[J].信息系统工程，2019（4）：139.

[5] 周锦.基于服务器虚拟化技术和存储虚拟化技术的医院双活数据中心的建立[J].科技风，2018（32）：95，99.

[6] 陈晓亮.虚拟化技术在医院信息化建设中的应用探究[J].电脑知识与技术，2018，14（13）：202-203，207.

【通联编辑：梁书】

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。