标题 | 数据中心自动化运维与生命周期管理的研究及实现 |
范文 | 蔡国华 袁世州 摘要:数据中心是支撑中国搜索技术平台的基础组成部分,是建筑的地基。数据中心的运维工作直接关系到线上业务平台的稳定性、可靠性、安全性。笔者结合对数据中心多年的运维经验,结合实際业务需求,研发了中国搜索数据中心自动化运维平台。本文将对平台进行阐述,并对数据中心整体设备生命周期的管理提出建议。欢迎媒体行业数据中心管理人员相互交流。 关键词:数据中心;自动化运维;机房设备 中图分类号:TP393? ? ? 文献标识码:A 文章编号:1009-3044(2019)20-0006-03 开放科学(资源服务)标识码(OSID): 1前言 中国搜索数据中心的运维管理包括监控(动力、环境、设备、线路)、故障处理、工程实施、设备资产管理、设备上架下架管理等工作,只有数据中心的稳定运行才能确保线上业务的稳定。笔者结合多年的数据中心运维工作经验,逐渐摸索出通过自动化运维替代部分人工运维的方法,通过自主研发,整合行业开源系统,建设自动化运维平台。该平台以CMDB系统为核心,将日常数据中心大量运维工作由人工转为机器来处理,从而大大提升运维效率,扩大覆盖范围,降低运维成本。 2中国搜索数据中心简介 截至目前,中国搜索数据中心运行的IT设备有3500余台(含10%网络设备),其中70%设备为过保设备且已运行近8年之久,整体网络架构为常见大型互联网数据中心的网络架构,即:出口核心路由器-核心交换机-接入交换机-终端设备。 中国搜索数据中心物理架构上为单一数据中心多模块化,机架数量300多架。由于是分期逐步建设,数据中心模块涉及多个楼宇,中间涉及模块间互联、楼层间互联、楼宇间互联等工程。复杂多样的物理结构和日益老旧的设备维护,使得机房运维越来越低效,自动化运维平台的研发工作势在必行。 3数据中心自动化运维研究 日益老化的设备是中国搜索数据中心的头等问题,针对大量老化且品牌不一的设备,如何第一时间发现故障并及时处理,保障数据中心的安全稳定运行,是自动化运维平台需要解决的问题。 数据中心自动化运维平台以CMDB资产数据库为基础,通过整合开源平台(Glpi,Cobbler,Zabbix,IPMI等),建立统一运维入口,实现了一个平台解决数据中心自动化运维大部分问题。该平台主要包含的功能有自动化资产管理、自动化装机、自动化监控报警等功能。下文对自动化平台的各项功能进行介绍: l 整体架构图 该功能主要通过OCS开源插件定时采集整个数据中心各个节点的资产数据:包含设备序列号、CPU、内存、硬盘、软件清单等,OCS将采集到的数据与GLPI资源管理平台整合,根据日常使用字段并通过对GLPI平台二次开发形成外部可访问的API接口,自动化运维平台通过调用该API接口实现资产信息同步到自动化运维平台,并在前端界面实现展示、查询和管理。 后续所有对主机的控制操作均依赖于该资产管理模块(CMDB)。 l 自动化装机 自动化装机的任务在中国搜索数据中心属于频繁性工作,少则一两台服务器,多则近千台服务器。早期我们采用Kickstart+PXE的方式进行批量装机,该装机方式可大大提高人工装机的效率,保持一致性。不过该方式存在的问题是需要人工将每台服务器的MAC地址、主机名、IP地址等整合成独立的可供kickstart读取的文件,数据量一旦过多会造成效率低、错误率高等问题。针对该问题我们使用Cobbler自动化装机开源系统,通过数据中心自动化运维平台调用CobblerAPI实现系统灌装,通过制定ks配置文件实现不同文件系统划分、软件配置等服务器的多样配置需求。RAID自动配置的功能通过PXE引导内存型操作系统,整合RAID卡CLI工具,调用预先设置好的配置文件进行RAID自动配置。 l 自动化监控告警 自动化监控告警包括服务器硬件故障监控告警、网络设备监控告警、端口异常监控告警、机房环境监控告警等数据中心相关的监控告警。服务器硬件层监控主要通过自动化运维平台采用IPMI协议通过BMC端口抓取底层硬件日志,从而获取告警数据,如图4。系统层的监控主要通过调用zabbix API获取zabbix告警从界面展示出来。网络设备和网络端口的监控主要通过调用Cacti的监控数据实现监控统一。机房环境监控主要通过获取服务器BMC进风口传感器数据,通过IPMI协议的“Inlet_Temp”字段获取数据,由于该自动化运维平台所属数据中心有多品牌、多型号服务器,每个型号的服务器对应IPMI的该字段不同。 l 集中远程KVM虚拟桌面 我们对大部分服务器都配置了BMC带外管理系统,接有独立的网络环境,我们可以通过BMC带外管理系统进行远程开机、关机、重启以及打开KVM虚拟桌面。不过在DBLOS系统开发以前无法集中管理,我们通过结合IPMI和jviewer实现了上述功能的集中管理,可以在一个平台实现一个或多个机房的管理。 对于远程集中开机、关机和重启的功能采用IPMI远程指令的方式,更多细节功能可参考IPMI官方文档。 本段重点介绍集中远程KVM桌面的实现方法,我们通过对BMC登录的时候进行页面Session抓取,获得登录方式,打包到Cookie中,携带该Cookie请求KVM的jviewer.jnlp文件,下载完该jnlp文件后使用java打开即可。 l 其他功能 为便于数据中心值班人员查看值班表以及填写每班次的值班报告等信息,在自动化运维平台上增加了值班日报填写和值班表查看等功能。值班表采用了前端的fullcalendar插件,值班日报采用jQuery的Table插件。 系统设置功能涵盖了对各个模块的参数控制,如温度采集的间隔、机柜最高溫告警设置、告警对象设置等。 4 数据中心生命周期管理研究 随着中国搜索业务的高速发展,存在着新增业务、变更业务、扩展(或缩减)业务等复杂的循环周期,数据中心需要根据业务的生命周期进行快速支撑,IT设备也需要根据业务的变动而随时调配使用。 针对以上的问题我们对数据中心整个生命周期运转设计了闭环流程: 如何尽可能地使上述环节实现自动化管理,是我们日后的工作方向。我们理想的状态是重新需求开始只需在电子工单系统上进行相关确认审核即可完成整个流程的闭环。具体流程为: 1) 新需求:业务团队在电子工单系统提交设备使用需求; 2) 新设备上架:此处的新设备是指从库存取出或新购设备,在线上统称为新设备; 3) 新业务上线:应用运维团队将业务同步至新设备并进行相关统一配置; 4) 系统信息维护:主要是运行过程中的运维工作,可自动化监控、告警、报修、反馈等; 5) 业务下线:业务团队通过电子工单系统提交下线需求,相关负责人审批完成后即可进行自动化业务下线操作; 6) 资产回收或报废:根据下线需求的电子工单进行自动化设备关机观察、资产回收、通知相关人员。如服务器服役超时将自动化标记报废并通知相关负责人进行报废处理; 7) 系统重装:回收或新购的服务器通过API方式与电子工单系统结合,进行自动化系统重装; 8) 待分配状态:主要是完成系统重装后将该资产放置库存待分配的状态,以进行后续环节的操作。 5结语 中国搜索数据中心自动化运维平台是结合自身业务情况和数据中心现状进行设计的,目前已完成研发,处于试运行阶段。欢迎媒体行业数据中心管理人员相互交流。 参考文献: [1] Cobblermanuals. Cobbler官方网站. [2] Intelligent Platform Management Interface Specification Second Generation v2.0. Intel官方网站. 【通联编辑:光文玲】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。