高校信息系统运维自动化的研究与实践
陆春 黄杰 陈 云
摘 要:信息系统运维自动化是高质、高效运维工作的重要途径和发展方向。本文首先介绍国内外信息系统运维自动化的现状,分析了我校运维工作存在的问题,阐述了运维自动化体系框架,并系统地介绍了我校在基础数据资料库的建设、自动配置系统环境、自动监控和报警、自动日志收集与管理等运维自动化的探索和应用。
关键词:自动化;配置管理;运维服务
中图分类号:TP315 文献标志码:B 文章编号:1673-8454(2014)05-0085-03
一、引言
近年来随着高校IT建设的不断发展,业务发展与服务规模不断扩大,业务系统的部署频繁更新,IT设备及硬件不断扩张,随之而来的是运维工作日趋复杂。操作系统运维、应用服务器运维、网络运维、安全运维等无论哪个方面出现问题,都会影响业务系统的正常使用。据市场研究机构Gartner调查发现,在导致l T基础设施出现故障的原因中,源自技术或产品方面的因素其实只占了20%,而源自运维管理方面的因素则占80%,lT运维的重要性由此可见一斑。[1]虽然各高校IT部门已针对性发布了运维管理制度与工作流程,但是普遍存在运维管理效率低下、问题屡屡发生、IT运维人员疲于奔命等问题。随着IT运维管理工作的复杂度和难度的急剧增加,仅靠几位运维工程师人工管理已经力不从心,开始需要运用专业化、标准化和流程化的技术手段,来实现运维工作的自动化管理。因此,对于越来越复杂的IT运维来说,将人工操作转变为自动化管理是高校IT运维的必然趋势。[2]
运维自动化是指将手工执行的日常运维工作,通过自动化的手段实现,并与运维流程结合,实现基于事件流程化管理。[3]高校信息化部门在运维工作中通过运用标准化的应对机制和流程化的管理模式、自动化技术及工具,减少事件响应时间,降低运维成本,提高服务质量,逐步实现IT运维的自动化和自助化。其必要性具体包括:
(1)提升运维服务的可控性:运维自动化基于运维服务标准的流程,提升运维服务的可控性。
(2)提升运维服务的透明度:运维自动化将改变手工运维可能造成错误和失误,通过可视化界面,监测整个运维的运行状态,提升了运维服务的透明度。
(3)降低运维服务的成本:运维自动化的实现,将打造出“全局自动化平台监管、全天候服务监控和异常情况自动报警、简单事故自动化修复”的保障平台,摆脱日常、大量、简单、重复的人工操作带来较高人力成本,降低运维工程师对事件处理的波动性带来的风险。
二、国内外运维自动化的应用现状
根据自动化运维服务商Puppet labs发布的2013自动化运维报告显示,Puppet的用户包含Zynga、Twitter、纽交所、迪士尼、Citrix,以及国内许多互联网公司(百度、新浪、淘宝等)。[4] Puppet labs调查了超过4000名IT运维和开发专业人员表明,在各种规模的组织中正加速开发运维的市场。2012年使用自动化运维的组织达到63%,这一数据比2011年高出26个百分点。调查还显示,没有使用自动化运维的组织只占被调查者数量的9%。采用自动化运维后,生成代码速度提升30倍,完成部署的速度提高8000倍,减少50%失败概率,恢复系统的速度提高12倍。[4]
国内大型互联网公司最先引入运维自动化技术,如阿里巴巴、搜狐、网易等都建立了自动化运维体系。阿里巴巴成立了技术平台部专门负责运维自动化方面的研究和规划。搜狐的网络运营部研发了super agent(自动化运维管理工具)简化运维工作,进行科学的运维管理。腾讯在2013年中国系统架构师大会上介绍了自主研发的云平台组件来实现运维自动化。
目前,国内一些高校已经开始高度重视运维服务工作,在运维服务管理、流程化与规范化、运维队伍建设等方面取得了不同程度的效果。[5]-[8]自动化运维在高校领域尚处于探索和小范围尝试阶段。
三、我校运维自动化整体规划
我校运维自动化整体框架包括以下几个部分:配置管理数据库、自动安装系统、自动配置环境、自动添加监控和报警、自动日志收集与管理、自动发布应用、自动上下线、自动扩容/缩容、自动生成运维报表、移动运维等十个方面。体系框架如图1所示。
(1)配置管理数据库:存储了IT架构中软件和硬件的各种配置信息,是最重要的信息数据,也是运维自动化的重要数据基础。
(2)自动安装系统:通过Web界面,收集服务器的配置信息,通过自动装机平台,对新上架的服务器统一批量安装标准化的操作系统。我校计划基于cobbler工具,研究和开发自动装机平台。
(3)自动配置环境:操作系统安装完成之后,对系统初始化配置、系统参数配置与优化、系统升级和安全补丁、防火墙配置,软件安装与参数配置等大量繁重工作通过集中配置管理平台来完成。
(4)自动添加监控和报警:新的服务器上线和新的业务系统上线后,随之而来的是对新增设备和业务系统的监控,自动化监控平台对新增的服务器增加标准化的监控项和报警点,对新增业务系统增加标准化的业务监控项和报警点。确保监控无遗漏、无死点。自动日志收集与管理:无论是服务器还是业务系统,都在产生大量的日志数据,有效的收集和储存日志数据,不仅方便统一查询和管理,也对研发和运维工程师提供了系统运行状况和服务器运行状态等指标的掌控。
(5)自动应用发布:学校业务管理水平不断提升,业务系统也要适应学校的管理手段,不断的改进和优化,软件的更新和发布工作占据了运维工作的一个重要部分,为了降低重复工作占用日常运维的宝贵时间,减少业务停机维护时间,保证软件发布的成功率。
(6)自动上线下线:通过自动判断业务系统的健康程度实现有故障的业务系统自动下线,降低对用户的影响。待业务系统恢复健康后,自动上线。
(7)自动扩容缩容:遇到访问量突然增加的情况时,自动增加服务器的数量,增加业务系统的处理能力,满足用户访问的需求。
(8)自动生成运维报表:制定运维关键KPI,定期自动生成运维报表、为以后的运维工作提供数据支撑。
(9)移动运维:任何时间任何地点,通过使用移动终端和设备开展运维工作。打破工作只能在办公室进行的局限,提高突发事件处置的响应时间。
四、我校运维自动化实践
1.IT运维中面临的问题
我校信息系统规模化建设工作从2003年开始,随着学校各信息系统包括门户、人事管理、财务管理、教学管理、科研管理、学工管理、资产管理、招生管理、办公自动化、校园卡等系统逐渐投入使用,系统运维工作人员的负荷日夜繁重,用户对运维要求却不断提高。运维工作涉及面广,主要内容如表1所示。
(1)服务器数量、应用系统数量持续增加,运维工作量快速增长,运维人员压力较大。系统架构变得更加复杂,故障点分布离散。故障定位与分析需要更长时间。
(2)业务系统迭代速度加快,业务系统频繁更新、上线,对运维管理、运维自动化技术和响应时间提出更高要求。
(3)国内外大型互联网公司通常自主研发运维自动化工具和平台,运维自动化技术通常掌握在国内外大型互联网公司内部,很难获取最新技术资料。
(4)我校运维研发人员有限,从零开发运维自动化工具不现实。运维自动化开源工具大都是国外开源产品,一般只能从官方文档汲取有限的技术资料。需要投入大量的人力和时间去研究和测试。
运维工作的复杂性已经客观上要求IT运维必须能够实现标准化、自动化运维:通过将日常IT运维中大量的重复性工作。小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,过去的手工执行转为自动化操作,不仅可以减少乃至消除运维中的延迟,实现“零延时”的IT运维。而且自动化的流程和配置降低了犯错的可能性。提高了运维效率,降低了运维风险。
2.自动化运维实践
我校运维工作基于ITIL标准,建立了运维服务管理规范,内容包括配置管理基础数据库、事件管理、变更管理、发布管理、问题管理。并采用atlassian公司的JIRA产品成功实施了ITIL运维服务,已基本完成配置管理数据库、自动配置环境、自动添加监控和报警、自动日志收集与管理等自动化运维平台。
根据运维自动化整体规划,基于CMDBuild建立了完善的配置管理数据库。内容涵盖了软件、硬件、房产、人员、机构、主机、域名、网络、ip、集群、账号、端口、存储卷、应用实例等基础数据。
基于puppet基本实现了集中配置管理平台的研究、开发、部署上线。内容包含了dns设置、ntp时间同步、iptables防火墙设置、sysctl系统参数配置、apache服务安装配置、jdk安装配置、tomcat安装配置、mysql安装配置、php安装配置、zabbix安装配置、puppet安装配置、tengine安装配置、logstash安装配置。对于服务器集群,集中配置管理平台能够发挥很大的作用,能够在较短的时间内,将配置信息发送到服务器集群,并执行配置,完成服务器集群下的配置应用和变更。运维管理员只需要编写几行调用的代码,提交到版本库中,集中配置管理平台就能够在几分钟内完成以前几十个小时才能完成的任务。
基于zabbix工具基本实现了多维度、立体化、自动化的监控和报警平台。监控项涵盖了Oracle数据库集群、MySql数据库、服务器、Java中间件、Web应用系统、负载均衡设备、vsphere虚拟化平台。通过对各层次数据的展示和报警设置,快速直观地发现和定位故障、反应业务的容量和性能,对各维度、各层次数据的量化,展现业务运行的状态。
基于logstash、ElasticSearch、Kibana、redis等工具建立了日志自动收集与管理平台。日志数据包含了所有线上业务系统的访问日志和报错日志以及操作系统核心日志。日志中蕴含着反映系统运行状态和用户行为的信息,日志信息关系到系统安全与稳定,以及用户的访问习惯和方式, 日志自动收集与管理平台,方便日志的统一存储、管理、分析,可以避免日志丢失,还可以保障日志数据的安全可靠,方便提供运维和研发人员统一检索和分析,为以后数据分析和数据挖掘保留了宝贵的历史数据和资料。
目前正基于rundeck工具进行自动发布平台的研究和建设,目前已经取得阶段性进展。实现了各个线上业务系统自动化启动、关闭、重启、状态查看等功能。方便日常运维中对各个业务系统的重启、关闭等常规操作,推进日常运维操作标准化、自助化。
自动安装系统、自动上线下线、自动扩容缩容、自动生成运维报表和移动运维等自动化运维工作将作为下一步实施和上线的工作。自动化运维建设初显成效。
五、结束语
随着虚拟化和云计算技术的不断发展,基于高校云环境下数据中心的自动化运维带来的优势将更加突显。我校将基于运维自动化的规划,完善自动化运维平台建设,在运维自动化的道路上不断探索,寻找适合高校实施和运行的运维自动化模式和技术支撑平台。
参考文献:
[1]张晓明.IT运维自动化技术在电力系统内的应用[J].数字技术与应用,2012,11.
[2]袁芳,沈立强,戚丽等.运维服务管理标准在高校的应用研究[J].实验技术与管理,2008, 25(7):10-13.
[3]梁春丽.IT 运维管理 自动化是关键[J].金融科技时代,2012(2):016.
[4]2013-state-of-devops-report.Puppet lab:https://puppetlabs.com/wp-content/uploads/2013/03/2013-state-of-devops-report.pdf, 2013,3.
[5]蒋东兴,宓泳,郭清顺.高校信息化发展现状与政策建议[J].中国教育信息化,2009(15):27-30.
[6]吴慧韫,王海威,王玉平.基于ITIL数字校园运维服务体系的构建[J].计算机与现代化, 2012(9):026.
[7]http://inc.sysu.edu.cn/its/its01/85245.htm.
[8]张珂.基于ITIL的高校校园网运维管理模式的研究[J].中国教育信息化,2011(5):009.
(编辑:杨馥红)
(8)自动生成运维报表:制定运维关键KPI,定期自动生成运维报表、为以后的运维工作提供数据支撑。
(9)移动运维:任何时间任何地点,通过使用移动终端和设备开展运维工作。打破工作只能在办公室进行的局限,提高突发事件处置的响应时间。
四、我校运维自动化实践
1.IT运维中面临的问题
我校信息系统规模化建设工作从2003年开始,随着学校各信息系统包括门户、人事管理、财务管理、教学管理、科研管理、学工管理、资产管理、招生管理、办公自动化、校园卡等系统逐渐投入使用,系统运维工作人员的负荷日夜繁重,用户对运维要求却不断提高。运维工作涉及面广,主要内容如表1所示。
(1)服务器数量、应用系统数量持续增加,运维工作量快速增长,运维人员压力较大。系统架构变得更加复杂,故障点分布离散。故障定位与分析需要更长时间。
(2)业务系统迭代速度加快,业务系统频繁更新、上线,对运维管理、运维自动化技术和响应时间提出更高要求。
(3)国内外大型互联网公司通常自主研发运维自动化工具和平台,运维自动化技术通常掌握在国内外大型互联网公司内部,很难获取最新技术资料。
(4)我校运维研发人员有限,从零开发运维自动化工具不现实。运维自动化开源工具大都是国外开源产品,一般只能从官方文档汲取有限的技术资料。需要投入大量的人力和时间去研究和测试。
运维工作的复杂性已经客观上要求IT运维必须能够实现标准化、自动化运维:通过将日常IT运维中大量的重复性工作。小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,过去的手工执行转为自动化操作,不仅可以减少乃至消除运维中的延迟,实现“零延时”的IT运维。而且自动化的流程和配置降低了犯错的可能性。提高了运维效率,降低了运维风险。
2.自动化运维实践
我校运维工作基于ITIL标准,建立了运维服务管理规范,内容包括配置管理基础数据库、事件管理、变更管理、发布管理、问题管理。并采用atlassian公司的JIRA产品成功实施了ITIL运维服务,已基本完成配置管理数据库、自动配置环境、自动添加监控和报警、自动日志收集与管理等自动化运维平台。
根据运维自动化整体规划,基于CMDBuild建立了完善的配置管理数据库。内容涵盖了软件、硬件、房产、人员、机构、主机、域名、网络、ip、集群、账号、端口、存储卷、应用实例等基础数据。
基于puppet基本实现了集中配置管理平台的研究、开发、部署上线。内容包含了dns设置、ntp时间同步、iptables防火墙设置、sysctl系统参数配置、apache服务安装配置、jdk安装配置、tomcat安装配置、mysql安装配置、php安装配置、zabbix安装配置、puppet安装配置、tengine安装配置、logstash安装配置。对于服务器集群,集中配置管理平台能够发挥很大的作用,能够在较短的时间内,将配置信息发送到服务器集群,并执行配置,完成服务器集群下的配置应用和变更。运维管理员只需要编写几行调用的代码,提交到版本库中,集中配置管理平台就能够在几分钟内完成以前几十个小时才能完成的任务。
基于zabbix工具基本实现了多维度、立体化、自动化的监控和报警平台。监控项涵盖了Oracle数据库集群、MySql数据库、服务器、Java中间件、Web应用系统、负载均衡设备、vsphere虚拟化平台。通过对各层次数据的展示和报警设置,快速直观地发现和定位故障、反应业务的容量和性能,对各维度、各层次数据的量化,展现业务运行的状态。
基于logstash、ElasticSearch、Kibana、redis等工具建立了日志自动收集与管理平台。日志数据包含了所有线上业务系统的访问日志和报错日志以及操作系统核心日志。日志中蕴含着反映系统运行状态和用户行为的信息,日志信息关系到系统安全与稳定,以及用户的访问习惯和方式, 日志自动收集与管理平台,方便日志的统一存储、管理、分析,可以避免日志丢失,还可以保障日志数据的安全可靠,方便提供运维和研发人员统一检索和分析,为以后数据分析和数据挖掘保留了宝贵的历史数据和资料。
目前正基于rundeck工具进行自动发布平台的研究和建设,目前已经取得阶段性进展。实现了各个线上业务系统自动化启动、关闭、重启、状态查看等功能。方便日常运维中对各个业务系统的重启、关闭等常规操作,推进日常运维操作标准化、自助化。
自动安装系统、自动上线下线、自动扩容缩容、自动生成运维报表和移动运维等自动化运维工作将作为下一步实施和上线的工作。自动化运维建设初显成效。
五、结束语
随着虚拟化和云计算技术的不断发展,基于高校云环境下数据中心的自动化运维带来的优势将更加突显。我校将基于运维自动化的规划,完善自动化运维平台建设,在运维自动化的道路上不断探索,寻找适合高校实施和运行的运维自动化模式和技术支撑平台。
参考文献:
[1]张晓明.IT运维自动化技术在电力系统内的应用[J].数字技术与应用,2012,11.
[2]袁芳,沈立强,戚丽等.运维服务管理标准在高校的应用研究[J].实验技术与管理,2008, 25(7):10-13.
[3]梁春丽.IT 运维管理 自动化是关键[J].金融科技时代,2012(2):016.
[4]2013-state-of-devops-report.Puppet lab:https://puppetlabs.com/wp-content/uploads/2013/03/2013-state-of-devops-report.pdf, 2013,3.
[5]蒋东兴,宓泳,郭清顺.高校信息化发展现状与政策建议[J].中国教育信息化,2009(15):27-30.
[6]吴慧韫,王海威,王玉平.基于ITIL数字校园运维服务体系的构建[J].计算机与现代化, 2012(9):026.
[7]http://inc.sysu.edu.cn/its/its01/85245.htm.
[8]张珂.基于ITIL的高校校园网运维管理模式的研究[J].中国教育信息化,2011(5):009.
(编辑:杨馥红)
(8)自动生成运维报表:制定运维关键KPI,定期自动生成运维报表、为以后的运维工作提供数据支撑。
(9)移动运维:任何时间任何地点,通过使用移动终端和设备开展运维工作。打破工作只能在办公室进行的局限,提高突发事件处置的响应时间。
四、我校运维自动化实践
1.IT运维中面临的问题
我校信息系统规模化建设工作从2003年开始,随着学校各信息系统包括门户、人事管理、财务管理、教学管理、科研管理、学工管理、资产管理、招生管理、办公自动化、校园卡等系统逐渐投入使用,系统运维工作人员的负荷日夜繁重,用户对运维要求却不断提高。运维工作涉及面广,主要内容如表1所示。
(1)服务器数量、应用系统数量持续增加,运维工作量快速增长,运维人员压力较大。系统架构变得更加复杂,故障点分布离散。故障定位与分析需要更长时间。
(2)业务系统迭代速度加快,业务系统频繁更新、上线,对运维管理、运维自动化技术和响应时间提出更高要求。
(3)国内外大型互联网公司通常自主研发运维自动化工具和平台,运维自动化技术通常掌握在国内外大型互联网公司内部,很难获取最新技术资料。
(4)我校运维研发人员有限,从零开发运维自动化工具不现实。运维自动化开源工具大都是国外开源产品,一般只能从官方文档汲取有限的技术资料。需要投入大量的人力和时间去研究和测试。
运维工作的复杂性已经客观上要求IT运维必须能够实现标准化、自动化运维:通过将日常IT运维中大量的重复性工作。小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,过去的手工执行转为自动化操作,不仅可以减少乃至消除运维中的延迟,实现“零延时”的IT运维。而且自动化的流程和配置降低了犯错的可能性。提高了运维效率,降低了运维风险。
2.自动化运维实践
我校运维工作基于ITIL标准,建立了运维服务管理规范,内容包括配置管理基础数据库、事件管理、变更管理、发布管理、问题管理。并采用atlassian公司的JIRA产品成功实施了ITIL运维服务,已基本完成配置管理数据库、自动配置环境、自动添加监控和报警、自动日志收集与管理等自动化运维平台。
根据运维自动化整体规划,基于CMDBuild建立了完善的配置管理数据库。内容涵盖了软件、硬件、房产、人员、机构、主机、域名、网络、ip、集群、账号、端口、存储卷、应用实例等基础数据。
基于puppet基本实现了集中配置管理平台的研究、开发、部署上线。内容包含了dns设置、ntp时间同步、iptables防火墙设置、sysctl系统参数配置、apache服务安装配置、jdk安装配置、tomcat安装配置、mysql安装配置、php安装配置、zabbix安装配置、puppet安装配置、tengine安装配置、logstash安装配置。对于服务器集群,集中配置管理平台能够发挥很大的作用,能够在较短的时间内,将配置信息发送到服务器集群,并执行配置,完成服务器集群下的配置应用和变更。运维管理员只需要编写几行调用的代码,提交到版本库中,集中配置管理平台就能够在几分钟内完成以前几十个小时才能完成的任务。
基于zabbix工具基本实现了多维度、立体化、自动化的监控和报警平台。监控项涵盖了Oracle数据库集群、MySql数据库、服务器、Java中间件、Web应用系统、负载均衡设备、vsphere虚拟化平台。通过对各层次数据的展示和报警设置,快速直观地发现和定位故障、反应业务的容量和性能,对各维度、各层次数据的量化,展现业务运行的状态。
基于logstash、ElasticSearch、Kibana、redis等工具建立了日志自动收集与管理平台。日志数据包含了所有线上业务系统的访问日志和报错日志以及操作系统核心日志。日志中蕴含着反映系统运行状态和用户行为的信息,日志信息关系到系统安全与稳定,以及用户的访问习惯和方式, 日志自动收集与管理平台,方便日志的统一存储、管理、分析,可以避免日志丢失,还可以保障日志数据的安全可靠,方便提供运维和研发人员统一检索和分析,为以后数据分析和数据挖掘保留了宝贵的历史数据和资料。
目前正基于rundeck工具进行自动发布平台的研究和建设,目前已经取得阶段性进展。实现了各个线上业务系统自动化启动、关闭、重启、状态查看等功能。方便日常运维中对各个业务系统的重启、关闭等常规操作,推进日常运维操作标准化、自助化。
自动安装系统、自动上线下线、自动扩容缩容、自动生成运维报表和移动运维等自动化运维工作将作为下一步实施和上线的工作。自动化运维建设初显成效。
五、结束语
随着虚拟化和云计算技术的不断发展,基于高校云环境下数据中心的自动化运维带来的优势将更加突显。我校将基于运维自动化的规划,完善自动化运维平台建设,在运维自动化的道路上不断探索,寻找适合高校实施和运行的运维自动化模式和技术支撑平台。
参考文献:
[1]张晓明.IT运维自动化技术在电力系统内的应用[J].数字技术与应用,2012,11.
[2]袁芳,沈立强,戚丽等.运维服务管理标准在高校的应用研究[J].实验技术与管理,2008, 25(7):10-13.
[3]梁春丽.IT 运维管理 自动化是关键[J].金融科技时代,2012(2):016.
[4]2013-state-of-devops-report.Puppet lab:https://puppetlabs.com/wp-content/uploads/2013/03/2013-state-of-devops-report.pdf, 2013,3.
[5]蒋东兴,宓泳,郭清顺.高校信息化发展现状与政策建议[J].中国教育信息化,2009(15):27-30.
[6]吴慧韫,王海威,王玉平.基于ITIL数字校园运维服务体系的构建[J].计算机与现代化, 2012(9):026.
[7]http://inc.sysu.edu.cn/its/its01/85245.htm.
[8]张珂.基于ITIL的高校校园网运维管理模式的研究[J].中国教育信息化,2011(5):009.
(编辑:杨馥红)
摘 要:信息系统运维自动化是高质、高效运维工作的重要途径和发展方向。本文首先介绍国内外信息系统运维自动化的现状,分析了我校运维工作存在的问题,阐述了运维自动化体系框架,并系统地介绍了我校在基础数据资料库的建设、自动配置系统环境、自动监控和报警、自动日志收集与管理等运维自动化的探索和应用。
关键词:自动化;配置管理;运维服务
中图分类号:TP315 文献标志码:B 文章编号:1673-8454(2014)05-0085-03
一、引言
近年来随着高校IT建设的不断发展,业务发展与服务规模不断扩大,业务系统的部署频繁更新,IT设备及硬件不断扩张,随之而来的是运维工作日趋复杂。操作系统运维、应用服务器运维、网络运维、安全运维等无论哪个方面出现问题,都会影响业务系统的正常使用。据市场研究机构Gartner调查发现,在导致l T基础设施出现故障的原因中,源自技术或产品方面的因素其实只占了20%,而源自运维管理方面的因素则占80%,lT运维的重要性由此可见一斑。[1]虽然各高校IT部门已针对性发布了运维管理制度与工作流程,但是普遍存在运维管理效率低下、问题屡屡发生、IT运维人员疲于奔命等问题。随着IT运维管理工作的复杂度和难度的急剧增加,仅靠几位运维工程师人工管理已经力不从心,开始需要运用专业化、标准化和流程化的技术手段,来实现运维工作的自动化管理。因此,对于越来越复杂的IT运维来说,将人工操作转变为自动化管理是高校IT运维的必然趋势。[2]
运维自动化是指将手工执行的日常运维工作,通过自动化的手段实现,并与运维流程结合,实现基于事件流程化管理。[3]高校信息化部门在运维工作中通过运用标准化的应对机制和流程化的管理模式、自动化技术及工具,减少事件响应时间,降低运维成本,提高服务质量,逐步实现IT运维的自动化和自助化。其必要性具体包括:
(1)提升运维服务的可控性:运维自动化基于运维服务标准的流程,提升运维服务的可控性。
(2)提升运维服务的透明度:运维自动化将改变手工运维可能造成错误和失误,通过可视化界面,监测整个运维的运行状态,提升了运维服务的透明度。
(3)降低运维服务的成本:运维自动化的实现,将打造出“全局自动化平台监管、全天候服务监控和异常情况自动报警、简单事故自动化修复”的保障平台,摆脱日常、大量、简单、重复的人工操作带来较高人力成本,降低运维工程师对事件处理的波动性带来的风险。
二、国内外运维自动化的应用现状
根据自动化运维服务商Puppet labs发布的2013自动化运维报告显示,Puppet的用户包含Zynga、Twitter、纽交所、迪士尼、Citrix,以及国内许多互联网公司(百度、新浪、淘宝等)。[4] Puppet labs调查了超过4000名IT运维和开发专业人员表明,在各种规模的组织中正加速开发运维的市场。2012年使用自动化运维的组织达到63%,这一数据比2011年高出26个百分点。调查还显示,没有使用自动化运维的组织只占被调查者数量的9%。采用自动化运维后,生成代码速度提升30倍,完成部署的速度提高8000倍,减少50%失败概率,恢复系统的速度提高12倍。[4]
国内大型互联网公司最先引入运维自动化技术,如阿里巴巴、搜狐、网易等都建立了自动化运维体系。阿里巴巴成立了技术平台部专门负责运维自动化方面的研究和规划。搜狐的网络运营部研发了super agent(自动化运维管理工具)简化运维工作,进行科学的运维管理。腾讯在2013年中国系统架构师大会上介绍了自主研发的云平台组件来实现运维自动化。
目前,国内一些高校已经开始高度重视运维服务工作,在运维服务管理、流程化与规范化、运维队伍建设等方面取得了不同程度的效果。[5]-[8]自动化运维在高校领域尚处于探索和小范围尝试阶段。
三、我校运维自动化整体规划
我校运维自动化整体框架包括以下几个部分:配置管理数据库、自动安装系统、自动配置环境、自动添加监控和报警、自动日志收集与管理、自动发布应用、自动上下线、自动扩容/缩容、自动生成运维报表、移动运维等十个方面。体系框架如图1所示。
(1)配置管理数据库:存储了IT架构中软件和硬件的各种配置信息,是最重要的信息数据,也是运维自动化的重要数据基础。
(2)自动安装系统:通过Web界面,收集服务器的配置信息,通过自动装机平台,对新上架的服务器统一批量安装标准化的操作系统。我校计划基于cobbler工具,研究和开发自动装机平台。
(3)自动配置环境:操作系统安装完成之后,对系统初始化配置、系统参数配置与优化、系统升级和安全补丁、防火墙配置,软件安装与参数配置等大量繁重工作通过集中配置管理平台来完成。
(4)自动添加监控和报警:新的服务器上线和新的业务系统上线后,随之而来的是对新增设备和业务系统的监控,自动化监控平台对新增的服务器增加标准化的监控项和报警点,对新增业务系统增加标准化的业务监控项和报警点。确保监控无遗漏、无死点。自动日志收集与管理:无论是服务器还是业务系统,都在产生大量的日志数据,有效的收集和储存日志数据,不仅方便统一查询和管理,也对研发和运维工程师提供了系统运行状况和服务器运行状态等指标的掌控。
(5)自动应用发布:学校业务管理水平不断提升,业务系统也要适应学校的管理手段,不断的改进和优化,软件的更新和发布工作占据了运维工作的一个重要部分,为了降低重复工作占用日常运维的宝贵时间,减少业务停机维护时间,保证软件发布的成功率。
(6)自动上线下线:通过自动判断业务系统的健康程度实现有故障的业务系统自动下线,降低对用户的影响。待业务系统恢复健康后,自动上线。
(7)自动扩容缩容:遇到访问量突然增加的情况时,自动增加服务器的数量,增加业务系统的处理能力,满足用户访问的需求。
(8)自动生成运维报表:制定运维关键KPI,定期自动生成运维报表、为以后的运维工作提供数据支撑。
(9)移动运维:任何时间任何地点,通过使用移动终端和设备开展运维工作。打破工作只能在办公室进行的局限,提高突发事件处置的响应时间。
四、我校运维自动化实践
1.IT运维中面临的问题
我校信息系统规模化建设工作从2003年开始,随着学校各信息系统包括门户、人事管理、财务管理、教学管理、科研管理、学工管理、资产管理、招生管理、办公自动化、校园卡等系统逐渐投入使用,系统运维工作人员的负荷日夜繁重,用户对运维要求却不断提高。运维工作涉及面广,主要内容如表1所示。
(1)服务器数量、应用系统数量持续增加,运维工作量快速增长,运维人员压力较大。系统架构变得更加复杂,故障点分布离散。故障定位与分析需要更长时间。
(2)业务系统迭代速度加快,业务系统频繁更新、上线,对运维管理、运维自动化技术和响应时间提出更高要求。
(3)国内外大型互联网公司通常自主研发运维自动化工具和平台,运维自动化技术通常掌握在国内外大型互联网公司内部,很难获取最新技术资料。
(4)我校运维研发人员有限,从零开发运维自动化工具不现实。运维自动化开源工具大都是国外开源产品,一般只能从官方文档汲取有限的技术资料。需要投入大量的人力和时间去研究和测试。
运维工作的复杂性已经客观上要求IT运维必须能够实现标准化、自动化运维:通过将日常IT运维中大量的重复性工作。小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,过去的手工执行转为自动化操作,不仅可以减少乃至消除运维中的延迟,实现“零延时”的IT运维。而且自动化的流程和配置降低了犯错的可能性。提高了运维效率,降低了运维风险。
2.自动化运维实践
我校运维工作基于ITIL标准,建立了运维服务管理规范,内容包括配置管理基础数据库、事件管理、变更管理、发布管理、问题管理。并采用atlassian公司的JIRA产品成功实施了ITIL运维服务,已基本完成配置管理数据库、自动配置环境、自动添加监控和报警、自动日志收集与管理等自动化运维平台。
根据运维自动化整体规划,基于CMDBuild建立了完善的配置管理数据库。内容涵盖了软件、硬件、房产、人员、机构、主机、域名、网络、ip、集群、账号、端口、存储卷、应用实例等基础数据。
基于puppet基本实现了集中配置管理平台的研究、开发、部署上线。内容包含了dns设置、ntp时间同步、iptables防火墙设置、sysctl系统参数配置、apache服务安装配置、jdk安装配置、tomcat安装配置、mysql安装配置、php安装配置、zabbix安装配置、puppet安装配置、tengine安装配置、logstash安装配置。对于服务器集群,集中配置管理平台能够发挥很大的作用,能够在较短的时间内,将配置信息发送到服务器集群,并执行配置,完成服务器集群下的配置应用和变更。运维管理员只需要编写几行调用的代码,提交到版本库中,集中配置管理平台就能够在几分钟内完成以前几十个小时才能完成的任务。
基于zabbix工具基本实现了多维度、立体化、自动化的监控和报警平台。监控项涵盖了Oracle数据库集群、MySql数据库、服务器、Java中间件、Web应用系统、负载均衡设备、vsphere虚拟化平台。通过对各层次数据的展示和报警设置,快速直观地发现和定位故障、反应业务的容量和性能,对各维度、各层次数据的量化,展现业务运行的状态。
基于logstash、ElasticSearch、Kibana、redis等工具建立了日志自动收集与管理平台。日志数据包含了所有线上业务系统的访问日志和报错日志以及操作系统核心日志。日志中蕴含着反映系统运行状态和用户行为的信息,日志信息关系到系统安全与稳定,以及用户的访问习惯和方式, 日志自动收集与管理平台,方便日志的统一存储、管理、分析,可以避免日志丢失,还可以保障日志数据的安全可靠,方便提供运维和研发人员统一检索和分析,为以后数据分析和数据挖掘保留了宝贵的历史数据和资料。
目前正基于rundeck工具进行自动发布平台的研究和建设,目前已经取得阶段性进展。实现了各个线上业务系统自动化启动、关闭、重启、状态查看等功能。方便日常运维中对各个业务系统的重启、关闭等常规操作,推进日常运维操作标准化、自助化。
自动安装系统、自动上线下线、自动扩容缩容、自动生成运维报表和移动运维等自动化运维工作将作为下一步实施和上线的工作。自动化运维建设初显成效。
五、结束语
随着虚拟化和云计算技术的不断发展,基于高校云环境下数据中心的自动化运维带来的优势将更加突显。我校将基于运维自动化的规划,完善自动化运维平台建设,在运维自动化的道路上不断探索,寻找适合高校实施和运行的运维自动化模式和技术支撑平台。
参考文献:
[1]张晓明.IT运维自动化技术在电力系统内的应用[J].数字技术与应用,2012,11.
[2]袁芳,沈立强,戚丽等.运维服务管理标准在高校的应用研究[J].实验技术与管理,2008, 25(7):10-13.
[3]梁春丽.IT 运维管理 自动化是关键[J].金融科技时代,2012(2):016.
[4]2013-state-of-devops-report.Puppet lab:https://puppetlabs.com/wp-content/uploads/2013/03/2013-state-of-devops-report.pdf, 2013,3.
[5]蒋东兴,宓泳,郭清顺.高校信息化发展现状与政策建议[J].中国教育信息化,2009(15):27-30.
[6]吴慧韫,王海威,王玉平.基于ITIL数字校园运维服务体系的构建[J].计算机与现代化, 2012(9):026.
[7]http://inc.sysu.edu.cn/its/its01/85245.htm.
[8]张珂.基于ITIL的高校校园网运维管理模式的研究[J].中国教育信息化,2011(5):009.
(编辑:杨馥红)
(8)自动生成运维报表:制定运维关键KPI,定期自动生成运维报表、为以后的运维工作提供数据支撑。
(9)移动运维:任何时间任何地点,通过使用移动终端和设备开展运维工作。打破工作只能在办公室进行的局限,提高突发事件处置的响应时间。
四、我校运维自动化实践
1.IT运维中面临的问题
我校信息系统规模化建设工作从2003年开始,随着学校各信息系统包括门户、人事管理、财务管理、教学管理、科研管理、学工管理、资产管理、招生管理、办公自动化、校园卡等系统逐渐投入使用,系统运维工作人员的负荷日夜繁重,用户对运维要求却不断提高。运维工作涉及面广,主要内容如表1所示。
(1)服务器数量、应用系统数量持续增加,运维工作量快速增长,运维人员压力较大。系统架构变得更加复杂,故障点分布离散。故障定位与分析需要更长时间。
(2)业务系统迭代速度加快,业务系统频繁更新、上线,对运维管理、运维自动化技术和响应时间提出更高要求。
(3)国内外大型互联网公司通常自主研发运维自动化工具和平台,运维自动化技术通常掌握在国内外大型互联网公司内部,很难获取最新技术资料。
(4)我校运维研发人员有限,从零开发运维自动化工具不现实。运维自动化开源工具大都是国外开源产品,一般只能从官方文档汲取有限的技术资料。需要投入大量的人力和时间去研究和测试。
运维工作的复杂性已经客观上要求IT运维必须能够实现标准化、自动化运维:通过将日常IT运维中大量的重复性工作。小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,过去的手工执行转为自动化操作,不仅可以减少乃至消除运维中的延迟,实现“零延时”的IT运维。而且自动化的流程和配置降低了犯错的可能性。提高了运维效率,降低了运维风险。
2.自动化运维实践
我校运维工作基于ITIL标准,建立了运维服务管理规范,内容包括配置管理基础数据库、事件管理、变更管理、发布管理、问题管理。并采用atlassian公司的JIRA产品成功实施了ITIL运维服务,已基本完成配置管理数据库、自动配置环境、自动添加监控和报警、自动日志收集与管理等自动化运维平台。
根据运维自动化整体规划,基于CMDBuild建立了完善的配置管理数据库。内容涵盖了软件、硬件、房产、人员、机构、主机、域名、网络、ip、集群、账号、端口、存储卷、应用实例等基础数据。
基于puppet基本实现了集中配置管理平台的研究、开发、部署上线。内容包含了dns设置、ntp时间同步、iptables防火墙设置、sysctl系统参数配置、apache服务安装配置、jdk安装配置、tomcat安装配置、mysql安装配置、php安装配置、zabbix安装配置、puppet安装配置、tengine安装配置、logstash安装配置。对于服务器集群,集中配置管理平台能够发挥很大的作用,能够在较短的时间内,将配置信息发送到服务器集群,并执行配置,完成服务器集群下的配置应用和变更。运维管理员只需要编写几行调用的代码,提交到版本库中,集中配置管理平台就能够在几分钟内完成以前几十个小时才能完成的任务。
基于zabbix工具基本实现了多维度、立体化、自动化的监控和报警平台。监控项涵盖了Oracle数据库集群、MySql数据库、服务器、Java中间件、Web应用系统、负载均衡设备、vsphere虚拟化平台。通过对各层次数据的展示和报警设置,快速直观地发现和定位故障、反应业务的容量和性能,对各维度、各层次数据的量化,展现业务运行的状态。
基于logstash、ElasticSearch、Kibana、redis等工具建立了日志自动收集与管理平台。日志数据包含了所有线上业务系统的访问日志和报错日志以及操作系统核心日志。日志中蕴含着反映系统运行状态和用户行为的信息,日志信息关系到系统安全与稳定,以及用户的访问习惯和方式, 日志自动收集与管理平台,方便日志的统一存储、管理、分析,可以避免日志丢失,还可以保障日志数据的安全可靠,方便提供运维和研发人员统一检索和分析,为以后数据分析和数据挖掘保留了宝贵的历史数据和资料。
目前正基于rundeck工具进行自动发布平台的研究和建设,目前已经取得阶段性进展。实现了各个线上业务系统自动化启动、关闭、重启、状态查看等功能。方便日常运维中对各个业务系统的重启、关闭等常规操作,推进日常运维操作标准化、自助化。
自动安装系统、自动上线下线、自动扩容缩容、自动生成运维报表和移动运维等自动化运维工作将作为下一步实施和上线的工作。自动化运维建设初显成效。
五、结束语
随着虚拟化和云计算技术的不断发展,基于高校云环境下数据中心的自动化运维带来的优势将更加突显。我校将基于运维自动化的规划,完善自动化运维平台建设,在运维自动化的道路上不断探索,寻找适合高校实施和运行的运维自动化模式和技术支撑平台。
参考文献:
[1]张晓明.IT运维自动化技术在电力系统内的应用[J].数字技术与应用,2012,11.
[2]袁芳,沈立强,戚丽等.运维服务管理标准在高校的应用研究[J].实验技术与管理,2008, 25(7):10-13.
[3]梁春丽.IT 运维管理 自动化是关键[J].金融科技时代,2012(2):016.
[4]2013-state-of-devops-report.Puppet lab:https://puppetlabs.com/wp-content/uploads/2013/03/2013-state-of-devops-report.pdf, 2013,3.
[5]蒋东兴,宓泳,郭清顺.高校信息化发展现状与政策建议[J].中国教育信息化,2009(15):27-30.
[6]吴慧韫,王海威,王玉平.基于ITIL数字校园运维服务体系的构建[J].计算机与现代化, 2012(9):026.
[7]http://inc.sysu.edu.cn/its/its01/85245.htm.
[8]张珂.基于ITIL的高校校园网运维管理模式的研究[J].中国教育信息化,2011(5):009.
(编辑:杨馥红)
(8)自动生成运维报表:制定运维关键KPI,定期自动生成运维报表、为以后的运维工作提供数据支撑。
(9)移动运维:任何时间任何地点,通过使用移动终端和设备开展运维工作。打破工作只能在办公室进行的局限,提高突发事件处置的响应时间。
四、我校运维自动化实践
1.IT运维中面临的问题
我校信息系统规模化建设工作从2003年开始,随着学校各信息系统包括门户、人事管理、财务管理、教学管理、科研管理、学工管理、资产管理、招生管理、办公自动化、校园卡等系统逐渐投入使用,系统运维工作人员的负荷日夜繁重,用户对运维要求却不断提高。运维工作涉及面广,主要内容如表1所示。
(1)服务器数量、应用系统数量持续增加,运维工作量快速增长,运维人员压力较大。系统架构变得更加复杂,故障点分布离散。故障定位与分析需要更长时间。
(2)业务系统迭代速度加快,业务系统频繁更新、上线,对运维管理、运维自动化技术和响应时间提出更高要求。
(3)国内外大型互联网公司通常自主研发运维自动化工具和平台,运维自动化技术通常掌握在国内外大型互联网公司内部,很难获取最新技术资料。
(4)我校运维研发人员有限,从零开发运维自动化工具不现实。运维自动化开源工具大都是国外开源产品,一般只能从官方文档汲取有限的技术资料。需要投入大量的人力和时间去研究和测试。
运维工作的复杂性已经客观上要求IT运维必须能够实现标准化、自动化运维:通过将日常IT运维中大量的重复性工作。小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,过去的手工执行转为自动化操作,不仅可以减少乃至消除运维中的延迟,实现“零延时”的IT运维。而且自动化的流程和配置降低了犯错的可能性。提高了运维效率,降低了运维风险。
2.自动化运维实践
我校运维工作基于ITIL标准,建立了运维服务管理规范,内容包括配置管理基础数据库、事件管理、变更管理、发布管理、问题管理。并采用atlassian公司的JIRA产品成功实施了ITIL运维服务,已基本完成配置管理数据库、自动配置环境、自动添加监控和报警、自动日志收集与管理等自动化运维平台。
根据运维自动化整体规划,基于CMDBuild建立了完善的配置管理数据库。内容涵盖了软件、硬件、房产、人员、机构、主机、域名、网络、ip、集群、账号、端口、存储卷、应用实例等基础数据。
基于puppet基本实现了集中配置管理平台的研究、开发、部署上线。内容包含了dns设置、ntp时间同步、iptables防火墙设置、sysctl系统参数配置、apache服务安装配置、jdk安装配置、tomcat安装配置、mysql安装配置、php安装配置、zabbix安装配置、puppet安装配置、tengine安装配置、logstash安装配置。对于服务器集群,集中配置管理平台能够发挥很大的作用,能够在较短的时间内,将配置信息发送到服务器集群,并执行配置,完成服务器集群下的配置应用和变更。运维管理员只需要编写几行调用的代码,提交到版本库中,集中配置管理平台就能够在几分钟内完成以前几十个小时才能完成的任务。
基于zabbix工具基本实现了多维度、立体化、自动化的监控和报警平台。监控项涵盖了Oracle数据库集群、MySql数据库、服务器、Java中间件、Web应用系统、负载均衡设备、vsphere虚拟化平台。通过对各层次数据的展示和报警设置,快速直观地发现和定位故障、反应业务的容量和性能,对各维度、各层次数据的量化,展现业务运行的状态。
基于logstash、ElasticSearch、Kibana、redis等工具建立了日志自动收集与管理平台。日志数据包含了所有线上业务系统的访问日志和报错日志以及操作系统核心日志。日志中蕴含着反映系统运行状态和用户行为的信息,日志信息关系到系统安全与稳定,以及用户的访问习惯和方式, 日志自动收集与管理平台,方便日志的统一存储、管理、分析,可以避免日志丢失,还可以保障日志数据的安全可靠,方便提供运维和研发人员统一检索和分析,为以后数据分析和数据挖掘保留了宝贵的历史数据和资料。
目前正基于rundeck工具进行自动发布平台的研究和建设,目前已经取得阶段性进展。实现了各个线上业务系统自动化启动、关闭、重启、状态查看等功能。方便日常运维中对各个业务系统的重启、关闭等常规操作,推进日常运维操作标准化、自助化。
自动安装系统、自动上线下线、自动扩容缩容、自动生成运维报表和移动运维等自动化运维工作将作为下一步实施和上线的工作。自动化运维建设初显成效。
五、结束语
随着虚拟化和云计算技术的不断发展,基于高校云环境下数据中心的自动化运维带来的优势将更加突显。我校将基于运维自动化的规划,完善自动化运维平台建设,在运维自动化的道路上不断探索,寻找适合高校实施和运行的运维自动化模式和技术支撑平台。
参考文献:
[1]张晓明.IT运维自动化技术在电力系统内的应用[J].数字技术与应用,2012,11.
[2]袁芳,沈立强,戚丽等.运维服务管理标准在高校的应用研究[J].实验技术与管理,2008, 25(7):10-13.
[3]梁春丽.IT 运维管理 自动化是关键[J].金融科技时代,2012(2):016.
[4]2013-state-of-devops-report.Puppet lab:https://puppetlabs.com/wp-content/uploads/2013/03/2013-state-of-devops-report.pdf, 2013,3.
[5]蒋东兴,宓泳,郭清顺.高校信息化发展现状与政策建议[J].中国教育信息化,2009(15):27-30.
[6]吴慧韫,王海威,王玉平.基于ITIL数字校园运维服务体系的构建[J].计算机与现代化, 2012(9):026.
[7]http://inc.sysu.edu.cn/its/its01/85245.htm.
[8]张珂.基于ITIL的高校校园网运维管理模式的研究[J].中国教育信息化,2011(5):009.
(编辑:杨馥红)