河南税务信息系统运维实践
刘栋
【摘? 要】随着税收信息化的深入发展,目前河南税务部门信息系统已经实现了省级集中,包括数据集中和处理集中,构建了业务数据全省集中存储、处理的省级集中平台,这对后台的运维工作带来了前所未有的压力和挑战,也使传统的运维工作从单纯的系统维护朝向统筹管理层面发展。论文主要从如何进行系统合理规划及运维精细管理等方面阐述如何加强系统运维体系建设,这些思路和建议已在实际工作中实施并取得良好效果,也必将对各行业各类信息系统运维工作起到借鉴作用。
【Abstract】With the further development of tax informatization, the information system of Henan taxation department has already achieved provincial centralization, including data centralization and processing centralization, and has constructed a provincial centralized platform for centralized storage and processing of business data in the whole province, this brings unprecedented pressure and challenge to the operation and maintenance work of the back office, and makes the traditional operation and maintenance work develop from the simple system maintenance to the overall management level. This paper mainly expounds how to strengthen the construction of the system operation and maintenance system from the aspects of how to carry out the system reasonable planning and the operation and maintenance fine management, etc. These ideas and suggestions have been implemented in practical work and achieved good results, and will certainly be useful for the operation and maintenance of various information systems in various industries.
【關键词】税收;信息化;运维;精细管理
【Keywords】tax; informatization; operation and maintenance; fine management
【中图分类号】F812.42;D63? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文献标志码】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章编号】1673-1069(2020)03-0083-03
1 引言
在实现主体税务征收管理系统正式上线、核心征收管理数据省级集中以来,根据国家税务总局信息化建设的总体规划和工作部署,河南省开始按照省级数据集中处理方式构建各系统省级集中平台,将各系统数据全省集中存储与处理,统一考虑系统安全与数据安全,在应用系统逐步实现省级集中的基础上,通过整合硬件、软件、数据等资源,来解决以前系统分散、管理不易的情况,改变过去数据分割、业务分割的状态,进而推动应用的整合,最终实现整个业务处理和流程的整合,同时进一步深化数据的分析利用,为税收业务提供更为强大的信息支持[1]。在实现主体系统省级集中之后,发票类、办公类、分析类、决策类等多个系统也陆续实现了省级集中,再加上面向纳税人服务的电子税务局系统共约30多个系统,这使系统运维工作量猛增,运维工作压力明显加大,系统故障风险同时也在增加。因此,准确把握这些系统集中、整合后的新特点,就必然要求对集中后的各系统技术管理及运维工作要有新方法和新思维,要求工作思路实现从单纯的系统维护向统筹管理转变。
2 合理规划基础设施资源
“基础不牢,地动山摇”。合理做好资源规划部署不仅是保障系统平稳运行的基础,而且也是支撑后续运维的关键。省级集中平台中各系统设备都采用运算速度快、I/O能力强、性能可靠、系统稳定、数据容量大且安全性高的小型机系统和存储设备,其中属于关键核心业务的系统还采用双机备份、数据库RAC、应用集群、负载均衡等技术,服务器全面采用虚拟化做到弹性伸缩,并已经开始探索使用云计算和大数据,这些技术进一步提升了系统的可靠性、可用性和容错能力,增加最大无故障时间,消除单点故障,以高可靠的解决方案来满足业务系统高可靠的运行。因此,在一个系统正式集中之前,首先要做的就是对这些计算系统及存储系统分配进行合理规划,以实现对现有资源的充分、合理使用。在规划时,需要按照搭建省级集中应用运行平台的要求,并兼顾河南省实施系统集群的实际情况,在充分考虑所有计算设备、存储设备、网络设备、安全设备的性能、分布、使用情况的基础上,综合规划了河南省资源使用方案。方案主要遵循如下原则:
第一,方案兼顾传统稳定的“IOE”架构和虚拟化部署,实现资源动态管理和稳定运行,并逐步向云计算架构转变。
第二,重要的税收业务类系统数据库服务器部署在小型机上,重要系统实施双机备份,主要考虑主体征收系统、电子税务局等,充分利用小型机具有动态分区资源的特性,考虑生产机和备份机交叉部署,可以最大限度地调配资源[2]。
第三,服务器统筹采用虚拟化技术实现资源池化,解决不同品牌、不同批次、不同类型的设备实现动态配置、资源共享和集群管理。
第四,全网络架构实现无单点部署,核心交换与各汇聚层实现全万兆双通路互联,并配置旁路流量清洗与镜像设备,实现全网段监控。
第五,统筹安全资源使用,划分各等级安全域,做强互联网区域网络安全防护,集中部署防火墙、入侵检测、防Ddos攻击等设备,做实各业务域安全审计。
第六,存储空间分配时要考虑各系统数据量的现有大小及数据增长情况,并预留足够的增长空间。
核心系统部署架构示意图(应用拓扑)如图1所示,充分体现了基础设施资源规划的原则,如服务器采用虚拟化集群,数据库部署HACMP(高可靠双机热备),区分不同的安全域实现安全防护等。
3 精细化运维管理
3.1 建立详细的系统档案
建立各个系统的详细的系统档案,是系统运维工作中非常必要的一项内容,完整的系统档案可以对系统的各种参数配置、性能、系统变更情况等作全面记录,并根据系统的压力和数据增长情况及相应的运维记录进行定期的系统运行情况分析、故障情况分析、数据增长情况分析及系统安全隐患分析等[3]。这就保证在每一次分析之后,能够及时掌握每一个系统的运行情况,这有利于消除系统隐患,增强工作的主动性,延长系统的无故障运行时间。一方面,详细的系统档案还能够避免因人员工作变动所带来的工作影响。由于系统运维工作的实际决定着对运维人员的技术水平、知识结构、工作态度等要求较高,再加上系统多、日常工作千头万绪,如果没有相关系统档案,对工作的熟悉要花费很长一段时间,所以新同志一般不容易很快进入工作角色中,而一旦熟悉了这个工作,也正因为别人不容易熟悉,运维工作对个人的依赖型又太大,把人栓得很死。但如果有了详细的系统档案,这种情况就可以大大缓解或避免,毕竟,有详细的系统信息总会比在工作中自己再摸索要快得多。另一方面,有了详细的系统档案,也会大大增加其他信息化人员工作的有效性和主动性。在各种系统的前期建设,包括方案的探讨和论证中,相关人员就可通过查询系统档案来了解自己所需要的后台小型机、服务器、数据库、中间件等参数配置、总体架构、网络架构、数据架构、安全架构等信息,从而增加了工作的实效性、主动性和便利性[4]。
根据工作实际,系统档案一般应包括以下几部分内容(按照所运行业务系统分类举例且具体参数没有详细罗列):
①小型机和服务器的型号、使用的分区、CPU个数、内存大小、卷组、文件系统、操作系统版本等主机各种参数配置情况。
②数据库的版本、实例名、SGA/PGA大小、表空间和数据文件使用情况等参数配置信息。
③中间件的版本、SERVER名及对应端口等参数配置情况。
④高可靠节点网络配置、资源组配置等配置信息。
⑤负载均衡设备的Virtual server名、Pools(members)、load balancing method、memory、version等配置信息。
⑥系统的相关流程。包括启动和关闭流程;应用系统升级、备份流程;RMAN(ORACLE备份工具)备份流程;快照刷新流程;增加表空间操作流程;TSM(数据备份软件)备份流程;主机系统备份流程等。
⑦相应的系统维护、变更等记录。
3.2 重视日常监控维护的记录
日常监控是运维工作的一项非常重要的内容,因此,要做好全面的、详细的系统监控,同时还要做好日常维护的记录工作。在日常监控中,要制定好相應的系统监控项目和监控流程,系统的监控项目可以分为操作系统部分监控项目、数据库部分监控项目、网络安全部分监控项目、机房硬件设备监控项目和远程数据备份部分监控项目。在每个部分监控项目中再详细地制定好具体监控指标。例如,操作系统部分监控指标要有:是否有错误日志、是否有mail信息、文件系统使用率情况、CPU和内存使用情况等。系统的监控流程要尽可能详细,把每一个步骤都写出来,要达到对工作不太熟悉的人员也可以按照这个流程来进行监控工作。对系统的每一次维护、升级和系统参数的变更等都要做好详细的记录,并记录好发生的时间、操作目的、相应的操作流程、操作风险情况等,同时把相应的维护记录和具体操作流程打印出来,一并进行归类整理以作为系统档案的一部分,以作为将来进行系统分析时使用。
3.3 定期及时分析
在做好日常监控和运维记录的基础上,利用这些记录的系统运行情况和相关数据,进行定期分析就非常有意义了,不仅能及时解决系统产生的各种问题,而且能有效消除各种隐患,从而降低系统运行风险,促进系统的平稳、正常运行。在进行分析时,要集合人力,充分利用维护记录,注意分析系统的整体运行情况;分析出现故障的频率、原因、产生的后果,处理情况;分析系统的数据增长情况等。例如,通过每天对系统性能运行图的监控,发现系统每天在上午业务高峰期11点钟时,就会有一个小波峰,持续5min,给系统运行带来较大压力。通过对操作系统、数据库、中间件、应用程序等各方面的详细分析,最后发现这是在软件开发过程中为了测试某项功能定制了框架任务,而在系统投入生产时没有将该定时任务撤销,从而造成系统在繁忙时段仍然有此测试任务运行,对系统运行造成很大风险。
3.4 做好运维知识库管理
建立运维知识库,加强上下信息交互,打通内外信息壁垒,提高问题解决效率,实现问题处理信息的无缝传递,并通过全程监督、精细管理、总结分析等措施提升日常运维管理服务水平。首先,通过对运维处理工作中的历史工单信息进行归纳汇总,发现具有代表性的问题,汇总入运维知识库,实现知识的积累和沉淀;其次,对运维系统流转的每一笔工单均在运维平台内展示,系统操作人员在操作过程中发现任何异常均可登陆运维系统输入关键字查询相关问题,进而及时处理工单,实现工单处理的可复用机制;再次,根据工单处理结果的汇总分析,并结合系统数据的完整性和安全性,通过优化前台各项业务补偿的方式进行业务系统逻辑优化,实现减少后台数据运维量、降低数据安全风险的目的;最后,不断加强运维知识库的更新,对过时的问题及时清理,对新问题及时入库,实现知识库的动态管理,提升知识库的应用水平。通过加强运维知识库的应用,不仅充分调用各个运维人员的积极性,提升运维能力,而且也有利于培养新的运维人员,不断充实运维力量。
4 结语
在不断优化营商环境、提升纳税人满意度的今天,税务信息系统运维工作任重而道远。这就要求税务部门运维人员必须根据工作中不断出现的新情况、新问题要有新思路、新办法,进一步把握集中模式下各类系统运维管理工作中的特点和规律,更新观念,立足实际,树立全面运维和协同运维管理理念,不断完善和成熟运维手段和工具,推动主动运维、精准运维、智能运维,使运维工作再迈上一个新台阶。
【参考文献】
【1】翟静峤.基于ITIL的IT运维管理体系应用研究[D].北京:华北理工大学,2019.
【2】杨高攀,王倩.数据中心运维管理体系初探[J].电脑知识与技术,2019,15(22):19-20+28.
【3】郝峻.数据中心基础设施智能运维探讨[J].电信技术,2019(11):51-55.
【4】李乐成,胡雅菲.信息系统运维管理体系的探讨[J].信息通信,2019(08):104-106.