基于ITIL的智能网络运维协作支撑平台的设计

    方晖

    

    

    

    摘要:网络的运维和管理与网络的建设同等重要,网络运维管理的质量会直接影响网络的运行质量,如何有效地管理好网络,保障网络安全、稳定、畅通无误地运行,及早发现并排除潜在的故障隐患,成为IT运维部门必须面对的问题。文章基于ITIL v3的流程思想以及生命周期模型,提出了智能网络运维协作支撑安全平台体系构架周期框架,用于指导构建一体化的网络运维体系,以提供优质IT服务。

    关键词:信息化;网络管理;网络运维;ITIL

    十八大以来,以习近平总书记为组长的中央网络安全和信息化领导小组的成立,显示出新时期国家建设信息化强国的决心,城市网络光纤化工作及不断提速的网络带宽也为信息化进程提供了加速动力,智慧城市、智慧家庭、智慧校园都成为未来一段时期信息化高速发展的热点,网络已经无处不在,智慧生活将不是梦想,面对日益复杂化、多元化的网络应用,网络运维管理水平成为了直接影响甚至制约信息化推进的关键因素之一,如何快速高效地保障网络可靠、稳定、持续地运行,成为IT运维部门首要面对和思考的问题。如果有一个采用目前领先的网络技术,依托用户现有的网络设备及网络环境,集跨厂商的网络产品管理、网络服务器管理、设备的真实面版图管理、网络的远程管理、完整物理拓扑结构自动生成管理、网络设备负载与网络流量一览、网络的历史数据记录与分析管理、自动分析网络异常数据流动、自动问题源隔离、网络的性能管理、网络的故障管理、网络用户的分布定位管理、IP地址资源和服务资源的分布管理、跨地域的网络分层次的协同管理等功能为一体的网络运维协作管理平台来监查管理网络,将可以提高IT运维部门工作效率,及时查处网络危害,保证网络持续、稳定地运转,从根本上解决网络运维管理难的问题,极大地推动网络信息化建设向前发展。

    1传统网络运维系统存在的问题

    传统的运维技术服务系统主要存在以下几方面不足。

    (1)独立运作,资源、配置等信息缺乏统一共享,信息孤岛严重。运维支撑部门在解决故障或问题时各自为政,缺乏协同,相互之间资源不共享、信息保密,致使IT维护过程中配置资料等欠缺或不完整,往往需要长时间来调配相关资源和摸索查找相关故障点。

    (2)缺乏规范化的运维管理操作流程及高效的管理工具,实际工作效率不高。随着IT环境的多元化、复杂化,运维部门内部分工也逐渐专业化、明细化,一个工程师很难全面熟知所有的系统,然而在实际的运维服务运作中,由于流程不规范,用户习惯于直接向熟知的运维人员报障,导致运维人员很难按职责工作,内部分工完全失效。同时,现在大多IT运维部门还普遍缺乏对于整个系统的运维管理经验,多以人工的方式分散管理,以手工的机械方式进行统计工作,被动式地发现问题、解决问题,这些传统的运维管理方式不仅耗费大量的人力、物力,而且效率远远无法满足日益扩大的网络应用需求,使得网络管理人员在受到网络规模化、复杂化带来的网络管理压力的同时,还要受到降低成本和提高效率的需求压力,网络运维管理如何以最小化的IT资源产生最大化的效率,使网络的性能和效能最优化,网络管理工具的选择尤为重要。

    (3)规划存在局限性,缺乏长效。大多IT系统规划仅着眼当前,与未来发展脱节,导致后期大量“亡羊补牢”式的补丁工程,增加了投资成本。

    (4)缺乏科学的量化依据和计量机制,绩效考核主观性强。由于缺乏量化考核工具和表现工作业绩的具体数据为依据,负责人对运维服务人员的工作绩效很难量化,在很大程度上取决于个人的主观印象,且用户也无法对运维支持部门作出客观准确的评价。

    2智能网络运维协作支撑平台的设计

    2.1ITIL简介

    ITIL即IT基础架构库,英文全称为Information Technology Infrastructure Library,最早在1989年和1995年期间由英国中央计算机与电信局(Central Computing and Telecommunications Agency,CCTA,后来并入英国商务部(Office of Government Commerce,OGC))发布的,它的目标是提供低成本、高质量的IT服务,是业务和信息系统之间的纽带。2001年到2003年期间,OGC发布了ITIL v2,其核心是服务提供与服务支持,侧重于管理过程中各种流程的构建。2007年ITIL v3正式发布,ITIL v3被称为最佳实践框架的演进,它更加强调进一步提高IT服务效率,改善IT服务效力,实现IT服务促进业务管理的目标,实现IT服务、业务管理持续稳定发展。ITIL v3可以看作是ITIL v2的扩展与深化,是一个描述IT服务管理最佳实践的公共框架,同时也提供IT治理的框架,它的最大意义在于把IT服务与业务紧密地结合起来了,并从业务和用户的角度,在ITIL v2的基础上引入了服务生命周期管理理念,将ITIL v2中涉及的有关流程及职能纳入生命周期模型的不同阶段中,如图1所示,它主要由核心组件、补充组件和网络组件3个组件构成。“核心组件”由服务战略、服务设计、服务转换、服务实施和持续服务改进组成,涵盖了IT服务的生命周期,从业务所需到最优化服务,也包含了现有服务支持和服务交付的所有内容。“补充组件”包括不同情况、行业和环境下的详细内容和目标,帮助IT根据环境、经济条件和机构战略定制部署ITIL的核心原则的信息。“网络组件”提供了不同情况、行业和环境下共同所需的动态资源和典型材料,例如流程图、定义、模版、业务案例和实例学习。ITIL基于流程,以客户为中心,客户可以结合自身的能力、要求,自定义并改善、规划制定出符合自身的IT基础架构及IT服务管理标准规范,提高IT资源的效能,使IT投资回报最大化,本平台就是基于ITIL v3设计的。

    2.2平台主要功能设计

    目前通用的网络管理软件逐渐增多,这些网络管理系统往往给用户提供了一个数据收集及查询工具,希望用户通过查询数据来了解网络中可能出现的故障,但实际上用户并不能预期网络中什么地方可能会出故障,只有当出现网络中断时,才会用这些工具来解决问题,这种“来电响应式”的事后网络管理模式并不能满足用户对目前网络管理的需要,用户更加关心的是如何保证整个网络应用系统的正常运行,如何运维好自己的网络。

    (1)事前管理。保证整个网络上应用系统的正常持续运行是网络运维管理的主要目的,为避免“来电响应式”事后网络管理模式,本平台将“事前”管理的模式纳入了用户网络管理之中,可以做到防患于未然,在故障出现前把问题处理掉,大大降低了用户网络管理的风险。例如对路由器的CPU负载和交换机的Mem占产生较大影响的网络病毒扩散、黑客攻击等的二层的广播和三层的扫描行为,通过平台提供的实时网络监视相关信息,就能及时防止。

    (2)自动勾画出整个网络的真实物理拓扑图。本平台能够自动勾画出整个网络的真实物理拓扑图,包括各个设备之间的真实连接,在这张拓扑图上用蓝、绿、黄、红4种颜色和具体数值来表示网络设备和相关物理链路的状态,用户只需要通过颜色就可以了解到整个网络的运行情况、发展趋势和可能存在的故障隐患点,轻松地发现网络“问题点”,以便及时采取相应措施,这就像一个人,如果时刻对自己身体的各种参数如血压、心脏、体温等进行监视,一切正常,那么他是不会生病的,而在他生病前,一定有某个参数不正常,BTNM就是通过自己的物理拓扑图来给网络拍x光片,并将他展现在用户面前,让用户可以一目了然地看清自己的网络真实情况和实时运行情况,并及时发现隐患点,真正实现事前管理。

    (3)通过图形化“一目了然”地反映网络的整体信息。网络流量监控是网管软件基本功能,但大多软件对流量监控结果表述不详,本平台注重通过信息综合来直观地反映网络的整体信息,例如:通过拓扑图,可以监控分析异常流量交换机端口,对端口流量、帧流量、广播流量、丢包情况的详细信息通过颜色和数据直观显示,为用户具体的判断处理提供明确依据,如流量很小而帧流量很大,反映该端口上存在“黑客或病毒扫描”行为,而广播流量大于100个/秒,通常不是视频流就是网络病毒。同时还可以进一步向你显示链接该端口的用户信息(包括IP地址、主机名等等),结合地址薄功能就可以实现全网、跨网段、跨VLAN的IP定位及IP Mac绑定,如果需要,通过数据流分析系统用户还可以详细查看该流量的组成,这些流量里面到底有什么东西。

    (4)网络设备真实“面版图”管理。平台提供最全的网络设备的真实面版图管理,支持设备真实、实时面版图展现,支持设备堆叠显示。在面板图上可以动态显示端口、模块的状态,支持所有设备端口连接状况动态跟踪,并可以直接查看端口所连设备、PC机等,并可对端口进行开、关的操作,非常方便。

    (5)实现“机房无人值守”。平台配置强大的预警和告警系统,可对网络中的异常情况进行告警,对网络服务器的有关进程和访问情况进行预警,同时还通过模拟用户实际访问行为的应用行为监控,来实现对整个应用系统及数据库系统的监控。用户只要将告警条件设好,本系统就能够通过手机短消息、中文语音、系统消息框、电子邮件等多种方式向有关管理人员进行告警通知,并可自动执行相关恢复性操作,真正实现了“机房无人值守”。

    (6)有效的预警、各种历史数据记录及报表。及时的对网络中可能存在的隐患进行有效的预警(告警对话框、邮件、短信)外,用户的网络在平时不出问题时,还可以通过生成各种历史数据记录及报表对用户的网络运行情况及资源使用情况进行综合统计,平台提供循环记录统计,其记录结果作为日后网络健康检查的依据,如一根千兆链路上,平时的峰值只有2M的流量,而今天峰值却达到4M,虽然对千兆链路来说,4M数值不算大,但是也应该告警,通过这样就可以对整个网络进行智能化的监控和管理,而连续记录可以体现出网络现有资源的使用情况,为上一些新的应用及进一步的网络改造提供数据依据,体现了网管人员的工作价值。

    (7)对网络的状态及发展趋势进行监控、数据流分析。对网络的状态及发展趋势进行监控以外,系统配置了数据流分析和监控系统,通过对数据流的数据包头进行分析、统计和归类,实现对整个网络中数据流的组成的透明化并对异常行为(如缺省的IP地址扫描、帧数量异常及Session异常等)进行预警,用户也可以根据需要自行定义告警条件及数据记录规则。一旦触发告警,系统会自动将告警前5分钟及后5分钟的情况记录下来,以备日后可以再现及用户进一步作分析需要。这就像马路上的数字摄像头一样,BTNM数据流分析记录模块时刻监视整个网络数据流的组成,这样可以及时发现网络上的异常行为。

    (8)系统及应用软件、中间层监控。关于系统及应用软件方面,对提供windows、linux、unix操作系统、Oracle、SQLServer、MySQL等数据库、WebLogic、WebSphere、IBM MQ等中间件、业务应用系统、EMAIL、WEB服务、FTP服务、DNS服务、DHCP、LDAP目录服务、文件系统、应用进程、内存、CPU等进行全面深入的监测,帮助网络管理人员提升网络服务质量。

    (9)系统支持远程管理模式。平台支持远程管理模式,用户的远程客户端只要与网管服务器连通,即使通过拨号方式,也可以在远端对整个网络进行管理和配置,方便用户对网络进行管理。

    2.3系统模块设计

    本平台的主要模块如图2所示。

    (1)网络平台管理模块故障处理流程如图3所示。

    (2)数据流分析模块的分析功能的设计有别于Sniffer等分析工具,无须专业背景,注重24小时自动进行数据分析,捕捉网络数据异动

    病毒扫描、网络攻击。支持跨IP网段分析捕捉各类异常网络数据流,提供2~7层的数据分析,一旦捕捉到问题特征,在任何时刻均保留“此刻以前10分钟原始数据”以供事后分析,避免了异常事件转瞬即逝的困境,可以进行“数据回放”分析。帮助事后分析问题,具体如图4所示。

    (3)高级服务器管理模块一是管理和监视服务器操作系统的运行状态和性能数据,包括服务器的CPU负载、内存利用率、应用进程、文件系统、文件体积等信息的分析与监视。二是管理和监视服务器上各应用服务的运行状态和性能数据,包括HTTP、FTP、EMAIL、数据库、DNS、DHCP、目录服务以及各中间件等。

    (4)系统安全监控模块基于人工免疫成熟检测规则开发,集成了优秀检测器的基础上,对流量进行内容上的过滤匹配,经过对数据集包内容的特征提取,自适应地构建自体集,在实际检测中用同样的包内容特征提取算法对网络数据包定位匹配,对数据作出相应的判断与处理。

    4结语

    正如习总书记指出的“没有信息化,就没有现代化”。在国家现代化建设的进程中,在信息化建设的重要时期,网络的运维和管理与网络的建设同等重要,作为IT运维部门,任重而道远。

相关文章!
  • 融合正向建模与反求计算的车用

    崔庆佳 周兵 吴晓建 李宁 曾凡沂<br />
    摘 要:针对减振器调试过程中工程师凭借经验调试耗时耗力等局限性,引入反求的思想,开展了

  • 浅谈高校多媒体教育技术的应用

    聂森摘要:在科学技术蓬勃发展的今天,我国教育领域改革之中也逐渐引用了先进技术,如多媒体技术、网络技术等,对于提高教育教学水平有很

  • 卫星天线过顶盲区时机分析

    晁宁+罗晓英+杨新龙<br />
    摘 要: 分析直角坐标框架结构平台和极坐标框架平台结构星载天线在各自盲区状态区域附近的发散问题。通过建