浅析移动无线网络集中监控的实现和发展
宫琦
摘 要:文章在实现无线网络小区退服集中监控的基础上,在无线专业派障流程、告警梳理、实施细则等方面为拓展无线网络集中监控、逐步建设综合监控系统提供了有效的尝试和经验积累,最终实现告警的统一呈现、关联分析,实现故障的联动处理和自动派单。
关键词:移动;无线网络;集中监控;网管系统
1 概述
近年来,随着移动业务的发展,移动网络维护工作的压力也日渐加重,无线网络基站退服的管控直接关系到用户感知和业务收入的有效增长。围绕集中化、专业化、一体化的“三集中”运维工作总体思路,通过集中派障和对末梢故障处理过程的精确管控,将有效缩短故障响应时长,激励末梢维护人员,加快故障处理速度,从而提升移动网络质量和品牌形象。
由于无线网络厂家和网元数量众多、告警类型复杂多样,因此可以分步骤实施移动无线网络的集中监控工作,先实现无线网络小区退服自动派单的集中管控,后续将向实现影响业务类的其它告警、重点指标越限监控及包括动环监控等在内的综合管控拓展。
2 无线网络集中监控系统的结构和功能
移动无线网络小区退服集中监控主要实现“省公司一级监控,省地二级派单”。在原有移动综合网管和电子运维系统基础上,通过简单的硬件扩容和软件开发实现系统自动派单,有效提高派单效率,同时通过对故障发生、派发、接收、到达现场、故障处理、反馈等各个环节的逐一管控,实现对全省移动网末梢维护人员的有效管理和考核,奖优罚劣,整体缩短故障处理时长,大幅提高响应速度,有效提升用户感知。
2.1 集中监控系统的结构
集中监控系统由移动综合网管和电子运维系统两部分组成,其中网络告警采集和归类主要在移动综合网管实现,短信和工单派发主要在电子运维系统实现。综合网管系统实时采集专业网管告警、根据一定派发规则将需要派发工单的告警发送至集中监控系统、系统自动派发工单。 同时,网络每发生一条告警,系统将依据预先设定的判断规则,自动触发告警发生和告警恢复短信。另根据故障工单类型的不同,依据相应的考核时长,采用不同的故障超时短信督办升级流程,分级别逐级向上一级相关领导发送短信进行故障升级督办,以确保各类告警的及时处理。
2.2 集中监控系统的流程及功能
2.2.1 集中监控系统流程
集中监控流程包括综合网管采集专业网管告警、过滤归类告警、将需要派发的工单派发至电子运维、电子运维自动派发工单、地市接单人员接单并进行转派、地市故障处理人员接单处理故障、处理完毕反馈、地市接单人员审核并归档等8个主要环节。
集中监控范围内的故障发生后,对符合派发条件的故障自动派发工单至各地市故障工单接单部门,对割接、周期性断电小区故障不派发工单。
各地市集中监控工单受理人员接到工单后,对工单中的告警情况进行初步判断,派往下级接单单位或派往最终故障处理单位。需要时可以派往多个单位。故障处理单位应核实故障信息、判断故障原因并及时处理。若不属于本单位处理应及时反馈工单并说明原因。
省派单单位为工单发起单位,对工单处理过程要全程监督。地市故障工单接单部门对派发至本地的工单进行监督。
工单处理单位处理完故障后要填写详细故障原因,故障处理完毕后,由地市故障工单接单部门进行确认、审核、结单并归档。对于审核不通过的工单驳回重新处理。
同时,结合无线网络维护工作的特殊性,对于由于外部原因如政府施工、自然灾害等原因导致故障短时间内无法恢复的故障,可以申请挂起工单,工单挂起后维护人员需在要求时限内排除、解决故障,及时恢复基站的正常运行,并通过解挂的方式使工单进入正常流转的环节。
2.2.2 集中监控工单分类
根据全网小区退服告警的产生、分布、分类情况,将工单分为5种类型:
⑴较大故障工单。2分钟内同一地区120个及以上小区退服且未恢复。
⑵批量中断工单。2分钟内同一地区30个及以上、120个以下小区退服且未恢复。
⑶频繁中断工单。非VIP基站下挂小区30分钟内发生5次及5次以上退服。
⑷A类中断工单。A类基站下小区发生退服并持续30分钟未恢复。派单前将1分钟内发生的未恢复的同一逻辑站下的小区退服合并为一个工单。
⑸普通中断工单。除以上情况外发生小区中断并持续30分钟未恢复的退服。派单前将1分钟内发生的未恢复的同一逻辑站下的小区退服合并为一个工单。
2.2.3 集中监控系统模块的功能
集中监控系统为维护人员提供两种处理系统派发工单的方式,一种是通过电脑终端登录电子运维系统进行工单处理,另一种是通过掌中运维手机终端进行工单操作处理。
电子运维系统实现短信和工单的派发,其主要功能包括工单流转、工单统计、相关派单规则设置等。工单类型包括较大故障、批量中断、频繁中断、A类中断、普通中断五类工单。工单流转实现从综合网管接收告警、确定故障工单类型、生成派发相应工单、以及工单受理、转派、处理、反馈、审核归档等所有流转环节。工单统计可按地市、部门、网络类型、受理人、处理人、网元等信息查询统计,同时实现工单流转过程、工单处理时长、超时工单等专项统计。相关派单设置规则包括基站周期性断电、割接不派发工单的规则设置。
掌中运维可以通过手机终端实现与PC端相同的工单流转、数据查询功能,通过移动终端可以实时监控和移动管控故障工单从派发到处理的每一个环节,同时还可以远程记录网络维护外勤人员出发、进站、出站的维护动作时间点,从而更加方便快捷的实现对网络维护工作的有效监督管控。
3 无线网络集中监控系统的发展趋势
通过无线网络小区退服自动派单的集中管控,实现对移动网末梢无线维护人员从故障发生、派发、接收、到达现场、故障处理、反馈等各个环节的时间轴的有效管控。该系统涉及的无线专业派障流程、告警梳理、实施细则、维护人员信息、统计报表等工作内容将为无线网络集中监控的拓展提供有效的尝试和经验积累。因此,在实现无线网络集中监控的基础上,逐步建设综合监控系统,实现告警的统一呈现、关联分析,实现故障的联动处理和自动派单。
3.1 综合监控系统的定位
综合监控系统定位于围绕发现故障、分析故障、解决故障,面向各级运维管理和生产人员,全面提供全网络监控功能,实现全网的集中监控、派单。综合监控系统位于OSS域,定位于网管类系统,在各专业综合网管系统之上。
3.2 集中监控发展遵循的原则
为了确保系统的整体部署、互联互通、协调运营与统一管理,系统在建设过程中应该遵循以下原则:
3.2.1 标准化原则
综合监控系统是一个面向全专业的复杂的通信网络的实时监控系统,管理网元范围广,上层应用种类不断变化和增加,因此,综合监控系统在设计时应满足数据模型的标准化和接口的标准化。
3.2.2 组件通用原则
综合监控系统采用SOA的设计方法,实现业务分层和功能服务模块化的分布式体系结构,用以保证系统的易用性、可维护性和通用性。
3.2.3 分层设计原则
综合监控的底层数据处理和应用要分层设计,满足应用层灵活扩展要求。
3.2.4 技术先进性
采用技术成熟、稳定且具备先进设计理念的产品,系统在建成后能通过平滑升级保持其先进性,延长生命周期。
3.2.5 高可靠性
系统软硬件均具备极高的可靠性。主要部件采用冗余机制;高效的故障管理保证系统具备极高的可用性,在最短时间内即可恢复业务。软件采用模块化、分层隔离以及负载均衡的设计思想充分保证系统的高可靠性。
3.2.6 高安全性
解决方案从主机、数据及网络等多方面采取相应措施,确保系统的高安全性。
3.2.7 高可用性
系统具有高效的软硬件使用效率,关键设备均达到硬件配置最高的使用率,同时采用优化的流程设计确保系统的高效率。
3.2.8 易维护性
系统硬件可以很方便的实现远程管理及维护;系统软件均采用模块化的设计,并提供友好的人机接口,确保系统的易维护性。
3.2.9 灵活的扩展性
系统关键设备均采用集群技术以及负载均衡技术,可充分保证系统随着网络规模容量的扩展,实现系统的平滑扩容。软件系统架构充分利用网络的扩展性强的特点,采用分散控制、集中管理的结构,使得系统可扩充性很强。网络构建灵活,既可以实现平台的集中处理,又能提供全面的透过网络的分散能力,适应多种应用环境及场合。
3.3 综合监控系统的应用场景
综合监控系统应具备灵活、高效、多维度、可定制的场景监控能力。应用场景主要涵盖概况监控、日常监控、节假日监控、重保监控、场景定制等。
⑴概况监控场景用于呈现全网设备运行情况或重点专业设备运行状况,可基于地图或网络拓扑来呈现网络资源信息、告警信息、性能信息、工单信息、工程信息、业务质量监控信息等。
⑵日常监控场景是从不同类型的用户视角出发来呈现用于管理和维护所需的网络运行情况。
⑶节假日监控主要对重大节假日业务量、系统负荷、业务质量等信息进行全专业监控展示,可根据需要灵活定制所需的信息,并基于地图或网络拓扑来呈现信息。
⑷重保监控主要实现对于重大事件的通讯保障的管理,重保监控通过将多种类型的数据有机整合,从不同角度监控重保区域内的网络运行情况。
⑸场景定制指选择监控对象、监控信息、监控模式组合成监控人员直接监控的界面,包括监控对象的定制、监控信息的定制、监控模式的定制、场景定制、场景监控等场景监控信息的定制展现,用户定制的场景可以保存。
3.4 集中监控发展的目标
建立全省集中的综合监控系统,采集各专业网告警数据、配置数据、性能数据、资源数据等。通过专业内告警标准化、网元设备命名规范寻找根告警压缩大量衍生告警;利用资源模板实现专业间告警关联,为专业间性能数据关联性分析提供数据依据;利用性能分析模块提取话务量、流量、性能数据来验证告警恢复情况,通过设置性能数据阀值,将故障扼杀在萌芽状态,提升网络健壮性,通过分析性能数据,为市场经营决策提供趋势性分析数据依据,为网络建设提供累计和忙时业务量数据,满足网络规划数据需求;利用派单模块提供网络变更上报流程,满足资源及时更新、工程告警及性能打标识的目的,将压缩后告警、性能匹配维护人员后以工单形式一派到底,减少中间流转环节,提高维护效率,减少维护量,提升落地执行力,从而最终提升客户感知及网络支撑能力。[1]
[参考文献]
[1]焦晓光.浅谈移动通信机房设备故障集中监控系统的应用[J].科技与企业,2012(8).