标题 | 空管系统(网络)单点故障隐患分析及建议 |
范文 | 刘丹 摘要:空管系统对业务传输可靠性、数据可用性等方面有极高的要求,所以重要业务均采用了主用、备用等方式进行传输,以保证一个系统(网络)出现问题时,备份系统(网络)仍能正常运行,从而管制业务不中断。然而随着系统互联的增多,系统架构越来越复杂,空管系统(网络)可能依然存在单点故障隐患,这些隐患往往隐藏较深,常规安全检查较难发现,但是一旦发生,将有可能导致系统(网络)业务中断,影响管制运行。为此,本文针对空管系统(网络)可能出现的单点故障隐患进行分析,以期相关人员在进行系统规划、建设、运维等工作中规避类似风险,保障管制业务正常运行。 关键词:网络传输;单点故障;隐患;业务 中图分类号:TP31 文献标识码:A 文章编号:1009-3044(2018)27-0209-02 1 背景 近年,随着航班量的不断增长,空管业务量也不断增多,为了保证管制不间断运行,空管重要业务如雷达、甚高频、气象、情报、转报、自动化、飞行计划等均采用了主用、备用等多重链路相互备份的方式进行传输,以保证一个系统(网络)出现问题时,备份系统(网络)仍能正常运行,从而尽可能降低对管制员的影响。 以雷达业务为例,华东地区的雷达业务主要采用了两张网络进行传输,分别是华东DDN网、华东Vanguard数据接入网。华东DDN网传输A、B两路雷达信号,华东Vanguard数据网传输B路雷达信号。如温州某雷达信号需要传输到上海,是通过两个网络共三条链路进行传输,两个网络内部又配置了冗余设备、冗余中继等,以提高业务的可靠性。 尽管采用了多种备份手段,但随着系统(网络)互联的增多,系统(网络)架构越来越复杂,空管系统(网络)仍然可能存在单点故障隐患,这些隐患往往隐藏较深,常规安全检查较难发现,但是一旦发生,将有可能导致系统(网络)业务中斷,影响管制运行。 为此,本文针对空管系统(网络)可能出现的单点故障隐患进行分析,以期相关人员在进行系统规划、建设、运维等工作中规避类似风险。 2 单点故障隐患分析及建议 空管系统(网络)可能发生的单点故障隐患主要包括系统(网络)架构隐患、供电隐患、底层通信传输链路隐患、信息安全隐患等几类。 3 系统(网络)架构单点故障隐患 3.1 系统(网络)自身软硬件架构导致的单点故障隐患分析 空管系统(网络)如果设计之初自身架构(如服务器、网络、存储、数据库、软件架构等)未考虑完善,相关人员未对系统(网络)自身架构存在的隐患进行充分论证,则可能导致单点故障。 如某个业务系统A负责为多个其他系统(B、C、D...)发布数据,但分析A系统架构,发现其发送数据流全部依托一台普通交换机中转,而这台交换机供电、板卡等均没有任何冗余手段,可靠性较低,一旦该交换机故障,则A系统对外发布的所有数据均中断,而使用该系统数据的系统D,有可能恰恰是非常重要的系统。 如果软件架构不完善,也会导致单点故障风险,严重时可能造成主备系统同时瘫痪,如有些系统主备数据库之间相互同步数据,但如果数据库同步机制不完善,当主用数据库数据错误混乱时,错误混乱的数据也会同步到备份系统,导致备份系统数据同样发生错误,此时,主用数据库、备用数据库数据均出现错误,严重时,两套数据库皆可能瘫痪。 3.2 系统(网络)之间互联导致的单点故障隐患分析 如前文所述,目前空管系统(网络)之间互联复杂,一个系统(网络)可能与多个系统(网络)互联,最后追根溯源,发现某个异常重要的业务系统可能完全依赖于另一系统的可靠性较低的设备进行业务交互。 如某个业务系统A承载重要数据,该系统通过多条链路接收数据源信息,并进行处理,处理完毕后,再将处理后的数据信息发布给其他系统使用,为了保证系统可靠性,该系统在同城异址建设了主用系统和备份系统,服务器、网络、数据库、数据源、底层传输通信管网管线等均通过多种手段进行了冗余配置,但仔细分析该系统互联架构,就会发现A系统在发送数据环节存在单点故障,所有发送的数据均通过另一系统(B系统)的同一台设备(C)中转,因此,一旦B系统的C设备故障,则A系统所有业务均会中断。因此C就成为A系统的单一故障点。 3.3 安装或运维导致的单点故障隐患分析 有些系统(网络)在规划设计时,配置了较完善的冗余备份手段,但是由于培训不到位、资料不完善等原因,有可能在后期的安装或运维过程中,操作人员忽略了初始设计时的相互备份关系,导致备份手段失效。 如系统两台互为备份的核心设备本身由两路不同的UPS(A、B路)供电,但后期在系统改造等工程项目中,操作人员将备份核心设备电源从UPS B路切换到A路,最后导致两台核心设备共用UPS A路供电线路,UPS A 供电便成为系统的单点故障隐患,系统可靠性降低。 3.4 针对系统(网络)架构单点故障隐患的建议 ? 建议重要系统(网络)在规划设计时,充分考虑架构可靠性,系统(网络)设计完成后,需组织人员进行专项评估,从自身架构(服务器、网络传输设备、数据库、软件架构等)、设备配置、数据源、与其他系统的数据交互关系及依赖关系、提供数据源的系统情况、底层通信链路设施、系统供电、系统安装环境等方面综合分析,模拟实际业务流程,分析有无影响系统(网络)运行的单点故障和易使系统(网络)降级的故障。 ? 对于已经建设完成的重要系统(网络),建议定期进行全面排查,从自身架构(服务器、网络传输设备、数据库、软件架构等)、设备配置、数据源、与其他系统的数据交互关系及依赖关系、提供数据源的系统情况、底层通信链路设施、系统供电、系统安装环境等方面角度考虑是否有单点故障隐患。常规的安全检查受限于检查时间,检查员技术能力等因素,较难全面排查系统级隐患,因此对于重要系统,建议相关单位组织人员对系统进行全面专项安全体检,从各个环节分析系统隐患。 ? 对重要系统(网络)变更及改造,需制定详细的方案,并组织人员对方案进行评估,确保系统(网络)变更及改造不会引入单点故障,评估通过后,操作人员需严格按方案实施。 ? 对于无法短期内解决的单点故障,需要制定相应应急预案,确保相关人员在故障发生后能采取应急措施,尽快恢复业务。 4 底层通信传输链路单点故障隐患 4.1 底层通信传输链路单点故障隐患分析 目前,各重要业务均采用多个网络传输,不同网络内部也会租用不同运营商中继链路,然而尽管多重备份,仍然有可能出现相互冗余的网络链路汇聚到同一底层传输设备(如SDH光环网)或者汇聚到同一个管井或同一跟光缆的情况,尤其是进入到管制单位的最后一段传输链路,较易出现不同运营商链路等共用管网、光缆现象,一旦共用的管网或光缆被施工挖断,将导致业务全部中断。 4.2 针对底层通信传输链路单点故障隐患的建议 ? 分析各重要业务的网络传输路由,尽量避免冗余传输链路最后汇聚到同一底层通信传输设备的情况。 ? 开通链路时,需与运营商确认链路管网管线路由,尽量避免不同运营商链路共用管网、光缆的情况。 ? 如果无法避免共用管网、光缆,则需对共同的管网加强巡检。 5 系统(网络)供电单点故障隐患 系统(网络)供电不合理往往容易导致系统级的安全隐患,主要集中在以下几个方面: 5.1 主备系统(或有主备功能的设备或设备主备电源)全部由同一路UPS供电 如果主备系统(或有主备功能的设备或设备主备电源)全部由同一路UPS供电,当其中一路UPS供电中断时,有可能会导致冗余设备全部断电,从而造成系统瘫痪。 如筆者某次进行的一次安全检查中,通过查看设备连接图纸、分析系统结构、现场查看设备供电线路,发现被检查单位所有传输甚高频设备的路由器全部都由同一路UPS电源供电,如果这路电源中断,则该地甚高频业务全部中断;在针对另一地的安全检查中,也发现类似情况,该地几乎所有重要业务传输设备全部都接在UPS B 路电上,即便该地配置了双路UPS,但当UPS B 供电等出现问题时,该地也几乎所有业务均会中断,UPS A 无法真正发挥作用,因供电接入不合理,导致保障级别降低。 5.2 主备系统(或有主备功能的设备或设备主备电源)连接同一路PDU或空气开关 某些主备系统(或有主备功能的设备或设备主备电源)连接同一路PDU或空气开关,一旦因设备短路等原因导致空气开关跳闸,或者PDU故障,则冗余设备均会断电。 5.3 主备设备、中继链路协议转换器供电分配不合理,导致冗余链路失效 如果主备设备、中继链路协议转换器等设备供电分配不合理,也会导致冗余链路失效。例如有两台路由器,主用路由器为RA,其中继链路的协议转换器为SA,备用路由器为RB,其中继链路的协议转换器为SB,如果RA连接到UPS A,SA连接到UPS B,RB连接到UPS B,SB连接到UPS A,则无论UPS A或UPS B供电中断,均会导致业务全部中断。 5.4 针对供电单点故障隐患的建议 ? 针对系统供电隐患,建议根据系统结构,梳理设备备份关系,包括多个不同系统之间设备的备份关系,将有备份功能的设备供电合理分布在两路不同的UPS上,并绘制系统供电图纸,模拟某路UPS故障时,相关设备的影响情况,分析是否有公共故障点。 ? 如果只有一路UPS,建议将有冗余功能的设备连接在两个不同的PDU或空气开关。 ? 如果条件允许,特别重要的系统(网络)建议将主备设备部署在异地,以保证当某地供电出现问题时,另一地设备仍能正常运行。不至于因供电导致系统(网络)整体瘫痪。 6 信息安全隐患 6.1 信息安全隐患分析 目前,随着空管系统业务发展,各系统之间数据交互不断增多,很多系统采用IP方式直接互联,而随着系统之间数据交互越来越频繁,系统受到病毒感染的风险也随之增大。如果病毒防护能力较差,某一终端感染病毒,就有可能导致病毒通过该终端扩散到全网,以及与该系统互联的其他系统,从而对多套系统造成影响,严重时,甚至造成系统瘫痪。 6.2 针对信息安全隐患的建议 7 结论 本文分析了空管系统(网络)可能出现的单点故障隐患,包括系统架构隐患、底层通信传输链路隐患、系统供电隐患、信息安全隐患等。 系统本身软件或硬件架构不完善、系统互联架构不完善、安装或运维错误等均有可能导致系统架构存在单点故障隐患。 相互冗余的网络链路汇聚到同一底层传输设备(如SDH光环网)或者汇聚到同一个管井或同一跟光缆则可能造成底层通信链路单点故障隐患; 主备系统全部由同一路UPS供电(或连接同一路PDU或空气开关)则可能导致主备系统同时断电,造成系统瘫痪;设备或中继链路协议转换器等供电分配不合理,也会导致冗余链路失效,造成系统瘫痪。 而随着数据交互越来越频繁,系统受到病毒感染的风险也随之增多,如果系统病毒防护能力较差,则可能影响多套生产系统,甚至会导致系统瘫痪。 本文针对空管系统(网络)可能出现的单点故障隐患进行了分析,并提供了针对每一类隐患的建议,以期相关人员在进行系统(网络)规划、建设及运行维护时能规避类似风险,保证系统(网络)安全运行,保证空管业务可靠传输。 本文的研究成果,对系统(网络)设计、规划、维护等工作具有借鉴意义。 [通联编辑:梁书] |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。