标题 | 企业局域网故障分析与排查 |
范文 | 蒋萍 申志红 [摘 要] 随着企业应用系统飞速地发展,使得网络承载能力也得到了考验。此时,各种应用系统加载的网络也变得更加脆弱,网络故障因此层出不穷。在纷繁复杂的网络结构中,要以技术为实力、技巧为主力,逐步分析诊治网络病症,确保网络的正常运行。文章通过网络故障分析与排查为宗指,运用工具、命令、实例、完整而深入地讨论了当前企业网络应用中所遇见的常见故障。 [关键词] 网络;故障诊断;分层排查 doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 11. 061 [中图分类号] TP311 [文献标识码] A [文章编号] 1673 - 0194(2018)11- 0139- 04 1 引 言 企业信息化是实现信息技术与工业化融合为主体的数字化生产、运营、管理的系统平台。然而,企业局域网建设更是信息化发展的基石,网络运维的稳定性直接影响着业务承载的可靠性和安全性。面对着网络技术和纷繁复杂的网络维护变化,网络故障的日益加剧,如何快速有效的管理好网络,预防故障的发生,是网络管理员面临的首要任务。因此,必须掌握网络的诊断方法、工具与命令,能够从广域网到局域网,硬件到软件进行系统的检测与运维,保障网络安全稳定的运行。 2 排查故障基本原则 排查是一件很抽象的工作,没有什么固定的套路可循。因为影响结果的变量实在是太多,不同的表象可能有同一个原因,同样的现象也可能根本不是一回事。应把握一些基本的原则,然后见招拆招,尝试做去一个好的网络医生。目前,在本企业网中总结出四项网络运维故障排查原则,以下予以逐个说明。 2.1 由下至上 由于网络是分层的,简单的功能在底层实现,复杂的功能在高层实现,所以测试时优先测试相对底层的功能。 2.2 由近至远 网络是连接个人自己的计算机到其他计算机之间的桥梁。人们自己的计算机就摆在面前的桌子上,而对端的计算机可能就是坐在自己旁边女同事的笔记本,也可能是远在天涯海角的一台吨级重的大型机。再或者,自己根本不知道对端是什么,在哪里。 很明显,我们对自己的计算机相对的更了解一些。能获得的信息的多少及精确程度对人们做出准确的判断具有至关重要的作用。能获得的信息量又随着距离的增加而减少。因此先从自己的计算机开始整个测试过程是个不错的选择。 2.3 由点至面 如果自己的计算机看起来还不错,没有什么明显的问题,测试也都通过了,那么是不是可以就此认定网络坏了或者对端的计算机坏了呢?如果和你同一个办公室的同事都没问题,那十有八九是你自己的问题。如果其他公司没有问题而你所在的公司有问题,那基本上是你们公司内部的问题。如果整个区域都有问题,那么就有可能是广域网链路、路由的问题。如果全国都有问题,很不幸,估计是哪台核心服务器出问题了。 准确鉴别故障影响的范围会对故障原因的判定起到决定性的作用。故障范围的不同也会导致排查步骤的不同。确定了故障范围基本上也就完成了一多半的排查工作。 2.4 由易至难 当故障原因已经定位到一个比较小的范围,需要做一些测试才能做出最后的判断。或者已经定位了故障原因,需要用一些不同的方法解决问题。这时适用于由易至难的原则:影响范围小的操作优先、耗用时间短的操作优先、操作可回退的操作优先、安全系数高的操作优先。 假设服务器上的Web服务进程失去响应导致应用系统停止服务,则可以通过重启Web服务或者重启服务器来试图修复。其中重启Web服务耗时小于10秒,重启服务器耗时约5~10分钟。而且重启Web服务影响范围较小、危险程度也比较低,重启服务器还可能会产生其他不可预料的问题。基于由易至难的原则综合考虑后,可以认为重启Web服务是应该优先执行的操作。如果重启Web服务后故障被修复,就节省了重启服务器所需要的5~10分钟时间和对应的风险。就算重启Web服务后故障依旧,也只是消耗了不到10秒的时间,再重启服务器也来得及。 3 日常运维思路及方法 3.1 查询本地信息 首先要了解自己的計算机的一些基本信息,这会帮助你更好的使用计算机。表1是一张需要知道的信息的表格,请填写上面所有的项目并经常核对。至于核对的频率嘛,把它当成家里的水电煤气表好了。如何获得这些信息在表格后面会做出详细的说明。 具体方法: (1)<网络连接>中<本地连接>的属性,从此处可以看到:a.IP地址;b.子网掩码;c.网关;d.是自动获取IP地址还是设置静态IP地址;e.是自动获取DNS还是设置静态IP地址;f.网卡的品牌;g.网卡的型号。 (2)<控制面板>中的 (3)<控制面板>中的<系统> ,从此处可以看到: 操作系统。 3.2 查询对端信息 仅仅了解自己的网络基础信息也是不够的,还要知道身边其他人的网络基础信息,这样做会让你安全得多。比较可以暴露出很多的问题。如果你和大多数人都不一样,那么多半是你错了,赶快向网管咨询什么是正确的吧。 另外,如果你使用了不该你使用的代理服务器、DNS之类的基础服务,人家准备停机检修的时候你是不会收到通知的。而平时与其他人的比较可以帮助你较早地发现这些安全隐患。 具体方法如下。 3.2.1 了解服务 企业网承载着生产、账务、OA办公、邮件等系统,这些都是“网络服务”,是通过网络可以实现的传输服务。如果生产系统的网页打不开,准确的描述应该是“服务中断”。网络中断可以表现为服务中断,但服务中断却有多种原因,而网络故障只是其中的一个而已。
最好在自己的头脑中梳理一下,自己平时需要的网络服务都有哪些?当某一项服务中断的时候马上尝试一下其他的服务是不是同时中断,这样可以帮你明确排查的方向。 3.2.2 了解网络 记住几个关键节点的IP地址绝对是件很划算的事情。利用这些关键节点的IP地址我们可以快速的判断网络在哪里中断,顺便还可以知道该由谁修复、由谁负责。在企业网中内网是分段维护的,每段的边界设备就是关键节点。目前大致能分为三个大段:局域内网、骨干广域网、核心机房。 例如,局域内网的边界是一台华为AR46路由器。AR46到终端用户侧由局域内网自行维护,AR46以外是骨干广域网。骨干广域网的另一个边界是核心NE40路由器。了解这些信息后,我们就得知链路情况和运维人员信息。 3.2.3 了解工具 a.从桌面切换到命令行模式下,点击<开始>菜单->点击<运行>->在出现的输入框里输入CMD->点击”确定”;点击<开始>菜单->选择<程序>->选择<附件>->选择<命令提示符>。 b.想要关掉命令行窗口的话可以直接点击窗口右上角的叉,或者在命令行窗口里面输入EXIT并回车就好了。常用命令有:Ipconfig,Ping,Tracert,Arp。 c.查询DNS配置的主备正确性。 d.如有代理服务器,还要查询代理服务器的配置正确性。 了解了以上信息,就如大脑里有了一张很清晰的网络地图,出现故障时可以很快做出应急反应。 4 网络故障处理实例 4.1 网络中断排查 测试步骤一: 判断中断服务器是内网还是外网,如果你当前访问的服务突然中断,那么首先看看是内网的服务还是外网的服务。然后再在内网和外网分别自选一种服务尝试访问一下。例如生产系统突然无法访问了,那就尝试访问一下内网的门户系统和邮件系统和外网的一个知名网站。 (1)内网服务的网络关键节点如下所示: a.终端计算机->网关->局域内网边界路由器 -> 骨干广域网路由器 ->核心机房的服务器。 b.依赖的基础服务为:内网DNS服务器、AD服务器。 (2)外网服务的网络关键节点如下所示: a.终端计算机->网关->代理服务器->外网服务器; b.依赖的基础服务为:内网DNS服务器,公网DNS服务器。 (3)做信息排查表(表2)分类排查故障信息。 测试步骤二: 判斷是软件或硬件导致服务中断。如果某个服务出现中断,大致上的原因一般为网络链路、网络设备、服务器等硬件问题或者服务器操作系统、应用系统等软件问题。可以使用Ping这个操作系统自带的命令行工具来对这两种原因进行区分。 a.判断原则:Ping不通服务的IP地址属于硬件故障,能Ping通则为软件故障。 b.只是从自己的机器对网络和服务做出判断还是不够客观的,还需要更严谨的论证。前面已经大致的推测出故障原因,在这一节尝试对这个推测进行证明。 c.判断原则:可重复的结果才是基本可靠的结果。 网络结构如图1所示。 假设1:A用户Ping不通甲服务器而B用户可以。因为A与B用户访问甲服务器走过的是同样的网络路径,都是经过1和6两台路由器,所以问题出在甲用户的自身。 假设2:A用户可以访问甲服务器而不能访问乙服务器,B用户有同样的故障现象。因为A与B用户访问甲、乙两台服务器走过的是同样的网络路径,都是经过1和6两台路由器,所以可以证明是乙服务器本身问题或者是乙服务器到6路由器之间的链路问题。 假设3:E用户与F用户不能访问任何一台服务器,其他ABCD四个用户没问题。因为E、F用户访问任何一台服务器都要经过3、5两台路由器,所以应该是3、5两台路由器其中的一个或两个有问题,或者3到5之间的链路有问题. 假设4:C用户发现无法访问丁和丙服务器,询问后得知其他用户故障现象相同。由于每个用户访问丙丁服务器的路径不同,所以大家都要经过的路径可疑性最大。从图上来看大家都要经过的节点是4路由器。 根据前面的排查,已经可以基本的确定是不是服务器的问题。如果是网络的问题,那么还要确定出断点才行。现在,要使用Ping和Tracert这两条命令完成这项工作。 假如事前已经对网络的拓扑很了解,并且知道一些关键节点的IP地址,那么只需要参考由近至远的原则逐个Ping这些IP地址就可以知道断点的位置了。可是人们日常要访问的服务有很多,怎样才能知道数据怎样从自己的计算机流向某个服务器的呢?Tracert命令就是为了回答这个问题的。只要Tracert某个域名或者IP地址,它就会把经过的设备的IP地址按照先后顺序显示在屏幕上。如果从某一行开始就不再显示IP地址,那么它的前一行的IP就是你尝试访问的目标所能到达的最后一台设备的IP地址。建议在平时网络正常的时候就Tracert一些经常访问服务器的IP地址,记录下来正确的步骤是怎样的。等服务中断时可以用来比较路由有没有发生变化。 故障的原因永远是匪夷所思的。因此,需要专业的技能来做综合的分析、全盘的考虑和一些专业的测试。服务中断会给人们造成损失,损失大小与中断时间成正比。如果能有办法以更短的时间排查故障,损失也会相应减小。 下面简单介绍一下如何缩短排查时间。 4.2 经常出现的故障原因优先测试 (1)假设某网站今年已经出现了4次服务中断,其中3次是因为DNS无法解析造成的。那么当第5次发生服务中断时,请优先测试是不是DNS问题。 (2)又假设上周刚刚发生一起因服务器某软件进程不稳定导致的Web服务停止,今天又出现了很相似的故障现象,请优先测试。 4.3 最近有变动的部分优先测试 如果午饭前改动了一些程序代码,下午就有终端用户报告无法访问服务,那么请优先考虑变化对服务的影响。 4.4 二分法 假设从你的计算机到服务器之间途径10个网络关键节点,很不巧第7个节点出了问题。如果从第一个节点开始Ping的话,需要Ping7次才能确定故障点。如果采用二分法,第一次Ping目标服务器,第二次Ping第5个节点,第三次Ping第7个节点,第四次Ping第6个节点,大约需要4次就可以确定故障点。二分法用于测试步骤很多的情况下速度优势比较明显。 5 结 语 网络故障发生是在所难免的,企业网的运行维护需要网络管理员坚实的技术来支撑。提高网络安全平衡的运行,需要网管人员注意以下几个问题:认真学习有关网络技术理论,掌握网络结构设计,包括网络架构,网络拓扑,链路接口,系统配置参数及软件知识,收集网络运行各项参数和数据报告,熟悉常用诊断工具及命令,准确描述故障现象。 主要参考文献 [1]杭州华工通信技术有限公司.新一代网络建设理论与实践[M].北京:电子工业出版社,2012. [2]刘希俭.企业信息化管理实务[M].北京:石油工业出版社,2013. [3]罗昶,黎连业,潘朝阳,等.计算机网络故障诊断与排除[M].北京:清华大学出版社,2007. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。