上周又一次前往客户现场排查网络故障,虽然只是无数次拍错中的又一次,但是我觉得挺有代表性,所以写出来和大家分享一下。

        客户报修:客户一如既往的反馈,网很卡,上网慢,自己没有动任何设备和配置。不过客户反馈了一个挺有用的信息,阅览室的电脑一开,就会开始卡。根据客户的话,我估计是公网出口流量不足。

        到达现场第一阶段排查:首先看了出口防火墙,流量的记录显示有时候流量涨到120M,然后就上不去,我判断是不是公网出口只有100M,于是让客户和运营商确认一下,得到的答复是200M的线路。到了这里,我觉得会不会是运营商忽悠客户,其实就是100M。

        第二阶段:我登录核心交换机与防火墙,用命令看接口的情况。防火墙的接口没发现异常,然后是核心交换机的接口,看到了利用率50%了。这时我感觉到异常,虽然说接口还没到100%,转发数据没问题,但是50%也是不正常的,难道这下面有环路。查了一下拓扑,这个接口中间串一个上网行为管理就到防火墙了,再看防火墙连内部的接口,流量5%,这就有点奇怪了。仔细数了一下交换机接口协商速度是多少个0,原来接口变成百兆了。到机房里一看,网线被折的太厉害了,换了网线,恢复到千兆了,我觉得问题解决了,让客户去测测吧。

        第三阶段:客户回来说,还是卡,阅览室电脑一开开就卡,我登到防火墙一看,流量已经220M了,看来运营商没忽悠,真的开的是200M,但是还是撑不住电脑多,我和客户说,带宽不够了,200M都跑满了。客户说,阅览室的电脑还没人用,只是开机,哪来的流量。我和客户说,防火墙没办法看到具体流量是什么,看这个需要上网行为管理了。

        第四阶段:前面说到网里是有上网行为管理的,但是这个不是我们买得,按理说我可以不管,但是本着解决客户问题有限,我还是进去看了一眼,原来流量都是系统补丁更新,阅览室电脑都有还原功能,开机了就自动更新补丁,关机又恢复了,没完没了。

        最后的解决办法,在上网行为管理上把这个应用的流量禁掉,马上恢复正常了。问题彻底解决。

        整个排错,我最想说的一点就是我看接口流量那一块,我当时想去看,并不是因为我觉得那里有问题,能发现什么,仅仅是习惯上去看了。而看到有那么一点特别,就抓住不放,找到根本原因是什么。很多难题就是这么解决。