今天遇到一个问题,一个分公司全部没有办法上网,我把解决问题的思路写出来,供大家借鉴。

网络环境背景介绍:
分公司有两条线路,一条MPLS专线,用于内网流量,另一条为internet线路,用于本地上网,两条线路是互备的。
解决步骤:
由于不在本地,不太清楚什么状态。
第一步:先连接到internet的路由器上,查一下默认路由,发现路由器是可以连接的,初步排除了是线路问题。
第二步,远程桌面到DC上,从DC向外ping公网地址,结果发现不通。检查DNS服务器的DNS转发地址,发现配置正常,看了一下DNS服务,一切正常。
此时,突然出现internet路由器给断了,第一反映就是线路出现了问题。
第三步,思考了一下,给本地打电话,咨询为什么internet线路断了,要求本地去把线路接到电脑上去测试,后来才知道,本地的工程师在我测试时把internet线路给拔下来了。
第四步,突然发现本地能够上网了,但ping值有点高。当时反映就是流量给切换到MPLS线路出去了,都不用tracert路由,我就能猜出来。因为intenret路由器做了Trap,如果internet线路断了,默认的浮动路由就会将流量引入么MPLS路由器上。
第五步:由于本地IT做了什么测试也没有反馈,就说直连就正常,这对于我的判断起到了一些干扰。我假设线路是对的,又登录到internet路由器上,ping网关,发现数据包是对出去的,看了一个默认路由,是有的,原来出来过默认路由丢失的情况,造成内部无法上网。
第六步:从内部tracert出去,发现从核心到路由器这一块不通的。卡死在一个接口上,当时没有注意。主观间断是DNS服务器没有做解析。然后粗暴的把DC重启了,发现问题没有解决。
第七步,重点解决DNS的问题,将DNS的转发地址重新设置,指到了我的主DNS服务器上,将本地的DNS请求引过到主DNS服务器上,对于内网解析是正常的,还是不能解析外网的域名。做到这个状态时,得到的结论就是DNS服务是工作的,否则内部的名称也不会解析,感觉线路对我的公网DNS转发指向做了限制。
第八步,打电话报修,狂虐线路供应商,让他们查做了什么限制。反正我们都懂的,这种线路的支持都是很有限的,好多技术人员都是晕得乎的,几乎不理解你的需求。
第九步,还得靠自己来查出问题点在哪里,好采取措施。寻求本地IT工程师支持,将线路又仔细测试了一遍,排除了线路问题。突然想起来第六步的测试,为什么流量卡在一个接口上,核心是将数据丢给了路由器,路由器也有默认路由,路由表也没有丢失,路由器也能从出口发出数据包去,只有一个问题,就是路由器对下面的路由没有进行转发,我看了show cdp neibor,设备都活着呢,show ip eigrp nei,邻居都在呢,但是如果路由进程没有做数据转发,那肯定就是出不去呀,看过端口,没有error disable的。
手段很简单,当然又是粗暴的,把路由器重启了,瞬间问题就解决了。因为没有太多的时间再去对路由进程做排错,下次再遇到时,再仔细看一看。

总结:
1.在解决紧急突发事件事,逻辑判断很重要;
2.与本地工程师的沟通很重要,千万别两个人同时做一件事,互相不沟通,对于远程判断来讲,会产生严重的误判;
3.解决问题的思路很重要,即使对架构了解的很清楚,其实在高度压力下,能清醒就很不容易了。一个工厂的生产网络中断,后果真得很严重的。