一次网关冲突导致的网络故障排查

1、背景

在下是运维网络的一名技术人员,半路出家接触比较多的是华为和H3C的三层园区交换机。这里是排除一次网关相关的问题。 这是一个平常的上午,小明正在巡检机房。突然接到个的电话,电话里说,“上面要求的要马上处理.......”,好吧一个好好的上午就这样被破坏了。

终于是汗流浃背的跑到现场,在一群人七嘴八舌的一通陈述中大致明白了。

  1. 有一个机房的设备要接入我们新开的网段中(即下文中的172.100.2.0 /24网段);
  2. 他们的设备在用光纤收发器拉到我们的机房里,用电脑可以在同网段下PING通他们的设备(即下图1中的172.100.2.11)
  3. 他们的设插入相应的端口上时无法与其他网段连接(下文中以PING通图1中的PC2:172.168.4.2来表示与外网连接)

来,先来画个网络拓扑图吧。。。。。。

一次网关冲突导致的网络故障排查_第1张图片[图1-网络拓扑图]

2、故障现象

先来验证一下他们描述的对不对,找一台电脑来试试。现分别用网线连接在机房1拉来的光纤收发器上和原来这个网段的交换机端口上。测试都是正常的?????‘

两个网都是正常的?
一次网关冲突导致的网络故障排查_第2张图片
一次网关冲突导致的网络故障排查_第3张图片

3、故障排查

一开始本以为可能又是填错网关、写错子网掩码这些问题。于是我检查了他们网络设备的网关和子网掩码,可是经过一番检查并没有出错,视乎并没有这么简单。

这可就就奇怪了,明明两边分别测试都是正常的,可接上就出问题了。好吧来拿个交换机来,把电脑,要接入的机房1线路和原来交换机的端口相连,再测试一下。
的确,只能PING通机房1要接入的设备172.100.2.11,无法PING通172.168.4.2 。这是什么情况????

然后开始在大脑和网络里寻找相似的案例,可是经过苦思冥想,尝试排查交换机配置是否正确,MAC有无绑定,检查交换机端口流量是否正常,查看日志等等。无果后,小明似乎陷入了绝境。

一次网关冲突导致的网络故障排查_第4张图片

当小明把从机房1拉过来的网线拔下,打算再确认一下的时候,奇迹出现了,网络自动恢复了。

一次网关冲突导致的网络故障排查_第5张图片

真奇怪,当小明又把刚才那根从机房1拉过的网线插回LSW5交换机时,网络马上中断了?????
看来有突破了。
然后小明把机房1的网线接到电脑上PING网关(172.100.2.254)它居然是通的。这就很可疑了,难道是看错了,一个网络里不可能有两个网关呀??

一次网关冲突导致的网络故障排查_第6张图片

为了稳稳的将他们一军,打击一下敌人的嚣张气焰。小明赶紧确认一下,查看了两个网关的MAC地址,发现是不同的。这就很直接的说明因该是机房1的实施人员错误的配置了交换机,使得这个网段里有两个网关导致网络瘫痪了。
一次网关冲突导致的网络故障排查_第7张图片
一次网关冲突导致的网络故障排查_第8张图片
当我甩出相关资料,对方瞬间哑了火,刚刚还非常嚣张的说我们的网络有问题…在场的人纷纷拿起电话到处询问自己管辖的机房1里面的网络到底是什么情况。
N个电话后,一位经手配置这个机房网络的工程师打来电话,我们两个技术人员在相互询问了解情况后终于明白,原来在机房1内还有一个网络,172.100.2.11还有一个NAS服务器要与之相连,但因为不方便更改NAS的IP地址,所已他们把172.100.2.0 /24这个网段和192.168.2.0/25这个网段打通了,所有才在他们的机房1里交换机LSW1里也设了个网关是172.100.2.254的VLAN。
实际上的拓扑图 应是这样的。
一次网关冲突导致的网络故障排查_第9张图片

4、总结

  1. 画个网络拓扑图非常有利于问题排查和处理;
  2. 与现场人员沟通要耐心,抓住细节;
  3. 最好找到经手的技术人员来沟通;

虽然在这里用抓包软件来看网关的MAC有些大才小用,这样的方法也不一定正确,这次小明是用这样的方法解决的。不知到各位大神有没有更好的解决方法,在下一定虚心学习毕竟这小小问题居然花了几个小时才搞定,如有错误也望各位帮忙指出。

你可能感兴趣的:(日常排障)