问题描述
组网:
国干(C1)--国干(C2)
| |
NE5000E1--NE5000E2
\ /
\ /
\ /
R厂家设备
全省城域网出口为两台NE5000E,上行至国干C厂家设备,口子形组网,NE5000E将城域网路由聚合后,在本地配置黑洞路由,再发布国干;NE5000E向城域网内部发布缺省路由。故障时两台NE5000E全部停止转发,全省流量中断,该故障共发生两次,第一次未做任何操作30分左右自动恢复,第二次中断通过重启其中一台NE5000E后恢复。

告警信息
无任何告警信息

处理过程
1、城域网内部trace公网地址不同,终结到NE5000E;
2、检查NE5000E各表项状态均正常,而且有出流量;
3、NE5000E入流量几乎为零,或者是两台NE5000E上行单板同时出现故障,或者是上行国干设备没有转发;
4、两台核心设备同时出现故障的可能应该很小,因国干设备由集团维护,难以协调,继续通过省内设备排查;
5、通过省内网管监控接口的流量图发现,两台NE5000E上行口的入流量经常切换,两台设备的入流量均为零时则出现事故,最大疑点就是第二次事故时通过重启一台NE5000E恢复,流量图发现:重启后城域网所有流量全部切换到重启这台设备,再过30分钟左右,整个城域网流量恢复到正常模型;
6、由第5步可以推断可以排除NE5000E单板转发问题,故障原因与国干设备收敛相关;
7、检查NE5000E BGP路由更新统计,发现发出的update统计比正常情况高出10多倍,应该存在路由振荡,随即检查NE5000E日志,发现有ospf路由撤销记录;
8、再详细坚持NE5000E路由条目发现,NE5000E发布给国干的是ospf路由,并不是手工配置的黑洞路由,ospf路由振荡引入bgp导致国干路由抑制,问题明确后联系集团检查,集团确认的确做了路由抑制;
9、调整黑洞路由的优先级后,故障不再发生;
10、后续在城域网内部也找到了振荡源,为R厂家设备与NE5000E黑洞路由配置冲突导致,推动局方修改后问题彻底解决。

根因
1、该问题发生两次,都是国干设备停止转发导致,初步结论是:我司两台设备上行板同时出现问题?国干两台设备同时出现硬件问题?国干两台设备路由学习出现异常?两台设备同时出现硬件问题的可能性很小,而且两次故障都能自动恢复,基本排除硬件原因;
2、结合城域网网管对NE5000E上下口流量监控、以及城域网频繁路由振荡,判断该问题是由于城域网内部存在路由振荡,触发国干设备路由抑制,导致故障发生;
建议与总结
1、处理问题要拓宽思路,不局限一两台设备;
2、出问题后把问题现象搞的越详细越好,然后顺藤摸瓜,找到故障源;
3、对于路由学习类问题,要注意优先级的配置,看详细路由看看到底是由什么路由协议生成的;
4、对于具有外部EBGP的环境下,建立网内做发布的路由器使用手工network+静态路由指定为null0的方式进行宣告,虽然这样增加了麻烦,但是如果将OSPF充分布到BGP方式,也很难避免网内的IGP协议频繁的振动和更新
5、在骨干设备上增加路由接收的过滤策略,对网络总会有一定好处的