(故障记录)关于全网ping网关偶发性丢包问题

现象
在新建局域网中,出现终端至网关ping测试偶发性丢包问题,丢包率小于2%。网络拓扑为终端——接入交换机——核心交换机——路由器,网关在核心交换机上,有多个网段。
排查
1,由于最初是在运维终端上发现此现象,排查运维终端至网关交换机设备之间链路,均正常。更换终端,接口,线路,现象依旧。
2,在接入交换机的上下联口,核心交换机的下联口做流统配置,在运维终端上ping网关1000个包,接入交换机和核心交换机流统结果均为999个包,终端测试结果为丢包1个。即纳入流统计算的包全部转发无丢包,但确定不出丢包点位。
3,对下联网段进行中断测试,发现断开一个区域的网络后,整体网络不再出现丢包现象。
4,在上述区域的终端上进行抓包,发现有很多无源ip地址的arp报文,源地址只显示相同的mac地址。同时也有一部分相同源地址的arp报文。
5,开启核心交换机调试功能,发现arp队列转发已经达到系统阈值200,首先采用全网arp静态绑定,处理效果不明显,然后手工逐步增加阈值至500,发现实际值为350,设置完毕后丢包现象消失。
6,补充配置,在核心交换机提高目的地址为自身arp报文的转发优先级(防止找不到网关),预防性丢弃ipv6报文(与arp同队列,且网络未使用ipv6)。
分析
丢包原因为核心交换机的arp报文处理速率达到阈值,丢弃超出数量的报文。实际情况为终端部署数量超过该型号核心交换机的默认上限,同时网络中arp报文较多,而系统默认arp报文转发优先级最低。考虑到CPU利用率仍保持较低值,该情景下选择调高arp转发阈值解决。

你可能感兴趣的:(笔记)