一个故障的处理过程

前几天我这里出现一个故障,某个旗县交换机的上行口的入流量连续几天都达到满容,导致该交换机下挂用户无法正常上网,现在我将故障处理经过写一下,供大家参考。
一、组网描述及故障现象
1 、组网描述:
我公司城域网从核心层到该旗县的组网路径如下:
核心路由器 cisco7609 千兆下联中兴的三层交换机 zxr10-8912 ,中兴的三层交换机百兆下联旗县的华为 9306 交换机, 9306 下挂一台华为 DSLAM ma5300 和几台华为的 3328 2326 交换机,用户 700 户左右。
2 、故障现象
该交换机原来日常流量在 50 -60M 间,晚上忙时峰值流量达到 80M ,从 7 4 开始 9306 的上行的入流量就开始逐渐增大,白天的流量猛增,到了 7 6 全天的入流量从 9:00 22:00 都达到 100M ,用户普遍反映打开网页慢, ping 网关丢包严重。
二、故障处理经过
接到故障申告后我们首先对该出口的流量进行了分析, 9306 下挂的 5300 的出流量只有 50M 左右,且流量较平稳,几台 3328 2326 的流量合计只有 10M 不到,这样一来 9306 的入流量和向下的流出的流量就存在将近 40M 的差距,这部分流量被 9306 交换机直接丢弃了,现在的问题就是这部分流量是从哪里来的。
为了判断这个,我们首先将交换机下挂的设备逐个断开,但是没有任何变化,因此怀疑交换机存在问题,将 5300 提到了 9306 前面, 9306 挂在 5300 上,但是流量仍然没有变化。
在咨询华为厂家后,厂家建议抓包,确定入流量的来源,由于该旗县距离我们较远,来回时间太长,为此我们从 8912 上对端口进行了端口镜像,并在镜像端口上进行抓包,从抓包情况看没有发现异常的数据包。
鉴于此,我们将 8912 上对应端口的所有 vlan 数据全部删除,发现流量也随之下降到 0 ,可以确定流量是由于保康的某个用户引起的,然后我们将 vlan 逐步加入,随着 vlan 的加入,观察上线的 mac 地址数量和端口流量的变化,发现在将 vlan 400 495 加入时流量有突增,且持续上升,这时候查看端口的 mac 地址数量并没有该段的用户上线,将这部分 vlan 取出后流量又下降回正常值,将其他 vlan 加入后没有出现流量异常的情况,之后我们将这部分 vlan10 个一段的加入,但是直到加完仍没有出现异常,一直到第二天一切正常。
三、原因分析
通过故障处理,基本判断为旗县当地有用户可能是中毒或中木马,也可能有人恶意攻击某用户,只要该用户上线则从他网出现攻击该机器的流量,而之后之所以流量正常,一种可能是该用户由于一直上网不好下线了,一种是该用户发现本机存在问题,自己处理了,外网缺少攻击源,自动停止攻击。
通过此次故障的处理来看,当某个端口流量过大时,应先对该端口下挂设备的流量进行观察,如果该设备下挂用户的出流量之和小于入流量且差额较大,基本可以判断流量存在问题,既可能是有外网攻击,也可能是设备本身故障。
这时就需要对端口进行抓包,如果通过抓包发现问题及时处理,如果没有发现问题则只能通过对用户逐步排查的方法进行查找。
一种方法是将所有用户断掉再逐步添加查找,另一种是逐步将用户取出查找,如果用户反映强烈,建议先将用户全部断开,这样只要存在问题的用户没有加入,那么前期加入的用户就可以正常上网。
以上是此次故障处理的经过,其中肯定存在错误,希望能够看到这篇文章的大侠们多提意见,如果有更好的故障处理方法希望多多提出,多谢!
 

你可能感兴趣的:(故障,攻击,休闲,流量,中毒)