如何轻松排查网络故障?

如今企业网络日益复杂,网络故障的排查也越来越复杂。很多时候,企业网管会被网络出现的故障搞得一头雾水,而无从下手查找问题的根源。网络管理者的实践经验固然重要,但一套可以把底层信息全面呈现并能进行智能分析的网管软件更为重要。本文是通过某单位网络环路出现故障的实际案例,介绍如何通过智能网管软件发现问题、分析问题、解决问题。

某天,运维工程师张工接到某单位信息中心主任的电话。听起来主任非常焦急,反映他单位的网络出现问题,业务系统网速特别慢,部分区域出现大规模的网络瘫痪,局域网内部PC互ping丢包严重,PC ping上联网关的丢包率异常,已经严重影响到了企业业务,情况非常紧急。

张工立刻赶到了现场,快速打开网强网管软件。打开网强网管软件后,发现有多个接入交换机的CPU负载告警,CPU负载竟然达到了70%了,打开物理拓扑图发现CPU高负载的设备都是以红色图标展现在眼前。根据经验判断,出现这样的问题,通常有两种可能:ARP病毒和网络环路。

如何轻松排查网络故障?_第1张图片

1、排查ARP病毒

张工使用网强网管软件实时获取指标同时打开设备报表进行分析统计,查看后发现ARP报文处于正常阈值,同时帧流量和IP协议端口数这些指标都在正常的阈值范围内并没有发现告警现象。因此,张工快速排除了ARP病毒的发作的可能性。

2、排查以太网环路问题

局域网环路发生故障通常具备以下特点:

特点一:接入层交换机的CPU负载比较高。这是因为局域网出现环路后,广播报文会被环路上进行扩散,导致CPU性能比较低的接入层交换机的负载较高。

特点二:交换机的接口会在短时间指数倍的收/发大量的广播报文,通过交换机的接口详情的端口广播包数确认出现异常广播包的具体端口。

特点三:交换机规划中本应该关闭的端口异常打开,可以通过交换机详情页中接口详情的指标数据以及网强网管软件整理的报表进行整理分析,可以确定异常打开端口。

通过网强网管软件的CPU告警,设备接口的详情指标,以及物理拓扑中的出现颜色告警设备情况与上述特点很匹配,因此,张工断定是局域网环路故障。

故障解决

张工对物理拓扑图中20多个红颜色(CPU负载较高)的设备进行右键关联菜单中的设备详情页中的端口详情指标进行查看分析,经过不到10分钟的时间,发现其中一台华三的S3126的交换机中的Ethernet1/0/1和Ethernet1/0/2这个两个端口的广播包比率大,每秒端口流量大,同时广播包呈指数式增长。

事后发现,导致故障的原因是网络管理人员在跳线时将同一根网线插在了同一台交换机的两个端口导致的。

以往,用户通常采用在交换机上执行命令(例如,display interface Ethernet x/x/x)来查看接口统计信息,这种方式非常耗时而且要求网络维护人员有一定的技术水平。使用智能分析网络管理系统(如网强网管软件)通过图形化的方式快速定位问题所在,不但极大节约了网管人员的工作效率,而且将发现问题、分析问题、定位问题和解决问题的管理思路,完全融入到了IT运维管理中,为毫无头绪的网管人员提供了解决故障的方向与思路。

你可能感兴趣的:(如何轻松排查网络故障?)