全流量分析某企业系统历史疑难问题秒级定位

背景

我们收到医院网络管理员的反馈,医生们经常抱怨其主要业务系统的访问变得缓慢。经过排查发现,网络没有异常,开发商也未发现问题,但是这个问题一直没有解决。

因此我们将NetInside流量分析系统部署到医院的机房内,使用流量分析系统提供实时和历史原始流量。本次分析重点针对业务系统性能进行分析,以供安全取证、性能分析、网络质量监测以及深层网络分析。

部署架构

与技术人员沟通了解到,医院的整体流量不是很大,因此在医院大楼的核心交换机进行流量采集,系统采用旁路方式镜像流量,对全院的内部及外网流量进行监控。

全流量分析某企业系统历史疑难问题秒级定位_第1张图片

详细分析

关键业务整体健康得分

通过业务健康大屏,我们可以快速了解各关键业务在基于用户体验的性能健康状况得分,如下图:

全流量分析某企业系统历史疑难问题秒级定位_第2张图片

神外临床试验数据研究(研究所)业务分析

通过健康度,我们发现神外临床试验数据研究(研究所)这业务得分较最低(5 分的业务确认为数据不全,排除分析队列),此系统即是医生反馈出现访问慢的系统,鼠标放上去,显示存在大量慢页面:

全流量分析某企业系统历史疑难问题秒级定位_第3张图片

那么慢页面的原因是什么呢?我们知道影响用户体验延时的因数,包含网络、服务器及业务逻辑等多个因素,所以这么多的慢页面具体原因是我们接下来需要分析确定的。我们直接右击选择“性能问题根本原因定位”:

全流量分析某企业系统历史疑难问题秒级定位_第4张图片

打开分析页面:

全流量分析某企业系统历史疑难问题秒级定位_第5张图片

我们可以看到 http://172.16.230.219/IM/onlineRegisterp这个服务的所在请求都是慢的,那么是网络原因导致的吗?接着看展开的数据:

全流量分析某企业系统历史疑难问题秒级定位_第6张图片

可以看到,网络时间没有问题,但服务器响应时间超过 60 多秒,那看是去是服务器的问题?我们接着看,同一台服务器其他服务:

全流量分析某企业系统历史疑难问题秒级定位_第7张图片

可以看到,同一台服务器的其他服务,基本没有问题,这说明服务器本身是没有问题的,如此可以确认,该项服务延迟较大,应该是应用本身逻辑所存在的问题,我们需要在应用上去做进一步的分析。

另外,我们可以直接右击,点“应用数据包分析”:

全流量分析某企业系统历史疑难问题秒级定位_第8张图片

可以直接下载此请求的数据包,以便进一步确认问题:

全流量分析某企业系统历史疑难问题秒级定位_第9张图片

上图中,1.169 的 IP 发送了一个 post 的请,但 230.219 在 30秒后再回复,然后下一个请求又很快,所以显然,这个服务在响应请求时卡了一个 30 秒,如此可以进一步确认,应用本身存在问题,需要进一步的排查。

人事管理系统分析

全流量分析某企业系统历史疑难问题秒级定位_第10张图片

人事管理系统影响得分的因素,则只是存在错请求,我们点看查看:

全流量分析某企业系统历史疑难问题秒级定位_第11张图片

由上图可以看到,在第一个特定请求时,存在 7 次 500,而访问次数是 75 次,这种情况通常需要对中间件或逻辑进行分析,因为本上讲,几十次的访问不太会出现 500 的错误。

快速了解客户访问体验

基于业务分析的模块,我们不仅关注业务本身,还关注客户对业务的访问的体验情况。一般而言,只要业务可用,存在性能问题客户通常不会报告,但大概率会心有抱怨。所以提供主动积极有客户体验关怀,我们的特色功能,如下:

全流量分析某企业系统历史疑难问题秒级定位_第12张图片

通过上述功能,我们可以知道特定业务,每个客户的的访问体验,并快事了解体验差的来访问者,并主动进行关怀,快速解决用户体验问题。

分析结论

经信息科的全面协助,我们对导入的流量中,测试的关键要素进行了分析,初步得出了以下结果:

1、神外临床试验数据研究(研究所)onlineRegisterp 服务模块出现存在严重性能问题,从发现问题到定位边界不到 5 秒;

2、人事管理系统存在 500 错误信息,这种情况通常需要对中间件或逻辑进行分析;

3、一眼可以看到特定业务客户访问的体验情况,可针对体验较差客户,快速分析具体原因。

用户收益

经过对现场流量的仔细分析,我们对业务系统慢和报错进行提交厂商排查,厂商通过具体的地址,很快处理了慢访问和报错的问题,给医院医生带来更高效的办公环境。

NetInside全流量行为分析技术,能够快速发现业务系统的慢访问和报错原因,帮助用户轻松解决系统体验差的问题,提高用户网络的整体性能,提高业务上的办公效率。

你可能感兴趣的:(网络,运维,web安全)