通过全流量分析助力某医院关键业务提高性能

背景

    福建某大型医院信息科近期接到多人反应,业务系统访问慢和报错情况,因为问题出现没有时间和操作规律,网络管理员通过多种方式排查,未能得到有效的原因定位。

    我们已将NetInside流量分析系统部署到医院的机房内,使用流量分析系统提供实时和历史原始流量。本次分析重点针对业务系统性能和异常进行分析,以供安全取证、性能分析、网络质量监测以及深层网络分析。

详细分析

    针对系统慢和卡顿问题,采取了以下详细分析。

关键业务整体健康得分

    通过业务健康大屏,我们可以快速了解各关键业务在基于用户体验的性能健康状况得分,如下图:

通过全流量分析助力某医院关键业务提高性能_第1张图片

神外临床试验数据研究(研究所)业务分析

    通过健康度,我们发现神外临床试验数据研究(研究所)这业务得分较最低(5 分的业务确认为数据不全,排除分析队列),鼠标放上去,显示存在大量慢页面:

通过全流量分析助力某医院关键业务提高性能_第2张图片

    那么慢页面的原因是什么呢?我们知道影响用户体验延时的因数,包含网络、服务器及业务逻辑等多个因素,所以这么多的慢页面具体原因是我们接下来需要分析确定的。我们直接右击选择“性能问题根本原因定位”:

通过全流量分析助力某医院关键业务提高性能_第3张图片

    打开分析页面:

通过全流量分析助力某医院关键业务提高性能_第4张图片

    我们可以看到

http://172.XXX.XXX.219/IM/onlineRegisterp这个服务的所在请求都是慢的,那么是网络原因导致的吗?接着看展开的数据:

通过全流量分析助力某医院关键业务提高性能_第5张图片

    可以看到,网络时间没有问题,但服务器响应时间超过 60 多秒,那看是去是服务器的问题?我们接着看,同一台服务器其他服务: 

通过全流量分析助力某医院关键业务提高性能_第6张图片

    可以看到,同一台服务器的其他服务,基本没有问题,这说明服务器本身是没有问题的,如此可以确认,该项服务延迟较大,应该是应用本身逻辑所存在的问题,我们需要在应用上去做进一步的分析。

另外,我们可以直接右击,点“应用数据包分析”:

通过全流量分析助力某医院关键业务提高性能_第7张图片

    可以直接下载此请求的数据包,以便进一步确认问题:

通过全流量分析助力某医院关键业务提高性能_第8张图片

    上图中,169 的 IP 发送了一个 post 的请,但 219 在 30秒后再回复,然后下一个请求又很快,所以显然,这个服务在响应请求时卡了一个 30 秒,如此可以进一步确认,应用本身存在问题,需要进一步的排查。

人事管理系统分析

 

通过全流量分析助力某医院关键业务提高性能_第9张图片

    人事管理系统影响得分的因素,则只是存在错请求,我们点看查看: 

通过全流量分析助力某医院关键业务提高性能_第10张图片

    由上图可以看到,在第一个特定请求时,存在 7 次 500,而访问次数是 75 次,这种情况通常需要对中间件或逻辑进行分析,因为本上讲,几十次的访问不太会出现 500 的错误。

快速了解客户访问体验

    基于业务分析的模块,我们不仅关注业务本身,还关注客户对业务的访问的体验情况。一般而言,只要业务可用,存在性能问题客户通常不会报告,但大概率会心有抱怨。所以提供主动积极有客户体验关怀,我们的特色功能,如下: 

通过全流量分析助力某医院关键业务提高性能_第11张图片

    通过上述功能,我们可以知道特定业务,每个客户的的访问体验,并快速了解体验差的来访问者,并主动进行关怀,快速解决用户体验问题。

分析结论

    经信息科的全面协助,我们对导入的流量中,测试的关键要素进行了分析,初步得出了以下结果:

    1)神外临床试验数据研究(研究所)onlineRegisterp 服务模块出现存在严重性能问题,从发现问题到定位边界不到 5 秒;

    2)人事管理系统存在 500 错误信息,这种情况通常需要对中间件或逻辑进行分析;

    一眼可以看到特定业务客户访问的体验情况,可针对体验较差客户,快速分析具体原因。

用户收益

    本次测试中,具体分析的时间比较短,在不到一天的时间内,在海量流量情况下,快速识别潜在问题,快速定位问题边界,初步建立关键网络路径上的性能传导模型图,基本上满足的预见性运维的能力要求。

    从上所述,我们发现业务问题,无论是业务性能问题还是访问错误,到分析及确认问题边界,只须要不到 5 秒时间,所以对于大规模业务性能分析保障,netinside 系统高效有力将大幅度提高运维效率。 

你可能感兴趣的:(网络,web安全,运维)