关键业务系统性能流量分析案例

故障现象

IT运维中心接收到用户反馈,有个关键业务,近几日早上都会响应很慢,运维人员通过NetInside分析系统,希望进一步分析造成系统慢的原因。

业务架构简述

该业务系统采用典型的代理工作方式,其中一台代理服务器面向互联网,代理服务器后接入3台真实的服务器。关键业务系统性能流量分析案例_第1张图片

分析过程

使用分析系统概要分析看到,该业务系统在故障时段,存在大量的慢访问现象。在业务的延时分布图中,平均时长也超过了20秒。关键业务系统性能流量分析案例_第2张图片

通过NetInside单个交易分析功能,进一步分析,查看到大量的访问延时超过了50秒。而造成延时的原因主要是服务器响应时间太高。

通过系统瀑布图再次确认,在一次54.24秒的单个交易中,服务器响应时间超过了50秒,这说明慢响应中,的确是服务器响应时间太高。关键业务系统性能流量分析案例_第3张图片

为了更为有效的说明该故障原因,从分析系统下载单个交易对应的原始报文数据。使用协议解码器工具打开查看,下图得知服务器响应时间为53.64秒。关键业务系统性能流量分析案例_第4张图片

分析结论及总结

通过分析,精确定位到该业务响应慢的具体原因为服务器响应时间太长,而不是网络拥塞或延时过大引起的。这个结论为故障定位节省了大量的研判时间。

既然已经得知是服务器延时过大,故障排除人员有针对性的直接检查应用服务器,发现负载均衡后面的一台服务器存在性能问题,但该现象通过代理服务器并没有发现。当访问量增大时,故障就更为明显。

网络运维人员将事件处理移交到应用开发组,问题被轻松解决。

你可能感兴趣的:(流量分析,性能分析,运维,性能优化)