医院支付系统网络故障分析案例

背景

河北某大型医院有一台统一支付平台系统,有两个支付终端访问此平台,统一支付平台对外访问支付宝和微信的支付接口,近期发现统一支付平台在上午10点20分和凌晨2点出现支付响应慢,并最终提示超时,支付未成功情况。

我们已将NetInside流量分析系统部署到医院的机房内,使用流量分析系统提供实时和历史原始流量。本次分析重点针对支付业务系统性能和异常进行分析,以供安全取证、性能分析、网络质量监测以及深层网络分析。

分析时间

报告分析时间范围为:2023-04-07 2:00—2023-04-07 3:00,时长共计1小时。

详细分析

针对支付异常情况,我们采取了以下详细分析。

业务梳理

对业务系统流程进行梳理,如下图。

医院支付系统网络故障分析案例_第1张图片

对异常超时情况分析,如下图。

医院支付系统网络故障分析案例_第2张图片

一种情况:统一支付平台与外网支付宝和微信的发送或接收超时。

另一种情况:两个终端机和统一支付平台的发送或接收超时。

外网地址查询

通过可观测功能查找到42访问外网的两个地址,如下图。

医院支付系统网络故障分析案例_第3张图片

定义业务和应用

定义统一支付平台,并导入证书信息,如下图。

医院支付系统网络故障分析案例_第4张图片

医院支付系统网络故障分析案例_第5张图片

定义微信和支付宝应用,如下图。

医院支付系统网络故障分析案例_第6张图片

医院支付系统网络故障分析案例_第7张图片

数据包分析

下载统一支付平台和终端交互数据包,得到的是明文的信息,即对上述证书导入已无意义。

可观测大屏定义

通过自定义可观测大屏,对业务关键点进行指标设置,右侧是两台终端设备访问统一支付平台的指标。左侧是统一支付平台对外微信和支付宝支付接口的指标。如下图。

医院支付系统网络故障分析案例_第8张图片

监测统一支付业务系统用户体验,如下图。

医院支付系统网络故障分析案例_第9张图片

可观测大屏分析

在出现异常时间范围内监控,发现统一支付平台存在服务器响应时间平均在4秒多,慢访问百分比在14.28%,微信接口出现流入66%、流出87%丢包情况,如下图。

医院支付系统网络故障分析案例_第10张图片

分析结论

系统几秒钟定位至问题根本原因,在出现异常时间范围内监控,发现:

1)统一支付平台存在服务器响应时间平均在4秒多,慢访问百分比在14.28%;

2)微信接口出现流入66%、流出87%丢包情况。

作用和价值

经过对现场流量的仔细分析,我们判断交换机到外网之间存在问题。建议网络管理员检查中间的软硬件设备,以进一步找出导致丢包的具体原因,并采取相应的措施快速解决问题。流量分析系统在此过程中发挥了重要作用,通过其解决网络慢、卡顿和异常中断等问题的能力,为用户的网络环境提供了更加稳定的运行。

你可能感兴趣的:(性能优化,运维,网络)