久壳教你A10负载均衡7号错误分析如何解决!

本次给大家带来A10负载均衡的7号错误分析及解决方案!
什么是“7号错误”呢?
MPS系统是定位系统,它使用了A10设备作为负载均衡。在使用过程中出现定位失败的现象,其中与A10有关的错误定义为“7号错误”。

确认问题

发现应用服务器(SOG)通过A10请求到GMPC服务器时会出现超时现象。如下图所示:

久壳教你A10负载均衡7号错误分析如何解决!_第1张图片

久壳教你A10负载均衡7号错误分析如何解决!_第2张图片 

我们通过现场调研,得出业务访问流程如下:
Client(发起请求)>>A10(SLB)>>SOG(新的请求)>>A10(SLB)>>GMPC(发送数据请求Client源IP位置信息)>>移动采集数据系统(返回Client源IP位置信息)>>GMPC(发送Client源IP位置信息)>>SMPC(计算经纬度信息并发出)>>GMPC(经纬度信息返回给A10)>>A10(经纬度信息返回给SOG)>>SOG>>回包给客户端。

久壳教你A10负载均衡7号错误分析如何解决!_第3张图片
 

通过报错日志可以看出,该报错出现在业务流程分析的第4步。分析可能与以下因素有关:

一、会话超时时间

一个会话涉及到多个设备节点,任何一个节点提前超时都会影响该会话。

A10中对业务系统的配置是使用了TCP协议,官方默认Timeout时间为120秒。如果由于某种原因(服务器运算或者其他原因)超过120秒没有回复给SOG服务器,A10将会话中断,此时Client将得不到回复,这个会话就报错。

二、SNAT地址池

SNAT地址池直接影响业务的并发会话数,特别是在业务高峰期,目前A10的业务SNAT地址池对内对外只有一个地址,检查一下A10设备传输的IP地址池是否充裕,也就是源端口的池是否够用。

三、系统异常处理机制

建议程序开发方面能否有异常处理机制。

得出结论

出现“7号错”原因有如下可能性:
会话超时时间限制;
SNAT地址池不够
系统异常处理机制原因
解决问题

一、调整会话超时时间

建议调整A10配置,将A10的Timeout时间大于后台服务器超时时间。
具体操作步骤如下:
1.创建TCP模板:

slb template tcp template-name

2.配置超时时间:

idle-timeout seconds (建议调整15分钟以上)

3.绑定TCP模板:

service-group group-name

template tcp template-name

二、调整SNAT地址池(建议增加SNAT地址池)

ip nat pool internal_pool 192.168.225.9 192.168.225.X netmask /29 

以上这条命令中的“X”改成增加的地址池

三、调整系统异常处理机制(建议系统软件方调整异常处理机制)

你理解7号错误了吗?如果有问题可以留言,带你看不一样的IT世界,我们下期再见!

你可能感兴趣的:(久壳解决方案,网络,服务器,java)