一个连接出错问题的背后

先说下基本背景:短信被封装为服务,由于是外部调用,所以采用消息队列的方式来做异步的短信发送处理,短信发送记录会被保存到mongodb中。

发生的异常:

短信服务无法发送短信,具体异常如下

异常1

org.apache.axis.AxisFault: ; nested exception is: java.net.SocketException: Connection reset at org.apache.axis.AxisFault.makeFault(AxisFault.java:101) ~[mw-1.1.0.jar:na]at org.apache.axis.transport.http.HTTPSender.invoke(HTTPSender.java:154) ~[mw-1.1.0.jar:na]at org.apache.axis.strategies.InvocationStrategy.visit(InvocationStrategy.java:32) ~[mw-1.1.0.jar:na]at org.apache.axis.SimpleChain.doVisiting(SimpleChain.java:118) ~[mw-1.1.0.jar:na]at org.apache.axis.SimpleChain.invoke(SimpleChain.java:83) ~[mw-1.1.0.jar:na]at org.apache.axis.client.AxisClient.invoke(AxisClient.java:165) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invokeEngine(Call.java:2784) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invoke(Call.java:2767) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invoke(Call.java:2443) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invoke(Call.java:2366) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invoke(Call.java:1812) ~[mw-1.1.0.jar:na]at mw.WmgwSoap_BindingStub.mongateSendSubmit(WmgwSoap_BindingStub.java:323) ~[mw-1.1.0.jar:na]

异常2:

org.apache.axis.AxisFault: (0)null at org.apache.axis.transport.http.HTTPSender.readFromSocket(HTTPSender.java:744) ~[mw-1.1.0.jar:na]at org.apache.axis.transport.http.HTTPSender.invoke(HTTPSender.java:144) ~[mw-1.1.0.jar:na]at org.apache.axis.strategies.InvocationStrategy.visit(InvocationStrategy.java:32) ~[mw-1.1.0.jar:na]at org.apache.axis.SimpleChain.doVisiting(SimpleChain.java:118) ~[mw-1.1.0.jar:na]at org.apache.axis.SimpleChain.invoke(SimpleChain.java:83) ~[mw-1.1.0.jar:na]at org.apache.axis.client.AxisClient.invoke(AxisClient.java:165) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invokeEngine(Call.java:2784) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invoke(Call.java:2767) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invoke(Call.java:2443) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invoke(Call.java:2366) ~[mw-1.1.0.jar:na]at org.apache.axis.client.Call.invoke(Call.java:1812) ~[mw-1.1.0.jar:na]at mw.WmgwSoap_BindingStub.mongateSendSubmit(WmgwSoap_BindingStub.java:323) ~[mw-1.1.0.jar:na]

由于是外部调用,所以开始怀疑是不是短信服务商不行了,后来在测试环境验证,服务商一切正常,疑惑了很久,始终找不到原因,后来,同时发生问题的另外一个应用找出原因:一次从mongodb拉取大量数据。由于短信发送记录要存储在mongodb中,立刻查找代码,发现发送短信业务和存储mongodb的代码在一次同步调用中,简单推理找到最终原因:

短信服务和另外一个出问题的应用共享mongo数据库,由于另外一个应用从mongo中大量拉取数据,导致mongo处理速度变得奇慢无比,所以短信调用的业务会阻塞在存储mongodb的代码块中,由于短信服务请求很频繁,所以大量的线程会启动socket和短信服务商相连,又由于发生阻塞,大量保持socket的线程阻塞在系统中,连接得不到释放,最终导致上面的错误。

总结:

不是核心步骤的业务可以走异步过程。

设置合理的超时机制,避免无限制或长时间的等待。

connect reset可以从验证外部服务、分析系统连接状况来分析原因。

逻辑无关的业务数据可以分别存放,不用耦合在一起。




你可能感兴趣的:(一个连接出错问题的背后)