Spring task定时任务执行一段时间后莫名其妙停止的问题

前因:

一个项目,主要功能是用Spring task定时任务每天定时给工行发送清算并等待响应。执行了几个月一直没有问题,前几天,莫名其妙的突然不再发送清算数据了。

只好花费一些时间来查看到底是什么原因造成的。

在日志中可以看到执行了30(假定值)次后,突然不在往下执行了。此时的服务已经执行了好几个月了。

问题分析:

因为步骤1中的代码,全部放在了try{}catch(){}代码快中,如果有异常被捕获,肯定会被记录到日志当中。

所以这个异常不是我本地的代码造成的,如果是我本地的代码,异常肯定会被抛出,并且被记录下来。

如果不是我本地的代码出错,那基本可以确定异常是在http请求远程接口的时候出现的,而且这个异常可能造成了任务线程的阻塞或者死亡。

最终锁定了两个可能的原因:

1. 和远程服务间创建的keep alive的connection过多,导致后面创建的连接会一直连接超时,导致线程出现异常。

2. http请求出现某种错误时,http请求僵死,导致线程也不再往下执行。最终导致后面的定时任务也不再执行。

  之前一直认为http会有一个默认的超时时间(可能是5min),超过这个时间后会报超时异常。这个看法误导了我。

 

先check是不是第一个原因,逐行的检查http请求部分的代码,发现所有的connection都是即时的关闭的。所以第一个原因排除了。

测试1:

1. 设置每2min执行一个定时任务,启动服务,程序运行,我去吃了个午饭,回来时程序运行了近半小时,没有出现异常。

3. 在又一次请求远程接口的时候,我拔掉了网线。见证奇迹的时候到了,线程不再继续执行了。而且没有错误日志。

4. 过了30秒,插上网线,恢复网络。线程还是没有继续执行, 过了2min,该是下一次定时任务执行的时候了,线程还是没有继续执行。

5. 过了30min,如果有默认的超时时间,也该抛出time out的异常了吧。结果没有。

6 .那么原因找到了。因为网络的不稳定,可能是暂时性的断网,导致了http请求僵死,最终导致整个线程不再执行。

测试2:

1. 在http请求的代码中设置超时时间,连接超时时间设置为30s,读取数据超时时间设置为3min。

        // 设置连接主机超时(30s)
        connection.setConnectTimeout(30 * 1000);

        // 设置从主机读取数据超时(3min)
        connection.setReadTimeout(180 * 1000);

2. 仍然是2min执行一次定时任务,启动服务。

3. 第一次定时任务执行成功,开始执行第二次定时任务,在http发送后还未返回的时候,果断又拔掉网线。线程又中断了。30s后连上网线。

4. 2min后该下一个定时任务执行了,线程还是没有继续执行。

5. 大约3min的时候,报了一个异常出来。报出异常后程序又继续向下执行了。

java.net.SocketTimeoutException: Read timed out

不同时间断网,还报了下面3种异常:

1·java.io.IOException: missing CR
2·java.net.UnknownHostException: ceshi11.test.com
3·java.net.NoRouteToHostException: No route to host: connect
	

6. 大约10min后,在来看看日志。发现,定时任务又开始每2min执行一次。但是因为报错超时导致中间的错过的2个定时任务,却是没有再被执行。

 

至此,问题应该就可以被解决了。就是在http请求时设置一下超时时间即可。

 

 

 

 

你可能感兴趣的:(个人错误日志)