xxl-job踩坑记录——执行器,执行10分钟自动失败

问题描述

上一篇Docker 部署xxl-job 报错:xxl-rpc remoting error(connect timed out), for url : xxxxxx - 这行代码没Bug - 博客园 (cnblogs.com),解决了方式是把执行器自动注册改为手动录入,后面跑任务的时候发现超过十分钟的任务会自动失败,但是任务还在跑,只是调度中心这边日志已经是调度失败了,查看失败日志为:“任务结果丢失,标记失败”。如下图

xxl-job踩坑记录——执行器,执行10分钟自动失败_第1张图片

解决思路

仔细看了一下任务执行及日志回调的源码,也打了日志,发现并没有问题,当任务跑了十分钟后,执行器的线程没有停止还在继续跑着,但是调度中心的日志已经是失败了。

后面想起来在调度中心启动的时候,创建一个线程来处理任务结果丢失。

JobCompleteHelper.getInstance().start();

进去看了一下源码对于任务结果丢失处理:调度记录停留在 "运行中" 状态超过10分钟,且对应执行器心跳注册失败不在线,则将本地调度主动标记失败。

// for monitor
monitorThread = new Thread(new Runnable() {

    @Override
    public void run() {

        // wait for JobTriggerPoolHelper-init
        try {
            TimeUnit.MILLISECONDS.sleep(50);
        } catch (InterruptedException e) {
            if (!toStop) {
                logger.error(e.getMessage(), e);
            }
        }

        // monitor
        while (!toStop) {
            try {
                // 任务结果丢失处理:调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线,则将本地调度主动标记失败;
                Date losedTime = DateUtil.addMinutes(new Date(), -10);
                List losedJobIds  = XxlJobAdminConfig.getAdminConfig().getXxlJobLogDao().findLostJobIds(losedTime);

                if (losedJobIds!=null && losedJobIds.size()>0) {
                    for (Long logId: losedJobIds) {

                        XxlJobLog jobLog = new XxlJobLog();
                        jobLog.setId(logId);

                        jobLog.setHandleTime(new Date());
                        jobLog.setHandleCode(ReturnT.FAIL_CODE);
                        jobLog.setHandleMsg( I18nUtil.getString("joblog_lost_fail") );

                        XxlJobCompleter.updateHandleInfoAndFinish(jobLog);
                    }

                }
            } catch (Exception e) {
                if (!toStop) {
                    logger.error(">>>>>>>>>>> xxl-job, job fail monitor thread error:{}", e);
                }
            }

            try {
                TimeUnit.SECONDS.sleep(60);
            } catch (Exception e) {
                if (!toStop) {
                    logger.error(e.getMessage(), e);
                }
            }

        }

        logger.info(">>>>>>>>>>> xxl-job, JobLosedMonitorHelper stop");

    }
});

最终解决

把执行器手动录入改为自动注册,然后在执行器的配置文件里把地址加上,就解决了问题。

xxl:
  job:
    executor:
      address: http://172.17.0.1:${server.port}/

你可能感兴趣的:(xxl-job踩坑记录——执行器,执行10分钟自动失败)