任务调度总结(二)

结合业务

相信以上说了这么多,大家尘封已久的记忆已经被彻底唤醒。那么,接下来,我将要结合具体的业务场景,来说说,我们在使用过程中需要注意的点。我将分几块进行说明:

一、任务和场景

使用定时任务的场景总结如下:
1、补偿机制:

当我们在处理业务的时候,可能会存在处理无结果的情况。而此时不能用快速失败来处理。

举例:
支付在调用网关的时候,网关调用外部银行渠道存在很多不可控的因素,如网络超时,或者银行没有返回明确结果的情况。这个时候,为了防止资损,我们采用了异步补偿的方式,掉单查询。

任务调度总结(二)_第1张图片
image.png

这里要说明下,一般这种情况是消息结合定时查询来做的。行业内通俗做法。

那么这里的查询就是定时任务来做的。借助数据库,进行查询并更新的操作。

2、特殊业务要求

这里举个很通俗的例子:对账。
无论是第三方支付公司还是银行,都存在清结算系统,凌晨或者t+1都会进行跑批,对账。
那么这个对账就是定时任务来做的。

所以,这种场景就是业务数据落地后,异步在某个时间点触发,进行特殊的业务操作。那么触发动作就是定时任务的职责了。

总结下
在联机操作没有明确结果的情况下,或者失败的情况下,需要重试或者补偿,保证操作最终成功。那么定时任务就发挥作用了。
另外,某些特殊的业务,如对账等功能,就是异步t+1通过跑批来做的。这个异步跑批就是定时任务的职责。
最后,我们在写一些中间件的时候,少不了的就是心跳机制,心跳机制也是通过定时任务来做的。通俗做法。

二、任务和锁

上面,讲了通用的场景操作。那么定时任务在处理的时候,需要注意些什么。

总结如下几点:
1、任务纬度:哪些机器跑这个任务。
2、任务纬度:任务失败了怎么办?
3、数据纬度:数据会被多个任务执行么?
4、数据纬度:数据可以被多个任务一起处理么?

下面我就来一一解释下:

老早的土鳖做法:

定时任务跟随着应用启动。如何确认数据不被重复执行呢?很简单,就是只在集群的一台机器上启动定时任务。

这个时候,怎么做?

服务启动的时候jvm参数 -Dxxxxx来注入启动参数。

这种做法的缺点显而易见:
服务的启动脚本变成了有状态,或者有差异了。无论对于发布,还是专业度而言,都很low。

我目前在的这家公司,目前负责的系统,就曾经因为这个脚本的问题导致资损。

升级做法:
去除脚本的差异化。那么这个时候可以通过锁机制来实现。下面我就来详细的说说怎么做:
、每台服务器在启动的时候,都会去抢占一把公共锁。如果抢到,那么他就执行定时任务。任务就是你的了。
这样做的好处是,任务启动无状态,随机,随时。
这样做不好的地方是:依赖锁机制。如果出现死锁,或者第三方依赖异常,那么可能会影响任务,最后影响业务的运行。

当然,有补救的方法,那就是继续补偿喽。这个里面的补偿,并非继续再加一个定时任务。
而是,增加任务的批次和执行结果,配以监控和报警,再加上人工触发的接口。是不是perfect了?回答是必须的。如果这种做法再出问题。我挥刀自刎谢罪。哈哈。

所以,我们在定义定时任务的时候,建议做法如下:
1、建任务的批次表
2、建任务的执行日志表
3、对任务的执行者采用分布式锁机制。
4、增加报警和监控机制。
5、增加手工触发入口,以备不时之需。

OK,这里补充下两种锁机制:
1、悲观锁
2、乐观锁

我们一般会采用悲观锁的方式。悲观锁,顾名思义,就是争抢锁的发起者,很悲观。认为所有人都会和他竞争。所以抢到了立刻把钥匙拿走。

通俗的做法是:用共享存储来做锁。mysql or zookeeper?

对于mysql来说,做悲观锁可能有点麻烦。因为innerdb需要支持悲观锁,那么就要关闭数据库层面的auto commit。且如果没有指定具体的主键,将是表级锁。so,我们慎用。所以,一般推荐用zookeeper来做。或者变相的在数据库层面用乐观锁来实现悲观锁的方式。

、分布式任务调度系统
对比以上,任务只能由一台执行。数据处理的效率并没有那么高。所以分布式任务调度系统,很好的解决这个问题。对数据进行分片。将条件注入到sql中去。这里就不再赘述了。推荐大家看下tbscheduler和elastic-job。

好了,夜深人静。总结到此。希望对大家对认识和问题的处理有所帮助。

最后,附上我的笔记和我的一些代码示例

你可能感兴趣的:(任务调度总结(二))