linux的crontab命令,可以定时执行操作,最小周期是每分钟执行一次。现在有个问题,如果设定了任务每2分钟执行一次,但有可能执行该任务需要花费10分钟,这时系统会再执行任务。导致两个相同的任务在执行。这种情况下可能会出现一些并发问题,严重时会导致出现脏数据/性能瓶颈的恶性循环。
通过使用flock建立排它锁可以规避这个问题,如果一个进程对某个加了排他锁,则其它进程无法加锁,可以选择等待超时或马上返回。
#!/bin/bash
echo "----------------------------------"
echo "start at `date '+%Y-%m-%d %H:%M:%S'` ..."
sleep 300s
echo "finished at `date '+%Y-%m-%d %H:%M:%S'` ..."
2/* * * * * /opt/sleep.sh >> /tmp/sleep.log
而实际情况是10分钟后我们查看进程ps aux|grep sleep.sh 可以看到有5个进程在运行,我们则希望执行完上一任务,再执行下一任务,如果上一任务未执行完成,则这次的任务不执行,直到下一周期再判断,如果上一任务执行完成,则可以执行下一任务。
我们可以使用一个锁文件,来记录任务是否执行中。
首先判断/tmp/sleep.lock是否存在,如果不存在,则创建,然后执行任务,任务执行完后删除锁文件。如果锁文件已经存在,则退出这次的任务。这样的确可以保证任务执行其间不会有新任务执行,但这样需要在任务文件中写代码做判断,不方便。能不能把任务锁定的判断放在任务以外呢?
lock是Linux下的文件锁。
当多个进程可能会对同样的数据执行操作时,这些进程需要保证其它进程没有也在操作,以免损坏数据。
通常,这样的进程会使用一个「锁文件」,也就是建立一个文件来告诉别的进程自己在运行,如果检测到那个文件存在则认为有操作同样数据的进程在工作。这样的问题是,进程不小心意外死亡了,没有清理掉那个锁文件,那么只能由用户手动来清理了。
格式
flock [-sxun][-w #]
flock [-sxon][-w #] file [-c] command
选项
-s,--shared:获取一个共享锁,在定向为某文件的FD上设置共享锁而未释放锁的时间内,其他进程试图在定向为此文件的FD上设置独占锁的请求失败,而其他进程试图在定向为此文件的FD上设置共享锁的请求会成功。
-x,-e,--exclusive:获取一个排它锁,或者称为写入锁,为默认项。
-u,--unlock:手动释放锁,一般情况不必须,当FD关闭时,系统会自动解锁,此参数用于脚本命令一部分需要异步执行,一部分可以同步执行的情况。
-n,--nb, --nonblock:非阻塞模式,当获取锁失败时,返回1而不是等待。
-w, --wait, --timeout seconds:设置阻塞超时,当超过设置的秒数时,退出阻塞模式,返回1,并继续执行后面的语句。
-o, --close:表示当执行command前关闭设置锁的FD,以使command的子进程不保持锁。
-c, --command command:在shell中执行其后的语句。
*/2 * * * * flock -xn /opt/crontab_lock -c "/bin/bash /opt/sleep.sh >>/opt/sleep.log "
*/2 * * * * flock -x -w 20 /opt/crontab_lock -c "/bin/bash /opt/sleep.sh >>/opt/sleep.log "
个人体会: flock -xn my.lock commond
my.lock是一个文件,应该可以是任意文件,可以新建一个空文件
当flock 获得锁后就会执行后面的 commond
测试过程: $1: flock -xn my.lock sleep 20
$2: flock -xn my.lock ls
只有当1返回后, 2的ls才会成功
如果某脚本要运行30分钟,可以在Crontab里把脚本间隔设为至少一小时来避免冲突。而比较糟的情况是可能该脚本在执行周期内没有完成,接着第 二个脚本又开始运行了。如何确保只有一个脚本实例运行呢?一个好用的方法是利用lockf(FreeBSD 8.1下为lockf,CentOS 5.5下为flock),在脚本执行前先检测能否获取某个文件锁,以防止脚本运行冲突。
lockf的参数如下。
-k:一直等待获取文件锁。
-s:silent,不发出任何信息,即使拿不到文件锁。
-t seconds:设定timeout的时间是seconds秒,如果超过时间,则自动放弃。
以下Crontab计划任务执行前,需获取临时文件create.lock的文件锁,此项Crontab计划任务的内容如下:
*
/10
* * * * (lockf -s -t 0
/tmp/create
.lock
/usr/bin/python
/home/project/cron/create_tab
.py >>
/home/project/logs/create
.log 2>&1)
若第一个实例在10分钟内没有运行完,第2个实例不会运行。我以前是通过Shell脚本来解决这个问题的,比如用while...do循环,然后放在后台执行。但后来发现其实用flock或lockf方法更为简单。
参考:https://www.jianshu.com/p/e1c55ffea1cb
https://ywnz.com/linux/flock/
https://blog.csdn.net/u014365655/article/details/38556875