一、介绍
APScheduler的全称是Advanced Python Scheduler。它是一个轻量级的 Python 定时任务调度框架。APScheduler 支持三种调度任务:固定时间间隔,固定时间点(日期),Linux 下的 Crontab 命令。同时,它还支持异步执行、后台执行调度任务。
二、安装
pip3 install apscheduler
三、基本概念
APScheduler四大组件:
触发器 triggers :用于设定触发任务的条件
任务储存器 job stores:用于存放任务,把任务存放在内存或数据库中
执行器 executors: 用于执行任务,可以设定执行模式为单线程或线程池
调度器 schedulers: 把上方三个组件作为参数,通过创建调度器实例来运行
1.1 触发器 triggers
触发器包含调度逻辑。每个任务都有自己的触发器,用于确定何时应该运行作业。除了初始配置之外,触发器完全是无状态的。
1.2 任务储存器 job stores
默认情况下,任务存放在内存中。也可以配置存放在不同类型的数据库中。如果任务存放在数据库中,那么任务的存取有一个序列化和反序列化的过程,同时修改和搜索任务的功能也是由任务储存器实现。
注意一个任务储存器不要共享给多个调度器,否则会导致状态混乱
1.3 执行器 executors
任务会被执行器放入线程池或进程池去执行,执行完毕后,执行器会通知调度器。
1.4 调度器 schedulers
一个调度器由上方三个组件构成,一般来说,一个程序只要有一个调度器就可以了。开发者也不必直接操作任务储存器、执行器以及触发器,因为调度器提供了统一的接口,通过调度器就可以操作组件,比如任务的增删改查。
调度器工作流程:
调度器组件详解
根据开发需求选择相应的组件,下面是不同的调度器组件:
BlockingScheduler 阻塞式调度器:适用于只跑调度器的程序。
BackgroundScheduler 后台调度器:适用于非阻塞的情况,调度器会在后台独立运行。
AsyncIOScheduler AsyncIO调度器,适用于应用使用AsnycIO的情况。
GeventScheduler Gevent调度器,适用于应用通过Gevent的情况。
TornadoScheduler Tornado调度器,适用于构建Tornado应用。
TwistedScheduler Twisted调度器,适用于构建Twisted应用。
QtScheduler Qt调度器,适用于构建Qt应用。
2.1 任务储存器的选择
要看任务是否需要持久化。如果你运行的任务是无状态的,选择默认任务储存器MemoryJobStore就可以应付。但是,如果你需要在程序关闭或重启时,保存任务的状态,那么就要选择持久化的任务储存器。如果,作者推荐使用SQLAlchemyJobStore并搭配PostgreSQL作为后台数据库。这个方案可以提供强大的数据整合与保护功能。
2.2 执行器的选择
同样要看你的实际需求。默认的ThreadPoolExecutor线程池执行器方案可以满足大部分需求。如果,你的程序是计算密集型的,那么最好用ProcessPoolExecutor进程池执行器方案来充分利用多核算力。也可以将ProcessPoolExecutor作为第二执行器,混合使用两种不同的执行器。
配置一个任务,就要设置一个任务触发器。触发器可以设定任务运行的周期、次数和时间。
APScheduler内置触发器:
date 日期:触发任务运行的具体日期
interval 间隔:触发任务运行的时间间隔
cron 周期:触发任务运行的周期
calendarinterval:当您想要在一天中的特定时间以日历为基础的间隔运行任务时使用
一个任务也可以设定多种触发器,比如,可以设定同时满足所有触发器条件而触发,或者满足一项即触发。
四、触发器代码示例:
3.1 date 日期,是最基本的一种调度,作业任务只会执行一次。它表示特定的时间点触发。
参数 | 说明 |
---|---|
run_date(datetime or str) | 任务运行的日期或者时间 |
timezone(datetime.tzinfo or str) | 指定时区 |
from datetime import date
from apscheduler.schedulers.blocking import BlockingScheduler
scheduler = BlockingScheduler()
def job(val):
print(val)
# 在2021年2月23日执行
scheduler.add_job(job, 'date', run_date=date(2021, 2, 23), args=['测试任务'])
scheduler.start()
run_date参数可以是date类型、datetime类型或文本类型。
在 2021年2月23日 执行:
scheduler.add_job(job, ‘date’, run_date=date(2021, 2, 23), args=[‘测试任务’])
在 2021年2月23日17时30分5秒 执行:
scheduler.add_job(job, ‘date’, run_date=datetime(2021, 2, 23, 17, 30, 5), args=[‘测试任务’])
scheduler.add_job(job, ‘date’, run_date=‘2021-02-23 17:30:05’, args=[‘测试任务’])
3.2 interval 周期触发任务,固定时间间隔触发
参数 | 类型 | 说明 |
---|---|---|
weeks | int | 间隔几周 |
days | int | 间隔几天 |
hours | int | 间隔几小时 |
minutes | int | 间隔几分钟 |
seconds | int | 间隔多少秒 |
start_date | datetime or str | 开始日期 |
end_date | datetime or str | 结束日期 |
timezone | datetime.tzinfo or str | 时区 |
from datetime import datetime
from apscheduler.schedulers.blocking import BlockingScheduler
def job():
print("当前时间:", datetime.datetime.utcnow().strftime("%Y-%m-%d %H:%M:%S.%f")
scheduler = BlockingScheduler()
# 每2小时触发
scheduler.add_job(job, 'interval', hours=2)
scheduler.start()
每2小时触发
scheduler.add_job(job, ‘interval’, hours=2)
在 2021-02-23 20:30:00 ~ 2021-02-24 20:30:00 之间, 每隔两分钟执行一次 job 方法
scheduler.add_job(job, ‘interval’, minutes=2, start_date=‘2021-02-23 20:30:00’ , end_date=‘2021-02-24 20:30:00’)
jitter
振动参数,给每次触发添加一个随机浮动秒数,一般适用于多服务器,避免同时运行造成服务拥堵。
每小时(上下浮动120秒区间内)运行 job 方法
scheduler.add_job(job, ‘interval’, hours=1, jitter=120)
3.3 cron 触发器,在特定时间周期性地触发,和Linux crontab格式兼容。它是功能最强大的触发器。
参数 | 类型 | 说明 |
---|---|---|
year | int or str | 年,4位数字 |
month | int or str | 月(范围1-12) |
day | int or str | 日(范围1-31) |
week | int or str | 周(范围1-53) |
day_of_week | int or str | 周内第几天或者星期几 (范围 0-6 或者 mon,tue,wed,thu,fri,stat,sun) |
hour | int or str | 时(0-23) |
minute | int or str | 分(0-59) |
second | int or str | 秒(0-59) |
start_date | datetime or str | 最早开始日期(含) |
end_date | datetime or str | 最晚结束日期(含) |
timezone | datetime.tzinfo or str | 指定时区 |
注意:month 和 day_of_week参数分别接受的是英语缩写 jan – dec 和 mon – sun
表达式
表达式 | 参数类型 | 说明 |
---|---|---|
* | 所有 | 通配符。例:minutes=*即每分钟触发 |
*/a | 所有 | 可被a整除的通配符。 |
a-b | 所有 | 范围a-b触发 |
a-b/c | 所有 | 范围a-b,且可被c整除时触发 |
xth y | 日 | 第几个星期几触发。x为第几个,y为星期几 |
last x | 日 | 一个月中,最后个星期几触发 |
last | 日 | 一个月最后一天触发 |
x,y,z | 所有 | 组合表达式,可以组合确定值或上方的表达式 |
import datetime
from apscheduler.schedulers.background import BackgroundScheduler
def job():
print("当前时间:", datetime.datetime.utcnow().strftime("%Y-%m-%d %H:%M:%S.%f")[:-3])
scheduler = BackgroundScheduler()
# 在每年 1-3、7-9 月份中的每个星期一、二中的 00:00, 01:00, 02:00 和 03:00 执行 job方法
scheduler.add_job(job, 'cron', month='1-3,7-9',day='0, tue', hour='0-3')
scheduler.start()
在每年 1-3、7-9 月份中的每个星期一、二中的 00:00, 01:00, 02:00 和 03:00 执行 job方法
scheduler.add_job(job, ‘cron’, month=‘1-3,7-9’,day=‘0, tue’, hour=‘0-3’)
在每周的 周一至周五 的 09:10 执行job方法
scheduler.add_job(job, trigger=‘cron’, day_of_week=‘mon-fri’, hour=‘9’,minute=‘10’)
使用 scheduled_job() 装饰器添加任务:
@scheduler.scheduled_job('cron', id='job1', day='last sun')
def job():
print("打印")
4、配置调度程序
APScheduler提供了许多不同的方法来配置调度程序。您可以使用配置字典,也可以将选项作为关键字参数传递。您还可以先实例化调度程序,然后添加任务并配置调度程序。这样您就可以在任何环境中获得最大的灵活性
假设您希望在应用程序中使用默认作业存储和默认执行程序运行BackgroundScheduler:
from apscheduler.schedulers.background import BackgroundScheduler
scheduler = BackgroundScheduler()
启动调度器
启动调度器是只需调用start()即可。除了BlockingScheduler,非阻塞调度器都会立即返回,可以继续运行之后的代码,比如添加任务等。
对于BlockingScheduler,程序则会阻塞在start()位置,所以,要运行的代码必须写在start()之前。
5、 添加任务
1、通过调用 add_job()
2、通过装饰器 scheduled_job()
注意:
如果在程序初始化时,是从数据库读取任务的,那么必须为每个任务定义一个明确的ID,并且使用replace_existing=True,否则每次重启程序,你都会得到一份新的任务拷贝,也就意味着任务的状态不会保存。
scheduler.add_job(func=job, id=‘job_1’, trigger=‘interval’, seconds=60, replace_existing=True)
6、移除任务
1、调用 remove_job(),参数为:任务ID,任务储存器名称
2、在通过 add_job()创建的任务实例上调用 remove() 方法
方法1:job = scheduler.add_job(job, 'interval', minutes=5) job.remove()
方法2:
scheduler.add_job(job, 'interval', minutes=5, id='job1') scheduler.remove_job('job1')
7、暂停和恢复任务
通过任务实例或调度器,就能暂停和恢复任务。如果一个任务被暂停了,那么该任务的下一次运行时间就会被移除。在恢复任务前,运行次数计数也不会被统计。
暂停任务:
1、apscheduler.job.Job.pause()
2、apscheduler.schedulers.base.BaseScheduler.pause_job()
恢复任务:
1、apscheduler.job.Job.resume()
2、apscheduler.schedulers.base.BaseScheduler.resume_job()
8、获取任务列表
通过get_jobs()就可以获得一个可修改的任务列表。get_jobs()第二个参数可以指定任务储存器名称,那么就会获得对应任务储存器的任务列表。
scheduler.get_jobs()
9、修改任务
通过 apscheduler.job.Job.modify() 或 modify_job(),你可以修改任务当中除了id的任何属性。
job.modify(name=‘new name’)
如果想要重新调度任务(就是改变触发器),你能通过apscheduler.job.Job.reschedule() 或 reschedule_job() 来实现。这些方法会重新创建触发器,并重新计算下次运行时间。
scheduler.reschedule_job(‘job_id’, trigger=‘cron’, minute=‘5’)
10、关闭调度器
scheduler.shutdown()
默认情况下,调度器会先把正在执行的任务处理完,再关闭任务储存器和执行器。但是,如果你就直接关闭,你可以添加参数:
scheduler.shutdown(wait=False)
上述方法不管有没有任务在执行,会强制关闭调度器。
11、暂停、恢复任务进程
暂停正在执行的任务:
scheduler.pause()
恢复任务:
scheduler.resume()
在调度器启动时,默认所有任务设为暂停状态:
scheduler.start(paused=True)
12、Flask-APScheduler使用
https://leezhonglin.github.io/2019/05/09/Flask-APScheduler%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B/
最后,来一个完整的实例:
需求:
1、在每周一至周五 的 09:15:05 ~ 11:35:30 每隔1分钟执行job方法
2、在每周一至周五 的 12:50:30 ~ 15:05:30 每隔1分钟执行job方法
3、在每周一至周五 的 19:05:30 ~ 23:59:59 每隔5分钟执行job方法
sche.py
import logging
import datetime
from flask import Flask
from flask_apscheduler import APScheduler
from apscheduler.schedulers.background import BackgroundScheduler
app = Flask(__name__)
# 设置上海时区
scheduler = APScheduler(BackgroundScheduler(timezone="Asia/Shanghai"))
def job(): # 一个函数,用来做循环的任务。
print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'), '工作1次')
def job_cron(x):
print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'), x)
day = datetime.datetime.now().strftime("%Y-%m-%d")
start_date = day + ' 09:15:05'
end_date = day + ' 11:35:30'
start_date2 = day + ' 12:50:30'
end_date2 = day + ' 15:05:30'
start_date3 = day + ' 19:05:30'
end_date3 = day + ' 23:59:59'
scheduler.add_job(func=job, id='job_1', trigger='interval', seconds=60,start_date=start_date,end_date=end_date, replace_existing=True)
scheduler.add_job(func=job, id='job_2', trigger='interval', seconds=60, start_date=start_date2,end_date=end_date2, replace_existing=True)
scheduler.add_job(func=job, id='job_3', trigger='interval', seconds=60 * 5, start_date=start_date3,end_date=end_date3, replace_existing=True)
def init():
logging.basicConfig(level=logging.INFO,
format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
datefmt='%Y-%m-%d %H:%M:%S',
filename='log定时任务.txt',
filemode='a')
scheduler._logger = logging
scheduler.add_job(func=job_cron, id='job_cron', trigger='cron', args=('定时任务早上',), day_of_week='mon-fri', hour='9',
minute='10')
scheduler.add_job(func=job_cron, id='job_cron2', trigger='cron', args=('定时任务中午',), day_of_week='mon-fri', hour='12',
minute='40')
scheduler.add_job(func=job_cron, id='job_cron3', trigger='cron', args=('定时任务晚上',), day_of_week='mon-fri', hour='19',
minute='05')
scheduler.init_app(app) # 把任务列表放进flask
scheduler.start() # 启动任务列表
if __name__ == '__main__':
init()
app.run(host='0.0.0.0', port=5001)
保持在服务器后台一直运行
nohup python3 sche.py > logs/sche.log 2>&1 &