基于Python APScheduler实现定时任务

一、介绍

APScheduler的全称是Advanced Python Scheduler。它是一个轻量级的 Python 定时任务调度框架。APScheduler 支持三种调度任务:固定时间间隔,固定时间点(日期),Linux 下的 Crontab 命令。同时,它还支持异步执行、后台执行调度任务。

二、安装

pip3 install apscheduler

三、基本概念

  1. APScheduler四大组件

    触发器 triggers :用于设定触发任务的条件
    任务储存器 job stores:用于存放任务,把任务存放在内存或数据库中
    执行器 executors: 用于执行任务,可以设定执行模式为单线程或线程池
    调度器 schedulers: 把上方三个组件作为参数,通过创建调度器实例来运行

    1.1 触发器 triggers

    触发器包含调度逻辑。每个任务都有自己的触发器,用于确定何时应该运行作业。除了初始配置之外,触发器完全是无状态的。

    1.2 任务储存器 job stores

    默认情况下,任务存放在内存中。也可以配置存放在不同类型的数据库中。如果任务存放在数据库中,那么任务的存取有一个序列化和反序列化的过程,同时修改和搜索任务的功能也是由任务储存器实现。
    注意一个任务储存器不要共享给多个调度器,否则会导致状态混乱

    1.3 执行器 executors

    任务会被执行器放入线程池或进程池去执行,执行完毕后,执行器会通知调度器。

    1.4 调度器 schedulers

    一个调度器由上方三个组件构成,一般来说,一个程序只要有一个调度器就可以了。开发者也不必直接操作任务储存器、执行器以及触发器,因为调度器提供了统一的接口,通过调度器就可以操作组件,比如任务的增删改查。
    调度器工作流程:
    基于Python APScheduler实现定时任务_第1张图片

  2. 调度器组件详解
    根据开发需求选择相应的组件,下面是不同的调度器组件:

    BlockingScheduler 阻塞式调度器:适用于只跑调度器的程序。
    BackgroundScheduler 后台调度器:适用于非阻塞的情况,调度器会在后台独立运行。
    AsyncIOScheduler AsyncIO调度器,适用于应用使用AsnycIO的情况。
    GeventScheduler Gevent调度器,适用于应用通过Gevent的情况。
    TornadoScheduler Tornado调度器,适用于构建Tornado应用。
    TwistedScheduler Twisted调度器,适用于构建Twisted应用。
    QtScheduler Qt调度器,适用于构建Qt应用。

    2.1 任务储存器的选择

    要看任务是否需要持久化。如果你运行的任务是无状态的,选择默认任务储存器MemoryJobStore就可以应付。但是,如果你需要在程序关闭或重启时,保存任务的状态,那么就要选择持久化的任务储存器。如果,作者推荐使用SQLAlchemyJobStore并搭配PostgreSQL作为后台数据库。这个方案可以提供强大的数据整合与保护功能。

    2.2 执行器的选择

    同样要看你的实际需求。默认的ThreadPoolExecutor线程池执行器方案可以满足大部分需求。如果,你的程序是计算密集型的,那么最好用ProcessPoolExecutor进程池执行器方案来充分利用多核算力。也可以将ProcessPoolExecutor作为第二执行器,混合使用两种不同的执行器。
    配置一个任务,就要设置一个任务触发器。触发器可以设定任务运行的周期、次数和时间。

  3. APScheduler内置触发器:

    date 日期:触发任务运行的具体日期
    interval 间隔:触发任务运行的时间间隔
    cron 周期:触发任务运行的周期
    calendarinterval:当您想要在一天中的特定时间以日历为基础的间隔运行任务时使用

    一个任务也可以设定多种触发器,比如,可以设定同时满足所有触发器条件而触发,或者满足一项即触发。

四、触发器代码示例:

3.1 date 日期,是最基本的一种调度,作业任务只会执行一次。它表示特定的时间点触发。

参数 说明
run_date(datetime or str) 任务运行的日期或者时间
timezone(datetime.tzinfo or str) 指定时区
from datetime import date
from apscheduler.schedulers.blocking import BlockingScheduler

scheduler = BlockingScheduler()

def job(val):
    print(val)

# 在2021年2月23日执行
scheduler.add_job(job, 'date', run_date=date(2021, 2, 23), args=['测试任务'])

scheduler.start()

run_date参数可以是date类型、datetime类型或文本类型。

在 2021年2月23日 执行:
scheduler.add_job(job, ‘date’, run_date=date(2021, 2, 23), args=[‘测试任务’])


在 2021年2月23日17时30分5秒 执行:
scheduler.add_job(job, ‘date’, run_date=datetime(2021, 2, 23, 17, 30, 5), args=[‘测试任务’])
scheduler.add_job(job, ‘date’, run_date=‘2021-02-23 17:30:05’, args=[‘测试任务’])

3.2 interval 周期触发任务,固定时间间隔触发

参数 类型 说明
weeks int 间隔几周
days int 间隔几天
hours int 间隔几小时
minutes int 间隔几分钟
seconds int 间隔多少秒
start_date datetime or str 开始日期
end_date datetime or str 结束日期
timezone datetime.tzinfo or str 时区
from datetime import datetime
from apscheduler.schedulers.blocking import BlockingScheduler

def job():
     print("当前时间:", datetime.datetime.utcnow().strftime("%Y-%m-%d %H:%M:%S.%f")

scheduler = BlockingScheduler()

# 每2小时触发
scheduler.add_job(job, 'interval', hours=2)

scheduler.start()

每2小时触发
scheduler.add_job(job, ‘interval’, hours=2)


在 2021-02-23 20:30:00 ~ 2021-02-24 20:30:00 之间, 每隔两分钟执行一次 job 方法
scheduler.add_job(job, ‘interval’, minutes=2, start_date=‘2021-02-23 20:30:00’ , end_date=‘2021-02-24 20:30:00’)


jitter 振动参数,给每次触发添加一个随机浮动秒数,一般适用于多服务器,避免同时运行造成服务拥堵。
每小时(上下浮动120秒区间内)运行 job 方法
scheduler.add_job(job, ‘interval’, hours=1, jitter=120)

3.3 cron 触发器,在特定时间周期性地触发,和Linux crontab格式兼容。它是功能最强大的触发器。

参数 类型 说明
year int or str 年,4位数字
month int or str 月(范围1-12)
day int or str 日(范围1-31)
week int or str 周(范围1-53)
day_of_week int or str 周内第几天或者星期几
(范围 0-6 或者 mon,tue,wed,thu,fri,stat,sun)
hour int or str 时(0-23)
minute int or str 分(0-59)
second int or str 秒(0-59)
start_date datetime or str 最早开始日期(含)
end_date datetime or str 最晚结束日期(含)
timezone datetime.tzinfo or str 指定时区

注意:month 和 day_of_week参数分别接受的是英语缩写 jan – dec 和 mon – sun

表达式

表达式 参数类型 说明
* 所有 通配符。例:minutes=*即每分钟触发
*/a 所有 可被a整除的通配符。
a-b 所有 范围a-b触发
a-b/c 所有 范围a-b,且可被c整除时触发
xth y 第几个星期几触发。x为第几个,y为星期几
last x 一个月中,最后个星期几触发
last 一个月最后一天触发
x,y,z 所有 组合表达式,可以组合确定值或上方的表达式
import datetime
from apscheduler.schedulers.background import BackgroundScheduler

def job():
    print("当前时间:", datetime.datetime.utcnow().strftime("%Y-%m-%d %H:%M:%S.%f")[:-3])

scheduler = BackgroundScheduler()

# 在每年 1-3、7-9 月份中的每个星期一、二中的 00:00, 01:00, 02:00 和 03:00 执行 job方法
scheduler.add_job(job, 'cron', month='1-3,7-9',day='0, tue', hour='0-3')

scheduler.start()

在每年 1-3、7-9 月份中的每个星期一、二中的 00:00, 01:00, 02:00 和 03:00 执行 job方法
scheduler.add_job(job, ‘cron’, month=‘1-3,7-9’,day=‘0, tue’, hour=‘0-3’)


在每周的 周一至周五 的 09:10 执行job方法
scheduler.add_job(job, trigger=‘cron’, day_of_week=‘mon-fri’, hour=‘9’,minute=‘10’)

使用 scheduled_job() 装饰器添加任务:

@scheduler.scheduled_job('cron', id='job1', day='last sun')
def job():
   	print("打印")

4、配置调度程序

APScheduler提供了许多不同的方法来配置调度程序。您可以使用配置字典,也可以将选项作为关键字参数传递。您还可以先实例化调度程序,然后添加任务并配置调度程序。这样您就可以在任何环境中获得最大的灵活性

假设您希望在应用程序中使用默认作业存储和默认执行程序运行BackgroundScheduler:

from apscheduler.schedulers.background import BackgroundScheduler

scheduler = BackgroundScheduler()

启动调度器

启动调度器是只需调用start()即可。除了BlockingScheduler,非阻塞调度器都会立即返回,可以继续运行之后的代码,比如添加任务等。


对于BlockingScheduler,程序则会阻塞在start()位置,所以,要运行的代码必须写在start()之前。

5、 添加任务

1、通过调用 add_job()
2、通过装饰器 scheduled_job()


注意:
如果在程序初始化时,是从数据库读取任务的,那么必须为每个任务定义一个明确的ID,并且使用replace_existing=True,否则每次重启程序,你都会得到一份新的任务拷贝,也就意味着任务的状态不会保存。
scheduler.add_job(func=job, id=‘job_1’, trigger=‘interval’, seconds=60, replace_existing=True)

6、移除任务

1、调用 remove_job(),参数为:任务ID,任务储存器名称
2、在通过 add_job()创建的任务实例上调用 remove() 方法


方法1:

job = scheduler.add_job(job, 'interval', minutes=5)
job.remove()

方法2:

scheduler.add_job(job, 'interval', minutes=5, id='job1')
scheduler.remove_job('job1')

7、暂停和恢复任务

通过任务实例或调度器,就能暂停和恢复任务。如果一个任务被暂停了,那么该任务的下一次运行时间就会被移除。在恢复任务前,运行次数计数也不会被统计。


暂停任务:
1、apscheduler.job.Job.pause()
2、apscheduler.schedulers.base.BaseScheduler.pause_job()


恢复任务:
1、apscheduler.job.Job.resume()
2、apscheduler.schedulers.base.BaseScheduler.resume_job()

8、获取任务列表

通过get_jobs()就可以获得一个可修改的任务列表。get_jobs()第二个参数可以指定任务储存器名称,那么就会获得对应任务储存器的任务列表。
scheduler.get_jobs()

9、修改任务

通过 apscheduler.job.Job.modify()modify_job(),你可以修改任务当中除了id的任何属性。
job.modify(name=‘new name’)


如果想要重新调度任务(就是改变触发器),你能通过apscheduler.job.Job.reschedule()reschedule_job() 来实现。这些方法会重新创建触发器,并重新计算下次运行时间。
scheduler.reschedule_job(‘job_id’, trigger=‘cron’, minute=‘5’)

10、关闭调度器

scheduler.shutdown()


默认情况下,调度器会先把正在执行的任务处理完,再关闭任务储存器和执行器。但是,如果你就直接关闭,你可以添加参数:
scheduler.shutdown(wait=False)
上述方法不管有没有任务在执行,会强制关闭调度器。

11、暂停、恢复任务进程

暂停正在执行的任务:
scheduler.pause()


恢复任务:
scheduler.resume()


在调度器启动时,默认所有任务设为暂停状态:
scheduler.start(paused=True)

12、Flask-APScheduler使用
https://leezhonglin.github.io/2019/05/09/Flask-APScheduler%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B/

最后,来一个完整的实例:
需求:
1、在每周一至周五 的 09:15:05 ~ 11:35:30 每隔1分钟执行job方法
2、在每周一至周五 的 12:50:30 ~ 15:05:30 每隔1分钟执行job方法
3、在每周一至周五 的 19:05:30 ~ 23:59:59 每隔5分钟执行job方法

sche.py

import logging
import datetime

from flask import Flask
from flask_apscheduler import APScheduler
from apscheduler.schedulers.background import BackgroundScheduler


app = Flask(__name__)
# 设置上海时区
scheduler = APScheduler(BackgroundScheduler(timezone="Asia/Shanghai"))

def job():  # 一个函数,用来做循环的任务。
    print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'), '工作1次')

def job_cron(x):
	print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'), x)
    day = datetime.datetime.now().strftime("%Y-%m-%d")

    start_date = day + ' 09:15:05'
    end_date = day + ' 11:35:30'
    start_date2 = day + ' 12:50:30'
    end_date2 = day + ' 15:05:30'
    start_date3 = day + ' 19:05:30'
    end_date3 = day + ' 23:59:59'

    scheduler.add_job(func=job, id='job_1', trigger='interval', seconds=60,start_date=start_date,end_date=end_date, replace_existing=True)
    scheduler.add_job(func=job, id='job_2', trigger='interval', seconds=60, start_date=start_date2,end_date=end_date2, replace_existing=True)
    scheduler.add_job(func=job, id='job_3', trigger='interval', seconds=60 * 5, start_date=start_date3,end_date=end_date3, replace_existing=True)

def init():
    logging.basicConfig(level=logging.INFO,
                        format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
                        datefmt='%Y-%m-%d %H:%M:%S',
                        filename='log定时任务.txt',
                        filemode='a')
    scheduler._logger = logging
    scheduler.add_job(func=job_cron, id='job_cron', trigger='cron', args=('定时任务早上',), day_of_week='mon-fri', hour='9',
                      minute='10')
    scheduler.add_job(func=job_cron, id='job_cron2', trigger='cron', args=('定时任务中午',), day_of_week='mon-fri', hour='12',
                      minute='40')
    scheduler.add_job(func=job_cron, id='job_cron3', trigger='cron', args=('定时任务晚上',), day_of_week='mon-fri', hour='19',
                      minute='05')

    scheduler.init_app(app)  # 把任务列表放进flask
    scheduler.start()  # 启动任务列表

if __name__ == '__main__':
    init()
    app.run(host='0.0.0.0', port=5001)

保持在服务器后台一直运行
nohup python3 sche.py > logs/sche.log 2>&1 &

你可能感兴趣的:(Python)