APScheduler基于Quartz的一个Python定时任务框架,实现了Quartz的所有功能,使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化任务。
同时它提供了多种不同的调用器,方便开发者根据自己的需求进行使用,也方便与数据库等第三方的外部持久化储存机制进行协同工作,非常强大。基于这些功能,我们可以很方便的实现一个python定时任务系统。
基本原理
总的来说,主要是利用python threading Event和Lock锁来实现。scheduler在主循环(main_loop)中,反复检查是否有需要执行的任务,完成任务的检查函数为 _process_jobs,主要有那个几个步骤:
1、询问储存的每个 jobStore
,是否有到期要执行的任务。
2、due_jobs
不为空,则计算这些jobs中每个job需要运行的时间点,时间一到就提交给submit作任务调度。
3、在主循环中,如果不间断地调用,而实际上没有要执行的job,这会造成资源浪费。因此在程序中,如果每次调用 _process_jobs
后,进行了预先判断,判断下一次要执行的job(离现在最近的)还要多长时间,作为返回值告诉main_loop, 这时主循环就可以去睡一觉,等大约这么长时间后再唤醒,执行下一次 _process_jobs
。
首选的安装方法是使用pip:
$ pip install apscheduler
如果您尚未安装pip,则可以通过下载并运行get-pip.py轻松地进行安装 。
如果由于某种原因pip无法使用,您可以从PyPI 手动下载APScheduler发行版,解压缩然后安装:
$ python setup.py install
APScheduler具有四种组件:
触发器(trigger)包含调度逻辑,每一个作业有它自己的触发器,用于决定接下来哪一个作业会运行。除了他们自己初始配置以外,触发器完全是无状态的。
作业存储(job store)存储被调度的作业,默认的作业存储是简单地把作业保存在内存中,其他的作业存储是将作业保存在数据库中。一个作业的数据保存在持久化作业存储时被序列化,并在加载时被反序列化。调度器不能分享同一个作业存储。
执行器(executor)处理作业的运行,他们通常通过在作业中提交制定的可调用对象到一个线程或者进程池来进行。当作业完成时,执行器将会通知调度器。
调度器(scheduler)是其他的组成部分。你通常在应用只有一个调度器,应用的开发者通常不会直接处理作业存储、调度器和触发器,相反,调度器提供了处理这些的合适的接口。配置作业存储和执行器可以在调度器中完成,例如添加、修改和移除作业。
选择调度器
根据IO模型的不同,主要有下面一些常见的调度器:
BlockingScheduler:适合于只在进程中运行单个任务的情况
BackgroundScheduler: 适合于不运行使用其他框架时,并希望在程序后台执行的情况
AsyncIOScheduler:适合于使用asyncio框架的情况
GeventScheduler: 适合于使用gevent框架的情况
TornadoScheduler: 适合于使用Tornado框架的应用
TwistedScheduler: 适合使用Twisted框架的应用
QtScheduler: 适合使用QT的情况
对于作业存储,如果是非持久性作业,使用默认的MemoryStore就行了,若是持久性任务,那么就需要根据应用环境来进行选择。
大多数情况下,执行器选择ThreadPoolExecutor就够用了,但如果涉及到比较消耗CPU的作业,就可以选择ProcessPoolExecutor* ,以充分利用多核CPU。当然也可以同时配置使用两个执行器,将进程池ProcessPoolExecutor调度器作为你的第二个执行器。
简单应用
Apscheduler框架提供了许多调度器的配置方法,既可以使用配置字典,也可以直接传递配置参数给调度器使用;同时支持先初始化调度器,添加完作业任务后,再来配置调度器等。
每隔5s执行一次my_job函数,输出当前时间信息
import timefrom apscheduler.schedulers.blocking import BlockingScheduler def my_job(): print time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())) sched = BlockingScheduler()sched.add_job(my_job, 'interval', seconds=5)sched.start()
作业及相关操作
jobstore提供给scheduler一个序列化jobs的统一抽象,提供对scheduler中job的增删改查接口,根据存储backend的不同,分以下几种:
MemoryJobStore
:没有序列化,jobs就存在内存里,增删改查也都是在内存中操作
SQLAlchemyJobStore
:所有sqlalchemy支持的数据库都可以做为backend,增删改查操作转化为对应backend的sql语句
MongoDBJobStore
:用mongodb作backend
RedisJobStore
: 用redis做backend
Job承接目前需要执行的工作和任务,我们可以在系统运行过程中进行动态的增加、修改、删除、查询等操作。
通过 add_job()
通过装饰器 scheduled_job()
import timefrom apscheduler.schedulers.blocking import BlockingScheduler sched = BlockingScheduler() @sched.scheduled_job('interval', seconds=5)def my_job(): print time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())) sched.start()
通过调用remove_job()
作业的ID和作业存储别名
通过调用remove()
您从中获得的Job实例 add_job()
job = scheduler.add_job(myfunc, 'interval', minutes=2)job.remove()#如果有多个任务序列的话可以给每个任务设置ID号,可以根据ID号选择清除对象,且remove放到start前才有效sched.add_job(myfunc, 'interval', minutes=2, id='my_job_id')sched.remove_job('my_job_id')
暂停作业:
apsched.job.Job.pause()apsched.schedulers.base.BaseScheduler.pause_job()
恢复作业:
apsched.job.Job.resume()apsched.schedulers.base.BaseScheduler.resume_job()
获得调度作业的列表,可以使用get_jobs()
来完成,它会返回所有的job实例。或者使用print_jobs()
来输出所有格式化的作业列表。也可以利用get_job(任务ID)获取指定任务的作业列表
job = sched.add_job(my_job, 'interval', seconds=2 ,id='123')print sched.get_job(job_id='123')print sched.get_jobs()
可以通过调用apscheduler.job.Job.modify()
或 modify_job()
来修改任何作业属性
job.modify(max_instances=6, name='Alternate name')
使用 start() 方法来启动调度器,其中须注意的是 BlockingScheduler需要在初始化之后才能执行 start() ,对于其他的调度器,调用 start()方法都会直接返回,然后可以继续执行后面的初始化操作。同时,调度器启动之后,就不能再更改它的配置了。
默认情况下调度器会等待所有正在运行的作业完成后,关闭所有的调度器和作业存储。如果你不想等待,可以将wait选项设置为False。
sched.shutdown()sched.shutdown(wait=False)
作业控制器(trigger)
add_job的第二个参数是trigger,它管理着作业的调度方式。它可以为date, interval或者cron。对于不同的trigger,对应的参数也相同。
(int|str) 表示参数既可以是int类型,也可以是str类型(datetime | str) 表示参数既可以是datetime类型,也可以是str类型 year (int|str) – 4-digit year -(表示四位数的年份,如2008年)month (int|str) – month (1-12) -(表示取值范围为1-12月)day (int|str) – day of the (1-31) -(表示取值范围为1-31日)week (int|str) – ISO week (1-53) -(格里历2006年12月31日可以写成2006年-W52-7(扩展形式)或2006W527(紧凑形式))day_of_week (int|str) – number or name of weekday (0-6 or mon,tue,wed,thu,fri,sat,sun) - (表示一周中的第几天,既可以用0-6表示也可以用其英语缩写表示)hour (int|str) – hour (0-23) - (表示取值范围为0-23时)minute (int|str) – minute (0-59) - (表示取值范围为0-59分)second (int|str) – second (0-59) - (表示取值范围为0-59秒)start_date (datetime|str) – earliest possible date/time to trigger on (inclusive) - (表示开始时间)end_date (datetime|str) – latest possible date/time to trigger on (inclusive) - (表示结束时间)timezone (datetime.tzinfo|str) – time zone to use for the date/time calculations (defaults to scheduler timezone) -(表示时区取值)
#表示2017年3月22日17时19分07秒执行该程序sched.add_job(my_job, 'cron', year=2017,month = 03,day = 22,hour = 17,minute = 19,second = 07) #表示任务在6,7,8,11,12月份的第三个星期五的00:00,01:00,02:00,03:00 执行该程序sched.add_job(my_job, 'cron', month='6-8,11-12', day='3rd fri', hour='0-3') #表示从星期一到星期五5:30(AM)直到2014-05-30 00:00:00sched.add_job(my_job(), 'cron', day_of_week='mon-fri', hour=5, minute=30,end_date='2014-05-30') #表示每5秒执行该程序一次,相当于interval 间隔调度中seconds = 5sched.add_job(my_job, 'cron',second = '*/5')
weeks (int) – number of weeks to waitdays (int) – number of days to waithours (int) – number of hours to waitminutes (int) – number of minutes to waitseconds (int) – number of seconds to waitstart_date (datetime|str) – starting point for the interval calculationend_date (datetime|str) – latest possible date/time to trigger ontimezone (datetime.tzinfo|str) – time zone to use for the date/time calculations
#表示每隔3天17时19分07秒执行一次任务sched.add_job(my_job, 'interval',days = 03,hours = 17,minutes = 19,seconds = 07)
run_date (datetime|str) – the date/time to run the job at -(任务开始的时间)timezone (datetime.tzinfo|str) – time zone for run_date if it doesn’t have one already
# The job will be executed on November 6th, 2009sched.add_job(my_job, 'date', run_date=date(2009, 11, 6), args=['text'])# The job will be executed on November 6th, 2009 at 16:30:05sched.add_job(my_job, 'date', run_date=datetime(2009, 11, 6, 16, 30, 5), args=['text'])