django-crontab实现Django定时任务

1. 前言

为了做一些报表,最近需要每日从爱站上抓取竞争对手的百度流量和移动流量,从我能实现的技术来看,大致有三种实现形式:

  1. 火车头定时抓取
  2. python+crontab定时抓取,保存在txt或cav或数据库中;
  3. django定时任务,用admin系统或模板系统展现。

第一种不熟悉,还要摸索;第二种数据展现还要自己写,如果用数据库,还要用很原始的连接方式,至少用了django之后是这样;第三种优点是可以用admin系统或模板系统来,缺点是定时任务不熟悉。但考虑到打算深入学习django,于是决定用第三种方式来实现。

2. Django定时任务

Django的定时任务基本也有三种实现形式:

  1. django-celery
  2. Django的command+crontab
  3. 一些第三方库,如django-crontab

首先,看了下django-celery的官方教程,celery还是比较庞大的,而且教程比较复杂,没耐心的我就先行跳过了;

其次,又看了Django关于command的官方文档,实现了command+crontab的形式。但因为是在virtualenv下部署,一直无法实现。即便crontab中已经设置了先进入virtualenv再运行command仍然失败了(crontab中语法是source /home/../bin/activate && python /home/.../manage.py aizhan_visits)。

最后,选择了第三方库django-crontab,竟意外的实现了Django在virtualenv下的的定时任务。。

3. django-crontab实现Django在virtualenv的定时任务

3.1 django-crontab安装

  • django-crontab安装
    pip install django-crontab

  • django-crontab加入:只需要将django-crontab加入到settings.py的INSTALLED_APPS即可。如下代码:

    INSTALLED_APPS = (
    'django-crontab',
    ...
    )

3.2 django-crontab配置

django-crontab可以定时运行自定义命令和函数两种方式,因为之前尝试用command+crontab时已经实现了自定义command,所以自然而然使用了自定义命令这种形式。

3.2.1 django-crontab定时运行命令

我先参考Django官方文档自定义了一个命令aizhan_5domain_visits,专门用于抓取爱站流量,并将结果保存在sqlite3数据库中(具体步骤在本文中不赘述了)。

其次,我在settings.py中加入了django-crontab的命令:

CRONJOBS = [
    ('47 11 * * *', 'django.core.management.call_command', ['aizhan_5domain_visits']),
]

意思就是每天11点47分运行aizhan_5domain_visits这个命令。接下来就剩最后一步任务加载了。

3.2.2 django-crontab定时运行函数

django-crontab也可以定时运行函数,只是在CRONJOBS配置时有差别。CRONJOBS关于函数的配置如下:

CRONJOBS = (
    # 初级模式
    ('*/5 * * * *', 'myproject.myapp.cron.my_scheduled_job'),

    # 中级模式
    ('0   0 1 * *', 'myproject.myapp.cron.my_scheduled_job', '> /tmp/last_scheduled_job.log'),

    #高级模式
    ('0   0 * * 0', 'django.core.management.call_command', ['dumpdata', 'auth'], {'indent': 4}, '> /home/john/backups/last_sunday_auth_backup.json'),
)

分析结果:

  • 初级模式很直观,意思就是每五分钟执行一次my_scheduled_job这个程序;
  • 中级模式有个后缀,意思是将程序my_scheduled_job的结果输出到文件/tmp/last_scheduled_job.log中;
  • 高级模式加入了参数,其中['dumpdata', 'auth']{'indent': 4}都是参数,只是[]中的参数是按照顺序代入,而{}中的参数指定了变量名称,最后一个也是输出结果的后缀。

3.3 django-crontab任务加载

django-crontab任务加载比较简单,只需要运行python manage.py crontab add即可。如果你运行crontab -e可以看到crontab中多了一行:

 * * *  /home/aizhan/bin/python /home/aizhan/aizhan/manage.py crontab run c27d1050fb7f87225bcff587ef5a35a3   # django-cronjobs for aizhan

这是django-crontab自动生成的。

  • 如果要移除所有的任务,则运行python manage.py crontab remove;
  • 当你修改了任务,需要再次运行python manage.py crontab add

4. 实现效果

最后通过配置admin.py,在admin后台实现了基本的数据展现,效果图如下:

参考文档

  • django-celery的官方文档:http://docs.celeryproject.org/en/latest/getting-started/first-steps-with-celery.html
  • django-crontab的官方文档:https://github.com/kraiz/django-crontab
  • Django官方文档中关于自定义command的部分:https://docs.djangoproject.com/en/1.6/howto/custom-management-commands/
  • 关于crontab任务的说明:http://www.flatws.cn/article/program/shell/2011-02-23/14037.html

后记

  1. 关于题图。转自Sticky Notes的Savage Chickens系列,作者是Doug Savage,本图名字是Time After Time Cartoon;
  2. 关于感受。长时间不写,感觉思路不清晰,写出来的话也毫无生气。

你可能感兴趣的:(python)