如何在 Linux、Mac 下定时执行 Alink 任务?

如何使用 Linux、Mac 定时执行 Alink 任务?推荐使用 Linux,Mac 下用于设置周期性被执行的指令 crontab,通过 crontab 来设置定时执行 Alink 任务。

crontab 简介

crontab 的命令格式为:

crontab [-u user] file

crontab [-u user] [ -e | -l | -r ]

各命令参数的解释如下:

  • u user:用来设定某个用户的 crontab 服务。
  • f file:file 是命令文件的名字,表示将 file 做为 crontab 的任务列表文件并载入 crontab。如果在命令行中没有指定这个文件,crontab 命令将接受标准输入(键盘)上键入的命令,并将它们载入 crontab。
  • e:编辑某个用户的 crontab 文件内容。如果不指定用户,则表示编辑当前用户的 crontab 文件。
  • l:显示某个用户的 crontab 文件内容,如果不指定用户,则表示显示当前用户的 crontab 文件内容。
  • r:从 /var/spool/cron 目录中删除某个用户的 crontab 文件,如果不指定用户,则默认删除当前用户的 crontab 文件。

我们通过一个简单的示例来演示。

输入如下命令,编辑 crontab 文件内容,会自动打开一个文本编辑器,通常是 vim。

crontab -e

编辑内容,键入:

*/1 * * * * /bin/date >> /Users/yangxu/time.txt

其中,关于任务时间和间隔的设置说明可以参考:

19. crontab 定时任务
https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/crontab.html#id10

然后,保存并退出编辑状态,此时,crontab已经开始执行。

过几分钟,我们检查一下文件 /Users/yangxu/time.txt 的内容,显示截图如下:

image

可以看到定时执行已经起作用了。

进一步,使用命令:

crontab -l

可以看到当前的定时任务列表,显示内容如下:

*/1 * * * * /bin/date >> /Users/yangxu/time.txt

如果想要清除所有的定时设置,可以使用命令:

crontab -r

Alink 定时调度例子

crontab 可以定时运行各种命令。对于 Alink 来说,crontab 既可以启动 Alink 的 Java 任务,也可以运行包含有 PyAilnk 的 Python 脚本(Notebook 不能用),这些命令还可以包含在 Bash 脚本里。

下面以 Python 脚本为例进行说明,假设我们有以下的 PyAlink 代码:

from pyalink.alink import *
from datetime import datetime
timestamp = datetime.timestamp(datetime.now())
timestamp_str = datetime.fromtimestamp(timestamp).strftime('%Y-%m-%d %H:%M:%S')
useLocalEnv(2)
source = CsvSourceBatchOp() \
 .setSchemaStr("sepal_length double, sepal_width double, petal_length double, petal_width double, category string") \
 .setFilePath("http://alink-dataset.cn-hangzhou.oss.aliyun-inc.com/csv/iris.csv")
sink = CsvSinkBatchOp() \
 .setFilePath("/Users/fanhong/Code/alink-jupyter/" + timestamp_str + ".csv")
sink.linkFrom(source)
BatchOperator.execute()

这个脚本会在正确运行后,在固定的目录下生成一个以当前时间戳命名的 csv 文件。因为 crontab 在执行任务时,并不在当前目录,所以这里的目录路径不能使用相对路径,请根据情况修改。

将上面的代码,复制到文本编辑器中,修改目录路径,然后保存到任一目录下,文件名为“crontab-example.py”。

之后,我们在当前目录测试这个脚本,使用 python3 crontab-example.py 运行。运行结束后,如果在前面指定的目录下生成了以当前时间戳命名的 csv 文件,就说明脚本没有问题。

然后,我们通过 crontab 来添加定时作业,如前面简单示例所示,运行命令:

crontab -e

编辑如下内容,然后保存退出:

* * * * *  /usr/local/bin/python3 /Users/fanhong/Code/alink-jupyter/crontab-example.py >/tmp/crontab-stdout.log 2>/tmp/crontab-stderr.log

注意到,这里 python 和 py 脚本的路径,我们都使用了绝对路径。同时我们将脚本运行的标准输出和错误输出分别重定向到文件中,方便在运行失败时查看信息。这几个路径都可以根据机器环境进行修改,其中 python 路径一般可以通过 which python3 查看到。

上面所添加的定时作业表示每分钟将执行一次后面的脚本,如果作业正常运行,可以在之前 Python 脚本中 CsvSinkBatchOp 所用的绝对路径下看到每分钟所生成的 csv 文件。

如果没有生成文件,通常问题是2个:

  • crontab 的系统服务没有启动。需要参考各个系统的服务启动方式来启用 crontab。在 MacOS 下,一般使用 sudo touch /etc/crontab 之后就能正常运行。
  • 脚本运行错误。比如上面的命令运行失败,可以通过文件 /tmp/crontab-stderr.log 查看报错信息。由于我们之前已经成功运行过脚本,所以这里通常是 Python 环境的问题。

以上。Alink 是基于 Flink 的机器学习算法平台,欢迎访问 Alink 的 GitHub 链接获取更多信息。也欢迎加入 Alink 开源用户群进行交流~

Alink GitHub 链接:
https://github.com/alibaba/Alink

▼ 钉钉扫码加入 Alink 技术交流群 ▼

image

你可能感兴趣的:(如何在 Linux、Mac 下定时执行 Alink 任务?)