ronon77

Airflow：Python 工作流管理利器

Apache Airflow 是一个用于编排复杂计算工作流和数据处理流水线的开源工具。如果您发现自己运行的是执行时间超长的 cron 脚本任务，或者是大数据的批处理任务，Airflow 可能是能帮助您解决目前困境的神器。本文将为那些想要寻找新的工具或者说不知道有这款工具的同学了解 Airflow 编写工作线提供入门教程。

Airflow 工作流设计称为有向非循环图（DAG）。这意味着，在编写工作流时，您应该考虑如何将你的任务划分为多个可独立执行的任务，然后，将这些任务合并为一个逻辑整体，将其组合成一个图，从而实现我们的工作流结果，例如：

图的形状决定了你工作流的整体逻辑。 Airflow DAG 可以包括多个分支，您可以决定在工作流执行时要走哪些分支或者说跳过哪一个分支。这就为我们的工作创建了一个非常有弹性的设计，因为如果发生错误，每个任务可以重试多次，甚至可以完全停止，并通过重新启动最后一个未完成的任务来恢复运行的工作流程。

在设计 Airflow 操作节点时，务必要记住，它们可能被执行不止一次。每个任务应该是幂等的，即具有多次应用的能力，而不会产生意想不到的后果。

Airflow 术语

以下是设计 Airflow 工作流程时使用的一些术语的简要概述:

Airflow DAGs 是很多 Tasks 的组合.
每个 Task 都被实现为一个 Operator
当一个 DAG 启动的时候，Airflow 都将在数据库中创建一个 DagRun 记录
当一个任务执行的时候，实际上是创建了一个 Task 实例运行，它运行在 DagRun 的上下文中。
AIRFLOW_HOME 是 Airflow 寻找 DAG 和插件的基准目录。

环境准备

Airflow 是使用 Python 语言编写的，这让我们可以非常简单得在机器上安装。我这里使用的是 Python3.5 版本的 Python，还在使用 Python2 的兄弟们，赶紧出坑吧，3 会让你对 Python 更加痴迷的。虽然 Airflow 是支持 Python2 版本的，好像最低可以支持到 Python2.6，但是我墙裂推荐大家使用 Python3.接下来，我将使用 virtualenv 来管理开发环境，并且进行后续的一系列实验。

安装 Airflow

为了方便，我这里单独创建了一个 airflow 的用户用于实验，同时使用这个用户的 home 目录 /home/airflow 作为 airflow 的工作目录，如果你希望和我看到一样的效果，那么我希望是跟着我的步骤一起来：

这里只是进入 virtualenv 环境，接下来才是安装 airflow 的步骤，截止到我写博客的时候，airflow 的最新版本是 1.8，所以我这里就使用 1.8 的版本：

(venv) $ pip install airflow==1.8.0

经过一段稍长的等待时间之后，我们的 airflow 应该是安装成功了，在安装过程我们可以看到，airflow 依赖于大量的其他库，这个我们后续都会慢慢道来。现在是是否配置 airflow 的环境了。

第一个需要配置的就是 AIRFLOW_HOME 环境变量，这个是 airflow 工作的基础，后续的 DAG 和 Plugin 都将以此为基础展开，因为他们都是以 AIRFLOW_HOME 作为根目录进行查找。根据我们之前的描述，我们的 HOME 目录应该是 /home/airflow，所以可以这么设置:

哈哈，到这里我们可以说一个最简单的配置就算是完成了，来看点有用的吧，尝试一下输入 airflow version 命令看看:

如果你看到了上面一般的输出，那么说明我们的 airflow 是安装和配置成功的，同时，我们使用 ls -al 命令看看，应该在 /home/airflow 目录上能够发现以下两个文件：

打开 airflow.cfg 文件你会发现里面有很多配置项，而且大部分都是有默认值的，这个文件就是 airflow 的配置文件，在以后的详解中我们会接触到很多需要修改的配置，目前就以默认的配置来进行试验。如果你现在就迫不及待得想自己修改着玩玩，那么 Airflow Configure 这篇文档可以帮助你了解各个配置项的含义。

初始化 Airflow 数据库

可能你会有点震惊了，为啥要初始化数据库？是的，因为 airflow 需要维护 DAG 内部的状态，需要保存任务执行的历史信息，这些都是放在数据库里面的，也就是说我们需要先在数据库中创建表，但是，因为使用的是 Python，我们不需要自己使用原始的 SQL 来创建，airflow 为我们提供了方便的命令行，只需要简单得执行：

(venv) $ airflow initdb

这里值得注意的是，默认的配置使用的是 SQLite，所以初始化知道会在本地出现一个 airflow.db 的数据库文件，如果你想要使用其他数据库(例如 MySQL)，都是可以的，只需要修改一下配置，我们后续会讲到：

Airflow Web 界面

Airflow 提供了多种交互方式，主要使用到的有两种，分别是：命令行和 Web UI。Airflow 的 Web UI 是通过 Flask 编写的，要启动起来也是很简单，直接在 AIRFLOW_HOME 目录运行这条命令：

(venv) $ airflow webserver

然后你就可以通过浏览器看到效果了，默认的访问端口是：8080，所以打开浏览器，访问以下 URL：http://localhost:8080/admin，神奇的事情就这么发生了，你将看到类似这样的页面：

第一个 DAG

从一开始就说了， Airflow 的两个重大功能就是 DAG 和 Plugin，但是直到现在我们才开始讲解 DAG。DAG 是离散数学中的一个概念，全称我们称之为：有向非循环图（directed acyclic graphs）。图的概念是由节点组成的，有向的意思就是说节点之间是有方向的，转成工业术语我们可以说节点之间有依赖关系；非循环的意思就是说节点直接的依赖关系只能是单向的，不能出现 A 依赖于 B，B 依赖于 C，然后 C 又反过来依赖于 A 这样的循环依赖关系。

那么在 Airflow 中，图的每个节点都是一个任务，可以是一条命令行（BashOperator），可以是一段 Python 脚本（PythonOperator）等等，然后这些节点根据依赖关系构成了一条流程，一个图，称为一个 DAG，每个 Dag 都是唯一的 DagId。

创建一个 DAG 也是很简单得，首先需要在 AIRFLOW_HOME 目录下创建一个 dags 目录，airflow 将会在这个目录下去查找 DAG，所以，这里我们先创建一个，创建完之后新建一个 tutorial.py 文件：

然后，再来看下我们的 DAG 文件是怎么写的：

我们可以从 Web UI 上看到这个 DAG 的依赖情况：

这就定义了几个任务节点，然后组成了一个 DAG，同时也可以发现，依赖关系是通过 set_downstream 来实现的，这只是一种方式，在后面我们将会看到一个更加简便的方式。

让 DAG 跑起来

为了让 DAG 能够运行，我们需要触发 DAG 任务，这里有几种触发的方式，但是，最天然的当属定时器了，例如，在我们上面的任务中，可以发现设置了一个参数： schedule_interval，也就是任务触发的周期。但是，你光设置了周期是没有用的，我们还需要有个调度器让他调度起来，所以需要运行调度器:

我这里使用的是 LocalExecutor， Airflow 目前有三种执行器，分别是：

SequentialExecutor：顺序得指定 DAG
LocalExecutor：使用本地进程执行 DAG
CeleryExecutor：使用 Celery 执行 DAG

其中第一种 SequentialExecutor 可以用来在开发调试阶段使用，千万不要在生成环境中使用。第二种和第三种可以用于生产也可以用于开发测试，但是，对于任务较多的，推荐使用第三种： CeleryExecutor。

总结

本文从 Airflow 的环境安装出发，简单得介绍了一下如何使用 Airflow，但是本文的定位始终是一篇入门文章，对于 Airflow 的高级特性，在本博客中将会有大量的后续文章进行介绍，请大家自行搜索了解。

Reference

Airflow Tutorial
A Summer Intern's Journey into Airflow @ Agari
Get started developing workflows with Apache Airflow

你可能感兴趣的:(python&nodejs)

iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio