airflow部署和使用示例

进大厂,身价翻倍的法宝来了!

主讲内容:docker/kubernetes 云原生技术,大数据架构,分布式微服务,自动化测试、运维。

视频地址:ke.qq.com/course/419718

全栈工程师开发手册 (作者:栾鹏)
架构系列文章


参考:https://www.jianshu.com/p/089c56b4ec14

airflow介绍
https://lxwei.github.io/posts/airflow%E4%BB%8B%E7%BB%8D.html

python 教程:https://airflow.apache.org/tutorial.html

airflow调度

airflow的scheduler加载到dags后,会直接创建一批dags实例.

这些执行实例的Execution Date为start_time到当期时间之间的符合start_time+n*schedule_interval的时刻点(包含start_time), 有多少个符合时刻的时刻点就会保障数据库中有多少个dags实例在数据库中. (可以通过设置catchup=False将现在时刻之前的执行时间不再调度,否则注意这里是保证有,如果已经存在了就不再创建)

下一次scheduler 再次加载dags文件, 重新计算代码里面写的start_time,然后重新生成需要执行的实例, 发现部分之前时间的dags实例在数据库中已经有了,就不会再创建了,只会创建最新没有创建的运行实例.

注意: start_time要写成当前时间一个调度周期之前的时间才能有效.

新创建的dags实例会发送到celery, worder会订阅celery,执行 dags实例.

所以如果我们不想让两个dags实例同时运行, start_time的时间设置为上一次执行周期,或者设置worker只能有一个运行,并且每个里面只有一个并行.

worker订阅到dags实例后,会按照dags里面的代码检查一遍start_time 和接收到 dags实例的Execution Date

如果Execution Date 早于start_time 则会放弃执行,直接写入数据库dags实例执行错误.

dags中的多个task 如果包含依赖关系, 执行完上游task并不会立即执行下游task,会现将上游task的执行信息写入到数据库里面,清理准备执行下一个task, 中间大概有10s-15s的延迟.

多个worker之间是并行的. woker里面每个线程数也是并行的. 不过如果设置了每个worker里面的执行线程数

注意: 不要将时区转变为上海时区,因为里面会把时区转为UTC,所以还是使用UTC的时区,设定时间时,手动提前8小时

注意:

dag = DAG('tutorial', catchup=False, default_args=default_args)

catchup值为True,将忽略已经过去的执行时间。

忽略python脚本

如果自己的python文件不想被airflow搜索,可以在dags的根目录下面创建.airflowignore文件,每行一个正则,正则匹配到的文件,就会直接忽略。

注意只要包含正则项就会被忽略掉,并不是完全匹配才被忽略掉。

airflow.cfg配置文件

https://www.jianshu.com/p/69a768c84465
https://blog.csdn.net/sxf_123456/article/details/79141227

airflow源码分析-启动机制

用过airflow的人都知道,airflow webserver -p 8000 这样webserver就启动起来了
airflow scheduler 启动scheduler,具体是怎么启动起来的呢?看一下代码就知道了
setup.py

def do_setup():
    write_version()
    setup(
        name='apache-airflow',
        description='Programmatically author, schedule and monitor data pipelines',
        license='Apache License 2.0',
        version=version,
        packages=find_packages(exclude=['tests*']),
        package_data={'': ['airflow/alembic.ini', "airflow/git_version"]},
        include_package_data=True,
        zip_safe=False,
        scripts=['airflow/bin/airflow'],

当你执行airflow命令时,实际执行的是airflow/bin/airflow这个文件

airflow/bin/airflow

if __name__ == '__main__':

    if configuration.get("core", "security") == 'kerberos':
        os.environ['KRB5CCNAME'] = configuration.get('kerberos', 'ccache')
        os.environ['KRB5_KTNAME'] = configuration.get('kerberos', 'keytab')

    parser = CLIFactory.get_parser()
    args = parser.parse_args()
    args.func(args)

CLIFactory是一个解析类,当执行airflow webserver -p 时,CLIFactory负责把接收到的参数解析了,webserver对应的是airflow/bin/cli.py中的webserver(). scheduler同理

你可能感兴趣的:(airflow部署和使用示例)