Airflow填坑 - 生产环境实战,开始时间与周期的设置(没看的小伙伴抓紧了)

对于Airflow的介绍、作用,在此不做赘述,以下是本人在工作中,对于Airflow的使用和一些填坑,希望对您有所帮助。

首先,介绍一下需求


在大数据处理阶段,也就是数据的ETL,我们通过公司自己开发的平台,将各个业务流程模型化,模型 = 输入算子 + 数据处理算子(SQL化,底层为sparksql) + 输出算子,类似于这种模型,代表一个个的业务,对于开发者来说,当然比较方便,但在客户公司去部署项目时,高层希望脱离这个平台,因为这是为了方便我们大数据处理而开发的,最好是对于用户透明。

将数据处理透明化,我们能做到的是,将开发好的模型全部导出,这时候,问题就出现了,怎么去统一调度这一百多个模型,涉及到的需求有,五分钟、小时、天等等复杂调度,并且模型之间存在依赖,通过调研,最后决定采用Airflow作为调度平台。

Airflow的调度是通过脚本进行的,在脚本中,定义开始时间和调度周期,官方的开始时间设置有两种方式:


生产环境下,当然用第一种,但是存在的问题是,如果重新启动,需要使用的人去进入服务器,改变开始时间,不太友好,也不安全。

通过反复的测试,研究了一个方法解决这个问题,以下是详细的代码,亲测可用。


如果有更优的办法,希望小伙伴们多交流,不胜感激!

原文:https://blog.csdn.net/JK_GOME/article/details/97932222

你可能感兴趣的:(Airflow填坑 - 生产环境实战,开始时间与周期的设置(没看的小伙伴抓紧了))