(8) Hadoop-工作流调度器azkanban

有个StreamSet工具可以使用 看着还挺不错的!

工作流调度概述

  • 通常来说一个完整的数据采集流程都是各个单元组成前期的数据采集Flume或者linux脚本crontab,数据的预处理(MR),在处理后的数据导入到HIVE仓库,将多个表的数据进行join处理生成明细表,根据业务需求生成最后的数据报表,供起业务调用等 一套完善的流程。每个部分都是先后依赖存在时间关系,因此需要将各个单元有序的结合起来所以azkanban就诞生了。

市面上主流的工作流调度器

  • 有的公司可能会存在通过crontab脚本去编写,但是任务调度的过程会比较复杂。

  • Oozie : 配置工作流的过程是编写大量的 XML 配置,而且代码复杂度比较高,不易于二次开发

  • Airflow : 其开发语言是 Python,所以也不太适合从事 JavaEE 的开发人员使用。

  • Zeus : 阿里专用的以前好像是开源但是现在已经不开源了。

Azkaban 调度器

  • 批量工作流任务调度器,有个可视化的WEB界面,在内部使用JOB配置文件建立任务之间彼此的依赖关系。提供模块化可插拔机制,原生支持 command、Java、Hive、Pig、Hadoop 。azkaban基于java开发易于二次开发。

你可能感兴趣的:(大数据)