1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等
2、各任务单元之间存在时间先后及前后依赖关系
3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行
简单的任务调度:直接使用 linux 的 crontab 来定义;
复杂的任务调度:开发调度平台或使用现成的开源调度系统,比如 ooize、azkaban
在 hadoop 领域,常见的工作流调度器有 Oozie, Azkaban,Cascading,Hamake 等
下面的表格对上述四种 hadoop 工作流调度器的关键特性进行了比较,尽管这些工作流调度 器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著 的区别,在做技术选型的时候,可以提供参考
对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,ooize 相比 azkaban 是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器 azkaban 是很不错的候选对象。
详情如下:
两者均可以调度 mapreduce,pig,java,脚本工作流任务
两者均可以定时执行工作流任务
Azkaban 使用 Properties 文件定义工作流
Oozie 使用 XML 文件定义工作流
Azkaban 支持直接传参,例如${input}
Oozie 支持参数和 EL 表达式,例如${fs:dirSize(myInputDir)} strust2(ONGL)
Azkaban 的定时执行任务是基于时间的
Oozie 的定时执行任务基于时间和输入数据
Azkaban 有较严格的权限控制,如用户对工作流进行读/写/执行等操作
Oozie 暂无严格的权限控制
Azkaban 有两种运行模式,分别是 solo server mode(executor server 和 web server 部署在同一
台节点)和 multi server mode(executor server 和 web server 可以部署在不同节点)
Oozie 作为工作流服务器运行,支持多用户和多工作流
Azkaban 支持浏览器以及 ajax 方式操作工作流
Oozie 支持命令行、HTTP REST、Java API、浏览器操作工作流
Azkaban 是由 Linkedin 开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定 的顺序运行一组工作和流程。
Azkaban 定义了一种 KV 文件(properties)格式来建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。
它有如下功能特点:
Azkaban Web 服务器:azkaban-web-server-2.5.0.tar.gz
Azkaban Excutor 执行服务器:azkaban-executor-server-2.5.0.tar.gz
Azkaban 初始化脚本文件:azkaban-sql-script-2.5.0.tar.gz
下载地址:https://download.csdn.net/download/itgagaga/11965006
注意:
将安装文件上传到集群,最好上传到安装 hive、sqoop 的机器上,方便命令的执行。并最好同一存放在 apps 目录下,用于存放源安装文件.新建 azkaban 目录,用于存放 azkaban 运行程序
[root@hadoop03 ~]# tar -zxvf azkaban-web-server-2.5.0.tar.gz -C apps/ azkaban/
[root@hadoop03 ~]# tar -zxvf azkaban-executor-server-2.5.0.tar.gz -C apps/ azkaban/
[root@hadoop03 ~]# tar -zxvf azkaban-sql-script-2.5.0.tar.gz -C apps/ azkaban/
mysql> create database azkaban;
mysql> use azkaban;
mysql> source /home/hadoop/apps/azkaban/azkaban-script-2.5.0/create-all-sql-2.5.0.sql;
SSL(安全套接层)是为网络通信提供安全及数据完整性的一种安全协议。TLS与SSL在传输层与应用层之间对网络连接进行加密。
最好是在 azkaban 目录下,执行命令:
keytool -keystore keystore -alias jetty -genkey -keyalg RSA
运行此命令后,会提示输入当前生成 keystore 的密码及相应信息,输入密码请劳记,信息如下:
[root@hadoop03 azkaban]# keytool -keystore keystore -alias jetty -genkey -keyalg RSA
Enter keystore password:
Re-enter new password:
What is your first and last name?
[Unknown]:
What is the name of your organizational unit?
[Unknown]:
What is the name of your organization?
[Unknown]:
What is the name of your City or Locality?
[Unknown]:
What is the name of your State or Province?
[Unknown]:
What is the two-letter country code for this unit?
[Unknown]: CN
Is CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN correct?
[no]: y
Enter key password for <jetty>
(RETURN if same as keystore password):
[root@hadoop03 azkaban]# ll
total 16
drwxr-xr-x. 7 root root 4096 Nov 21 01:53 azkaban-executor-2.5.0
drwxr-xr-x. 2 root root 4096 Nov 21 01:53 azkaban-script-2.5.0
drwxr-xr-x. 8 root root 4096 Nov 21 01:52 azkaban-web-2.5.0
-rw-r--r--. 1 root root 2232 Nov 21 02:06 keystore
注:先配置好服务器节点上的时区
1、先生成时区配置文件 Asia/Shanghai,用交互式命令 tzselect 即可
2、拷贝该时区文件,覆盖系统本地时区配置
sudo cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
进入 azkaban web 服务器安装目录 conf 目录
cd apps/azkaban/azkaban-web-2.5.0/conf/
修改 azkaban.properties 文件
vi azkaban.properties
内容说明如下:
#Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=/home/hadoop/apps/azkaban/azkaban-web-2.5.0/web/
default.timezone.id=Asia/Shanghai
#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=/home/hadoop/apps/azkaban/azkaban-web-2.5.0/conf/azkaban-users.xml
#Loader for projects
executor.global.properties=/home/hadoop/apps/azkaban/azkaban-executor-2.5.0/conf/global.properties
azkaban.project.dir=/user/hadoop/projects
database.type=mysql
mysql.port=3306
mysql.host=hadoop03
mysql.database=azkaban
mysql.user=root
mysql.password=123456
mysql.numconnections=100
# Velocity dev mode
velocity.dev.mode=false
# Azkaban Jetty server properties.
jetty.maxThreads=25
jetty.ssl.port=8443
jetty.port=8081
jetty.keystore=/home/hadoop/apps/azkaban/azkaban-web-2.5.0/keystore
jetty.password=hadoop123
jetty.keypassword=hadoop123
jetty.truststore=/home/hadoop/apps/azkaban/azkaban-web-2.5.0/keystore
jetty.trustpassword=hadoop123
# Azkaban Executor settings
executor.port=12321
# mail settings
mail.sender=1129565824@qq.com
mail.host=mail.qq.com
job.failure.email=1129565824@qq.com
job.success.email=1129565824@qq.com
lockdown.create.projects=false
cache.directory=cache
进入 azkaban web 服务器 conf 目录,修改 azkaban-users.xml
vi azkaban-users.xml 增加 管理员用户
<azkaban-users>
<user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
<user username="metrics" password="metrics" roles="metrics"/>
<user username="hadoop03" password="hadoop123" roles="admin,metrics"/>
<role name="admin" permissions="ADMIN" />
<role name="metrics" permissions="METRICS"/>
</azkaban-users>
进入执行服务器安装目录 conf,修改 azkaban.properties
cd apps/azkaban/azkaban-executor-2.5.0/conf/
vi azkaban.properties
#Azkaban时区
default.timezone.id=Asia/Shanghai
# Azkaban JobTypes 插件配置,插件所在位置
azkaban.jobtype.plugin.dir=/home/hadoop/apps/azkaban/azkaban-executor-2.5.0/plugins/jobtypes
#Loader for projects
executor.global.properties=/home/hadoop/apps/azkaban/azkaban-executor-2.5.0/conf/global.proper
ties
azkaban.project.dir=projects
#数据库设置
database.type=mysql
mysql.port=3306
mysql.host=hadoop03
mysql.database=azkaban
mysql.user=root
mysql.password=123456
mysql.numconnections=100
# 执行服务器配置
executor.maxThreads=50
executor.port=12321
executor.flow.threads=30
sudo vi /etc/profile
export AZKABAN_EXE_HOME=/home/hadoop/apps/azkaban/azkaban-executor-2.5.0
export PATH=$PATH:$AZKABAN_EXE_HOME/bin
export AZKABAN_WEB_HOME=/home/hadoop/apps/azkaban/azkaban-web-2.5.0
export PATH=$PATH:$AZKABAN_WEB_HOME/bin
启动 Azkaban Web Server:
azkaban-web-start.sh
启动 Azkaban Executor:
azkaban-executor-start.sh
注意地址是:https://hadoop03:8443/
在登录中输入刚才新的户用名及密码,点击 login