azkaban--安装和配置(详解)

azkaban–安装和配置(详解)

文章目录

    • azkaban--安装和配置(详解)
      • 一:为什么需要工作流调度器
      • 二:各种调度工具对比
        • Azkaban 与 Oozie 对比
          • 1.功能
          • 2.工作流定义
          • 3.工作流传参
          • 4.定时执行
          • 5.资源管理
          • 6.工作流执行
          • 7.工作流管理
      • 三:Azkaban 介绍
      • 四:Azkaban 安装部署
        • 1.准备工作
        • 2.安装 Azkaban Web 服务器
        • 3.安装 Azkaban Excutor 服务器
        • 4.安装 Azkaban 脚本导入
        • 5.进入mysql建立数据库,执行脚本文件
        • 6.创建SSL配置
        • 7.修改配置文件
        • 7.1 azkaban web 服务器配置
          • 用户配置
        • 7.2 azkaban 执行服务器 executor 配置
        • 7.3 配置环境变量
      • 8.启动
        • 1、 启动 web 服务器
        • 2、 启动执行服务器
        • 3、 能进入到如下画面证明安装成功

一:为什么需要工作流调度器

1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等

2、各任务单元之间存在时间先后及前后依赖关系

3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行

简单的任务调度:直接使用 linux 的 crontab 来定义;

复杂的任务调度:开发调度平台或使用现成的开源调度系统,比如 ooize、azkaban

在 hadoop 领域,常见的工作流调度器有 Oozie, Azkaban,Cascading,Hamake 等

二:各种调度工具对比

下面的表格对上述四种 hadoop 工作流调度器的关键特性进行了比较,尽管这些工作流调度 器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著 的区别,在做技术选型的时候,可以提供参考
azkaban--安装和配置(详解)_第1张图片

Azkaban 与 Oozie 对比

对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,ooize 相比 azkaban 是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器 azkaban 是很不错的候选对象。

详情如下:

1.功能

两者均可以调度 mapreduce,pig,java,脚本工作流任务

两者均可以定时执行工作流任务

2.工作流定义

Azkaban 使用 Properties 文件定义工作流

Oozie 使用 XML 文件定义工作流

3.工作流传参

Azkaban 支持直接传参,例如${input}

Oozie 支持参数和 EL 表达式,例如${fs:dirSize(myInputDir)} strust2(ONGL)

4.定时执行

Azkaban 的定时执行任务是基于时间的

Oozie 的定时执行任务基于时间和输入数据

5.资源管理

Azkaban 有较严格的权限控制,如用户对工作流进行读/写/执行等操作

Oozie 暂无严格的权限控制

6.工作流执行

Azkaban 有两种运行模式,分别是 solo server mode(executor server 和 web server 部署在同一

台节点)和 multi server mode(executor server 和 web server 可以部署在不同节点)

Oozie 作为工作流服务器运行,支持多用户和多工作流

7.工作流管理

Azkaban 支持浏览器以及 ajax 方式操作工作流

Oozie 支持命令行、HTTP REST、Java API、浏览器操作工作流

三:Azkaban 介绍

Azkaban 是由 Linkedin 开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定 的顺序运行一组工作和流程。

Azkaban 定义了一种 KV 文件(properties)格式来建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。

它有如下功能特点:

  • Web 用户界面
  • 方便上传工作流
  • 方便设置任务之间的关系
  • 调度工作流
  • 认证/授权(权限的工作)
  • 能够杀死并重新启动工作流
  • 模块化和可插拔的插件机制
  • 项目工作区
  • 工作流和任务的日志记录和审计

四:Azkaban 安装部署

1.准备工作

Azkaban Web 服务器:azkaban-web-server-2.5.0.tar.gz

Azkaban Excutor 执行服务器:azkaban-executor-server-2.5.0.tar.gz

Azkaban 初始化脚本文件:azkaban-sql-script-2.5.0.tar.gz

下载地址:https://download.csdn.net/download/itgagaga/11965006

注意:

将安装文件上传到集群,最好上传到安装 hive、sqoop 的机器上,方便命令的执行。并最好同一存放在 apps 目录下,用于存放源安装文件.新建 azkaban 目录,用于存放 azkaban 运行程序

2.安装 Azkaban Web 服务器

[root@hadoop03 ~]# tar -zxvf azkaban-web-server-2.5.0.tar.gz -C apps/ azkaban/ 

3.安装 Azkaban Excutor 服务器

[root@hadoop03 ~]# tar -zxvf azkaban-executor-server-2.5.0.tar.gz -C apps/ azkaban/ 

4.安装 Azkaban 脚本导入

[root@hadoop03 ~]# tar -zxvf azkaban-sql-script-2.5.0.tar.gz -C apps/ azkaban/

5.进入mysql建立数据库,执行脚本文件

mysql> create database azkaban;

mysql> use azkaban;

mysql> source /home/hadoop/apps/azkaban/azkaban-script-2.5.0/create-all-sql-2.5.0.sql;

azkaban--安装和配置(详解)_第2张图片

6.创建SSL配置

SSL(安全套接层)是为网络通信提供安全及数据完整性的一种安全协议。TLS与SSL在传输层与应用层之间对网络连接进行加密。

最好是在 azkaban 目录下,执行命令:

keytool -keystore keystore -alias jetty -genkey -keyalg RSA 

运行此命令后,会提示输入当前生成 keystore 的密码及相应信息,输入密码请劳记,信息如下:

[root@hadoop03 azkaban]# keytool -keystore keystore -alias jetty -genkey -keyalg RSA
Enter keystore password: 
Re-enter new password: 
What is your first and last name?
[Unknown]: 
What is the name of your organizational unit?
[Unknown]: 
What is the name of your organization?
[Unknown]: 
What is the name of your City or Locality?
[Unknown]: 
What is the name of your State or Province?
[Unknown]: 
What is the two-letter country code for this unit?
[Unknown]: CN
Is CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN correct?
[no]: y
Enter key password for <jetty>
(RETURN if same as keystore password): 
[root@hadoop03 azkaban]# ll
total 16
drwxr-xr-x. 7 root root 4096 Nov 21 01:53 azkaban-executor-2.5.0
drwxr-xr-x. 2 root root 4096 Nov 21 01:53 azkaban-script-2.5.0
drwxr-xr-x. 8 root root 4096 Nov 21 01:52 azkaban-web-2.5.0
-rw-r--r--. 1 root root 2232 Nov 21 02:06 keystore

7.修改配置文件

注:先配置好服务器节点上的时区

1、先生成时区配置文件 Asia/Shanghai,用交互式命令 tzselect 即可

2、拷贝该时区文件,覆盖系统本地时区配置

sudo cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 

7.1 azkaban web 服务器配置

进入 azkaban web 服务器安装目录 conf 目录

cd apps/azkaban/azkaban-web-2.5.0/conf/ 

修改 azkaban.properties 文件

vi azkaban.properties 

内容说明如下:

#Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=/home/hadoop/apps/azkaban/azkaban-web-2.5.0/web/
default.timezone.id=Asia/Shanghai

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=/home/hadoop/apps/azkaban/azkaban-web-2.5.0/conf/azkaban-users.xml

#Loader for projects
executor.global.properties=/home/hadoop/apps/azkaban/azkaban-executor-2.5.0/conf/global.properties
azkaban.project.dir=/user/hadoop/projects

database.type=mysql
mysql.port=3306
mysql.host=hadoop03
mysql.database=azkaban
mysql.user=root
mysql.password=123456
mysql.numconnections=100

# Velocity dev mode
velocity.dev.mode=false

# Azkaban Jetty server properties.
jetty.maxThreads=25
jetty.ssl.port=8443
jetty.port=8081
jetty.keystore=/home/hadoop/apps/azkaban/azkaban-web-2.5.0/keystore
jetty.password=hadoop123
jetty.keypassword=hadoop123
jetty.truststore=/home/hadoop/apps/azkaban/azkaban-web-2.5.0/keystore
jetty.trustpassword=hadoop123

# Azkaban Executor settings
executor.port=12321

# mail settings
mail.sender=1129565824@qq.com
mail.host=mail.qq.com
job.failure.email=1129565824@qq.com
job.success.email=1129565824@qq.com

lockdown.create.projects=false

cache.directory=cache
用户配置

进入 azkaban web 服务器 conf 目录,修改 azkaban-users.xml

vi azkaban-users.xml 增加 管理员用户
<azkaban-users>
        <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
        <user username="metrics" password="metrics" roles="metrics"/>
        <user username="hadoop03" password="hadoop123" roles="admin,metrics"/>

        <role name="admin" permissions="ADMIN" />
        <role name="metrics" permissions="METRICS"/>
</azkaban-users>

7.2 azkaban 执行服务器 executor 配置

进入执行服务器安装目录 conf,修改 azkaban.properties

cd apps/azkaban/azkaban-executor-2.5.0/conf/ 

vi azkaban.properties
#Azkaban时区
default.timezone.id=Asia/Shanghai
# Azkaban JobTypes 插件配置,插件所在位置
azkaban.jobtype.plugin.dir=/home/hadoop/apps/azkaban/azkaban-executor-2.5.0/plugins/jobtypes
#Loader for projects
executor.global.properties=/home/hadoop/apps/azkaban/azkaban-executor-2.5.0/conf/global.proper
ties
azkaban.project.dir=projects
#数据库设置
database.type=mysql
mysql.port=3306
mysql.host=hadoop03
mysql.database=azkaban
mysql.user=root
mysql.password=123456
mysql.numconnections=100
# 执行服务器配置
executor.maxThreads=50
executor.port=12321
executor.flow.threads=30

7.3 配置环境变量

sudo vi /etc/profile
export AZKABAN_EXE_HOME=/home/hadoop/apps/azkaban/azkaban-executor-2.5.0
export PATH=$PATH:$AZKABAN_EXE_HOME/bin
export AZKABAN_WEB_HOME=/home/hadoop/apps/azkaban/azkaban-web-2.5.0
export PATH=$PATH:$AZKABAN_WEB_HOME/bin

8.启动

1、 启动 web 服务器

启动 Azkaban Web Server:

azkaban-web-start.sh

2、 启动执行服务器

启动 Azkaban Executor:

azkaban-executor-start.sh

3、 能进入到如下画面证明安装成功

注意地址是:https://hadoop03:8443/

在登录中输入刚才新的户用名及密码,点击 login

azkaban--安装和配置(详解)_第3张图片

你可能感兴趣的:(Azkaban,Azkaban)