Oozie简介和运行实例

一、oozie简介

Oozie是一个管理 Apache Hadoop 作业的工作流调度系统。

官网连接:http://oozie.apache.org/

1、安装:

一是源生的,需要自己编译;(本文暂时不介绍具体的安装步骤,可以参考https://blog.csdn.net/lucylove3943/article/details/80673962)

二是CDH的包来安装,和源生类似;

三是Ambari上安装

2、Oozie的Web页面。

Oozie简介和运行实例_第1张图片

 

3、支持类型的Hadoop作业

Oozie与Hadoop生态圈的其他部分集成在一起,支持多种类型的Hadoop作业(如Java map-reduce、流式map-reduce、Pig、Hive、Sqoop和Distcp)以及特定于系统的工作(如Java程序和shell脚本)。

 

4、主要概念:

4.1、Workflow:

工作流,由我们需要处理的每个工作组成,进行需求的流式处理。(一个具体的任务,例如执行一个mr)

4.2、Coordinator:

协调器,可以理解为工作流的协调器,可以将多个工作流协调成一个工作流来进行处理(例如可以控制workflow每天24点执行)。

4.3、Bundle:

捆,束。将一堆的coordinator进行汇总处理。

 

简单来说,workflow是对要进行的顺序化工作的抽象,coordinator是对要进行的顺序化的workflow的抽象,bundle是对一堆coordiantor的抽象。层级关系层层包裹。

Oozie简介和运行实例_第2张图片

Oozie的 workflow jobs 是由 actions 组成的 有向无环图(DAG)

Oozie简介和运行实例_第3张图片

 

5、Job组成:

一个oozie 的 job 一般由以下文件组成:
1、job.properties :记录了job的属性(hdfs、yarn、workflow、定时任务等基本信息) 
2、workflow.xml :使用hPDL 定义任务的流程和分支(定义任务的整体流程)
3、lib目录:用来执行具体的任务(例如需要执行mr任务的jar包)

下面是具体的说明:

1、Job.properties:

Oozie简介和运行实例_第4张图片

2、workflow.xml:

这个文件是定义任务的整体流程的文件,官网wordcount例子如下:

Oozie简介和运行实例_第5张图片

3、Lib目录

在workflow工作流定义的同级目录下,需要有一个lib目录,在lib目录中存在java节点MapReduce使用的jar包。

需要注意的是,oozie并不是使用指定jar包的名称来启动任务的,而是通过制定主类来启动任务的。在lib包中绝对不能存在某个jar包的不同版本,不能够出现多个相同主类。

 

 

注意:*********************************************************

下面的6、7、8可简略查看,内容比较详细,可以先看 二、“使用”后再翻过来回看。

6、工作流生命周期

在Oozie中,工作流的状态可能存在如下几种:

状态 

含义说明 

PREP

一个工作流Job第一次创建将处于PREP状态,表示工作流Job已经定义,但是没有运行。

RUNNING

当一个已经被创建的工作流Job开始执行的时候,就处于RUNNING状态。它不会达到结束状态,只能因为出错而结束,或者被挂起。

SUSPENDED

一个RUNNING状态的工作流Job会变成SUSPENDED状态,而且它会一直处于该状态,除非这个工作流Job被重新开始执行或者被杀死。

SUCCEEDED

当一个RUNNING状态的工作流Job到达了end节点,它就变成了SUCCEEDED最终完成状态。

KILLED

当一个工作流Job处于被创建后的状态,或者处于RUNNING、SUSPENDED状态时,被杀死,则工作流Job的状态变为KILLED状态。

FAILED

当一个工作流Job不可预期的错误失败而终止,就会变成FAILED状态。

上述各种状态存在相应的转移(工作流程因为某些事件,可能从一个状态跳转到另一个状态),其中合法的状态转移有如下几种,如下表所示:

转移前状态 

转移后状态集合 

未启动

PREP

PREP

RUNNING、KILLED

RUNNING

SUSPENDED、SUCCEEDED、KILLED、FAILED

SUSPENDED

RUNNING、KILLED

明确上述给出的状态转移空间以后,可以根据实际需要更加灵活地来控制工作流Job的运行。

 

7、控制流节点(相当于抽象顺序,不包含具体内容

工作流程定义中,控制工作流的开始和结束,以及工作流Job的执行路径的节点,它定义了流程的开始(start节点)和结束(end节点或kill节点),同时提供了一种控制流程执行路径的机制(decision决策节点、fork分支节点、join会签节点)。通过上面提到的各种节点,我们大概应该能够知道它们在工作流中起着怎样的作用。下面,我们看一下不同节点的语法格式:

  • start节点

...

...

上面start元素的to属性,指向第一个将要执行的工作流节点。

  • end节点

...

...

达到该节点,工作流Job会变成SUCCEEDED状态,表示成功完成。需要注意的是,一个工作流定义必须只能有一个end节点。

  • kill节点

...

[MESSAGE-TO-LOG]

...

kill元素的name属性,是要杀死的工作流节点的名称,message元素指定了工作流节点被杀死的备注信息。达到该节点,工作流Job会变成状态KILLED。

  • decision节点

...

[PREDICATE]

...

[PREDICATE]

...

decision节点通过预定义一组条件,当工作流Job执行到该节点时,会根据其中的条件进行判断选择,满足条件的路径将被执行。decision节点通过switch…case语法来进行路径选择,只要有满足条件的判断,就会执行对应的路径,如果没有可以配置default元素指向的节点。

  • fork节点和join节点

...

...

...

...

for元素下面会有多个path元素,指定了可以并发执行的多个执行路径。fork中多个并发执行路径会在join节点的位置会合,只有所有的路径都到达后,才会继续执行join节点。

8、动作节点(Action Nodes)

工作流程定义中,能够触发一个计算任务(Computation Task)或者处理任务(Processing Task)执行的节点。

一个动作执行成功会转到ok节点;如果失败转向error节点。

 

  • Map-Reduce动作

map-reduce动作会在工作流Job中启动一个MapReduce Job任务运行,我们可以详细配置这个MapReduce Job。另外,可以通过map-reduce元素的子元素来配置一些其他的任务,如streaming、pipes、file、archive等等。
下面给出包含这些内容的语法格式说明:

...

[JOB-TRACKER]

[NAME-NODE]

...

...

[MAPPER-PROCESS]

[REDUCER-PROCESS]

[RECORD-READER-CLASS]

[NAME=VALUE]

...

[NAME=VALUE]

...

[MAPPER]

[REDUCER]

[INPUTFORMAT]

[PARTITIONER]

[OUTPUTFORMAT]

[EXECUTABLE]

[JOB-XML-FILE]

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[FILE-PATH]

...

[FILE-PATH]

...

...

  • Hive动作

Hive主要是基于类似SQL的HQL语言的,它能够方便地操作HDFS中数据,实现对海量数据的分析工作。HIve动作的语法格式如下所示:

...

[JOB-TRACKER]

[NAME-NODE]

...

...

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[PARAM-VALUE]

...

...

  • Sqoop动作

Sqoop是一个能够在Hadoop和结构化存储系统之间进行数据的导入导出的工具,Sqoop动作的语法格式如下:

...

[JOB-TRACKER]

[NAME-NODE]

...

...

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[SQOOP-COMMAND]

[FILE-PATH]

...

...

  • Pig动作

pig动作可以启动运行pig脚本实现的Job,在工作流定义中配置的语法格式说明如下:

...

[JOB-TRACKER]

[NAME-NODE]

...

...

[JOB-XML-FILE]

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[PARAM-VALUE]

...

[PARAM-VALUE]

[ARGUMENT-VALUE]

...

[ARGUMENT-VALUE]

[FILE-PATH]

...

[FILE-PATH]

...

...

  • Fs动作

Fs动作主要是基于HDFS的一些基本操作,如删除路径、创建路径、移动文件、设置文件全乡等等。
语法格式:

...

...

...

...

...

...

  • SSH动作

该动作主要是通过ssh登录到一台主机,能够执行一组shell命令,它在Oozie schema 0.2中已经被删除。
语法格式:

...

[USER]@[HOST]

[SHELL]

[ARGUMENTS]

...

...

  • Java动作

Java动作,是执行一个具有main入口方法的应用程序,在Oozie工作流定义中,会作为一个MapReduce Job执行,这个Job只有一个Map任务。我们需要指定NameNode、JobTracker的信息,还有配置一个Java应用程序的JVM选项参数(java-opts),以及传给主函数(arg)。
语法格式:

...

[JOB-TRACKER]

[NAME-NODE]

...

...

[JOB-XML]

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[MAIN-CLASS]

[JAVA-STARTUP-OPTS]

ARGUMENT

...

[FILE-PATH]

...

[FILE-PATH]

...

...

  • Sub-workflow动作

Sub-workflow动作是一个子流程的动作,主流程执行过程中,遇到子流程节点执行时,会一直等待子流程节点执行完成后,才能继续跳转到下一个要执行的节点。
语法格式:

...

[WF-APPLICATION-PATH]

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

...

  • Shell动作

Shell动作可以执行Shell命令,并通过配置命令所需要的参数。它的语法格式:

...

[JOB-TRACKER]

[NAME-NODE]

...

...

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[SHELL-COMMAND]

[ARGUMENT-VALUE]

...

二、使用:

1、Oozie目录:(4.3.1版本)

Oozie简介和运行实例_第6张图片

 

主要:

bin:执行命令的

conf: 配置目录

lib:  oozie的相关包

share: 上传到hadoop中需要配合运行oozie的包(上传到hdfs后oozie这里就不需要了)

 

examples : 这个examples是接下来要介绍的 oozie提交mr例子所需要的所有内容

 

  1. Oozie的使用

一:源生(下面以运行一个MR任务为例)

使用Oozie,就先进行源生安装,比较麻烦,需要配置一些东西,其中主要有基本的hdfs、yarn等地址,而且还有hdfs中conf的映射地址,需要上传到hdfs上的oozie的相关jar包和地址映射。

其中主要就是编写job中的配置,来用oozie规定的规范来编写自己的逻辑。

 

二:配合Hue使用

使用方便,直接在上面进行操作即可

  1. 源生运行MR任务为例:

3.1、配置job任务

刚才在oozie目录下,有个exmaples文件夹,已经介绍过了,这就是要运行一个mr任务所需要所有东西,他都由哪些文件组成呢?让我们来看一下:

 

Oozie简介和运行实例_第7张图片

  1. apps:包含配置oozie任务所需要对应的文件
  2. Input-data: 里面是wordcount的一个txt文件
  3. src: mr的java代码

下面主要介绍apps :

Oozie简介和运行实例_第8张图片

图中标注的,即为“一、5 Job组成”中介绍的,三要素:Job.properties、Workflow.xml、Lib

其中:

Job.properties 内容如下:(记录了job的属性(hdfs、yarn地址等基本信息))

Oozie简介和运行实例_第9张图片

 

workflow.xml 内容如下:

定义了mr的任务的流程

Oozie简介和运行实例_第10张图片

Oozie简介和运行实例_第11张图片

Oozie简介和运行实例_第12张图片

这里面主要是运行mr action的内容。

 

lib目录:里面是该例子的jar包

3.2、上传到HDFS对应目录下(该目录映射在conf里有配置)

因为oozie可能没有在hdfs运行的主节点上,所以需要把所需的job配置和jar包等上传到hdfs中。

上传jar包、代码、相应的job配置到HDFS对应的目录下,实例如下。

Oozie简介和运行实例_第13张图片

3.3、启动Oozie

在oozie的安装目录下执行

bin/oozied.sh start

3.4、启动前提

运行oozie任务前,需要先启动hadoop,包括hdfs和yarn等。

注意:还需要启动jobhistory

命令:sbin/mr-jobhistory-daemon.sh start historyserver

3.5、启动mr的Job实例

选好oozie的地址,指定jon.properties启动,命令如下:

bin/oozie job -oozie  http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties -run

 

执行后,会返回一个job的id。

 

然后我们去看一下,oozie的web 界面:

Oozie简介和运行实例_第14张图片

我们点开这个Job,可以查看详情、任务配置、DAG图等信息

Oozie简介和运行实例_第15张图片

Oozie简介和运行实例_第16张图片

 

 

然后我们看hdfs上,有个目录,里面记录了job id的信息,有相应目录,说明提交已经成功。

然后查看输出任务,应该有相应的目录。

Oozie简介和运行实例_第17张图片

至此,demo流程基本上运行完毕~相信大家会有一个清晰的认识了,最后运行还是推荐在HUE上,比较方便。

 

 

你可能感兴趣的:(#,Oozie)