CDH Oozie 安装,使用,优化小技巧

前言

突然想用oozie管理任务就安装了一个,把一些东西记录下来。在这之前的cdh我没有写,话不多说开干。

介绍

Oozie是一个基于工作流引擎的服务器,可以在上面运行Hadoop的Map Reduce和Pig任务。它其实就是一个运行在Java Servlet容器(比如Tomcat)中的Javas Web应用。

对于Oozie来说,工作流就是一系列的操作(比如Hadoop的MR,以及Pig的任务),这些操作通过有向无环图的机制控制。这种控制依赖是说,一个操作的输入依赖于前一个任务的输出,只有前一个操作完全完成后,才能开始第二个。

Oozie工作流通过hPDL定义(hPDL是一种XML的流程定义语言)。工作流操作通过远程系统启动任务。当任务完成后,远程系统会进行回调来通知任务已经结束,然后再开始下一个操作。

Oozie工作流包含控制流节点以及操作节点

控制流节点定义了工作流的开始和结束(start,end以及fail的节点),并控制工作流执行路径(decision,fork,join节点)。操作节点是工作流触发计算\处理任务的执行,Oozie支持不同的任务类型——hadoop map reduce任务,hdfs,Pig,SSH,eMail,Oozie子工作流等等。Oozie可以自定义扩展任务类型。

Oozie工作流可以参数化的方式执行(使用变量${inputDir}定义)。当提交工作流任务的时候就需要同时提供参数。如果参数合适的话(使用不同的目录)就可以定义并行的工作流任务。

1,安装

这个安装还是很简单的只要把mysql数据库驱动包拷贝到安装oozie服务的机器上的/var/lib/oozie 目录下,即可!
还有就是注意要安装在有spark的机器上,然后点击继续就安装好了。
cdh安装完了之后会出现
CDH Oozie 安装,使用,优化小技巧_第1张图片
补充:oozie页面的配置
CDH刚配置好的时候,oozie页面会报错:
Oozie web console is disabled.
To enable Oozie web console install the Ext JS library.
Refer to Oozie Quick Start documentation for details.

安装这个操作即可:
http://archive.cloudera.com/gplextras/misc/
下载
mv ext-2.2.zip /var/lib/oozie/
cd /var/lib/oozie
unzip ext-2.2.zip
chown -R oozie:oozie ext-2.2

刷新页面:http://192.168.1.207:11000/oozie/
果然ok了!

使用

弄好之后
需要将 jar 包放到hdfs上 然后执行
oozie job -oozie http://ip:11000/oozie/ -config /user/example/examples/apps/map-reduce/job.properties -run
job.properties 也在hdfs上
可以去官网了解详细

你可能感兴趣的:(oozie)