infoq hadoop oozie 简介 学习笔记

1 功能:将多个Map/Reduce job或pig job组成一个整体,完成一个更大的任务。


2 oozie是java应用程序,需要一个servlet容器运行载体。


3 需要一个数据库支持,数据库保存流程定义和流程实例数据(流程状态、流程变量)。


4 流程模型的数据结构为有向无环图。


5 流程定义标准为自定义的hpdl。


6 hdpl非常简洁,分为流程控制(决定流程的路径怎么走,像编程语言中的顺序、if、while关键字)和动作(执行具体的hadoop作业)两种节点。


7 动作(action)节点支持Hadoop map-reduce, Hadoop file system, Pig, Java 和Oozie sub-workflow五种动作(SSH action is removed from Oozie schema 0.2)。


8  在oozie中动作(action)节点起触发作用,被触发的作业由Hadoop Map/Reduce framework执行。


9  由于oozie中的被触发的任务执行方式是异步的,所以oozie中需要有回调(给任务一个回调url)和轮询两种方式获取任务执行结果,推进流程的执行。


10 在oozie流程定义中可设置参数,调用时必须设置参数值。


11 oozie由客户端和服务器两个组件构成。


12  Map/Reduce jobs在oozie有两种调用方式:一种是在动作(action)节点直接设置Mapper和Reducer类;第二种是在设置一个普通java类,在java类中调用hadoop api。

你可能感兴趣的:(infoq hadoop oozie 简介 学习笔记)