Mapredce应用开发

管理配置:假设目录conf包含三个配置文件:hadoop-local.xml,hadoop-localhost.xml和hadoop-cluster.xml。

hadoop-local.xml包含默认的Hadoop配置。

hadoop-localhost.xml文件中的设置指向本地主机运行的namenode和YARN资源管理器

hadoop-cluster.xml文件包含集群上namenode和YARN资源管理器地址的详细信息

关于JobControl
有向无环图。JobControl的实例表示一个作业的运行图,你可以加入作业配置,然后告知JobControl实例作业之间的依赖关系。在一个线程中运行JobControl时,它将按照依赖顺序来执行这些作业。也可以查看进程,在作业结束后,可以查询作业的所有状态和每个失败相关的错误信息。如果一个作业失败,JobControl将不执行与之有依赖关系的后续作业。

Apache Oozie
Apache Oozie是一个运行工作流的系统,该工作流由相互依赖的作业组成。Oozie由两部分组成:一个工作流引擎,负责存储和运行由不同类型的Hadoop作业组成的工作流;一个coordinator引擎,负责基于预定义的调度策略及数据可用性运行工作流作业。Oozie的设计考虑到了可扩展性,能够管理Hadoop集群中数千工作流的及时运行,每个工作流的组成作业都可能有好几十个。

不同于在客户端运行并提交作业的JobControl,Oozie作为服务器运行,客户端提交一个立即或稍后执行的工作流定义到服务器。在Oozie中,工作流是一个由动作节点和控制流节点组成的DAG(有向无环图)。

控制流节点通过构建条件逻辑或并行执行来管理活动之间的工作流执行情况。当工作流结束时,Oozie通过发送一个HTTP的回调向客户端通知工作流的状态。

每个工作流都必须有一个start节点和一个end节点。当工作流作业开始是,它转移到有start节点制定的节点上。当一个工作流作业转移到end节点时,就意味着它成功完成了。然而,如果一个工作流作业转移到kill节点,那么就认为失败了并且报告在工作流定义中的message元素指定的错误消息。

这个工作流定位文件的大部分都是指定map-reduce动作。前两个元素用于指定提交作业的YARN资源管理器和输入输出数据的namenode。两者都被参数化,使得工作流定义不受限于特定的集群,更有利于测试,这些参数在提交时指定为工作流属性。

你可能感兴趣的:(大数据)