Kettle与Hadoop(八)执行Oozie作业

1. 打开PDI,新建一个作业,如图1所示。

图1

2. 编辑'Oozie job executor'作业项,如图2所示。

Kettle与Hadoop(八)执行Oozie作业_第1张图片 图2

        说明:

  • CDH631是已经建好的Hadoop集群连接,参见“https://wxy0327.blog.csdn.net/article/details/106406702#%E4%BA%8C%E3%80%81%E8%BF%9E%E6%8E%A5Hadoop%E9%9B%86%E7%BE%A4”。
  • 'Enable Blocking'选项将阻止转换的其余部分执行,直到选中Oozie作业完成为止。
  • 'Polling Interval(ms)'设置间检查Oozie工作流的时间间隔。
  • 'Workflow Properties'设置工作流属性文件。此路径是必需的,并且必须是有效的作业属性文件。

        /root/big_data/job.properties文件的内容如下:

nameNode=hdfs://manager:8020  
jobTracker=manager:8032  
queueName=default  
oozie.use.system.libpath=true  
oozie.wf.application.path=${nameNode}/user/${user.name}

        各属性的含义,以及工作流功能、工作流文件的创建参见“https://blog.csdn.net/wzy0623/article/details/51880687”。DAG如图3所示。

Kettle与Hadoop(八)执行Oozie作业_第2张图片 图3

3. 保存并执行作业,日志如下所示。

2020/06/09 09:48:43 - Spoon - Starting job...
2020/06/09 09:48:43 - Oozie - Start of job execution
2020/06/09 09:48:43 - Oozie - Starting entry [Oozie job executor]
2020/06/09 09:51:47 - Oozie - Finished job entry [Oozie job executor] (result=[true])
2020/06/09 09:51:47 - Oozie - Job execution finished
2020/06/09 09:51:47 - Spoon - Job has ended.

        在Oozie Web Console可以查看工作流执行进度和结果,如图4所示。

Kettle与Hadoop(八)执行Oozie作业_第3张图片 图4

        参考:Oozie Job Executor

你可能感兴趣的:(Kettle与Hadoop(八)执行Oozie作业)