greahuang

OOZIE

Oozie工作流程定义详解

Oozie工作流程定义是一个DAG（Directed Acyclical Graphs）图，它由控制流节点（Control Flow Nodes）或动作节点（Action Nodes）组成，各个节点又是通过表征转移的箭线（transitions
arrows）互相连通。对于工作流一般对应存在流程定义语言，例如jBPM是jPDL，大多数都是基于XML定义的，Oozie流程定义语言也是基于XML定义的，称为hPDL（Hadoop Process Definition Language）。
下面，我们详细说明工作流定义相关的内容：

工作流生命周期

在Oozie中，工作流的状态可能存在如下几种：

状态	含义说明
PREP	一个工作流Job第一次创建将处于PREP状态，表示工作流Job已经定义，但是没有运行。
RUNNING	当一个已经被创建的工作流Job开始执行的时候，就处于RUNNING状态。它不会达到结束状态，只能因为出错而结束，或者被挂起。
SUSPENDED	一个RUNNING状态的工作流Job会变成SUSPENDED状态，而且它会一直处于该状态，除非这个工作流Job被重新开始执行或者被杀死。
SUCCEEDED	当一个RUNNING状态的工作流Job到达了end节点，它就变成了SUCCEEDED最终完成状态。
KILLED	当一个工作流Job处于被创建后的状态，或者处于RUNNING、SUSPENDED状态时，被杀死，则工作流Job的状态变为KILLED状态。
FAILED	当一个工作流Job不可预期的错误失败而终止，就会变成FAILED状态。

上述各种状态存在相应的转移（工作流程因为某些事件，可能从一个状态跳转到另一个状态），其中合法的状态转移有如下几种，如下表所示：

转移前状态	转移后状态集合
未启动	PREP
PREP	RUNNING、KILLED
RUNNING	SUSPENDED、SUCCEEDED、KILLED、FAILED
SUSPENDED	RUNNING、KILLED

明确上述给出的状态转移空间以后，可以根据实际需要更加灵活地来控制工作流Job的运行。

控制流节点（Control Flow Nodes）

工作流程定义中，控制工作流的开始和结束，以及工作流Job的执行路径的节点，它定义了流程的开始（start节点）和结束（end节点或kill节点），同时提供了一种控制流程执行路径的机制（decision决策节点、fork分支节点、join会签节点）。通过上面提到的各种节点，我们大概应该能够知道它们在工作流中起着怎样的作用。下面，我们看一下不同节点的语法格式：

start节点
```
	oozie:workflow:0.1">
		...
		
		...
	
	
```
上面start元素的to属性，指向第一个将要执行的工作流节点。

end节点
```
	oozie:workflow:0.1">
		...
		
		...
	
	
```
达到该节点，工作流Job会变成SUCCEEDED状态，表示成功完成。需要注意的是，一个工作流定义必须只能有一个end节点。

kill节点
```
	oozie:workflow:0.1">
		...
		
			[MESSAGE-TO-LOG]
		
		...
	
	
```
kill元素的name属性，是要杀死的工作流节点的名称，message元素指定了工作流节点被杀死的备注信息。达到该节点，工作流Job会变成状态KILLED。

decision节点
```
	oozie:workflow:0.1">
		...
		
			
				[PREDICATE]
				...
				[PREDICATE]
				
			
		
		...
	
	
```
decision节点通过预定义一组条件，当工作流Job执行到该节点时，会根据其中的条件进行判断选择，满足条件的路径将被执行。decision节点通过switch…case语法来进行路径选择，只要有满足条件的判断，就会执行对应的路径，如果没有可以配置default元素指向的节点。

fork节点和join节点
```
	oozie:workflow:0.1">
		...
		
			
			...
			
		
		...
		
		...
	
	
```
for元素下面会有多个path元素，指定了可以并发执行的多个执行路径。fork中多个并发执行路径会在join节点的位置会合，只有所有的路径都到达后，才会继续执行join节点。

动作节点（Action Nodes）

工作流程定义中，能够触发一个计算任务（Computation Task）或者处理任务（Processing Task）执行的节点。所有的动作（
Action）都有一些基本的特性，我先首先来看一下：

远程执行
对Oozie来说，动作节点的执行都是远程的，因为Oozie可能部署在一个单独的服务器上，而工作流Job是在Hadoop集群的节点上执行的。即使Oozie在Hadoop集群的某个节点上，它也是处于与Hadoop进行独立无关的JVM示例之中（Oozie部署在Servlet容器当中）。

异步性
动作节点的执行，对于Oozie来说是异步的。Oozie启动一个工作流Job，这个工作流Job便开始执行。Oozie可以通过两种方式来探测工作流Job的执行情况：一种是基于回调机制，对每个任务的执行（可以看成是动作节点的执行）都对应一个唯一的URL，如果任务执行结束或者执行失败，会通过回调这个URL通知Oozie已经完成；另一种就是轮询，Oozie不停地去查询任务执行的完成状态，如果由于网络故障回调机制失败，也会使用轮询的方式来处理。

执行结果要么成功，要么失败
如果动作节点执行成功，则会转向ok节点；如果失败则会转向error节点。

可恢复性
如果一个动作节点执行失败，Oozie提供了一些恢复执行的策略，这个要根据失败的特点来进行：如果是状态转移过程中失败，Oozie会根据指定的重试时间间隔去重新执行；如果不是转移性质的失败，则只能通过手工干预来进行恢复；如果重试恢复执行都没有解决问题，则最终会跳转到error节点。

下面详细介绍Oozie内置支持的动作节点类型，如下所示：

Map-Reduce动作

map-reduce动作会在工作流Job中启动一个MapReduce Job任务运行，我们可以详细配置这个MapReduce Job。另外，可以通过map-reduce元素的子元素来配置一些其他的任务，如streaming、pipes、file、archive等等。
下面给出包含这些内容的语法格式说明：

oozie:workflow:0.1">
	...
	
		
			[JOB-TRACKER]
			[NAME-NODE]
			
				
				...
				
				...
			
			
				[MAPPER-PROCESS]
				[REDUCER-PROCESS]
				[RECORD-READER-CLASS]
				[NAME=VALUE]
				...
				[NAME=VALUE]
				...
			
			
			
				[MAPPER]
				
					[REDUCER]
				
					[INPUTFORMAT]
					[PARTITIONER]
					[OUTPUTFORMAT]
					[EXECUTABLE]
			
			[JOB-XML-FILE]
			
				
					[PROPERTY-NAME]
					[PROPERTY-VALUE]
				
				...
			
			[FILE-PATH]
			...
			[FILE-PATH]
			...
		
		
		
	
	...

Hive动作

Hive主要是基于类似SQL的HQL语言的，它能够方便地操作HDFS中数据，实现对海量数据的分析工作。HIve动作的语法格式如下所示：

oozie:workflow:0.2">
	...
	
		oozie:hive-action:0.2">
			[JOB-TRACKER]
			[NAME-NODE]
			
				
				...
				
				...
			
			
				
					[PROPERTY-NAME]
					[PROPERTY-VALUE]
				
				...
			
			
			[PARAM-VALUE]
			...
		
		
		
	
	...

Sqoop动作

Sqoop是一个能够在Hadoop和结构化存储系统之间进行数据的导入导出的工具，Sqoop动作的语法格式如下：

oozie:workflow:0.2">
	...
	
		oozie:sqoop-action:0.2">
			[JOB-TRACKER]
			[NAME-NODE]
			
				
				...
				
				...
			
			
				
					[PROPERTY-NAME]
					[PROPERTY-VALUE]
				
				...
			
			[SQOOP-COMMAND]
			[FILE-PATH]
			...
		
		
		
	
	...

Pig动作

pig动作可以启动运行pig脚本实现的Job，在工作流定义中配置的语法格式说明如下：

oozie:workflow:0.2">
	...
	
		
			[JOB-TRACKER]
			[NAME-NODE]
			
				
				...
				
				...
			
			[JOB-XML-FILE]
			
				
					[PROPERTY-NAME]
					[PROPERTY-VALUE]
				
				...
			
			
			[PARAM-VALUE]
			...
			[PARAM-VALUE]
			[ARGUMENT-VALUE]
			...
			[ARGUMENT-VALUE]
			[FILE-PATH]
			...
			[FILE-PATH]
			...
		
		
		
	
	...

Fs动作

Fs动作主要是基于HDFS的一些基本操作，如删除路径、创建路径、移动文件、设置文件全乡等等。
语法格式：

oozie:workflow:0.1">
	...
	
		
			
			...
			
			...
			
			...
			
			...
			
		
		
		
	
	...

SSH动作

该动作主要是通过ssh登录到一台主机，能够执行一组shell命令，它在Oozie schema 0.2中已经被删除。
语法格式：

oozie:workflow:0.1">
	...
	
		
			[USER]@[HOST]
			[SHELL]
			[ARGUMENTS]
			...
			
		
		
		
	
	...

Java动作

Java动作，是执行一个具有main入口方法的应用程序，在Oozie工作流定义中，会作为一个MapReduce Job执行，这个Job只有一个Map任务。我们需要指定NameNode、JobTracker的信息，还有配置一个Java应用程序的JVM选项参数（java-opts），以及传给主函数（arg）。
语法格式：

oozie:workflow:0.1">
	...
	
		
			[JOB-TRACKER]
			[NAME-NODE]
			
				
				...
				
				...
			
			[JOB-XML]
			
				
					[PROPERTY-NAME]
					[PROPERTY-VALUE]
				
				...
			
			[MAIN-CLASS]
			[JAVA-STARTUP-OPTS]
			ARGUMENT
			...
			[FILE-PATH]
			...
			[FILE-PATH]
			...
			
		
		
		
	
	...

Sub-workflow动作

Sub-workflow动作是一个子流程的动作，主流程执行过程中，遇到子流程节点执行时，会一直等待子流程节点执行完成后，才能继续跳转到下一个要执行的节点。
语法格式：

oozie:workflow:0.1">
	...
	
		
			[WF-APPLICATION-PATH]
			
			
				
					[PROPERTY-NAME]
					[PROPERTY-VALUE]
				
				...
			
		
		
		
	
	...

Shell动作

Shell动作可以执行Shell命令，并通过配置命令所需要的参数。它的语法格式：

oozie:workflow:0.4">
	...
	
		oozie:shell-action:0.2">
			[JOB-TRACKER]
			[NAME-NODE]
			
				
				...
				
				...
			
			
				
					[PROPERTY-NAME]
					[PROPERTY-VALUE]
				
				...
			
			[SHELL-COMMAND]
			[ARGUMENT-VALUE]
			
		
		
		
	
	...

表达式语言函数（Expression Language Functions）

Oozie除了可以使用Properties文件定义一些属性之外，还提供了一些内置的EL函数，能够方便地实现流程的定义和控制，下面我们分组列表说明：

基本EL常量

常量名称	含义说明
KB	1KB，类型为long。
MB	1MB，类型为long。
GB	1GB，类型为long。
TB	1TB，类型为long。
PB	1PB，类型为long。

基本EL函数

函数声明	含义说明
String firstNotNull(String value1, String value2)	返回value1和value2中不为null的值，若都为null则返回null
String concat(String s1, String s2)	连接字符串s1和s2，如果s1或s2为null值，则使用空字符串替换null值
String replaceAll(String src, String regex, String replacement)	满足正则表达式regex，则使用replace替换src字符串中匹配上的部分
String appendAll(String src, String append, String delimeter)	将src中的分隔符delimeter替换为append
String trim(String s)	去掉字符串两边的空格，如果s为null则返回空字符串
String urlEncode(String s)	对字符串s使用URL UTF-8进行编码
String timestamp()	返回UTC当前时间字符串，格式为YYYY-MM-DDThh:mm:ss.sZ
String toJsonStr(Map)	Oozie 3.3支持，将Map转转成一个XML编码的JSON表示形式
String toPropertiesStr(Map)	Oozie 3.3支持，将Map转转成一个XML编码的Properties表示形式
String toConfigurationStr(Map)	Oozie 3.3支持，将Map转转成一个XML编码的Configuration表示形式

工作流EL函数

函数声明	含义说明
String wf:id()	返回当前的工作流Job的ID
String wf:name()	返回当前的工作流Job的名称
String wf:appPath()	返回当前的工作流Job的应用路径
String wf:conf(String name)	返回当前的工作流Job的配置属性
String wf:user()	返回启动当前的工作流Job的用户名称
String wf:group()	返回当前的工作流Job的的用户组名称
String wf:callback(String stateVar)	返回当前的工作流Job的当前动作节点的回调URL
String wf:transition(String node)	返回转移节点，该节点是一个工作流动作节点触发的
String wf:lastErrorNode()	返回最后一个以ERROR状态退出的节点名称
String wf:errorCode(String node)	返回指定动作节点执行的错误码，如果没有则返回空
String wf:errorMessage(String message)	返回指定动作节点执行的错误信息，如果没有则返回空
int wf:run()	返回当前工作流Job的运行编号，正常的话返回0，如果执行过re-run则返回非0
Map wf:actionData(String node)	返回当前动作节点完成时输出的信息
int wf:actionExternalId(String node)	返回动作节点的外部ID
int wf:actionTrackerUri(String node)	返回跟踪一个动作节点的URI
int wf:actionExternalStatus(String node)	返回一个动作节点的状态

Hadoop EL常量

常量名称	含义说明
RECORDS	Hadoop Record计数器组名称
MAP_IN	Hadoop Mapper输入Record计数器名称
MAP_OUT	Hadoop Mapper输出Record计数器名称
REDUCE_IN	Hadoop Reducer输入Record计数器名称
REDUCE_OUT	HadoopReducer输出Record计数器名称
GROUPS	1024 * Hadoop Mapper/Reducer输入Record组计数器名称

Hadoop EL函数

函数声明

含义说明

Map < String, Map > hadoop:counters(String node)

返回工作流Job某个动作节点的统计计数器信息，例如，MR的动作统计集合内容：
{
“ACTION_TYPE”: “MAP_REDUCE”,
“org.apache.hadoop.mapred.JobInProgress$Counter”: {
“TOTAL_LAUNCHED_REDUCES”: 1,
“TOTAL_LAUNCHED_MAPS”: 1,
“DATA_LOCAL_MAPS”: 1
},
“FileSystemCounters”: {
“FILE_BYTES_READ”: 1746,
“HDFS_BYTES_READ”: 1409,
“FILE_BYTES_WRITTEN”: 3524,
“HDFS_BYTES_WRITTEN”: 1547
},
“org.apache.hadoop.mapred.Task$Counter”: {
“REDUCE_INPUT_GROUPS”: 33,
“COMBINE_OUTPUT_RECORDS”: 0,
“MAP_INPUT_RECORDS”: 33,
“REDUCE_SHUFFLE_BYTES”: 0,
“REDUCE_OUTPUT_RECORDS”: 33,
“SPILLED_RECORDS”: 66,
“MAP_OUTPUT_BYTES”: 1674,
“MAP_INPUT_BYTES”: 1409,
“MAP_OUTPUT_RECORDS”: 33,
“COMBINE_INPUT_RECORDS”: 0,
“REDUCE_INPUT_RECORDS”: 33
}
}
则${hadoop:counters(“mr-node”)["FileSystemCounters"]["FILE_BYTES_READ"]}，得到名称为mr-node的动作节点组的FILE_BYTES_READ计数器的值

HDFS EL函数

选项	含义说明
boolean fs:exists(String path)	path是否存在
boolean fs:isDir(String path)	path是否是目录
long fs:dirSize(String path)	如果path不是目录或者path是一个文件，则返回-1，否则返回该path下所有文件的字节数
long fs:fileSize(String path)	如果path是目录，则返回-1，否则返回该path下所有文件的字节数
long fs:blockSize(String path)	如果path不是文件或者不存在则返回-1，否则返回文件的块大小字节数

Oozie Bundle 规范 weixin_34075268
为什么80%的码农都做不了架构师？>>>文档地址转载于:https://my.oschina.net/sskxyz/blog/756359
1.25-1.26 Coordinator数据集和oozie bundle weixin_30851867
一、Coordinator数据集二、ooziebundle转载于:https://www.cnblogs.com/weiyiming007/p/10881260.html
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
任务调度-Oozie的安装 neo_ng
Oozie的安装(0)前提条件:maven3.5.0Mysql5.7.19-0ubuntu0.16.04.1tomcat7.0.79sudoaptinstallmaven(1)编译在本地执行4.3版本才支持jdk1.8在根目录的pom.xml中修改组建的版本./mkdistro.sh-DskipTests//执行编译脚本成功:Ooziedistrocreated,DATE[2017.11.14-0
详解Linux运维工程师高级篇（大数据安全方向）. weixin_30588729 运维操作系统 java
hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry简介：从运维青铜到运维白银再到运维黄金，这里就要牵扯到方向问题也就是装备，根据自己的爱好，每个人都应该选择一个适合自己和喜欢自己的一个职业技术方向，如：大数据安全，开发运维，云计算运维等
[CDH5] Oozie web console is disabled 问题解决尼小摩
CDH5安装完成以后OozieWebUI点开显示Ooziewebconsoleisdisabled.问题解决：下载ExtJS2.2:下载地址：http://archive.cloudera.com/gplextras/misc/ext-2.2.zip上传到服务器并解压[root@hadoop1libext]#cd/opt/cloudera/parcels/CDH/lib/oozie/libext/
Flink（十三）【Flink SQL（上）】让线程再跑一会 Flink flink 大数据
前言最近在假期实训，但是实在水的不行，三天要学完SSM，实在一言难尽，浪费那时间干什么呢。SSM之前学了一半，等后面忙完了，再去好好重学一遍，毕竟这玩意真是面试必会的东西。今天开始学习Flink最后一部分FlinkSQL，完了还有不少框架得学：Kafka、Flume、ClickHouse、Hudi、Azkaban、OOzie...有的算是小工具，不费劲，但是学完得复习啊，这么多东西，必须赶紧做个小
项目实战-知行教育大数据分析平台-01 吆喝的翅膀 python+大数据学习数据仓库教育电商 hive hadoop cloudera
目录一、业务流程二、项目架构流程三、clouderamanager（CM）基本介绍四、项目环境搭建五、维度分析六、数仓建模1、维度建模2、什么是事实表与维度表3、事实表与维度表的分类4、维度建模的三种模型5、缓慢渐变维七、本项目数仓架构八、HUE的使用九、自动化调度工具介绍十、通过HUE操作oozie本文将利用前面所学的Linux，Hadoop，Hive等大数据技术，从企业级角度，开发一个涵盖需求
大数据调度框架Oozie，这个学习网站让你事半功倍！知识分享小能手大数据学习心得体会大数据学习任务调度
Oozie是一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache。它主要用于管理和调度ApacheHadoop作业，支持的任务类型包括HadoopMapReduce、PigJobs等。Oozie的核心概念包括workflowjobs和coordinatorjobs。Workflowjobs是由多个动作（actions）组成的有向无环图（DAG），即任务按照预定的逻辑顺序一步步执行
Oozie WorkFlow中Shell Action使用案例明明德撩码
cp-rexamples/apps/shelloozie-apps/mvshellshell-hive-selecttouchstudent-select.sh#!/usr/bin/envbash+##studentselect/opt/cdh5.3.6/hive-0.13.1-cdh5.3.6/bin/hive-fstudent-select.sqlvistudent-select.sqlins
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转) 我爱大海V5 Hadoop hadoop
目录[-]（一）hadoop相关安装部署（二）hive（三）pig（四）hadoop原理与编码（五）数据仓库与挖掘（六）Oozie工作流（七）HBase（八）flume（九）sqoop（十）ZooKeeper（十一）NOSQL（十二）Hadoop监控与管理（十三）Storm（十四）YARN&Hadoop2.0附：（一）hadoop相关安装部署1、hadoop在windowscygwin下的部署：h
调度工具之dolphinscheduler篇以茉萱大数据运维开发
前言随着开发程序的增多，任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题，随时少量的任务可以用linux系统自带的crontab加以定时进行，但缺点也很明细，不够直观，以及修改起来比较麻烦，容易出错，这时候就需要调度工具来帮忙，不知道大家都接触过哪些调度工具，我这边接触过airflow、oozie、Kyligence，但今天我想推荐的调度工具是dolphinscheduler，下面就从安
Flink快速入门 WaiSaa Java 大数据 flink 大数据
1、大数据处理框架发展史大数据-3v-tpezy-分而治之批处理流处理-微信运动、信用卡月度账单、国家季度GDP增速MPI-节点间数据通信-c和pythonMR-2004谷歌提出的编程范式-hadoop/storm/spark/flinkHadoop-MR、HDFS、YARN(hive/pig/hbase/oozie)StormSpark-cache/lineage-DAG/多线程池模型Flink
大数据技术之Oozie 星川皆无恙大数据系统运维大数据 java 数据仓库架构 sql
大数据技术之Oozie第1章Oozie简介Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。第2章Oozie的功能模块介绍2.1模块Workflow顺序执行流程节点，支
数据治理之定时调度和血缘关系十七✧ᐦ̤ 大数据 spring boot java
SpringBoot定时调度在applicaiton类上加注解@EnableScheuling创建调度包scheduler创建一个考评类调度类AssessScheduler创建exec()方法，添加注解@Scheduled(cron=“******”)分表代表秒，分，时，日，月，星期0/5,*****,代表每5秒执行一次调度工具大数据：oozie,Azkaban，任务众多，流程复杂，配置复杂jav
大数据集群报错集锦及解决方案陈舟的舟大数据大数据
文章目录前言1Hadoop1.1Yarn上执行MR计算报错空指针1.2NameNode启动失败2Hive2.1Hive数据量过大3Kafka3.1Kafka集群部分机器起不来4Azkaban4.1Azkaban页面登陆乱码5Oozie5.1Oozie初始化失败5.2脚本修改之后Oozie任务执行失败6Kerberos6.1启用Kerberos之后，hdfs浏览器打开鉴权失败7Spark7.1Spa
工作流调度工具Airflow1.8搭建及使用 weixin_34195142 数据库 shell python
编写目的最近工作任务需要把原来使用Kettle的ETL流程迁移到Hadoop平台上，就需要找一个替代Kettle工作流部分的工具。在大数据环境下，常用的无非是Oozie，Airflow或者Azkaban。经过简单的评估之后，我们选择了轻量化的Airflow作为我们的工作流工具。Airflow是一个工作流分配管理系统，通过有向非循环图的方式管理任务流程，设置任务依赖关系和时间调度。Airflow独立
大数据工作流_【大数据开发】OOZIE的工作流调度及功能架构（一） weixin_39918682 大数据工作流
OOZIE工作流调度及功能架构(一)Ⅰ常见的几个工作流调度框架Ⅱoozie的功能架构常见的几个工作流调度框架什么是工作流？常见的JBMP(工作流调度框架)：1.Crontab：详情见新闻网关指标张景宇，公众号：数据信息化【大数据开发】Hive的高级应用之新闻网关键指标统计(九)2.Azkaban3.Oozie+Hue4.Zeusoozie的功能架构1)Oozie是一个用于管理ApacheHadoo
大数据Oozie任务调度赵广陆 bigdata java 大数据 es
目录1Oozie概述2Oozie的架构3Oozie基本原理3.1流程节点4Oozie工作流类型4.1WorkFlow4.2Coordinator4.3Bundle5Oozie和Hue整合5.1修改hue配置文件hue.ini5.2启动hue、oozie5.3Hue集成Oozie5.3.1使用hue配置oozie调度5.3.2利用hue调度shell脚本5.3.3利用hue调度hive脚本5.3.4
大数据工作流调度 zhixingheyi_tian spark spark
DolphinScheduler在大数据领域,DolphinScheduler对标的开源产品是oozie、Azkaban、Airflow.参考链接：https://zhuanlan.zhihu.com/p/558709297
大数据博文列表羽落风起大数据 kafka flink hadoop
文章目录说明分享大数据简述搭建hadoop平台单机版集群版安装优化组件hadoophdfsyarnflinkHbaseElasticsearchkafkasparkhiveoozie其他vmwaredocker说明本文列举已有的大数据相关博文清单，方便查看阅读。分享个人java工具库项目https://gitee.com/wangzonghui/object-tool包含json、string、集
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler) 王知无(import_bigdata) 分布式大数据 python java 编程语言
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜八股文交给我，你们专心刷题和面试Hi，我是王知无，一个大数据领域的原创作者。放心关注我，获取更多行业的一手消息。大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结，结合目前阿里云上的MaxCompute中的调度系统，做个对比。OozieOozie是一个workflow(工作流)协调系
flink学习（一） Daivei_lai flink flink
前言：之前学习flink时没有系统性的复习，现在不多BB就是为了复习flink（从头再来）1.1flink的引入计算引擎分为几代有些争议，这里我选择的是四代第一代计算引擎，MapReduce（首先第一代的计算引擎，无疑就是Hadoop承载的MapReduce，它将计算分为两个阶段，分别为Map和Reduce）第二代计算引擎，tez+Oozie（特点：批处理1个Tez=MR(1)+MR(2)+…+M
Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优) weixin_33856370 大数据 ldap 运维
1.课程环境本课程涉及的技术产品及相关版本：技术版本LinuxCentOS6.5Java1.7Hadoop2.02.6.0Hadoop1.01.2.1Zookeeper3.4.6CDHHadoop5.3.0Vmware10Hive0.13.1HBase0.98.6Impala2.1.0Oozie4.0.0Hue3.7.02.内容简介本教程针对有一定Hadoop基础的学员，深入讲解如下方面的内容：1
oozie的url没有界面小小毛同学
原因是：少了一个Ext-2.2.zip文件。需要下载这个文件，然后解压到oozie的lib下面文件（不能上传文件，只能私聊发给你，或是微信发给你maochentingqiang）图片发自App
【大数据】Hadoop 生态系统及其组件 G皮T #Hadoop hadoop big data 大数据 hdfs hive mapreduce yarn
Hadoop生态系统及其组件1.Hadoop生态系统的组成2.Hadoop生态系统简介2.1HDFS2.2MapReduce2.3YARN2.4Hive2.5Pig2.6HBase2.7HCatalog2.8Avro2.9Thrift2.10Drill2.11Mahout2.12Sqoop2.13Flume2.14Ambari2.15Zookeeper2.16Oozie1.Hadoop生态系统的组
那些在CDH5中是bug，到了CDH6版本就修复了的问题 ClouderaHadoop Cloudera impala hdfs 大数据 hadoop spark
盘点那些在CDH5中是bug，到了CDH6版本就修复了的问题。涉及到Hadoop、HDFS、YARN、HBASE、hive、hue、impala、kudu、oozie、solr、spark、kafka、parquet、zookeeper等组件。如果你的集群问题是被列出的这些，那么升级是可以解决问题的。列出的只是部分的一百多个问题，Cloudera今年年底会停止CDH5的支持，对于CDH5的用户来说
Hive数仓项目之数仓分层、数仓工具的使用黑马程序员官方数据仓库大数据 python
往期内容：Hive数仓项目架构说明、环境搭建及数据仓库基础知识今日内容:1)教育项目数仓分层(知道,明确每一层的作用)2)数仓工具的相关的使用(操作)2.1HUE相关的使用(操作HDFSHIVE,OOZIE)2.2sqoop的基本使用操作访问咨询主题看板实操3.1需求分析(务必掌握--最好能够自己分析的出来,如果不行,先理解掉)3.2建模分析(务必掌握--最好能够自己分析的出来,如果不行,先理解掉
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

OOZIE

Oozie工作流程定义详解

你可能感兴趣的:(OOZIE)