一头大菜鸟

Oozie和Azkaban的技术选型和对比

一．Azkaban和Oozie的工作流程

1.1 Azkaban工作流程

Azkaban将需要操作的信息打包成zip文件发送给Server端，Server对用户的信息进行存储。用户在Web UI 或者通过HTTP Client发送操作请求后，Server会根据用户定义的*.job文件（KV 匹配），执行zip包中的Jar文件。

源码的执行过程：

1.从Web页面提交工作流程：

Method.GET

/executor?projectId=33&project=testSpark&ajax=executeFlow&flow=test1&disabled=%5B%5D&failureEmailsOverride=false&successEmailsOverride=false&failureAction=finishCurrent&failureEmails=&successEmails=¬ifyFailureFirst=false¬ifyFailureLast=false&concurrentOption=ignore

用户提交任务后，发送任务的详情到服务器中，Azkaban客户端会对任务以及用户的信息进行校验，封装后首先将执行的信息（任务，时间，用户等）存入数据库中（表active_executing_flows），之后执行dispatch方法，对需要执行的任务流进行调度。

在dispatch方法中，首先会更新executions_flows表，然后将操作的语句发送到指定的ip和端口进行执行。

2.服务器接收到了请求：如果是执行操作那么接收到的action的type为execute。接着服务器会从数据库中获取相应的工作流flow，服务器将flow封装成FlowRunner。

FlowRunner的属性

ExecutorService	线程池对象
ExecId	从数据库中获取相应的flow
numJobThreads	默认10个线程
JobTypeManager	定义Job的插件，有以下几种插件
Set	将有向无环图中的node抽象成一个JobRunner进行运行

其中任务的执行是使用一个递归操作runReadyJob()，循环操作其中的node，也就是每个JobRunner。

JobRunner的主要属性：

Job	执行任务的父类接口。
JobtypeManager	根据输入的type类型返回此节点需要执行的任务类型
JobId	唯一标识符
配置文件，Job的路径，监控FlowWatch.....

其中会根据需要操作的Flow来定义Job的type。返回相应的类型。例如MR 返回的是JavaProcessJob。

也就是说：每一个节点，是通过新建一个进程去运行。在这个进程中会执行多条command，通过process.run()，运行用户定义的job。

PS.每条command都需要重新建立一个process。

1.2 Oozie工作流程

在Oozie中，用户需要准备以下文件：

Job.properties	Job文件存储HDFS，ResourceManager的配置
Workflow.xml	配置每个节点之间的依赖关系
Lib	存放着指定运行jar的关联包
.jar	运行的jar包

用户需要将这些文件放置在一个文件夹下，然后上传至HDFS中。在客户端或者终端中发送请求去执行。

源码执行流程：

使用控制行操作：

1.首先调用：org.apache.oozie.cli.OozieCLI。首先根据不同的command类型调用不同的发送请求，例如使用MRCommand

在这个方法中会生成一个Client去Submit指定的Properties（根据Client和Command生成）。提交的对象是HTTPJobSubmit。调用该对象中的call方法和Server进行通信。最终返回一个jobId。METHOD.POST

2.服务器端：首先调用相应的Servlet，调用提交作业方法，生成一个DAG图（DAGEngine，然后所有的操作都是基于DAG来实现的）。

A.如果我们在提交一个作业时生成了jobType那么，此时会选定不同的提交类型（类似于一个工厂模式），返回指定的信息。

B.首先它会调用SubmitXCommand.call()方法，将job的信息加入数据库中并且返回一个jobId。

C.之后执行start(jobId)的方法，调用Xcommand.call()方法，生意Instrument对任务进行监控，在这个方法中会调用一个SignalXCommand.execute()方法。

在Oozie的后端中会维护一个异步队列，在上述的execute中会根据job中的每一个action的类型，去生成相应的Command加入异步队列中。类型如下：

skipAction	SignXcommand
startAction	ActionStartXCommand
ForkAction	ActionStartXCommand 和上面的jobType不同

类似还有killActionXCommand，workflowNotifyActionXCommand等

PS如果是MR 或者 Spark 映射ActionStartXCommand 类型。

D.在后端异步队列CallableQueueService中。（在这个方法中使用Instrument对Java进行进行监控）。会调用这些XCommand的execute方法，不同的类型会实例化不同的executor，例如MR 和 Spark都会实例化JavaActionExecutor（同时还有SubWorkflowActionExecutor执行提交任务）。

E.在上述对象的execute方法中会根据配置生成JobClient，来获取正在运行的Running Job的信息以及提交Job SubmitJob，返回一个jobId。如果获取正在运行的runningJob在这个对象中还有job.trackerUrl也就是任务的日志。可以供以后展示。

测试用例提交流程：

看测试用例提交Hadoop作业中，首先对连接进行验证，然后每次提交会生成一个JobClient，该Oozie作为一个Client给Hadoop服务器发送操作job的请求。

其中操作hive hadoop spark 作业均是JavaActionExecutor，该执行器中会调用submitLauncher提交Hadoop作业。

1.3 小结

Azkaban的工作流运行是依靠操作进程来提交不同的命令的，它操作任务成功和失败的信息在于进程的相应，但是这并不能有效的管理任务的成功与失败。

Oozie 执行MR 任务是依靠Hadoop的Jar包，以Server作为Client发送请求至集群进行操作。在此之前需要将任务所依赖执行的jar包上传至HDFS中才可执行。

通过了解Oozie和Azkaban的执行过程，个人任务使用Oozie作为底层的流程引擎比较合适，因为通过JobClient可以有效的监控正在执行的任务，获取任务的信息，如果使用Azkaban则只能获取进程执行的详情。

二．workflow.xml配置工作流流程

在Oozie中每个工作流有不同的状态，具体如下：

PERP	工作流已经被定义但是没有执行
RUNNING	当一个工作流开始执行。它不会达到结束的状态只会出错结束或者挂起
SUSPENDED	工作流给挂起状态从RUNNING状态过来
SUCCESSED	工作流到达END节点
KILLED	工作流处于RUNNING或SUSPENDED状态被杀死
FAILED	工作流遇到错误停止

工作流节点有以下几种类型：

控制流节点：控制工作流开始和结束以及控制执行的路径

Start	<start to="[NODE-NAME]" /> 第一个执行的节点
End	<end name="[NODE-NAME]" /> 执行到该节点任务成功，一个工作流只能有一个end
Kill	<kill name="[NODE-NAME]"> <message>[MESSAGE-TO-LOG]message> kill> 被杀死节点的名称和备注，达到该节点时，任务状态为KILLED
Decision	<decision name="[NODE-NAME]"> <switch> <case to="[NODE_NAME]">[PREDICATE]case> <default to="[NODE_NAME]" /> switch> decision> 工作流执行到此处时会根据条件进行判断，满足条件的路径将被执行
Fork	<fork name="[FORK-NODE-NAME]"> <path start="[NODE-NAME]" />... fork> 多个并发路径
Join	<join name="[JOIN-NODE-NAME]" to="[NODE-NAME]" /> Fork的多条路径会在Join处汇合，只有所有路径都到了，才会执行join.

动作类型节点：能够触发一个计算任务或者处理任务执行的节点。该类节点有以下的基本特性：

1.异步：Oozie会启动一个异步队列来执行某个工作流job，并通过回调机制以及轮询来获取任务的执行状态.

2.节点要么成功要么失败。

3.一个任务如果在某个节点失败了，那么Oozie提供一套恢复运行的策略，如果是状态转移失败，那么自动运行，否则需手动运行。

动作类节点主要有以下几大类：

MR	<action name="[NODE-NAME]"> <map-reduce>...启动一个MRJOB的执行，并且可以配置其中的其他任务，如streaming,pipes,file,archive
Hive	<hive xmlns="uri:oozie:hive-action:0.2"> <script>[HIVE-SCRIPT]script> <param>[PARAM-VALUE]param> 执行hive查询sql
Sqoop	<sqoop xmlns="uri:oozie:sqoop-action:0.2">
Pig	启动脚本实现Job
Fs	<fs> <delete path='[PATH]' /> <mkdir path='[PATH]' /> <move source='[SOURCE-PATH]' target='[TARGET-PATH]' /> .... fs> 操作HDFS
Java	在Oozie中Java是有main方法执行的程序，他在服务器中以MR Job进行执行，这个Job只有一个Map程序，需要执行 namenode,jobTracker以及JVM和传输给主函数的参数
Sub-workflow	子流程动作，主流程执行过程中，遇到子流程点执行时，会一直等到子流程执行完后才跳转到下一个要执行的节点。
Shell	<shell xmlns="uri:oozie:shell-action:0.2"> <exec>[SHELL-COMMAND]exec> <argument>[ARGUMENT-VALUE]argument> 执行shell语句

三．Oozie根据xml执行job

3.1新建workflow

可以根据hue中的方法进行新建，重写hue中的editor/workflow/new方法，不过得将python转java。

3.2执行workflow

参考oozie中的提交作业的流程，看下操作的主要对象的属性信息：

WorkflowJobBean

startTimestamp	开始时间
endTimestamp	结束时间
app_path	jar包位置
Conf	配置文件的信息BLOB二进制大文件
Actions	List 一系列的执行节点
等等。。

这个是一个任务的基本属性，主要包含了一堆actions节点和conf配置文件。在提交代码的过程中，以MR 作业为例：

首先，在提交的过程中，会将用户的任务信息封装成一个workFlowJob以及workflowInstance（job的状态，执行路径等）并判断job的行为状态。

然后，对这个Job中的每个action进行遍历，判断action属于哪种类型，然后放入后端的异步队列中。

异步队列会执行其中每一个action，执行时生成一个executor，这个执行器在操作的过程中会根据每一个action的xml文件生成org.apache.hadoop.conf.configuration actionConfig对象，循环遍历每个action的节点xml映射去填充这个对象的属性。

最终根据actionConf生成一个jobClient，发送用户的请求。

四．如何运行Spark作业

4.1 Oozie

在Oozie中对spark作业的执行有其自定义的一套执行器----sparkActionExecutor，这个执行器继承了JavaActionExecutor。

在这个执行器中，主要作用是定义好spark作业的配置信息以及在生成Client的时候定义的Configuration actionConfig对象的初始化。

也就是说，spark对象会根据不同的配置初始化相应的JobClient用于发送spark任务jar包，其具体的流程和HadoopActionExecutor相似，都是调用JavaActionExecutor的execute()方法。

4.2 Azkaban

Azkaban的底层是将命令封装成一个进程进行执行，在这个过程中我们可以自定义相关命令。发送jar包进行执行。

4.3 小结

如果从操作的角度上来说，那么Azkaban直接上传jar包然后执行，其过程更为简易，并且用户操作相对于Oozie来说更为简单，困难在于，不能直接将所需要操作的shell语句编写入口提供给用户。需要根据WEB UI的返回值，生成操作命令。

Oozie的配置相对于复杂，但是它已经提供了一套相对于比较完整的WEB 页面接口以及HUE中配置workflow.xml的代码。困难点在于将用户编写的操作流程以xml形式形象的展示出来。

五．Oozie和Azkaban如何判断任务是否完成

5.1 Oozie判断任务是否完成

如果任务正在运行的过程中，那么当前这个任务会被存储在数据库中，并且状态标记为RUNNING。当任务在执行的过程中，如果不出错且不出现挂起的状态，则任务状态不会变化。

当任务操作结束后（无论错误还是成功执行完成），Oozie会操作回调接口，具体操作流程如下：

1.生成CompletedActionXCommand，封装当前action的信息。

2.在这个对象的execute方法中，如果当前action的状态为PREP，则将继续轮询，会将轮询的命令加入执行的异步队列中，并设置相应的延时执行。

3.如果任务正处于RUNNING中，那么会在异步队列中加入ActionCheckXCommand对象，在这其中例如使用MR，则会生成JavaActionExecutor 类型的执行器。

4.执行这个执行器中的check方法。根据jobId生成jobClient获取HADOOP中正在运行的RUNNING JOB 。

5.如果job.isComplete()，会判断任务是否结束。结束是否运行成功，有相应接口。（判断成功与否包括org.apache.hadoop.mapred.Counters）代码位于：

/oozie/action/hadoop/LauncherMapperHelper/isMainSucessful。成功返回SUCCESSED，失败FAILED

6.如果任务未结束，则任务设置为RUNNING。

最终每次jobClient查询结束需要close()。Oozie会将每次运行的状态信息存储于数据库中。

5.2Azkaban判断任务是否完成

当Azkaban在提交任务之后会在Client运行一个Process，不断的向Server发送查询请求。发送的请求：

/executor?execid=55&ajax=fetchexecflowupdate&lastUpdateTime=1470735951842

在Server中Azkaban会维护一个ConcurrentHashMap存储着执行的flow。这个hashmap是放在内存中的。由于Azkaban操作的颗粒度是进程，进程的执行成功或者失败都会影响这个hashmap。

但是进程的执行结果无法直接反应任务是否执行成功。

六．总结

综上述的几点对比Oozie以及Azkaban，个人觉得选择Oozie作为流程引擎的选型比较好，理由如下：

1.Oozie是基于Hadoop系统进行操作，而Azkaban是基于命令行进行操作。使用hadoop提供的第三方包JobClient比直接在底层跑shell命令开发成本小，可能遇到的坑也少（一个是基于平台，一个是基于系统）。

2.Oozie的操作是放在Hadoop中，而Azkaban的运行是服务器运行shell命令。为保证服务器的稳定，使用Oozie靠谱点。

3.Ooize提供查询任务执行状态，Azkaban查询的是进程执行的结果，如果某进程执行的shell命令出错，其进程仍展示位成功，混淆了任务输出。

4.Oozie将任务执行的状态持久化到数据库中，Azkaban将任务的状态存储在服务器内存中，如果掉电，则Azkaban会丢失任务信息。

5.Ooize中定义的action类型更为丰富，而Azkaban中的依赖较为简单，当面对复杂的逻辑时Oozie执行的比较顺畅（网上说的，但是没有实践的数据。。。）。

以Oozie作为流程引擎的难点：

1.定义workflow.xml的过程，需要保证有效的完成用户的逻辑且运行的过程中job不出错。

2.部署有点麻烦。

3.学习的成本会略高。

你可能感兴趣的:(oozie)

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
为什么我的CDH不用Hue，改用Scriptis了？兔子那么可爱大数据 UI 开源数据分析中间件
理性谈谈Hue的优缺点平时做数据开发用的比较多的是CDH的Hue，Hue提供了对接Hadoop平台的UI界面，可以对Hbase数据进行直接操作，执行Mapreducer任务时有可视化的执行界面，进行数据报表和Oozie定时任务，可以说还是非常的方便的。但是用久了就会发现Hue也有许多痛点。数据表不能直接方便地导出Excel，降低了工作效率UDF和函数支持较差，没有自带的数据分析常用UDF函数库，也
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明 BigDataMLApplication spark spark 大数据分布式
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明点击这里看全文文章目录添加其他JAR文件准备工作配置调试应用程序Spark属性重要说明KerberosYARN特定的Kerberos配置Kerberos故障排除配置外部Shuffle服务使用ApacheOozie启动应用程序使用Spark历史服务器替代SparkWebUI官网链接确保HADOOP_CONF_DIR或者YARN_C
azkaban的概况北京小峻大数据 azkaban mysql 数据库
Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
采用海豚调度器+Doris开发数仓保姆级教程（满满是踩坑干货细节，持续更新）大模型大数据攻城狮海豚调度器从入门到精通 doris 海豚调度器离线数仓实时数仓国产代替信创大数据 flink数仓
目录一、采用海豚调度器+Doris开发平替CDHHdfs+Yarn+Hive+Oozie的理由。1.架构复杂性2.数据处理性能3.数据同步与更新4.资源利用率与成本6.生态系统与兼容性7.符合信创或国产化要求二、ODS层接入数据接入kafka实时数据踩坑的问题细节三、海豚调度器调度Doris进行报表开发创建带分区的表在doris进行开发调试开发海豚调度器脚本解决shell脚本使用MySQL命令行给
Oozie Bundle 规范 weixin_34075268
为什么80%的码农都做不了架构师？>>>文档地址转载于:https://my.oschina.net/sskxyz/blog/756359
1.25-1.26 Coordinator数据集和oozie bundle weixin_30851867
一、Coordinator数据集二、ooziebundle转载于:https://www.cnblogs.com/weiyiming007/p/10881260.html
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
任务调度-Oozie的安装 neo_ng
Oozie的安装(0)前提条件:maven3.5.0Mysql5.7.19-0ubuntu0.16.04.1tomcat7.0.79sudoaptinstallmaven(1)编译在本地执行4.3版本才支持jdk1.8在根目录的pom.xml中修改组建的版本./mkdistro.sh-DskipTests//执行编译脚本成功:Ooziedistrocreated,DATE[2017.11.14-0
详解Linux运维工程师高级篇（大数据安全方向）. weixin_30588729 运维操作系统 java
hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry简介：从运维青铜到运维白银再到运维黄金，这里就要牵扯到方向问题也就是装备，根据自己的爱好，每个人都应该选择一个适合自己和喜欢自己的一个职业技术方向，如：大数据安全，开发运维，云计算运维等
[CDH5] Oozie web console is disabled 问题解决尼小摩
CDH5安装完成以后OozieWebUI点开显示Ooziewebconsoleisdisabled.问题解决：下载ExtJS2.2:下载地址：http://archive.cloudera.com/gplextras/misc/ext-2.2.zip上传到服务器并解压[root@hadoop1libext]#cd/opt/cloudera/parcels/CDH/lib/oozie/libext/
Flink（十三）【Flink SQL（上）】让线程再跑一会 Flink flink 大数据
前言最近在假期实训，但是实在水的不行，三天要学完SSM，实在一言难尽，浪费那时间干什么呢。SSM之前学了一半，等后面忙完了，再去好好重学一遍，毕竟这玩意真是面试必会的东西。今天开始学习Flink最后一部分FlinkSQL，完了还有不少框架得学：Kafka、Flume、ClickHouse、Hudi、Azkaban、OOzie...有的算是小工具，不费劲，但是学完得复习啊，这么多东西，必须赶紧做个小
项目实战-知行教育大数据分析平台-01 吆喝的翅膀 python+大数据学习数据仓库教育电商 hive hadoop cloudera
目录一、业务流程二、项目架构流程三、clouderamanager（CM）基本介绍四、项目环境搭建五、维度分析六、数仓建模1、维度建模2、什么是事实表与维度表3、事实表与维度表的分类4、维度建模的三种模型5、缓慢渐变维七、本项目数仓架构八、HUE的使用九、自动化调度工具介绍十、通过HUE操作oozie本文将利用前面所学的Linux，Hadoop，Hive等大数据技术，从企业级角度，开发一个涵盖需求
大数据调度框架Oozie，这个学习网站让你事半功倍！知识分享小能手大数据学习心得体会大数据学习任务调度
Oozie是一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache。它主要用于管理和调度ApacheHadoop作业，支持的任务类型包括HadoopMapReduce、PigJobs等。Oozie的核心概念包括workflowjobs和coordinatorjobs。Workflowjobs是由多个动作（actions）组成的有向无环图（DAG），即任务按照预定的逻辑顺序一步步执行
Oozie WorkFlow中Shell Action使用案例明明德撩码
cp-rexamples/apps/shelloozie-apps/mvshellshell-hive-selecttouchstudent-select.sh#!/usr/bin/envbash+##studentselect/opt/cdh5.3.6/hive-0.13.1-cdh5.3.6/bin/hive-fstudent-select.sqlvistudent-select.sqlins
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转) 我爱大海V5 Hadoop hadoop
目录[-]（一）hadoop相关安装部署（二）hive（三）pig（四）hadoop原理与编码（五）数据仓库与挖掘（六）Oozie工作流（七）HBase（八）flume（九）sqoop（十）ZooKeeper（十一）NOSQL（十二）Hadoop监控与管理（十三）Storm（十四）YARN&Hadoop2.0附：（一）hadoop相关安装部署1、hadoop在windowscygwin下的部署：h
调度工具之dolphinscheduler篇以茉萱大数据运维开发
前言随着开发程序的增多，任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题，随时少量的任务可以用linux系统自带的crontab加以定时进行，但缺点也很明细，不够直观，以及修改起来比较麻烦，容易出错，这时候就需要调度工具来帮忙，不知道大家都接触过哪些调度工具，我这边接触过airflow、oozie、Kyligence，但今天我想推荐的调度工具是dolphinscheduler，下面就从安
Flink快速入门 WaiSaa Java 大数据 flink 大数据
1、大数据处理框架发展史大数据-3v-tpezy-分而治之批处理流处理-微信运动、信用卡月度账单、国家季度GDP增速MPI-节点间数据通信-c和pythonMR-2004谷歌提出的编程范式-hadoop/storm/spark/flinkHadoop-MR、HDFS、YARN(hive/pig/hbase/oozie)StormSpark-cache/lineage-DAG/多线程池模型Flink
大数据技术之Oozie 星川皆无恙大数据系统运维大数据 java 数据仓库架构 sql
大数据技术之Oozie第1章Oozie简介Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。第2章Oozie的功能模块介绍2.1模块Workflow顺序执行流程节点，支
数据治理之定时调度和血缘关系十七✧ᐦ̤ 大数据 spring boot java
SpringBoot定时调度在applicaiton类上加注解@EnableScheuling创建调度包scheduler创建一个考评类调度类AssessScheduler创建exec()方法，添加注解@Scheduled(cron=“******”)分表代表秒，分，时，日，月，星期0/5,*****,代表每5秒执行一次调度工具大数据：oozie,Azkaban，任务众多，流程复杂，配置复杂jav
大数据集群报错集锦及解决方案陈舟的舟大数据大数据
文章目录前言1Hadoop1.1Yarn上执行MR计算报错空指针1.2NameNode启动失败2Hive2.1Hive数据量过大3Kafka3.1Kafka集群部分机器起不来4Azkaban4.1Azkaban页面登陆乱码5Oozie5.1Oozie初始化失败5.2脚本修改之后Oozie任务执行失败6Kerberos6.1启用Kerberos之后，hdfs浏览器打开鉴权失败7Spark7.1Spa
工作流调度工具Airflow1.8搭建及使用 weixin_34195142 数据库 shell python
编写目的最近工作任务需要把原来使用Kettle的ETL流程迁移到Hadoop平台上，就需要找一个替代Kettle工作流部分的工具。在大数据环境下，常用的无非是Oozie，Airflow或者Azkaban。经过简单的评估之后，我们选择了轻量化的Airflow作为我们的工作流工具。Airflow是一个工作流分配管理系统，通过有向非循环图的方式管理任务流程，设置任务依赖关系和时间调度。Airflow独立
大数据工作流_【大数据开发】OOZIE的工作流调度及功能架构（一） weixin_39918682 大数据工作流
OOZIE工作流调度及功能架构(一)Ⅰ常见的几个工作流调度框架Ⅱoozie的功能架构常见的几个工作流调度框架什么是工作流？常见的JBMP(工作流调度框架)：1.Crontab：详情见新闻网关指标张景宇，公众号：数据信息化【大数据开发】Hive的高级应用之新闻网关键指标统计(九)2.Azkaban3.Oozie+Hue4.Zeusoozie的功能架构1)Oozie是一个用于管理ApacheHadoo
大数据Oozie任务调度赵广陆 bigdata java 大数据 es
目录1Oozie概述2Oozie的架构3Oozie基本原理3.1流程节点4Oozie工作流类型4.1WorkFlow4.2Coordinator4.3Bundle5Oozie和Hue整合5.1修改hue配置文件hue.ini5.2启动hue、oozie5.3Hue集成Oozie5.3.1使用hue配置oozie调度5.3.2利用hue调度shell脚本5.3.3利用hue调度hive脚本5.3.4
大数据工作流调度 zhixingheyi_tian spark spark
DolphinScheduler在大数据领域,DolphinScheduler对标的开源产品是oozie、Azkaban、Airflow.参考链接：https://zhuanlan.zhihu.com/p/558709297
大数据博文列表羽落风起大数据 kafka flink hadoop
文章目录说明分享大数据简述搭建hadoop平台单机版集群版安装优化组件hadoophdfsyarnflinkHbaseElasticsearchkafkasparkhiveoozie其他vmwaredocker说明本文列举已有的大数据相关博文清单，方便查看阅读。分享个人java工具库项目https://gitee.com/wangzonghui/object-tool包含json、string、集
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler) 王知无(import_bigdata) 分布式大数据 python java 编程语言
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜八股文交给我，你们专心刷题和面试Hi，我是王知无，一个大数据领域的原创作者。放心关注我，获取更多行业的一手消息。大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结，结合目前阿里云上的MaxCompute中的调度系统，做个对比。OozieOozie是一个workflow(工作流)协调系
flink学习（一） Daivei_lai flink flink
前言：之前学习flink时没有系统性的复习，现在不多BB就是为了复习flink（从头再来）1.1flink的引入计算引擎分为几代有些争议，这里我选择的是四代第一代计算引擎，MapReduce（首先第一代的计算引擎，无疑就是Hadoop承载的MapReduce，它将计算分为两个阶段，分别为Map和Reduce）第二代计算引擎，tez+Oozie（特点：批处理1个Tez=MR(1)+MR(2)+…+M
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj