少年阿峣_从零单排

Oozie简介和运行实例

一、oozie简介

Oozie是一个管理 Apache Hadoop 作业的工作流调度系统。

官网连接：http://oozie.apache.org/

1、安装：

一是源生的，需要自己编译；（本文暂时不介绍具体的安装步骤，可以参考https://blog.csdn.net/lucylove3943/article/details/80673962）

二是CDH的包来安装，和源生类似；

三是Ambari上安装

2、Oozie的Web页面。

3、支持类型的Hadoop作业：

Oozie与Hadoop生态圈的其他部分集成在一起，支持多种类型的Hadoop作业（如Java map-reduce、流式map-reduce、Pig、Hive、Sqoop和Distcp）以及特定于系统的工作（如Java程序和shell脚本）。

4、主要概念：

4.1、Workflow：

工作流，由我们需要处理的每个工作组成，进行需求的流式处理。（一个具体的任务，例如执行一个mr）

4.2、Coordinator：

协调器，可以理解为工作流的协调器，可以将多个工作流协调成一个工作流来进行处理（例如可以控制workflow每天24点执行）。

4.3、Bundle：

捆，束。将一堆的coordinator进行汇总处理。

简单来说，workflow是对要进行的顺序化工作的抽象，coordinator是对要进行的顺序化的workflow的抽象，bundle是对一堆coordiantor的抽象。层级关系层层包裹。

Oozie的 workflow jobs 是由 actions 组成的 有向无环图(DAG)。

5、Job组成：

一个oozie 的 job 一般由以下文件组成：
1、job.properties ：记录了job的属性（hdfs、yarn、workflow、定时任务等基本信息）
2、workflow.xml ：使用hPDL 定义任务的流程和分支（定义任务的整体流程）
3、lib目录：用来执行具体的任务（例如需要执行mr任务的jar包）

下面是具体的说明：

1、Job.properties：

2、workflow.xml：

这个文件是定义任务的整体流程的文件，官网wordcount例子如下：

3、Lib目录

在workflow工作流定义的同级目录下，需要有一个lib目录，在lib目录中存在java节点MapReduce使用的jar包。

需要注意的是，oozie并不是使用指定jar包的名称来启动任务的，而是通过制定主类来启动任务的。在lib包中绝对不能存在某个jar包的不同版本，不能够出现多个相同主类。

注意：*********************************************************

下面的6、7、8可简略查看，内容比较详细，可以先看二、“使用”后再翻过来回看。

6、工作流生命周期

在Oozie中，工作流的状态可能存在如下几种：

状态	含义说明
PREP	一个工作流Job第一次创建将处于PREP状态，表示工作流Job已经定义，但是没有运行。
RUNNING	当一个已经被创建的工作流Job开始执行的时候，就处于RUNNING状态。它不会达到结束状态，只能因为出错而结束，或者被挂起。
SUSPENDED	一个RUNNING状态的工作流Job会变成SUSPENDED状态，而且它会一直处于该状态，除非这个工作流Job被重新开始执行或者被杀死。
SUCCEEDED	当一个RUNNING状态的工作流Job到达了end节点，它就变成了SUCCEEDED最终完成状态。
KILLED	当一个工作流Job处于被创建后的状态，或者处于RUNNING、SUSPENDED状态时，被杀死，则工作流Job的状态变为KILLED状态。
FAILED	当一个工作流Job不可预期的错误失败而终止，就会变成FAILED状态。

上述各种状态存在相应的转移（工作流程因为某些事件，可能从一个状态跳转到另一个状态），其中合法的状态转移有如下几种，如下表所示：

转移前状态	转移后状态集合
未启动	PREP
PREP	RUNNING、KILLED
RUNNING	SUSPENDED、SUCCEEDED、KILLED、FAILED
SUSPENDED	RUNNING、KILLED

明确上述给出的状态转移空间以后，可以根据实际需要更加灵活地来控制工作流Job的运行。

7、控制流节点（相当于抽象顺序，不包含具体内容）

工作流程定义中，控制工作流的开始和结束，以及工作流Job的执行路径的节点，它定义了流程的开始（start节点）和结束（end节点或kill节点），同时提供了一种控制流程执行路径的机制（decision决策节点、fork分支节点、join会签节点）。通过上面提到的各种节点，我们大概应该能够知道它们在工作流中起着怎样的作用。下面，我们看一下不同节点的语法格式：

start节点

...

上面start元素的to属性，指向第一个将要执行的工作流节点。

end节点

...

达到该节点，工作流Job会变成SUCCEEDED状态，表示成功完成。需要注意的是，一个工作流定义必须只能有一个end节点。

kill节点

...

[MESSAGE-TO-LOG]

...

kill元素的name属性，是要杀死的工作流节点的名称，message元素指定了工作流节点被杀死的备注信息。达到该节点，工作流Job会变成状态KILLED。

decision节点

...

[PREDICATE]

...

[PREDICATE]

...

decision节点通过预定义一组条件，当工作流Job执行到该节点时，会根据其中的条件进行判断选择，满足条件的路径将被执行。decision节点通过switch…case语法来进行路径选择，只要有满足条件的判断，就会执行对应的路径，如果没有可以配置default元素指向的节点。

fork节点和join节点

...

for元素下面会有多个path元素，指定了可以并发执行的多个执行路径。fork中多个并发执行路径会在join节点的位置会合，只有所有的路径都到达后，才会继续执行join节点。

8、动作节点（Action Nodes）

工作流程定义中，能够触发一个计算任务（Computation Task）或者处理任务（Processing Task）执行的节点。

一个动作执行成功会转到ok节点；如果失败转向error节点。

Map-Reduce动作

map-reduce动作会在工作流Job中启动一个MapReduce Job任务运行，我们可以详细配置这个MapReduce Job。另外，可以通过map-reduce元素的子元素来配置一些其他的任务，如streaming、pipes、file、archive等等。
下面给出包含这些内容的语法格式说明：

...

[JOB-TRACKER]

[NAME-NODE]

...

[MAPPER-PROCESS]

[REDUCER-PROCESS]

[RECORD-READER-CLASS]

[NAME=VALUE]

...

[NAME=VALUE]

...

[MAPPER]

[REDUCER]

[INPUTFORMAT]

[PARTITIONER]

[OUTPUTFORMAT]

[EXECUTABLE]

[JOB-XML-FILE]

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[FILE-PATH]

...

[FILE-PATH]

...

Hive动作

Hive主要是基于类似SQL的HQL语言的，它能够方便地操作HDFS中数据，实现对海量数据的分析工作。HIve动作的语法格式如下所示：

...

[JOB-TRACKER]

[NAME-NODE]

...

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[PARAM-VALUE]

...

Sqoop动作

Sqoop是一个能够在Hadoop和结构化存储系统之间进行数据的导入导出的工具，Sqoop动作的语法格式如下：

...

[JOB-TRACKER]

[NAME-NODE]

...

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[SQOOP-COMMAND]

[FILE-PATH]

...

Pig动作

pig动作可以启动运行pig脚本实现的Job，在工作流定义中配置的语法格式说明如下：

...

[JOB-TRACKER]

[NAME-NODE]

...

[JOB-XML-FILE]

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[PARAM-VALUE]

...

[PARAM-VALUE]

[ARGUMENT-VALUE]

...

[ARGUMENT-VALUE]

[FILE-PATH]

...

[FILE-PATH]

...

Fs动作

Fs动作主要是基于HDFS的一些基本操作，如删除路径、创建路径、移动文件、设置文件全乡等等。
语法格式：

...

SSH动作

该动作主要是通过ssh登录到一台主机，能够执行一组shell命令，它在Oozie schema 0.2中已经被删除。
语法格式：

...

[USER]@[HOST]

[SHELL]

[ARGUMENTS]

...

Java动作

Java动作，是执行一个具有main入口方法的应用程序，在Oozie工作流定义中，会作为一个MapReduce Job执行，这个Job只有一个Map任务。我们需要指定NameNode、JobTracker的信息，还有配置一个Java应用程序的JVM选项参数（java-opts），以及传给主函数（arg）。
语法格式：

...

[JOB-TRACKER]

[NAME-NODE]

...

[JOB-XML]

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[MAIN-CLASS]

[JAVA-STARTUP-OPTS]

ARGUMENT

...

[FILE-PATH]

...

[FILE-PATH]

...

Sub-workflow动作

Sub-workflow动作是一个子流程的动作，主流程执行过程中，遇到子流程节点执行时，会一直等待子流程节点执行完成后，才能继续跳转到下一个要执行的节点。
语法格式：

...

[WF-APPLICATION-PATH]

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

Shell动作

Shell动作可以执行Shell命令，并通过配置命令所需要的参数。它的语法格式：

...

[JOB-TRACKER]

[NAME-NODE]

...

[PROPERTY-NAME]

[PROPERTY-VALUE]

...

[SHELL-COMMAND]

[ARGUMENT-VALUE]

...

二、使用：

1、Oozie目录：(4.3.1版本)

主要：

bin：执行命令的

conf: 配置目录

lib: oozie的相关包

share: 上传到hadoop中需要配合运行oozie的包（上传到hdfs后oozie这里就不需要了）

examples : 这个examples是接下来要介绍的 oozie提交mr例子所需要的所有内容

Oozie的使用

一：源生（下面以运行一个MR任务为例）

使用Oozie，就先进行源生安装，比较麻烦，需要配置一些东西，其中主要有基本的hdfs、yarn等地址，而且还有hdfs中conf的映射地址，需要上传到hdfs上的oozie的相关jar包和地址映射。

其中主要就是编写job中的配置，来用oozie规定的规范来编写自己的逻辑。

二：配合Hue使用

使用方便，直接在上面进行操作即可

源生运行MR任务为例：

3.1、配置job任务

刚才在oozie目录下，有个exmaples文件夹，已经介绍过了，这就是要运行一个mr任务所需要所有东西，他都由哪些文件组成呢？让我们来看一下：

apps：包含配置oozie任务所需要对应的文件
Input-data: 里面是wordcount的一个txt文件
src： mr的java代码

下面主要介绍apps ：

图中标注的，即为“一、5 Job组成”中介绍的，三要素：Job.properties、Workflow.xml、Lib

其中：

Job.properties 内容如下：（记录了job的属性（hdfs、yarn地址等基本信息））

workflow.xml 内容如下：

定义了mr的任务的流程

这里面主要是运行mr action的内容。

lib目录：里面是该例子的jar包

3.2、上传到HDFS对应目录下（该目录映射在conf里有配置）

因为oozie可能没有在hdfs运行的主节点上，所以需要把所需的job配置和jar包等上传到hdfs中。

上传jar包、代码、相应的job配置到HDFS对应的目录下，实例如下。

3.3、启动Oozie

在oozie的安装目录下执行

bin/oozied.sh start

3.4、启动前提

运行oozie任务前，需要先启动hadoop，包括hdfs和yarn等。

注意：还需要启动jobhistory

命令：sbin/mr-jobhistory-daemon.sh start historyserver

3.5、启动mr的Job实例

选好oozie的地址，指定jon.properties启动，命令如下：

bin/oozie job -oozie http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties -run

执行后，会返回一个job的id。

然后我们去看一下，oozie的web 界面：

我们点开这个Job，可以查看详情、任务配置、DAG图等信息

然后我们看hdfs上，有个目录，里面记录了job id的信息，有相应目录，说明提交已经成功。

然后查看输出任务，应该有相应的目录。

至此，demo流程基本上运行完毕~相信大家会有一个清晰的认识了，最后运行还是推荐在HUE上，比较方便。

你可能感兴趣的:(#,Oozie)

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
为什么我的CDH不用Hue，改用Scriptis了？兔子那么可爱大数据 UI 开源数据分析中间件
理性谈谈Hue的优缺点平时做数据开发用的比较多的是CDH的Hue，Hue提供了对接Hadoop平台的UI界面，可以对Hbase数据进行直接操作，执行Mapreducer任务时有可视化的执行界面，进行数据报表和Oozie定时任务，可以说还是非常的方便的。但是用久了就会发现Hue也有许多痛点。数据表不能直接方便地导出Excel，降低了工作效率UDF和函数支持较差，没有自带的数据分析常用UDF函数库，也
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明 BigDataMLApplication spark spark 大数据分布式
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明点击这里看全文文章目录添加其他JAR文件准备工作配置调试应用程序Spark属性重要说明KerberosYARN特定的Kerberos配置Kerberos故障排除配置外部Shuffle服务使用ApacheOozie启动应用程序使用Spark历史服务器替代SparkWebUI官网链接确保HADOOP_CONF_DIR或者YARN_C
azkaban的概况北京小峻大数据 azkaban mysql 数据库
Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
采用海豚调度器+Doris开发数仓保姆级教程（满满是踩坑干货细节，持续更新）大模型大数据攻城狮海豚调度器从入门到精通 doris 海豚调度器离线数仓实时数仓国产代替信创大数据 flink数仓
目录一、采用海豚调度器+Doris开发平替CDHHdfs+Yarn+Hive+Oozie的理由。1.架构复杂性2.数据处理性能3.数据同步与更新4.资源利用率与成本6.生态系统与兼容性7.符合信创或国产化要求二、ODS层接入数据接入kafka实时数据踩坑的问题细节三、海豚调度器调度Doris进行报表开发创建带分区的表在doris进行开发调试开发海豚调度器脚本解决shell脚本使用MySQL命令行给
Oozie Bundle 规范 weixin_34075268
为什么80%的码农都做不了架构师？>>>文档地址转载于:https://my.oschina.net/sskxyz/blog/756359
1.25-1.26 Coordinator数据集和oozie bundle weixin_30851867
一、Coordinator数据集二、ooziebundle转载于:https://www.cnblogs.com/weiyiming007/p/10881260.html
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
任务调度-Oozie的安装 neo_ng
Oozie的安装(0)前提条件:maven3.5.0Mysql5.7.19-0ubuntu0.16.04.1tomcat7.0.79sudoaptinstallmaven(1)编译在本地执行4.3版本才支持jdk1.8在根目录的pom.xml中修改组建的版本./mkdistro.sh-DskipTests//执行编译脚本成功:Ooziedistrocreated,DATE[2017.11.14-0
详解Linux运维工程师高级篇（大数据安全方向）. weixin_30588729 运维操作系统 java
hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry简介：从运维青铜到运维白银再到运维黄金，这里就要牵扯到方向问题也就是装备，根据自己的爱好，每个人都应该选择一个适合自己和喜欢自己的一个职业技术方向，如：大数据安全，开发运维，云计算运维等
[CDH5] Oozie web console is disabled 问题解决尼小摩
CDH5安装完成以后OozieWebUI点开显示Ooziewebconsoleisdisabled.问题解决：下载ExtJS2.2:下载地址：http://archive.cloudera.com/gplextras/misc/ext-2.2.zip上传到服务器并解压[root@hadoop1libext]#cd/opt/cloudera/parcels/CDH/lib/oozie/libext/
Flink（十三）【Flink SQL（上）】让线程再跑一会 Flink flink 大数据
前言最近在假期实训，但是实在水的不行，三天要学完SSM，实在一言难尽，浪费那时间干什么呢。SSM之前学了一半，等后面忙完了，再去好好重学一遍，毕竟这玩意真是面试必会的东西。今天开始学习Flink最后一部分FlinkSQL，完了还有不少框架得学：Kafka、Flume、ClickHouse、Hudi、Azkaban、OOzie...有的算是小工具，不费劲，但是学完得复习啊，这么多东西，必须赶紧做个小
项目实战-知行教育大数据分析平台-01 吆喝的翅膀 python+大数据学习数据仓库教育电商 hive hadoop cloudera
目录一、业务流程二、项目架构流程三、clouderamanager（CM）基本介绍四、项目环境搭建五、维度分析六、数仓建模1、维度建模2、什么是事实表与维度表3、事实表与维度表的分类4、维度建模的三种模型5、缓慢渐变维七、本项目数仓架构八、HUE的使用九、自动化调度工具介绍十、通过HUE操作oozie本文将利用前面所学的Linux，Hadoop，Hive等大数据技术，从企业级角度，开发一个涵盖需求
大数据调度框架Oozie，这个学习网站让你事半功倍！知识分享小能手大数据学习心得体会大数据学习任务调度
Oozie是一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache。它主要用于管理和调度ApacheHadoop作业，支持的任务类型包括HadoopMapReduce、PigJobs等。Oozie的核心概念包括workflowjobs和coordinatorjobs。Workflowjobs是由多个动作（actions）组成的有向无环图（DAG），即任务按照预定的逻辑顺序一步步执行
Oozie WorkFlow中Shell Action使用案例明明德撩码
cp-rexamples/apps/shelloozie-apps/mvshellshell-hive-selecttouchstudent-select.sh#!/usr/bin/envbash+##studentselect/opt/cdh5.3.6/hive-0.13.1-cdh5.3.6/bin/hive-fstudent-select.sqlvistudent-select.sqlins
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转) 我爱大海V5 Hadoop hadoop
目录[-]（一）hadoop相关安装部署（二）hive（三）pig（四）hadoop原理与编码（五）数据仓库与挖掘（六）Oozie工作流（七）HBase（八）flume（九）sqoop（十）ZooKeeper（十一）NOSQL（十二）Hadoop监控与管理（十三）Storm（十四）YARN&Hadoop2.0附：（一）hadoop相关安装部署1、hadoop在windowscygwin下的部署：h
调度工具之dolphinscheduler篇以茉萱大数据运维开发
前言随着开发程序的增多，任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题，随时少量的任务可以用linux系统自带的crontab加以定时进行，但缺点也很明细，不够直观，以及修改起来比较麻烦，容易出错，这时候就需要调度工具来帮忙，不知道大家都接触过哪些调度工具，我这边接触过airflow、oozie、Kyligence，但今天我想推荐的调度工具是dolphinscheduler，下面就从安
Flink快速入门 WaiSaa Java 大数据 flink 大数据
1、大数据处理框架发展史大数据-3v-tpezy-分而治之批处理流处理-微信运动、信用卡月度账单、国家季度GDP增速MPI-节点间数据通信-c和pythonMR-2004谷歌提出的编程范式-hadoop/storm/spark/flinkHadoop-MR、HDFS、YARN(hive/pig/hbase/oozie)StormSpark-cache/lineage-DAG/多线程池模型Flink
大数据技术之Oozie 星川皆无恙大数据系统运维大数据 java 数据仓库架构 sql
大数据技术之Oozie第1章Oozie简介Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。第2章Oozie的功能模块介绍2.1模块Workflow顺序执行流程节点，支
数据治理之定时调度和血缘关系十七✧ᐦ̤ 大数据 spring boot java
SpringBoot定时调度在applicaiton类上加注解@EnableScheuling创建调度包scheduler创建一个考评类调度类AssessScheduler创建exec()方法，添加注解@Scheduled(cron=“******”)分表代表秒，分，时，日，月，星期0/5,*****,代表每5秒执行一次调度工具大数据：oozie,Azkaban，任务众多，流程复杂，配置复杂jav
大数据集群报错集锦及解决方案陈舟的舟大数据大数据
文章目录前言1Hadoop1.1Yarn上执行MR计算报错空指针1.2NameNode启动失败2Hive2.1Hive数据量过大3Kafka3.1Kafka集群部分机器起不来4Azkaban4.1Azkaban页面登陆乱码5Oozie5.1Oozie初始化失败5.2脚本修改之后Oozie任务执行失败6Kerberos6.1启用Kerberos之后，hdfs浏览器打开鉴权失败7Spark7.1Spa
工作流调度工具Airflow1.8搭建及使用 weixin_34195142 数据库 shell python
编写目的最近工作任务需要把原来使用Kettle的ETL流程迁移到Hadoop平台上，就需要找一个替代Kettle工作流部分的工具。在大数据环境下，常用的无非是Oozie，Airflow或者Azkaban。经过简单的评估之后，我们选择了轻量化的Airflow作为我们的工作流工具。Airflow是一个工作流分配管理系统，通过有向非循环图的方式管理任务流程，设置任务依赖关系和时间调度。Airflow独立
大数据工作流_【大数据开发】OOZIE的工作流调度及功能架构（一） weixin_39918682 大数据工作流
OOZIE工作流调度及功能架构(一)Ⅰ常见的几个工作流调度框架Ⅱoozie的功能架构常见的几个工作流调度框架什么是工作流？常见的JBMP(工作流调度框架)：1.Crontab：详情见新闻网关指标张景宇，公众号：数据信息化【大数据开发】Hive的高级应用之新闻网关键指标统计(九)2.Azkaban3.Oozie+Hue4.Zeusoozie的功能架构1)Oozie是一个用于管理ApacheHadoo
大数据Oozie任务调度赵广陆 bigdata java 大数据 es
目录1Oozie概述2Oozie的架构3Oozie基本原理3.1流程节点4Oozie工作流类型4.1WorkFlow4.2Coordinator4.3Bundle5Oozie和Hue整合5.1修改hue配置文件hue.ini5.2启动hue、oozie5.3Hue集成Oozie5.3.1使用hue配置oozie调度5.3.2利用hue调度shell脚本5.3.3利用hue调度hive脚本5.3.4
大数据工作流调度 zhixingheyi_tian spark spark
DolphinScheduler在大数据领域,DolphinScheduler对标的开源产品是oozie、Azkaban、Airflow.参考链接：https://zhuanlan.zhihu.com/p/558709297
大数据博文列表羽落风起大数据 kafka flink hadoop
文章目录说明分享大数据简述搭建hadoop平台单机版集群版安装优化组件hadoophdfsyarnflinkHbaseElasticsearchkafkasparkhiveoozie其他vmwaredocker说明本文列举已有的大数据相关博文清单，方便查看阅读。分享个人java工具库项目https://gitee.com/wangzonghui/object-tool包含json、string、集
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler) 王知无(import_bigdata) 分布式大数据 python java 编程语言
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜八股文交给我，你们专心刷题和面试Hi，我是王知无，一个大数据领域的原创作者。放心关注我，获取更多行业的一手消息。大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结，结合目前阿里云上的MaxCompute中的调度系统，做个对比。OozieOozie是一个workflow(工作流)协调系
flink学习（一） Daivei_lai flink flink
前言：之前学习flink时没有系统性的复习，现在不多BB就是为了复习flink（从头再来）1.1flink的引入计算引擎分为几代有些争议，这里我选择的是四代第一代计算引擎，MapReduce（首先第一代的计算引擎，无疑就是Hadoop承载的MapReduce，它将计算分为两个阶段，分别为Map和Reduce）第二代计算引擎，tez+Oozie（特点：批处理1个Tez=MR(1)+MR(2)+…+M
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不