stevie

Java Web应用程序：Oozie及其使用方式

简单示例

　　为了向你展示Oozie的使用方法，让我们创建一个简单的示例。我们拥有两个Map/Reduce作业[3]——一个会获取最初的数据，另一个会合并指定类型的数据。实际的获取操作需要执行最初的获取操作，然后把两种类型的数据——Lidar和Multicam——合并。为了让这个过程自动化，我们需要创建一个简单的Oozie工作流(代码1)

<workflow-app xmlns='uri:oozie:workflow:0.1' name='NGMB-IPS-ingestion'>
    <start to='ingestor'/>
    <action name='ingestor'>
        <java>
            <job-tracker>${jobTracker}job-tracker>
            <name-node>${nameNode}name-node>
            <configuration>
                <property>
                    <name>mapred.job.queue.namename>
                    <value>defaultvalue>
                property>
            configuration>
            <main-class>com.navteq.assetmgmt.MapReduce.ips.IPSLoadermain-class>
            <java-opts>-Xmx2048mjava-opts>
            <arg>${driveID}arg>
        java>
        <ok to="merging"/>
        <error to="fail"/>
    action>
    <fork name="merging">
        <path start="mergeLidar"/>
        <path start="mergeSignage"/>
    fork>
    <action name='mergeLidar'>
        <java>
            <job-tracker>${jobTracker}job-tracker>
            <name-node>${nameNode}name-node>
            <configuration>
                <property>
                    <name>mapred.job.queue.namename>
                    <value>defaultvalue>
                property>
            configuration>
            <main-class>com.navteq.assetmgmt.hdfs.merge.MergerLoadermain-class>
            <java-opts>-Xmx2048mjava-opts>
            <arg>-drivearg>
            <arg>${driveID}arg>
            <arg>-typearg>
            <arg>Lidararg>
            <arg>-chunkarg>
            <arg>${lidarChunk}arg>
        java>
    <ok to="completed"/>
    <error to="fail"/>
    action>
    <action name='mergeSignage'>
        <java>
            <job-tracker>${jobTracker}job-tracker>
            <name-node>${nameNode}name-node>
            <configuration>
                <property>
                    <name>mapred.job.queue.namename>
                    <value>defaultvalue>
                property>
            configuration>
            <main-class>com.navteq.assetmgmt.hdfs.merge.MergerLoadermain-class>
            <java-opts>-Xmx2048mjava-opts>
            <arg>-drivearg>
            <arg>${driveID}arg>
            <arg>-typearg>
            <arg>MultiCamarg>
            <arg>-chunkarg>
            <arg>${signageChunk}arg>
        java>
        <ok to="completed"/>
        <error to="fail"/>
    action>
    <join name="completed" to="end"/>
    <kill name="fail">
        <message>Java failed, error message[${wf:errorMessage(wf:lastErrorNode())}]message>
    kill>
    <end name='end'/>
workflow-app>

代码1：简单的Oozie工作流

　　这个工作流定义了三个动作：ingestor、mergeLidar和mergeSignage。并把每个动作都实现为Map/Reduce[4]作业。这个工作流从start节点开始，然后把控制权交给Ingestor动作。一旦ingestor步骤完成，就会触发fork控制节点 [4]，它会并行地开始执行mergeLidar和mergeSignage[5]。这两个动作完成之后，就会触发join控制节点[6]。join节点成功完成之后，控制权就会传递给end节点，它会结束这个过程。

　　创建工作流之后，我们需要正确地对其进行部署。典型的Oozie部署是一个HDFS目录，其中包含workflow.xml(代码1)、config-default.xml和lib子目录，其中包含有工作流操作所要使用的类的jar文件。

图1： Oozie部署

config-default.xml文件是可选的，通常其中会包含对于所有工作流实例通用的工作流参数。代码2中显示的是config-default.xml的简单示例。

<configuration>
    <property>
        <name>jobTrackername>
        <value>sachicn003:2010value>
    property>
    <property>
        <name>nameNodename>
        <value>hdfs://sachicn001:8020value>
    property>
    <property>
        <name>queueNamename>
        <value>defaultvalue>
    property>
configuration>

代码2： Config-default.xml

　　完成了工作流的部署之后，我们可以使用Oozie提供的命令行工具[5]，它可以用于提交、启动和操作工作流。这个工具一般会运行在Hadoop簇集[7]的edge节点上，并需要一个作业属性文件(参见配置工作流属性)，见代码3。

oozie.wf.application.path=hdfs://sachicn001:8020/user/blublins/workflows/IPSIngestion
jobTracker=sachicn003:2010
nameNode=hdfs://sachicn001:8020

代码3：作业属性文件

　　有了作业属性，我们就可以使用代码4中的命令来运行Oozie工作流。

　　oozie job –oozie http://sachidn002.hq.navteq.com:11000/oozie/ -D driveID=729-pp00002-2011-02-08-09-59-34 -D lidarChunk=4 -D signageChunk=20 -config job.properties –run

　　列表4：运行工作流命令

配置工作流属性

　　在config-default.xml、作业属性文件和作业参数中有一些重叠，它们可以作为命令行调用的一部分传递给Oozie。尽管文档中没有清晰地指出何时使用哪个，但总体上的建议如下：

　　1.使用config-default.xml定义对于指定工作流从未改变过的参数。

　　2.对于给定的工作流部署通用的参数，建议使用作业属性。

　　3.对于指定的工作流调用特定的参数使用命令行参数。

　　Oozie处理这三种参数的方式如下：

　　1.使用所有命令行调用的参数

　　如果那里有任何无法解析的参数，那么就是用作业配置来解析

　　一旦所有其它方式都无法处理，那么就试着使用config-default.xm。

　　我们可以使用Oozie控制台(图2)来观察工作流执行的进程和结果。

图2： Oozie控制台

　　我们还可以使用Oozie控制台来获得操作执行的细节，比方说作业的日志[8](图3)。

图3： Oozie控制台——作业日志

编程方式的工作流调用

　　尽管上面所述的命令行界面能够很好地用于手动调用Oozie，但有时使用编程的方式调用Oozie更具有优势。当Oozie工作流是特定的应用程序或者大型企业过程的一部分，这就会很有用。我们可以使用Oozie Web Services APIs [6]或者Oozie Java client APIs [7]来实现这种编程方式的调用。代码5中展现的就是很简单的Oozie Java客户端的例子，它会触发上面描述的过程。

package com.navteq.assetmgmt.oozie;

import java.util.LinkedList;
import java.util.List;
import java.util.Properties;

import org.apache.oozie.client.OozieClient;
import org.apache.oozie.client.OozieClientException;
import org.apache.oozie.client.WorkflowJob;
import org.apache.oozie.client.WorkflowJob.Status;

public class WorkflowClient {

    private static String OOZIE_URL = "http://sachidn002.hq.navteq.com:11000/oozie/";
    private static String JOB_PATH = "hdfs://sachicn001:8020/user/blublins/workflows/IPSIngestion";
    private static String JOB_Tracker = "sachicn003:2010";
    private static String NAMENode = "hdfs://sachicn001:8020";

    OozieClient wc = null;

    public WorkflowClient(String url){
        wc = new OozieClient(url);
    }

    public String startJob(String wfDefinition, List<WorkflowParameter> wfParameters)
        throws OozieClientException{

        // create a workflow job configuration and set the workflow application path
        Properties conf = wc.createConfiguration();
        conf.setProperty(OozieClient.APP_PATH, wfDefinition);

        // setting workflow parameters
        conf.setProperty("jobTracker", JOB_Tracker);
        conf.setProperty("nameNode", NAMENode);
        if((wfParameters != null) && (wfParameters.size() > 0)){
            for(WorkflowParameter parameter : wfParameters)
                conf.setProperty(parameter.getName(), parameter.getValue());
        }
        // submit and start the workflow job
        return wc.run(conf);
    }

    public Status getJobStatus(String jobID) throws OozieClientException{
        WorkflowJob job = wc.getJobInfo(jobID);
        return job.getStatus();
    }

    public static void main(String[] args) throws OozieClientException, InterruptedException{

        // Create client
        WorkflowClient client = new WorkflowClient(OOZIE_URL);
        // Create parameters
        List<WorkflowParameter> wfParameters = new LinkedList<WorkflowParameter>();
        WorkflowParameter drive = new WorkflowParameter("driveID","729-pp00004-2010-09-01-09-46");
        WorkflowParameter lidar = new WorkflowParameter("lidarChunk","4");
        WorkflowParameter signage = new WorkflowParameter("signageChunk","4");
        wfParameters.add(drive);
        wfParameters.add(lidar);
        wfParameters.add(signage);
        // Start Oozing
        String jobId = client.startJob(JOB_PATH, wfParameters);
        Status status = client.getJobStatus(jobId);
        if(status == Status.RUNNING)
             System.out.println("Workflow job running");
        else
             System.out.println("Problem starting Workflow job");
    }
}

代码5：简单的Oozie Java客户端

　　在此，我们首先使用Oozie服务器URL对工作流客户端进行初始化。初始化过程完成之后，我们就可以使用客户端提交并启动作业(startJob方法)，获得正在运行的作业的状态(getStatus方法)，以及进行其他操作。

　　构建java动作，向工作流传递参数

　　在之前的示例中，我们已经展示了如何使用标签向Java节点传递参数。由于Java节点是向Oozie引入自定义计算的主要方法，因此能够从Java节点向Oozie传递数据也同样重要。

　　根据Java节点的文档[3]，我们可以使用“capture-output””元素把Java节点生成的值传递回给Oozie上下文。然后，工作流的其它步骤可以通过EL-functions访问这些值。返回值需要以Java属性格式文件写出来。我们可以通过“JavaMainMapper.OOZIE_JAVA_MAIN_CAPTURE_OUTPUT_FILE”常量从System属性中获得这些属性文件的名称。代码6是一个简单示例，演示了如何完成这项操作。

package com.navteq.oozie;
import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStream;
import java.util.Calendar;
import java.util.GregorianCalendar;
import java.util.Properties;

public class GenerateLookupDirs {

    /**
    * @param args
    */
    public static final long dayMillis = 1000 * 60 * 60 * 24;
    private static final String OOZIE_ACTION_OUTPUT_PROPERTIES = "oozie.action.output.properties";

    public static void main(String[] args) throws Exception {
        Calendar curDate = new GregorianCalendar();
        int year, month, date;
        String propKey, propVal;

        String oozieProp = System.getProperty(OOZIE_ACTION_OUTPUT_PROPERTIES);
        if (oozieProp != null) {
            File propFile = new File(oozieProp);
            Properties props = new Properties();

            for (int i = 0; I < 8; ++i) {
                year = curDate.get(Calendar.YEAR);
                month = curDate.get(Calendar.MONTH) + 1;
                date = curDate.get(Calendar.DATE);
                propKey = "dir"+i;
                propVal = year + "-" +
                    (month < 10 ? "0" + month : month) + "-" +
                    (date < 10 ? "0" + date : date);
                props.setProperty(propKey, propVal);
                curDate.setTimeInMillis(curDate.getTimeInMillis() - dayMillis);
            }
            OutputStream os = new FileOutputStream(propFile);
            props.store(os, "");
            os.close();
        } else
            throw new RuntimeException(OOZIE_ACTION_OUTPUT_PROPERTIES
             + " System property not defined");
        }
}

代码6：向Oozie传递参数

　　在这个示例中，我们假设在HDFS中有针对每个日期的目录。这样，这个类首先会获得当前日期，然后再获得离现在最近的7个日期(包括今天)，然后把目录名称传递回给Oozie。

注：[1]edge节点是安装有Hadoop库的计算机，但不是真正簇集中的一部分。它是为能够连接到簇集中的应用程序所用的，并且会部署辅助服务以及能够直接访问簇集的最终用户应用程序。

[2]请参看Oozie安装的链接。

[3]这些作业的细节和本文无关，所以在其中没有描述。

[4]Map/Reduce作业能够以两种不同的方式在Oozie中实现——第一种是作为真正的Map/Reduce动作[2]，其中你会指定Mapper和Reducer类以及它们的配置信息；第二种是作为Java动作[3]，其中你会使用Hadoop API来指定启动Map/Reduce作业的类。因为我们所有的Java主函数都是使用Hadoop API，并且还实现了一些额外的功能，所以我们选择了第二种方法。

[5] Oozie确保两个动作会并行地提交给作业跟踪程序。在执行过程中实际的并行机制并不在Oozie的控制之内，并且依赖于作业的需求、簇集的能力以及Map/Reduce部署所使用的调度程序。

[6]join动作的功能是要同步fork动作启动的多个并行执行的线程。如果fork启动的所有执行的线程都能够成功完成，那么join动作就会等待它们全部完成。如果有至少一个线程执行失败，kill节点会“杀掉”剩余运行的线程。

[7] 这个节点不需要是安装了Oozie的计算机。

[8] Oozie的作业日志会包含工作流执行的细节，想要查看动作执行的细节，我们需要切换到Hadoop的Map/Reduce管理页面。

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
为什么我的CDH不用Hue，改用Scriptis了？兔子那么可爱大数据 UI 开源数据分析中间件
理性谈谈Hue的优缺点平时做数据开发用的比较多的是CDH的Hue，Hue提供了对接Hadoop平台的UI界面，可以对Hbase数据进行直接操作，执行Mapreducer任务时有可视化的执行界面，进行数据报表和Oozie定时任务，可以说还是非常的方便的。但是用久了就会发现Hue也有许多痛点。数据表不能直接方便地导出Excel，降低了工作效率UDF和函数支持较差，没有自带的数据分析常用UDF函数库，也
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明 BigDataMLApplication spark spark 大数据分布式
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明点击这里看全文文章目录添加其他JAR文件准备工作配置调试应用程序Spark属性重要说明KerberosYARN特定的Kerberos配置Kerberos故障排除配置外部Shuffle服务使用ApacheOozie启动应用程序使用Spark历史服务器替代SparkWebUI官网链接确保HADOOP_CONF_DIR或者YARN_C
azkaban的概况北京小峻大数据 azkaban mysql 数据库
Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
采用海豚调度器+Doris开发数仓保姆级教程（满满是踩坑干货细节，持续更新）大模型大数据攻城狮海豚调度器从入门到精通 doris 海豚调度器离线数仓实时数仓国产代替信创大数据 flink数仓
目录一、采用海豚调度器+Doris开发平替CDHHdfs+Yarn+Hive+Oozie的理由。1.架构复杂性2.数据处理性能3.数据同步与更新4.资源利用率与成本6.生态系统与兼容性7.符合信创或国产化要求二、ODS层接入数据接入kafka实时数据踩坑的问题细节三、海豚调度器调度Doris进行报表开发创建带分区的表在doris进行开发调试开发海豚调度器脚本解决shell脚本使用MySQL命令行给
Oozie Bundle 规范 weixin_34075268
为什么80%的码农都做不了架构师？>>>文档地址转载于:https://my.oschina.net/sskxyz/blog/756359
1.25-1.26 Coordinator数据集和oozie bundle weixin_30851867
一、Coordinator数据集二、ooziebundle转载于:https://www.cnblogs.com/weiyiming007/p/10881260.html
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
任务调度-Oozie的安装 neo_ng
Oozie的安装(0)前提条件:maven3.5.0Mysql5.7.19-0ubuntu0.16.04.1tomcat7.0.79sudoaptinstallmaven(1)编译在本地执行4.3版本才支持jdk1.8在根目录的pom.xml中修改组建的版本./mkdistro.sh-DskipTests//执行编译脚本成功:Ooziedistrocreated,DATE[2017.11.14-0
详解Linux运维工程师高级篇（大数据安全方向）. weixin_30588729 运维操作系统 java
hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry简介：从运维青铜到运维白银再到运维黄金，这里就要牵扯到方向问题也就是装备，根据自己的爱好，每个人都应该选择一个适合自己和喜欢自己的一个职业技术方向，如：大数据安全，开发运维，云计算运维等
[CDH5] Oozie web console is disabled 问题解决尼小摩
CDH5安装完成以后OozieWebUI点开显示Ooziewebconsoleisdisabled.问题解决：下载ExtJS2.2:下载地址：http://archive.cloudera.com/gplextras/misc/ext-2.2.zip上传到服务器并解压[root@hadoop1libext]#cd/opt/cloudera/parcels/CDH/lib/oozie/libext/
Flink（十三）【Flink SQL（上）】让线程再跑一会 Flink flink 大数据
前言最近在假期实训，但是实在水的不行，三天要学完SSM，实在一言难尽，浪费那时间干什么呢。SSM之前学了一半，等后面忙完了，再去好好重学一遍，毕竟这玩意真是面试必会的东西。今天开始学习Flink最后一部分FlinkSQL，完了还有不少框架得学：Kafka、Flume、ClickHouse、Hudi、Azkaban、OOzie...有的算是小工具，不费劲，但是学完得复习啊，这么多东西，必须赶紧做个小
项目实战-知行教育大数据分析平台-01 吆喝的翅膀 python+大数据学习数据仓库教育电商 hive hadoop cloudera
目录一、业务流程二、项目架构流程三、clouderamanager（CM）基本介绍四、项目环境搭建五、维度分析六、数仓建模1、维度建模2、什么是事实表与维度表3、事实表与维度表的分类4、维度建模的三种模型5、缓慢渐变维七、本项目数仓架构八、HUE的使用九、自动化调度工具介绍十、通过HUE操作oozie本文将利用前面所学的Linux，Hadoop，Hive等大数据技术，从企业级角度，开发一个涵盖需求
大数据调度框架Oozie，这个学习网站让你事半功倍！知识分享小能手大数据学习心得体会大数据学习任务调度
Oozie是一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache。它主要用于管理和调度ApacheHadoop作业，支持的任务类型包括HadoopMapReduce、PigJobs等。Oozie的核心概念包括workflowjobs和coordinatorjobs。Workflowjobs是由多个动作（actions）组成的有向无环图（DAG），即任务按照预定的逻辑顺序一步步执行
Oozie WorkFlow中Shell Action使用案例明明德撩码
cp-rexamples/apps/shelloozie-apps/mvshellshell-hive-selecttouchstudent-select.sh#!/usr/bin/envbash+##studentselect/opt/cdh5.3.6/hive-0.13.1-cdh5.3.6/bin/hive-fstudent-select.sqlvistudent-select.sqlins
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转) 我爱大海V5 Hadoop hadoop
目录[-]（一）hadoop相关安装部署（二）hive（三）pig（四）hadoop原理与编码（五）数据仓库与挖掘（六）Oozie工作流（七）HBase（八）flume（九）sqoop（十）ZooKeeper（十一）NOSQL（十二）Hadoop监控与管理（十三）Storm（十四）YARN&Hadoop2.0附：（一）hadoop相关安装部署1、hadoop在windowscygwin下的部署：h
调度工具之dolphinscheduler篇以茉萱大数据运维开发
前言随着开发程序的增多，任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题，随时少量的任务可以用linux系统自带的crontab加以定时进行，但缺点也很明细，不够直观，以及修改起来比较麻烦，容易出错，这时候就需要调度工具来帮忙，不知道大家都接触过哪些调度工具，我这边接触过airflow、oozie、Kyligence，但今天我想推荐的调度工具是dolphinscheduler，下面就从安
Flink快速入门 WaiSaa Java 大数据 flink 大数据
1、大数据处理框架发展史大数据-3v-tpezy-分而治之批处理流处理-微信运动、信用卡月度账单、国家季度GDP增速MPI-节点间数据通信-c和pythonMR-2004谷歌提出的编程范式-hadoop/storm/spark/flinkHadoop-MR、HDFS、YARN(hive/pig/hbase/oozie)StormSpark-cache/lineage-DAG/多线程池模型Flink
大数据技术之Oozie 星川皆无恙大数据系统运维大数据 java 数据仓库架构 sql
大数据技术之Oozie第1章Oozie简介Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。第2章Oozie的功能模块介绍2.1模块Workflow顺序执行流程节点，支
数据治理之定时调度和血缘关系十七✧ᐦ̤ 大数据 spring boot java
SpringBoot定时调度在applicaiton类上加注解@EnableScheuling创建调度包scheduler创建一个考评类调度类AssessScheduler创建exec()方法，添加注解@Scheduled(cron=“******”)分表代表秒，分，时，日，月，星期0/5,*****,代表每5秒执行一次调度工具大数据：oozie,Azkaban，任务众多，流程复杂，配置复杂jav
大数据集群报错集锦及解决方案陈舟的舟大数据大数据
文章目录前言1Hadoop1.1Yarn上执行MR计算报错空指针1.2NameNode启动失败2Hive2.1Hive数据量过大3Kafka3.1Kafka集群部分机器起不来4Azkaban4.1Azkaban页面登陆乱码5Oozie5.1Oozie初始化失败5.2脚本修改之后Oozie任务执行失败6Kerberos6.1启用Kerberos之后，hdfs浏览器打开鉴权失败7Spark7.1Spa
工作流调度工具Airflow1.8搭建及使用 weixin_34195142 数据库 shell python
编写目的最近工作任务需要把原来使用Kettle的ETL流程迁移到Hadoop平台上，就需要找一个替代Kettle工作流部分的工具。在大数据环境下，常用的无非是Oozie，Airflow或者Azkaban。经过简单的评估之后，我们选择了轻量化的Airflow作为我们的工作流工具。Airflow是一个工作流分配管理系统，通过有向非循环图的方式管理任务流程，设置任务依赖关系和时间调度。Airflow独立
大数据工作流_【大数据开发】OOZIE的工作流调度及功能架构（一） weixin_39918682 大数据工作流
OOZIE工作流调度及功能架构(一)Ⅰ常见的几个工作流调度框架Ⅱoozie的功能架构常见的几个工作流调度框架什么是工作流？常见的JBMP(工作流调度框架)：1.Crontab：详情见新闻网关指标张景宇，公众号：数据信息化【大数据开发】Hive的高级应用之新闻网关键指标统计(九)2.Azkaban3.Oozie+Hue4.Zeusoozie的功能架构1)Oozie是一个用于管理ApacheHadoo
大数据Oozie任务调度赵广陆 bigdata java 大数据 es
目录1Oozie概述2Oozie的架构3Oozie基本原理3.1流程节点4Oozie工作流类型4.1WorkFlow4.2Coordinator4.3Bundle5Oozie和Hue整合5.1修改hue配置文件hue.ini5.2启动hue、oozie5.3Hue集成Oozie5.3.1使用hue配置oozie调度5.3.2利用hue调度shell脚本5.3.3利用hue调度hive脚本5.3.4
大数据工作流调度 zhixingheyi_tian spark spark
DolphinScheduler在大数据领域,DolphinScheduler对标的开源产品是oozie、Azkaban、Airflow.参考链接：https://zhuanlan.zhihu.com/p/558709297
大数据博文列表羽落风起大数据 kafka flink hadoop
文章目录说明分享大数据简述搭建hadoop平台单机版集群版安装优化组件hadoophdfsyarnflinkHbaseElasticsearchkafkasparkhiveoozie其他vmwaredocker说明本文列举已有的大数据相关博文清单，方便查看阅读。分享个人java工具库项目https://gitee.com/wangzonghui/object-tool包含json、string、集
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler) 王知无(import_bigdata) 分布式大数据 python java 编程语言
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜八股文交给我，你们专心刷题和面试Hi，我是王知无，一个大数据领域的原创作者。放心关注我，获取更多行业的一手消息。大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结，结合目前阿里云上的MaxCompute中的调度系统，做个对比。OozieOozie是一个workflow(工作流)协调系
flink学习（一） Daivei_lai flink flink
前言：之前学习flink时没有系统性的复习，现在不多BB就是为了复习flink（从头再来）1.1flink的引入计算引擎分为几代有些争议，这里我选择的是四代第一代计算引擎，MapReduce（首先第一代的计算引擎，无疑就是Hadoop承载的MapReduce，它将计算分为两个阶段，分别为Map和Reduce）第二代计算引擎，tez+Oozie（特点：批处理1个Tez=MR(1)+MR(2)+…+M
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

Java Web应用程序：Oozie及其使用方式

你可能感兴趣的:(oozie)