清风笑丶

Oozie

Oozie的安装和任务调度：

简介

Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对Hadoop
Mapreduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。

功能

Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统
Oozie的工作流是一系列动作的直接周期图（DAG）
Oozie协调作业就是通过时间（频率）和有效数据触发当前的Oozie工作流程
Oozie是Yahoo针对Apache Hadoop开发的一个开源工作流引擎。用于管理和协调运行在Hadoop平台上（包括：HDFS、Pig和MapReduce）的Jobs。Oozie是专为雅虎的全球大规模复杂工作流程和数据管道而设计
Oozie围绕两个核心：工作流和协调器，前者定义任务的拓扑和执行逻辑，后者负责工作流的依赖和触发

模块

Workflow：顺序执行流程节点，支持fork（分支多个节点），join（合并多个节点为一个）
Coordinator：定时触发workflow
Bundle Job：绑定多个Coordinator

常用节点

控制流节点（Control Flow Nodes）：控制流节点一般都是定义在工作流开始或者结束的位置，比如start,end,kill等。以及提供工作流的执行路径机制，如decision，fork，join等。
动作节点（Action Nodes）：负责执行具体动作的节点，比如：拷贝文件，执行某个Shell脚本等等。

部署

所需软件链接链接：链接：https://pan.baidu.com/s/18_iOFGL06g7_Ye-mZZRwag 提取码：qlbu

部署 Hadoop

这里不详细介绍，请查阅Hadoop安装，这里用的是Clouder公司的CDH版本的Hadop。

修改配置

core-site.xml

[hadoop@datanode1 hadoop]$ vim core-site.xml
<configuration>
        
        <property>
                <name>fs.defaultFSname>
                <value>hdfs://datanode1:9000value>
        property>
        
        <property>
                <name>hadoop.tmp.dirname>
                <value>/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/datavalue>
        property>
         <property>
                <name>fs.trash.interval name>
                <value>60value>
        property>
        
        <property>
                <name>hadoop.proxyuser.hadoop.hostsname>
                <value>*value>
        property>

        
        <property>
                <name>hadoop.proxyuser.hadoop.groupsname>
                <value>*value>
        property>
configuration>

hadoop.proxyuser.admin.hosts类似属性中的hadoop用户替换成你的hadoop用户。因为我的用户名就是hadoop

yarn-site.xml

[hadoop@datanode1 hadoop]$ vim yarn-site.xml
<configuration>
        <property>
                <name>yarn.nodemanager.aux-servicesname>
                <value>mapreduce_shufflevalue>
        property>

        <property>
                <name>yarn.resourcemanager.hostnamename>
                <value>datanode2value>
        property>

        <property>
                <name>yarn.log-aggregation-enablename>
                <value>truevalue>
        property>

        <property>
                <name>yarn.log-aggregation.retain-secondsname>
                <value>86400value>
        property>

        
        <property>
                <name>yarn.log.server.urlname>
                <value>http://datanode1:19888/jobhistory/logs/value>
        property>
configuration>

mapred-site.xml

<configuration>
        <property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
    property>
    
    <property>
        <name>mapreduce.jobhistory.addressname>
        <value>datanode1:10020value>
    property>
    
    <property>
        <name>mapreduce.jobhistory.webapp.addressname>
        <value>datanode1:19888value>
    property>
configuration>

不要忘记同步到其他集群然后namenode -for mate 执行初始化

部署 Oozie

oozie根目录下解压hadooplibs

1	tar -zxf oozie-hadooplibs-4.0.0-cdh5.3.6.tar.gz -C ../

1	mkdir libext/

拷贝依赖Jar包

1	cp -ra hadooplibs/hadooplib-2.5.0-cdh5.3.6.oozie-4.0.0-cdh5.3.6/* libext/

上传Mysql驱动包到libext目录下

上传ext-2.2.zip拷贝到libext目录下

修改oozie-site.xml

属性：oozie.service.JPAService.jdbc.driver
属性值：com.mysql.jdbc.Driver
解释：JDBC的驱动

属性：oozie.service.JPAService.jdbc.url
属性值：jdbc:mysql://datanode1:3306/oozie
解释：oozie所需的数据库地址

属性：oozie.service.JPAService.jdbc.username
属性值：root
解释：数据库用户名

属性：oozie.service.JPAService.jdbc.password
属性值：123456
解释：数据库密码

属性：oozie.service.HadoopAccessorService.hadoop.configurations
属性值：*=/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/etc/hadoop
解释：让Oozie引用Hadoop的配置文件

在Mysql中创建Oozie的数据库

1 2	mysql -uroot -p123456 mysql> create database oozie;

初始化Oozie

1	bin/oozie-setup.sh sharelib create -fs hdfs://datanode1:9000 -locallib oozie-sharelib-4.0.0-cdh5.3.6-yarn.tar.gz

创建oozie.sql文件

1	bin/oozie-setup.sh db create -run -sqlfile oozie.sql

打包项目，生成war包

1	bin/oozie-setup.sh prepare-war

需要zip命令最小化安装可能需要

Oozie服务

1
2
3

 bin/oozied.sh start
//如需正常关闭Oozie服务，请使用：
 bin/oozied.sh stop

Web页面

Oozie任务

调度shell

1.解压官方模板

1	tar -zxf oozie-examples.tar.gz

2.创建工作目录

1	mkdir oozie-apps/

3.拷贝任务模板

1	cp -r examples/apps/shell/ oozie-apps/

4.shell脚本

#!/bin/bash
i=1
mkdir /home/hadoop/oozie-test1
cd /home/hadoop/oozie-test1
for(( i=1;i<=100;i++ ))
do
 d=$( date +%Y-%m-%d\ %H\:%M\:%S )
 echo "data:$d $i">>/home/hadoop/oozie-test1/logs.log
done

5.job.properties

nameNode=hdfs://datanode1:9000
jobTracker=datanode2:8032
queueName=shell
examplesRoot=oozie-apps

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/shell
EXEC=p1.sh

6.workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.4" name="shell-wf">
    <start to="shell-node"/>
    <action name="shell-node">
        <shell xmlns="uri:oozie:shell-action:0.2">
            <job-tracker>${jobTracker}job-tracker>
            <name-node>${nameNode}name-node>
            <configuration>
                <property>
                    <name>mapred.job.queue.namename>
                    <value>${queueName}value>
                property>
            configuration>
            <exec>${EXEC}exec>
            <file>/user/hadoop/oozie-apps/shell/${EXEC}#${EXEC}file>
            <capture-output/>
        shell>
        <ok to="end"/>
        <error to="fail"/>
    action>
    <decision name="check-output">
        <switch>
            <case to="end">
                ${wf:actionData('shell-node')['my_output'] eq 'Hello Oozie'}
            case>
            <default to="fail-output"/>
        switch>
    decision>
    <kill name="fail">
        <message>Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]message>
    kill>
    <kill name="fail-output">
        <message>Incorrect output, expected [Hello Oozie] but was [${wf:actionData('shell-node')['my_output']}]message>
    kill>
    <end name="end"/>
workflow-app>

7.上传任务配置

1	/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -put -f oozie-apps/ /user/hadoop

8.执行任务

1	bin/oozie job -oozie http://datanode1:11000/oozie -config oozie-apps/shell/job.properties -run

9.杀死任务

1	bin/oozie job -oozie http://datanode1:11000/oozie -kill 0000004-170425105153692-oozie-z-W

调度逻辑shell

在原有的基础上进行适当修改

1.job.properties

nameNode=hdfs://datanode1:9000
jobTracker=datanode2:8032
queueName=shell
examplesRoot=oozie-apps

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/shell
EXEC1=p1.sh
EXEC2=p2.sh

2.脚本 p1.sh

#!/bin/bash               
mkdir /home/hadoop/Oozie2_test_p1                 
cd /home/hadoop/Oozie2_test_p1
i=1
for(( i=1;i<=100;i++ ))
do
 d=$( date +%Y-%m-%d\ %H\:%M\:%S )
 echo "data:$d $i">>/home/hadoop/Oozie2_test_p1/Oozie2_p1.log
done

2.脚本 p2.sh

#!/bin/bash
mkdir /home/hadoop/Oozie2_test_p1
cd /home/hadoop/Oozie2_test_p1
i=1
for(( i=1;i<=100;i++ ))
do
 d=$( date +%Y-%m-%d\ %H\:%M\:%S )
 echo "data:$d $i">>/home/hadoop/Oozie2_test_p1/Oozie2_p1.log
done

3.workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.4" name="shell-wf">
    <start to="shell-node"/>
    <action name="shell-node">
        <shell xmlns="uri:oozie:shell-action:0.2">
            <job-tracker>${jobTracker}job-tracker>
            <name-node>${nameNode}name-node>
            <configuration>
                <property>
                    <name>mapred.job.queue.namename>
                    <value>${queueName}value>
                property>
            configuration>
            <exec>${EXEC1}exec>
            <file>/user/hadoop/oozie-apps/shell/${EXEC1}#${EXEC1}file>
            <capture-output/>
        shell>
        <ok to="p2-shell-node"/>
        <error to="fail"/>
    action>

    <action name="p2-shell-node">
        <shell xmlns="uri:oozie:shell-action:0.2">
            <job-tracker>${jobTracker}job-tracker>
            <name-node>${nameNode}name-node>
            <configuration>
                <property>
                    <name>mapred.job.queue.namename>
                    <value>${queueName}value>
                property>
            configuration>
            <exec>${EXEC2}exec>
            <file>/user/hadoop/oozie-apps/shell/${EXEC2}#${EXEC2}file>
            
            <capture-output/>
        shell>
        <ok to="end"/>
        <error to="fail"/>
    action>
    
    <decision name="check-output">
        <switch>
            <case to="end">
                ${wf:actionData('shell-node')['my_output'] eq 'Hello Oozie'}
            case>
            <default to="fail-output"/>
        switch>
    decision>
    <kill name="fail">
        <message>Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]message>
    kill>
    <kill name="fail-output">
        <message>Incorrect output, expected [Hello Oozie] but was [${wf:actionData('shell-node')['my_output']}]message>
    kill>
    <end name="end"/>
workflow-app>

调度MapReduce

前提：确定YARN可用

1.拷贝官方模板到oozie-apps

1	[hadoop@datanode1 lib]$ cp /opt/module/cdh/hadoop-2.5.0-cdh5.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar ./

2.配置job.properties

nameNode=hdfs://datanode1:9000
jobTracker=datanode2:8032
queueName=map-reduce
examplesRoot=oozie-apps

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/map-reduce/workflow.xml
outputDir=/output

3.workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.2" name="map-reduce-wf">
    <start to="mr-node"/>
    <action name="mr-node">
        <map-reduce>
            <job-tracker>${jobTracker}job-tracker>
            <name-node>${nameNode}name-node>
            <prepare>
                <delete path="/output"/>
            prepare>
            <configuration>
                <property>
                    <name>mapred.job.queue.namename>
                    <value>${queueName}value>
                property>
            
                <property>
                    <name>mapred.mapper.new-apiname>
                    <value>truevalue>
                property>

                <property>
                    <name>mapred.reducer.new-apiname>
                    <value>truevalue>
                property>
            
                <property>
                    <name>mapreduce.job.output.key.classname>
                    <value>org.apache.hadoop.io.Textvalue>
                property>
            
                <property>
                    <name>mapreduce.job.output.value.classname>
                    <value>org.apache.hadoop.io.IntWritablevalue>
                property>
            
                <property>
                    <name>mapreduce.job.map.classname>
                    <value>org.apache.hadoop.examples.WordCount$TokenizerMappervalue>
                property>
             
                <property>
                    <name>mapreduce.job.reduce.classname>
                    <value>org.apache.hadoop.examples.WordCount$IntSumReducervalue>
                property>
                <property>
                    <name>mapred.map.tasksname>
                    <value>1value>
                property>
                <property>
                    <name>mapred.input.dirname>
                    <value>/inputvalue>
                property>
                <property>
                    <name>mapred.output.dirname>
                    <value>/_outputvalue>
                property>
            configuration>
        map-reduce>
        <ok to="end"/>
        <error to="fail"/>
    action>
    <kill name="fail">
        <message>Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]message>
    kill>
    <end name="end"/>
workflow-app>

4.拷贝jar包

1	[hadoop@datanode1 lib]$ cp /opt/module/cdh/hadoop-2.5.0-cdh5.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar ./

5.上传任务配置

1	/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -put -f oozie-apps /user/hadoop/oozie-apps

6.执行任务

1	[hadoop@datanode1 oozie-4.0.0-cdh5.3.6]$ bin/oozie job -oozie http://datanode1:11000/oozie -config oozie-apps/map-reduce/job.properties -run

7.查看结果

[hadoop@datanode1 module]$ /opt/module/cdh/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -cat /input/*.txt
19/01/10 19:13:37 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
I
Love
Hadoop
and
Sopark
I
Love
BigData
and
AI
[hadoop@datanode1 module]$ /opt/module/cdh/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -cat /_output/p*
19/01/10 19:13:08 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
AI      1
BigData 1
Hadoop  1
I       2
Love    2
Sopark  1
and     2

调度定时任务/循环任务

前提：

##检查系统当前时区： 
 date -R
##注意这里，如果显示的时区不是+0800，你可以删除localtime文件夹后，再关联一个正确时区的链接过去，命令如下：
 rm -rf /etc/localtime
 ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

ntp配置

1	vim /etc/ntp.conf

主机配置

从机配置

从节点同步时间

service ntpd restart
chkconfig ntpd on  # 开机启动
ntpdate -u datanode1
crontab -e
* */1 * * * /usr/sbin/ntpdate datanode1     #每一小时同步一次  注意 要用root创建

1.配置oozie-site.xml文件

1
2
3

属性：oozie.processing.timezone
属性值：GMT+0800
解释：修改时区为东八区区时

2.修改js框架代码

 vi /opt/module/cdh/oozie-4.0.0-cdh5.3.6/oozie-server/webapps/oozie/oozie-console.js
修改如下：
function getTimeZone() {
    Ext.state.Manager.setProvider(new Ext.state.CookieProvider());
    return Ext.state.Manager.get("TimezoneId","GMT+0800");
}

3.重启oozie服务，并重启浏览器（一定要注意清除缓存）

1 2	bin/oozied.sh stop bin/oozied.sh start

4.拷贝官方模板配置定时任务

1	cp -r examples/apps/cron/ oozie-apps/

5.修改job.properties

nameNode=hdfs://datanode1:9000
jobTracker=datanode2:8032
queueName=cronTask
examplesRoot=oozie-apps

oozie.coord.application.path=${nameNode}/user/${user.name}/${examplesRoot}/cron
start=2019-01-10T21:40+0800
end=2019-01-10T22:00+0800
workflowAppUri=${nameNode}/user/${user.name}/${examplesRoot}/cron

EXEC3=p3.sh

6.修改coordinator.xml 注意${coord:minutes(5)}的5是最小值不能比5再小了

<coordinator-app name="cron-coord" frequency="${coord:minutes(5)}" start="${start}" end="${end}" timezone="GMT+0800"
                 xmlns="uri:oozie:coordinator:0.2">
        <action>
        <workflow>
            <app-path>${workflowAppUri}app-path>
            <configuration>
                <property>
                    <name>jobTrackername>
                    <value>${jobTracker}value>
                property>
                <property>
                    <name>nameNodename>
                    <value>${nameNode}value>
                property>
                <property>
                    <name>queueNamename>
                    <value>${queueName}value>
                property>
            configuration>
        workflow>
    action>
coordinator-app>

7.创建脚本

1
2
3

#!/bin/bash
d=$( date +%Y-%m-%d\ %H\:%M\:%S )
echo "data:$d $i">>/home/hadoop/Oozie3_p3.log

8.修改

<workflow-app xmlns="uri:oozie:workflow:0.5" name="one-op-wf">
<start to="p3-shell-node"/>
  <action name="p3-shell-node">
      <shell xmlns="uri:oozie:shell-action:0.2">
          <job-tracker>${jobTracker}job-tracker>
          <name-node>${nameNode}name-node>
          <configuration>
              <property>
                  <name>mapred.job.queue.namename>
                  <value>${queueName}value>
              property>
          configuration>
          <exec>${EXEC3}exec>
          <file>/user/hadoop/oozie-apps/cron/${EXEC3}#${EXEC3}file>
          
          <capture-output/>
      shell>
      <ok to="end"/>
      <error to="fail"/>
  action>
<kill name="fail">
    <message>Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]message>
kill>
<kill name="fail-output">
    <message>Incorrect output, expected [Hello Oozie] but was [${wf:actionData('shell-node')['my_output']}]message>
kill>
<end name="end"/>
workflow-app>

9.提交配置

1	/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/bin/hdfs dfs -put oozie-apps/cron/ /user/hadoop/oozie-apps

10.提交任务

1	bin/oozie job -oozie http://datanode1:11000/oozie -config oozie-apps/cron/job.properties -run

你可能感兴趣的:(Oozie)

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
为什么我的CDH不用Hue，改用Scriptis了？兔子那么可爱大数据 UI 开源数据分析中间件
理性谈谈Hue的优缺点平时做数据开发用的比较多的是CDH的Hue，Hue提供了对接Hadoop平台的UI界面，可以对Hbase数据进行直接操作，执行Mapreducer任务时有可视化的执行界面，进行数据报表和Oozie定时任务，可以说还是非常的方便的。但是用久了就会发现Hue也有许多痛点。数据表不能直接方便地导出Excel，降低了工作效率UDF和函数支持较差，没有自带的数据分析常用UDF函数库，也
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明 BigDataMLApplication spark spark 大数据分布式
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明点击这里看全文文章目录添加其他JAR文件准备工作配置调试应用程序Spark属性重要说明KerberosYARN特定的Kerberos配置Kerberos故障排除配置外部Shuffle服务使用ApacheOozie启动应用程序使用Spark历史服务器替代SparkWebUI官网链接确保HADOOP_CONF_DIR或者YARN_C
azkaban的概况北京小峻大数据 azkaban mysql 数据库
Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
采用海豚调度器+Doris开发数仓保姆级教程（满满是踩坑干货细节，持续更新）大模型大数据攻城狮海豚调度器从入门到精通 doris 海豚调度器离线数仓实时数仓国产代替信创大数据 flink数仓
目录一、采用海豚调度器+Doris开发平替CDHHdfs+Yarn+Hive+Oozie的理由。1.架构复杂性2.数据处理性能3.数据同步与更新4.资源利用率与成本6.生态系统与兼容性7.符合信创或国产化要求二、ODS层接入数据接入kafka实时数据踩坑的问题细节三、海豚调度器调度Doris进行报表开发创建带分区的表在doris进行开发调试开发海豚调度器脚本解决shell脚本使用MySQL命令行给
Oozie Bundle 规范 weixin_34075268
为什么80%的码农都做不了架构师？>>>文档地址转载于:https://my.oschina.net/sskxyz/blog/756359
1.25-1.26 Coordinator数据集和oozie bundle weixin_30851867
一、Coordinator数据集二、ooziebundle转载于:https://www.cnblogs.com/weiyiming007/p/10881260.html
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
任务调度-Oozie的安装 neo_ng
Oozie的安装(0)前提条件:maven3.5.0Mysql5.7.19-0ubuntu0.16.04.1tomcat7.0.79sudoaptinstallmaven(1)编译在本地执行4.3版本才支持jdk1.8在根目录的pom.xml中修改组建的版本./mkdistro.sh-DskipTests//执行编译脚本成功:Ooziedistrocreated,DATE[2017.11.14-0
详解Linux运维工程师高级篇（大数据安全方向）. weixin_30588729 运维操作系统 java
hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry简介：从运维青铜到运维白银再到运维黄金，这里就要牵扯到方向问题也就是装备，根据自己的爱好，每个人都应该选择一个适合自己和喜欢自己的一个职业技术方向，如：大数据安全，开发运维，云计算运维等
[CDH5] Oozie web console is disabled 问题解决尼小摩
CDH5安装完成以后OozieWebUI点开显示Ooziewebconsoleisdisabled.问题解决：下载ExtJS2.2:下载地址：http://archive.cloudera.com/gplextras/misc/ext-2.2.zip上传到服务器并解压[root@hadoop1libext]#cd/opt/cloudera/parcels/CDH/lib/oozie/libext/
Flink（十三）【Flink SQL（上）】让线程再跑一会 Flink flink 大数据
前言最近在假期实训，但是实在水的不行，三天要学完SSM，实在一言难尽，浪费那时间干什么呢。SSM之前学了一半，等后面忙完了，再去好好重学一遍，毕竟这玩意真是面试必会的东西。今天开始学习Flink最后一部分FlinkSQL，完了还有不少框架得学：Kafka、Flume、ClickHouse、Hudi、Azkaban、OOzie...有的算是小工具，不费劲，但是学完得复习啊，这么多东西，必须赶紧做个小
项目实战-知行教育大数据分析平台-01 吆喝的翅膀 python+大数据学习数据仓库教育电商 hive hadoop cloudera
目录一、业务流程二、项目架构流程三、clouderamanager（CM）基本介绍四、项目环境搭建五、维度分析六、数仓建模1、维度建模2、什么是事实表与维度表3、事实表与维度表的分类4、维度建模的三种模型5、缓慢渐变维七、本项目数仓架构八、HUE的使用九、自动化调度工具介绍十、通过HUE操作oozie本文将利用前面所学的Linux，Hadoop，Hive等大数据技术，从企业级角度，开发一个涵盖需求
大数据调度框架Oozie，这个学习网站让你事半功倍！知识分享小能手大数据学习心得体会大数据学习任务调度
Oozie是一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache。它主要用于管理和调度ApacheHadoop作业，支持的任务类型包括HadoopMapReduce、PigJobs等。Oozie的核心概念包括workflowjobs和coordinatorjobs。Workflowjobs是由多个动作（actions）组成的有向无环图（DAG），即任务按照预定的逻辑顺序一步步执行
Oozie WorkFlow中Shell Action使用案例明明德撩码
cp-rexamples/apps/shelloozie-apps/mvshellshell-hive-selecttouchstudent-select.sh#!/usr/bin/envbash+##studentselect/opt/cdh5.3.6/hive-0.13.1-cdh5.3.6/bin/hive-fstudent-select.sqlvistudent-select.sqlins
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转) 我爱大海V5 Hadoop hadoop
目录[-]（一）hadoop相关安装部署（二）hive（三）pig（四）hadoop原理与编码（五）数据仓库与挖掘（六）Oozie工作流（七）HBase（八）flume（九）sqoop（十）ZooKeeper（十一）NOSQL（十二）Hadoop监控与管理（十三）Storm（十四）YARN&Hadoop2.0附：（一）hadoop相关安装部署1、hadoop在windowscygwin下的部署：h
调度工具之dolphinscheduler篇以茉萱大数据运维开发
前言随着开发程序的增多，任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题，随时少量的任务可以用linux系统自带的crontab加以定时进行，但缺点也很明细，不够直观，以及修改起来比较麻烦，容易出错，这时候就需要调度工具来帮忙，不知道大家都接触过哪些调度工具，我这边接触过airflow、oozie、Kyligence，但今天我想推荐的调度工具是dolphinscheduler，下面就从安
Flink快速入门 WaiSaa Java 大数据 flink 大数据
1、大数据处理框架发展史大数据-3v-tpezy-分而治之批处理流处理-微信运动、信用卡月度账单、国家季度GDP增速MPI-节点间数据通信-c和pythonMR-2004谷歌提出的编程范式-hadoop/storm/spark/flinkHadoop-MR、HDFS、YARN(hive/pig/hbase/oozie)StormSpark-cache/lineage-DAG/多线程池模型Flink
大数据技术之Oozie 星川皆无恙大数据系统运维大数据 java 数据仓库架构 sql
大数据技术之Oozie第1章Oozie简介Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。第2章Oozie的功能模块介绍2.1模块Workflow顺序执行流程节点，支
数据治理之定时调度和血缘关系十七✧ᐦ̤ 大数据 spring boot java
SpringBoot定时调度在applicaiton类上加注解@EnableScheuling创建调度包scheduler创建一个考评类调度类AssessScheduler创建exec()方法，添加注解@Scheduled(cron=“******”)分表代表秒，分，时，日，月，星期0/5,*****,代表每5秒执行一次调度工具大数据：oozie,Azkaban，任务众多，流程复杂，配置复杂jav
大数据集群报错集锦及解决方案陈舟的舟大数据大数据
文章目录前言1Hadoop1.1Yarn上执行MR计算报错空指针1.2NameNode启动失败2Hive2.1Hive数据量过大3Kafka3.1Kafka集群部分机器起不来4Azkaban4.1Azkaban页面登陆乱码5Oozie5.1Oozie初始化失败5.2脚本修改之后Oozie任务执行失败6Kerberos6.1启用Kerberos之后，hdfs浏览器打开鉴权失败7Spark7.1Spa
工作流调度工具Airflow1.8搭建及使用 weixin_34195142 数据库 shell python
编写目的最近工作任务需要把原来使用Kettle的ETL流程迁移到Hadoop平台上，就需要找一个替代Kettle工作流部分的工具。在大数据环境下，常用的无非是Oozie，Airflow或者Azkaban。经过简单的评估之后，我们选择了轻量化的Airflow作为我们的工作流工具。Airflow是一个工作流分配管理系统，通过有向非循环图的方式管理任务流程，设置任务依赖关系和时间调度。Airflow独立
大数据工作流_【大数据开发】OOZIE的工作流调度及功能架构（一） weixin_39918682 大数据工作流
OOZIE工作流调度及功能架构(一)Ⅰ常见的几个工作流调度框架Ⅱoozie的功能架构常见的几个工作流调度框架什么是工作流？常见的JBMP(工作流调度框架)：1.Crontab：详情见新闻网关指标张景宇，公众号：数据信息化【大数据开发】Hive的高级应用之新闻网关键指标统计(九)2.Azkaban3.Oozie+Hue4.Zeusoozie的功能架构1)Oozie是一个用于管理ApacheHadoo
大数据Oozie任务调度赵广陆 bigdata java 大数据 es
目录1Oozie概述2Oozie的架构3Oozie基本原理3.1流程节点4Oozie工作流类型4.1WorkFlow4.2Coordinator4.3Bundle5Oozie和Hue整合5.1修改hue配置文件hue.ini5.2启动hue、oozie5.3Hue集成Oozie5.3.1使用hue配置oozie调度5.3.2利用hue调度shell脚本5.3.3利用hue调度hive脚本5.3.4
大数据工作流调度 zhixingheyi_tian spark spark
DolphinScheduler在大数据领域,DolphinScheduler对标的开源产品是oozie、Azkaban、Airflow.参考链接：https://zhuanlan.zhihu.com/p/558709297
大数据博文列表羽落风起大数据 kafka flink hadoop
文章目录说明分享大数据简述搭建hadoop平台单机版集群版安装优化组件hadoophdfsyarnflinkHbaseElasticsearchkafkasparkhiveoozie其他vmwaredocker说明本文列举已有的大数据相关博文清单，方便查看阅读。分享个人java工具库项目https://gitee.com/wangzonghui/object-tool包含json、string、集
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler) 王知无(import_bigdata) 分布式大数据 python java 编程语言
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜八股文交给我，你们专心刷题和面试Hi，我是王知无，一个大数据领域的原创作者。放心关注我，获取更多行业的一手消息。大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结，结合目前阿里云上的MaxCompute中的调度系统，做个对比。OozieOozie是一个workflow(工作流)协调系
flink学习（一） Daivei_lai flink flink
前言：之前学习flink时没有系统性的复习，现在不多BB就是为了复习flink（从头再来）1.1flink的引入计算引擎分为几代有些争议，这里我选择的是四代第一代计算引擎，MapReduce（首先第一代的计算引擎，无疑就是Hadoop承载的MapReduce，它将计算分为两个阶段，分别为Map和Reduce）第二代计算引擎，tez+Oozie（特点：批处理1个Tez=MR(1)+MR(2)+…+M
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS