魔法 • 革

oozie

1、 oozie的介绍

Oozie是运行在hadoop平台上的一种工作流调度引擎，它可以用来调度与管理hadoop任务，如，MapReduce、Pig等。那么，对于OozieWorkflow中的一个个的action（可以理解成一个个MapReduce任务）Oozie是根据什么来对action的执行时间与执行顺序进行管理调度的呢？答案就是我们在数据结构中常见的有向无环图(DAGDirect Acyclic Graph)的模式来进行管理调度的，我们可以利用HPDL语言（一种xml语言）来定义整个workflow，实现工作流的调度oozie的架构以及执行流程

2、oozie的架构

oozie的执行流程

oozie的组件介绍

workFlow：工作流，定义我们的工作流的任务的执行，主要由一个个的action，在xml中进行配置即可

Coordinator ：协作器，说白了就是oozie当中的定时任务调度的模块

Bundle ：多个Coordinator 的抽象，可以通过bundle将多个Coordinator 进行组装集合起来，形成一个bundle

3、oozie的安装

第一步：修改core-site.xml

修改core-site.xml添加我们hadoop集群的代理用户

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim  core-site.xml

	
                hadoop.proxyuser.root.hosts
                *
        
        
                hadoop.proxyuser.root.groups
                *

注意：hadoop的历史任务的服务必须启动，即19888端口可以查看，具体如何配置19888请查看hadoop课程的环境搭建

修改完成之后，记得重启hadoop的hdfs与yarn集群，还要记得启动jobhistory

重启hdfs与yarn集群

cd /export/servers/hadoop-2.6.0-cdh5.14.0
sbin/stop-dfs.sh
sbin/start-dfs.sh
sbin/stop-yarn.sh
sbin/start-yarn.sh

第二步：上传oozie的安装包并解压

将我们的oozie的安装包上传到/export/softwares

cd /export/softwares/
tar -zxvf oozie-4.1.0-cdh5.14.0.tar.gz -C ../servers/

第三步：解压hadooplibs到与oozie平行的目录

cd /export/servers/oozie-4.1.0-cdh5.14.0
tar -zxvf oozie-hadooplibs-4.1.0-cdh5.14.0.tar.gz -C ../

第四步：创建libext目录

在oozie的安装路径下创建libext目录

cd /export/servers/oozie-4.1.0-cdh5.14.0
mkdir -p libext

第五步：拷贝依赖包到libext

拷贝一些依赖包到libext目录下面去

拷贝所有的依赖包

cd /export/servers/oozie-4.1.0-cdh5.14.0
cp -ra hadooplibs/hadooplib-2.6.0-cdh5.14.0.oozie-4.1.0-cdh5.14.0/* libext/

拷贝mysql的驱动包

cp /export/servers/hive-1.1.0-cdh5.14.0/lib/mysql-connector-java-5.1.38.jar /export/servers/oozie-4.1.0-cdh5.14.0/libext/

第六步：添加ext-2.2.zip压缩包

拷贝ext-2.2.zip这个包到libext目录当中去

将我们准备好的软件ext-2.2.zip拷贝到我们的libext目录当中去

第七步：修改oozie-site.xml

cd /export/servers/oozie-4.1.0-cdh5.14.0/conf
vim oozie-site.xml

如果没有这些属性，直接添加进去即可，oozie默认使用的是UTC的时区，我们需要在我们oozie-site.xml当中记得要配置我们的时区为GMT+0800时区


        oozie.service.JPAService.jdbc.driver
        com.mysql.jdbc.Driver
    
	
	
        oozie.service.JPAService.jdbc.url
        jdbc:mysql://node03.hadoop.com:3306/oozie
    
	
	
	
		oozie.service.JPAService.jdbc.username
		root
	

    
        oozie.service.JPAService.jdbc.password
        123456
    

	
			oozie.processing.timezone
			GMT+0800
	


	
		oozie.service.ProxyUserService.proxyuser.hue.hosts
        *
    
	
	
       oozie.service.ProxyUserService.proxyuser.hue.groups
        *
    
	
	
        oozie.service.coord.check.maximum.frequency
		false
         


	
	oozie.service.HadoopAccessorService.hadoop.configurations
        *=/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop

第八步：创建mysql数据库

mysql -uroot -p
create database oozie;

第九步：上传oozie依赖的jar包到hdfs上面去

上传oozie的解压后目录的yarn.tar.gz到hdfs目录去

bin/oozie-setup.sh  sharelib create -fs hdfs://node01:8020 -locallib oozie-sharelib-4.1.0-cdh5.14.0-yarn.tar.gz

实际上就是将这些jar包解压到了hdfs上面的路径下面去了

第十步：创建oozie的数据库表

cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie-setup.sh  db create -run -sqlfile oozie.sql

第十一步：打包项目，生成war包

cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie-setup.sh  prepare-war

第十二步：配置oozie的环境变量

vim /etc/profile


export OOZIE_HOME=/export/servers/oozie-4.1.0-cdh5.14.0
export OOZIE_URL=http://node03.hadoop.com:11000/oozie
export PATH=:$OOZIE_HOME/bin:$PATH



source /etc/profile

第十三步：启动与关闭oozie服务

启动命令
cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozied.sh start 





关闭命令
bin/oozied.sh stop

第十四步：浏览器页面访问oozie

http://node03:11000/oozie/

解决oozie的页面的时区问题：

我们页面访问的时候，发现我们的oozie使用的还是GMT的时区，与我们现在的时区相差一定的时间，所以我们需要调整一个js的获取时区的方法，将其改成我们现在的时区

修改js当中的时区问题

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie-server/webapps/oozie
vim oozie-console.js

function getTimeZone() {
    Ext.state.Manager.setProvider(new Ext.state.CookieProvider());
    return Ext.state.Manager.get("TimezoneId","GMT+0800");
}

重启oozie即可
cd /export/servers/oozie-4.1.0-cdh5.14.0

关闭oozie服务
bin/oozied.sh stop

启动oozie服务
bin/oozied.sh start

4、oozie的使用

4.1、使用oozie调度shell脚本

oozie安装好了之后，我们需要测试oozie的功能是否完整好使，官方已经给我们带了各种测试案例，我们可以通过官方提供的各种案例来对我们的oozie进行调度

第一步：解压官方提供的调度案例

oozie自带了各种案例，我们可以使用oozie自带的各种案例来作为模板，所以我们这里先把官方提供的各种案例给解压出来

cd /export/servers/oozie-4.1.0-cdh5.14.0
tar -zxf oozie-examples.tar.gz

第二步：创建我们的工作目录

在任意地方创建一个oozie的工作目录，以后我们的调度任务的配置文件全部放到oozie的工作目录当中去

我这里直接在oozie的安装目录下面创建工作目录

cd /export/servers/oozie-4.1.0-cdh5.14.0
mkdir oozie_works

第三步：拷贝我们的任务模板到我们的工作目录当中去

我们的任务模板以及工作目录都准备好了之后，我们把我们的shell的任务模板拷贝到我们oozie的工作目录当中去

cd /export/servers/oozie-4.1.0-cdh5.14.0
cp -r examples/apps/shell/ oozie_works/

第四步：随意准备一个shell脚本

cd /export/servers/oozie-4.1.0-cdh5.14.0
vim oozie_works/shell/hello.sh

注意：这个脚本一定要是在我们oozie工作路径下的shell路径下的位置

#!/bin/bash
echo "hello world" >> /export/servers/hello_oozie.txt

第五步：修改模板下的配置文件

修改job.properties

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/shell
vim job.properties


nameNode=hdfs://node01:8020
jobTracker=node01:8032 
queueName=default 
examplesRoot=oozie_works 
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/shell
EXEC=hello.sh 



修改workflow.xml

vim workflow.xml




    
        ${jobTracker}
        ${nameNode}
        
            
                mapred.job.queue.name
                ${queueName}
            
        
        ${EXEC}
        
        /user/root/oozie_works/shell/${EXEC}#${EXEC}

        
    
    
    


    
        
            ${wf:actionData('shell-node')['my_output'] eq 'Hello Oozie'}
        
        
    


    Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]


    Incorrect output, expected [Hello Oozie] but was [${wf:actionData('shell-node')['my_output']}]

第六步：上传我们的调度任务到hdfs上面去

注意：上传的hdfs目录为/user/root，因为我们hadoop启动的时候使用的是root用户，如果hadoop启动的是其他用户，那么就上传到

/user/其他用户

cd /export/servers/oozie-4.1.0-cdh5.14.0
hdfs dfs -put oozie_works/ /user/root

第七步：执行调度任务

通过oozie的命令来执行我们的调度任务

cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/shell/job.properties  -run

从监控界面可以看到我们的任务执行成功了

查看hadoop的19888端口，我们会发现，oozie启动了一个MR的任务去执行我们的shell脚本

4.2、使用oozie调度我们的hive

第一步：拷贝hive的案例模板

cd /export/servers/oozie-4.1.0-cdh5.14.0
cp -ra examples/apps/hive2/ oozie_works/

第二步：编辑hive模板

这里使用的是hiveserver2来进行提交任务，需要注意我们要将hiveserver2的服务给启动起来

修改job.properties

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/hive2

vim job.properties
nameNode=hdfs://node01:8020
jobTracker=node01:8032
queueName=default
jdbcURL=jdbc:hive2://node03:10000/default
examplesRoot=oozie_works



oozie.use.system.libpath=true
# 配置我们文件上传到hdfs的保存路径 实际上就是在hdfs 的/user/root/oozie_works/hive2这个路径下
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/hive2




修改workflow.xml
vim workflow.xml




    

    
        
            ${jobTracker}
            ${nameNode}
            
                
                
            
            
                
                    mapred.job.queue.name
                    ${queueName}
                
            
            ${jdbcURL}
            
            INPUT=/user/${wf:user()}/${examplesRoot}/input-data/table
            OUTPUT=/user/${wf:user()}/${examplesRoot}/output-data/hive2
        
        
        
    

    
        Hive2 (Beeline) action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]
    
    





编辑hivesql文件
vim script.q
DROP TABLE IF EXISTS test;
CREATE EXTERNAL TABLE test (a INT) STORED AS TEXTFILE LOCATION '${INPUT}';
insert into test values(10);
insert into test values(20);
insert into test values(30);

第三步：上传工作文件到hdfs

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works
hdfs dfs -put hive2/ /user/root/oozie_works/

第四步：执行oozie的调度

cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/hive2/job.properties  -run

第五步：查看调度结果

4.3、使用oozie调度MR任务

第一步：准备MR执行的数据

我们这里通过oozie调度一个MR的程序的执行，MR的程序可以是自己写的，也可以是hadoop工程自带的，我们这里就选用hadoop工程自带的MR程序来运行wordcount的示例

准备以下数据上传到HDFS的/oozie/input路径下去

hdfs dfs -mkdir -p /oozie/input
vim wordcount.txt



hello   world   hadoop
spark   hive    hadoop

将我们的数据上传到hdfs对应目录

hdfs dfs -put wordcount.txt /oozie/input

第二步：执行官方测试案例

yarn jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.0.jar wordcount /oozie/input/ /oozie/output

第三步：准备我们调度的资源

将我们需要调度的资源都准备好放到一个文件夹下面去，包括我们的jar包，我们的job.properties，以及我们的workflow.xml。

拷贝MR的任务模板

cd /export/servers/oozie-4.1.0-cdh5.14.0
cp -ra examples/apps/map-reduce/ oozie_works/

删掉MR任务模板lib目录下自带的jar包

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce/lib
rm -rf oozie-examples-4.1.0-cdh5.14.0.jar

第三步：拷贝我们自己的jar包到对应目录

从上一步的删除当中，我们可以看到我们需要调度的jar包存放在了

/export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce/lib这个目录下，所以我们把我们需要调度的jar包也放到这个路径下即可

cp /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.0.jar /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce/lib/

第四步：修改配置文件

修改job.properties
cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce
vim job.properties
nameNode=hdfs://node01:8020
jobTracker=node01:8032
queueName=default
examplesRoot=oozie_works

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/map-reduce/workflow.xml
outputDir=/oozie/output
inputdir=/oozie/input






修改workflow.xml
cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce
vim workflow.xml






    
    
        
            ${jobTracker}
            ${nameNode}
            
                
            
            
                
                    mapred.job.queue.name
                    ${queueName}
                
				
				
				   
                
                    mapred.mapper.new-api
                    true
                

                
                    mapred.reducer.new-api
                    true
                

                
                
                    mapreduce.job.output.key.class
                    org.apache.hadoop.io.Text
                

                
                
                    mapreduce.job.output.value.class
                    org.apache.hadoop.io.IntWritable
                

                
                
                    mapred.input.dir
                    ${nameNode}/${inputdir}
                

                
                
                    mapred.output.dir
                    ${nameNode}/${outputDir}
                

                
                
                    mapreduce.job.map.class
                    org.apache.hadoop.examples.WordCount$TokenizerMapper
                

                
                
                    mapreduce.job.reduce.class
                    org.apache.hadoop.examples.WordCount$IntSumReducer
                
				
                
                    mapred.map.tasks
                    1
                

            
        
        
        
    
    
        Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]

第五步：上传调度任务到hdfs对应目录

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works
hdfs dfs -put map-reduce/ /user/root/oozie_works/

第六步：执行调度任务

执行我们的调度任务，然后通过oozie的11000端口进行查看任务结果

cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/map-reduce/job.properties -run

4.4、oozie的任务串联

在实际工作当中，肯定会存在多个任务需要执行，并且存在上一个任务的输出结果作为下一个任务的输入数据这样的情况，所以我们需要在workflow.xml配置文件当中配置多个action，实现多个任务之间的相互依赖关系

需求：首先执行一个shell脚本，执行完了之后再执行一个MR的程序，最后再执行一个hive的程序

第一步：准备我们的工作目录

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works
mkdir -p sereval-actions

第二步：准备我们的调度文件

将我们之前的hive，shell，以及MR的执行，进行串联成到一个workflow当中去，准备我们的资源文件

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works
cp hive2/script.q sereval-actions/
cp shell/hello.sh sereval-actions/
cp -ra map-reduce/lib sereval-actions/

第三步：开发调度的配置文件

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/sereval-actions

创建配置文件workflow.xml并编辑

vim workflow.xml







    
        ${jobTracker}
        ${nameNode}
        
            
                mapred.job.queue.name
                ${queueName}
            
        
        ${EXEC}
        
        /user/root/oozie_works/sereval-actions/${EXEC}#${EXEC}

        
    
    
    






        
            ${jobTracker}
            ${nameNode}
            
                
            
            
                
                    mapred.job.queue.name
                    ${queueName}
                
				
				
				   
                
                    mapred.mapper.new-api
                    true
                

                
                    mapred.reducer.new-api
                    true
                

                
                
                    mapreduce.job.output.key.class
                    org.apache.hadoop.io.Text
                

                
                
                    mapreduce.job.output.value.class
                    org.apache.hadoop.io.IntWritable
                

                
                
                    mapred.input.dir
                    ${nameNode}/${inputdir}
                

                
                
                    mapred.output.dir
                    ${nameNode}/${outputDir}
                

                
                
                    mapreduce.job.map.class
                    org.apache.hadoop.examples.WordCount$TokenizerMapper
                

                
                
                    mapreduce.job.reduce.class
                    org.apache.hadoop.examples.WordCount$IntSumReducer
                
				
                
                    mapred.map.tasks
                    1
                

            
        
        
        
    






 
        
            ${jobTracker}
            ${nameNode}
            
                
                
            
            
                
                    mapred.job.queue.name
                    ${queueName}
                
            
            ${jdbcURL}
            
            INPUT=/user/${wf:user()}/${examplesRoot}/input-data/table
            OUTPUT=/user/${wf:user()}/${examplesRoot}/output-data/hive2
        
        
        
    

    
        
            ${wf:actionData('shell-node')['my_output'] eq 'Hello Oozie'}
        
        
    


    Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]


    Incorrect output, expected [Hello Oozie] but was [${wf:actionData('shell-node')['my_output']}]

开发我们的job.properties配置文件

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/sereval-actions
vim  job.properties




nameNode=hdfs://node01:8020
jobTracker=node01:8032
queueName=default
examplesRoot=oozie_works
EXEC=hello.sh
outputDir=/oozie/output
inputdir=/oozie/input
jdbcURL=jdbc:hive2://node03:10000/default
oozie.use.system.libpath=true
# 配置我们文件上传到hdfs的保存路径 实际上就是在hdfs 的/user/root/oozie_works/sereval-actions这个路径下
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/sereval-actions/workflow.xml

第四步：上传我们的资源文件夹到hdfs对应路径

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/
hdfs dfs -put sereval-actions/ /user/root/oozie_works/

第五步：执行调度任务

cd /export/servers/oozie-4.1.0-cdh5.14.0/
bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/serveral-actions/job.properties -run

4.5、oozie的任务调度,定时任务执行

在oozie当中，主要是通过Coordinator 来实现任务的定时调度，与我们的workflow类似的，Coordinator 这个模块也是主要通过xml来进行配置即可，接下来我们就来看看如何配置Coordinator 来实现任务的定时调度

Coordinator 的调度主要可以有两种实现方式

第一种：基于时间的定时任务调度，

oozie基于时间的调度主要需要指定三个参数，第一个起始时间，第二个结束时间，第三个调度频率

第二种：基于数据的任务调度，只有在有了数据才会去出发执行

这种是基于数据的调度，只要在有了数据才会触发调度任务

oozie当中定时任务的设置

第一步：拷贝定时任务的调度模板

cd /export/servers/oozie-4.1.0-cdh5.14.0
cp -r examples/apps/cron oozie_works/cron-job

第二步：拷贝我们的hello.sh脚本

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works
cp shell/hello.sh  cron-job/

第三步：修改配置文件

修改job.properties
cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/cron-job
vim job.properties
nameNode=hdfs://node01:8020
jobTracker=node01:8032
queueName=default
examplesRoot=oozie_works

oozie.coord.application.path=${nameNode}/user/${user.name}/${examplesRoot}/cron-job/coordinator.xml
start=2018-08-22T19:20+0800
end=2019-08-22T19:20+0800
EXEC=hello.sh
workflowAppUri=${nameNode}/user/${user.name}/${examplesRoot}/cron-job/workflow.xml





修改coordinator.xml
vim coordinator.xml


        
        
            ${workflowAppUri}
            
                
                    jobTracker
                    ${jobTracker}
                
                
                    nameNode
                    ${nameNode}
                
                
                    queueName
                    ${queueName}
                
            
        
    







修改workflow.xml
vim workflow.xml

    
    
    
        ${jobTracker}
        ${nameNode}
        
            
                mapred.job.queue.name
                ${queueName}
            
        
        ${EXEC}
        
        /user/root/oozie_works/cron-job/${EXEC}#${EXEC}

第四步：上传到hdfs对应路径

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works
hdfs dfs -put cron-job/ /user/root/oozie_works/

第五步：运行定时任务

cd /export/servers/oozie-4.1.0-cdh5.14.0

bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/cron-job/job.properties -run

oozie当中任务的查看以及杀死

查看所有普通任务
oozie  jobs



查看定时任务
oozie jobs -jobtype coordinator

杀死某个任务

oozie可以通过jobid来杀死某个定时任务
oozie job -kill [id]
例如我们可以使用命令
oozie job -kill 0000085-180628150519513-oozie-root-C
来杀死我们定时任务

你可能感兴趣的:(oozie)

Oozie Bundle 规范 weixin_34075268
为什么80%的码农都做不了架构师？>>>文档地址转载于:https://my.oschina.net/sskxyz/blog/756359
1.25-1.26 Coordinator数据集和oozie bundle weixin_30851867
一、Coordinator数据集二、ooziebundle转载于:https://www.cnblogs.com/weiyiming007/p/10881260.html
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
任务调度-Oozie的安装 neo_ng
Oozie的安装(0)前提条件:maven3.5.0Mysql5.7.19-0ubuntu0.16.04.1tomcat7.0.79sudoaptinstallmaven(1)编译在本地执行4.3版本才支持jdk1.8在根目录的pom.xml中修改组建的版本./mkdistro.sh-DskipTests//执行编译脚本成功:Ooziedistrocreated,DATE[2017.11.14-0
详解Linux运维工程师高级篇（大数据安全方向）. weixin_30588729 运维操作系统 java
hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry简介：从运维青铜到运维白银再到运维黄金，这里就要牵扯到方向问题也就是装备，根据自己的爱好，每个人都应该选择一个适合自己和喜欢自己的一个职业技术方向，如：大数据安全，开发运维，云计算运维等
[CDH5] Oozie web console is disabled 问题解决尼小摩
CDH5安装完成以后OozieWebUI点开显示Ooziewebconsoleisdisabled.问题解决：下载ExtJS2.2:下载地址：http://archive.cloudera.com/gplextras/misc/ext-2.2.zip上传到服务器并解压[root@hadoop1libext]#cd/opt/cloudera/parcels/CDH/lib/oozie/libext/
Flink（十三）【Flink SQL（上）】让线程再跑一会 Flink flink 大数据
前言最近在假期实训，但是实在水的不行，三天要学完SSM，实在一言难尽，浪费那时间干什么呢。SSM之前学了一半，等后面忙完了，再去好好重学一遍，毕竟这玩意真是面试必会的东西。今天开始学习Flink最后一部分FlinkSQL，完了还有不少框架得学：Kafka、Flume、ClickHouse、Hudi、Azkaban、OOzie...有的算是小工具，不费劲，但是学完得复习啊，这么多东西，必须赶紧做个小
项目实战-知行教育大数据分析平台-01 吆喝的翅膀 python+大数据学习数据仓库教育电商 hive hadoop cloudera
目录一、业务流程二、项目架构流程三、clouderamanager（CM）基本介绍四、项目环境搭建五、维度分析六、数仓建模1、维度建模2、什么是事实表与维度表3、事实表与维度表的分类4、维度建模的三种模型5、缓慢渐变维七、本项目数仓架构八、HUE的使用九、自动化调度工具介绍十、通过HUE操作oozie本文将利用前面所学的Linux，Hadoop，Hive等大数据技术，从企业级角度，开发一个涵盖需求
大数据调度框架Oozie，这个学习网站让你事半功倍！知识分享小能手大数据学习心得体会大数据学习任务调度
Oozie是一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache。它主要用于管理和调度ApacheHadoop作业，支持的任务类型包括HadoopMapReduce、PigJobs等。Oozie的核心概念包括workflowjobs和coordinatorjobs。Workflowjobs是由多个动作（actions）组成的有向无环图（DAG），即任务按照预定的逻辑顺序一步步执行
Oozie WorkFlow中Shell Action使用案例明明德撩码
cp-rexamples/apps/shelloozie-apps/mvshellshell-hive-selecttouchstudent-select.sh#!/usr/bin/envbash+##studentselect/opt/cdh5.3.6/hive-0.13.1-cdh5.3.6/bin/hive-fstudent-select.sqlvistudent-select.sqlins
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转) 我爱大海V5 Hadoop hadoop
目录[-]（一）hadoop相关安装部署（二）hive（三）pig（四）hadoop原理与编码（五）数据仓库与挖掘（六）Oozie工作流（七）HBase（八）flume（九）sqoop（十）ZooKeeper（十一）NOSQL（十二）Hadoop监控与管理（十三）Storm（十四）YARN&Hadoop2.0附：（一）hadoop相关安装部署1、hadoop在windowscygwin下的部署：h
调度工具之dolphinscheduler篇以茉萱大数据运维开发
前言随着开发程序的增多，任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题，随时少量的任务可以用linux系统自带的crontab加以定时进行，但缺点也很明细，不够直观，以及修改起来比较麻烦，容易出错，这时候就需要调度工具来帮忙，不知道大家都接触过哪些调度工具，我这边接触过airflow、oozie、Kyligence，但今天我想推荐的调度工具是dolphinscheduler，下面就从安
Flink快速入门 WaiSaa Java 大数据 flink 大数据
1、大数据处理框架发展史大数据-3v-tpezy-分而治之批处理流处理-微信运动、信用卡月度账单、国家季度GDP增速MPI-节点间数据通信-c和pythonMR-2004谷歌提出的编程范式-hadoop/storm/spark/flinkHadoop-MR、HDFS、YARN(hive/pig/hbase/oozie)StormSpark-cache/lineage-DAG/多线程池模型Flink
大数据技术之Oozie 星川皆无恙大数据系统运维大数据 java 数据仓库架构 sql
大数据技术之Oozie第1章Oozie简介Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对HadoopMapReduce、PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。第2章Oozie的功能模块介绍2.1模块Workflow顺序执行流程节点，支
数据治理之定时调度和血缘关系十七✧ᐦ̤ 大数据 spring boot java
SpringBoot定时调度在applicaiton类上加注解@EnableScheuling创建调度包scheduler创建一个考评类调度类AssessScheduler创建exec()方法，添加注解@Scheduled(cron=“******”)分表代表秒，分，时，日，月，星期0/5,*****,代表每5秒执行一次调度工具大数据：oozie,Azkaban，任务众多，流程复杂，配置复杂jav
大数据集群报错集锦及解决方案陈舟的舟大数据大数据
文章目录前言1Hadoop1.1Yarn上执行MR计算报错空指针1.2NameNode启动失败2Hive2.1Hive数据量过大3Kafka3.1Kafka集群部分机器起不来4Azkaban4.1Azkaban页面登陆乱码5Oozie5.1Oozie初始化失败5.2脚本修改之后Oozie任务执行失败6Kerberos6.1启用Kerberos之后，hdfs浏览器打开鉴权失败7Spark7.1Spa
工作流调度工具Airflow1.8搭建及使用 weixin_34195142 数据库 shell python
编写目的最近工作任务需要把原来使用Kettle的ETL流程迁移到Hadoop平台上，就需要找一个替代Kettle工作流部分的工具。在大数据环境下，常用的无非是Oozie，Airflow或者Azkaban。经过简单的评估之后，我们选择了轻量化的Airflow作为我们的工作流工具。Airflow是一个工作流分配管理系统，通过有向非循环图的方式管理任务流程，设置任务依赖关系和时间调度。Airflow独立
大数据工作流_【大数据开发】OOZIE的工作流调度及功能架构（一） weixin_39918682 大数据工作流
OOZIE工作流调度及功能架构(一)Ⅰ常见的几个工作流调度框架Ⅱoozie的功能架构常见的几个工作流调度框架什么是工作流？常见的JBMP(工作流调度框架)：1.Crontab：详情见新闻网关指标张景宇，公众号：数据信息化【大数据开发】Hive的高级应用之新闻网关键指标统计(九)2.Azkaban3.Oozie+Hue4.Zeusoozie的功能架构1)Oozie是一个用于管理ApacheHadoo
大数据Oozie任务调度赵广陆 bigdata java 大数据 es
目录1Oozie概述2Oozie的架构3Oozie基本原理3.1流程节点4Oozie工作流类型4.1WorkFlow4.2Coordinator4.3Bundle5Oozie和Hue整合5.1修改hue配置文件hue.ini5.2启动hue、oozie5.3Hue集成Oozie5.3.1使用hue配置oozie调度5.3.2利用hue调度shell脚本5.3.3利用hue调度hive脚本5.3.4
大数据工作流调度 zhixingheyi_tian spark spark
DolphinScheduler在大数据领域,DolphinScheduler对标的开源产品是oozie、Azkaban、Airflow.参考链接：https://zhuanlan.zhihu.com/p/558709297
大数据博文列表羽落风起大数据 kafka flink hadoop
文章目录说明分享大数据简述搭建hadoop平台单机版集群版安装优化组件hadoophdfsyarnflinkHbaseElasticsearchkafkasparkhiveoozie其他vmwaredocker说明本文列举已有的大数据相关博文清单，方便查看阅读。分享个人java工具库项目https://gitee.com/wangzonghui/object-tool包含json、string、集
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler) 王知无(import_bigdata) 分布式大数据 python java 编程语言
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜八股文交给我，你们专心刷题和面试Hi，我是王知无，一个大数据领域的原创作者。放心关注我，获取更多行业的一手消息。大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结，结合目前阿里云上的MaxCompute中的调度系统，做个对比。OozieOozie是一个workflow(工作流)协调系
flink学习（一） Daivei_lai flink flink
前言：之前学习flink时没有系统性的复习，现在不多BB就是为了复习flink（从头再来）1.1flink的引入计算引擎分为几代有些争议，这里我选择的是四代第一代计算引擎，MapReduce（首先第一代的计算引擎，无疑就是Hadoop承载的MapReduce，它将计算分为两个阶段，分别为Map和Reduce）第二代计算引擎，tez+Oozie（特点：批处理1个Tez=MR(1)+MR(2)+…+M
Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优) weixin_33856370 大数据 ldap 运维
1.课程环境本课程涉及的技术产品及相关版本：技术版本LinuxCentOS6.5Java1.7Hadoop2.02.6.0Hadoop1.01.2.1Zookeeper3.4.6CDHHadoop5.3.0Vmware10Hive0.13.1HBase0.98.6Impala2.1.0Oozie4.0.0Hue3.7.02.内容简介本教程针对有一定Hadoop基础的学员，深入讲解如下方面的内容：1
oozie的url没有界面小小毛同学
原因是：少了一个Ext-2.2.zip文件。需要下载这个文件，然后解压到oozie的lib下面文件（不能上传文件，只能私聊发给你，或是微信发给你maochentingqiang）图片发自App
【大数据】Hadoop 生态系统及其组件 G皮T #Hadoop hadoop big data 大数据 hdfs hive mapreduce yarn
Hadoop生态系统及其组件1.Hadoop生态系统的组成2.Hadoop生态系统简介2.1HDFS2.2MapReduce2.3YARN2.4Hive2.5Pig2.6HBase2.7HCatalog2.8Avro2.9Thrift2.10Drill2.11Mahout2.12Sqoop2.13Flume2.14Ambari2.15Zookeeper2.16Oozie1.Hadoop生态系统的组
那些在CDH5中是bug，到了CDH6版本就修复了的问题 ClouderaHadoop Cloudera impala hdfs 大数据 hadoop spark
盘点那些在CDH5中是bug，到了CDH6版本就修复了的问题。涉及到Hadoop、HDFS、YARN、HBASE、hive、hue、impala、kudu、oozie、solr、spark、kafka、parquet、zookeeper等组件。如果你的集群问题是被列出的这些，那么升级是可以解决问题的。列出的只是部分的一百多个问题，Cloudera今年年底会停止CDH5的支持，对于CDH5的用户来说
Hive数仓项目之数仓分层、数仓工具的使用黑马程序员官方数据仓库大数据 python
往期内容：Hive数仓项目架构说明、环境搭建及数据仓库基础知识今日内容:1)教育项目数仓分层(知道,明确每一层的作用)2)数仓工具的相关的使用(操作)2.1HUE相关的使用(操作HDFSHIVE,OOZIE)2.2sqoop的基本使用操作访问咨询主题看板实操3.1需求分析(务必掌握--最好能够自己分析的出来,如果不行,先理解掉)3.2建模分析(务必掌握--最好能够自己分析的出来,如果不行,先理解掉
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri