黑泽君

大数据技术之_13_Azkaban学习_Azkaban(阿兹卡班)介绍 + Azkaban 安装部署 + Azkaban 实战

大数据技术之_13_Azkaban学习

一概述

1.1 为什么需要工作流调度系统
1.2 常见工作流调度系统
1.3 各种调度工具特性对比
1.4 Azkaban 与 Oozie 对比

二 Azkaban（阿兹卡班）介绍
三 Azkaban 安装部署

3.1 安装前准备
3.2 安装 azkaban
3.2 创建 SSL 配置
3.3 时间同步配置
3.4 配置文件

3.4.1 Web 服务器配置
3.4.2 执行服务器配置

3.5 启动执行服务器
3.6 启动 web 服务器

四 Azkaban 实战

4.1 Command 类型之单 job 工作流案例
4.2 Command 类型之多 job 工作流案例
4.3 HDFS 操作任务
4.4 MapReduce 任务
4.5 HIVE 脚本任务

一概述

1.1 为什么需要工作流调度系统

1）一个完整的数据分析系统通常都是由大量任务单元组成：
shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等。
2）各任务单元之间存在时间先后及前后依赖关系。
3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行。
例如，我们可能有这样一个需求，某个业务系统每天产生 20G 原始数据，我们每天都要对其进行处理，处理步骤如下所示：
（1）通过 Hadoop 先将原始数据同步到 HDFS 上；
（2）借助 MapReduce 计算框架对原始数据进行计算，生成的数据以分区表的形式存储到多张 Hive 表中；
（3）需要对 Hive 中多个表的数据进行 JOIN 处理，得到一个明细数据 Hive 大表；
（4）将明细数据进行复杂的统计分析，得到结果报表信息；
（5）需要将统计分析得到的结果数据同步到业务系统中，供业务调用使用。
如下图所示：

1.2 常见工作流调度系统

1）简单的任务调度：直接使用 linux 的 crontab 来定义。
2）复杂的任务调度：开发调度平台或使用现成的开源调度系统，比如 Ooize、Azkaban、Cascading、Hamake 等。

1.3 各种调度工具特性对比

下面的表格对上述四种 hadoop 工作流调度器的关键特性进行了比较，尽管这些工作流调度器能够解决的需求场景基本一致，但在设计理念，目标用户，应用场景等方面还是存在显著的区别，在做技术选型的时候，可以提供参考。

1.4 Azkaban 与 Oozie 对比

对市面上最流行的两种调度器，给出以下详细对比，以供技术选型参考。总体来说，Ooize 相比 Azkaban 是一个重量级的任务调度系统，功能全面，但配置使用也更复杂。如果可以不在意某些功能的缺失，轻量级调度器 Azkaban 是很不错的候选对象。
详情如下：
1）功能
两者均可以调度 mapreduce，pig，java，脚本工作流任务
两者均可以定时执行工作流任务
2）工作流定义
Azkaban 使用 Properties 文件定义工作流
Oozie 使用 XML 文件定义工作流
3）工作流传参
Azkaban 支持直接传参，例如${input}
Oozie 支持参数和 EL 表达式，例如${fs:dirSize(myInputDir)}
4）定时执行
Azkaban 的定时执行任务是基于时间的
Oozie 的定时执行任务基于时间和输入数据
5）资源管理
Azkaban 有较严格的权限控制，如用户对工作流进行读/写/执行等操作
Oozie 暂无严格的权限控制
6）工作流执行
Azkaban 有两种运行模式，分别是 solo server mode(executor server 和 web server 部署在同一台节点)和 multi server mode(executor server 和 web server 可以部署在不同节点)
Oozi e作为工作流服务器运行，支持多用户和多工作流
7）工作流管理
Azkaban 支持浏览器以及 ajax 方式操作工作流
Oozie 支持命令行、HTTP REST、Java API、浏览器操作工作流

二 Azkaban（阿兹卡班）介绍

Azkaban 是由 Linkedin 开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban 定义了一种 KV 文件格式来建立任务之间的依赖关系，并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。
它有如下功能特点：
1）Web 用户界面
2）方便上传工作流
3）方便设置任务之间的关系
4）调度工作流
5）认证/授权(权限的工作)
6）能够杀死并重新启动工作流
7）模块化和可插拔的插件机制
8）项目工作区
9）工作流和任务的日志记录和审计
下载地址：http://azkaban.github.io/downloads.html

三 Azkaban 安装部署

3.1 安装前准备

1）将 Azkaban Web 服务器、Azkaban 执行服务器和 MySQL 拷贝到 hadoop102虚拟机的 /opt/software目录下

azkaban-web-server-2.5.0.tar.gz
azkaban-executor-server-2.5.0.tar.gz
azkaban-sql-script-2.5.0.tar.gz
mysql-libs.zip

2）目前 azkaban 只支持 mysql，需安装 mysql 服务器，本文档中默认已安装好 mysql 服务器，并建立了 root用户，密码 root。

3.2 安装 azkaban

1）在/opt/module/目录下创建 azkaban 目录

[atguigu@hadoop102 module]$ mkdir azkaban

2）解压 azkaban-web-server-2.5.0.tar.gz、azkaban-executor-server-2.5.0.tar.gz、azkaban-sql-script-2.5.0.tar.gz 到 /opt/module/azkaban 目录下

[atguigu@hadoop102 software]$ tar -zxvf azkaban-web-server-2.5.0.tar.gz -C /opt/module/azkaban/
[atguigu@hadoop102 software]$ tar -zxvf azkaban-executor-server-2.5.0.tar.gz -C /opt/module/azkaban/
[atguigu@hadoop102 software]$ tar -zxvf azkaban-sql-script-2.5.0.tar.gz -C /opt/module/azkaban/

3）对解压后的文件重新命名

[atguigu@hadoop102 azkaban]$ mv azkaban-web-2.5.0/ server
[atguigu@hadoop102 azkaban]$ mv azkaban-executor-2.5.0/ executor

4）azkaban 脚本导入
进入 mysql，创建 azkaban 数据库，并将解压的脚本导入到 azkaban 数据库。

[atguigu@hadoop102 azkaban]$ mysql -uroot -p123456
mysql> create database azkaban;
mysql> use azkaban;
mysql> source /opt/module/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql

注：source 后跟 .sql 文件，用于批量处理 .sql 文件中的sql 语句。

3.2 创建 SSL 配置

参考地址: http://docs.codehaus.org/display/JETTY/How+to+configure+SSL
1）生成 keystore 的密码及相应信息

[atguigu@hadoop102 hadoop-2.7.2]$ keytool -keystore keystore -alias jetty -genkey -keyalg RSA
 
输入 keystore 密码：123456
再次输入新密码:123456
您的名字与姓氏是什么？
  [Unknown]： 
您的组织单位名称是什么？
  [Unknown]： 
您的组织名称是什么？
  [Unknown]： 
您所在的城市或区域名称是什么？
  [Unknown]： 
您所在的州或省份名称是什么？
  [Unknown]： 
该单位的两字母国家代码是什么
  [Unknown]：  CN
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN 正确吗？
  [否]：  y
 
输入的主密码
        （如果和 keystore 密码相同，按回车）： 
再次输入新密码:

2）将 keystore 拷贝到 azkaban web 服务器根目录中

[atguigu@hadoop102 hadoop-2.7.2]$ mv keystore /opt/module/azkaban/server/

注意：密钥库的密码至少必须 6 个字符，可以是纯数字或者字母或者数字和字母的组合等等，密钥库的密码最好和 jetty 的密钥相同，方便记忆。

3.3 时间同步配置

先配置好服务器节点上的时区
1）如果在 /usr/share/zoneinfo/ 这个目录下不存在时区配置文件 Asia/Shanghai，就要用 tzselect 生成。

[atguigu@hadoop102 Asia]$ tzselect
Please identify a location so that time zone rules can be set correctly.
Please select a continent or ocean.
 1) Africa
 2) Americas
 3) Antarctica
 4) Arctic Ocean
 5) Asia
 6) Atlantic Ocean
 7) Australia
 8) Europe
 9) Indian Ocean
10) Pacific Ocean
11) none - I want to specify the time zone using the Posix TZ format.
#? 5
Please select a country.
 1) Afghanistan		  18) Israel		    35) Palestine
 2) Armenia		  19) Japan		    36) Philippines
 3) Azerbaijan		  20) Jordan		    37) Qatar
 4) Bahrain		  21) Kazakhstan	    38) Russia
 5) Bangladesh		  22) Korea (North)	    39) Saudi Arabia
 6) Bhutan		  23) Korea (South)	    40) Singapore
 7) Brunei		  24) Kuwait		    41) Sri Lanka
 8) Cambodia		  25) Kyrgyzstan	    42) Syria
 9) China		  26) Laos		    43) Taiwan
10) Cyprus		  27) Lebanon		    44) Tajikistan
11) East Timor		  28) Macau		    45) Thailand
12) Georgia		  29) Malaysia		    46) Turkmenistan
13) Hong Kong		  30) Mongolia		    47) United Arab Emirates
14) India		  31) Myanmar (Burma)	    48) Uzbekistan
15) Indonesia		  32) Nepal		    49) Vietnam
16) Iran		  33) Oman		    50) Yemen
17) Iraq		  34) Pakistan
#? 9
Please select one of the following time zone regions.
1) Beijing Time
2) Xinjiang Time
#? 1
The following information has been given:
	China
	Beijing Time
Therefore TZ='Asia/Shanghai' will be used.
Local time is now:	Wed Jun 14 09:16:46 CST 2017.
Universal Time is now:	Wed Jun 14 01:16:46 UTC 2017.
Is the above information OK?
1) Yes
2) No
#? 1

2）拷贝该时区文件，覆盖系统本地时区配置

cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3）集群时间同步

sudo date -s ‘2017-06-14 09:23:45’
hwclock -w

3.4 配置文件

3.4.1 Web 服务器配置

1）进入 azkaban web 服务器安装目录 conf 目录，打开 azkaban.properties 文件

[atguigu@hadoop102 conf]$ pwd
/opt/module/azkaban/server/conf
[atguigu@hadoop102 conf]$ vim azkaban.properties

2）按照如下配置修改 azkaban.properties 文件。

#Azkaban Personalization Settings
#服务器 UI 名称，用于服务器上方显示的名字
azkaban.name=Test
#描述
azkaban.label=My Local Azkaban
#UI 颜色
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
#默认 web server 存放 web 文件的目录
web.resource.dir=/opt/module/azkaban/server/web/
#默认时区，已改为亚洲/上海，默认为美国/洛杉矶
default.timezone.id=Asia/Shanghai

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
#用户权限管理默认类（绝对路径）
user.manager.xml.file=/opt/module/azkaban/server/conf/azkaban-users.xml

#Loader for projects
#global 配置文件所在位置（绝对路径）
executor.global.properties=/opt/module/azkaban/executor/conf/global.properties
azkaban.project.dir=projects

#数据库类型
database.type=mysql
#端口号
mysql.port=3306
#数据库连接 IP
mysql.host=hadoop102
#数据库实例名
mysql.database=azkaban
#数据库用户名
mysql.user=root
#数据库密码
mysql.password=123456
#最大连接数
mysql.numconnections=100

# Velocity dev mode
velocity.dev.mode=false

# Azkaban Jetty server properties.
# Jetty 服务器属性
#最大线程数
jetty.maxThreads=25
#Jetty SSL 端口
jetty.ssl.port=8443
#Jetty 端口
jetty.port=8081
#SSL 文件名（绝对路径）
jetty.keystore=/opt/module/azkaban/server/keystore
#SSL 文件密码
jetty.password=123456
#Jetty 主密码与 keystore 文件相同
jetty.keypassword=123456
#SSL 文件名（绝对路径）
jetty.truststore=/opt/module/azkaban/server/keystore
#SSL 文件密码
jetty.trustpassword=123456

# Azkaban Executor settings
executor.port=12321

# mail settings
mail.sender=
mail.host=
job.failure.email=
job.success.email=

lockdown.create.projects=false

cache.directory=cache

2）web 服务器用户配置
在 azkaban web 服务器安装目录 conf 目录，按照如下配置修改 azkaban-users.xml 文件，增加管理员用户。

<azkaban-users>
    <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
    <user username="metrics" password="metrics" roles="metrics"/>
    <user username="admin" password="admin" roles="admin" />
    <role name="admin" permissions="ADMIN" />
    <role name="metrics" permissions="METRICS"/>
azkaban-users>

3.4.2 执行服务器配置

1）进入执行服务器安装目录 conf，打开 azkaban.properties

[atguigu@hadoop102 conf]$ pwd
/opt/module/azkaban/executor/conf
[atguigu@hadoop102 conf]$ vim azkaban.properties

2）按照如下配置修改 azkaban.properties 文件。

#Azkaban
#时区
default.timezone.id=Asia/Shanghai

# Azkaban JobTypes Plugins
#jobtype 插件所在位置
azkaban.jobtype.plugin.dir=plugins/jobtypes

#Loader for projects
executor.global.properties=/opt/module/azkaban/executor/conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=hadoop102
mysql.database=azkaban
mysql.user=root
mysql.password=123456
mysql.numconnections=100

# Azkaban Executor settings
#最大线程数
executor.maxThreads=50
#端口号(如修改，请与 web 服务中一致)
executor.port=12321
#线程数
executor.flow.threads=30

3.5 启动执行服务器

在执行服务器目录下执行启动命令

[atguigu@hadoop102 executor]$ pwd
/opt/module/azkaban/executor
[atguigu@hadoop102 executor]$ bin/azkaban-executor-start.sh

3.6 启动 web 服务器

在 azkaban web 服务器目录下执行启动命令

[atguigu@hadoop102 server]$ pwd
/opt/module/azkaban/server
[atguigu@hadoop102 server]$ bin/azkaban-web-start.sh

注意：先执行 executor，再执行 web，避免 Web Server 会因为找不到执行器启动失败。
jps 查看进程

[atguigu@hadoop102 server]$ jps
3601 AzkabanExecutorServer
5880 Jps
3661 AzkabanWebServer

启动完成后，在浏览器(建议使用谷歌浏览器)中输入：
https://服务器IP地址:8443，即可访问 azkaban 服务了。
在登录中输入刚才新的户用名及密码，点击 login。

登录之后的页面

注意：访问的协议必须是 https，http 协议访问不了。

四 Azkaban 实战

Azkaba 内置的任务类型支持 command、java。

4.1 Command 类型之单 job 工作流案例

1）创建 job 描述文件

vim command.job

#command.job
type=command                                                    
command=echo 'hello'

2）将 job 资源文件打包成zip文件

3）通过 azkaban 的 web 管理平台创建 project 并上传 job 压缩包
首先创建 project

上传 zip 包

4）启动执行该 job

4.2 Command 类型之多 job 工作流案例

1）创建有依赖关系的多个 job 描述
第一个 job：foo.job

# foo.job
type=command
command=echo foo

第二个job：bar.job 依赖 foo.job

# bar.job
type=command
dependencies=foo
command=echo bar

2）将所有 job 资源文件打到一个 zip 包中

3）创建工程

3）在 azkaban 的 web 管理界面创建工程并上传 zip 包

4）启动工作流 flow
(1)

(2)

(3)

5）查看结果

4.3 HDFS 操作任务

1）创建 job 描述文件

# fs.job
type=command
command=/opt/module/hadoop-2.7.2/bin/hadoop fs -mkdir /azkaban

2）将 job 资源文件打包成 zip 文件

3）通过 azkaban 的 web 管理平台创建 project 并上传 job 压缩包
4）启动执行该 job
5）查看结果

4.4 MapReduce 任务

Mr 任务依然可以使用 command 的 job 类型来执行
1）创建 job 描述文件，及 mr 程序 jar 包（示例中直接使用 hadoop 自带的 example jar）

# mrwc.job
type=command
command=/opt/module/hadoop-2.7.2/bin/hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /wordcount/input /wordcount/output

2）将所有 job 资源文件打到一个 zip 包中

3）在 azkaban 的 web 管理界面创建工程并上传 zip 包
4）启动 job

4.5 HIVE 脚本任务

1）创建 job 描述文件和 hive 脚本
（1）Hive脚本： test.sql

use default;
drop table aztest;
create table aztest(id int, name string) 
row format delimited fields terminated by ',';
load data inpath '/aztest/hiveinput' into table aztest;
create table azres as select * from aztest;
insert overwrite directory '/aztest/hiveoutput' select count(1) from aztest;

（2）Job描述文件：hivef.job

# hivef.job
type=command
command=/opt/module/hive/bin/hive -f 'test.sql'

2）将所有 job 资源文件打到一个 zip 包中
3）在 azkaban 的 web 管理界面创建工程并上传 zip 包
4）启动 job

Azkaban上传项目提示错误 sunyaox Azkaban Azkaban上传项目错误 html python
Azkabanupload错误错误提示：basic.flow错误提示：ValidatorDirectoryFlowreportserrors:Errorloadingflowyamlfilebasic.flow:whilescanningforthenexttokenfoundcharacter‘\t(TAB)’thatcannotstartanytoken.(Donotuse\t(TAB)for
Azkaban其一，介绍、体系架构和安装出发行进 #Azkaban Azkaban linux
目录一、简介二、Azkaban的体系结构三、Azkaban的安装步骤1、上传，解压2、生成mysql的元数据3、配置web-server4、配置exec-server5、修改所有的.sh的执行权限一、简介遇到了什么问题才会使用Azkaban?比如：想启动hadoop集群先启动zk集群，再启动hdfs,再启动yarn，再启动日志系统工作过程中总会遇到多个脚本执行的时候有顺序。任务可以有一个编排的工具
笔记：DataSphere Studio安装部署流程右边com Java 大数据
一、标准版部署标准版：有一定的安装难度，体现在Hadoop、Hive和Spark版本不同时，可能需要重新编译，可能会出现包冲突问题。适合于试用和生产使用，2~3小时即可部署起来。支持的功能有：数据开发IDE-Scriptis工作流实时执行信号功能和邮件功能数据可视化-Visualis数据质量-Qualitis(单机版)工作流定时调度-Azkaban(单机版)Linkis管理台二、基础环境准备2.1
大数据相关开源项目汇总万里浮云大数据
调度与管理服务Azkaban是一款基于Java编写的任务调度系统任务调度，来自LinkedIn公司，用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序，提供友好的Web用户界面来维护和跟踪用户的工作流程。YARN是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源
azkaban的概况北京小峻大数据 azkaban mysql 数据库
Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
大数据组件之Azkaban简介努力的小星星大数据 linux 运维数据结构
一、Azkaban介绍1.1背景一个完整的大数据分析系统，必然由很多任务单元(如数据收集、数据清洗、数据存储、数据分析等)组成，所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题：如何定时调度某个任务？如何在某个任务执行完成后再去执行另一个任务？如何在任务失败时候发出预警？......面对这些问题，工作流调度系统应运而生。Azkaban就是其中之一。1.2功能Azk
大数据学习笔记——zookeeper在hadoop集群中的作用鹅鹅鹅呢 java hadoop 大数据学习 tcp/ip tomcat
zookeeper主要是用来搭建高可用的Hadoop集群，即HighAvailability，简称(HA)测试中集群是可以不需要高可用的，即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性，需要增加一个namenode备用，当active的namenode挂了之后，系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。
Azkaban：强大的开源工作流调度系统 Hello.Reader 其他大数据开源大数据
一、概述在大数据生态系统中，随着数据量的爆炸式增长和任务复杂度的提升，管理和调度大规模的批处理任务成为了一项艰巨的挑战。Azkaban是LinkedIn开发的一款开源工作流调度系统，专为管理和调度大规模的Hadoop作业设计。它提供了一种简单且有效的方式来定义、调度和监控复杂的工作流，确保批处理任务按预期顺序执行。在本文中，我们将深入探讨Azkaban的架构、功能和使用方法，帮助您更好地理解和应用
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
Azkaban 大数据任务调度 OutRoading 大数据
参考视频：尚硅谷大数据Azkaban3.x教程（全新发布）_哔哩哔哩_bilibili目录Azkaban：是一个定时、批量工作流任务调度器(工作流程调度，定时调度)常见的开源调度系统：比较：特点：三个关键组件1AzkabanWebServer:2AzkabanExecutorServer：3Mysql：部署：1上传jar包，解压2安装mysql数据库3修改mysql的配置文件4配置Executor
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
工作流调度器azkaban(一) 简介与安装部署做个合格的大厂程序员
为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行工作流调度实现方式简单的任务调度：直接使用linux的crontab来定义；复杂的任务调度：开发调度平台或使用现成的开源调度系统，比如ooize、
azkaban编译时报错的解决方案赫加青空大数据经验分享
大数据单机学习环境搭建(11)Azkaban单机部署，关于Azkaban和gradle下载，本文编译不限于单机solo模式。一.大多数报错处理1.1首先操作1)安装gityuminstallgit-y2)替换azkaban目录下的build.gradle文件的2处repositories信息。改为阿里云的镜像路径buildscript{repositories{maven{url'http://m
回响科技二面面试题解答语兴数据科技大数据面试职场和发展数据库开发
面试题1、你们的数仓中DWD层为什么要划分数据域？划分数据域之后会对ADS层造成什么影响？是可以提效还是可扩展性强？你们是如何考虑的呢？2、AZkaban和dolphinScheduler的区别是什么？如果选型会从哪几个方面来考虑呢？3、数仓中数据的幂等性如何实现？就是如何保证数仓中的数据不丢失和不重复？4、零点漂移问题如何解决？5、你们是如何统一指标口径？6、某电商平台业务线的A运营组比如说提了
部署后在浏览器访问azkaban报错：javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection? 平平无奇二十四工具安装bug 安装软件问题大数据
WARN[log][Azkaban]EXCEPTIONjavax.net.ssl.SSLException:UnrecognizedSSLmessage,plaintextconnection?atsun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:710)atsun.security.ssl.InputRecord.
azkaban 报错：javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection? Ebaugh 大数据大数据
azkaban报错：javax.net.ssl.SSLException:UnrecognizedSSLmessage,plaintextconnection?javax.net.ssl.SSLException:UnrecognizedSSLmessage,plaintextconnection?atsun.security.ssl.InputRecord.handleUnknownRecord
Azkaban 源码分析之作业提交陌城小川
介绍:Azkaban提交作业有两种:通过人为手动提交一个作业通过调度信息去调度执行一个作业1.作业调度信息:1.1通过人为去手动提交一个作业:用户提交作业首先需要通过LoginAbstractAzkabanServlet中的doGet方法用户通过doGet进入handleGet（azkaban-web-server/ExecutorServlet）方法，然后进入ajaxAttemptExecute
Note25：Azkaban-2.5.0安装配置 K__3f8b
安装包下载安装地址：个人选择这个版本Azkaban-2.5.0把安装包上传到/opt/software目录在/opt/module/目录下创建azkaban目录[kevin@hadoop112module]$mkdirazkaban解压[kevin@hadoop112software]$tar-zxvfazkaban-executor-server-2.5.0.tar.gz-C/opt/modul
搭建Azkaban环境成_7b38
说明：本次部署内容为：mysql-5.7.33-1.el7azkaban-3.89.0一、安装MySql数据库1.官网下载地址：MySQL::DownloadMySQLCommunityServer(ArchivedVersions)2.下载上传至服务器并解压3.按顺序安装①、检查服务器是否存在mariadb，如果有，请删除#yumremovemariadb-libs-5.5.68-1.el7.x
Flink（十三）【Flink SQL（上）】让线程再跑一会 Flink flink 大数据
前言最近在假期实训，但是实在水的不行，三天要学完SSM，实在一言难尽，浪费那时间干什么呢。SSM之前学了一半，等后面忙完了，再去好好重学一遍，毕竟这玩意真是面试必会的东西。今天开始学习Flink最后一部分FlinkSQL，完了还有不少框架得学：Kafka、Flume、ClickHouse、Hudi、Azkaban、OOzie...有的算是小工具，不费劲，但是学完得复习啊，这么多东西，必须赶紧做个小
工作流调度器azkaban(二) 使用做个合格的大厂程序员
Command类型单一job示例step1创建job描述文件，创建文本文件，更改名称为mycommand.job注意后缀.txt一定不要带上，保存为格式为UFT-8withoutbom，内容如下：type=commandcommand=echo'helloworld'step2将job资源文件打包成zip文件imagestep3创建project并上传压缩包,通过azkaban的web管理平台创建
Azkaban重新编译，解决：Could not connect to SMTP host: smtp.163.com, port: 465【2022年01月10日】 IT小强哥服务器运维
Azkaban配置文件修改465端口一直报错，如下：javax.mail.MessagingException:CouldnotconnecttoSMTPhost:smtp.163.com,port:465,response:-1atcom.sun.mail.smtp.SMTPTransport.openServer(SMTPTransport.java:1960)atcom.sun.mail.s
Azkaban+Spark资源调度孤城暮雨@ spark 大数据分布式
本文以利用Azkaban+Spark构建数仓的DWS层和ADS层为例！！！前提条件：各节点之间的免密、登录启动Hadoop集群、Spark、Azkaban、Hive免密登录操作ssh-keygen-trsaslave01执行：scp~/.ssh/id_rsa.pubhadoop@master:~/.ssh/slave01.pubscp~/.ssh/id_rsa.pubhadoop@slave02:
删除azkaban的执行历史飞有飞言
image.pngazkaban是一款工作流调度工具，由Linkedin开发并开源给社区。azkaban保留了task，flow的执行历史。每个任务的标准输出（stdout）、标准错误输出（stderr）都会先暂时存到日志文件里，同时也存储到后端数据库中，一般是mysql。azkaban通常用在大数据任务调度场景，把任务提交之后，如果任务是spark，hive，hadoop，flink等任务的话，
数据仓库【5】：项目实战 QQ719872578 #数据仓库数据仓库
数据仓库【5】：项目实战1、项目概述1.1、项目背景1.2、复购率计算2、数据描述3、架构设计3.1、数据仓库架构图4、环境搭建4.1、环境说明4.2、集群规划4.3、搭建流程5、项目开发5.1、业务数据生成5.2、ETL数据导入5.3、ODS层创建&数据接入5.4、DWD层创建&数据接入5.5、DWS层创建&数据接入5.6、ADS层创建&数据接入5.7、ADS层数据导出5.8、Azkaban自动
【大数据学习笔记】最全Python连接各种数据库及对应的CRUD操作伊达大数据 Python python mysql database sql
本文将详细探讨如何在Python中连接全种类数据库以及实现相应的CRUD（创建，读取，更新，删除）操作。我们将逐一解析连接MySQL，SQLServer，Oracle，PostgreSQL，MongoDB，SQLite，DB2，Redis，Cassandra，MicrosoftAccess，ElasticSearch，Neo4j，InfluxDB，Snowflake，AmazonDynamoDB，
【大数据学习笔记】新手学习路线图伊达大数据大数据学习笔记
第1阶段-数据仓库基1.MysQL关系型数据库（MySQL介绍、MySQL安装、MySQL基础语法、MySQL高级语法、MySQL系统架构、MySQL存储引擎、MySQL索引、MySQL备份恢复、MySQL主从、主主复制、MySQL存储过程、MySQL分库分表、MySQL综合案例、MySQL性能优化）2.Python编程技术（Python基础语法、Python循环、Python集合、Python函
Azkaban的简介与使用教程说明 ZimMer@柠檬 azkaban 程序人生
Azkaban阿兹卡班一、Azkaban的简介二、Azkaban的特点三、Azkaban的架构1.azkabanWebServer2.azkabanExecutorServer3.关系型数据库(MySQL)四、虚拟屏screen的安装与使用1.安装虚拟屏screen2.虚拟屏的常用指令五、Azkaban的启动1.启动azkabanExecutorServer2.启动azkabanWebServer
大数据学习笔记——数据仓库hive重要的总结新宿一次狼大数据大数据
1、外部表和内部表Hive表分为两类，即内部表和外部表。所谓内部表，即Hive管理的表，Hive内部表的管理既包含逻辑以及语法上的，也包含实际物理意义上的，即创建Hive内部表时，数据将真实存在于表所在的目录内，删除内部表时，物理数据和文件也一并删除。外部表（externaltable）则不然，其管理仅仅是在逻辑和语法意义上的，即新建表仅仅是指向一个外部目录而已。同样，删除时也并不物理删除外部目录
hadoop大数据学习笔记驰宇爱吃鱼学习笔记大数据 hadoop 学习
一、Hadoop的作用本质来说hadoop的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境，并能为其他分布式应用服务提供平台支持。或者说将多台计算机组织成了一台计算机，让他们做同一件事，在这其中HDFS就相当于这台计算机的硬盘，而MapReduce就是这台计算机的CPU控制器。二、Hadoop环境部署按着正常来说我们想要部署Hadoop集群需要把相同的软件部署到众多计算机上，实际学习
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一