当贝壳离开了海�

10.azkaban知识点

一 azkaban的简介

1.1 调度系统背景

1. 一个完整的大数据分析系统通常都是由大量任务单元组成：shell脚本程序，mapreduce程序、hive脚本、spark程序等。
2. 各任务单元之间存在时间先后及前后依赖关系:先后关系、依赖关系、定时执行。
3. 为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行。

任务流程图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4lkhfrcy-1615727073194)(azkaban_note.assets/001.png)]

azkaban的作用其实就是将我们搭建数据的流程串联起来，并设置自动定时运行。

官网：https://azkaban.github.io/

Azkaban is a batch workflow job scheduler created at LinkedIn to run Hadoop jobs. Azkaban resolves the ordering through job dependencies and provides an easy to use web user interface to maintain and track your workflows.

1.2 azkaban的特点

兼容Hadoop的任何版本
易于使用的web UI
简单的web和http工作流上传
项目工作区
调度的工作流
模块化和pluginable
身份验证和授权
跟踪用户操作
邮件提醒失败和成功
SLA警报和自动杀死
重新尝试失败的作业

1.3 常见调度系统

简单的任务调度：直接使用linux的crontab来定义、shell和python脚本实现

现成开源任务调度: oozie、azkaban和airflow等

复杂的任务调度：自研调度平台

1.4 azkaban和oozie的比较

azkaban和oozie相对来说是市面上最流行的两种调度器。总体来说，ooize相比azkaban是一个重量级的任务调度系统，功能全面，但配置使用也更复杂。如果可以不在意某些功能的缺失，轻量级调度器azkaban是很不错的候选对象。具体对比如下：

功能

两者均可以调度mapreduce,pig,java,脚本工作流任务
两者均可以定时执行工作流任务

工作流定义

Azkaban使用Properties文件定义工作流
Oozie使用XML文件定义工作流

工作流传参

Azkaban支持直接传参，例如${input}
Oozie支持参数和EL表达式，例如${fs:dirSize(myInputDir)}

定时执行

Azkaban的定时执行任务是基于时间的
Oozie的定时执行任务基于时间和输入数据

资源管理

Azkaban有较严格的权限控制，如用户对工作流进行读/写/执行等操作
Oozie暂无严格的权限控制

工作流执行

Azkaban有两种运行模式，分别是solo server mode(executor server和web server部署在同一台节点)和multi server mode(executor server和web server可以部署在不同节点)

Oozie作为工作流服务器运行，支持多用户和多工作流

工作流管理

Azkaban支持浏览器以及ajax方式操作工作流

Oozie支持命令行、HTTP REST、Java API、浏览器操作工作流

1.5 Azkaban的系统架构

主要由三个组件组成：

- WebServer ：暴露Restful API，提供分发作业和调度作业功能；
- ExecServer ：对WebServer 暴露 API ，提供执行作业的功能；
- MySQL ：数据存储，实现Web 和 Exec之间的数据共享和部分状态的同步。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iBTs5Geb-1615727073207)(azkaban_note.assets/体系结构.png)]

二 azkaban的安装方式

2.1 源码安装（网速的好的试试）

1、下载源码包

官网地址为:https://github.com/azkaban/azkaban/archive/3.57.0.tar.gz

2、将源码包上传服务器并解压源码包

[root@mei01 home]# tar -zxvf /home/azkaban-3.57.0.tar.gz -C /home/

3、执行编译

编译参考官网地址:https://azkaban.readthedocs.io/en/latest/getStarted.html#building-from-source

清空编译

[root@mei01 home]# cd ./azkaban-3.57.0
[root@mei01 home]# ./gradlew clean

结果如下：

编译并安装插件

root@mei01 home]# ./gradlew installDist

结果如下：

编译但不运行测试

root@mei01 home]# ./gradlew build -x test

编译结果如下：

到此为止编译成功。

4、编译成功后，在根目录下{azkaban-solo-server、azkaban-web-server、azkaban-exec-server}/build/distributions目录下都会生成相应的压缩包，并将其copy到/home/azkaban3.57.0目录下用于安装使用。

[root@mei01 azkaban-3.57.0]# mkdir /home/azkaban3.57.0

[root@mei01 azkaban-3.57.0]# cp ./azkaban-exec-server/build/distributions/azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz /home/azkaban3.57.0

[root@mei01 azkaban-3.57.0]# cp ./azkaban-solo-server/build/distributions/azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz /home/azkaban3.57.0

[root@mei01 azkaban-3.57.0]# cp ./azkaban-web-server/build/distributions/azkaban-web-server-0.1.0-SNAPSHOT.tar.gz /home/azkaban3.57.0

[root@mei01 azkaban-3.57.0]# cp ./azkaban-db/build/distributions/azkaban-db-0.1.0-SNAPSHOT.tar.gz /home/azkaban3.57.0

注意:

编译过程中，如有错误，需要再次运行编译命令。

编译过程中，如果包不能下载，则可以考虑手动下载放到服务器对应的位置即可。

2.2 Solo Server安装

2.2.1 Solo Server简介

这种Solo Server服务是azkaban的单机版，即是单实例，它安装简单，便于学习。他的优点如下：

- 安装简单:不需要mysql实例，它内置h2来做存储。
- 启动简单：web server和executor server都运行在相同进程中。
- 功能齐全：它包含所有azkaban的特征。你可以使用azkaban用这种通用方法并为其安装插件。

2.2.2 安装步骤

1）找到azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz包，上传到linux，并解压到/usr/local/

[root@mei01 azkaban3.57.0]# tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz -C /usr/local

2）更名操作

[root@mei01 local]# mv azkaban-solo-server-0.1.0-SNAPSHOT/   azkaban-solo

3）配置环境变量

[root@mei01 local]# vi /etc/profile
......省略.........
export AZKABAN_SOLO=/usr/local/azkaban-solo
export PATH=$AZKABAN_SOLO/bin:$PATH

[root@mei01 local]# source /etc/profile

4）配置用户

[root@mei01 azkaban-solo]# vi ./conf/azkaban-users.xml
在第4行添加内容如下：
<user password="admin" roles="metrics,admin" username="admin"/>

到此为止，soloserver的安装配置完成。

5）启动azkaban

[root@mei01 azkaban-solo]# start-solo.sh
如果没有配置环境变量
[root@mei01 azkaban-solo]# ./bin/start-solo.sh

注意：启动azkaban必须在bin的父目录，也就是家里启动。

2.2.3 测试

1）查看azkaban的端口号：web-server的port是8081， exec-server的port是12321

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1NEFfGZm-1615727073208)(azkaban_note.assets/image-20200821151040537.png)]

2）访问webui

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Fm93zsN-1615727073210)(azkaban_note.assets/image-20200821151207725.png)]

出现此页面，说明安装成功

2.3 Multi exec Server 安装

2.3.1 服务规划

mei01		web server
mei02		exec server
mei03		exec server

2.3.2 mysql中配置azkaban的元数据库

1）解压azkaban-db-0.1.0-SNAPSHOT.tar.gz

[root@mei01 ~]# tar -zxvf azkaban-db-0.1.0-SNAPSHOT.tar.gz

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OeJv9VLi-1615727073212)(azkaban_note.assets/image-20200821192151729.png)]

2）找到create-all脚本

找到上图所示脚本文件:create-all-sql-0.1.0-SNAPSHOT.sql 传到有mysql数据库的机器mei03上

[root@mei01 azkaban-db-0.1.0-SNAPSHOT]# scp create-all-sql-0.1.0-SNAPSHOT.sql mei03:~/

3）加载create-all脚本

在mei03上进入mysql，使用source指令执行脚本

mysql> create database azkaban;
mysql> use azkaban;
mysql> source /root/create-all-sql-0.1.0-SNAPSHOT.sql

注意：一定要对azkaban这个库做远程授权
mysql> grant all privileges on *.* to root@'%' identified by '123123' with grant option;
mysql> show grants for root@'%';

4）修改mysql的配置

(建议修改，如果在重启服务时，报错，就不要修改了)

[root@mei03 azkaban]# vi /etc/my.cnf
在[mysqld]下添加
max_allowed_packet=1024M
[root@mei03 ~]# systemctl restart mysqld

2.3.3 安装azkaban-web-server

1) 上传并解压

上传azkaban-web-server-0.1.0-SNAPSHOT.tar.gz 到mei01上，并解压

tar -zxvf azkaban-web-server-0.1.0-SNAPSHOT.tar.gz -C /usr/local

2) 更名

mv azkaban-web-server-0.1.0-SNAPSHOT.tar.gz  azkaban-web

3) 导入mysql驱动包

进入azkaban-web目录下，创建extlib目录，并上传mysql的驱动jar包

[root@mei01 azkaban-web]# mkdir extlib
[root@mei01 azkaban-web]# cp /usr/local/hive/lib/mysql-connector-java-5.1.28-bin.jar ./extlib/

4) 生成秘钥

[root@qphone01 azkaban-web]# keytool -keystore keystore -alias jetty -genkey -keyalg RSA
输入密钥库口令:
再次输入新口令:
您的名字与姓氏是什么?
  [Unknown]:
您的组织单位名称是什么?
  [Unknown]:
您的组织名称是什么?
  [Unknown]:
您所在的城市或区域名称是什么?
  [Unknown]:
您所在的省/市/自治区名称是什么?
  [Unknown]:
该单位的双字母国家/地区代码是什么?
  [Unknown]:
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=Unknown是否正确?
  [否]:  y

输入 <jetty> 的密钥口令
        (如果和密钥库口令相同, 按回车):



---除了输入密码，其他直接回车，到问你是否正确时，输入y

5) 配置azkaban.properties

# Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=/usr/local/azkaban-web/web
default.timezone.id=Asia/Shanghai
# Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=/usr/local/azkaban-web/conf/azkaban-users.xml
# Loader for projects
executor.global.properties=/usr/local/azkaban-exec/conf/global.properties
azkaban.project.dir=projects
# Velocity dev mode
velocity.dev.mode=false
# Azkaban Jetty server properties.
jetty.use.ssl=false
jetty.maxThreads=25
jetty.ssl.port=8443
jetty.port=8081
jetty.keystore=keystore
jetty.password=123456
jetty.keypassword=123456
jetty.truststore=keystore
jetty.trustpassword=123456
# Azkaban Executor settings
# mail settings
mail.sender=
mail.host=
# User facing web server configurations used to construct the user facing server URLs. They are useful when there is a reverse proxy between Azkaban web servers and users.
# enduser -> myazkabanhost:443 -> proxy -> localhost:8081
# when this parameters set then these parameters are used to generate email links.
# if these parameters are not set then jetty.hostname, and jetty.port(if ssl configured jetty.ssl.port) are used.
# azkaban.webserver.external_hostname=myazkabanhost.com
# azkaban.webserver.external_ssl_port=443
# azkaban.webserver.external_port=8081
job.failure.email=
job.success.email=
lockdown.create.projects=false
cache.directory=cache
# JMX stats
jetty.connector.stats=true
executor.connector.stats=true
# Azkaban mysql settings by default. Users should configure their own username and password.
database.type=mysql
mysql.port=3306
mysql.host=mei03
mysql.database=azkaban
mysql.user=root
mysql.password=@Mm123456
mysql.numconnections=100
#Multiple Executor
azkaban.use.multiple.executors=true
#azkaban.executorselector.filters=StaticRemainingFlowSize,MinimumFreeMemory,CpuStatus
azkaban.executorselector.filters=StaticRemainingFlowSize,CpuStatus
azkaban.executorselector.comparator.NumberOfAssignedFlowComparator=1
azkaban.executorselector.comparator.Memory=1
azkaban.executorselector.comparator.LastDispatched=1
azkaban.executorselector.comparator.CpuUsage=1

6) 配置azkaban-users.xml

添加admin用户

<azkaban-users>
  <user groups="azkaban" password="azkaban" roles="admin" username="azkaban"/>
  <user password="metrics" roles="metrics" username="metrics"/>
  <user password="admin" roles="metrics,admin" username="admin"/>
  <role name="admin" permissions="ADMIN"/>
  <role name="metrics" permissions="METRICS"/>
azkaban-users>

2.3.4 安装azkaban-exec-server

先安装一台mei02,然后scp到mei03

1) 上传并解压 azkaban-exec的安装包

找到azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz，上传并解压

[root@mei02 ~]# tar -zxvf azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz -C /usr/local

2) 更名操作

[root@mei02 ~]# cd /usr/local/
[root@mei02 local]# mv azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz azkaban-exec

3) 加载mysql的驱动包

进入azkaban-exec目录下，创建extlib目录，将mysql的驱动包导入到此目录下

[root@mei02 local]# cd azkaban-exec
[root@mei02 azkaban-exec]# mkdir extlib

4) 修改azkaban.properties

[root@mei02 azkaban-exec]# vi conf/azkaban.properties

修改为下面的内容（注意和你的机器的路径，密码要匹配）

# Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=/usr/local/azkaban-web/web
default.timezone.id=Asia/Shanghai
# Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=/usr/local/azkaban-web/conf/azkaban-users.xml
# Loader for projects
executor.global.properties=/usr/local/azkaban-exec/conf/global.properties
azkaban.project.dir=projects
# Velocity dev mode
velocity.dev.mode=false
# Azkaban Jetty server properties.
jetty.use.ssl=false
jetty.maxThreads=25
jetty.port=8081
# Where the Azkaban web server is located
azkaban.webserver.url=http://mei01:8081
# mail settings
mail.sender=
mail.host=
# User facing web server configurations used to construct the user facing server URLs. They are useful when there is a reverse proxy between Azkaban web servers and users.
# enduser -> myazkabanhost:443 -> proxy -> localhost:8081
# when this parameters set then these parameters are used to generate email links.
# if these parameters are not set then jetty.hostname, and jetty.port(if ssl configured jetty.ssl.port) are used.
# azkaban.webserver.external_hostname=myazkabanhost.com
# azkaban.webserver.external_ssl_port=443
# azkaban.webserver.external_port=8081
job.failure.email=
job.success.email=
lockdown.create.projects=false
cache.directory=cache
# JMX stats
jetty.connector.stats=true
executor.connector.stats=true
# Azkaban plugin settings
azkaban.jobtype.plugin.dir=/usr/local/azkaban-exec/plugins/jobtypes/
# Azkaban mysql settings by default. Users should configure their own username and password.
#azkaban.executorselector.filters=StaticRemainingFlowSize,MinimumFreeMemory,CpuStatus
azkaban.executorselector.filters=StaticRemainingFlowSize,CpuStatus
database.type=mysql
mysql.port=3306
mysql.host=mei03
mysql.database=azkaban
mysql.user=root
mysql.password=@Mm123456
mysql.numconnections=100
# Azkaban Executor settings
executor.port=12321
executor.maxThreads=50
executor.flow.threads=30

5）修改插件文件

[root@mei02 azkaban-exec]# vi ./plugins/jobtypes/commonprivate.properties
set execute-as-user
execute.as.user=false
memCheck.enabled=false   #添加内存检查关闭 ，否则报错不足3G

到此为止，azkaban-exec配置好了，就差mei03了，我们可以scp到另一台机器上

[root@mei02 azkaban-exec]# cd ..
[root@mei02 local]# scp -r azkaban-exec mei03:/usr/local/

6）启动测试（建议先重启虚拟机）

zkaban启动的顺序为，先启动executor，再启动web。否则web工程会因为找不到executor而启动失败。

先启动两个exec

[root@mei02 ~]# cd /usr/local/azkaban-exec
[root@mei02 azkaban-exec]# ./bin/start-exec.sh

[root@mei03 ~]# cd /usr/local/azkaban-exec
[root@mei03 azkaban-exec]# ./bin/start-exec.sh

然后查看元数据表executors

登录你的mysql
查看executors表里的两个active是不是1,如果不是，请修改为1

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EQ1053pa-1615727073215)(azkaban_note.assets/image-20200821194759442.png)]

然后再启动web-server

[root@mei01 ~]# cd /usr/local/azkaban-web
[root@mei01 azkaban-web]# ./bin/start-web.sh

然后开心的启动webui吧，xxxxx:8081

7）注意事项

不过已经帮你们写到前面的安装步骤里了

1、azkaban job Preparing
解决方法：
修改 web-server conf/azkaban.properties 配置。
# execute 主机过滤器配置, 去掉 MinimumFreeMemory
# MinimumFreeMemory 过滤器会检查 executor 主机空余内存是否会大于 6G，如果不足 6G，则 web-server 不会将任务交由该主机执行
azkaban.executorselector.filters=StaticRemainingFlowSize,CpuStatus


2、 运行job时，azkaban的web后台报错 Free memory amount minus Xmx (2836204 - 0 kb) is less than low mem threshold (3145728 kb), memory request declined

解决方法：
[root@qphone02 executor]# vi ./plugins/jobtypes/commonprivate.properties
# set execute-as-user
execute.as.user=false
memCheck.enabled=false   #添加内存检查关闭 ，否则报错不足3G

三 azkaban的flow1.0

1. azkaban的job流文件，后缀是.job
	1)  type属性 必须赋值
		值有：command,java,pig
2. azkaban执行的job必须要提前打包，打包的格式必须是zip格式
3. 流文件里的书写格式：
	1）一定要注意行末不要有空格
	2）编码集的问题，如果在window上实在不行，可以上传到linux进行zip压缩，然后下载到windows上，再上传到azkaban上

3.1 azkaban的第一个简单案例

1）创建文件helloworld.job，添加一下内容

type=command
command=echo "hello world"

2）打包成zip包

3）上传到azkaban

4）点击运行

绿色：成功
灰色：未运行
蓝色：正在运行
红色：运行失败

3.2 azkaban 调度shell指令

1）创建文件echo.sh

#!/bin/bash
echo "hello nihao" >> /root/0821.log

创建文件echo.job

type=command
command=/usr/bin/bash echo.sh

打包两个文件到echo.zip里

4）上传，并测试

5）查看linux的/root/下的0821.log文件

3.3 azkaban 调度mapreduce案例

1）创建文件mapreduce.job (建议在linux上做)

type=command
command=/usr/local/hadoop/bin/hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.6.jar wordcount /input /output/01

2）获取一个mapreduce案例的jar包，比如单词统计的案例（可以是我们自定义的）

3）将jar包和mapreduce.job文件进行打包成mapreduce.zip

[root@mei01 ~]# zip -r mymr.zip mapreduce.job hadoop-mapreduce-examples-2.6.0-cdh5.7.6.jar

4）下载到windows上，然后上传到azkaban上进行测试

5）查看hdfs上的目录内容

[root@mei01 ~]# hdfs dfs -cat /output/01/*

3.4 azkaban 设置工作流

1）创建b.sh

#!/bin/bash
echo hello_bbb >/root/b.log
sleep 30s

2）创建jobB.job

type=command
command=/bin/bash b.sh

创建a.sh

#!/bin/bash
echo hello_aaa >/root/a.log

创建jobA.job

type=command
dependencies=jobB
command=/bin/bash a.sh

打包，上传，测试

3.5 azkaban定时任务

1）创建一个sh脚本:testcrond.sh

#!/bin/bash
echo "aaaaa" >>/root/crond.log

2）创建一个job文件：testcrond.job

type=command
command=/usr/bin/bash testcrond.sh

打包，上传到azkaban上
点击run job 进入页面后，不点击execute, 点击schedule, 可以设置时间

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lbNIPO6j-1615727073216)(azkaban_note.assets/image-20200821170325279.png)]

设置完后，点击schedule按钮

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jq9uexlh-1615727073216)(azkaban_note.assets/image-20200821170459094.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XvydjrHQ-1615727073217)(azkaban_note.assets/image-20200821170522582.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dSwc7nHz-1615727073217)(azkaban_note.assets/image-20200821170534750.png)]

3.6 azkaban调度hive脚本

1）创建一个hql脚本：create_table.hql

use ods_db_news;
create table if not exists test1(
sid int,
sname string
)
row format delimited
fields terminated by ',';

2）创建一个job文件：create_table.job

type=command
command=/usr/local/hive/bin/beeline -u jdbc:hive2://mei02:10000 -n root  -f create_table.hql

3）打包，上传执行，然后查看吧

四 azkaban的flow2.0

4.1 Flow 2.0 的产生

Azkaban 目前同时支持 Flow 1.0 和 Flow2.0 ，但是官方文档上更推荐使用 Flow 2.0，因为 Flow 1.0 会在将来的版本被移除。Flow 2.0 的主要设计思想是提供 1.0 所没有的流级定义。用户可以将属于给定流的所有 job / properties 文件合并到单个流定义文件中，其内容采用 YAML 语法进行定义，同时还支持在流中再定义流，称为为嵌入流或子流。

4.2 基本结构

项目 zip 将包含多个流 YAML 文件，一个项目 YAML 文件以及可选库和源代码。Flow YAML 文件的基本结构如下：

1. 所有的workflow都是在一个文件里写的
2. 文件以流名称为后缀的，如：my-flow-name.flow；
3. 包含 DAG 中的所有节点；
4. 每个节点可以是不同的类型，比如可以是flow，hive,hadoopjava,pig,noop,command
5. 每个节点可以拥有 name, type, config, dependsOn 和 nodes sections 等属性；
6. 通过列出 dependsOn 指定依赖关系
7. 包含与流相关的其他配置
8. flow1.0里的属性都移植到config下，config下是以键值对的形式书写的。

注意：还需要单独写一个xxxx.project文件指定azkaban使用的是workflow2.0版本
azkaban-flow-version: 2.0

4.3 YAML语法

想要使用 Flow 2.0 进行工作流的配置，首先需要了解 YAML 。YAML 是一种简洁的非标记语言，有着严格的格式要求的，如果你的格式配置失败，上传到 Azkaban 的时候就会抛出解析异常。

4.3.1 基本规则

1. 大小写敏感
2. 使用缩进表示层级关系 ；
3. 缩进长度没有限制，只要元素对齐就表示这些元素属于一个层级；
4. 使用#表示注释 ；
5. 字符串默认不用加单双引号，但单引号和双引号都可以使用，双引号表示不需要对特殊字符进行转义；
6. YAML 中提供了多种常量结构，包括：整数，浮点数，字符串，NULL，日期，布尔，时间。

4.3.2 对象的写法

# value 与 ： 符号之间必须要有一个空格
key: value

4.3.3 map的写法：

# 写法一 同一缩进的所有键值对属于一个map
key: 
    key1: value1
    key2: value2

# 写法二
{key1: value1, key2: value2}

4.3.4 数组的写法

# 写法一 使用一个短横线加一个空格代表一个数组项
- a
- b
- c

# 写法二
[a,b,c]

4.3.5 单双引号

s1: '内容\n 字符串'
s2: "内容\n 字符串"

转换后：
{ s1: '内容\\n 字符串', s2: "内容\n 字符串" }

4.3.6 特殊符号

一个 YAML 文件中可以包括多个文档，使用 `---` 进行分割。

4.3.7 配置引用

Flow 2.0 建议将公共参数定义在 `config` 下，并通过 `${}` 进行引用。

4.4 案例介绍

4.4.1 简单案例调度

1）编写一个xxxx.flow文件，比如simple.flow (注意字符集，TAB键等问题)

nodes:

   - name: jobA
     type: command
     config:
        command: echo "this is a simple test"

2）编写版本文件：xxx.project ,比如叫same.project

azkaban-flow-version: 2.0

3）打包成xxx.zip文件，上传，测试

4.4.2 多任务调度

1）编写一个xxxx.flow文件，比如multi.flow (注意字符集，TAB键等问题)

nodes:
  - name: jobE
    type: command
    config:
      command: echo "This is job E"
    # jobE depends on jobD
    dependsOn: 
      - jobD
    
  - name: jobD
    type: command
    config:
      command: echo "This is job D"
    # jobD depends on jobA、jobB、jobC
    dependsOn:
      - jobA
      - jobB
      - jobC

  - name: jobA
    type: command
    config:
      command: echo "This is job A"

  - name: jobB
    type: command
    config:
      command: echo "This is job B"

  - name: jobC
    type: command
    config:
      command: echo "This is job C"

2）编写版本文件：xxx.project ,比如叫same.project

azkaban-flow-version: 2.0

3）打包成xxx.zip文件，上传，测试

4.4.3 内嵌流调度

1）编写一个xxxx.flow文件，比如embedded.flow (注意字符集，TAB键等问题)

nodes:
  - name: jobC
    type: command
    config:
      command: echo "This is job C"
    dependsOn:
      - embedded_flow

  - name: embedded_flow
    type: flow
    config:
      prop: value
    nodes:
      - name: jobB
        type: command
        config:
          command: echo "This is job B ${prop}"
        dependsOn:
          - jobA

      - name: jobA
        type: command
        config:
          command: echo "This is job A"

2）编写版本文件：xxx.project ,比如叫same.project

azkaban-flow-version: 2.0

3）打包成xxx.zip文件，上传，测试

五 azkaban的高级应用

1、支持权限的设置
2、支持插件的应用和自定义

tip：azkaban的插件机制使得可以非常方便的增加插件类型，从而支持运行更多的作业类型。azkaban的hadoop插件可以从以下仓库中找到：git clone https://github.com/azkaban/azkaban-plugins.git

5.1 执行权限

Every user is validated through the UserManager to prevent invalid users from being added. Groups and Proxy users are also check to make sure they are valid and to see if the admin is allowed to add them to the project.

每个用户都通过UserManager进行验证，以防止添加无效用户。还要检查组和代理用户，以确保它们是有效的，并查看管理员是否被允许将它们添加到项目中。

The following permissions can be set for users and groups:

可以为用户和组设置以下权限:

Permission	Description
ADMIN	允许用户对该项目做任何事情，以及添加权限和删除项目。
READ	用户可以查看作业、流和执行日志。
WRITE	项目文件可以上传，作业文件可以修改。
EXECUTE	允许用户执行、暂停、取消作业。
SCHEDULE	允许用户从计划中添加、修改和删除流。

5.3 azkaban的优化

5.3.1 webserver配置优化

参数	描述	默认值
job.max.Xms	每个job可以申请的初始化最大内存空间，如果job需要更多的空间，azkaban Server不会启动这个job。该参数在项目upload时候执行。	默认1G
job.max.Xmx	每个job可以申请的最大内存空间，如果job需要更多的空间 azkaban server不会启动这个job。该参数在项目upload时候执行。	默认2G

每个job初始化和申请的运行空间大小，如果太小速度慢或者引起oom（outOfMemory），如果太大容易引起资源浪费。

报错oom:适当提升大小。

5.3.2 executor配置优化

提高executor的任务并行度，来快速运行任务。每个flow中可以包含多个job。

参数	描述	默认值
executor.flow.threads	当前可以运行flow的数量	默认30
flow.num.job.threads	每个flow中并发运行的job数	默认10

5.3 azkaban的优化

5.3.1 webserver配置优化

参数	描述	默认值
job.max.Xms	每个job可以申请的初始化最大内存空间，如果job需要更多的空间，azkaban Server不会启动这个job。该参数在项目upload时候执行。	默认1G
job.max.Xmx	每个job可以申请的最大内存空间，如果job需要更多的空间 azkaban server不会启动这个job。该参数在项目upload时候执行。	默认2G

每个job初始化和申请的运行空间大小，如果太小速度慢或者引起oom（outOfMemory），如果太大容易引起资源浪费。

报错oom:适当提升大小。

5.3.2 executor配置优化

提高executor的任务并行度，来快速运行任务。每个flow中可以包含多个job。

参数	描述	默认值
executor.flow.threads	当前可以运行flow的数量	默认30
flow.num.job.threads	每个flow中并发运行的job数	默认10

flow.num.job.threads如果将其设置为20，将可以并发运行20个job。

你可能感兴趣的:(大数据)

大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
女性职业新趋势：揭秘未来高薪热门行业氧惠爱高省
女生在职业选择上拥有广阔的空间，尤其是在当前快速发展的社会背景下，一些行业不仅成为了高薪热门，还提供了多样化的职业路径。以下是一些可能成为女生高薪热门选择的行业：➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。科技与互联网行业人工智能与大数据：随着人工智能和大数据技术的广泛应用，相
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
防不胜防!第六届研究所老姜（姜新宁）算力3.0亏损被骗曝光,巨额损失真相令人胆寒心惊！大盛律道
数字经济十选五投资诈骗套路频出，投资者股民的“钱袋子”多有损失，以投资理财获取大数据数字经济投资算法为由，将投资者的积蓄收入囊中，成为不法分子常用的诈骗手段之一。为守护好投资者的“钱袋子”，小编持续开展曝光数字经济诈骗行动，维护“投资者”合法权益。近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新
大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
2018-03-19新零售是未来的商业模式吗？马云对新零售到底什么看法? 拼自己想要的梦想
马云对新零售到底什么不雅观不雅观点?其实，在此之前，新零售一词就已经在业界出现过，而马云此次的提出，使其作为一个正式的名词传布开来。马云认为互联网时代，传统零售行业受到了电商互联网的打击。将来，线下与线上零售将深度连系，再加当代物流，办事商把持大数据、云计较等立异手艺，构成将来新零售的概念。纯电商的时代很快将竣事，纯零售的情势也将被冲破，新零售将引领将来全新的商业形式。新零售是从哪里来的?新零售是
大数据集群运维常见的一些问题以及处理方式
态）；若为YARN节点，重启NodeManager后手动将其加入集群。若为节点整体宕机：排查电源和网络，重启节点后，依次启动HDFS、YARN等服务进程，确认数据块完整性（避免因节点宕机导致副本不足）。2.网络问题现象：节点间通信超时（如HDFS心跳超时、YARN任务调度延迟）、数据传输卡顿。可能原因：交换机故障、网线松动、网络带宽过载、防火墙规则拦截。处理方式：用ping、traceroute检
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

10.azkaban知识点

一 azkaban的简介

1.1 调度系统背景

1.2 azkaban的特点

1.3 常见调度系统

1.4 azkaban和oozie的比较

1.5 Azkaban的系统架构

二 azkaban的安装方式

2.1 源码安装（网速的好的试试）

2.2 Solo Server安装

2.2.1 Solo Server简介

2.2.2 安装步骤

2.2.3 测试

2.3 Multi exec Server 安装

2.3.1 服务规划

2.3.2 mysql中配置azkaban的元数据库

1）解压azkaban-db-0.1.0-SNAPSHOT.tar.gz

2）找到create-all脚本

3）加载create-all脚本

4） 修改mysql的配置

2.3.3 安装azkaban-web-server

1) 上传并解压

2) 更名

3) 导入mysql驱动包

4) 生成秘钥

5) 配置azkaban.properties

6) 配置azkaban-users.xml

2.3.4 安装azkaban-exec-server

1) 上传并解压 azkaban-exec的安装包

2) 更名操作

3) 加载mysql的驱动包

4) 修改azkaban.properties

5）修改插件文件

6）启动测试（建议先重启虚拟机）

先启动两个exec

然后查看元数据表executors

7）注意事项

三 azkaban的flow1.0

3.1 azkaban的第一个简单案例

3.2 azkaban 调度shell指令

3.3 azkaban 调度mapreduce案例

3.4 azkaban 设置工作流

3.5 azkaban定时任务

3.6 azkaban调度hive脚本

四 azkaban的flow2.0

4.1 Flow 2.0 的产生

4.2 基本结构

4.3 YAML语法

4.3.1 基本规则

4.3.2 对象的写法

4.3.3 map的写法：

4.3.4 数组的写法

4.3.5 单双引号

4.3.6 特殊符号

4.3.7 配置引用

4.4 案例介绍

4.4.1 简单案例调度

4.4.2 多任务调度

4.4.3 内嵌流调度

五 azkaban的高级应用

5.1 执行权限

5.3 azkaban的优化

5.3.1 webserver配置优化

5.3.2 executor配置优化

5.3 azkaban的优化

5.3.1 webserver配置优化

5.3.2 executor配置优化

你可能感兴趣的:(大数据)

4）修改mysql的配置