MiaoSO

DolphinScheduler使用文档

工作流任务调度系统：Apache DolphinScheduler

工作流任务调度系统：Apache DolphinScheduler
- 一、文档说明
  - 1.1 DolphinScheduler 说明
  - 1.2 相关网址
  - 1.3 名词解释
  - 1.4 DolphinScheduler 架构
    - 1.4.1 MasterServer
    - 1.4.2 WorkerServer
    - 1.4.3 ZooKeeper
    - 1.4.4 Task Queue
    - 1.4.5 Alert
    - 1.4.6 API
    - 1.4.7 UI
- 二、集群规划
  - 2.1 集群配置
  - 2.2 软件版本
  - 2.3 集群规划
- 三、环境准备
  - 3.1 基础软件准备(必装项请自行安装)
  - 3.2 pip、kazoo 安装
  - 3.3 创建部署用户
  - 3.4 对部署用户配置免密
  - 3.5 dolphinscheduler 安装包下载
- 四、软件部署
  - 4.1 为 dolphinscheduler 创建 Mysql 数据库
  - 4.2 解压 dolphinscheduler 安装包
    - 4.2.1 dolphinscheduler-backend
    - 4.2.2 dolphinscheduler-ui
  - 4.3 dolphinscheduler-backend 部署
    - 4.3.1 数据库配置
    - 4.3.2 初始化数据库
    - 4.3.3 修改环境变量配置
    - 4.3.4 修改集群部署配置
    - 4.3.5 添加 Hadoop 配置文件
    - 4.3.6 一键部署
    - 4.3.7 指令
    - 4.3.8 数据库升级（略）
  - 4.4 dolphinscheduler-ui 部署
    - 4.4.1 dolphinscheduler-ui 部署说明
    - 4.4.2 自动部署
    - 4.4.3 手动部署
    - 4.4.4 修改上传文件大小限制
    - 4.4.5 dolphinscheduler 首次登录
    - 4.4.6 Nginx 相关
      - 4.4.6.1 CentOS7 安装 Nginx
      - 4.4.6.2 Nginx 指令
- 五、使用与测试
  - 5.1 安全中心（Security）
    - 5.1.1 队列管理（Queue manage）
    - 5.1.2 租户管理（Tenant Manage）
    - 5.1.3 用户管理（User Manage）
    - 5.1.4 告警组管理（Warning group manage）
    - 5.1.5 Worker分组管理（Worker group manage）
    - 5.1.6 令牌管理（Token manage）
  - 5.2 监控中心（Monitor）
  - 5.3 数据源中心（Datasource）
    - 5.3.1 MySQL 数据源
    - 5.3.2 POSTGRESQL 数据源
    - 5.3.3 HIVE 数据源
      - 5.3.3.1 使用 HiveServer2 方式连接
      - 5.3.3.2 使用 HiveServer2 HA Zookeeper 方式连接
    - 5.3.4 Spark 数据源
    - 5.3.5 CLICKHOUSE
    - 5.3.6 ORACLE
    - 5.3.7 SQLSERVER
  - 5.4 资源中心（Resources）
    - 5.4.1 文件管理
    - 5.4.2 UDF 管理
      - 5.4.2.1 资源管理
      - 5.4.2.2 函数管理
  - 5.5 项目管理（Project）
    - 5.5.1 创建项目
    - 5.5.2 项目首页
    - 5.5.3 工作流定义
      - 5.5.3.1 创建工作流定义
      - 5.5.3.2 工作流定义操作功能
      - 5.5.3.3 运行工作流
      - 5.5.3.4 工作流定时
      - 5.5.3.5 导入工作流
    - 5.5.4 工作流实例
    - 5.5.5 任务实例
- 六、任务节点类型和参数设置
  - 6.1 Shell节点
  - 6.2 子流程节点
  - 6.3 存储过程节点
  - 6.4 SQL节点
    - 6.4.1 Mysql
    - 6.4.2 Hive
    - 6.4.3 Other
  - 6.5 SPARK节点
  - 6.6 Flink节点
  - 6.7 MapReduce(MR)节点
    - 6.7.1 Java 程序
    - 6.7.2 Python 程序
  - 6.8 Python节点
  - 6.9 依赖(DEPENDENT)节点
  - 6.10 HTTP节点
- 七、参数
  - 7.1 系统参数
  - 7.2 时间自定义参数
  - 7.3 用户自定义参数
- 附录.队列管理
- 附录.令牌管理

一、文档说明

1.1 DolphinScheduler 说明

Apache DolphinScheduler 是一个分布式去中心化，易扩展的可视化 DAG 工作流任务调度系统。
致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

1.2 相关网址

官网：

https://dolphinscheduler.apache.org/zh-cn/index.html

Git 地址：

https://github.com/apache/incubator-dolphinscheduler

系统架构设计：

https://dolphinscheduler.apache.org/zh-cn/blog/architecture-design.html

系统使用手册：

https://dolphinscheduler.apache.org/zh-cn/docs/user_doc/system-manual.html

FAQ：

https://dolphinscheduler.apache.org/zh-cn/docs/faq.html

1.3 名词解释

DAG：全称 Directed Acyclic Graph，简称 DAG。工作流中的 Task 任务以有向无环图的形式组装起来，从入度为零的节点进行拓扑遍历，直到无后继节点为止。
流程定义：通过拖拽 任务节点 并建立 任务节点的关联 所形成的可视化DAG
流程实例：流程定义的实例化，可以通过手动启动或定时调度生成，流程定义每运行一次，产生一个流程实例
任务实例：流程定义 中 任务节点的实例化，标识着具体的 任务执行状态
任务类型：目前支持有SHELL、SQL、SUB_PROCESS(子流程)、PROCEDURE、MR、SPARK、PYTHON、DEPENDENT(依赖)，同时计划支持动态插件扩展，注意：其中子 SUB_PROCESS 也是一个单独的流程定义，是可以单独启动执行的
调度方式：系统支持基于 cron 表达式的定时调度和手动调度。命令类型支持：启动工作流、从当前节点开始执行、恢复被容错的工作流、恢复暂停流程、从失败节点开始执行、补数、定时、重跑、暂停、停止、恢复等待线程。其中 恢复被容错的工作流 和 恢复等待线程 两种命令类型是由调度内部控制使用，外部无法调用
定时调度：系统采用 quartz 分布式调度器，并同时支持 cron 表达式可视化的生成
依赖：系统不单单支持 DAG 简单的前驱和后继节点之间的依赖，同时还提供任务依赖节点，支持流程间的自定义任务依赖
优先级：支持流程实例和任务实例的优先级，如果流程实例和任务实例的优先级不设置，则默认是先进先出
邮件告警：支持 SQL任务 查询结果邮件发送，流程实例运行结果邮件告警及容错告警通知
失败策略：对于并行运行的任务，如果有任务失败，提供两种失败策略处理方式，继续是指不管并行运行任务的状态，直到流程失败结束。结束是指一旦发现失败任务，则同时Kill掉正在运行的并行任务，流程失败结束
补数：补历史数据，支持 区间并行和串行 两种补数方式

1.4 DolphinScheduler 架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jADgjP0A-1583811365288)(https://analysys.github.io/easyscheduler_docs_cn/images/architecture.jpg)]

1.4.1 MasterServer

MasterServer 采用分布式无中心设计理念，MasterServer 主要负责 DAG 任务切分、任务提交监控，并同时监听其它 MasterServer 和 WorkerServer 的健康状态。 MasterServer 服务启动时向 Zookeeper 注册临时节点，通过 监听 Zookeeper 临时节点 变化来进行容错处理。

该服务内主要包含：

Distributed Quartz 分布式调度组件，主要负责 定时任务的启停 操作，当 quartz 调起任务后，Master 内部会有线程池具体负责处理任务的后续操作
MasterSchedulerThread 是一个扫描线程，定时扫描数据库中的 command 表，根据不同的命令类型进行不同的业务操作
MasterExecThread 主要是负责 DAG任务切分、任务提交监控、各种不同命令类型的逻辑处理
MasterTaskExecThread 主要负责任务的持久化

1.4.2 WorkerServer

WorkerServer 也采用分布式无中心设计理念，WorkerServer 主要负责 任务的执行和提供日志服务。WorkerServer 服务启动时向 Zookeeper 注册临时节点，并维持心跳。

该服务包含：

FetchTaskThread 主要负责不断从 Task Queue 中领取任务，并根据不同任务类型调用TaskScheduleThread 对应执行器。
LoggerServer 是一个RPC服务，提供日志分片查看、刷新和下载等功能

1.4.3 ZooKeeper

ZooKeeper 服务，系统中的 MasterServer 和 WorkerServer 节点都通过 ZooKeeper 来进行 集群管理和容错。另外系统还基于 ZooKeeper 进行 事件监听和分布式锁。我们也曾经基于Redis实现过队列，不过我们希望 DolphinScheduler 依赖到的组件尽量地少，所以最后还是去掉了 Redis 实现。

1.4.4 Task Queue

提供 任务队列 的操作，目前队列也是基于 Zookeeper 来实现。由于队列中存的信息较少，不必担心队列里数据过多的情况，实际上我们压测过百万级数据存队列，对系统稳定性和性能没影响。

1.4.5 Alert

提供 告警相关 接口，接口主要包括告警两种类型的告警数据的存储、查询和通知功能。其中通知功能又有邮件通知和**SNMP(暂未实现)**两种。

1.4.6 API

API接口层，主要负责 处理前端UI层的请求。该服务统一提供 RESTful api 向外部提供请求服务。接口包括工作流的创建、定义、查询、修改、发布、下线、手工启动、停止、暂停、恢复、从该节点开始执行等等。

1.4.7 UI

系统的前端页面，提供系统的各种可视化操作界面。

二、集群规划

2.1 集群配置

略

2.2 软件版本

软件	版本
CDH	Cloudera 6.2.0
dolphinscheduler	1.2.0

2.3 集群规划

注：

以下所有节点均已部署 CDH 版本大数据相关组件。
若为 Apache 版本，则需要将大数据组件的环境变量设为全局，或者在各个租户下添加环境变量和线上环境的配置参数，防止出现 sudo -u $tenant 无法调用大数据组件的情况。

hostname	MasterServer	WorkerServer/LoggerServer	AlertServer	ApiServer	UI
test01		√
test02	√	√
test03	√	√	√	√	√

三、环境准备

3.1 基础软件准备(必装项请自行安装)

Mysql (5.5+) : 必装
JDK (1.8+) : 必装
ZooKeeper (3.4.6+) ：必装
Hadoop (2.6+) ：选装， 如果需要使用到资源上传功能，MapReduce任务提交则需要配置Hadoop(上传的资源文件目前保存在Hdfs上)
Hive(1.2.1) : 选装，hive任务提交需要安装
Spark (1.x,2.x) : 选装，Spark任务提交需要安装
PostgreSQL (8.2.15+) : 选装，PostgreSQL PostgreSQL存储过程需要安装
注意：DolphinScheduler 本身不依赖 Hadoop、Hive、Spark、PostgreSQL,仅是会调用他们的 Client，用于对应任务的运行。

3.2 pip、kazoo 安装

在主服务器（下发DolphinScheduler的机器）上执行以下操作：

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
sudo python get-pip.py
pip --version
pip install kazoo

3.3 创建部署用户

在所有部署服务器上创建部署用户，并配置 sudo 权限（worker 服务是以 sudo -u {linux-user} 方式来执行作业）

# 创建部署用户
userdel -r dscheduler 
useradd dscheduler && echo dscheduler | passwd --stdin dscheduler
# 赋予 sudo 权限
chmod 640 /etc/sudoers
vim /etc/sudoers
# 大概在100行，在root下添加如下
dscheduler  ALL=(ALL)       NOPASSWD: NOPASSWD: ALL
# 并且需要注释掉 Default requiretty 一行。如果有则注释，没有没有跳过
#Default requiretty

3.4 对部署用户配置免密

dolphinscheduler 一键部署原理：在主机器（下载安装包的机器）修改好配置文件，通过 scp 方式将后端安装包发送到各个机器，并通过 ssh 方式在部署机器上启动相关服务。故此处，需要给 主机器上的部署用户（dscheduler） 配置到 各个服务器的部署用户（dscheduler） 的免密权限。

su - dscheduler 
ssh-keygen -t rsa
cd ~/.ssh && cp id_rsa.pub authorized_keys
chmod 700 authorized_keys
#ssh-copy-id hostname
ssh-copy-id localhost

3.5 dolphinscheduler 安装包下载

在主服务器上执行以下操作：

# 创建安装目录
#sudo mkdir /u01/dolphinscheduler && sudo chown -R dscheduler:dscheduler /u01/dolphinscheduler && sudo ln -s /u01/dolphinscheduler /opt/dolphinscheduler
sudo mkdir /opt/dolphinscheduler && sudo chown -R dscheduler:dscheduler /opt/dolphinscheduler 

# 下载后端安装包（dolphinscheduler-backend）
wget http://mirror.bit.edu.cn/apache/incubator/dolphinscheduler/1.2.0/apache-dolphinscheduler-incubating-1.2.0-dolphinscheduler-backend-bin.tar.gz -P /opt/dolphinscheduler
# 下载前端安装包（dolphinscheduler-ui）
wget http://mirror.bit.edu.cn/apache/incubator/dolphinscheduler/1.2.0/apache-dolphinscheduler-incubating-1.2.0-dolphinscheduler-front-bin.tar.gz -P /opt/dolphinscheduler

四、软件部署

4.1 为 dolphinscheduler 创建 Mysql 数据库

CREATE DATABASE dolphinscheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
GRANT ALL PRIVILEGES ON dolphinscheduler.* TO 'dscheduler'@'10.10.7.%' IDENTIFIED BY 'Ds@12345';
#GRANT ALL PRIVILEGES ON dolphinscheduler.* TO 'dscheduler'@'10.158.1.%' IDENTIFIED BY 'Ds@12345';
#drop user dscheduler@'%';
flush privileges;

4.2 解压 dolphinscheduler 安装包

4.2.1 dolphinscheduler-backend

cd /opt/dolphinscheduler && tar -zxf apache-dolphinscheduler-incubating-1.2.0-dolphinscheduler-backend-bin.tar.gz
ln -s apache-dolphinscheduler-incubating-1.2.0-dolphinscheduler-backend-bin dolphinscheduler-backend

# 目录介绍
cd dolphinscheduler-backend && tree -L 1
.
├── bin           # 基础服务启动脚本
├── conf          # 项目配置文件
├── DISCLAIMER-WIP# DISCLAIMER文件
├── install.sh    # 一键部署脚本
├── lib           # 项目依赖jar包，包括各个模块jar和第三方jar
├── LICENSE       # LICENSE文件
├── licenses      # 运行时license
├── NOTICE        # NOTICE文件
├── script        # 集群启动、停止和服务监控启停脚本
└── sql           # 项目依赖sql文件

4.2.2 dolphinscheduler-ui

cd /opt/dolphinscheduler && tar -zxf apache-dolphinscheduler-incubating-1.2.0-dolphinscheduler-front-bin.tar.gz
ln -s apache-dolphinscheduler-incubating-1.2.0-dolphinscheduler-front-bin dolphinscheduler-front

4.3 dolphinscheduler-backend 部署

4.3.1 数据库配置

修改配置文件
vim /opt/dolphinscheduler/dolphinscheduler-backend/conf/application-dao.properties

 # postgre
 #spring.datasource.driver-class-name=org.postgresql.Driver
 #spring.datasource.url=jdbc:postgresql://192.168.xx.xx:5432/dolphinscheduler
 # mysql
 spring.datasource.driver-class-name=com.mysql.jdbc.Driver
 spring.datasource.url=jdbc:mysql://10.10.7.209:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8
 spring.datasource.username=dscheduler
 spring.datasource.password=Ds@12345

添加 mysql 驱动

 cp /usr/share/java/mysql-connector-java.jar /opt/dolphinscheduler/dolphinscheduler-backend/lib
 或
 cd /opt/dolphinscheduler && wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.46.tar.gz
 tar zxvf mysql-connector-java-5.1.46.tar.gz
 cp mysql-connector-java-5.1.46/mysql-connector-java-5.1.46-bin.jar /opt/dolphinscheduler/dolphinscheduler-backend/lib

4.3.2 初始化数据库

sh /opt/dolphinscheduler/dolphinscheduler-backend/script/create-dolphinscheduler.sh

# create dolphinscheduler success -> 表示数据库初始化成功

4.3.3 修改环境变量配置

vim /opt/dolphinscheduler/dolphinscheduler-backend/conf/env/.dolphinscheduler_env.sh

# ==========
# CDH 版
# ==========
export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH/lib/hadoop/etc/hadoop
export SPARK_HOME1=/opt/cloudera/parcels/CDH/lib/spark
export SPARK_HOME2=/opt/cloudera/parcels/CDH/lib/spark
export PYTHON_HOME=/usr/bin/python
export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera
export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hive
export FLINK_HOME=/opt/soft/flink
export PATH=$HADOOP_HOME/bin:$SPARK_HOME1/bin:$SPARK_HOME2/bin:$PYTHON_HOME:$JAVA_HOME/bin:$HIVE_HOME/bin:$PATH:$FLINK_HOME/bin:$PATH

4.3.4 修改集群部署配置

cp /opt/dolphinscheduler/dolphinscheduler-backend/install.sh /opt/dolphinscheduler/dolphinscheduler-backend/install.sh_b
vim /opt/dolphinscheduler/dolphinscheduler-backend/install.sh

# 注：以下参数仅为核心部分配置，并未包含 install.sh 脚本全部内容
......................................................
source ${workDir}/conf/config/run_config.conf
source ${workDir}/conf/config/install_config.conf

# 1. 数据库配置
# ${installPath}/conf/quartz.properties
#dbtype="postgresql"
dbtype="mysql"
dbhost="10.10.7.209"
dbname="dolphinscheduler"
username="dscheduler"
# Note: if there are special characters, please use the \ transfer character to transfer
passowrd="Ds@12345"

# 2. 集群部署环境配置
# ${installPath}/conf/config/install_config.conf
installPath="/opt/dolphinscheduler/dolphinscheduler-agent"
# deployment user
# Note: the deployment user needs to have sudo privileges and permissions to operate hdfs. If hdfs is enabled, the root directory needs to be created by itself
deployUser="dscheduler"
# zk cluster
zkQuorum="test01:2181,test02:2181,test03:2181"
# install hosts
ips="test01,test02,test03"

# 3. 各节点服务配置
# ${installPath}/conf/config/run_config.conf
# run master machine
masters="test02,test03"
# run worker machine
workers="test01,test02,test03"
# run alert machine
alertServer="test03"
# run api machine
apiServers="test03"


# 4. alert 配置
# ${installPath}/conf/alert.properties
# 若公司未开启 SSL 服务，可设置: mailServerPort="25" ; starttlsEnable="false" ; sslEnable="false"
# mail protocol
mailProtocol="SMTP"
# mail server host
mailServerHost="smtp.sohh.cn"
# mail server port
mailServerPort="465"
# sender
mailSender="[email protected]"
# user
mailUser="[email protected]"
# sender password
mailPassword="dashuju@123"
# TLS mail protocol support
starttlsEnable="false"
sslTrust="*"
# SSL mail protocol support
# note: The SSL protocol is enabled by default. 
# only one of TLS and SSL can be in the true state.
sslEnable="true"
# download excel path
xlsFilePath="/tmp/xls"
# Enterprise WeChat Enterprise ID Configuration
enterpriseWechatCorpId="xxxxxxxxxx"
# Enterprise WeChat application Secret configuration
enterpriseWechatSecret="xxxxxxxxxx"
# Enterprise WeChat Application AgentId Configuration
enterpriseWechatAgentId="xxxxxxxxxx"
# Enterprise WeChat user configuration, multiple users to , split
enterpriseWechatUsers="xxxxx,xxxxx"
# alert port
alertPort=7789

# 5. 开启监控自启动脚本
# 控制是否启动自启动脚本(监控master,worker状态,如果掉线会自动启动) 
# whether to start monitoring self-starting scripts
monitorServerState="true"

# 6. 资源中心配置
# ${installPath}/conf/common/ 中
# resource Center upload and select storage method：HDFS,S3,NONE
resUploadStartupType="HDFS"
# if resUploadStartupType is HDFS，defaultFS write namenode address，HA you need to put core-site.xml and hdfs-site.xml in the conf directory.
# if S3，write S3 address，HA，for example ：s3a://dolphinscheduler，
# Note，s3 be sure to create the root directory /dolphinscheduler
defaultFS="hdfs://stcluster:8020"

# if S3 is configured, the following configuration is required.
s3Endpoint="http://192.168.xx.xx:9010"
s3AccessKey="xxxxxxxxxx"
s3SecretKey="xxxxxxxxxx"

# resourcemanager HA configuration, if it is a single resourcemanager, here is yarnHaIps=""
yarnHaIps="test03,test02"
# if it is a single resourcemanager, you only need to configure one host name. If it is resourcemanager HA, the default configuration is fine.
singleYarnIp="ark1"

# hdfs root path, the owner of the root path must be the deployment user. 
# versions prior to 1.1.0 do not automatically create the hdfs root directory, you need to create it yourself.
hdfsPath="/dolphinscheduler"
# have users who create directory permissions under hdfs root path /
# Note: if kerberos is enabled, hdfsRootUser="" can be used directly.
hdfsRootUser="hdfs"

# 7. common 配置
# ${installPath}/conf/common/common.properties 中
# common config
# Program root path
programPath="/tmp/dolphinscheduler"
# download path
downloadPath="/tmp/dolphinscheduler/download"
# task execute path
execPath="/tmp/dolphinscheduler/exec"
# SHELL environmental variable path
shellEnvPath="$installPath/conf/env/.dolphinscheduler_env.sh"
# suffix of the resource file
resSuffixs="txt,log,sh,conf,cfg,py,java,sql,hql,xml"
# development status, if true, for the SHELL script, you can view the encapsulated SHELL script in the execPath directory. 
# If it is false, execute the direct delete
devState="true"
# kerberos config
# kerberos whether to start
kerberosStartUp="false"
# kdc krb5 config file path
krb5ConfPath="$installPath/conf/krb5.conf"
# keytab username
keytabUserName="[email protected]"
# username keytab path
keytabPath="$installPath/conf/hdfs.headless.keytab"

# 8. zk 配置
# ${installPath}/conf/zookeeper.properties
# zk config
# zk root directory
zkRoot="/dolphinscheduler"
# used to record the zk directory of the hanging machine
zkDeadServers="$zkRoot/dead-servers"
# masters directory
zkMasters="$zkRoot/masters"
# workers directory
zkWorkers="$zkRoot/workers"
# zk master distributed lock
mastersLock="$zkRoot/lock/masters"
# zk worker distributed lock
workersLock="$zkRoot/lock/workers"
# zk master fault-tolerant distributed lock
mastersFailover="$zkRoot/lock/failover/masters"
# zk worker fault-tolerant distributed lock
workersFailover="$zkRoot/lock/failover/workers"
# zk master start fault tolerant distributed lock
mastersStartupFailover="$zkRoot/lock/failover/startup-masters"
# zk session timeout
zkSessionTimeout="300"
# zk connection timeout
zkConnectionTimeout="300"
# zk retry interval
zkRetrySleep="100"
# zk retry maximum number of times
zkRetryMaxtime="5"

# 9. master config
# ${installPath}/conf/master.properties
# master execution thread maximum number, maximum parallelism of process instance
masterExecThreads="100"
# the maximum number of master task execution threads, the maximum degree of parallelism for each process instance
masterExecTaskNum="20"
# master heartbeat interval
masterHeartbeatInterval="10"
# master task submission retries
masterTaskCommitRetryTimes="5"
# master task submission retry interval
masterTaskCommitInterval="100"
# master maximum cpu average load, used to determine whether the master has execution capability
masterMaxCpuLoadAvg="10"
# master reserve memory to determine if the master has execution capability
masterReservedMemory="1"
# master port
masterPort=5566

# 10. worker config
# ${installPath}/conf/worker.properties
# worker execution thread
workerExecThreads="100"
# worker heartbeat interval
workerHeartbeatInterval="10"
# worker number of fetch tasks
workerFetchTaskNum="3"
# worker reserve memory to determine if the master has execution capability
workerReservedMemory="1"
# master port
workerPort=7788

# 11. api config
# ${installPath}/conf/application.properties
# api server port
apiServerPort="12345"
# api session timeout
apiServerSessionTimeout="7200"
# api server context path
apiServerContextPath="/dolphinscheduler/"
# spring max file size
springMaxFileSize="1024MB"
# spring max request size
springMaxRequestSize="1024MB"
# api max http post size
apiMaxHttpPostSize="5000000"

# 1,replace file
echo "1,replace file"
......................................................

4.3.5 添加 Hadoop 配置文件

# 若 install.sh 中，resUploadStartupType 为 HDFS，且配置为 HA，则需拷贝 hadoop 配置文件到 conf 目录下
cp /etc/hadoop/conf.cloudera.yarn/hdfs-site.xml /opt/dolphinscheduler/dolphinscheduler-backend/conf/
cp /etc/hadoop/conf.cloudera.yarn/core-site.xml /opt/dolphinscheduler/dolphinscheduler-backend/conf/

# 若需要修改 hadoop 配置文件，则需拷贝 hadoop 配置文件到 $installPath/conf 目录下，并重启 api-server 服务
#cp /etc/hadoop/conf.cloudera.yarn/hdfs-site.xml /opt/dolphinscheduler/dolphinscheduler-agent/conf/
#cp /etc/hadoop/conf.cloudera.yarn/core-site.xml /opt/dolphinscheduler/dolphinscheduler-agent/conf/
#sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh start api-server
#sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh stop api-server

4.3.6 一键部署

执行脚本部署并启动

sh /opt/dolphinscheduler/dolphinscheduler-backend/install.sh

查看日志

tree /opt/dolphinscheduler/dolphinscheduler/logs
-------------------------------------------------
/opt/DolphinScheduler/dolphinscheduler/logs
├── dolphinscheduler-alert.log
├── dolphinscheduler-alert-server-node-b.test.com.out
├── dolphinscheduler-alert-server.pid
├── dolphinscheduler-api-server-node-b.test.com.out
├── dolphinscheduler-api-server.log
├── dolphinscheduler-api-server.pid
├── dolphinscheduler-logger-server-node-b.test.com.out
├── dolphinscheduler-logger-server.pid
├── dolphinscheduler-master.log
├── dolphinscheduler-master-server-node-b.test.com.out
├── dolphinscheduler-master-server.pid
├── dolphinscheduler-worker.log
├── dolphinscheduler-worker-server-node-b.test.com.out
├── dolphinscheduler-worker-server.pid
└── {processDefinitionId}
    └── {processInstanceId}
        └── {taskInstanceId}.log

查看Java进程

jps
8138 MasterServer              # master服务
8165 WorkerServer              # worker服务
8206 LoggerServer              # logger服务
8240 AlertServer               # alert服务
8274 ApiApplicationServer      # api服务

Worker 启动失败

less /opt/dolphinscheduler/dolphinscheduler-agent/logs/dolphinscheduler-worker-server-test01.out
nohup: 无法运行命令"/bin/java": 没有那个文件或目录

解决方法：创建 java 软链
cd /usr/bin/ && sudo ln -s /usr/java/jdk1.8.0_181-cloudera/bin/java /usr/bin/java

4.3.7 指令

# 一键部署（含暂停、重发安装包、启动等操作）
sh /opt/dolphinscheduler/dolphinscheduler-backend/install.sh

# 一键启停集群所有服务
sh /opt/dolphinscheduler/dolphinscheduler-backend/bin/start-all.sh
sh /opt/dolphinscheduler/dolphinscheduler-backend/bin/stop-all.sh
或
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/start-all.sh
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/stop-all.sh

# 启停 Master
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh start master-server
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh stop master-server

# 启停 Worker
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh start worker-server
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh stop worker-server

# 启停 Api
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh start api-server
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh stop api-server

# 启停 Logger
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh start logger-server
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh stop logger-server

# 启停Alert
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh start alert-server
sh /opt/dolphinscheduler/dolphinscheduler-agent/bin/dolphinscheduler-daemon.sh stop alert-server

4.3.8 数据库升级（略）

# 数据库升级是在1.0.2版本增加的功能,执行以下命令即可自动升级数据库
sh /opt/dolphinscheduler/dolphinscheduler-agent/script/upgrade_dolphinscheduler.sh

4.4 dolphinscheduler-ui 部署

4.4.1 dolphinscheduler-ui 部署说明

在部署 ApiApplicationServer 的服务器上部署 UI 服务。
前端部署分自动和手动两种方式：

自动部署脚本会用 yum 安装 Nginx，通过引导设置后的 Nginx 配置文件为 /etc/nginx/conf.d/dolphinscheduler.conf
如果本地已经存在 Nginx，则需手动部署，创建 Nginx 配置文件 /etc/nginx/conf.d/dolphinscheduler.conf

4.4.2 自动部署

sudo sh /opt/dolphinscheduler/dolphinscheduler-front/install-dolphinscheduler-ui.sh

············
请输入nginx代理端口，不输入，则默认8888 :8886
请输入api server代理ip,必须输入，例如：192.168.xx.xx :10.10.7.209
请输入api server代理端口,不输入，则默认12345 :12345
=================================================
1.CentOS6安装
2.CentOS7安装
3.Ubuntu安装
4.退出
=================================================
请输入安装编号(1|2|3|4)：2
············ 
Complete!
port option is needed for add
FirewallD is not running
setenforce: SELinux is disabled
请浏览器访问：http://10.10.7.209:8886

4.4.3 手动部署

vim /etc/nginx/conf.d/dolphinscheduler.conf

    server {
        listen       8886;# access port
        server_name  localhost;
        #charset koi8-r;
        #access_log  /var/log/nginx/host.access.log  main;
        location / {
        root   /opt/dolphinscheduler/dolphinscheduler-front/dist; # static file directory
        index  index.html index.html;
        }
        location /dolphinscheduler {
        proxy_pass http://10.10.7.209:12345; # interface address
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header x_real_ipP $remote_addr;
        proxy_set_header remote_addr $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_http_version 1.1;
        proxy_connect_timeout 300s;
        proxy_read_timeout 300s;
        proxy_send_timeout 300s;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection upgrade;
        }
        #error_page  404              /404.html;
        # redirect server error pages to the static page /50x.html
        #
        error_page   500 502 503 504  /50x.html;
        location = /50x.html {
        root   /usr/share/nginx/html;
        }
    }

4.4.4 修改上传文件大小限制

sudo vim /etc/nginx/nginx.conf

# 在 http 内加入
client_max_body_size 1024m;

重启 nginx 服务

systemctl restart nginx

4.4.5 dolphinscheduler 首次登录

访问 http://10.10.7.209:8886  
初始用户：admin  
初始密码：dolphinscheduler123  
注：若访问网址提示 404，则删除 /etc/nginx/conf.d/default.conf 文件

4.4.6 Nginx 相关

4.4.6.1 CentOS7 安装 Nginx

rpm -Uvh http://nginx.org/packages/centos/7/noarch/RPMS/nginx-release-centos-7-0.el7.ngx.noarch.rpm
yum install nginx
systemctl start nginx.service

4.4.6.2 Nginx 指令

# 启动
systemctl start nginx
# 重启
systemctl restart nginx
# 状态
systemctl status nginx
# 停止
systemctl stop nginx

五、使用与测试

5.1 安全中心（Security）

5.1.1 队列管理（Queue manage）

说明：队列是在执行 spark、mapreduce 等程序，需要用到“队列”参数时使用的（创建后不可删除）。
详见：附录.队列管理

例：

安全中心 -> 队列管理 -> 创建队列
------------------------------------------------------
名称：quene_test
队列值：quene_test
------------------------------------------------------
提交

5.1.2 租户管理（Tenant Manage）

说明：
租户对应的是 Linux 的用户，用于 worker 提交作业所使用的用户。
如果 Linux 没有这个用户，worker 会在执行脚本的时候创建这个用户。

租户编码：
租户编码是 Linux 上的用户，唯一，不能重复。
新建的租户会在 HDFS 上 $hdfsPath("/dolphinscheduler"）目录下创建租户目录，租户目录下为该租户上传的文件和 UDF 函数

租户名称：
租户编码的别名

例：

安全中心 -> 租户管理 -> 创建租户
------------------------------------------------------
租户编码：developer
租户名称：DEFAULT-TENANT
队列值：default
------------------------------------------------------
提交

为该用户在 HDFS 上创建用户目录
sudo -u hdfs hadoop fs -mkdir /user/developer
sudo -u hdfs hadoop fs -chown developer:developer /user/developer

注：

此处为管理员创建管理员租户 dscheduler（租户编码：dscheduler 租户名称：WARING-DSCHEDULER）
sudo -u hdfs hadoop fs -mkdir /user/dscheduler
sudo -u hdfs hadoop fs -chown dscheduler:dscheduler /user/dscheduler

5.1.3 用户管理（User Manage）

说明：用户分为管理员用户和普通用户。
授予权限包括：项目权限，资源权限，数据源权限，UDF函数权限。
管理员可以对普通用户进行非其创建的项目、资源、数据源和UDF函数进行授权。

例：

安全中心 -> 用户管理 -> 创建用户
------------------------------------------------------
用户名称：tourist
密码：DS1234
租户：DEFAULT-TENANT
队列：default
邮箱：[email protected]
手机号：
-----------------------------------------------------+-
提交

注：

实际生产环境中，可将 项目、用户、租户 相关联，即为某个大的项目创建一个用户及对应的租户。若需要删除用户，则应首先将项目内的任务删除，然后删除项目，再删除用户及关联的租户，否则会出现任务无法运行，项目不可见等情况（1.2 版本）
如果该 用户切换租户，则该 用户在当前租户下创建的所有资源 将复制到新的租户下（对于 HDFS 平台来说，则是将当前租户目录下该用户创建的所有资源复制到新租户的目录下，不复制被赋权的文件，且被赋权的文件仍有权限）。需要注意的是，此后进行文件删除操作时，旧租户下的对应的文件并不会被删除。

5.1.4 告警组管理（Warning group manage）

说明：告警组是在启动时设置的参数，在流程结束以后会将流程的状态和其他信息以邮件形式发送给告警组。

例：略

5.1.5 Worker分组管理（Worker group manage）

说明：
worker 分组，提供了一种让任务在指定的 worker 上运行的机制。
管理员创建 worker 分组，在任务节点和运行参数中设置中可以指定该任务运行的 worker 分组。
如果指定的分组被删除或者没有指定分组，则该任务会在任意一个 worker 上运行。worker 分组内多个 ip 地址（不能写别名），以英文逗号分隔。

例：

安全中心 -> Worker分组管理 -> 创建Worker分组
------------------------------------------------------
组名称：test01
IP：10.10.7.1
------------------------------------------------------
提交

5.1.6 令牌管理（Token manage）

说明：由于后端接口有登录检查，令牌管理，提供了一种可以通过调用接口的方式对系统进行各种操作。
调用示例：略。详见：附录.令牌管理

5.2 监控中心（Monitor）

略

5.3 数据源中心（Datasource）

数据源中心支持MySQL、POSTGRESQL、HIVE及Spark等数据源

5.3.1 MySQL 数据源

例：

数据源中心 -> 创建数据源 -> MYSQL
------------------------------------------------------
数据源名称：test_mysql_mdb
描述：
IP主机名：test03
端口：3306
用户名：testuser
密码：Test@1234
数据库名：mydb
jdbc连接参数：
------------------------------------------------------
测试链接 -> 编辑

5.3.2 POSTGRESQL 数据源

略

5.3.3 HIVE 数据源

5.3.3.1 使用 HiveServer2 方式连接

例：

数据源中心 -> 创建数据源 -> HIVE/IMPALA
------------------------------------------------------
数据源名称：test_hiveserver2
描述：
IP主机名：test03
端口：10000
用户名：hive
密码：12341234
数据库名：mdb
jdbc连接参数：
------------------------------------------------------
测试链接 -> 编辑

5.3.3.2 使用 HiveServer2 HA Zookeeper 方式连接

例：

数据源中心 -> 创建数据源 -> HIVE/IMPALA
------------------------------------------------------
数据源名称：test_hiveserver2_ha
描述：
IP主机名：test01,test02,test03
端口：2181
用户名：hive
密码：12341234
数据库名：mydb
jdbc连接参数：{"serviceDiscoveryMode":"zooKeeper","zooKeeperNamespace":"hiveserver2_zk"}
------------------------------------------------------
测试链接 -> 编辑
注意：如果开启了kerberos，则需要填写 Principal

5.3.4 Spark 数据源

略

5.3.5 CLICKHOUSE

略

5.3.6 ORACLE

略

5.3.7 SQLSERVER

略

5.4 资源中心（Resources）

资源中心所有文件对应的 Mysql 表为：t_ds_resources
UDF 对应的 Mysql 表为：t_ds_udfs
资源中心的文件上传、删除操作使用的用户均为 install.sh 中指定的 $hdfsRootUser

5.4.1 文件管理

包含创建文件、上传文件、文件查看、下载文件、文件重命名、删除等功能
文件所在 HDFS 上的路径为：$hdfsPath/$tenant/resources/
创建文件支持的文件类型：txt、log、sh、conf、cfg、py、java、sql、xml、hql
上传文件常用于：用户程序，脚本及配置文件

注：

关于文件已存在（resource already exists ）问题
文件管理中的文件，有名称和 文件名称 两个属性，判断文件是否存在，是根据名称进行判断的。
创建文件时，默认为名称与 文件名称 同名，若提示已存在，则需修改创建文件操作下的文件名称内容。新建的文件名称与 文件名称 都为修改后的文件名。
上传文件时，默认为名称与 文件名称 同名，若提示已存在，则需修改文件上传操作下的文件名称内容。上传的文件名称为修改后的文件名，文件名称 为上传文件的原文件名。
HDFS 上实际存储的文件，文件名为名称显示的内容。
在工作流定义中调用资源时，选取的是此处的名称属性。

5.4.2 UDF 管理

5.4.2.1 资源管理

上传 UDF 资源，同文件管理的上传文件操作。

5.4.2.2 函数管理

点击“创建UDF函数”，输入udf函数参数，选择udf资源，点击“提交”，创建udf函数。
注：目前只支持HIVE的 临时 UDF 函数。

5.5 项目管理（Project）

5.5.1 创建项目

项目名称 不可重复。即使为不同用户，创建项目时若 项目名称 已存在。会提示 “project Test already exists”。
若要删除项目，需要确认项目中所有 工作流定义 都已下线并删除，才能进行删除操作。
实际生产环境中，建议使用 管理员账户 创建项目，并对开发人员赋权。

例：

项目管理 -> 创建项目
------------------------------------------------------
项目名称：Demo
描述：
------------------------------------------------------
提交

5.5.2 项目首页

点击“项目名称”，进入“项目首页”。

任务状态统计：是指在指定时间范围内，统计 任务实例 中的待运行、失败、运行中、完成、成功的个数
流程状态统计：是指在指定时间范围内，统计 工作流实例 中的待运行、失败、运行中、完成、成功的个数
流程定义统计：是统计当前用户有权限的项目的 工作流定义 总数

注：
工作流定义 的工作流每运行一次，产生一个 工作流实例，一个 工作流实例 包含一到多个 任务实例。同一 任务实例 仅被统计一次，按最近时间状态进行统计。

5.5.3 工作流定义

5.5.3.1 创建工作流定义

例：

项目管理 -> 工作流 -> 工作流定义 -> 创建工作流
Step 1：拖拽“SHELL"节点到画布，新增一个Shell任务。
------------------------------------------------------
节点名称：task01
描述：This is a test task.
任务优先级：MEDIUM
Worker分组：Default
失败重试次数：0
失败重试间隔：1
脚本：
    #!/bin/sh
    echo "HELLO WORLD."
资源：
自定义参数：
------------------------------------------------------
    确认添加

Step 2：拖拽“SHELL"节点到画布，新增一个Shell任务。
------------------------------------------------------
节点名称：task02
描述：This is another test task.
任务优先级：MEDIUM
Worker分组：Default
失败重试次数：0
失败重试间隔：1
脚本：
    #!/bin/sh
    echo "HELLO DOLPHIN SCHEDULER."
资源：
自定义参数：
-> 确认添加
------------------------------------------------------
Step 3：“选择线条连接”，连接任务1、2，tesk01、task02 会串行执行。
Step 4：保存
------------------------------------------------------
设置DAG图名称：Test_shell
选择租户：Default
------------------------------------------------------
-> 添加

更多任务类型详见：六、任务节点类型和参数设置

5.5.3.2 工作流定义操作功能

工作流定义列表的操作功能如下：

编辑：只能编辑"下线"的工作流定义。工作流DAG编辑同创建工作流定义。
上线：工作流状态为"下线"时，上线工作流，只有"上线"状态的工作流能运行，但不能编辑。
下线：工作流状态为"上线"时，下线工作流，下线状态的工作流可以编辑，但不能运行。
运行：只有上线的工作流能运行。运行操作步骤见 5.5.3.3 运行工作流
定时：只有上线的工作流能设置定时，系统自动定时调度工作流运行。创建定时后的状态为"下线"，需在定时管理页面上线定时才生效。定时操作步骤见 5.5.3.4 工作流定时。
定时管理：定时管理页面可编辑、上线/下线、删除定时。
删除：删除工作流定义。
下载：下载工作流定义到本地
树形图：以树形结构展示任务节点的类型及任务状态

5.5.3.3 运行工作流

工作流运行参数说明：

失败策略：当某一个任务节点执行失败时，其他并行的任务节点需要执行的策略。”继续“表示：某一任务失败后，其他任务节点正常执行；”结束“表示：终止所有正在执行的任务，并终止整个流程。
通知策略：当流程结束，根据流程状态发送流程执行信息通知邮件，包含任何状态都不发，成功发，失败发，成功或失败都发。
流程优先级：流程运行的优先级，分五个等级：最高（HIGHEST），高(HIGH),中（MEDIUM）,低（LOW），最低（LOWEST）。当master线程数不足时，级别高的流程在执行队列中会优先执行，相同优先级的流程按照先进先出的顺序执行。
worker分组：该流程只能在指定的worker机器组里执行。默认是Default，可以在任一worker上执行。
通知组：选择通知策略||超时报警||发生容错时，会发送流程信息或邮件到通知组里的所有成员。
收件人：选择通知策略||超时报警||发生容错时，会发送流程信息或告警邮件到收件人列表。
抄送人：选择通知策略||超时报警||发生容错时，会抄送流程信息或告警邮件到抄送人列表。
补数：包括串行补数、并行补数2种模式。串行补数：指定时间范围内，从开始日期至结束日期依次执行补数，只生成一条流程实例；并行补数：指定时间范围内，多天同时进行补数，生成N条流程实例。

例：

项目管理 -> 工作流 -> 工作流定义 ->   
选择工作流名称“Test_shell” -> 上线 -> 运行（参数均为默认，不做修改）

5.5.3.4 工作流定时

选择指定工作流，点击“定时”，选择起止时间、定时等选择定时执行时间。

点击"创建"按钮，创建定时成功，此时定时状态为"下线"，定时需上线才生效。
定时上线：点击"定时管理"按钮，进入定时管理页面，点击"上线"按钮，定时状态变为"上线"，如下图所示，工作流定时生效。

下线 工作流定义 后，定时任务业务也会同时下线，工作流定义 上线后，需要重新手动上线定时任务

5.5.3.5 导入工作流

点击项目管理->工作流->工作流定义，进入工作流定义页面，点击"导入工作流"按钮，导入本地工作流文件，工作流定义列表显示导入的工作流，状态为下线。

5.5.4 工作流实例

查看工作流实例：

项目管理 -> 工作流 -> 工作流实例 -> 点击工作流名称 -> 进入DAG查看页面，查看任务执行状态

查看任务日志：

进入DAG查看页面 -> 双击任务节点 -> 查看日志

查看任务历史记录：

进入DAG查看页面 -> 双击任务节点 -> 查看历史

查看运行参数：

进入工作流DAG页面 -> 点击左上角图标，查看工作流实例的启动参数、全局参数和局部参数

工作流实例操作功能：

编辑：可以对已经终止的流程进行编辑，编辑后保存的时候，可以选择是否 更新到工作流定义
重跑：可以对已经终止的流程进行重新执行
恢复失败：针对失败的流程，可以执行恢复失败操作，从失败的节点开始执行
停止：对正在运行的流程进行停止操作，后台会先 kill worker 进程，再执行 kill -9 操作
暂停：可以对正在运行的流程进行暂停操作，系统状态变为等待执行，会等待正在执行的任务结束，暂停下一个要执行的任务
恢复暂停：可以对暂停的流程恢复，直接从暂停的节点开始运行
删除：删除工作流实例及工作流实例下的任务实例
甘特图：Gantt图纵轴是某个工作流实例下的任务实例的拓扑排序，横轴是任务实例的运行时间

5.5.5 任务实例

任务实例 -> 点击工作流实例名称 -> 可跳转到工作流实例DAG图查看任务状态
任务实例 -> 查看日志

六、任务节点类型和参数设置

6.1 Shell节点

运行说明：shell 节点，在 worker 执行的时候，会生成一个临时 shell 脚本，使用租户同名的linux 用户执行这个脚本。
参数说明：

节点名称：一个工作流定义中的节点名称是唯一的
运行标志：标识这个节点是否能正常调度,如果不需要执行，可以打开禁止执行开关
描述信息：描述该节点的功能
任务优先级：级别高的任务在执行队列中会优先执行，相同优先级的任务按照先进先出的顺序执行
Worker分组：指定任务运行的机器列表
失败重试次数：任务失败重新提交的次数，支持下拉和手填
失败重试间隔：任务失败重新提交任务的时间间隔，支持下拉和手填
超时告警：当任务执行时间超过超时时长可以告警并且超时失败
脚本：用户开发的SHELL程序
资源：是指脚本中需要调用的资源文件列表
自定义参数：是SHELL局部的用户自定义参数，会替换脚本中以${变量}的内容

例：

项目管理 -> 工作流 -> 工作流定义 -> 创建工作流
------------------------------------------------------
拖拽“SHELL"节点到画布，新增一个Shell任务。
节点名称：Test_shell_01
运行标志：正常
描述：
任务优先级：MEDIUM
Worker分组：Default
失败重试次数：0
失败重试间隔：1
超时告警：off
脚本：
    #!/bin/sh
    for i in {1..10};do echo $i;done
资源：
自定义参数：
-> 确认添加
------------------------------------------------------
保存 -> 
设置DAG图名称：Test_shell
选择租户：Default
超时告警：off
设置全局：
------------------------------------------------------
添加 -> 上线 -> 运行

6.2 子流程节点

运行说明：子流程节点，就是把外部的某个工作流定义当做一个任务节点去执行。
参数说明：

节点名称：一个工作流定义中的节点名称是唯一的
运行标志：标识这个节点是否能正常调度
描述信息：描述该节点的功能
超时告警：勾选超时告警、超时失败，当任务超过"超时时长"后，会发送告警邮件并且任务执行失败
子节点：是选择子流程的工作流定义，右上角进入该子节点可以跳转到所选子流程的工作流定义

例：

项目管理 -> 工作流 -> 工作流定义 -> 创建工作流
------------------------------------------------------
Task 1：拖拽 SHELL 节点到画布，新增一个 Shell 任务
节点名称：Test_subprocess_01
... ...
脚本：
    #!/bin/sh
    for i in {1..10};do echo $i;done
-> 确认添加
Task 2：拖拽 SUB_PROCESS 节点到画布，新增一个 SUB_PROCESS 任务
节点名称：Test_subprocess_02
... ...
子节点：Test_shell
-> 确认添加
------------------------------------------------------
串联任务节点 Task1 和 Task2
------------------------------------------------------
保存 -> 
设置DAG图名称：Test_subprocess
选择租户：Default
超时告警：off
设置全局：
------------------------------------------------------
添加 -> 上线 -> 运行

6.3 存储过程节点

运行说明：根据选择的数据源，执行存储过程。
参数说明：

数据源：存储过程的数据源类型支持 MySQL、POSTGRESQL、CLICKHOUSE、ORACLE、SQLSERVER 等，选择对应的数据源
方法：是存储过程的方法名称
自定义参数：存储过程的自定义参数类型支持 IN、OUT 两种，数据类型支持 VARCHAR、INTEGER、LONG、FLOAT、DOUBLE、DATE、TIME、TIMESTAMP、BOOLEAN 九种数据类型

例：

Test_procedure（略）

6.4 SQL节点

参数说明：

数据源：选择对应的数据源
sql类型：支持查询和非查询两种，查询是 select 类型的查询，是有结果集返回的，可以指定邮件通知为表格、附件或 表格与附件 三种模板。非查询是没有结果集返回的，是针对 update、delete、insert 三种类型的操作
主题、收件人、抄送人：邮件相关配置
sql参数：输入参数格式为 key1=value1;key2=value2…
sql语句：SQL语句
UDF函数：对于HIVE类型的数据源，可以引用资源中心中创建的UDF函数,其他类型的数据源暂不支持UDF函数
自定义参数：SQL任务类型，而存储过程是自定义参数顺序的给方法设置值自定义参数类型和数据类型同存储过程任务类型一样。区别在于SQL任务类型自定义参数会替换sql语句中 ${变量}
前置sql：执行 “sql语句” 前的操作
后置sql：执行 “sql语句” 后的操作

6.4.1 Mysql

例：

项目管理 -> 工作流 -> 工作流定义 -> 创建工作流
------------------------------------------------------
Task 1：拖拽 SQL 节点到画布，新增一个 SQL 任务
节点名称：Test_sql_mysql_01
... ...
数据源：MYSQL   test01_mysql
sql类型：查询   表格：√ 附件：√
主题：Test MySQL
收件人：[email protected]
sql语句：
    select * from test_table where score=${i};
自定义参数：
    i -> IN -> INTEGER -> 97
前置sql:
    INSERT INTO test_table values(null, 'Dog',97)
后置sql：
-> 确认添加
Task 2：拖拽 SQL 节点到画布，新增一个 SQL 任务
节点名称：Test_sql_mysql_02
... ...
数据源：MYSQL   test01_mysql
sql类型：非查询
sql语句：
    create table test_table2 as select * from test_table;
自定义参数：
前置sql:
后置sql：
-> 确认添加
------------------------------------------------------
串联任务节点 Test_sql_mysql_01、Test_sql_mysql_02
------------------------------------------------------
保存 -> 
设置DAG图名称：Test_sql_mysql
选择租户：Default
超时告警：off
设置全局：
------------------------------------------------------
添加 -> 上线 -> 运行

6.4.2 Hive

例：

项目管理 -> 工作流 -> 工作流定义 -> 创建工作流
------------------------------------------------------
Task 1：拖拽 SQL 节点到画布，新增一个 SQL 任务
节点名称：Test_sql_hive_01
... ...
数据源：Hive  test_hiveserver2
sql类型：查询   表格：√ 附件：√
主题：Test Hive
收件人：[email protected]
sql语句（结尾不要加分号）：
    select * from test_table where score=${i}
自定义参数：
    i -> IN -> INTEGER -> 97
前置sql:
    INSERT INTO test_table values(null, 'Dog',97)
后置sql：
-> 确认添加
Task 2：拖拽 SQL 节点到画布，新增一个 SQL 任务
节点名称：Test_sql_hive_02
... ...
数据源：Hive  test_hiveserver2_ha
sql类型：非查询
sql语句（结尾不要加分号）：
    create table test_table2 as select * from test_table
自定义参数：
前置sql:
后置sql：
-> 确认添加
------------------------------------------------------
串联任务节点 Test_sql_hive_01、 Test_sql_hive_02
------------------------------------------------------
保存 -> 
设置DAG图名称：Test_sql_hive
选择租户：Default
超时告警：off
设置全局：
------------------------------------------------------
添加 -> 上线 -> 运行

6.4.3 Other

POSTGRESQL、SPARK、CLICKHOUSE、ORACLE、SQLSERVER（略）

6.5 SPARK节点

执行说明：通过 SPARK 节点，可以直接直接执行 SPARK 程序，对于 spark 节点，worker 会使用 spark-submit 方式提交任务
参数说明：

程序类型：支持JAVA、Scala和Python三种语言
主函数的class：是Spark程序的入口Main Class的全路径
主jar包：是Spark的jar包
部署方式：支持yarn-cluster、yarn-client、和local三种模式
Driver：设置 Driver内核数及内存数
Executor：设置 Executor数量、Executor内存数、Executor内核数
命令行参数：是设置Spark程序的输入参数，支持自定义参数变量的替换。
其他参数：支持 --jars、–files、–archives、–conf格式
资源：如果其他参数中引用了资源文件，需要在资源中选择指定
自定义参数：是 MR 局部的用户自定义参数，会替换脚本中以${变量}的内容

注意：JAVA和Scala只是用来标识，没有区别，如果是Python开发的Spark则没有主函数的class，其他都是一样

例：略

6.6 Flink节点

参数说明：

程序类型：支持JAVA、Scala和Python三种语言
主函数的class：是Flink程序的入口Main Class的全路径
主jar包：是Flink的jar包
部署方式：支持cluster、local三种模式
slot数量：可以设置slot数
taskManage数量：可以设置taskManage数
jobManager内存数：可以设置jobManager内存数
taskManager内存数：可以设置taskManager内存数
命令行参数：是设置Spark程序的输入参数，支持自定义参数变量的替换。
其他参数：支持 --jars、–files、–archives、–conf格式
资源：如果其他参数中引用了资源文件，需要在资源中选择指定
自定义参数：是Flink局部的用户自定义参数，会替换脚本中以${变量}的内容

注意：JAVA和Scala只是用来标识，没有区别，如果是Python开发的Flink则没有主函数的class，其他都是一样

例：略

6.7 MapReduce(MR)节点

执行说明：使用 MR 节点，可以直接执行 MR 程序。对于 MR 节点，worker 会使用 hadoop jar 方式提交任务

6.7.1 Java 程序

参数说明：

程序类型：JAVA
主函数的class：是MR程序的入口Main Class的全路径
主jar包：是MR的jar包
命令行参数：是设置MR程序的输入参数，支持自定义参数变量的替换
其他参数：支持 –D、-files、-libjars、-archives格式
资源：如果其他参数中引用了资源文件，需要在资源中选择指定
自定义参数：是MR局部的用户自定义参数，会替换脚本中以${变量}的内容

例：

# 将 MR 的示例 jar 包上传到 资源中心；并创建测试文本上传到 HDFS 目录
# CDH 版本 Jar 包位置：/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar
项目管理 -> 工作流 -> 工作流定义 -> 创建工作流
------------------------------------------------------
拖拽 MR 节点到画布，新增一个 MR 任务
节点名称：Test_mr_java_01
... ...
程序类型：JAVA
主函数的class：wordcount
主jar包：hadoop-mapreduce-examples.jar
命令行参数：/tmp/test.txt /tmp/output
其他参数：
资源：
自定义参数：
-> 确认添加
------------------------------------------------------
保存 -> 
设置DAG图名称：Test_mr_java
选择租户：Default
超时告警：off
设置全局：
------------------------------------------------------
添加 -> 上线 -> 运行（运行MR的权限问题此处不再描述）
------------------------------------------------------
查看结果：
sudo -u hdfs hadoop fs -cat /tmp/output/*

6.7.2 Python 程序

参数说明：

程序类型：Python
主jar包：运行 MR 的 Python jar包
其他参数：支持 –D、-mapper、-reducer、-input -output格式，这里可以设置用户自定义参数的输入，比如：-mapper “mapper.py 1” -file mapper.py -reducer reducer.py -file reducer.py –input /journey/words.txt -output /journey/out/mr/${currentTimeMillis} 其中 -mapper 后的 mapper.py 1是两个参数，第一个参数是mapper.py，第二个参数是1
资源：如果其他参数中引用了资源文件，需要在资源中选择指定
自定义参数：是MR局部的用户自定义参数，会替换脚本中以${变量}的内容

6.8 Python节点

运行说明：使用python节点，可以直接执行python脚本，对于python节点，worker会使用python **方式提交任务。
参数说明：
脚本：用户开发的Python程序
资源：是指脚本中需要调用的资源文件列表
自定义参数：是Python局部的用户自定义参数，会替换脚本中以${变量}的内容

例：

项目管理 -> 工作流 -> 工作流定义 -> 创建工作流
------------------------------------------------------
拖拽 Python 节点到画布，新增一个 Python 任务
节点名称：Test_python_01
... ...
脚本：
    #!/user/bin/python
    # -*- coding: UTF-8 -*-
    for num in range(0, 10): print 'Round %d ...' % num
资源：
自定义参数：
-> 确认添加
------------------------------------------------------
保存 -> 
设置DAG图名称：Test_python
选择租户：Default
超时告警：off
设置全局：
------------------------------------------------------
添加 -> 上线 -> 运行

6.9 依赖(DEPENDENT)节点

运行说明：依赖节点，就是依赖检查节点。比如A流程依赖昨天的B流程执行成功，依赖节点会去检查B流程在昨天是否有执行成功的实例。

例（摘自官网）：例如，A流程为周报任务，B、C流程为天任务，A任务需要B、C任务在上周的每一天都执行成功，如图示：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1J7whOxK-1583811365290)(https://analysys.github.io/easyscheduler_docs_cn/images/depend-node2.png)]

假如，周报A同时还需要自身在上周二执行成功：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Orbc0EJV-1583811365290)(https://analysys.github.io/easyscheduler_docs_cn/images/depend-node3.png)]

6.10 HTTP节点

参数说明：

节点名称：一个工作流定义中的节点名称是唯一的。
运行标志：标识这个节点是否能正常调度,如果不需要执行，可以打开禁止执行开关。
描述信息：描述该节点的功能。
任务优先级：worker线程数不足时，根据优先级从高到低依次执行，优先级一样时根据先进先出原则执行。
Worker分组：任务分配给worker组的机器机执行，选择Default，会随机选择一台worker机执行。
失败重试次数：任务失败重新提交的次数，支持下拉和手填。
失败重试间隔：任务失败重新提交任务的时间间隔，支持下拉和手填。
超时告警：勾选超时告警、超时失败，当任务超过"超时时长"后，会发送告警邮件并且任务执行失败.
请求地址：http请求URL。
请求类型：支持GET、POSt、HEAD、PUT、DELETE。
请求参数：支持Parameter、Body、Headers。
校验条件：支持默认响应码、自定义响应码、内容包含、内容不包含。
校验内容：当校验条件选择自定义响应码、内容包含、内容不包含时，需填写校验内容。
自定义参数：是http局部的用户自定义参数，会替换脚本中以${变量}的内容。

例：略

七、参数

7.1 系统参数

${system.biz.date} : 日常调度实例定时的定时时间前一天，格式为 yyyyMMdd，补数据时，该日期 +1
${system.biz.curdate} : 日常调度实例定时的定时时间，格式为 yyyyMMdd，补数据时，该日期 +1
${system.datetime} : 日常调度实例定时的定时时间，格式为 yyyyMMddHHmmss，补数据时，该日期 +1

7.2 时间自定义参数

时间自定义参数支持代码中自定义变量名，声明方式：${变量名}。可以是引用 “系统参数” 或指定 “常量”。

我们定义这种基准变量为 […] 格式的，[yyyyMMddHHmmss] 是可以任意分解组合的，比如：$[yyyyMMdd], $[HHmmss], $[yyyy-MM-dd] 等。

例：

后 N 年：$[add_months(yyyyMMdd,12*N)]
前 N 年：$[add_months(yyyyMMdd,-12*N)]
后 N 月：$[add_months(yyyyMMdd,N)]
前 N 月：$[add_months(yyyyMMdd,-N)]
后 N 周：$[yyyyMMdd+7*N]
前 N 周：$[yyyyMMdd-7*N]
后 N 天：$[yyyyMMdd+N]
前 N 天：$[yyyyMMdd-N]
后 N 小时：$[HHmmss+N/24]
前 N 小时：$[HHmmss-N/24]
后 N 分钟：$[HHmmss+N/24/60]
前 N 分钟：$[HHmmss-N/24/60]

7.3 用户自定义参数

用户自定义参数分为全局参数和局部参数。
全局参数是保存工作流定义和工作流实例的时候传递的全局参数，全局参数可以在整个流程中的任何一个任务节点的局部参数引用。

例：

项目管理 -> 工作流 -> 工作流定义 -> 创建工作流
------------------------------------------------------
拖拽 Shell 节点到画布，新增一个 Shell 任务
节点名称：Test_parameters
... ...
脚本：
    #!/bin/sh
    echo "---------------------------------------"
    echo "# 时间自定义参数"
    echo "后 1 年：" $[add_months(yyyyMMdd, 12*1)]
    echo "前 1 年：" $[add_months(yyyyMMdd, -12*1)]
    echo "后 1 月：" $[add_months(yyyyMMdd,1)]
    echo "前 1 月：" $[add_months(yyyyMMdd,-1)]
    echo "后 1 周：" $[yyyyMMdd+7*1]
    echo "前 1 周：" $[yyyyMMdd-7*1]
    echo "后 1 天：" $[yyyyMMdd+1]
    echo "前 1 天：" $[yyyyMMdd-1]
    echo "后 1 小时：" $[HHmmss+1/24]
    echo "前 1 小时：" $[HHmmss-1/24]
    echo "后 1 分钟：" $[HHmmss+1/24/60]
    echo "前 1 分钟：" $[HHmmss-1/24/60]
    
    echo "---------------------------------------"
    echo "# 用户自定义参数"
    echo "dt_yesterday: " ${dt_yesterday}
    echo "dt_datetime: " ${dt_datetime}
    echo "dt_today: " ${dt_today}
    echo "dt_today_global: " ${dt_today_global}

资源：
自定义参数：
    dt_yesterday    ${system.biz.date}
    dt_datetime     ${system.datetime}
    dt_today        ${system.biz.curdate}
-> 确认添加
------------------------------------------------------
保存 -> 
设置DAG图名称：Test_parameters
选择租户：Default
超时告警：off
设置全局：
    dt_today_global ${system.biz.curdate}
------------------------------------------------------
添加 -> 上线 -> 运行

附录.队列管理

Q ： DolphinScheduler中的队列怎么用，用户队列和租户队列是什么意思
A ： DolphinScheduler 中的队列可以在用户或者租户上指定队列，用户指定的队列优先级是高于租户队列的优先级的。例如：对MR任务指定队列，是通过 mapreduce.job.queuename 来指定队列的。

# 注意：MR在用以上方法指定队列的时候，传递参数请使用如下方式：
Configuration conf = new Configuration();
GenericOptionsParser optionParser = new GenericOptionsParser(conf, args);
String[] remainingArgs = optionParser.getRemainingArgs();

# 如果是Spark任务 --queue 方式指定队列

附录.令牌管理

调用示例：

/**
 * test token
 */
public  void doPOSTParam()throws Exception{
    // create HttpClient
    CloseableHttpClient httpclient = HttpClients.createDefault();

    // create http post request
    HttpPost httpPost = new HttpPost("http://127.0.0.1:12345/dolphinscheduler/projects/create");
    httpPost.setHeader("token", "123");
    // set parameters
    List parameters = new ArrayList();
    parameters.add(new BasicNameValuePair("projectName", "qzw"));
    parameters.add(new BasicNameValuePair("desc", "qzw"));
    UrlEncodedFormEntity formEntity = new UrlEncodedFormEntity(parameters);
    httpPost.setEntity(formEntity);
    CloseableHttpResponse response = null;
    try {
        // execute
        response = httpclient.execute(httpPost);
        // response status code 200
        if (response.getStatusLine().getStatusCode() == 200) {
            String content = EntityUtils.toString(response.getEntity(), "UTF-8");
            System.out.println(content);
        }
    } finally {
        if (response != null) {
            response.close();
        }
        httpclient.close();
    }
}

ration conf = new Configuration();
GenericOptionsParser optionParser = new GenericOptionsParser(conf, args);
String[] remainingArgs = optionParser.getRemainingArgs();

# 如果是Spark任务 --queue 方式指定队列

附录.令牌管理

调用示例：

/**
 * test token
 */
public  void doPOSTParam()throws Exception{
    // create HttpClient
    CloseableHttpClient httpclient = HttpClients.createDefault();

    // create http post request
    HttpPost httpPost = new HttpPost("http://127.0.0.1:12345/dolphinscheduler/projects/create");
    httpPost.setHeader("token", "123");
    // set parameters
    List parameters = new ArrayList();
    parameters.add(new BasicNameValuePair("projectName", "qzw"));
    parameters.add(new BasicNameValuePair("desc", "qzw"));
    UrlEncodedFormEntity formEntity = new UrlEncodedFormEntity(parameters);
    httpPost.setEntity(formEntity);
    CloseableHttpResponse response = null;
    try {
        // execute
        response = httpclient.execute(httpPost);
        // response status code 200
        if (response.getStatusLine().getStatusCode() == 200) {
            String content = EntityUtils.toString(response.getEntity(), "UTF-8");
            System.out.println(content);
        }
    } finally {
        if (response != null) {
            response.close();
        }
        httpclient.close();
    }
}

你可能感兴趣的:(大数据)

计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
智能汽车：驶向未来的革命智能设备
一、引言汽车，作为现代文明的标志，正经历着一场前所未有的变革。人工智能、大数据、云计算等技术的飞速发展，正推动着汽车从单纯的交通工具向智能移动空间转变。智能汽车，作为这场变革的主角，正悄然改变着我们的出行方式和生活方式。二、智能汽车的定义与发展现状智能汽车，是指搭载先进传感器、控制器、执行器等装置，并融合现代通信与网络技术，实现车与X（人、车、路、云端等）智能信息交换、共享，具备复杂环境感知、智能
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D