大数据平台调度系统-EasyScheduler

大数据平台离不开调度系统。大数据平台工作流系统主要分为两类:

   1.静态工作流执行列表

    2.动态工作流执行列表

 

    静态工作流根据作业计划提前生成并持久化任务执行列表,代表有:oozie , azkaban,airflow。

    oozie , azkaban,airflow 这三个调度系统都是基于文件配置固化工作流形成DAG。oozie使用xml文件描述任务,支持hive,shell,java,hadoop,spark等调度。azkaban使用properties文件描述任务,使用shell命令,支持hive,shell,java,hadoop,spark等调度。airflow是python开发的基于python脚本定义任务。我比较熟悉的是oozie,基于hue上使用oozie非常简单拖拽控件配置就可完成,简单方便,oozie最大的优势是不需要服务器单独部署跟大数据服务部一起,oozie任务的启动都是通过一个map任务分发到集群节点启动,充分利用集群资源。

    动态工作流不提前固化任务列表,根据触发条件动态生成,代表有:zeus,Chronos,xxx-job

  最近易观数据平台开源了其研发的大数据分布式调度系统。主要解决数据处理中错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。看上去还不错,有空研究下。
github:https://github.com/analysys/EasyScheduler

 

转自:https://www.csdn.net/gather_25/MtTacgzsMDUwNi1ibG9n.html

 

后端部署文档
# 后端部署文档

后端有2种部署方式,分别为自动化部署和编译源码部署

## 1、准备工作

请下载最新版本的安装包,下载地址: [码云下载](https://gitee.com/easyscheduler/EasyScheduler/attach_files/) ,下载escheduler-backend-x.x.x.tar.gz(后端简称escheduler-backend),escheduler-ui-x.x.x.tar.gz(前端简称escheduler-ui)

#### 准备一: 基础软件安装(必装项请自行安装)

 * [Mysql](http://geek.analysys.cn/topic/124) (5.5+) :  必装
 * [JDK](https://www.oracle.com/technetwork/java/javase/downloads/index.html) (1.8+) :  必装
 * [ZooKeeper](https://www.jianshu.com/p/de90172ea680)(3.4.6+) :必装 
 * [Hadoop](https://blog.csdn.net/Evankaka/article/details/51612437)(2.6+) :选装, 如果需要使用到资源上传功能,MapReduce任务提交则需要配置Hadoop(上传的资源文件目前保存在Hdfs上)
 * [Hive](https://staroon.pro/2017/12/09/HiveInstall/)(1.2.1) :  选装,hive任务提交需要安装
 * Spark(1.x,2.x) : 选装,Spark任务提交需要安装
 * PostgreSQL(8.2.15+) : 选装,PostgreSQL PostgreSQL存储过程需要安装
 
```
 注意:EasyScheduler本身不依赖Hadoop、Hive、Spark、PostgreSQL,仅是会调用他们的Client,用于对应任务的运行。
```

#### 准备二: 创建部署用户

- 在所有需要部署调度的机器上创建部署用户,因为worker服务是以 sudo -u {linux-user} 方式来执行作业,所以部署用户需要有 sudo 权限,而且是免密的。

```部署账号
vi /etc/sudoers

# 例如部署用户是escheduler账号
escheduler  ALL=(ALL)       NOPASSWD: NOPASSWD: ALL

# 并且需要注释掉 Default requiretty 一行
#Default requiretty
```

#### 准备三: ssh免密配置
 在部署机器和其他安装机器上配置ssh免密登录,如果要在部署机上安装调度,需要配置本机免密登录自己
 
- [将 **主机器** 和各个其它机器SSH打通](http://geek.analysys.cn/topic/113)


#### 准备四:数据库初始化

* 创建database和账号

    通过以下mysql命令进入mysql命令行服务:

    > mysql -h {host} -u {user} -p{password} 

    然后执行以下命令创建database和账号
    
    ```sql 
    CREATE DATABASE escheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
    GRANT ALL PRIVILEGES ON escheduler.* TO '{user}'@'%' IDENTIFIED BY '{password}';
    GRANT ALL PRIVILEGES ON escheduler.* TO '{user}'@'localhost' IDENTIFIED BY '{password}';
    flush privileges;
    ```

* 1.0.0和1.0.1版本创建表和导入基础数据
    说明:在escheduler-backend/sql/escheduler.sql和quartz.sql

    ```sql
    mysql -h {host} -u {user} -p{password} -D {db} < escheduler.sql
    
    mysql -h {host} -u {user} -p{password} -D {db} < quartz.sql
    ```

* 1.0.2版本创建表和导入基础数据
    修改conf/dao/data_source.properties中的下列属性

    ```
        spring.datasource.url
        spring.datasource.username
        spring.datasource.password
    ```
    执行创建表和导入基础数据脚本
    ```
    sh ./script/create_escheduler.sh
    ```

#### 准备五: 修改部署目录权限及运行参数

我们先来大体了解下解压后escheduler-backend目录下的文件(夹)的作用

```
bin : 基础服务启动脚本
conf : 项目配置文件
lib : 项目依赖jar包,包括各个模块jar和第三方jar
script : 集群启动、停止和服务监控启停脚本
sql : 项目依赖sql文件
install.sh : 一键部署脚本
```

- 修改权限(请将deployUser自行修改为对应部署用户),使得部署用户对escheduler-backend目录有操作权限
    
    `sudo chown -R deployUser:deployUser escheduler-backend`

- 修改conf/env/目录下的 `.escheduler_env.sh` 环境变量

- 修改部署参数(根据自己服务器及业务情况):

 - 修改 **install.sh**中的各参数,替换成自身业务所需的值
   - monitorServerState 开关变量,在1.0.3版本中增加,控制是否启动自启动脚本(监控master,worker状态,如果掉线会自动启动)
   默认值为"false"表示不启动自启动脚本,如果需要启动改为"true"

   - hdfsStartupSate 开关变量,控制是否启动hdfs
      默认值为"false"表示不启动hdfs
      如果需要启动改为"true",启动hdfs需要自行创建hdfs根路径,也就是install.sh中的 hdfsPath

 - 如果使用hdfs相关功能,需要拷贝**hdfs-site.xml**和**core-site.xml**到conf目录下


## 2、部署
推荐自动化部署,有经验的小伙伴也可以使用源码部署

### 2.1 自动部署

- 安装zookeeper工具 

   `pip install kazoo`

- 切换到部署用户,一键部署

    `sh install.sh` 

- 使用jps命令查看服务是否启动(jps为java JDK自带)

```aidl
    MasterServer         ----- master服务
    WorkerServer         ----- worker服务
    LoggerServer         ----- logger服务
    ApiApplicationServer ----- api服务
    AlertServer          ----- alert服务
```
如果有以上5个服务,说明自动部署成功


部署成功后,可以进行日志查看,日志统一存放于指定文件夹内

```日志路径
 logs/
    ├── escheduler-alert-server.log
    ├── escheduler-master-server.log
    |—— escheduler-worker-server.log
    |—— escheduler-api-server.log
    |—— escheduler-logger-server.log
```

### 2.2 编译源码来部署

将源码包release版本下载后,解压进入根目录

* 执行编译命令:

```
 mvn -U clean package assembly:assembly -Dmaven.test.skip=true
```

* 查看目录

正常编译完后,会在当前目录生成 target/escheduler-{version}/ , 然后参考



### 2.3 系统常用启停服务(服务用途请具体参见《系统架构设计》小节)

* 一键停止集群所有服务
   
   ` sh ./bin/stop_all.sh`
   
* 一键开启集群所有服务
   
   ` sh ./bin/start_all.sh`

* 启停Master

```启动master
sh ./bin/escheduler-daemon.sh start master-server
sh ./bin/escheduler-daemon.sh stop master-server
```

* 启停Worker

```
sh ./bin/escheduler-daemon.sh start worker-server
sh ./bin/escheduler-daemon.sh stop worker-server
```

* 启停Api

```
sh ./bin/escheduler-daemon.sh start api-server
sh ./bin/escheduler-daemon.sh stop api-server
```
* 启停Logger

```
sh ./bin/escheduler-daemon.sh start logger-server
sh ./bin/escheduler-daemon.sh stop logger-server
```
* 启停Alert

```
sh ./bin/escheduler-daemon.sh start alert-server
sh ./bin/escheduler-daemon.sh stop alert-server
```

## 3、数据库升级
数据库升级是在1.0.2版本增加的功能,执行以下命令即可自动升级数据库
```
sh ./script/upgrade_escheduler.sh
```
# 前端部署文档

前端有3种部署方式,分别为自动化部署,手动部署和编译源码部署

## 1、准备工作
#### 下载安装包

请下载最新版本的安装包,下载地址: [码云下载](https://gitee.com/easyscheduler/EasyScheduler/attach_files/)

下载 escheduler-ui-x.x.x.tar.gz 后,解压`tar -zxvf escheduler-ui-x.x.x.tar.gz ./`后,进入`escheduler-ui`目录
 



## 2、部署
以下两种方式任选其一部署即可,推荐自动化部署
### 2.1 自动化部署

在`escheduler-ui`目录下编辑安装文件`vi install-escheduler-ui.sh`

更改前端访问端口和后端代理接口地址

```
# 配置前端访问端口
esc_proxy="8888"

# 配置代理后端接口
esc_proxy_port="http://192.168.xx.xx:12345"
```

>前端自动部署基于linux系统`yum`操作,部署之前请先安装更新`yum`

在该目录下执行`./install-escheduler-ui.sh`


### 2.2 手动部署

安装epel源 `yum install epel-release -y`

安装Nginx `yum install nginx -y`


> ####  nginx配置文件地址
```
/etc/nginx/conf.d/default.conf
```
> ####  配置信息(自行修改)
```
server {
    listen       8888;# 访问端口
    server_name  localhost;
    #charset koi8-r;
    #access_log  /var/log/nginx/host.access.log  main;
    location / {
        root   /xx/dist; # 上面前端解压的dist目录地址(自行修改)
        index  index.html index.html;
    }
    location /escheduler {
        proxy_pass http://192.168.xx.xx:12345; # 接口地址(自行修改)
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header x_real_ipP $remote_addr;
        proxy_set_header remote_addr $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_http_version 1.1;
        proxy_connect_timeout 4s;
        proxy_read_timeout 30s;
        proxy_send_timeout 12s;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
    }
    #error_page  404              /404.html;
    # redirect server error pages to the static page /50x.html
    #
    error_page   500 502 503 504  /50x.html;
    location = /50x.html {
        root   /usr/share/nginx/html;
    }
}
```
> ####  重启Nginx服务
```
systemctl restart nginx
```

#### nginx命令

- 启用 `systemctl enable nginx`

- 重启 `systemctl restart nginx`

- 状态 `systemctl status nginx`


## 前端常见问题
####  1. 上传文件大小限制
编辑配置文件 `vi /etc/nginx/nginx.conf`
```
# 更改上传大小
client_max_body_size 1024m
```

你可能感兴趣的:(hadoop)