Datax-web入门配置与启动

在idea中启动Datax-web

需要先将Datax在本地安装,可以参考这篇文章(DataX在win10中的安装)

1.从github上拉取源码

GitHub - WeiYe-Jing/datax-web: DataX集成可视化页面,选择数据源即可一键生成数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,批量创建RDBMS数据同步任务,集成开源调度系统,支持分布式、增量同步数据、实时查看运行日志、监控执行器资源、KILL运行进程、数据源信息加密等。

Datax-web入门配置与启动_第1张图片

2.在本地的mysql数据库中执行脚本文件创建数据库

2.1.修改脚本文件

增加几行代码

DROP DATABASE IF EXISTS datax_web;
CREATE DATABASE datax_web DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
USE datax_web;

Datax-web入门配置与启动_第2张图片

 2.2.在数据库中执行datax_web.sql脚本,生成datax_web库

Datax-web入门配置与启动_第3张图片

3.修改配置文件

3.1.修改datax_admin下resources/application.yml文件

Datax-web入门配置与启动_第4张图片

 下面的代码可以直接覆盖本地的(注意修改为自己的mysql账户名和密码)

# 端口号
server:
  port: 8080
spring:
  #数据源,目前仅仅支持Mysql
  datasource:
    username: root
    password: 'root'
    url: jdbc:mysql://127.0.0.1:3306/datax_web?serverTimezone=Asia/Shanghai&useLegacyDatetimeCode=false&useSSL=false&nullNamePatternMatchesAll=true&useUnicode=true&characterEncoding=UTF-8
    driver-class-name: com.mysql.jdbc.Driver

 # 数据库连接池配置
    hikari:
      ## 最小空闲连接数量
      minimum-idle: 5
      ## 空闲连接存活最大时间,默认600000(10分钟)
      idle-timeout: 180000
      ## 连接池最大连接数,默认是10
      maximum-pool-size: 10
      ## 数据库连接超时时间,默认30秒,即30000
      connection-timeout: 30000
      connection-test-query: SELECT 1
      ##此属性控制池中连接的最长生命周期,值0表示无限生命周期,默认1800000即30分钟
      max-lifetime: 1800000

  # datax-web email  不需要可以不用配置
  mail:
    host: smtp.qq.com
    port: 25
    username: 
    password: 
    properties:
      mail:
        smtp:
          auth: true
          starttls:
            enable: true
            required: true
        socketFactory:
          class: javax.net.ssl.SSLSocketFactory


management:
  health:
    mail:
      enabled: false
  server:
    servlet:
      context-path: /actuator

mybatis-plus:
  # mapper.xml文件扫描
  mapper-locations: classpath*:/mybatis-mapper/*Mapper.xml
  # 实体扫描,多个package用逗号或者分号分隔
  #typeAliasesPackage: com.yibo.essyncclient.*.entity
  global-config:
    # 数据库相关配置
    db-config:
      # 主键类型  AUTO:"数据库ID自增", INPUT:"用户输入ID", ID_WORKER:"全局唯一ID (数字类型唯一ID)", UUID:"全局唯一ID UUID";
      id-type: AUTO
      # 字段策略 IGNORED:"忽略判断",NOT_NULL:"非 NULL 判断"),NOT_EMPTY:"非空判断"
      field-strategy: NOT_NULL
      # 驼峰下划线转换
      column-underline: true
      # 逻辑删除
      logic-delete-value: 0
      logic-not-delete-value: 1
      # 数据库类型
      db-type: mysql
    banner: false
  # mybatis原生配置
  configuration:
    map-underscore-to-camel-case: true
    cache-enabled: false
    call-setters-on-nulls: true
    jdbc-type-for-null: 'null'
    type-handlers-package: com.wugui.datax.admin.core.handler

# 配置mybatis-plus打印sql日志
logging:
  level:
    com.wugui.datax.admin.mapper: error
    path: ./data/applogs/admin

#datax-job, access token
datax:
  job:
    accessToken:
    #i18n (default empty as chinese, "en" as english)
    i18n:
    ## triggerpool max size
    triggerpool:
      fast:
        max: 200
      slow:
        max: 100
      ### log retention days
    logretentiondays: 30

datasource:
  aes:
    key: AD42F6697B035B75

3.2.修改datax_executor下resources/application.yml文件

Datax-web入门配置与启动_第5张图片

下面的代码可以直接覆盖本地

# web port
server:
  #port: ${server.port}
  port: 8081

# 日志路径
logging:
  config: classpath:logback.xml
  path: ./data/applogs/executor/jobhandler

datax:
  job:
    admin:
      ### datax admin address list, http://address01,http://address02",data-admin的地址
      addresses: http://127.0.0.1:8080
    executor:
      appname: datax-executor # 创建执行器时的AppName需要和这里保持一致
      ip:
      port: 9999 # 执行器端口号
      ### job log path job文件的执行日志
      logpath: ./data/applogs/executor/jobhandler
      ### job log retention days
      logretentiondays: 30
    ### job, access token
    accessToken:

  executor:
      #  datax json临时文件保存路径
    jsonpath: E:\datax\datax-web\temp\executor
    #jsonpath: ${json.path}

  # Datax执行文件datax.py的地址
  pypath: E:\datax\datax\bin\datax.py
  #pypath: ${python.path}

4.启动

运行datax_admin下 的DataXAdminApplication

Datax-web入门配置与启动_第6张图片

运行datax_executor下 的DataXExecutorApplication

Datax-web入门配置与启动_第7张图片

看个人习惯Run 或者 Debug 

 首次启动后,之后的启动可以直接选择左下角的spring boot启动

启动成功

Datax-web入门配置与启动_第8张图片

 三个地址,两个接口文档地址,一个前端页面地址

5.配置hadoop

一般情况下,在启动后,控制台会报缺少hadoop的错误

就像下面这样,DataXAdminApplication运行一会儿会报错

Datax-web入门配置与启动_第9张图片

需要配置hadoop的环境变量

GitHub - srccodes/hadoop-common-2.2.0-bin: hadoop-common-2.2.0/bin

下载压缩包后,解压即可

配置环境变量

HADOOP_HOME

D:\hadoop-common-2.2.0-bin-master

Datax-web入门配置与启动_第10张图片

Datax-web入门配置与启动_第11张图片

在系统变量Path中添加  %HADOOP_HOME%\bin

 环境变量配置后,再次启动Datax-web就不再有报错

你可能感兴趣的:(数据治理,大数据,big,data,dataX)