datax 需要python2.+ 版本,一般centos自带。
如果是python3,会造成报错
1、进入目录,下载datax
cd /opt/software
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
2、解压
tar -zxvf datax.tar.gz -C /opt/module
3、设置
vim /opt/module/datax/conf/core.json
将第28行改为 2000000,表示单个channel的大小改为2MB:
4、测试
cd /opt/module/datax
bin/datax.py job/job.json
但是会报错
2022-08-01 15:07:26.051 [main] WARN ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/opt/module/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件.
2022-08-01 15:07:27.064 [main] ERROR Engine -
经DataX智能分析,该任务最可能的错误原因是:
com.alibaba.datax.common.exception.DataXException: Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/opt/module/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件.
at com.alibaba.datax.common.exception.DataXException.asDataXException(DataXException.java:26)
at com.alibaba.datax.common.util.Configuration.from(Configuration.java:95)
at com.alibaba.datax.core.util.ConfigParser.parseOnePluginConfig(ConfigParser.java:153)
at com.alibaba.datax.core.util.ConfigParser.parsePluginConfig(ConfigParser.java:125)
at com.alibaba.datax.core.util.ConfigParser.parse(ConfigParser.java:63)
at com.alibaba.datax.core.Engine.entry(Engine.java:137)
at com.alibaba.datax.core.Engine.main(Engine.java:204)
怎么处理呢,执行以下命令
cd /opt/module/datax/plugin/reader
rm -rf ./._*
cd /opt/module/datax/plugin/writer
rm -rf ./._*
再次启动
cd /opt/module/datax
bin/datax.py job/job.json
看到以下界面 代表执行成功
默认的datax连接mysql驱动为5,所以当需要连接mysql8的时候会报错
可以通过下载源码,修改mysql驱动包版本
可以参考:https://blog.csdn.net/Carson073/article/details/126037927
源码下载地址:https://github.com/alibaba/DataX
当然在源码编译过程中会出现各种少包情况,需要自行百度手动下载,也可以联系我提供jar包
最省事的就是使用现成编译好的mysql包,替换即可
链接: https://pan.baidu.com/s/1Uj15QriC9rilySKNUkEguw 提取码: q6uc
下载下来之后,删除原本的插件,然后解压到对应目录就可以了
源码地址:https://github.com/WeiYe-Jing/datax-web
https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/datax-web-deploy.md
tar -zxvf datax-web-2.1.2.tar.gz -C /opt/module
进入解压后的目录,找到bin目录下面的install.sh文件,如果选择交互式的安装,则直接执行
./bin/install.sh
前面选yes,根据提示录入数据库信息,自动初始化数据库脚本
配置datax-web
在项目目录下/modules/datax-execute/bin/env.properties 指定PYTHON_PATH的路径
# 进入到安装目录
cd /opt/module/datax/data-web-2.1.2
# 编辑配置
vim modules/datax-executor/bin/env.properties
### 执行datax的python脚本地址
PYTHON_PATH=/opt/datax/datax/bin/datax.py
启动服务
cd /opt/module/datax/data-web-2.1.2
./bin/start-all.sh
访问(换成自己的ip地址) http://q1:9527/index.html
账号admin 密码123456
运行日志
部署完成之后,在modules/对应的项目/data/applogs下(用户也可以自己指定日志,修改application.yml中的logpath地址即可),用户可以根据此日志跟踪项目实际启动情况。
如果执行器启动比admin快,执行器会连接失败,日志报"拒绝连接"的错误,一般是先启动admin,再启动executor,30秒之后会重连,如果成功请忽略这个异常。