DataX使用

参考:阿里云开源离线同步工具DataX3.0介绍
https://github.com/alibaba/DataX/wiki/DataX-Introduction

需求:数据库中从源数据机器A Hive到另外一个目标机器B中的 Hive。

  1. 步骤一、在B机器建表。
  2. 配置json文件,注意格式之间的对应关系。先要分析数据是从什么工具到什么工具,即分清每一次的reader和writer。hive和DataX参见
DataX使用_第1张图片
image.png


在reader只能写dataX的数据形式(左侧),在writer只能写hive表数据类型。配置完成。

  1. 使用datax.py文件运行json文件即可。

你可能感兴趣的:(DataX使用)