DataX使用入门

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。

一、datax需要python环境,需要先安装python
打开官网 https://www.python.org/downloads/windows/ 下载中心
DataX使用入门_第1张图片
此处下载2.6.5版本安装
安装完成后使用python -V查看是否已安装成功

在这里插入图片描述

二、下载datax
方法一、直接下载DataX工具包:DataX下载地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}

方法二、下载DataX源码,自己编译:DataX源码
https://github.com/alibaba/DataX

datax的目录结构
DataX使用入门_第2张图片
bin目录下是pytho脚本文件,主要用来执行job文件(默认需要依赖Python2的环境,也可以修改为Python3)

conf目录存放一些配置文件

job目录下存放了一个job测试文件(我们通过datax-web生成的临时job文件不会放在这里,而是在data-web里边自己配置存放目录)

lib是依赖的一些jar包

log目录存放job文件的执行日志

plugin目录存放的是对不同数据源读取(Reader)和写入(Writer)的插件支持

如果没有在plugin目录下发现自己需要的Reader或者Writer则需要自己手动安装(比如ES的Reader和Writer)。

使用Datax执行job文件

python datax.py job文件

txt文件传向mysql的Job文件模板如下(Mysql为例):

{
	"job": {
		"content": [{
			"reader": {
				"name": "txtfilereader",
				"parameter": {
					"column": [{
							"index": 0,
							"type": "long"
						},
						{
							"index": 1,
							"type": "string"
						},
						{
							"index": 2,
							"type": "string"
						},
						{
							"index": 3,
							"type": "string"
						},
						{
							"index": 4,
							"type": "string"
						},
						{
							"index": 5,
							"type": "string"
						},
						{
							"index": 6,
							"type": "string"
						},
						{
							"index": 7,
							"type": "string"
						},
						{
							"index": 8,
							"type": "string"
						},
						{
							"index": 9,
							"type": "date",
							"format": "yyyy-MM-dd HH:mm:ss"
						},
						{
							"index": 10,
							"type": "string"
						},
						{
							"index": 11,
							"type": "date",
							"format": "yyyy-MM-dd HH:mm:ss"
						},
						{
							"index": 12,
							"type": "long"
						}
					],
					"encoding": "UTF-8",
					"fieldDelimiter": ",",
					"path": [
						"C:/Users/jxk/Desktop/tst.txt"
					]
				}
			},
			"writer": {
				"name": "mysqlwriter",
				"parameter": {
					"column": [
						"id",
						"project_type",
						"attach_type",
						"attach_name",
						"attach_url",
						"attach_key",
						"attach_hash",
						"attach_size",
						"created_by",
						"created_date",
						"last_updated_by",
						"last_updated_date",
						"version"
					],
					"connection": [{
						"jdbcUrl": "jdbc:mysql://8.68.24.3:3306/testkettle?characterEncoding=utf-8&serverTimezone=Asia/Shanghai",
						"table": [
							"comm_attachment"
						]
					}],
					"password": "274100",
					"preSql": [
						"delete from comm_attachment"
					],
					"session": [

					],
					"username": "root",
					"writeMode": "insert"
				}
			}
		}],
		"setting": {
			"speed": {
				"channel": "5"
			}
		}
	}
}

C:/Users/jxk/Desktop/tst.txt文件内容如下

1,sunnyDay,image/png,ttt.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tst,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0
2,sunnyDay,image/png,ttb.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tsb,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0

数据库建库脚本如下

CREATE TABLE `comm_attachment` (
  `id` int NOT NULL AUTO_INCREMENT COMMENT '主键',
  `project_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '项目名-说明该附件是属于哪个项目的',
  `attach_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件类型',
  `attach_name` varchar(200) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件名',
  `attach_url` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件下载地址',
  `attach_key` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件key',
  `attach_hash` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件hash',
  `attach_size` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件大小',
  `created_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '创建人',
  `created_date` timestamp NULL DEFAULT NULL COMMENT '创建时间',
  `last_updated_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '最后修改人',
  `last_updated_date` timestamp NULL DEFAULT NULL COMMENT '最后修改时间',
  `version` int DEFAULT NULL COMMENT '乐观锁-版本号',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb3 COLLATE=utf8_unicode_ci COMMENT='附件表'

python执行语句
在这里插入图片描述

python datax.py C:\Users\jxk\Desktop\abc.json

执行结果:
DataX使用入门_第3张图片
在数据库查看数据:
在这里插入图片描述

语句执行过程中可能遇到的问题:
问题描述:在使用Datax插件将数据从hive导入mysql时,发现写入MySQL报错 :Could not retrieve transation read-only status server
匹配数据库和应用中数据库驱动版本(mysql驱动版本不一致) ----
-查看MySQL版本:

mysql> select version();
+------------+
| VERSION()  |
+------------+
| 8.0.16     |
+------------+

-查看Datax插件MySQL驱动版本:

/datax/plugin/writer/mysqlwriter/libs$ ls mysql-connector*
mysql-connector-java-5.1.34.jar

下载对应的MySQL驱动版本:https://static.runoob.com/download/mysql-connector-java-8.0.16.jar

Illegalunsupported escape sequence near index 3
注意json文件中的路径书写
正确解析:

C:/Users/jxk/Desktop/tst.txt

错误写法:

C:\\Users\\jxk\\Desktop\\tst.txt

你可能感兴趣的:(java,BD,java,datax)