涂作权的博客

datax安装+配置+使用文档

1 DataX离线同步工具DataX3.0介绍

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

Github地址：https://github.com/alibaba/DataX

1.1.1 DataX 3.0概览

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

 设计理念
为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。
 当前使用现状
DataX在阿里巴巴集团内被广泛使用，承担了所有大数据的离线同步业务，并已持续稳定运行了6年之久。目前每天完成同步8w多道作业，每日传输数据量超过300TB。

此前已经开源DataX1.0版本，此次介绍为阿里云开源全新版本DataX3.0，有了更多更强大的功能和更好的使用体验。Github主页地址：https://github.com/alibaba/DataX

1.2 特征

DataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。

1.3 DataX详细介绍

地址：https://github.com/alibaba/DataX/blob/master/introduction.md

1.4 DataX3.0框架设计

DataX本身作为离线数据同步框架，采用Freamwork + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。

Reader: Reader�为数据采集模块，负责采集数据源的数据，将数据发送给Framework。
Writer: Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。

Framework: Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

1.5 Support Data Channels

DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入，目前支持数据如下图，详情请点击：（https://github.com/alibaba/DataX/blob/master/introduction.md）

1.6 DataX3.0核心架构

DataX3.0开源版本支持单机多线程模式完成同步作业运行，本小节按一个DataX作业声明周期的时序图，从整体架构设计非常简要说明DataX各个模块相互关系。

核心模块介绍：
1.DataX完成单个数据同步的作业，我们称之为Job，DataX接受一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清洗、子任务切分（将单一作业计算转化为多个子Task）.
2.DataXJob启动后，会根据不同的源端切分策略，将job切分成多个小的Task（子任务），以便于并发执行。Task便是DataX作业的最小单元，每一个Task都负责一部分数据的同步工作。
3.切分多个Task之后，DataX Job会调用Scheduler模块儿，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5.
4:每一个Task都由TaskGroup负责启动，Task启动后，会固定启动ReaderChannelWriter的线程来完成任务同步工作。
5.DataX作业运行起来之后，Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0.

DataX调度流程：
举例来说，用户提交了一个DataX作业，并配置了20个并发，目的是将一个100张分表的mysql数据同步到odps里面。
DataX的调度决策思路是：
1.DataXJob根据分库分表切分成了100个Task.
2.根据20个并发，DataX计算共需要分配4个TaskGroup. （默认每个TaskGroup的并发数量是5）
3.4个TaskGrou平均切分好的100个Task,每一个TaskGroup负责5个并发共计25个Task.

1.7 DataX 3.0六大核心优势

 可靠的数据质量监控

	完美解决数据传输个别类型失真问题
DataX旧版对于部分数据类型(比如时间戳)传输一直存在毫秒阶段等数据失真情况，新版本DataX3.0已经做到支持所有的强数据类型，每一种插件都有自己的数据类型转换策略，让数据可以完整无损的传输到目的端。
	提供作业全链路的流量、数据量运行时监控
        DataX3.0运行过程中可以将作业本身状态、数据流量、数据速度、执行进度等信息进行全面的展示，让用户可以实时了解作业状态。并可在作业执行过程中智能判断源端和目的端的速度对比情况，给予用户更多性能排查信息。
	提供脏数据探测
        在大量数据的传输过程中，必定会由于各种原因导致很多数据传输报错(比如类型转换错误)，这种数据DataX认为就是脏数据。DataX目前可以实现脏数据精确过滤、识别、采集、展示，为用户提供多种的脏数据处理模式，让用户准确把控数据质量大关！

 丰富的数据转换功能
DataX作为一个服务于大数据的ETL工具，除了提供数据快照搬迁功能之外，还提供了丰富数据转换的功能，让数据在传输过程中可以轻松完成数据脱敏，补全，过滤等数据转换功能，另外还提供了自动groovy函数，让用户自定义转换函数。详情请看DataX3的transformer详细介绍。

 精准的速度控制
还在为同步过程中对线程存储压力影响而担心吗？新版本DataX3.0提供了包括通道（并发）、记录流、字节流三种流控模式，可以随意控制你的作业速度，让你的作业在库可以在承受的范围内达到最佳的同步速度。

"speed": {
   "channel": 5,
   "byte": 1048576,
   "record": 10000
}

 强劲的同步性能
DataX3.0每一种读插件都有一种或多种切分策略，都能将作业合理切分成多个Task并行执行，单机多线程执行模型可以让DataX速度随并发成线性增长。在源端和目的端性能都足够的情况下，单个作业一定可以打满网卡。另外，DataX团队对所有的已经接入的插件都做了极致的性能优化，并且做了完整的性能测试。性能测试相关详情可以参照每单个数据源的详细介绍：https://github.com/alibaba/DataX/wiki/DataX-all-data-channels

 健壮的容错机制
DataX作业是极易受外部因素的干扰，网络闪断、数据源不稳定等因素很容易让同步到一半的作业报错停止。因此稳定性是DataX的基本要求，在DataX 3.0的设计中，重点完善了框架和插件的稳定性。目前DataX3.0可以做到线程级别、进程级别(暂时未开放)、作业级别多层次局部/全局的重试，保证用户的作业稳定运行。

•	线程内部重试
DataX的核心插件都经过团队的全盘review，不同的网络交互方式都有不同的重试策略。
•	线程级别重试
目前DataX已经可以实现TaskFailover，针对于中间失败的Task，DataX框架可以做到整个Task级别的重新调度。

 极简的使用体验

•	易用
下载即可用，支持linux和windows，只需要短短几步骤就可以完成数据的传输。
•	详细
DataX在运行日志中打印了大量信息，其中包括传输速度，Reader、Writer性能，进程CPU，JVM和GC情况等等。

 传输过程中打印传输速度、精度等

 传输过程中打印进程相关的CPU、JVM等

 在任务结束之后，打印总体运行情况

1.8 Quick Start

下载地址：http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
Quick start地址：https://github.com/alibaba/DataX/blob/master/userGuid.md

1.8.1 System Requirements

•	Linux
•	JDK(1.8以上，推荐1.8)
•	Python(推荐Python2.6.X)
•	Apache Maven 3.x (Compile DataX)

1.8.2 工具部署

方法一、直接下载DataX工具包：DataX下载地址（http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz）
下载后解压至本地某个目录，进入bin目录，即可运行同步作业：

$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}

自检脚本：python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json

方法二：下载DataX源码，自己编译：https://github.com/alibaba/DataX
（1）、下载DataX源码：

$ git clone [email protected]:alibaba/DataX.git

（2）、通过maven打包

$ cd {DataX_source_code_home}
$ mvn -U clean package assembly:assembly -Dmaven.test.skip=true

打包成功，日志显示如下：

[INFO] BUILD SUCCESS
[INFO] -----------------------------------------------------------------
[INFO] Total time: 08:12 min
[INFO] Finished at: 2015-12-13T16:26:48+08:00
[INFO] Final Memory: 133M/960M
[INFO] -----------------------------------------------------------------

打包成功后的DataX包位于{DataX_source_code_home}/target/datax/datax/,结构如下：

$ cd  {DataX_source_code_home}
$ ls ./target/datax/datax/
bin		conf		job		lib		log		log_perf	plugin		script		tmp

1.8.3 配置示例：从stream读取数据并打印到控制台

（1）、第一步、创建创业的的配置文件（json格式）
可以通过命令查看配置模板：python datax.py -r {YOUR_READER} -w {YOUR_WRITER}

[root@hadoop1 bin]# pwd
/home/installed/datax/bin
[root@hadoop1 bin]# python datax.py -r streamreader -w streamwriter

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


Please refer to the streamreader document:
     https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.md 

Please refer to the streamwriter document:
     https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.md 
 
Please save the following configuration as a json file and  use
     python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "streamreader", 
                    "parameter": {
                        "column": [], 
                        "sliceRecordCount": ""
                    }
                }, 
                "writer": {
                    "name": "streamwriter", 
                    "parameter": {
                        "encoding": "", 
                        "print": true
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}
[root@hadoop1 bin]#

根据模板配置json如下：

#stream2stream.json
{
  "job": {
    "content": [
      {
        "reader": {
          "name": "streamreader",
          "parameter": {
            "sliceRecordCount": 10,
            "column": [
              {
                "type": "long",
                "value": "10"
              },
              {
                "type": "string",
                "value": "hello，你好，世界-DataX"
              }
            ]
          }
        },
        "writer": {
          "name": "streamwriter",
          "parameter": {
            "encoding": "UTF-8",
            "print": true
          }
        }
      }
    ],
    "setting": {
      "speed": {
        "channel": 5
       }
    }
  }
}

第二步：启动DataX

[root@hadoop3 datax]# cd /home/installed/datax/bin/
[root@hadoop3 bin]# python datax.py /home/test/dataxtest/stream2stream.json

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


2019-09-09 16:14:17.345 [main] INFO  VMInfo - VMInfo# operatingSystem class => sun.management.OperatingSystemImpl
2019-09-09 16:14:17.356 [main] INFO  Engine - the machine info  => 

	osInfo:	Oracle Corporation 1.8 25.161-b12
	jvmInfo:	Linux amd64 3.10.0-693.el7.x86_64
	cpu num:	4

	totalPhysicalMemory:	-0.00G
	freePhysicalMemory:	-0.00G
	maxFileDescriptorCount:	-1
	currentOpenFileDescriptorCount:	-1

	GC Names	[PS MarkSweep, PS Scavenge]

	MEMORY_NAME                    | allocation_size                | init_size                      
	PS Eden Space                  | 256.00MB                       | 256.00MB                       
	Code Cache                     | 240.00MB                       | 2.44MB                         
	Compressed Class Space         | 1,024.00MB                     | 0.00MB                         
	PS Survivor Space              | 42.50MB                        | 42.50MB                        
	PS Old Gen                     | 683.00MB                       | 683.00MB                       
	Metaspace                      | -0.00MB                        | 0.00MB                         


2019-09-09 16:14:17.375 [main] INFO  Engine - 
{
	"content":[
		{
			"reader":{
				"name":"streamreader",
				"parameter":{
					"column":[
						{
							"type":"long",
							"value":"10"
						},
						{
							"type":"string",
							"value":"hello，你好，世界-DataX"
						}
					],
					"sliceRecordCount":10
				}
			},
			"writer":{
				"name":"streamwriter",
				"parameter":{
					"encoding":"UTF-8",
					"print":true
				}
			}
		}
	],
	"setting":{
		"speed":{
			"channel":5
		}
	}
}

2019-09-09 16:14:17.404 [main] WARN  Engine - prioriy set to 0, because NumberFormatException, the value is: null
2019-09-09 16:14:17.406 [main] INFO  PerfTrace - PerfTrace traceId=job_-1, isEnable=false, priority=0
2019-09-09 16:14:17.406 [main] INFO  JobContainer - DataX jobContainer starts job.
2019-09-09 16:14:17.409 [main] INFO  JobContainer - Set jobId = 0
2019-09-09 16:14:17.431 [job-0] INFO  JobContainer - jobContainer starts to do prepare ...
2019-09-09 16:14:17.432 [job-0] INFO  JobContainer - DataX Reader.Job [streamreader] do prepare work .
2019-09-09 16:14:17.432 [job-0] INFO  JobContainer - DataX Writer.Job [streamwriter] do prepare work .
2019-09-09 16:14:17.433 [job-0] INFO  JobContainer - jobContainer starts to do split ...
2019-09-09 16:14:17.433 [job-0] INFO  JobContainer - Job set Channel-Number to 5 channels.
2019-09-09 16:14:17.434 [job-0] INFO  JobContainer - DataX Reader.Job [streamreader] splits to [5] tasks.
2019-09-09 16:14:17.435 [job-0] INFO  JobContainer - DataX Writer.Job [streamwriter] splits to [5] tasks.
2019-09-09 16:14:17.467 [job-0] INFO  JobContainer - jobContainer starts to do schedule ...
2019-09-09 16:14:17.485 [job-0] INFO  JobContainer - Scheduler starts [1] taskGroups.
2019-09-09 16:14:17.488 [job-0] INFO  JobContainer - Running by standalone Mode.
2019-09-09 16:14:17.507 [taskGroup-0] INFO  TaskGroupContainer - taskGroupId=[0] start [5] channels for [5] tasks.
2019-09-09 16:14:17.513 [taskGroup-0] INFO  Channel - Channel set byte_speed_limit to -1, No bps activated.
2019-09-09 16:14:17.513 [taskGroup-0] INFO  Channel - Channel set record_speed_limit to -1, No tps activated.
2019-09-09 16:14:17.545 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[2] attemptCount[1] is started
2019-09-09 16:14:17.558 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[3] attemptCount[1] is started
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
2019-09-09 16:14:17.580 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[1] attemptCount[1] is started
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
2019-09-09 16:14:17.598 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[4] attemptCount[1] is started
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
2019-09-09 16:14:17.619 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[0] attemptCount[1] is started
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
10	hello，你好，世界-DataX
2019-09-09 16:14:17.731 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[0] is successed, used[112]ms
2019-09-09 16:14:17.731 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[1] is successed, used[163]ms
2019-09-09 16:14:17.731 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[2] is successed, used[202]ms
2019-09-09 16:14:17.731 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[3] is successed, used[177]ms
2019-09-09 16:14:17.732 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[4] is successed, used[136]ms
2019-09-09 16:14:17.733 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] completed it's tasks.
2019-09-09 16:14:27.511 [job-0] INFO  StandAloneJobContainerCommunicator - Total 50 records, 950 bytes | Speed 95B/s, 5 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.000s |  All Task WaitReaderTime 0.000s | Percentage 100.00%
2019-09-09 16:14:27.511 [job-0] INFO  AbstractScheduler - Scheduler accomplished all tasks.
2019-09-09 16:14:27.511 [job-0] INFO  JobContainer - DataX Writer.Job [streamwriter] do post work.
2019-09-09 16:14:27.512 [job-0] INFO  JobContainer - DataX Reader.Job [streamreader] do post work.
2019-09-09 16:14:27.512 [job-0] INFO  JobContainer - DataX jobId [0] completed successfully.
2019-09-09 16:14:27.513 [job-0] INFO  HookInvoker - No hook invoked, because base dir not exists or is a file: /home/installed/datax/hook
2019-09-09 16:14:27.515 [job-0] INFO  JobContainer - 
	 [total cpu info] => 
		averageCpu                     | maxDeltaCpu                    | minDeltaCpu                    
		-1.00%                         | -1.00%                         | -1.00%
                        

	 [total gc info] => 
		 NAME                 | totalGCCount       | maxDeltaGCCount    | minDeltaGCCount    | totalGCTime        | maxDeltaGCTime     | minDeltaGCTime     
		 PS MarkSweep         | 0                  | 0                  | 0                  | 0.000s             | 0.000s             | 0.000s             
		 PS Scavenge          | 0                  | 0                  | 0                  | 0.000s             | 0.000s             | 0.000s             

2019-09-09 16:14:27.516 [job-0] INFO  JobContainer - PerfTrace not enable!
2019-09-09 16:14:27.516 [job-0] INFO  StandAloneJobContainerCommunicator - Total 50 records, 950 bytes | Speed 95B/s, 5 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.000s |  All Task WaitReaderTime 0.000s | Percentage 100.00%
2019-09-09 16:14:27.517 [job-0] INFO  JobContainer - 
任务启动时刻                    : 2019-09-09 16:14:17
任务结束时刻                    : 2019-09-09 16:14:27
任务总计耗时                    :                 10s
任务平均流量                    :               95B/s
记录写入速度                    :              5rec/s
读出记录总数                    :                  50
读写失败总数                    :                   0

[root@hadoop3 bin]#

1.9 使用DataX进行MySQL数据读写

1.9.1 MysqlReader插件文档

1.9.1.1 快速介绍

MysqlReader插件实现了从Mysql读取数据。在底层实现上，MysqlReader通过JDBC连接远程Mysql数据库，并执行相应的sql语句将数据从mysql库中SELECT出来。

不同于其他关系型数据库，MysqlReader不支持FetchSize.

1.9.1.2 实现原理

简而言之，MysqlReader通过JDBC连接器连接到远程的Mysql数据库，并根据用户配置的信息生成查询SELECT SQL语句，然后发送到远程Mysql数据库，并将该SQL执行返回结果使用DataX自定义的数据类型拼装为抽象的数据集，并传递给下游Writer处理。
对于用户配置Table、Column、Where的信息，MysqlReader将其拼接为SQL语句发送到Mysql数据库；对于用户配置querySql信息，MysqlReader直接将其发送到Mysql数据库。

1.9.1.3 功能说明

1.9.1.3.1 配置样例

• 配置一个从Mysql数据库同步抽取数据到本地的作业:

{
    "job": {
        "setting": {
            "speed": {
                 "channel": 3
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "root",
                        "column": [
                            "id",
                            "name"
                        ],
                        "splitPk": "db_id",
                        "connection": [
                            {
                                "table": [
                                    "table"
                                ],
                                "jdbcUrl": [
     "jdbc:mysql://127.0.0.1:3306/database"
                                ]
                            }
                        ]
                    }
                },
               "writer": {
                    "name": "streamwriter",
                    "parameter": {
                        "print":true
                    }
                }
            }
        ]
    }
}

• 配置一个自定义SQL的数据库同步任务到本地内容的作业：

{
    "job": {
        "setting": {
            "speed": {
                 "channel":1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "root",
                        "connection": [
                            {
                                "querySql": [
                                    "select db_id,on_line_flag from db_info where db_id < 10;"
                                ],
                                "jdbcUrl": [
                                    "jdbc:mysql://bad_ip:3306/database",
                                    "jdbc:mysql://127.0.0.1:bad_port/database",
                                    "jdbc:mysql://127.0.0.1:3306/database"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "streamwriter",
                    "parameter": {
                        "print": false,
                        "encoding": "UTF-8"
                    }
                }
            }
        ]
    }
}

1.9.1.3.2 参数说明

• jdbcUrl
描述：描述的是到对端数据库的JDBC连接信息，使用JSON的数组描述，并支持一个库填写多个连接地址。之所以使用JSON数组描述连接信息，是因为阿里集团内部支持多个IP探测，如果配置了多个，MysqlReader可以依次探测ip的可连接性，直到选择一个合法的IP。
如果全部连接失败，MysqlReader报错。注意，jdbcUrl必须包含在connection配置单元中。对于阿里集团外部使用情况，JSON数组填写一个JDBC连接即可。
jdbcUrl按照Mysql官方规范，并可以填写连接附件控制信息。具体请参看Mysql官方文档。
必选：是
默认值：无
• username
描述：数据源的用户名
必选：是
默认值：无
• password
描述：数据源指定用户名的密码
必选：是
默认值：无
• table
描述：所选取的需要同步的表。使用JSON的数组描述，因此支持多张表同时抽取。当配置为多张表时，用户自己需保证多张表是同一schema结构，MysqlReader不予检查表是否同一逻辑表。注意，table必须包含在connection配置单元中。
必选：是
默认值：无
• column
描述：所配置的表中需要同步的列名集合，使用JSON的数组描述字段信息。用户使用代表默认使用所有列配置，例如[’’]。
支持列裁剪，即列可以挑选部分列进行导出。
支持列换序，即列可以不按照表schema信息进行导出。
支持常量配置，用户需要按照Mysql SQL语法格式: [“id”, “table”, “1”, “‘bazhen.csy’”, “null”, “to_char(a + 1)”, “2.3” , “true”] id为普通列名，table为包含保留在的列名，1为整形数字常量，'bazhen.csy’为字符串常量，null为空指针，to_char(a + 1)为表达式，2.3为浮点数，true为布尔值。
必选：是
默认值：无
• splitPk
描述：MysqlReader进行数据抽取时，如果指定splitPk，表示用户希望使用splitPk代表的字段进行数据分片，DataX因此会启动并发任务进行数据同步，这样可以大大提供数据同步的效能。
推荐splitPk用户使用表主键，因为表主键通常情况下比较均匀，因此切分出来的分片也不容易出现数据热点。
目前splitPk仅支持整形数据切分，不支持浮点、字符串、日期等其他类型。如果用户指定其他非支持类型，MysqlReader将报错！
如果splitPk不填写，包括不提供splitPk或者splitPk值为空，DataX视作使用单通道同步该表数据。
必选：否
默认值：空
• where
描述：筛选条件，MysqlReader根据指定的column、table、where条件拼接SQL，并根据这个SQL进行数据抽取。在实际业务场景中，往往会选择当天的数据进行同步，可以将where条件指定为gmt_create > $bizdate 。注意：不可以将where条件指定为limit 10，limit不是SQL的合法where子句。
where条件可以有效地进行业务增量同步。如果不填写where语句，包括不提供where的key或者value，DataX均视作同步全量数据。
必选：否
默认值：无
• querySql
描述：在有些业务场景下，where这一配置项不足以描述所筛选的条件，用户可以通过该配置型来自定义筛选SQL。当用户配置了这一项之后，DataX系统就会忽略table，column这些配置型，直接使用这个配置项的内容对数据进行筛选，例如需要进行多表join后同步数据，使用select a,b from table_a join table_b on table_a.id = table_b.id
当用户配置querySql时，MysqlReader直接忽略table、column、where条件的配置，querySql优先级大于table、column、where选项。
必选：否
默认值：无

1.9.1.3.3 类型转换

目前MysqlReader支持大部分Mysql类型，但也存在部分个别类型没有支持的情况，请注意检查你的类型。
下面列出MysqlReader针对Mysql类型转换列表:

请注意:
除上述罗列字段类型外，其他类型均不支持。
tinyint(1) DataX视作为整形。
year DataX视作为字符串类型
bit DataX属于未定义行为。

1.9.1.4 约束限制

1 主备同步数据恢复问题
主备同步问题指Mysql使用主从灾备，备库从主库不间断通过binlog恢复数据。由于主备数据同步存在一定的时间差，特别在于某些特定情况，例如网络延迟等问题，导致备库同步恢复的数据与主库有较大差别，导致从备库同步的数据不是一份当前时间的完整镜像。
针对这个问题，我们提供了preSql功能，该功能待补充。

2 一致性约束
Mysql在数据存储划分中属于RDBMS系统，对外可以提供强一致性数据查询接口。例如当一次同步任务启动运行过程中，当该库存在其他数据写入方写入数据时，MysqlReader完全不会获取到写入更新数据，这是由于数据库本身的快照特性决定的。关于数据库快照特性，请参看MVCC Wikipedia
上述是在MysqlReader单线程模型下数据同步一致性的特性，由于MysqlReader可以根据用户配置信息使用了并发数据抽取，因此不能严格保证数据一致性：当MysqlReader根据splitPk进行数据切分后，会先后启动多个并发任务完成数据同步。由于多个并发任务相互之间不属于同一个读事务，同时多个并发任务存在时间间隔。因此这份数据并不是完整的、一致的数据快照信息。
针对多线程的一致性快照需求，在技术上目前无法实现，只能从工程角度解决，工程化的方式存在取舍，我们提供几个解决思路给用户，用户可以自行选择：
 使用单线程同步，即不再进行数据切片。缺点是速度比较慢，但是能够很好保证一致性。
 关闭其他数据写入方，保证当前数据为静态数据，例如，锁表、关闭备库同步等等。缺点是可能影响在线业务。

3 数据库编码问题

Mysql本身的编码设置非常灵活，包括指定编码到库、表、字段级别，甚至可以均不同编码。优先级从高到低为字段、表、库、实例。我们不推荐数据库用户设置如此混乱的编码，最好在库级别就统一到UTF-8。

MysqlReader底层使用JDBC进行数据抽取，JDBC天然适配各类编码，并在底层进行了编码转换。因此MysqlReader不需用户指定编码，可以自动获取编码并转码。

对于Mysql底层写入编码和其设定的编码不一致的混乱情况，MysqlReader对此无法识别，对此也无法提供解决方案，对于这类情况，导出有可能为乱码。

4 增量数据同步
MysqlReader使用JDBC SELECT语句完成数据抽取工作，因此可以使用SELECT…WHERE…进行增量数据抽取，方式有多种：

	数据库在线应用写入数据库时，填充modify字段为更改时间戳，包括新增、更新、删除(逻辑删)。对于这类应用，MysqlReader只需要WHERE条件跟上一同步阶段时间戳即可。

	对于新增流水型数据，MysqlReader可以WHERE条件后跟上一阶段最大自增ID即可。

对于业务上无字段区分新增、修改数据情况，MysqlReader也无法进行增量数据同步，只能同步全量数据。

5 Sql安全性
MysqlReader提供querySql语句交给用户自己实现SELECT抽取语句，MysqlReader本身对querySql不做任何安全性校验。这块交由DataX用户方自己保证。

FAQ
Q: MysqlReader同步报错，报错信息为XXX
A: 网络或者权限问题，请使用mysql命令行测试：

mysql -u -p -h -D -e "select * from <表名>"

如果上述命令也报错，那可以证实是环境问题，请联系你的DBA。

1.9.2 DataX MySQLWriter

1 快速介绍
MysqlWriter 插件实现了写入数据到 Mysql 主库的目的表的功能。在底层实现上， MysqlWriter 通过 JDBC 连接远程 Mysql 数据库，并执行相应的 insert into … 或者 ( replace into …) 的 sql 语句将数据写入 Mysql，内部会分批次提交入库，需要数据库本身采用 innodb 引擎。
MysqlWriter 面向ETL开发工程师，他们使用 MysqlWriter 从数仓导入数据到 Mysql。同时 MysqlWriter 亦可以作为数据迁移工具为DBA等用户提供服务。

2 实现原理
MysqlWriter 通过 DataX 框架获取 Reader 生成的协议数据，根据你配置的 writeMode 生成
• insert into…(当主键/唯一性索引冲突时会写不进去冲突的行)
或者
• replace into…(没有遇到主键/唯一性索引冲突时，与 insert into 行为一致，冲突时会用新行替换原有行所有字段) 的语句写入数据到 Mysql。出于性能考虑，采用了 PreparedStatement + Batch，并且设置了：rewriteBatchedStatements=true，将数据缓冲到线程上下文 Buffer 中，当 Buffer 累计到预定阈值时，才发起写入请求。

注意：目的表所在数据库必须是主库才能写入数据；整个任务至少需要具备 insert/replace into…的权限，是否需要其他权限，取决于你任务配置中在 preSql 和 postSql 中指定的语句。

3 功能说明

3.1 配置样例

• 这里使用一份从内存产生到 Mysql 导入的数据。

{
    "job": {
        "setting": {
            "speed": {
                "channel": 1
            }
        },
        "content": [
            {
                 "reader": {
                    "name": "streamreader",
                    "parameter": {
                        "column" : [
                            {
                                "value": "DataX",
                                "type": "string"
                            },
                            {
                                "value": 19880808,
                                "type": "long"
                            },
                            {
                                "value": "1988-08-08 08:08:08",
                                "type": "date"
                            },
                            {
                                "value": true,
                                "type": "bool"
                            },
                            {
                                "value": "test",
                                "type": "bytes"
                            }
                        ],
                        "sliceRecordCount": 1000
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "root",
                        "password": "root",
                        "column": [
                            "id",
                            "name"
                        ],
                        "session": [
                        	"set session sql_mode='ANSI'"
                        ],
                        "preSql": [
                            "delete from test"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://127.0.0.1:3306/datax?useUnicode=true&characterEncoding=gbk",
                                "table": [
                                    "test"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}

3.2 参数说明

• jdbcUrl

o	描述：目的数据库的 JDBC 连接信息。作业运行时，DataX 会在你提供的 jdbcUrl 后面追加如下属性：yearIsDateType=false&zeroDateTimeBehavior=convertToNull&rewriteBatchedStatements=true
o	     注意：1、在一个数据库上只能配置一个 jdbcUrl 值。这与 MysqlReader 支持多个备库探测不同，因为此处不支持同一个数据库存在多个主库的情况(双主导入数据情况)
o	          2、jdbcUrl按照Mysql官方规范，并可以填写连接附加控制信息，比如想指定连接编码为 gbk ，则在 jdbcUrl 后面追加属性 useUnicode=true&characterEncoding=gbk。具体请参看 Mysql官方文档或者咨询对应 DBA。
o	必选：是
o	默认值：无

• username

o	描述：目的数据库的用户名
o	必选：是
o	默认值：无

• password

o	描述：目的数据库的密码
o	必选：是
o	默认值：无

• table

o	描述：目的表的表名称。支持写入一个或者多个表。当配置为多张表时，必须确保所有表结构保持一致。
o	     注意：table 和 jdbcUrl 必须包含在 connection 配置单元中
o	必选：是
o	默认值：无

• column

o	描述：目的表需要写入数据的字段,字段之间用英文逗号分隔。例如: "column": ["id","name","age"]。如果要依次写入全部列，使用表示, 例如: "column": [""]。
o	  **column配置项必须指定，不能留空！**
o	
o	     注意：1、我们强烈不推荐你这样配置，因为当你目的表字段个数、类型等有改动时，你的任务可能运行不正确或者失败
o	          2、 column 不能配置任何常量值
o	必选：是
o	默认值：否

• session

o	描述: DataX在获取Mysql连接时，执行session指定的SQL语句，修改当前connection session属性
o	必须: 否
o	默认值: 空

• preSql

o	描述：写入数据到目的表前，会先执行这里的标准语句。如果 Sql 中有你需要操作到的表名称，请使用 @table 表示，这样在实际执行 Sql 语句时，会对变量按照实际表名称进行替换。比如你的任务是要写入到目的端的100个同构分表(表名称为:datax_00,datax01, ... datax_98,datax_99)，并且你希望导入数据前，先对表中数据进行删除操作，那么你可以这样配置："preSql":["delete from 表名"]，效果是：在执行到每个表写入数据前，会先执行对应的 delete from 对应表名称
o	必选：否
o	默认值：无

• postSql

o	描述：写入数据到目的表后，会执行这里的标准语句。（原理同 preSql ）
o	必选：否
o	默认值：无

• writeMode

o	描述：控制写入数据到目标表采用 insert into 或者 replace into 或者 ON DUPLICATE KEY UPDATE 语句
o	必选：是
o	所有选项：insert/replace/update
o	默认值：insert

• batchSize

o	描述：一次性批量提交的记录数大小，该值可以极大减少DataX与Mysql的网络交互次数，并提升整体吞吐量。但是该值设置过大可能会造成DataX运行进程OOM情况。
o	必选：否
o	默认值：1024

3.3 类型转换

类似 MysqlReader ，目前 MysqlWriter 支持大部分 Mysql 类型，但也存在部分个别类型没有支持的情况，请注意检查你的类型。
下面列出 MysqlWriter 针对 Mysql 类型转换列表:

• bit类型目前是未定义类型转换

FAQ

Q: MysqlWriter 执行 postSql 语句报错，那么数据导入到目标数据库了吗?
A: DataX 导入过程存在三块逻辑，pre 操作、导入操作、post 操作，其中任意一环报错，DataX 作业报错。由于 DataX 不能保证在同一个事务完成上述几个操作，因此有可能数据已经落入到目标端。

Q: 按照上述说法，那么有部分脏数据导入数据库，如果影响到线上数据库怎么办?
A: 目前有两种解法，第一种配置 pre 语句，该 sql 可以清理当天导入数据， DataX 每次导入时候可以把上次清理干净并导入完整数据。第二种，向临时表导入数据，完成后再 rename 到线上表。

Q: 上面第二种方法可以避免对线上数据造成影响，那我具体怎样操作?
A: 可以配置临时表导入

1.10 Mysql2Hive

接下来将mysql数据库中的数据写入hive的案例：

mysql数据库和表准备：

CREATE DATABASE `complaint_report` DEFAULT CHARACTER SET utf8;

USE `complaint_report`;
DROP TABLE IF EXISTS `sys_complaint_threshold_value`;

CREATE TABLE `sys_complaint_threshold_value` (
  `id` BIGINT(10) NOT NULL AUTO_INCREMENT,
  `threshold_type` VARCHAR(16) DEFAULT NULL,
  `threshold_name` VARCHAR(32) DEFAULT NULL,
  `threshold_value` SMALLINT(2) DEFAULT '0',
  `threshold_key` VARCHAR(32) DEFAULT NULL,
  `operator_msg` VARCHAR(32) DEFAULT NULL,
  `operator_scope` VARCHAR(16) DEFAULT NULL,
  `create_date` DATETIME DEFAULT NULL,
  `create_user` VARCHAR(32) DEFAULT NULL,
  `update_date` DATETIME DEFAULT NULL,
  `update_user` VARCHAR(32) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=INNODB AUTO_INCREMENT=9 DEFAULT CHARSET=utf8;

Hive中创建库test_db和表sys_complaint_threshold_value：

use test_db;
drop table if exists sys_complaint_threshold_value;
CREATE TABLE `sys_complaint_threshold_value`(
  `id` bigint, 
  `threshold_type` string, 
  `threshold_name` string, 
  `threshold_value` int
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS ORC;

编写json文件：

{
    "job": {
        "setting": {
            "speed": {
                 "channel": 3
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "123456",
                        "column": [
                            "id",
                            "threshold_type",
							"threshold_name",
							"threshold_value"
                        ],
                        "splitPk": "id",
                        "connection": [
                            {
                                "table": [
                                    "sys_complaint_threshold_value"
                                ],
                                "jdbcUrl": [
								    "jdbc:mysql://192.168.106.158:3306/complaint_report"
								]
                            }
                        ]
                    }
                },
               "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS":"hdfs://hadoop1:9000",
						"fileType":"orc",
						"path":"/user/hive/warehouse/test_db.db/sys_complaint_threshold_value",
						"fileName":"sys_complaint_threshold_value",
						"column":[
						    {
							    "name":"id",
								"type":"BIGINT"
							},
							{
							    "name":"threshold_type",
								"type":"STRING"
							},
							{
							    "name":"threshold_name",
								"type":"STRING"
							},
							{
							    "name":"threshold_value",
								"type": "INT"
							}
						],
						"writeMode": "append",
                        "fieldDelimiter": "\t",
                        "compress":"NONE"
                    }
                }
            }
        ]
    }
}

然后执行datax命令：

cd /home/installed/datax/bin/
python datax.py /home/test/dataxtest/mysql2hdfs.json

然后到hive中查看状态：

hive> use test_db;
OK
Time taken: 0.045 seconds
hive> drop table if exists sys_complaint_threshold_value;
OK
Time taken: 1.739 seconds
hive> CREATE TABLE `sys_complaint_threshold_value`(
    >   `id` bigint, 
    >   `threshold_type` string, 
    >   `threshold_name` string, 
    >   `threshold_value` int
    > )
    > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    > STORED AS ORC;
OK
Time taken: 0.254 seconds
hive> select * from sys_complaint_threshold_value;
OK
5	tag	疑似虚假值	70
7	tag	职业索赔人值	81
8	tag	职业索赔人值	80
4	tag	聚类相关值	70
2	tag	疑似重复值	84
3	tag	聚类相关值	85
1	remind	疑似重复值	85
6	tag	重大风险值	60
Time taken: 0.221 seconds, Fetched: 8 row(s)
hive>

你可能感兴趣的:(#,datax,datax)

oracle操作xml笔记 chushiyunen oracle xml 笔记
文章目录第一个例子EXTRACTVALUE()方法oracle这么成熟的数据库，肯定对xml有很好的支持了。第一个例子创建表：CREATETABLExml_table(idNUMBERPRIMARYKEY,xml_dataXMLType);插入数据：INSERTINTOxml_table(id,xml_data)VALUES(1,XMLType('Value'));查询：SELECTEXTRACT
datax-web任务执行时脏数据
经DataX智能分析,该任务最可能的错误原因是:com.alibaba.datax.common.exception.DataXException:Code:[DBUtilErrorCode-10],Description:[连接数据库失败.请检查您的账号、密码、数据库名称、IP、Port或者向DBA寻求帮助(注意网络环境).].-具体错误信息为：com.mysql.jdbc.exceptions
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
DataX（2）—— 核心流程申尧强 datax
DataX的核心执行流程：初始化阶段创建JobContainer容器（主控进程）加载配置，初始化reader/writer插件准备阶段调用reader/writer的prepare()方法执行数据源和目标端的准备工作任务切分阶段根据channel数切分reader任务根据reader切分结果切分writer任务合并生成最终task配置调度执行阶段分配task到各个taskGroup启动TaskGr
OceanBase公布AI新进展：OB Cloud服务数十家头部企业AI应用落地 CSDN资讯人工智能数据库 OceanBase 智能体
6月24日，独立数据库厂商OceanBase宣布，其云数据库OBCloud已实现AI能力的开发部署及生态集成，并已服务零售、金融、物流等行业的数十家头部企业，推动AI应用从概念走向实际落地。OceanBase正在全面拥抱AI时代，CTO杨传辉此前曾指出，致力于构建DataxAI能力，面向AI时代推动一体化数据库向一体化数据底座的战略演进。此次OBCloud对AI能力的部署集成与行业应用，被视为Oc
datax到hive数据全部为空_DataX HIVE分区同步一只mikan
一、DataXJson配置(样例){"job":{"setting":{"speed":{"channel":3,"byte":1048576},"errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"hdfsreader","parameter":{"hadoopConfig":{"dfs.namese
DataX HdfsReader 插件：快速上手与深入解析 Edingbrugh.南空 hive 大数据 hive hadoop sql etl
引言在数据处理与分析的领域中，数据的高效读取与传输是至关重要的环节。DataX作为一款强大的开源离线同步工具，为我们提供了便捷的数据同步解决方案。其中，HdfsReader插件专门用于从Hadoop分布式文件系统（HDFS）中读取数据，并且能够将其转换为DataX传输协议传递给Writer进行后续处理。本文将详细介绍DataXHdfsReader插件的使用方法，无论是新手小白还是经验丰富的高手，都
实践练习4.迁移 MySQL 数据到 OceanBase 集群 qinwen740 dba
掌握从MySQL向OceanBase迁移数据的基本方法：mysqldump、datax工具准备mysqldump是MySQL提供的用于导出MySQL数据库对象和数据的工具，非常方便。DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、
实践练习-迁移 MySQL 数据到 OceanBase 集群 qq492328329 OceanBase 社区版 dba
一、实验目标1、使用mysqldump将mysql的表结构和数据同步到OceanBase的MySQL租户中。2、使用datax配置至少一个表的MySQL到OceanBase的MySQL租户的离线同步。二、实验环境OB环境如下ip部署内容备注192.168.35.101obproxy,obclientob代理及客户端192.168.35.102observerob集群zone1节点192.168.3
开源免费数据同步工具全景解析与实战指南社恐码农 Hive mysql postgres 开源数据同步工具
一、数据同步工具生态全景图1.1工具分类矩阵类型代表工具核心能力适用场景开源协议ETL工具DataX、SeaTunnel异构数据源批量同步数据仓库构建Apache2.0CDC工具FlinkCDC、Canal实时数据变更捕获实时数仓/监控系统Apache2.0文件同步GoodSync、FreeFileSync跨设备文件实时同步备份/多云同步GPLv3数据库复制SymmetricDS、MaxScale
ggplot2绘图--R语言小鱼鱼爱编程 r语言 r语言开发语言贴图
library(ggplot2)#加载包#基本数据datax<-c(0:99)*2*pi/100datay<-sin(datax)*4+cos(2*datax)*2dix<-c(rnorm(100))#Scatterplot散点图plot(datax,datay)#绘制散点图#LineGraph线图plot(datax,datay,type="l")#绘制线图points(datax[20:40]
DataX的json配置文件，{}，[]讲解 WZMeiei 大数据 json 数据库大数据
通过DataX将文件系统迁移到MySQLpython/bigdata/datax/bin/datax.py-rtxtfilereader-wmysqlwriter配置文件如下，（json文件中是不允许有//注释的，这里为了理解配置项的含义所以给加上了）{"job":{//数据同步任务的具体内容配置，包含数据源读取和写入目标的配置"content":[{//数据源读取器配置"reader":{//读
开源离线同步工具DataX3.0 Act-F 开源
一.DataX3.0概念dataX是一个异构数据源离线同步工具，实现包括关系型数据库（MySQL，Oracle.....)、hdfs、hive、odps、hbase等各种异构数据源之间稳定高效的数据同步功能。二、DataX3.0框架设计DataX作为离线数据同步框架，采用Framework+plugin架构构建。Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Frame
数据收集之DataX服务器端关于动态传参的示例佩可official 数据导入 sql json database hive 数据仓库大数据
前言我们在上一篇帖子详细介绍了如何利用datax将数据在服务器端从mysql导入linux中，但是对于每日更新的数据我们不可能每日自己手动去导入。这就涉及到了datax的另一个用法：动态传参，自动更新。在大数据开发环境下我们也是默认这样去进行的。在这里简单介绍下原理：在Linux服务器环境下，实现DataX从MySQL到Hive的动态传参+每日自动更新，核心是通过Shell脚本动态生成DataX任
数据中台-常用工具组件：DataX、Flink、Dolphin Scheduler、TensorFlow和PyTorch等 lcw_lance flink tensorflow pytorch
数据实施服务工具组件概览数据中台的数据实施服务涵盖数据采集、处理、调度、分析与应用全流程，以下为关键工具组件及其作用：工具类型核心功能典型应用场景DataX离线数据采集多源异构数据批量同步数据仓库ODS层数据导入ApacheFlink实时计算引擎流批一体数据处理、实时ETL、复杂事件处理实时监控、DWD层实时清洗与聚合DolphinScheduler任务调度平台可视化编排ETL任务、依赖管理与监控
顺序表——C语言黄皮の电气鼠 c语言算法开发语言
//头文件#pragmaonce#include#includetypedefintdata;typedefstructvector{data*arr;intsize;intcapacity;}vector;voidInit(vector*v);voiddestory(vector*v);voidcheckcapacity(vector*v);voidpushback(vector*v,datax
任务调度_Azkaban 若叶时代数据开发工具大数据
0参考列表CSDN:Azkaban知识点入门https://blog.csdn.net/weixin_45682261/article/details/125118559CSDN:dataX同步mysql至hivehttps://blog.csdn.net/AyubLIbra/article/details/115838882博学园:Azkaban-2.5及Plugins的安装配置https://
echarts vue柱状图重叠堆积显示图表 G_GreenHand vue.js echarts javascript
html引用写好的模块importStackingBarfrom'@/components/Echarts/StackingBar.vue';exportdefault{name:"monitor",components:{StackingBar},data(){return{dataX:[],dataY:[],}}StackingBar.vueimport*asechartsfrom'echar
数据中台架构与技术体系 Aurora_NeAr 架构大数据
数据中台整体架构设计数据中台分层架构数据采集层数据源类型：业务系统（ERP、CRM）、日志、IoT设备、第三方API等。采集方式：实时采集：Kafka、FlinkCDC（变更数据捕获）。离线采集：Sqoop、DataX（批量同步数据库）。日志采集：Flume、Filebeat。数据缓冲与预处理：使用消息队列（如Kafka）作为缓冲区，应对数据流量峰值。数据存储层数据湖（DataLake）：存储原始
DataX 3.0 实战案例大数据东哥(Aidon) DataX DataX案例 DataX实战案例 DataX增量同步 DataX全量同步 DataX整合
第五章实战案例5.1.案例一5.1.1.案例介绍MySQL数据库中有两张表：用户表(users)，订单表(orders)。其中用户表中存储的是所有的用户的信息，订单表中存储的是所有的订单的信息。表结构如下：用户表users:id：用户idusername：用户名password：用户密码email：用户邮箱phone：用户手机号码real_name：用户的真实姓名registration_time
docker部署dataxweb和datax集群tag202306 进阶java程序猿 docker安装镜像采坑记录 docker 容器运维
datax和dataxweb安装部署安装部署应用版本：datax-webV2.1.2datax_v202306原项目地址：dataxhttps://github.com/alibaba/DataXDatax-webhttps://github.com/WeiYe-Jing/datax-webDockerhubhttps://hub.docker.com/repository/docker/8767
DataX Web UI 安装和配置指南嵇荟隽Anastasia
DataXWebUI安装和配置指南datax-web-uiDataXWebUI项目地址:https://gitcode.com/gh_mirrors/da/datax-web-ui1.项目基础介绍和主要编程语言项目基础介绍DataXWebUI是一个基于Vue和Element-UI框架开发的前端界面，用于操作和管理DataX——阿里巴巴开源的数据同步框架。它为用户提供了可视化的工作流管理、任务调度和
2024.02最新版DataX源码编译(解决踩坑) 2301_79479951 big data hadoop database
6.1源码下载下载最新源码包(不要下载发行版。亲测有bug)$gitclonehttps://github.com/alibaba/DataX.git6.2修改hdfsreader模块中pom文件parquet-format版本改为2.4.0。org.apache.parquetparquet-format2.4.06.3检查oceanbasev10writer模块pom文件./DataX-mas
python线性插值_Python坐标线性插值应用实现 weixin_39643189 python线性插值
一、背景在野外布设700米的测线，点距为10米，用GPS每隔50米测量一个坐标，再把测线的头和为测量一个坐标。现在需使用线性插值的方法求取每两个坐标之间的其他4个点的值。二、插值原理使用等比插值的方法起始值为a终止值为b步长值为(a-b)/5后面的数分别为a+n,a+2n,a+3n,a+4n三、代码实习对x插值interx.pyimportnumpyasnpf=np.loadtxt('datax.
记录一次使用datax一次性导入多张表的经验 liux3528 大数据
一直以来，我都在使用DataX进行表数据迁移，体验非常不错。然而，今天研发团队提供了大量需要迁移的表，如果继续使用DataX的JSON配置文件逐个导入，效率会非常低。为了提高效率，我决定编写一个脚本，实现批量导入功能，并立即着手开始开发。一、编写json文件#编写json文件的模板[worker@cs-nllsync_data]$vimtemplate.json{"job":{"setting":
Clickhouse集群集群安装大浪淘沙2023 clickhouse hadoop linux hdfs
1.环境信息：[root@bigdata003clickhouse-server]#cat/etc/redhat-releaseCentOSLinuxrelease7.9.2009(Core)2.在/etc/hosts中添加主机信息10.29.35.240bigdataxxx310.29.35.241bigdataxxx410.29.35.243bigdataxxx53.关闭防火墙和selinux
Datax-web 添加达梦数据库蝈蝈噶蝈蝈噶数据库 java 前端
环境JDK1.8node10.24.1python2.XDatax分支tag202309版本后端项目分支使用2.1.3-alpha-releaseGitHub-WeiYe-Jing/datax-web:DataX集成可视化页面，选择数据源即可一键生成数据同步任务，支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源，批量创建RDBMS数据同步任务，集成开源调度系统，支
阿里开源的免费数据集成工具——DataX 遇码大数据开源 datax 数据集成大数据 seatunnel kettle flinkcdc
企业里真实的数据流转是什么样子的呢？左侧描述了一个企业真实的样子，我们总是需要把数据从一个地方搬到另一个地方，最后就是搬来搬去搬成了一张张解不开的网。右侧则表达了使用DataX为中心实现数据的同步。什么是DataXDataX是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功
尚硅谷大数据项目【电商数仓6.0】-Datax-6 Xiaoweidumpb 大数据技术大数据
安装tar-zxvfdatax.tar.gz-C/opt/module/测试python/opt/module/datax/bin/datax.py/opt/module/datax/job/job.jsonMySQLToHDFS根据官方文档写配置json{"job":{"content":[{"reader":{"name":"mysqlreader","parameter":{"column"
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本