prefect_start

DataX从入门实战到精通一文搞定

1、概述

1.1、什么是 DataX

DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。

1.2、DataX 的设计

为了解决异构数据源同步问题，DataX 将复杂的网状的同步链路变成了星型数据链路，DataX 作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到 DataX，便能跟已有的数据源做到无缝数据同步。

1.3、支持的数据源

DataX 目前已经有了比较全面的插件体系，主流的 RDBMS 数据库、NOSQL、大数据计算系统都已经接入。

1.4、框架设计

Reader：数据采集模块，负责采集数据源的数据，将数据发送给Framework。
Writer：数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。
Framework：用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

1.5、运行原理

Job：单个作业的管理节点，负责数据清理、子任务划分、TaskGroup监控管理。
Task：由Job切分而来，是DataX作业的最小单元，每个Task负责一部分数据的同步工作。
Schedule：将Task组成TaskGroup，单个TaskGroup的并发数量为5。
TaskGroup：负责启动Task。

举例来说，用户提交了一个 DataX 作业，并且配置了 20 个并发，目的是将一个 100 张分表的 mysql 数据同步到 odps 里面。 DataX 的调度决策思路是：

DataXJob 根据分库分表切分成了 100 个 Task。
根据 20 个并发，DataX 计算共需要分配 4 个 TaskGroup。
个 TaskGroup 平分切分好的 100 个 Task，每一个 TaskGroup 负责以 5 个并发共计运行 25 个 Task。

1.6、与 Sqoop 的对比

2、快速入门

2.1、官方地址

下载地址：
添源码地址：

2.2、前置要求

Linux
JDK(1.8 以上，推荐 1.8)
Python(推荐 Python2.6.X)

2.3、安装

将下载好的 datax.tar.gz 上传到 hadoop102 的/opt/software
解压 datax.tar.gz 到/opt/model

[song@hadoop102 software]$ tar -zxvf datax.tar.gz -C /opt/model/

运行自检脚本

[song@hadoop102 bin]$ cd /opt/model/datax/bin/
[song@hadoop102 bin]$ python datax.py /opt/model/datax/job/job.json

3、Mysql使用案例

3.1、从 stream 流读取数据并打印到控制台

查看配置模板

The di[song@hadoop102 bin]$ python datax.py -r streamreader -w streamwriter
DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.
Please refer to the streamreader document:
 https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.md 
Please refer to the streamwriter document:
 https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.md 
Please save the following configuration as a json file and use
 python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.
	{
	 "job": {
		 "content": [
			 {
			 "reader": {
				 "name": "streamreader", 
				 "parameter": {
				 "column": [], 
				 "sliceRecordCount": ""
				 }
			 }, 
			 "writer": {
				 "name": "streamwriter", 
				 "parameter": {
				 "encoding": "", 
				 "print": true
				 }
			 	}
			 }
		 ], 
		 "setting": {
			 "speed": {
			 	"channel": ""
			 }
		 }
	 	} 
	 }

根据模板编写配置文件

[song@hadoop102 job]$ vim stream2stream.json

填写以下内容：

{
	 "job": {
	 "content": [
			 {
			 "reader": {
			 	 "name": "streamreader",
				 "parameter": {
				 "sliceRecordCount": 10,
				 "column": [
					 {
					 "type": "long",
					 "value": "10"
					 },
					 {
					 "type": "string",
					 "value": "hello，DataX"
					 }
					]
			 	}
			 },
		 "writer": {
				 "name": "streamwriter",
				 "parameter": {
				 "encoding": "UTF-8",
				 "print": true
			 	}
			 }
	 		}
	 	],
		 "setting": {
			 "speed": {
			 	"channel": 1
			 }
		 }
	 } 
 }

运行

[song@hadoop102 job]$ /opt/module/datax/bin/datax.py /opt/module/datax/job/stream2stream.json

3.2、读取 MySQL 中的数据存放到 HDFS

3.2.1、查看官方模板

[song@hadoop102 ~]$ python /opt/module/datax/bin/datax.py -r mysqlreader -w hdfswriter
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "column": [],
                        "connection": [
                            {
                                "jdbcUrl": [],
                                "table": []
                            }
                        ],
                        "password": "",
                        "username": "",
                        "where": ""
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "column": [],
                        "compress": "",
                        "defaultFS": "",
                        "fieldDelimiter": "",
                        "fileName": "",
                        "fileType": "",
                        "path": "",
                        "writeMode": ""
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

mysqlreader 参数解析：
hdfswriter 参数解析：

3.2.2、准备数据

创建 student 表

mysql> create database datax;
mysql> use datax;
mysql> create table student(id int,name varchar(20));

插入数据

mysql> insert into student values(1001,'zhangsan'),(1002,'lisi'),(1003,'wangwu');

3.2.3、编写配置文件

[song@hadoop102 datax]$ vim /opt/module/datax/job/mysql2hdfs.json
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "column": [
                            "id",
                            "name"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://hadoop102:3306/datax"
                                ],
                                "table": [
                                    "student"
                                ]
                            }
                        ],
                        "username": "root",
                        "password": "xxxxxx"
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "column": [
                            {
                                "name": "id",
                                "type": "int"
                            },
                            {
                                "name": "name",
                                "type": "string"
                            }
                        ],
                        "defaultFS": "hdfs://hadoop102:9000",
                        "fieldDelimiter": "\t",
                        "fileName": "student.txt",
                        "fileType": "text",
                        "path": "/",
                        "writeMode": "append"
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
}

3.2.4、执行任务

[song@hadoop102 datax]$ bin/datax.py job/mysql2hdfs.json
2019-05-17 16:02:16.581 [job-0] INFO JobContainer -
任务启动时刻 : 2019-05-17 16:02:04
任务结束时刻 : 2019-05-17 16:02:16
任务总计耗时 : 12s
任务平均流量 : 3B/s
记录写入速度 : 0rec/s
读出记录总数 : 3
读写失败总数 : 0

3.2.5、查看 hdfs

注意：HdfsWriter 实际执行时会在该文件名后添加随机的后缀作为每个线程写入实际文件名。

3.2.6、关于 HA 的支持

"hadoopConfig":{
 "dfs.nameservices": "ns",
 "dfs.ha.namenodes.ns": "nn1,nn2",
 "dfs.namenode.rpc-address.ns.nn1": "主机名:端口",
 "dfs.namenode.rpc-address.ns.nn2": "主机名:端口",
 "dfs.client.failover.proxy.provider.ns": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
}

3.3、读取 HDFS 数据写入 MySQL

将上个案例上传的文件改名

[song@hadoop102 datax]$ hadoop fs -mv /student.txt* /student.txt

查看官方模板

[song@hadoop102 datax]$ python bin/datax.py -r hdfsreader -w mysqlwriter
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "hdfsreader",
                    "parameter": {
                        "column": [],
                        "defaultFS": "",
                        "encoding": "UTF-8",
                        "fieldDelimiter": ",",
                        "fileType": "orc",
                        "path": ""
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "column": [],
                        "connection": [
                            {
                                "jdbcUrl": "",
                                "table": []
                            }
                        ],
                        "password": "",
                        "preSql": [],
                        "session": [],
                        "username": "",
                        "writeMode": ""
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

创建配置文件

[song@hadoop102 datax]$ vim job/hdfs2mysql.json
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "hdfsreader",
                    "parameter": {
                        "column": [
                            "*"
                        ],
                        "defaultFS": "hdfs://hadoop102:9000",
                        "encoding": "UTF-8",
                        "fieldDelimiter": "\t",
                        "fileType": "text",
                        "path": "/student.txt"
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "column": [
                            "id",
                            "name"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://hadoop102:3306/datax",
                                "table": [
                                    "student2"
                                ]
                            }
                        ],
                        "password": "xxxxxx",
                        "username": "root",
                        "writeMode": "insert"
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
}

在 MySQL 的 datax 数据库中创建 student2

mysql> use datax;
mysql> create table student2(id int,name varchar(20));

执行任务

[song@hadoop102 datax]$ bin/datax.py job/hdfs2mysql.json
任务启动时刻 : 2019-05-17 16:21:41
任务结束时刻 : 2019-05-17 16:21:53
任务总计耗时 : 11s
任务平均流量 : 3B/s
记录写入速度 : 0rec/s
读出记录总数 : 3
读写失败总数 : 0

查看 student2 表

mysql> select * from student2;
+------+----------+
| id | name |
+------+----------+
| 1001 | zhangsan |
| 1002 | lisi |
| 1003 | wangwu |
+------+----------+
3 rows in set (0.00 sec)

4、Oracle 数据库

4.1、oracle 数据库简介

Oracle Database，又名 Oracle RDBMS，或简称 Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说 Oracle 数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库解决方案。

4.2、安装前的准备

4.2.1、安装依赖

yum install -y bc binutils compat-libcap1 compat-libstdc++33 elfutils-libelf elfutils-libelf-devel fontconfig-devel 
glibc glibc-devel ksh libaio libaio-devel libX11 libXau libXi libXtst libXrender libXrender-devel libgcc libstdc++ libstdc++-
devel libxcb make smartmontools sysstat kmod* gcc-c++ compat-libstdc++-33

4.2.2、配置用户组

Oracle 安装文件不允许通过 root 用户启动，需要为 oracle 配置一个专门的用户。

创建 sql 用户组

[root@hadoop102 software]#groupadd sql

创建 oracle 用户并放入 sql 组中

[root@hadoop102 software]#useradd oracle -g sql

修改 oracle 用户登录密码，输入密码后即可使用 oracle 用户登录系统

[root@hadoop102 software]#passwd oracle

4.2.3、上传安装包并解压

注意:19c 需要把软件包直接解压到 ORACLE_HOME 的目录下

[root@hadoop102 software]# mkdir -p /home/oracle/app/oracle/product/19.3.0/dbhome_1
[root@hadoop102 software]# unzip LINUX.X64_193000_db_home.zip -d /home/oracle/app/oracle/product/19.3.0/dbhome_1

修改所属用户和组

[root@hadoop102 dbhome_1]# chown -R oracle:sql /home/oracle/app/

4.2.4、修改配置文件 sysctl.conf

[root@hadoop102 module]# vim /etc/sysctl.conf

删除里面的内容，添加如下内容：

net.ipv4.ip_local_port_range = 9000 65500 
fs.file-max = 6815744 
kernel.shmall = 10523004 
kernel.shmmax = 6465333657 
kernel.shmmni = 4096 
kernel.sem = 250 32000 100 128 
net.core.rmem_default=262144 
net.core.wmem_default=262144 
net.core.rmem_max=4194304 
net.core.wmem_max=1048576 
fs.aio-max-nr = 1048576

参数解析：

net.ipv4.ip_local_port_range ：可使用的 IPv4 端口范围
fs.file-max ：该参数表示文件句柄的最大数量。文件句柄设置表示在 linux 系统中可以打开的文件数量。
kernel.shmall ：该参数表示系统一次可以使用的共享内存总量（以页为单位）
kernel.shmmax ：该参数定义了共享内存段的最大尺寸（以字节为单位）
kernel.shmmni ：这个内核参数用于设置系统范围内共享内存段的最大数量
kernel.sem ：该参数表示设置的信号量。
net.core.rmem_default：默认的 TCP 数据接收窗口大小（字节）。
net.core.wmem_default：默认的 TCP 数据发送窗口大小（字节）。
net.core.rmem_max：最大的 TCP 数据接收窗口（字节）。
net.core.wmem_max：最大的 TCP 数据发送窗口（字节）。
fs.aio-max-nr ：同时可以拥有的的异步 IO 请求数目。

4.2.5、修改配置文件 limits.conf

[root@hadoop102 module]# vim /etc/security/limits.conf

在文件末尾添加：

oracle soft nproc 2047
oracle hard nproc 16384
oracle soft nofile 1024
oracle hard nofile 65536

重启机器生效。

4.3、安装 Oracle 数据库

4.3.1、设置环境变量

[oracle@hadoop102 dbhome_1]# vim /home/oracle/.bash_profile

添加：

#ORACLE_HOME
export ORACLE_BASE=/home/oracle/app/oracle
export ORACLE_HOME=/home/oracle/app/oracle/product/19.3.0/dbhome_1
export PATH=$PATH:$ORACLE_HOME/bin
export ORACLE_SID=orcl
export NLS_LANG=AMERICAN_AMERICA.ZHS16GBK
[oracle@hadoop102 ~]$ source /home/oracle/.bash_profile

4.3.2、进入虚拟机图像化页面操作

[oracle@hadoop102 ~]# cd /opt/module/oracle
[oracle@hadoop102 database]# ./runInstaller

4.3.3、安装数据库

选择仅安装数据库软件

选择单实例数据库安装
选择企业版，默认
设置安装位置
操作系统组设置
配置 root 脚本自动执行
条件检查通过后，选择开始安装
运行 root 脚本
安装完成

4.4、设置 Oracle 监听

4.4.1、命令行输入以下命令

4.4.2、选择添加

4.4.3、设置监听名，默认即可

4.4.4、选择协议，默认即可

4.4.5、设置端口号，默认即可

4.4.6、配置更多监听，默认

4.4.7、完成

4.5、创建数据库

4.5.1、进入创建页面

[oracle@hadoop2 ~]$ dbca

4.5.2、选择创建数据库

4.5.3、选择高级配置

4.5.4、选择数据仓库

4.5.5、将图中所示对勾去掉

4.5.6、存储选项

4.5.7、快速恢复选项

4.5.8、选择监听程序

4.5.9、如图设置

4.5.10、使用自动内存管理

4.5.11、管理选项，默认

4.5.12、设置统一密码

4.5.13、创建选项，选择创建数据库

4.5.14、概要，点击完成

4.5.15、等待安装

4.6、简单使用

4.6.1、开启，关闭监听服务

开启服务：

[oracle@hadoop102 ~]$ lsnrctl start

关闭服务：

[oracle@hadoop102 ~]$ lsnrctl stop

4.6.2、进入命令行

[oracle@hadoop102 ~]$ sqlplus 
SQL*Plus: Release 19.0.0.0.0 - Production on Fri Sep 3 01:44:30 2021
Version 19.3.0.0.0
Copyright (c) 1982, 2019, Oracle. All rights reserved.
Enter user-name: system
Enter password: （这里输入之前配置的统一密码）
Connected to:
Oracle Database 19c Enterprise Edition Release 19.0.0.0.0 - Production
Version 19.3.0.0.0
SQL>

4.6.3、创建用户并授权

SQL> create user song identified by 000000;
User created.
SQL> grant create session,create table,create view,create sequence,unlimited tablespace to song;
Grant succeeded.

4.6.4、进入 song 账号，创建表

SQL>create TABLE student(id INTEGER,name VARCHAR2(20));
SQL>insert into student values (1,'zhangsan');
SQL> select * from student; 
 ID NAME
 ---------- ----------------------------------------
 1 zhangsan

注意：安装完成后重启机器可能出现 ORACLE not available 错误，解决方法如下：

[oracle@hadoop102 ~]$ sqlplus / as sysdba
SQL>startup
SQL>conn song
Enter password:

4.7、Oracle 与 MySQL 的 SQL 区别

4.8、DataX 案例

4.8.1、从 Oracle 中读取数据存到 MySQL

MySQL 中创建表

[oracle@hadoop102 ~]$ mysql -uroot -p000000
mysql> create database oracle;
mysql> use oracle;
mysql> create table student(id int,name varchar(20));

编写 datax 配置文件

[oracle@hadoop102 ~]$ vim /opt/module/datax/job/oracle2mysql.json
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "oraclereader",
                    "parameter": {
                        "column": [
                            "*"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:oracle:thin:@hadoop102:1521:orcl"
                                ],
                                "table": [
                                    "student"
                                ]
                            }
                        ],
                        "password": "xxxxxx",
                        "username": "song"
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "column": [
                            "*"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://hadoop102:3306/oracle",
                                "table": [
                                    "student"
                                ]
                            }
                        ],
                        "password": "xxxxxx",
                        "username": "root",
                        "writeMode": "insert"
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
}

执行命令

[oracle@hadoop102 ~]$ /opt/module/datax/bin/datax.py /opt/module/datax/job/oracle2mysql.json

查看结果:

mysql> select * from student;
+------+----------+
| id | name |
+------+----------+
| 1 | zhangsan |
+------+----------+

4.8.2、读取 Oracle 的数据存入 HDFS 中

编写配置文件

[oracle@hadoop102 datax]$ vim job/oracle2hdfs.json
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "oraclereader",
                    "parameter": {
                        "column": [
                            "*"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:oracle:thin:@hadoop102:1521:orcl"
                                ],
                                "table": [
                                    "student"
                                ]
                            }
                        ],
                        "password": "xxxxxx",
                        "username": "song"
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "column": [
                            {
                                "name": "id",
                                "type": "int"
                            },
                            {
                                "name": "name",
                                "type": "string"
                            }
                        ],
                        "defaultFS": "hdfs://hadoop102:9000",
                        "fieldDelimiter": "\t",
                        "fileName": "oracle.txt",
                        "fileType": "text",
                        "path": "/",
                        "writeMode": "append"
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
}

执行

[oracle@hadoop102 datax]$ bin/datax.py job/oracle2hdfs.json

查看 HDFS 结果

5、MongoDB

5.1、什么是 MongoDB

MongoDB 是由 C++语言编写的，是一个基于分布式文件存储的开源数据库系统。MongoDB 旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档，数组及文档数组。

5.2、MongoDB 优缺点

优点：

MongoDB 是一个面向文档存储的数据库，操作起来比较简单和容易；
内置GridFS，支持大容量的存储；
可以在MongoDB记录中设置任何属性的索引；
MongoDB支持各种编程语言:RUBY，PYTHON，JAVA，C++，PHP，C#等多种语言；
安装简单；
复制（复制集）和支持自动故障恢复；
MapReduce 支持复杂聚合。

缺点：

不支持事务；
占用空间过大；
不能进行表关联；
复杂聚合操作通过MapReduce创建，速度慢；
MongoDB 在你删除记录后不会在文件系统回收空间。除非你删掉数据库。

5.3、基础概念解析

5.4、安装

5.4.1、下载地址

5.4.2、安装

上传压缩包到虚拟机中,解压

[song@hadoop102 software]$ tar -zxvf mongodb-linux-x86_64-rhel70-5.0.2.tgz -C /opt/module/

重命名

[song@hadoop102 module]$ mv mongodb-linux-x86_64- rhel70-5.0.2/ mongodb

创建数据库目录
MongoDB 的数据存储在 data 目录的 db 目录下，但是这个目录在安装过程不会自动创建，所以需要手动创建 data 目录，并在 data 目录中创建 db 目录。

[song@hadoop102 module]$ sudo mkdir -p /data/db
[song@hadoop102 mongodb]$ sudo chmod 777 -R /data/db/

启动 MongoDB 服务

[song@hadoop102 mongodb]$ bin/mongod

进入 shell 页面

[song@hadoop102 mongodb]$ bin/mongo

5.5、基础概念详解

5.5.1、数据库

一个 mongodb 中可以建立多个数据库。MongoDB 的默认数据库为"db"，该数据库存储在 data 目录中。MongoDB 的单个实例可以容纳多个独立的数据库，每一个都有自己的集合和权限，不同的数据库也放置在不同的文件中。

显示所有数据库

> show dbs
admin 0.000GB
config 0.000GB
local 0.000GB

admin：从权限的角度来看，这是"root"数据库。要是将一个用户添加到这个数据库，这个用户自动继承所有数据库的权限。一些特定的服务器端命令也只能从这个数据库运行，比如列出所有的数据库或者关闭服务器。
local：这个数据永远不会被复制，可以用来存储限于本地单台服务器的任意集合
config：当 Mongo 用于分片设置时，config 数据库在内部使用，用于保存分片的相关信息。

显示当前使用的数据库

> db
test

切换数据库

> use local
switched to db local
> db
local

5.5.2、集合

集合就是 MongoDB 文档组，类似于 MySQL 中的 table。

集合存在于数据库中，集合没有固定的结构，这意味着你在对集合可以插入不同格式和类型的数据，但通常情况下我们插入集合的数据都会有一定的关联性。

MongoDB 中使用 createCollection() 方法来创建集合。下面我们来看看如何创建集合：

语法格式：db.createCollection(name, options)
参数说明：

name: 要创建的集合名称
options: 可选参数, 指定有关内存大小及索引的选项，有以下参数：

案例1：在 test 库中创建一个 song的集合

> use test
switched to db test
> db.createCollection("song")
{ "ok" : 1 }
> show collections
song
//插入数据
> db.song.insert({"name":"song","url":"www.song.com"})
WriteResult({ "nInserted" : 1 })
//查看数据
> db.song.find()
{ "_id" : ObjectId("5d0314ceecb77ee2fb2d7566"), "name" : "song", "url" : 
"www.song.com" }

说明：
ObjectId 类似唯一主键，可以很快的去生成和排序，包含 12 bytes，由 24 个 16 进制数字组成的字符串（每个字节可以存储两个 16 进制数字）,含义是：

前 4 个字节表示创建 unix 时间戳
接下来的 3 个字节是机器标识码
紧接的两个字节由进程 id 组成 PID
最后三个字节是随机数

案例 2：创建一个固定集合 mycol

> db.createCollection("mycol",{ capped : true,autoIndexId : true,size : 6142800, max : 
1000})
> show tables;
song
mycol

案例 3：自动创建集合在 MongoDB 中，你不需要创建集合。当你插入一些文档时，MongoDB 会自动创建集合。

> db.mycol2.insert({"name":"song"})
WriteResult({ "nInserted" : 1 })
> show collections
song
mycol
mycol2

案例 4：删除集合

> db.mycol2.drop()
True
> show tables;
song
mycol

5.5.3、文档(Document)

文档是一组键值(key-value)对组成。MongoDB 的文档不需要设置相同的字段，并且相同的字段不需要相同的数据类型，这与关系型数据库有很大的区别，也是 MongoDB 非常突出的特点。一个简单的例子：{"name":"song"}
注意：

文档中的键/值对是有序的。
MongoDB 区分类型和大小写。
MongoDB 的文档不能有重复的键。
文档的键是字符串。除了少数例外情况，键可以使用任意 UTF-8 字符。

5.6、DataX 导入导出案例

5.6.1、读取 MongoDB 的数据导入到 HDFS

编写配置文件

[song@hadoop102 datax]$ vim job/mongdb2hdfs.json
{
 "job": {
 "content": [
	 {
	 "reader": {
		 "name": "mongodbreader", 
		 "parameter": {
		 "address": ["127.0.0.1:27017"], 
		 "collectionName": "song", 
		 "column": [
		 {
			 "name":"name",
			 "type":"string"
		 },
		 {
			 "name":"url",
			 "type":"string"
		 }
	 	], 
	 	"dbName": "test", 
	 	}
	 }, 
 "writer": {
 	"name": "hdfswriter", 
 	"parameter": {
 	"column": [
		 {
		 "name":"name",
		 "type":"string"
		 },
		 {
		 "name":"url",
		 "type":"string"
		 }
 		], 
 	"defaultFS": "hdfs://hadoop102:9000", 
	 "fieldDelimiter": "\t", 
	 "fileName": "mongo.txt", 
	 "fileType": "text", 
	 "path": "/", 
	 "writeMode": "append"
 		}
 	}
 	}
 ], 
 "setting": {
 "speed": {
	"channel": "1"
	 }
	}
  } 
}

mongodbreader 参数解析

address： MongoDB 的数据地址信息，因为 MonogDB 可能是个集群，则 ip 端口信息需要以 Json 数组的形式给出。【必填】
userName：MongoDB 的用户名。【选填】
userPassword： MongoDB 的密码。【选填】
collectionName： MonogoDB 的集合名。【必填】
column：MongoDB 的文档列名。【必填】
name：Column 的名字。【必填】
type：Column 的类型。【选填】.
splitter：因为 MongoDB 支持数组类型，但是 Datax 框架本身不支持数组类型，所以mongoDB 读出来的数组类型要通过这个分隔符合并成字符串。【选填】

执行

[song@hadoop102 datax]$ bin/datax.py job/mongdb2hdfs.json

查看结果

5.6.2、读取 MongoDB 的数据导入 MySQL

在 MySQL 中创建表

mysql> create table song(name varchar(20),url varchar(20));

编写 DataX 配置文件

[song@hadoop102 datax]$ vim job/mongodb2mysql.json
 {
 "job": {
 "content": [
	 {
	 "reader": {
		"name": "mongodbreader", 
		 "parameter": {
			 "address": ["127.0.0.1:27017"], 
			 "collectionName": "song", 
			 "column": [
				 {
				 "name":"name",
				 "type":"string"
				 },
				 {
				 "name":"url",
				 "type":"string"
				 }
			 ], 
			 "dbName": "test", 
			 }
		 }, 
		 "writer": {
			 "name": "mysqlwriter", 
			 "parameter": {
			 "column": ["*"], 
			 "connection": [
				 {
				 "jdbcUrl": "jdbc:mysql://hadoop102:3306/test", 
				 "table": ["song"]
				 }
			 ], 
			 "password": "xxxxx", 
			 "username": "root", 
			 "writeMode": "insert"
			}
		 }
	 }
 ], 
 "setting": {
	 "speed": {
		"channel": "1"
	 }
	}
  } 
 }

执行

[song@hadoop102 datax]$ bin/datax.py job/mongodb2mysql.json

查看结果

mysql> select * from song;
+---------+-----------------+
| name | url |
+---------+-----------------+
| song| www.song.com |
+---------+-----------------+

6、执行流程源码分析

6.1、总体流程

黄色： Job 部分的执行阶段，
蓝色： Task 部分的执行阶段，
绿色：框架执行阶段。

6.2、程序入口

datax.py

……
ENGINE_COMMAND = "java -server ${jvm} %s -classpath %s ${params} 
com.alibaba.datax.core.Engine -mode ${mode} -jobid ${jobid} -job ${job}" % (
DEFAULT_PROPERTY_CONF, CLASS_PATH)
……

Engine.java

public void start(Configuration allConf) {
	  ……
	 //JobContainer 会在 schedule 后再行进行设置和调整值
	 int channelNumber =0;
	 AbstractContainer container;
	 long instanceId;
	 int taskGroupId = -1;
	 if (isJob) {
	 allConf.set(CoreConstant.DATAX_CORE_CONTAINER_JOB_MODE, RUNTIME_MODE);
	 container = new JobContainer(allConf);
	 instanceId = allConf.getLong(
	 CoreConstant.DATAX_CORE_CONTAINER_JOB_ID, 0);
 } else {
	 container = new TaskGroupContainer(allConf);
	 instanceId = allConf.getLong(
	 CoreConstant.DATAX_CORE_CONTAINER_JOB_ID);
	 taskGroupId = allConf.getInt(
	 CoreConstant.DATAX_CORE_CONTAINER_TASKGROUP_ID);
	 channelNumber = allConf.getInt(CoreConstant.DATAX_CORE_CONTAINER_TASKGROUP_CHANNEL);
 }
	 ……
	 container.start();
}

JobContainer.java

/**
 * jobContainer 主要负责的工作全部在 start()里面，包括 init、prepare、split、 scheduler、
 * post 以及 destroy 和 statistics
 */
 @Override
 public void start() {
	 LOG.info("DataX jobContainer starts job.");
	 boolean hasException = false;
	 boolean isDryRun = false;
 try {
	 this.startTimeStamp = System.currentTimeMillis();
	 isDryRun = configuration.getBool(CoreConstant.DATAX_JOB_SETTING_DRYRUN, false);
	if(isDryRun) {
	 LOG.info("jobContainer starts to do preCheck ...");
	 this.preCheck();
	 } else {
	 userConf = configuration.clone();
	 LOG.debug("jobContainer starts to do preHandle ...");
	//Job 前置操作
	 this.preHandle();
	 LOG.debug("jobContainer starts to do init ...");
	//初始化 reader 和 writer
	 this.init();
	 LOG.info("jobContainer starts to do prepare ...");
	//全局准备工作，比如 odpswriter 清空目标表
	 this.prepare();
	 LOG.info("jobContainer starts to do split ...");
	//拆分 Task
	 this.totalStage = this.split();
	 LOG.info("jobContainer starts to do schedule ...");
	 this.schedule();
	 LOG.debug("jobContainer starts to do post ...");
	 this.post();
	 LOG.debug("jobContainer starts to do postHandle ...");
	 this.postHandle();
	 LOG.info("DataX jobId [{}] completed successfully.", this.jobId);
	 this.invokeHooks();
	 	}
	} ……
}

6.3、Task 切分逻辑

JobContainer.java

private int split() {
	 this.adjustChannelNumber();
	 if (this.needChannelNumber <= 0) {
	 	this.needChannelNumber = 1;
	 }
	 List<Configuration> readerTaskConfigs = this .doReaderSplit(this.needChannelNumber);
	 int taskNumber = readerTaskConfigs.size();
	 List<Configuration> writerTaskConfigs = this.doWriterSplit(taskNumber);
	 List<Configuration> transformerList = this.configuration.getListConfiguration(CoreConstant.DATAX_JOB_CONTENT_TRANSF
	ORMER);
	 LOG.debug("transformer configuration: "+ JSON.toJSONString(transformerList));
	 /**
	 * 输入是 reader 和 writer 的 parameter list，输出是 content 下面元素的 list
	 */
	 List<Configuration> contentConfig = mergeReaderAndWriterTaskConfigs(
	 readerTaskConfigs, writerTaskConfigs, transformerList);
	 LOG.debug("contentConfig configuration: "+ 
	JSON.toJSONString(contentConfig));
	 this.configuration.set(CoreConstant.DATAX_JOB_CONTENT, contentConfig);
	 return contentConfig.size();
}

6.3.1、并发数的确定

private void adjustChannelNumber() {
	 int needChannelNumberByByte = Integer.MAX_VALUE;
	 int needChannelNumberByRecord = Integer.MAX_VALUE;
 	boolean isByteLimit = (this.configuration.getInt(CoreConstant.DATAX_JOB_SETTING_SPEED_BYTE, 0) > 0);
	 if (isByteLimit) {
		 long globalLimitedByteSpeed = this.configuration.getInt(
		 CoreConstant.DATAX_JOB_SETTING_SPEED_BYTE, 10 * 1024 * 1024);
		 // 在 byte 流控情况下，单个 Channel 流量最大值必须设置，否则报错！
		 Long channelLimitedByteSpeed = this.configuration.getLong(CoreConstant.DATAX_CORE_TRANSPORT_CHANNE
		L_SPEED_BYTE);
		 if (channelLimitedByteSpeed == null || channelLimitedByteSpeed <= 0) {
		 throw DataXException.asDataXException(FrameworkErrorCode.CONFIG_ERROR, "在有总 bps 限速条件下，单个 channel 的 bps 值不能为空，也不能为非正数");
		 }
		 needChannelNumberByByte = (int) (globalLimitedByteSpeed / channelLimitedByteSpeed);
		 needChannelNumberByByte = needChannelNumberByByte > 0 ? needChannelNumberByByte : 1;
		 LOG.info("Job set Max-Byte-Speed to " + globalLimitedByteSpeed + " bytes.");
	 }
	 boolean isRecordLimit = (this.configuration.getInt(CoreConstant.DATAX_JOB_SETTING_SPEED_RECORD, 0)) > 0;
	 if (isRecordLimit) {
	 long globalLimitedRecordSpeed = this.configuration.getInt(CoreConstant.DATAX_JOB_SETTING_SPEED_RECORD, 100000);
	 Long channelLimitedRecordSpeed = this.configuration.getLong(CoreConstant.DATAX_CORE_TRANSPORT_CHANNEL_SPEED_RECORD);
	 if (channelLimitedRecordSpeed == null || channelLimitedRecordSpeed <= 0) {
	 throw DataXException.asDataXException(FrameworkErrorCode.CONFIG_ERROR,"在有总 tps 限速条件下，单个 channel 的 tps 值不能为空，
	也不能为非正数");
	 }
	 needChannelNumberByRecord = (int) (globalLimitedRecordSpeed / channelLimitedRecordSpeed);
	 needChannelNumberByRecord = needChannelNumberByRecord > 0 ? needChannelNumberByRecord : 1;
	 LOG.info("Job set Max-Record-Speed to " + globalLimitedRecordSpeed + " records.");
	 }
	 // 取较小值
	 this.needChannelNumber = needChannelNumberByByte < needChannelNumberByRecord ?
	 needChannelNumberByByte : needChannelNumberByRecord;
	  // 如果从 byte 或 record 上设置了 needChannelNumber 则退出
	 if (this.needChannelNumber < Integer.MAX_VALUE) {
	 return;
	 }
	 boolean isChannelLimit = (this.configuration.getInt(CoreConstant.DATAX_JOB_SETTING_SPEED_CHANNEL, 0) > 0);
	 if (isChannelLimit) {
	 this.needChannelNumber = this.configuration.getInt(CoreConstant.DATAX_JOB_SETTING_SPEED_CHANNEL);
	 LOG.info("Job set Channel-Number to " + this.needChannelNumber + " channels.");
	 return;
	 }
	 throw DataXException.asDataXException(FrameworkErrorCode.CONFIG_ERROR,"Job 运行速度必须设置");
}

6.4、调度

JobContainer.java

private void schedule() {
 /**
 * 这里的全局 speed 和每个 channel 的速度设置为 B/s
 */
 int channelsPerTaskGroup = this.configuration.getInt(
 
	CoreConstant.DATAX_CORE_CONTAINER_TASKGROUP_CHANNEL, 5);
	int taskNumber = this.configuration.getList(CoreConstant.DATAX_JOB_CONTENT).size();
	//确定的 channel 数和切分的 task 数取最小值，避免浪费
	 this.needChannelNumber = Math.min(this.needChannelNumber, taskNumber);
	 PerfTrace.getInstance().setChannelNumber(needChannelNumber);
	 /**
	 * 通过获取配置信息得到每个 taskGroup 需要运行哪些 tasks 任务
	 */
	 List<Configuration> taskGroupConfigs = JobAssignUtil.assignFairly(this.configuration,
	 this.needChannelNumber, channelsPerTaskGroup);
	 LOG.info("Scheduler starts [{}] taskGroups.", taskGroupConfigs.size());
	 ExecuteMode executeMode = null;
	 AbstractScheduler scheduler;
	 try {
		//可以看到 3.0 进行了阉割，只有 STANDALONE 模式
		 executeMode = ExecuteMode.STANDALONE;
		 scheduler = initStandaloneScheduler(this.configuration);
		 //设置 executeMode
		 for (Configuration taskGroupConfig : taskGroupConfigs) {
		 taskGroupConfig.set(CoreConstant.DATAX_CORE_CONTAINER_JOB_MODE, executeMode.getValue());
	 	}
		 if (executeMode == ExecuteMode.LOCAL || executeMode == ExecuteMode.DISTRIBUTE) {
			 if (this.jobId <= 0) {
			 throw DataXException.asDataXException(FrameworkErrorCode.RUNTIME_ERROR, "在[ local | distribute ]模式下必须设置 jobId，并且其
			值 > 0 .");
			 }
		 }
		 LOG.info("Running by {} Mode.", executeMode);
		 this.startTransferTimeStamp = System.currentTimeMillis();
		 scheduler.schedule(taskGroupConfigs);
		 this.endTransferTimeStamp = System.currentTimeMillis();
	 } catch (Exception e) {
		 LOG.error("运行 scheduler 模式[{}]出错.", executeMode);
		 this.endTransferTimeStamp = System.currentTimeMillis();
		 throw DataXException.asDataXException(
		 FrameworkErrorCode.RUNTIME_ERROR, e);
	 }
	 /**
	 * 检查任务执行情况
	 */
	 this.checkLimit();
	 }

6.4.1、确定组数和分组

assignFairly 方法：

确定 taskGroupNumber，
做分组分配，
做分组优化

public static List<Configuration> assignFairly(Configuration configuration, int channelNumber, int channelsPerTaskGroup) {
	 Validate.isTrue(configuration != null, "框架获得的 Job 不能为 null.");
	 List<Configuration> contentConfig = configuration.getListConfiguration(CoreConstant.DATAX_JOB_CONTENT);
	 Validate.isTrue(contentConfig.size() > 0, "框架获得的切分后的 Job 无内容.");
	 Validate.isTrue(channelNumber > 0 && channelsPerTaskGroup > 0, "每个 channel 的平均 task 数[averTaskPerChannel]，channel 数目
	[channelNumber]，每个 taskGroup 的平均 channel 数[channelsPerTaskGroup]都应该为正数");
	 //TODO 确定 taskgroup 的数量
	 int taskGroupNumber = (int) Math.ceil(1.0 * channelNumber / channelsPerTaskGroup);
	 Configuration aTaskConfig = contentConfig.get(0);
	 String readerResourceMark = aTaskConfig.getString(CoreConstant.JOB_READER_PARAMETER + "." +
	 CommonConstant.LOAD_BALANCE_RESOURCE_MARK);
	 String writerResourceMark = aTaskConfig.getString(CoreConstant.JOB_WRITER_PARAMETER + "." +
	 CommonConstant.LOAD_BALANCE_RESOURCE_MARK);
	 boolean hasLoadBalanceResourceMark = StringUtils.isNotBlank(readerResourceMark) ||  StringUtils.isNotBlank(writerResourceMark);
	 if (!hasLoadBalanceResourceMark) {
	 // fake 一个固定的 key 作为资源标识（在 reader 或者 writer 上均可，此处选择在 reader 上进行 fake）
	for (Configuration conf : contentConfig) {
		 conf.set(CoreConstant.JOB_READER_PARAMETER + "." + CommonConstant.LOAD_BALANCE_RESOURCE_MARK, 	"aFakeResourceMarkForLoadBalance");
	 }
	 // 是为了避免某些插件没有设置 资源标识 而进行了一次随机打乱操作
	 Collections.shuffle(contentConfig, new Random(System.currentTimeMillis()));
 }
	 LinkedHashMap<String, List<Integer>> resourceMarkAndTaskIdMap = parseAndGetResourceMarkAndTaskIdMap(contentConfig);
	 List<Configuration> taskGroupConfig = doAssign(resourceMarkAndTaskIdMap, configuration, taskGroupNumber);
	 // 调整 每个 taskGroup 对应的 Channel 个数（属于优化范畴）
	 adjustChannelNumPerTaskGroup(taskGroupConfig, channelNumber);
	 return taskGroupConfig;
	}

6.4.2、调度实现

AbstractScheduler.java

public void schedule(List<Configuration> configurations) {
	 Validate.notNull(configurations, "scheduler 配置不能为空");
	 int jobReportIntervalInMillSec = configurations.get(0).getInt(CoreConstant.DATAX_CORE_CONTAINER_JOB_REPORTINTERVAL, 30000);
	 int jobSleepIntervalInMillSec = configurations.get(0).getInt( CoreConstant.DATAX_CORE_CONTAINER_JOB_SLEEPINTERVAL, 10000);   this.jobId = configurations.get(0).getLong( CoreConstant.DATAX_CORE_CONTAINER_JOB_ID);
	 errorLimit = new ErrorRecordChecker(configurations.get(0));
	 /**
	 * 给 taskGroupContainer 的 Communication 注册
	 */
	 this.containerCommunicator.registerCommunication(configurations);
	 int totalTasks = calculateTaskCount(configurations);
	 startAllTaskGroup(configurations);
	 Communication lastJobContainerCommunication = new Communication();
	 long lastReportTimeStamp = System.currentTimeMillis();
	 try {
			 while (true) {
			 /**
			 * step 1: collect job stat
			 * step 2: getReport info, then report it
			 * step 3: errorLimit do check
			 * step 4: dealSucceedStat();
			 * step 5: dealKillingStat();
			 * step 6: dealFailedStat();
			 * step 7: refresh last job stat, and then sleep for next while
			 *
			 * above steps, some ones should report info to DS
			 *
			 */
			 ……
			 }
			 } 
	……
	 }

ProcessInnerScheduler.java

public void startAllTaskGroup(List<Configuration> configurations) {
	 this.taskGroupContainerExecutorService = Executors.newFixedThreadPool(configurations.size());
		 for (Configuration taskGroupConfiguration : configurations) {
		 TaskGroupContainerRunner taskGroupContainerRunner = newTaskGroupContainerRunner(taskGroupConfiguration);
		 this.taskGroupContainerExecutorService.execute(taskGroupContainerRunner);
		 }
	 this.taskGroupContainerExecutorService.shutdown();
	 }

6.5、数据传输

接 6.3.2 丢到线程池执行

TaskGroupContainer.start()-> taskExecutor.doStart()

可以看到调用插件的 start 方法

public void doStart() {
	 this.writerThread.start();
	 // reader 没有起来，writer 不可能结束
	 if (!this.writerThread.isAlive() || this.taskCommunication.getState() == State.FAILED) {
	 throw DataXException.asDataXException(
	 FrameworkErrorCode.RUNTIME_ERROR,
	 this.taskCommunication.getThrowable());
 }
 this.readerThread.start();
 ……
}

可以看看 generateRunner()
ReaderRunner.java

public void run() {
	 	 ……
		 try {
		 channelWaitWrite.start();
		 ……
		 initPerfRecord.start();
		 taskReader.init();
		 initPerfRecord.end();
		 ……
		 preparePerfRecord.start();
		 taskReader.prepare();
		 preparePerfRecord.end();
		 ……
		 dataPerfRecord.start();
		 taskReader.startRead(recordSender);
		 recordSender.terminate();
		 ……
		 postPerfRecord.start();
		 taskReader.post();
		 postPerfRecord.end();
		 // automatic flush
		 // super.markSuccess(); 这里不能标记为成功，成功的标志由
		writerRunner 来标志（否则可能导致 reader 先结束，而 writer 还没有结束的严重bug）
	 } catch (Throwable e) {
		 LOG.error("Reader runner Received Exceptions:", e);
		 super.markFail(e);
	 } finally {
		 LOG.debug("task reader starts to do destroy ...");
		 PerfRecord desPerfRecord = new PerfRecord(getTaskGroupId(), getTaskId(), PerfRecord.PHASE.READ_TASK_DESTROY);
		 desPerfRecord.start();
		 super.destroy();
		 desPerfRecord.end();
		channelWaitWrite.end(super.getRunnerCommunication().getLongCounter(CommunicationTool.WAIT_WRITER_TIME));
	 	long transformerUsedTime = super.getRunnerCommunication().getLongCounter(CommunicationTool.TRANSFORMER_USED_TIME);
		 	if (transformerUsedTime > 0) {
		 	PerfRecord transformerRecord = new PerfRecord(getTaskGroupId(), getTaskId(), PerfRecord.PHASE.TRANSFORMER_TIME);
			 transformerRecord.start();
			 transformerRecord.end(transformerUsedTime);
		 }
	 } 
 }

6.5.1、限速的实现

比如看 MysqlReader 的 startReader 方法

-》CommonRdbmsReaderTask.startRead() -》transportOneRecord() -》sendToWriter() -》BufferedRecordExchanger. flush()
-》Channel.pushAll() -》Channel. statPush()

private void statPush(long recordSize, long byteSize) {
	currentCommunication.increaseCounter(CommunicationTool.READ_SUCCEED_RECORDS, recordSize);
	currentCommunication.increaseCounter(CommunicationTool.READ_SUCCEED_BYTES, byteSize);
	 //在读的时候进行统计 waitCounter 即可，因为写（pull）的时候可能正在阻塞，但读的时候已经能读到这个阻塞的 counter 数
	 currentCommunication.setLongCounter(CommunicationTool.WAIT_READER_TIME, waitReaderTime);
	 currentCommunication.setLongCounter(CommunicationTool.WAIT_WRITER_TIME, waitWriterTime);
	 boolean isChannelByteSpeedLimit = (this.byteSpeed > 0);
	 boolean isChannelRecordSpeedLimit = (this.recordSpeed > 0);
	 if (!isChannelByteSpeedLimit && !isChannelRecordSpeedLimit) {
	 return;
	 }
	 long lastTimestamp = lastCommunication.getTimestamp();
	 long nowTimestamp = System.currentTimeMillis();
	 long interval = nowTimestamp - lastTimestamp;
	 if (interval - this.flowControlInterval >= 0) {
		 long byteLimitSleepTime = 0;
		 long recordLimitSleepTime = 0;
		 if (isChannelByteSpeedLimit) {
		 long currentByteSpeed = (CommunicationTool.getTotalReadBytes(currentCommunication) -
		 CommunicationTool.getTotalReadBytes(lastCommunication)) * 1000 / interval;
		 if (currentByteSpeed > this.byteSpeed) {
		 // 计算根据 byteLimit 得到的休眠时间
		 byteLimitSleepTime = currentByteSpeed * interval / this.byteSpeed - interval;
		 }
 		}
	 if (isChannelRecordSpeedLimit) {
		 long currentRecordSpeed = (CommunicationTool.getTotalReadRecords(currentCommunication) -
		 CommunicationTool.getTotalReadRecords(lastCommunication)) * 1000 / interval;
		 if (currentRecordSpeed > this.recordSpeed) {
			 // 计算根据 recordLimit 得到的休眠时间
			 recordLimitSleepTime = currentRecordSpeed * interval / this.recordSpeed - interval;
		 }
	 }
	 // 休眠时间取较大值
	 long sleepTime = byteLimitSleepTime < recordLimitSleepTime ?
	 recordLimitSleepTime : byteLimitSleepTime;
	 if (sleepTime > 0) {
	 try {
	 		Thread.sleep(sleepTime);
		 } catch (InterruptedException e) {
		Thread.currentThread().interrupt();
		}
	}
		……
	} 
}

7、 DataX 使用优化

7.1、关键参数

job.setting.speed.channel : channel 并发数
job.setting.speed.record : 2 全局配置 channel 的 record 限速
job.setting.speed.byte：全局配置 channel 的 byte 限速
core.transport.channel.speed.record：单个 channel 的 record 限速
core.transport.channel.speed.byte：单个 channel 的 byte 限速

7.2、优化 1：提升每个 channel 的速度

在 DataX 内部对每个 Channel 会有严格的速度控制，分两种，一种是控制每秒同步的记录数，另外一种是每秒同步的字节数，默认的速度限制是 1MB/s，可以根据具体硬件情况设置这个 byte 速度或者 record 速度，一般设置 byte 速度，比如：我们可以把单个 Channel 的速度上限配置为 5MB

7.3、优化 2：提升 DataX Job 内 Channel 并发数

并发数 = taskGroup 的数量 * 每个 TaskGroup 并发执行的 Task 数 (默认为 5)。

提升 job 内 Channel 并发有三种配置方式：

7.3.1、配置全局 Byte 限速以及单 Channel Byte 限速

Channel 个数 = 全局 Byte 限速 / 单 Channel Byte 限速

{
	 "core": {
	 "transport": {
	 "channel": {
	 "speed": {
	 "byte": 1048576
	 }
	 }
	 }
 },
	 "job": {
	 "setting": {
	 "speed": {
	 "byte" : 5242880
	 }
 },
 ...
 } }

core.transport.channel.speed.byte=1048576，job.setting.speed.byte=5242880，

所以 Channel个数 = 全局 Byte 限速 / 单 Channel Byte 限速=5242880/1048576=5 个

7.3.2、配置全局 Record 限速以及单 Channel Record 限速

Channel 个数 = 全局 Record 限速 / 单 Channel Record 限速

{
 "core": {
 "transport": {
 "channel": {
 "speed": {
 "record": 100
 }
 }
 }
 },
 "job": {
 "setting": {
 "speed": {
  "record" : 500
 }
 },
 ...
 } }

core.transport.channel.speed.record=100 ， job.setting.speed.record=500, 所以配置全局Record 限速以及单 Channel Record 限速，Channel 个数 = 全局 Record 限速 / 单 Channel Record 限速=500/100=5

7.3.3、直接配置 Channel 个数

只有在上面两种未设置才生效，上面两个同时设置是取值小的作为最终的 channel 数。

{
 "job": {
 "setting": {
 "speed": {
 "channel" : 5
 }
 },
 ...
 } }

直接配置 job.setting.speed.channel=5，所以 job 内 Channel 并发=5 个

7.3.4、优化 3：提高 JVM 堆内存

当提升 DataX Job 内 Channel 并发数时，内存的占用会显著增加，因为 DataX 作为数据交换通道，在内存中会缓存较多的数据。例如 Channel 中会有一个 Buffer，作为临时的数据交换的缓冲区，而在部分 Reader 和 Writer 的中，也会存在一些 Buffer，为了防止 OOM 等错
误，调大 JVM 的堆内存。建议将内存设置为 4G 或者 8G，这个也可以根据实际情况来调整。

调整 JVM xms xmx 参数的两种方式：

一种是直接更改 datax.py 脚本；
另一种是在启动的时候，加上对应的参数，如下：python datax/bin/datax.py --jvm=“-Xms8G -Xmx8G” XXX.json

你可能感兴趣的:(安装教程,DataX,大数据,大数据,DataX,Oracle,Mongo,异构数据源数据同步)

Redis Sentinel（哨兵）和 Redis Cluster（集群） G丶AEOM 八股普通学习区 Redis redis 数据库缓存
哨兵机制和集群有什么区别Redis集群主要有两种，一种是RedisSentinel哨兵集群，一种是RedisCluster。主从集群，包括一个Master和多个Slave节点，Master负责数据的读写，Slave负责数据的读取，Master上收到的数据变更会同步到Slave节点上实现数据同步，但不提供容错和恢复，在Master宕机时不会选出新的Master，导致后续客户端所有写请求直接失败。所以
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
GoView 强势入驻 GitCode：拖拽低代码，打造高颜值数据大屏 GitCode 代码君 gitcode 低代码开源
信息可视化时代，数字大屏日益成为展示核心KPI、运营状态、监控预警的主流形式。然而，用传统方式开发一个定制化数字大屏需要解决多少问题？1.繁复的数据源集成，各种不同的协议和格式……2.让人晕头转向的可视化逻辑，调动艰难的样式、布局、动画，和往往难以统一的风格3.牵一发而动全身的代码结构，就想换个主题色结果开启的全局CSS大冒险……现在，一个开源项目即可搞定上述问题——拖拽式低代码数字可视化平台Go
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
Qualcomm Hexagon DSP 与 AI Engine 架构深度分析：从微架构原理到 Android 部署实战观熵国产 NPU ×Android 推理优化人工智能架构 android
QualcommHexagonDSP与AIEngine架构深度分析：从微架构原理到Android部署实战关键词QualcommHexagon、AIEngine、HTA、HVX、HMX、Snapdragon、DSP推理加速、AIC、QNNSDK、Tensor编排、AndroidNNAPI、异构调度摘要HexagonDSP架构是QualcommSnapdragonSoC平台中长期演进的异构计算核心之一
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
Android开发中RxJava的使用与原理你过来啊你 android rxjava
RxJava是ReactiveExtensions在JVM上的实现，专为处理异步事件流和基于观察者模式的编程而设计。在Android开发中，它极大地简化了异步操作（如网络请求、数据库访问、UI事件处理）的管理、组合和线程调度，有效解决了回调地狱问题。一、RxJava核心概念Observable(可观察者)：数据源或事件源。它负责发出数据项(onNext)或事件（成功完成onComplete/发生错
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
spring boot 详解以及原理经典1992 spring boot 后端 java
SpringBoot是Spring框架的扩展，旨在简化Spring应用的开发和部署。它通过自动配置和约定优于配置的原则，让开发者能够快速搭建独立运行的、生产级别的Spring应用。以下是SpringBoot的详细解析和工作原理：一、SpringBoot的核心特性自动配置根据项目依赖和配置，自动配置Spring框架的组件（如数据源、Web服务器等）。例如，添加spring-boot-starter-
Windows系统python安装教程 I`m 程序媛 windows python 开发语言
一、准备工作访问Python官网：打开浏览器，进入Python官网。选择安装包：在官网的下载页面，根据自己的操作系统位数（32位或64位）选择对应的安装包。大多数现代电脑都是64位的，因此选择64-bit的安装包。建议选择“StableReleases”（稳定发布版本），这些版本已经经过测试，相对稳定。二、下载与安装下载Python安装包：点击选定的安装包链接，下载Python的安装程序。运行安装
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Spring Boot + Mybatis数据库多数据源解决驼峰映射不生效问题 yy1209357299 springBoot mybatis mybatis 数据库 spring boot
1、问题描述做查询操作时，返回数据为NULL,导致当使用这条数据报空指针错误2、说明在数据库字段命名规范中，通常使用下划线“_”来连接两个单词，比如：user_id。但是在Java开发中，实体字段通常采用驼峰命名法，比如userId。如果不开启驼峰命名法，则映射到对象无法赋值解决方法：1、直接为结果集设定一个resultMapselectuser_idfromtable;2、配置文件加入以下配置m
跨服务sqlplus连接oracle数据库胡斌附体数据库 oracle 19c 11g sqlplus 问题排查远端连接
背景：ogg程序同步数据。目标库：客户oracle数据库11.0.2.4.0，也就是11g的数据库。源库：业务组搭建的19c数据库，刚安装的oracle数据库。ogg在源库和目标库系统都部署好了并且也可以通信。在目标库系统使用sqlplus测试连接源库的数据库ogg用户。问题。连接出现问题。目前问题得到了解决。是因为访问不能够使用实例名去连接。而需要通过服务名连接。像下面这样是正确的。sqlplu
解决SQL Server SQL语句性能问题（9）——SQL语句改写（7） lhdz_bj SQL Server SQL性能优化 SQL Server 性能优化改写 join 集合
9.4.15.消除join场景一与Oracle等其他关系库类似，SQLServer中，join作为基本语法用于SQL语句中相关表之间的连接，有些场景中，join既可以增强SQL语句的可读性，同时，又可以提升SQL语句的性能，但有些场景中，join会导致CBO为SQL语句产生次优的查询计划，进而出现SQL语句性能方面的问题。所以，有时为了解决SQL语句的性能问题，我们需要改写SQL语句，那就是利用e
sqlplus表结构查询胡斌附体 oracle 数据库字符集建表语句查询格式输出
背景。需要知道目标表名。所属用户。目标库和源库同属一类数据库,oracle。使用的数据融合系统，在ogg加持下还需要手动在目标库创建表结构登录目标库sqlplus，使用sqlplus/assysdba查询建表语句执行以下语句进行查询--设置输出格式（在SQL*Plus中执行）SETLONG1000000--确保完整显示长文本SETPAGESIZE0--禁用分页SETLINESIZE200--调整行
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
SQL注入与防御-第六章-3：利用操作系统--巩固访问
一、核心逻辑与价值“巩固访问”是SQL注入攻击的持久化控制阶段，通过篡改数据库权限、植入隐蔽后门（如“数据库rootkit”）、利用系统组件（如SQLServerSOAP端点），实现对数据库及关联服务器的长期控制，绕过常规防御检测，扩大攻击影响。二、技术实现与典型场景（一）数据库Rootkit植入（以Oracle为例）1.原理通过篡改数据库元数据、系统视图，隐藏恶意用户、权限或操作，类似操作系统R
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

DataX从入门实战到精通一文搞定

1、概述

1.1、什么是 DataX

1.2、DataX 的设计

1.3、支持的数据源

1.4、框架设计

1.5、运行原理

1.6、与 Sqoop 的对比

2、快速入门

2.1、官方地址

2.2、前置要求

2.3、安装

3、Mysql使用案例

3.1、从 stream 流读取数据并打印到控制台

3.2、读取 MySQL 中的数据存放到 HDFS

3.2.1、查看官方模板

3.2.2、准备数据

3.2.3、编写配置文件

3.2.4、执行任务

3.2.5、查看 hdfs

3.2.6、关于 HA 的支持

3.3、读取 HDFS 数据写入 MySQL

4、Oracle 数据库

4.1、oracle 数据库简介

4.2、安装前的准备

4.2.1、安装依赖

4.2.2、配置用户组

4.2.3、上传安装包并解压

4.2.4、修改配置文件 sysctl.conf

4.2.5、修改配置文件 limits.conf

4.3、安装 Oracle 数据库

4.3.1、设置环境变量

4.3.2、进入虚拟机图像化页面操作

4.3.3、安装数据库

4.4、设置 Oracle 监听

4.4.1、命令行输入以下命令

4.4.2、选择添加

4.4.3、设置监听名，默认即可

4.4.4、选择协议，默认即可

4.4.5、设置端口号，默认即可

4.4.6、配置更多监听，默认

4.4.7、完成

4.5、创建数据库

4.5.1、进入创建页面

4.5.2、选择创建数据库

4.5.3、选择高级配置

4.5.4、选择数据仓库

4.5.5、将图中所示对勾去掉

4.5.6、存储选项

4.5.7、快速恢复选项

4.5.8、选择监听程序

4.5.9、如图设置

4.5.10、使用自动内存管理

4.5.11、管理选项，默认

4.5.12、设置统一密码

4.5.13、创建选项，选择创建数据库

4.5.14、概要，点击完成

4.5.15、等待安装

4.6、简单使用

4.6.1、开启，关闭监听服务

4.6.2、进入命令行

4.6.3、创建用户并授权

4.6.4、进入 song 账号，创建表

4.7、Oracle 与 MySQL 的 SQL 区别

4.8、DataX 案例

4.8.1、从 Oracle 中读取数据存到 MySQL

4.8.2、读取 Oracle 的数据存入 HDFS 中

5、MongoDB

5.1、什么是 MongoDB

5.2、MongoDB 优缺点

5.3、基础概念解析

5.4、 安装

5.4.1、下载地址

5.4.2、安装

5.5、基础概念详解

5.5.1、数据库

5.5.2、集合

5.5.3、文档(Document)

5.6、DataX 导入导出案例

5.6.1、读取 MongoDB 的数据导入到 HDFS

5.4、安装

6.1、总体流程

6.2、程序入口