Shadow_Light

记一次DataX-MysqlReader性能优化

一、问题背景

最近在做Datax从阿里云rds数据库到Hive数据同步任务时，发现同步耗时很久，500万的数据同步配置了splitPk并配置了50个线程并发需要212s，任务同步的平均速率一直保持在3-4M/s，而本地的Mysql测试数据库同步时不分片的平均速率就能到20M/s。

二. 集群环境

Rds环境：8000iops; 8core; 16g内存

分片字段类型：bigint类型

Mysql驱动版本: 5.1.31

Datax版本：3.0

三. Datax日志

接下来直接看datax日志最后打印的统计日志。

可以很明显的看到datax给我们的提示是：

All Task WaitReaderTime 6449.159s ，All Task WaitWriterTime 2.202s

说明肯定是datax在读取rds时的速度很慢，耗时在读等待中，说明读的慢，而写的时间只有2秒，因此定位的重点需要看一下datax对于rds的读取逻辑，看看是不是有提升的空间。看task源码后得知，datax本身是额外加了一些监控设置的，但默认不开启的，因此需要改一下{datax-path}/conf/core.json配置文件将其开启

将trace :enable改为true，重跑一下任务可以看到更加详细的日志文件

发现是RESULT_NEXT_ALL平均耗时在191秒，最大的一个任务耗时248秒。全局搜索一下这个参数，可以定位到这个是统计了CommonRdbmsReader中rs.next()的时间。

进入到Mysql driver的源码底层，发现当fetchSize值为Integer.MIN_VALUE时，每次都只从服务器获取一条记录，因此顺着这个思路需要验证下最终是不是走的这个逻辑。

package com.mysql.jdbc;

public class RowDataCursor implements RowData {

	private void fetchMoreRows() throws SQLException {
		if (this.lastRowFetched) {
			this.fetchedRows = new ArrayList(0);
			return;
		}

		synchronized (this.owner.connection.getConnectionMutex()) {
			boolean oldFirstFetchCompleted = this.firstFetchCompleted;
			
			if (!this.firstFetchCompleted) {
				this.firstFetchCompleted = true;
			}

			int numRowsToFetch = this.owner.getFetchSize();

			if (numRowsToFetch == 0) {
				numRowsToFetch = this.prepStmt.getFetchSize();
			}
			
			if (numRowsToFetch == Integer.MIN_VALUE) {
				// Handle the case where the user used 'old'
				// streaming result sets

				numRowsToFetch = 1;
			}

			this.fetchedRows = this.mysql.fetchRowsViaCursor(this.fetchedRows,
					this.statementIdOnServer, this.metadata, numRowsToFetch, 
					this.useBufferRowExplicit);
			this.currentPositionInFetchedRows = BEFORE_START_OF_ROWS;

			if ((this.mysql.getServerStatus() & SERVER_STATUS_LAST_ROW_SENT) != 0) {
				this.lastRowFetched = true;
				
				if (!oldFirstFetchCompleted && this.fetchedRows.size() == 0) {
					this.wasEmpty  = true;
				}
			}
		}
	}

}

因此接下来主要的代码逻辑需要重新梳理一下这个fetchSize是怎么一步步传下来的。所以从Datax Reader开始看看有没有设置fetchSize的地方（重点需要查看的代码逻辑：MysqlReader.task->CommonRdbmsReader.task）

四、Datax-MysqlReader

注：以下代码经过删减，为了方便查看。

先看MysqlReader，果然它在init时做了一步操作，直接忽略用户设置的fetSize任何值，将fetchSize默认配置成了 Inter.MIN_VALUE，并且在task中将其取了出来。（主要注意的是：虽说job中的conf和task的conf名称不一样，但值是一样的都是 super.getPluginJobConf()而来，因此在job初始化时，就已经默认将fetchsize设置成了int的最小值）

package com.alibaba.datax.plugin.reader.mysqlreader;

public class MysqlReader extends Reader {

    private static final DataBaseType DATABASE_TYPE = DataBaseType.MySql;

    public static class Job extends Reader.Job {
        private static final Logger LOG = LoggerFactory
                .getLogger(Job.class);

        @Override
        public void init() {
            this.originalConfig = super.getPluginJobConf();

            Integer userConfigedFetchSize = this.originalConfig.getInt(Constant.FETCH_SIZE);
            if (userConfigedFetchSize != null) {
                LOG.warn("对 mysqlreader 不需要配置 fetchSize, mysqlreader 将会忽略这项配置. 如果您不想再看到此警告,请去除fetchSize 配置.");
            }

            this.originalConfig.set(Constant.FETCH_SIZE, Integer.MIN_VALUE);

            this.commonRdbmsReaderJob = new CommonRdbmsReader.Job(DATABASE_TYPE);
            this.commonRdbmsReaderJob.init(this.originalConfig);
        }

    }

    public static class Task extends Reader.Task {

        @Override
        public void init() {
            this.readerSliceConfig = super.getPluginJobConf();
            this.commonRdbmsReaderTask = new CommonRdbmsReader.Task(DATABASE_TYPE, super.getTaskGroupId(), super.getTaskId());
            this.commonRdbmsReaderTask.init(this.readerSliceConfig);
        }
        @Override
        public void startRead(RecordSender recordSender) {
            int fetchSize = this.readerSliceConfig.getInt(Constant.FETCH_SIZE);

            this.commonRdbmsReaderTask.startRead(this.readerSliceConfig, recordSender,
                    super.getTaskPluginCollector(), fetchSize);
        }

    }

}

可以看到mysqlReaderTask初始化之后，最终走的是commRdbmsReaderTask.startRead方法。

package com.alibaba.datax.plugin.rdbms.reader;
public class CommonRdbmsReader {

    public static class Task {


        public void startRead(Configuration readerSliceConfig,
                              RecordSender recordSender,
                              TaskPluginCollector taskPluginCollector, int fetchSize) {
            String querySql = readerSliceConfig.getString(Key.QUERY_SQL);
            String table = readerSliceConfig.getString(Key.TABLE);

            PerfTrace.getInstance().addTaskDetails(taskId, table + "," + basicMsg);

            LOG.info("Begin to read record by Sql: [{}\n] {}.",
                    querySql, basicMsg);
            PerfRecord queryPerfRecord = new PerfRecord(taskGroupId,taskId, PerfRecord.PHASE.SQL_QUERY);
            queryPerfRecord.start();

            Connection conn = DBUtil.getConnection(this.dataBaseType, jdbcUrl,
                    username, password);

            // session config .etc related
            DBUtil.dealWithSessionConfig(conn, readerSliceConfig,
                    this.dataBaseType, basicMsg);

            int columnNumber = 0;
            ResultSet rs = null;
            try {
                rs = DBUtil.query(conn, querySql, fetchSize);
                queryPerfRecord.end();

                ResultSetMetaData metaData = rs.getMetaData();
                columnNumber = metaData.getColumnCount();

                //这个统计干净的result_Next时间
                PerfRecord allResultPerfRecord = new PerfRecord(taskGroupId, taskId, PerfRecord.PHASE.RESULT_NEXT_ALL);
                allResultPerfRecord.start();

                long rsNextUsedTime = 0;
                long lastTime = System.nanoTime();
                while (rs.next()) {
                    rsNextUsedTime += (System.nanoTime() - lastTime);
                    this.transportOneRecord(recordSender, rs,
                            metaData, columnNumber, mandatoryEncoding, taskPluginCollector);
                    lastTime = System.nanoTime();
                }

                allResultPerfRecord.end(rsNextUsedTime);
                //目前大盘是依赖这个打印，而之前这个Finish read record是包含了sql查询和result next的全部时间
                LOG.info("Finished read record by Sql: [{}\n] {}.",
                        querySql, basicMsg);

            }catch (Exception e) {
                throw RdbmsException.asQueryException(this.dataBaseType, e, querySql, table, username);
            } finally {
                DBUtil.closeDBResources(null, conn);
            }
        }

        
        protected Record transportOneRecord(RecordSender recordSender, ResultSet rs, 
                ResultSetMetaData metaData, int columnNumber, String mandatoryEncoding, 
                TaskPluginCollector taskPluginCollector) {
            Record record = buildRecord(recordSender,rs,metaData,columnNumber,mandatoryEncoding,taskPluginCollector); 
            recordSender.sendToWriter(record);
            return record;
        }
        
}

接着再看fetchSize传入到了DBUtil.query中

DBUtil.java:


 public static ResultSet query(Connection conn, String sql, int fetchSize, int queryTimeout)
            throws SQLException {
        // make sure autocommit is off
        conn.setAutoCommit(false);
        Statement stmt = conn.createStatement(ResultSet.TYPE_FORWARD_ONLY,
                ResultSet.CONCUR_READ_ONLY);
        stmt.setFetchSize(fetchSize);
        stmt.setQueryTimeout(queryTimeout);
        return query(stmt, sql);
    }

将fetchSize=Integer.MIN_VALUE值设置到了Statement 中，并且通过游标的方式去服务器端获取结果。

至此结合最开始看的mysql driver底层，就可得知当fetchSize=Integer.MIN_VALUE时，导致每次从外网读取rds记录时，是以每次一条去获取，会浪费大量的网络开销，因此解决方案就是将fetchSize值改大，减少取数据时的网络开销。

结合网上查阅资料：mysql的jdbc中fetchsize支持的问题

下边开始调整：

1、修改MysqlReader代码使其能够使用用户自定义配置，而不是粗暴的都走fetchSize=Integer.MIN_VALUE

需要调整MysqlReader代码，加个判断逻辑，如果driver版本低于5.0的还是走默认的fetchSize（当然如果你的Mysql 服务的版本低于5.0，即使用的高版本驱动，fetchSize也可能不生效），否则可以使用用户自定义配置的fetchSize去取数据。这里如果确定了版本，把那行默认设置的代码直接删了也是可以的。

public static class Job extends Reader.Job {
        
        @Override
        public void init() {
            this.originalConfig = super.getPluginJobConf();

            Integer userConfigedFetchSize = this.originalConfig.getInt(Constant.FETCH_SIZE);
            if("5.0".compareTo(Driver.VERSION) > 0 ){
                if (userConfigedFetchSize != null) {
                    LOG.warn("对mysql版本低于5.0的 mysqlreader 不需要配置 fetchSize, mysqlreader 将会忽略这项配置. 如果您不想再看到此警告,请去除fetchSize 配置.");
                }
                this.originalConfig.set(Constant.FETCH_SIZE, Integer.MIN_VALUE);
            }

            this.commonRdbmsReaderJob = new CommonRdbmsReader.Job(DATABASE_TYPE);
            this.commonRdbmsReaderJob.init(this.originalConfig);
        }
}

接着修改自己的job.json去指定一个fetchSize值

{
	"job": {
		"content": [{
			"reader": {
				"parameter": {
					"modifyUserName": "",
					"password": "",
					"column": [],
					"connection": [{
						"jdbcUrl": [],
						"table": []
					}],
					"username": "root",
					"fetchSize": 5000
				},
				"name": "mysqlreader"
			},
			"writer": {
				"parameter": {},
				"name": ""
			}
		}],
		"setting": {
			"errorLimit": {
				"record": 0
			},
			"speed": {
				"channel": 5,
				"throttle": false
			}
		}
	}
}

2、修改运行的job.json或者修改datax源码方式，去修改jdbc连接参数

在DataBaseType里可以看到datax默认会为我们加上一系列参数，因此很简单，我们只需要在后边加上

&useCursorFetch=true

package com.alibaba.datax.plugin.rdbms.util;

import com.alibaba.datax.common.exception.DataXException;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * refer:http://blog.csdn.net/ring0hx/article/details/6152528
 * 
 */
public enum DataBaseType {

    public String appendJDBCSuffixForReader(String jdbc) {
        String result = jdbc;
        String suffix = null;
        switch (this) {
            case MySql:
            case DRDS:
                suffix = "yearIsDateType=false&zeroDateTimeBehavior=convertToNull&tinyInt1isBit=false&rewriteBatchedStatements=true&useCursorFetch=true";
                if (jdbc.contains("?")) {
                    result = jdbc + "&" + suffix;
                } else {
                    result = jdbc + "?" + suffix;
                }
                break;
            case Oracle:
                break;
            case SQLServer:
                break;
            case DB2:
                break;
            case PostgreSQL:
            	break;
            case RDBMS:
                break;
            case HANA:
                break;
            case ELK:
                break;
            default:
                throw DataXException.asDataXException(DBUtilErrorCode.UNSUPPORTED_TYPE, "unsupported database type.");
        }

        return result;
    }

}

五、优化效果

自己配置的fetchSize。看一下优化后的效果

效果还是挺明显的，从212s提升到135s，但继续增加fetchSize提升也不是很明显。在大佬的提醒下，mysql在网络传输时应该有压缩的策略。因此网上找了一下jdbc连接参数里有没有，找到了另一个参数useCompression默认还是关闭的状态。

&useCompression=true

所以立马将这个参数也加到了代码中，运行测试一下。

运行时间又从135s缩减到了78s，效果也是很明显的。

六、总结

不得不说datax设计很强大。已经提供了比较好的监控统计的日志，对于定位问题节省了我们大量的时间。

ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
oracle操作xml笔记 chushiyunen oracle xml 笔记
文章目录第一个例子EXTRACTVALUE()方法oracle这么成熟的数据库，肯定对xml有很好的支持了。第一个例子创建表：CREATETABLExml_table(idNUMBERPRIMARYKEY,xml_dataXMLType);插入数据：INSERTINTOxml_table(id,xml_data)VALUES(1,XMLType('Value'));查询：SELECTEXTRACT
datax-web任务执行时脏数据
经DataX智能分析,该任务最可能的错误原因是:com.alibaba.datax.common.exception.DataXException:Code:[DBUtilErrorCode-10],Description:[连接数据库失败.请检查您的账号、密码、数据库名称、IP、Port或者向DBA寻求帮助(注意网络环境).].-具体错误信息为：com.mysql.jdbc.exceptions
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
DataX（2）—— 核心流程申尧强 datax
DataX的核心执行流程：初始化阶段创建JobContainer容器（主控进程）加载配置，初始化reader/writer插件准备阶段调用reader/writer的prepare()方法执行数据源和目标端的准备工作任务切分阶段根据channel数切分reader任务根据reader切分结果切分writer任务合并生成最终task配置调度执行阶段分配task到各个taskGroup启动TaskGr
OceanBase公布AI新进展：OB Cloud服务数十家头部企业AI应用落地 CSDN资讯人工智能数据库 OceanBase 智能体
6月24日，独立数据库厂商OceanBase宣布，其云数据库OBCloud已实现AI能力的开发部署及生态集成，并已服务零售、金融、物流等行业的数十家头部企业，推动AI应用从概念走向实际落地。OceanBase正在全面拥抱AI时代，CTO杨传辉此前曾指出，致力于构建DataxAI能力，面向AI时代推动一体化数据库向一体化数据底座的战略演进。此次OBCloud对AI能力的部署集成与行业应用，被视为Oc
datax到hive数据全部为空_DataX HIVE分区同步一只mikan
一、DataXJson配置(样例){"job":{"setting":{"speed":{"channel":3,"byte":1048576},"errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"hdfsreader","parameter":{"hadoopConfig":{"dfs.namese
DataX HdfsReader 插件：快速上手与深入解析 Edingbrugh.南空 hive 大数据 hive hadoop sql etl
引言在数据处理与分析的领域中，数据的高效读取与传输是至关重要的环节。DataX作为一款强大的开源离线同步工具，为我们提供了便捷的数据同步解决方案。其中，HdfsReader插件专门用于从Hadoop分布式文件系统（HDFS）中读取数据，并且能够将其转换为DataX传输协议传递给Writer进行后续处理。本文将详细介绍DataXHdfsReader插件的使用方法，无论是新手小白还是经验丰富的高手，都
实践练习4.迁移 MySQL 数据到 OceanBase 集群 qinwen740 dba
掌握从MySQL向OceanBase迁移数据的基本方法：mysqldump、datax工具准备mysqldump是MySQL提供的用于导出MySQL数据库对象和数据的工具，非常方便。DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、
实践练习-迁移 MySQL 数据到 OceanBase 集群 qq492328329 OceanBase 社区版 dba
一、实验目标1、使用mysqldump将mysql的表结构和数据同步到OceanBase的MySQL租户中。2、使用datax配置至少一个表的MySQL到OceanBase的MySQL租户的离线同步。二、实验环境OB环境如下ip部署内容备注192.168.35.101obproxy,obclientob代理及客户端192.168.35.102observerob集群zone1节点192.168.3
开源免费数据同步工具全景解析与实战指南社恐码农 Hive mysql postgres 开源数据同步工具
一、数据同步工具生态全景图1.1工具分类矩阵类型代表工具核心能力适用场景开源协议ETL工具DataX、SeaTunnel异构数据源批量同步数据仓库构建Apache2.0CDC工具FlinkCDC、Canal实时数据变更捕获实时数仓/监控系统Apache2.0文件同步GoodSync、FreeFileSync跨设备文件实时同步备份/多云同步GPLv3数据库复制SymmetricDS、MaxScale
ggplot2绘图--R语言小鱼鱼爱编程 r语言 r语言开发语言贴图
library(ggplot2)#加载包#基本数据datax<-c(0:99)*2*pi/100datay<-sin(datax)*4+cos(2*datax)*2dix<-c(rnorm(100))#Scatterplot散点图plot(datax,datay)#绘制散点图#LineGraph线图plot(datax,datay,type="l")#绘制线图points(datax[20:40]
DataX的json配置文件，{}，[]讲解 WZMeiei 大数据 json 数据库大数据
通过DataX将文件系统迁移到MySQLpython/bigdata/datax/bin/datax.py-rtxtfilereader-wmysqlwriter配置文件如下，（json文件中是不允许有//注释的，这里为了理解配置项的含义所以给加上了）{"job":{//数据同步任务的具体内容配置，包含数据源读取和写入目标的配置"content":[{//数据源读取器配置"reader":{//读
开源离线同步工具DataX3.0 Act-F 开源
一.DataX3.0概念dataX是一个异构数据源离线同步工具，实现包括关系型数据库（MySQL，Oracle.....)、hdfs、hive、odps、hbase等各种异构数据源之间稳定高效的数据同步功能。二、DataX3.0框架设计DataX作为离线数据同步框架，采用Framework+plugin架构构建。Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Frame
数据收集之DataX服务器端关于动态传参的示例佩可official 数据导入 sql json database hive 数据仓库大数据
前言我们在上一篇帖子详细介绍了如何利用datax将数据在服务器端从mysql导入linux中，但是对于每日更新的数据我们不可能每日自己手动去导入。这就涉及到了datax的另一个用法：动态传参，自动更新。在大数据开发环境下我们也是默认这样去进行的。在这里简单介绍下原理：在Linux服务器环境下，实现DataX从MySQL到Hive的动态传参+每日自动更新，核心是通过Shell脚本动态生成DataX任
数据中台-常用工具组件：DataX、Flink、Dolphin Scheduler、TensorFlow和PyTorch等 lcw_lance flink tensorflow pytorch
数据实施服务工具组件概览数据中台的数据实施服务涵盖数据采集、处理、调度、分析与应用全流程，以下为关键工具组件及其作用：工具类型核心功能典型应用场景DataX离线数据采集多源异构数据批量同步数据仓库ODS层数据导入ApacheFlink实时计算引擎流批一体数据处理、实时ETL、复杂事件处理实时监控、DWD层实时清洗与聚合DolphinScheduler任务调度平台可视化编排ETL任务、依赖管理与监控
顺序表——C语言黄皮の电气鼠 c语言算法开发语言
//头文件#pragmaonce#include#includetypedefintdata;typedefstructvector{data*arr;intsize;intcapacity;}vector;voidInit(vector*v);voiddestory(vector*v);voidcheckcapacity(vector*v);voidpushback(vector*v,datax
任务调度_Azkaban 若叶时代数据开发工具大数据
0参考列表CSDN:Azkaban知识点入门https://blog.csdn.net/weixin_45682261/article/details/125118559CSDN:dataX同步mysql至hivehttps://blog.csdn.net/AyubLIbra/article/details/115838882博学园:Azkaban-2.5及Plugins的安装配置https://
echarts vue柱状图重叠堆积显示图表 G_GreenHand vue.js echarts javascript
html引用写好的模块importStackingBarfrom'@/components/Echarts/StackingBar.vue';exportdefault{name:"monitor",components:{StackingBar},data(){return{dataX:[],dataY:[],}}StackingBar.vueimport*asechartsfrom'echar
数据中台架构与技术体系 Aurora_NeAr 架构大数据
数据中台整体架构设计数据中台分层架构数据采集层数据源类型：业务系统（ERP、CRM）、日志、IoT设备、第三方API等。采集方式：实时采集：Kafka、FlinkCDC（变更数据捕获）。离线采集：Sqoop、DataX（批量同步数据库）。日志采集：Flume、Filebeat。数据缓冲与预处理：使用消息队列（如Kafka）作为缓冲区，应对数据流量峰值。数据存储层数据湖（DataLake）：存储原始
DataX 3.0 实战案例大数据东哥(Aidon) DataX DataX案例 DataX实战案例 DataX增量同步 DataX全量同步 DataX整合
第五章实战案例5.1.案例一5.1.1.案例介绍MySQL数据库中有两张表：用户表(users)，订单表(orders)。其中用户表中存储的是所有的用户的信息，订单表中存储的是所有的订单的信息。表结构如下：用户表users:id：用户idusername：用户名password：用户密码email：用户邮箱phone：用户手机号码real_name：用户的真实姓名registration_time
docker部署dataxweb和datax集群tag202306 进阶java程序猿 docker安装镜像采坑记录 docker 容器运维
datax和dataxweb安装部署安装部署应用版本：datax-webV2.1.2datax_v202306原项目地址：dataxhttps://github.com/alibaba/DataXDatax-webhttps://github.com/WeiYe-Jing/datax-webDockerhubhttps://hub.docker.com/repository/docker/8767
DataX Web UI 安装和配置指南嵇荟隽Anastasia
DataXWebUI安装和配置指南datax-web-uiDataXWebUI项目地址:https://gitcode.com/gh_mirrors/da/datax-web-ui1.项目基础介绍和主要编程语言项目基础介绍DataXWebUI是一个基于Vue和Element-UI框架开发的前端界面，用于操作和管理DataX——阿里巴巴开源的数据同步框架。它为用户提供了可视化的工作流管理、任务调度和
2024.02最新版DataX源码编译(解决踩坑) 2301_79479951 big data hadoop database
6.1源码下载下载最新源码包(不要下载发行版。亲测有bug)$gitclonehttps://github.com/alibaba/DataX.git6.2修改hdfsreader模块中pom文件parquet-format版本改为2.4.0。org.apache.parquetparquet-format2.4.06.3检查oceanbasev10writer模块pom文件./DataX-mas
python线性插值_Python坐标线性插值应用实现 weixin_39643189 python线性插值
一、背景在野外布设700米的测线，点距为10米，用GPS每隔50米测量一个坐标，再把测线的头和为测量一个坐标。现在需使用线性插值的方法求取每两个坐标之间的其他4个点的值。二、插值原理使用等比插值的方法起始值为a终止值为b步长值为(a-b)/5后面的数分别为a+n,a+2n,a+3n,a+4n三、代码实习对x插值interx.pyimportnumpyasnpf=np.loadtxt('datax.
记录一次使用datax一次性导入多张表的经验 liux3528 大数据
一直以来，我都在使用DataX进行表数据迁移，体验非常不错。然而，今天研发团队提供了大量需要迁移的表，如果继续使用DataX的JSON配置文件逐个导入，效率会非常低。为了提高效率，我决定编写一个脚本，实现批量导入功能，并立即着手开始开发。一、编写json文件#编写json文件的模板[worker@cs-nllsync_data]$vimtemplate.json{"job":{"setting":
Clickhouse集群集群安装大浪淘沙2023 clickhouse hadoop linux hdfs
1.环境信息：[root@bigdata003clickhouse-server]#cat/etc/redhat-releaseCentOSLinuxrelease7.9.2009(Core)2.在/etc/hosts中添加主机信息10.29.35.240bigdataxxx310.29.35.241bigdataxxx410.29.35.243bigdataxxx53.关闭防火墙和selinux
Datax-web 添加达梦数据库蝈蝈噶蝈蝈噶数据库 java 前端
环境JDK1.8node10.24.1python2.XDatax分支tag202309版本后端项目分支使用2.1.3-alpha-releaseGitHub-WeiYe-Jing/datax-web:DataX集成可视化页面，选择数据源即可一键生成数据同步任务，支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源，批量创建RDBMS数据同步任务，集成开源调度系统，支
阿里开源的免费数据集成工具——DataX 遇码大数据开源 datax 数据集成大数据 seatunnel kettle flinkcdc
企业里真实的数据流转是什么样子的呢？左侧描述了一个企业真实的样子，我们总是需要把数据从一个地方搬到另一个地方，最后就是搬来搬去搬成了一张张解不开的网。右侧则表达了使用DataX为中心实现数据的同步。什么是DataXDataX是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。