遇见小豆

使用Kettle批量同步数据库表

目的 (Kettle 版本5.2或以上可由官网下载，免费开源)
从源库中同步若干张数据表至目标库或目标文件中
(鉴于Kettle工具对数据库连接的插件支持不是太好，最好是在源库与目标库类型相同的情况下使用，如：都是Oracle或都是Mysql等，当然不同的数据库也是可以的)

直接点：下载源代码下载详细设计文档

数据同步方式 暂支持以下两种(即表2表表2文件)可做配置
1）从源库表中同步数据至目标库表中 (目标表名可配置)
2）从源库表中同步数据至目标文件中 (目标文件名可配置)

数据源可配置 工具连接数据库统一使用JNDI的连接池来连接数据库；
JNDI统一配置在 data-integration/simple-jndi/jdbc.properties文件中，在向ETL执行源表： etl_kettle_tables 插入数据表信息的同时指定数据源；

执行结果校验
在工具同步数据结束后，会有数据校验步骤，校验的原则为，以下情况视为数据同步失败：
1)日志状态为 N-失败；
2)源库表中影响的行数与插入目标库表时影响的行数不同；
后续可添加其它校验规则；校验位置: tran4.2-check-failure 中

日志记录
工具在同步每张数据表时，都有对应的日志文件生成；

以下为详细配置步骤：

1、流程图

1.1 Kettle数据同步总流程

总流程图

1.2 Kettle数据同步详细流程

详细流程图

2、数据模型设计

Kettle数据同步设计模型设计下载

简要说明：
ETL执行源表 etl_kettle_tables (Kettle从该表中动态加载需要执行的数据表信息)
ETL临时手动执行源表： etl_kettle_tables_error (手动处理时Kettle从该表中动态加载需要执行的数据表信息)
ETL日志表： etl_kettle_log (记录每次同步结果)
ETL同步结果表：etl_kettle_result (记录每次同步的成功与失败表数量)
具体详细表结构请下载模型设计查看

3、同步工具配置详细步骤

3.1 启动Kettle工具

3.1.1 创建kettle文件资源库(若已有资源库可跳过)

1）在打开的如下图中点击【+】号按钮，如下图

新建资源库

2）弹出如下窗口选择文件资源库类型 Kettle file repository

选择文件资源库

3）在弹出的如下窗口中选择文件资源库的目录位置并设置资源库名称(注：最好起有意义的英文名称，下面的描述Description最好也是使用英文，中文可能会有乱码)

创建文件资源库

4）在上图中点击确定即可完成文件资源库创建

3.1.2 打开文件资源库

1）启动Kettle工具弹出如下窗口选择已经创建好的资源库名称，输入登录用户名及密码并点击确认按钮

连接资源库

即可成功登录资源库，弹出如下欢迎界面窗口

3.2 Kettle工具配置

3.2.1 主作业入口 Job-Tools-Main

主作业内容如下图

主作业

现详细说下主作业的各项内容

A）变量配置 tran1.1-set-commen-variables

a) 主要用来设置一些变量供后面使用内容如下图

变量定义

b) 生成随机数里面配置为空(也可以不用使用这个插件直接删除掉)

c) 公共变量定义此处主要来设置变量，是A）步骤的核心设置如下图

变量设计

需要注意的是下半部分的字段位置需要选择出已做好的变量 (其中“改名为”字段可默认也可以修改，一般在定义的名称前面添加 v_ 用以标识变量)

现粘贴出里面的代码供查看


Date.prototype.Format = function (fmt) { //author: meizz
    var o = {
        "M+": this.getMonth() + 1, //月份
        "d+": this.getDate(), //日
        "h+": this.getHours(), //小时
        "m+": this.getMinutes(), //分
        "s+": this.getSeconds(), //秒
        "q+": Math.floor((this.getMonth() + 3) / 3), //季度
        "S": this.getMilliseconds() //毫秒
    };
    if (/(y+)/.test(fmt)) fmt = fmt.replace(RegExp.$1, (this.getFullYear() + "").substr(4 - RegExp.$1.length));
    for (var k in o)
    if (new RegExp("(" + k + ")").test(fmt)) fmt = fmt.replace(RegExp.$1, (RegExp.$1.length == 1) ? (o[k]) : (("00" + o[k]).substr(("" + o[k]).length)));
    return fmt;
}

// 全局变量：当前系统日期 如：20170911
var global_date =new Date(new Date().getTime()).Format("yyyyMMdd");

var trade_date = date2str(dateAdd(new Date(),'d', -1),'yyyyMMdd');

// 全局变量：当前系统日期时间 如：20170911141421
var global_datetime =new Date(new Date().getTime()).Format("yyyyMMddhhmmss");

// 全局变量：当前资源库绝对路径
var base_path = "E:/98KettleRepositoryPro/Kettle_Tools_1.0/";

// 全局变量：当前资源库绝对路径
var context_path = "kettle_tools/";

// 全局变量：FTP服务器路径
var ftp_base_path = base_path + "files/";

// 全局变量：日志文件所在路径
var log_file_path = base_path + "logs/log_day/";

注如下图中左上部分的 Java Script 函数是Kettle工具内置的函数可以直接使用

d) 设置变量在上一步骤的设置的变量需要在此设置后，后面的程序才能找到这些变量如下图

设置变量

其中变量活动类型字段需要注意有多种类型如下

活动类型

字如其意有开发语言经验的一看即懂在此不过多描述如果实在不知统一都选择 Valid in the root job 即可；不过为也程序的严紧性本人推荐应该正确选择变量的活动类型

结束 ….

B）配置文件加载 tran1.2-load-config

在Kettle工具中有内置支持加载properties配置文件功能，即在指定目录创建一个properties配置文件并把路径指给Kettle即可如下图配置

配置文件

注意：

属性文件名处本人使用的是变量在A）步骤中有配置

变量替换请勾选表示配置文件中的Key-Value键值对会替换掉与在A）步骤中配置的相同变量名称的值(有点绕不过不难理解即后者覆盖前者之意)

结束 ….

C）加载需要同步的数据表信息 tran2.1-load-tables

加载数据表

本工具的数据表同步信息是配置在一张落地表中，需要连接数据库并加载出来供使用

a) 加载需要同步的表信息

查询数据表信息

查询表数据SQL语句

注意选择数据库连接(数据库连接需要提前创建好详细创建步骤请参考下面的数据库连接创建)
注意勾选”替换SQL语句里面的变量” (如果未使用变量则不用勾选)

b) 字段选择从上步骤中选择出需要使用的查询字段并在此配置

选择查询字段

注意：在此作名称修改是为了把这些值在后面当成变量使用并方便查看

c) 复制记录到结果即将查询结果添加到内存中供后面拿取使用

复制记录到结果

注意此步骤一定不能少否则后面无法使用

D）数据同步 Job3.0-Sub-Tools-Transfer

此步骤是Kettle数据同步工具的核心步骤内容较多不过也不难理解

简单来说就是以下同种情况(详细请参考我的详细流程图设计)

表2表从源表查询数据插入到目标库表时如果目标库表已经存在则直接插入数据；如果不存在则在目标库中依照源表先创建表结构再插入数据；
表2文件无论目标文件是否存在新生成文件直接覆盖目标文件

核心图

图看着有点乱(故意做成了像一只低头的鸟) 不过理解上面的说明就好办了；

下面作详细说明：

a) 将查询出来的数据表信息设置成变量 tran3.1-set-tableName-variables

设置表信息

生成随机数生成一个流水号现使用UUID作为流水号

自定义拼接流水号在上一步骤获取的UUID基础上添加时间戳拼接成后面使用的流水号 (具体语法不在详解)

流水号变量设置同样上步骤设计的变量需要配置到环境变量中

从结果获取记录即从程序内存中拿取上一步骤查询的数据表信息(注意使用多少就要拿多少)

自定义变量处理对前面拿取的变量可以作一些特殊的处理(下图是对日志的文件路径作一些处理使之存储绝对路径)

自定义变量设置同样上步骤设计的变量需要配置到环境变量中

至此把加载的数据表信息配置成变量工作已结束

需要特殊注意的是在配置变量的时候要在一个独立的转换(Transformation)中配置，否则的话会导致T+1问题即在T+1次时使用的变量值

b) 执行前先插入一条初始日志(默认状态N-失败) tran3.2.1-log-insert

插入初始日志

内容如下逻辑很简单即一条SQL语句

插入初始日志

存储过程 pro_etl_log 内容如下：

CREATE OR REPLACE PROCEDURE pro_etl_log -- 日志信息插入日志表
(
    v_flow_id                        IN VARCHAR2, -- 主键：流水号
    v_etl_date                       in VARCHAR2, -- 执行日期
    v_etl_time_stamp                 in VARCHAR2, -- 执行时间戳
    v_src_table_name                 in VARCHAR2, -- 源表名称
    v_src_instan_user_name           in VARCHAR2, -- 源库实例用户名称
    v_src_system_name                in VARCHAR2, -- 源表所在系统名称
    v_src_table_count                in INTEGER, -- 源表数据量（插入行数）
    v_tgt_table_name                 in VARCHAR2, -- 目标表名称
    v_tgt_instan_user_name           in VARCHAR2, -- 目标库实例用户名称
    v_tgt_table_count                in INTEGER, -- 目标表数据量（插入行数）
    v_exe_collect_type               IN VARCHAR2, -- 数据同步方式： TT-表到表 TF-表到文件
    v_etl_status                     in VARCHAR2, -- 执行状态 Y-成功 N-失败
    v_etl_error_file_path            in VARCHAR2 -- 错误信息描述
) IS

BEGIN

  -- 存在即更新  不存在即插入
  MERGE INTO etl_kettle_log ekl
  USING (  SELECT v_flow_id AS flow_id,
                  v_etl_date AS etl_Date,
                  v_etl_time_stamp AS etl_time_stamp,
                  v_src_table_name AS src_table_name,
                  v_src_instan_user_name AS src_instan_user_name,
                  v_src_system_name AS src_system_name,
                  v_src_table_count AS src_table_count,
                  v_tgt_table_name AS tgt_table_name,
                  v_tgt_instan_user_name AS tgt_instan_user_name,
                  v_tgt_table_count AS tgt_table_count,
                  v_exe_collect_type AS exe_collect_type,
                  v_etl_status AS etl_status,
                  v_etl_error_file_path AS etl_error_file_path
             FROM dual
        ) yq
     ON (ekl.flow_id = yq.flow_id)
   WHEN MATCHED THEN
        UPDATE SET ekl.etl_end_time = SYSDATE,
                   ekl.src_table_count = yq.src_table_count,
                   ekl.tgt_table_count = CASE WHEN yq.exe_collect_type = 'TF' AND yq.tgt_table_count > 0 
                                              THEN yq.tgt_table_count - 1 
                                              ELSE yq.tgt_table_count END,
                   ekl.etl_status = yq.etl_status,
                   ekl.etl_error_file_path = yq.etl_error_file_path
   WHEN NOT MATCHED THEN
        INSERT (flow_id, etl_date, etl_time_stamp, src_table_name, src_instan_user_name, src_system_name, src_table_count, tgt_table_name, tgt_instan_user_name, tgt_table_count,
                exe_collect_type,etl_status,etl_error_file_path, etl_begin_time, insert_time )
        VALUES (yq.flow_id,
                yq.etl_date,
                yq.etl_time_stamp,
                yq.src_table_name,
                yq.src_instan_user_name,
                yq.src_system_name,
                yq.src_table_count,
                yq.tgt_table_name,
                yq.tgt_instan_user_name,
                yq.tgt_table_count,
                yq.exe_collect_type,
                yq.etl_status,
                yq.etl_error_file_path,
                SYSDATE,
                SYSDATE ) ;
   COMMIT ;

END pro_etl_log;

c) 条件判断（表2表表2文件）条件分支用来判定数据同步方式

如果是表2表的同步方式

d) 检查表是否存在数据插入前先判定目标库中目标表是否存在

e) 创建数据表结构 tran3.4.1-target-create-tables

若目标库表不存在则需要先创建目标表结构

获取表结构 (获取表结构SQL是个变量在初始查询数据表信息时赋值)

创建表结构 (需要手动写JAVA代码程序来创建数据表结构 )

创建数据表结构JAVA代码如下：

public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException {

	Object[] r = getRow(); // 
	org.pentaho.di.core.database.DatabaseMeta dbmeta = getTransMeta().findDatabase("DB_TARGET");
	if(dbmeta != null) {
		org.pentaho.di.core.database.Database db = new org.pentaho.di.core.database.Database(dbmeta);
		try {
			db.connect();

			String username = getVariable("v_tgt_instan_user_name"); // 注意是 目标库实例用户名 
			String tablename = getVariable("v_tgt_table_name"); // 注意是 目标库表名称 

			logBasic("开始创建表：" + tablename);
			
			// 获取数据库名称 如： Oracle、Mysql、 Teradata 等 如果需要 可以作判断 
			String dbProName = db.getConnection().getMetaData().getDatabaseProductName(); 
			logBasic("数据库类型：" + dbProName);

			if(tablename != null && tablename.trim().length() > 0) {
				String sql = db.getDDL(username + "." + tablename, data.inputRowMeta);// 获取创建数据表结构的SQL脚本
				logBasic("创建表：" + sql);		
				db.execStatement(sql.replace(";", ""));
				
			}
			logBasic("创建表结束。");
		} catch(Exception e) {			
			logError("创建表出现异常",e);
		} finally {
			db.disconnect();
		}
	}
	return false;
}

说明：其中的DB_TARGET是目标数据库连接注意不要使用错误

f) 同步数据到目标库表中 tran3.4.2-target-insert-table

统计输入影响行数设置输入影响行数变量

统计输出影响行数设置输出影响行数变量

表输入表输出

g) 添加数据表结构属性备注信息 tran3.4.1.1-target-comment-tables

在上一创建目标表结构的过程中仅仅创建了数据表结构并没有表属性注释信息需要从该步骤中添加注释信息(如果哪位大神可以共享下在创建数据表结构的同时添加下表属性注释的JAVA代码感激不尽)

查询表注释

更新表注释

h) 条件判断（是否有后续执行）本处是个扩展功能即在把源库表数据同步到目标库表中后还可以有一些其他的操作如更新/删除等

i) 执行后续操作功能(当有后续执行操作时会被触发) tran3.5.1-last-operate

执行SQL脚本

如果是表2文件的方式

j) 表2文件方式同步 tran3.3.1-generate-db-files

统计输入影响行数设置统计输入影响行数变量

统计输出影响行数设置统计输出影响行数变量

配置目标数据文件落地路径 javascript代码

表输入文本文件输出

k) 目标数据文件上传FTP服务器 SFTP 上传

l)更新成功日志 tran3.2.3-log-update-success

更新日志状态-成功

更新日志状态-失败

结束 ….

E）数据同步结束后的校验 Job4.0-Sub-Tools-Check

a) 查询统计 tran-4.1-check-statistics

统计本次同步的数据表数量

b) 统计同步错误的数据表信息 tran4.2-check-failure

将同步错误的数据表信息插入到错误记录表中(现在仅是记录错误后续可以配置成邮件发送运维负责人方便及时知晓并处理)

插入SQL语句如下 ：
 DELETE FROM etl_kettle_tables_error ;

 INSERT INTO etl_kettle_tables_error
        (src_table_name, src_instan_user_name,src_instan_datasource, src_system_name, src_system_code, tgt_table_name, tgt_instan_user_name, 
        tgt_instan_datasource,exe_collect_type, exe_collect_way, exe_frequency, exe_sql_select, exe_sql_update, exe_status)
 SELECT ekt.src_table_name,
        ekt.src_instan_user_name,
		ekt.src_instan_datasource,
        ekt.src_system_name,
        ekt.src_system_code,
        ekt.tgt_table_name,
        ekt.tgt_instan_user_name,
		ekt.tgt_instan_datasource,
        ekt.exe_collect_type,
        ekt.exe_collect_way,
        ekt.exe_frequency,
        ekt.exe_sql_select,
        ekt.exe_sql_update,
        ekt.exe_status
   FROM etl_kettle_tables ekt
  WHERE ekt.exe_status = 'Y'
    AND ekt.src_table_name IN (
        SELECT ekl.src_table_name
          FROM etl_kettle_log ekl
         WHERE ekl.etl_date = ${v_global_date}
           AND (ekl.etl_status = 'N' OR (ekl.src_table_count <> ekl.tgt_table_count ))
       AND ekl.etl_time_stamp = ${v_global_datetime}
    ) ;

 COMMIT;

数据库连接创建

1）在主对象树中找到作业 -> DB连接

2）在DB连接上右键选择创建 Create 在弹出窗口中配置如下图

3）使用连接池配置如下

4）创建结果如下图

6）选中该 DB_SOURCE 右键 -> 共享 (目的方便后续其它模块可以直接使用)

特别说明：以上详细步骤基本上说明了整个的配置逻辑，但最新的逻辑请下载完成源代码请不要吝惜自己的积分哦，值得一看；

下载详细设计文档也是需要积分的哦！

至此整个配置结束谢谢…..

使用Kettle实现不同数据之间同步 Azure DevOps 数据库数据仓库 etl big data database
Contents1.概述2.软件安装3.典型场景：Oracle-2-SqlServer4.定期自动同步数据1.概述Kettle是一个久负盛名的ETL数据传输工具，在我们接触过的许多IT企业中，几乎都有不同的开发或运维团队在使用这个工具。AzureDevOpsServer中存储着大量的开发过程数据，如果对于开发过程数据进行度量分析，为了避免大量读取实时库(AzureDevOps_DefaultCol
kettle常用的数据库连接示例星月情缘02 ETL技术 kettle sql连接
kettle是一款强大的数据抽取转换工具，在数据仓库，ETL任务处理中使用的非常频繁的开源工具。它也支持众多的数据库连接类型。下面是支持的数据库连接对比图。请参考学习。就介绍这么多。
kettle 异常关闭后重新打开导致不能创建和打开转换与作业的解决办法星月情缘02 ETL技术
经常使用kettle的人都熟悉kettle工具的常用操作，但是，对于它出现过的很多问题却不一定都见过，自己就是遇到过几次，上午找答案也是乱七八糟的回答，在这里给做一个总结的回复。希望帮助大家。常见的卡死的原因是因为点击某个组件后，长时间无响应只能强制关闭，再次打开后出现错误提示,比如无法找到指定的源步骤，2.不能创建作业和转换文件，3.不能打开已有的转换作业文件，4.Kitchencannotco
Hadoop错误: put: Lease mismatch on ... by DFSClient_NONMAPREDUCE_-499992815_1.... 学习总结星月情缘02 ETL技术 Hadoop hdfs租约 hadoop错误
错误总结分享:使用了hadoop挺长时间了，多数人应该很熟悉它的特点了吧，但是今天突然遇到个错误，从来没见过，一时自己也想不到是什么原因，就在网上查了一些资料，得到了解决的办法，再次分享一下。过程:使用kettle数据清洗工具在进行同步任务的过程中，最后数据是被加载到hdfs的，这里用shell脚本实现，hdfsdfs-put-r/hdfs的目录。结果程序执行到这一步的时候报错了。错误描述就是文章
服务行业的数据管理实践：TapData Cloud 如何助力连锁酒店物业的全球化运营优化数据库
使用TapData，化繁为简，摆脱手动搭建、维护数据管道的诸多烦扰，轻量替代OGG,Kettle等同步工具，以及基于Kafka的ETL解决方案，「CDC+流处理+数据集成」组合拳，加速仓内数据流转，帮助企业将真正具有业务价值的数据作用到实处，将“实时数仓”方法论落进现实。TapData持续迭代产品能力，优化用户体验的同时，也在不断探索各行各业数据需求的底层逻辑，力求为行业用户提供更加简洁、更具针对
批量作业调度、数据挖掘，这几款应该是今年 “最值得推荐” 的ETL工具了加菲盐008 taskctl Kettle kettle etl 批量作业调度数据挖掘 taskctl
工具传送门：Taskctl商业付费版(付费)TaskctlWeb商业免费版（永久免费）Kettle（开源免费）Datastage(付费)ETL是数据仓库中的非常重要的一环，是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。下面给大家介绍一下什么是ETL以及
【开源免费】kettle作业调度—自动化运维—数据挖掘—informatica-批量作业工具taskctl 加菲盐008 Kettle ETL作业调度工具 taskctl 运维数据库 linux 大数据数据挖掘
关注公众号"taskctl"，关键字回复"领取"即可获权产品简介taskctl是一款由成都塔斯克信息技术公司历经10年研发的etl作业集群调度工具，该产品概念新颖，体系完整、功能全面、使用简单、操作流畅，它不仅有完整的调度核心、灵活的扩展，同时具备完整的应用体系。目前已获得金融，政府，制造，零售，健康，互联网等领域1000多家头部客户认可。图片来自网络2020年疫情席卷全球，更是对整个市场经济造成
Kettle发送邮件功能如何配置以实现自动化？ DengHua2203 邮件群发服务器邮件营销邮件接口 Kettle发送邮件 API接口触发式邮件
kettle发送邮件如何设置？Kettle配置发送邮件的方法？Kettle发送邮件功能能够帮助用户在数据处理过程中自动发送电子邮件，极大地提高了工作效率。AokSend将详细介绍如何配置Kettle发送邮件功能，以实现自动化操作。Kettle发送邮件：设置对象需要在Kettle中明确指定邮件的收件人和发件人地址。这样，当Kettle发送邮件时，系统就能准确无误地将邮件发送给指定的收件人。这一步骤确
2020-08-20 Kettle 无法正常启动报错：does not exist, please create it ；Unable to create the database cache 迷光缓存数据库经验分享
当我启动etl的时候出现报错找不到指定文件Lockacquired.Settingstartlevelto100E:\data-integration\system\karaf\deploydoesnotexist,pleasecreateit.于是我进行了百度根据文章我知道是缓存文件导致的这个问题缓存文件造成的错误，只需要找到..\pdi-ce-6.0.1.0-386\data-integrat
第三章可视化ETL平台——Kettle okbin1991 etl 数据仓库数据库
第三章可视化ETL平台——Kettle课程目标能够理解Kettle的主要用途能够搭建Kettle开发环境能够掌握Kettle输入组件的使用能够掌握Kettle输出组件的使用能够掌握Kettle转换组件的使用1.Kettle介绍1.1数据仓库数据仓库是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建的，对多样的业务数据进行筛选与整合。它为企业提供一定的BI能力，指导业务流程
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
MATLAB 编程风格指南 DeepLearning Matlab学习 matlab 编程文档语言测试 documentation
转载自：http://blog.csdn.net/chenyusiyuan/archive/2007/11/19/1892378.aspxMATLAB编程风格指南——RichardJohnsonVersion1.5，Oct.2002版权；Datatool所有翻译：Genial@USTC“Languageislikeacrackedkettleonwhichwebeattunedtodanceto,
二百二十三、Kettle——从Hive增量导入到ClickHouse(根据day字段判断) 天地风雷水火山泽 Kettle hive clickhouse kettle
一、目的需要用Kettle从Hive的DWS层库表数据增量同步到ClickHouse的ADS层库表中，不过这次的增量判断字段是day字段，不像之前的create_time字段因为day字段需要转换类型，而create_time字段字段不需要转换类型，因此两者的Kettle任务配置有所不同，也踩了一些坑，因此再写一篇博客整理一下，根据day字段判断的情况下kettle如何配置才能从Hive增量导入到
ETL数据集成工具DataX、Kettle、ETLCloud特点对比 RestCloud ETL 数据集成 datax kettle
ETL数据集成工具对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至的端的过程当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多，以下对开源的datax、Kettle、ETLClou
ETL数据集成工具DataX、Kettle、ETLCloud特点对比 etlkettle
ETL数据集成工具对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至的端的过程当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多，以下对开源的datax、Kettle、ETLClou
Linux下删除n天前的文件2019-01-16 dataHunter
#!/bin/bashfind/opt/kettleLogs-mtime+10-typef-name"JOB_H-*.log"-execrm-rf{}\;find/opt/kettleLogs-mtime+30-typef-name"JOB_D-*.log"-execrm-rf{}\;
Kettle发送邮箱并在正文中以表格形式展示内容[升级版] GuangHui
在上一篇关于Kettle发送邮件并在正文中以表格形式展示内容的文章中,已经提到Kettle邮箱正文中支持HTML格式,要在邮箱正文中展示表格,那就行拼出HTML,然后扔到邮箱正文中.方法就是这么简单直接,上一篇文章中拼接HTML是在数据库SQL查询时完成的,而这次咱尝试使用Kettle支持的JavaScript脚本来完成.下面就结合一个小的需求案例,来说明一下.一.需求说明结算系统每天实时接收积分
Kettle 导入优化指南 Kassadar
在“表输出”的“上一个步骤“的组件上右键选择”数据发送……”的方式为”Round-Robin”。在”表输出”组件上右键选择“改变开始复制的数量……”填入并发数量“{d}”。第一次时注意调大弹出框，默认是看不到”确定”按钮的。配置完成后，“表输出”组件左上角会有“x{d}”字样。配置目标”数据源”，在”选项”中配置”命令参数”。
ubuntu22安装和部署Kettle8.2
在Ubuntu22上安装和部署Kettle8.2，你可以按照以下步骤进行：安装Java环境：Kettle需要Java环境来运行。在终端中输入以下命令安装Java：sudoaptupdatesudoaptinstallopenjdk-8-jdk安装完成后，你可以通过命令java-version来验证Java是否安装成功。下载并解压Kettle：从Pentaho官网或者其他可信赖的源下载Kettle8
时区设置引起的一系列问题 flexitime linux
这几天都在一直研究如何使用metabase和Kettle的事，我在一台Centos上使用Docker安装了metabase是，并用Docker部署一个Postgresql作为数据库，在另一台Centos上安装了Kettle当我大概知道如何使用后，我把使用kettle把我们一个Oracle业务数据库连上，通过脚本采集数据到Postgresql上面，后来在写SQL的过程中发现PG上的数据与Oracle
kettle--文本文件输出有空格解决方案刀鋒偏冷 etl
在kettle文本文件输出时，不管如何设置字段类型和长度，导出的数据都会有空格，遇到这一问题，可以在文本文件输出控件中勾选这一项，即可解决这一问题。文本文件输出：
kettle控件-复制记录到结果/ 从结果获取记录的使用刀鋒偏冷大数据 etl
在数据采集过程中，遇到对方数据传送不及时的情况，导致数据漏采集，需要手工反复补采。为了解决这一问题，可以利用kettle的复制记录到结果/从结果获取记录控件。job的整个流程如下：设置变量：创建目录:get_time_id转换：此时的表输入：构建的的时间段的这些时间在表中不存在，即是没有采集到的数据文件。复制记录到结果：这时就是将表输入查询出来的时间复制到结果。load_file是一个job。在高
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
【kettle】pentaho/data-integration 报错：org.apache.http.NoHttpResponseException: failed to respond lisacumt apache 大数据
一、版本说明kettle版本：8.2.0.0-342【kettle】pentaho/data-integrationdebug查看日志方法二、报错说明：核心报错内容：org.apache.http.NoHttpResponseException:xxx.com:80failedtorespond执行到某一个请求时候报错，内容：2024/01/1815:24:06-获取json.0-Connecti
【kettle】pentaho/data-integration debug 查看日志方法 lisacumt 大数据
kettle版本：8.2.0.0-R修改console打印日志级别：修改root打印日志级别：使用SpoonDebug.bat，根据提示，依次输入nyn。cmd窗口即可打印详细日志。UI显示详细日志方法：
kettle在不同类型数据库之间进行数据传输并对字段进行映射好大的月亮 Mysql
官方文档https://help.pentaho.com/Documentation/7.1/0J0/0C0/020下载地址https://community.hitachivantara.com/s/article/data-integration-kettle下载完之后双击运行启动成功这边先介绍转换模式下的数据导入导出双击转换,在输入->表输入中把表输入拖拽到右边,这里的表输入其实就是我们要读
Kettle入门叶逸灵
Kettle版本：7.1，下载地址：http://mirror.bit.edu.cn/pentaho/Data%20Integration/（这个镜像是北京理工大学提供，目前只有Kettle6.1、7.0、7.1）Kettle官方地址下载：https://community.hitachivantara.com/s/article/data-integration-kettle。image.png
kettle实战-2基本知识-2.2作业 onemy kettle实战 kettle kettle教程
作业是Kettle的另一个组件，作业也包括步骤和连线，主要作用是将转换有顺序的连接起来，还可以定时执行。转换中不容易控制各步骤的顺序，结合作业就可以更精确的控制处理流程。作业是串行执行的（当然也可以选择并行），现行版本的kettle中，转换中可以调用作业，作业中又包含转换，这些组合可以设计出很复杂的处理流程。作业的串行执行路径和转换是不同的，按作者的解释是用回溯算法执行所有的作业步骤，其实就是如果
Kettle 8.2 如何创建资源库 sliver-毛毛数据同步 ETL工具 Kettle 资源库
1.为什么使用资源库如果我们是团队开发项目，除了使用SVN等版本控制软件，还可以使用Kettle的资源库，他会将转换、作业直接保存在数据库中，而且，连接资源库的话，我们就不需要每一次都新建数据库连接了，用起来还是蛮方便的。2.链接资源库Kettle8.2里面，是在右上角这个Connect来连接的2.1资源库的类型资源库有3中类型PentahoRepository（默认是如下图）要想链接下面两种类型
kettle 同步gbase8t数据到mysql时clob类型乱码终回首数据仓库大数据数据库 etl kettle 乱码
一、问题使用kettle同步gbase8t数据到mysql时clob类型乱码。varchar类型不乱码。环境：win10kettle:9.x二、解决1（有效）修改kettle编码格式打开kettle的安装目录，进入data-integration目录记事本编辑spoon.bat搜索PENTAHO_DI_JAVA_OPTIONS=在初始化设置jvm参数所在行末尾添加"-Dfile.encoding=
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

使用Kettle批量同步数据库表

1、流程图

1.1 Kettle数据同步总流程

1.2 Kettle数据同步详细流程

2、 数据模型设计

3、 同步工具配置详细步骤

3.1 启动Kettle工具

3.1.2 打开文件资源库

3.2 Kettle工具配置

你可能感兴趣的:(Kettle)

2、数据模型设计

3、同步工具配置详细步骤