今心木目

【Kettle 入门 Windows10 CentOS7】Kettle-8.2.0 入门基础 2019.10.31

Pentaho·Data Integration - Kettle

简介

软件背景
Kettle 水壶简介
特点

资源
PDI 构架

PDI 客户端
PDI 服务器

核心概念

Transformation
Job
变量

Kitchen命令行选项
部署

Windows
Linux
集群部署

案例

1. RDBMS --> RDBMS Trans
2. R --> R Job
3. Hive --> HDFS Trans
4.HDFS --> HBase Trans

资源库/存储库

Database Repository
File Repository

调优

简介

软件背景

2017 Hitachi Data Systems 日立数据系统公司和 Hitachi Insight Group、Pentaho 三家公司合并至一家新公司—— Hitachi Vantara。顺带一提，日立集团涉及的领域十分广阔，对于计算机存储方面尤为出名，所以他们对于数据方面的扩展也不令人惊讶，应该说是理所当然。

Kettle 为早先的开源项目名称，后来被Pentaho收购，现在的全称为 Pentaho 平台体系中的 Pentaho Data Integration，也就是 数据集成。下文均使用 Kettle 作为简称。为什么使用 Kettle 软件，很简单，穷B不配用付费的产品，hhh。Kettle 是 Pentaho 产品体系中的免费完全开源的一环，用用是不收费的。

最后扩展一下 Pentaho 平台体系。Pentaho解决了阻碍组织从海量数据中获取价值的障碍。该平台简化了准备和混合任何数据的过程，并提供了一系列工具，可轻松分析，可视化，探索，报告和预测。Pentaho具有开放性，可嵌入性和可扩展性，其设计旨在确保团队中的每个成员（从开发人员到业务用户）都可以轻松地将数据转化为价值。
主要产品分为2大部分：数据集成Data Integration，商业分析Business Analytics，以及完整的部署安装售后故障服务。

Kettle 水壶简介

Pentaho Data Integration Pentaho 数据集成 (PDI)，通过可视化工具来简化编写代码的过程，使可以更快地向分析者交付清理就绪的数据，这样可以减少时间和复杂性。不需要编写SQL或Java或Python代码，组织可以立即从他们的数据中获得真正的价值，这些数据可以来自文件系统、关系数据库、Hadoop等等，这些数据位于云计算或本地环境中。
简答来说：Kettle 水壶是一款开源，分布式的 ETL数据清洗工具，纯java编写，可视化操作不用写代码，可在Window、Linux 等诸多平台上运行，数据抽取高效稳定。

PDI客户端（也称为 Spoon 勺子）是一个桌面应用程序，使您能够构建转换以及安排和运行作业。

PDI客户端的常见用途包括：

不同数据库和应用程序之间的数据迁移
充分利用云，集群和大规模并行处理环境，将大量数据集加载到数据库中
数据清理的步骤范围从非常简单到非常复杂的转换
数据集成，包括利用实时ETL作为Pentaho Reporting的数据源的能力
内置支持缓慢变化的尺寸和替代密钥创建的数据仓库（如上所述）

如果团队需要 ETL（提取，转换和加载）协作环境，Kettle也提供了Pentaho存储库，用于共享协作 PDI 脚本。

特点

1.开源免费，2.跨平台纯Java编写，3.数据抽取高效稳定，4.图形化操作无编码，5.全面覆盖数据库、数仓，6.定时工作流

资源

Hitachi Vantara 公司中文官网：https://www.hitachivantara.com/zh-cn/home.html
Pentaho 平台主页：https://www.hitachivantara.com/zh-cn/products/big-data-integration-analytics.html
Data Integration Kettle 新闻主页：https://community.hitachivantara.com/s/article/data-integration-kettle

Pentaho 系列产品下载地址： https://sourceforge.net/projects/pentaho/files/
Kettle 2019.10.30最新稳定版“：https://sourceforge.net/projects/pentaho/files/latest/download?aliId=137249511
Kettle 文档：https://help.pentaho.com/Documentation/8.3/Products/Pentaho_Data_Integration

Kettle 位于 Pentaho系列产品下载地址的 Pentaho x.x / client-tools 路径下的 pdi-ce-x.x.x.x-xx.zip，如下
https://sourceforge.net/projects/pentaho/files/Pentaho 8.3/client-tools/pdi-ce-8.3.0.0-371.zip/download

PDI 构架

PDI（kettle）是基于 BS 架构实现的服务。

组成：

名称	描述
Spoon	通过图形接口，用于编辑作业和转换的桌面应用 / 客户端应用程序【GUI】。
Pan	一个独立的命令行程序，用于执行由Spoon编辑的转换（Transformation）【命令行】。
Kitchen	一个独立的命令行程序，用于执行由Spoon编辑的作业（Job）【命令行】。
Carte	Carte是一个轻量级的Web容器，用于建立专用、远程的ETL Server。

PDI 客户端

Spoon 勺子 是构建 ETL Jobs 和 Transformations 的设计工具（ GUI方式）。Spoon 以拖拽方式图形化界面进行设计，能够通过 spoon 调用专用的数据集成引擎或者集群。Spoon 还可以为 Jobs 和 Transformations 设计调度时间表。

Pan 与 Kitchen 可以视为 Spoon 执行器，均可执行由Spoon编辑的 Job 文件，Pan 还可以执行 Transformation 文件。

PDI 服务器

Data Integration Server（Carte）是一个专用的ETL Server，它的主要功能有：

功能	描述
执行	通过Pentaho Data Integration引擎执行ETL的作业或转换
安全性	管理用户、角色或集成的安全性
内容管理	提供一个集中的资源库，用来管理ETL的作业和转换。资源库包含所有内容和特征的历史版本。
时序安排	在spoon设计者环境中提供管理Data Integration Server上的活动的时序和监控的服务

核心概念

Transformation

转换，Transformation 是由一系列 step（步骤）图形化组件组成的逻辑工作网络。本质上，是对数据的操作。
例如：step1从文本文件中读取数据，step2过滤，然后step3排序，最后step4将数据加载到数据库。

steps： Transformation构成的基础模块，包含了140多个，它们按照不同功能进行分类：输入类、输出类、脚本类。每个不同的Step完成某种特定的功能。将这些特定功能的Step组合起来，我们可以制作出一个 Transformation 对象。

Hops：连接 Steps的数据通道（图形化界面中的有向线）使得元数据从一个步骤传递到另一个步骤。但实际上并非如此，步骤之间的顺序不是 Transformation 执行的顺序。当执行一个转换时，每个Step都以自己的线程启动，并不断的接受和推送数据。注意：所有的Step都是同时开启的，也就是，我们无法在第一个Step设置变量，然后在后面的Step中使用。

Transformation文件的扩展名为.ktr

Job

Jobs（工作）基于工作流模型（时间调度）的，协调一个或多个数据源、Transformation 执行过程及其各个转换间的相关依赖性的ETL活动——可以简单理解为包含多个转换的，且带有时间调度设定的转换集合，有向图结构。

ETL Job文件的扩展名为.kjb

二者区别：

Transformation是Job的组成部分。
Job的每一个步骤都需要等待前面的步骤执行完毕后，才会执行——控制依赖。而Transformation则是全部启动，每个step都是一个单独的线程

变量

根据作用范围，定义为2类：环境变量，Kettle变量

环境变量：在所有使用JVM允许的Application中可见。使用Set environment variables设定。唯一问题是，如果在同一个PDI Server 中执行多个 Job 同时使用/改变一个环境变量时，可能会产生冲突。

Kettle变量：用于在一个小的动态范围内，存储少量信息——局部变量，作用范围在一个Job或转换，也可以是父工作、祖父工作或根工作，使用 Set variable。

Kitchen命令行选项

kitchen.bat | kitchen.sh -options | /options 均可。
-option=? | -option:? | -option ? 均可。

/rep        : Repository name 资源库名（任务所在库）
/user       : Repository username 帐号
/pass       : Repository password 密码
/job        : The name of the job to launch 任务名
/dir        : The directory (dont forget the leading /)
/file       : The filename (Job XML) to launch 任务文件路径
/level      : The logging level (Basic, Detailed, Debug, Rowlevel, Error, Nothing) 日志级别
/logfile    : The logging file to write to 日志写出路径
/listdir    : List the directories in the repository 列出资源库中的目录s
/listjobs   : List the jobs in the specified directory 列出指定目录下的任务s
/listrep    : List the available repositories 列出可获取的资源库
/norep      : Do not log into the repository 不记录日志在资源库中
/version    : show the version, revision and build date 显示版本
/param      : Set a named parameter =. For example -param:FOO=bar 设置参数
/listparam  : List information concerning the defined parameters in the specified job 列出参数信息
/export     : Exports all linked resources of the specified job. The argument is the name of a ZIPfile. 导出所有与指定任务关联的资源为一个ZIP文件

执行实例：

kitchen.bat /norep -file=D:/kettledata/mysal2orcle.kjb >> kitchen_%date:~0,10%.log
解析：Kitchen执行器执行路径为D:/kettledata/mysal2orcle.kjb的任务，将结果输出到 kitchen_%date:~0,10%.log 文件中

部署

Windows

提前准备：8.2版本，pdi-ce-8.2.0.0-342.zip【已安装Java 1.8】

一般情况下，均是在 Windows环境下，进行ETL Job编写，然后连接至远程Carte Server执行。

1.安装JDK 1.8版本，2.解压 pdi-ce-8.2.0.0-342.zip 至合适路径，3.双击 Spoon.bat 启动图形化界面。

Linux

提前准备：8.2版本，pdi-ce-8.2.0.0-342.zip【已安装Java 1.8】

1.安装包上传到服务器解压。2.偷懒》将Windows下的当前用户家目录下的 .kettle目录拷贝至linux的当前用户家目录下。

命令实例：运行数据库资源库中的转换：
./pan.sh -rep=my_repo -user=admin -pass=admin -trans=stu1tostu2 -dir=/
-rep：资源库名称，-user：资源库用户名，-pass：资源库密码，-trans：运行转换名称，-dir：转换文件所在资源库目录

集群部署

1.修改 data-integration/pwd 目录下的配置文件.


<slaveserver>
    <name>mastername>
    <hostname>hadoop102hostname>
    <port>8080port>
    <master>Ymaster>
    <username>clusterusername>
    <password>clusterpassword>
slaveserver>


<masters>
    <slaveserver>
      <name>mastername>
      <hostname>hadoop102hostname>
      <port>8080port>
      <username>clusterusername>
      <password>clusterpassword>
      <master>Ymaster>
    slaveserver>
masters>
<report_to_masters>Yreport_to_masters>
<slaveserver>
    <name>slave1name>
    <hostname>hadoop103hostname>
    <port>8081port>
    <username>clusterusername>
    <password>clusterpassword>
    <master>Nmaster>
slaveserver>


<masters>
    <slaveserver>
      <name>mastername>
      <hostname>hadoop102hostname>
      <port>8080port>
      <username>clusterusername>
      <password>clusterpassword>
      <master>Ymaster>
    slaveserver>
masters>
<report_to_masters>Yreport_to_masters>
<slaveserver>
    <name>slave2name>
    <hostname>hadoop104hostname>
    <port>8082port>
    <username>clusterusername>
    <password>clusterpassword>
    <master>Nmaster>
slaveserver>

2.xsync分发整个安装目录至 hadoop103 hadoop104

3.分别启动进程：carte.sh hadoop102 8080、carte.sh hadoop103 8081、carte.sh hadoop104 8082

4.访问Web页面：http://hadoop102:8080

案例

1. RDBMS --> RDBMS Trans

MySQL–》MySQL

需求：将stu1的数据按id同步到stu2，stu2有相同id则更新数据

# 表1
create database kettle;
use kettle;
create table stu1(id int,name varchar(20),age int);
create table stu2(id int,name varchar(20));

insert into stu1 values(1001,'zhangsan',20),(1002,'lisi',18), (1003,'wangwu',23);
insert into stu2 values(1001,'wukong');

文件——》新建——》转换（Ctrl+N）
左侧核心对象·输入和输出中，拉出表输入和插入/更新
双击表输入对象，填写 MySQL 配置，测试成功
摁住 Shift 左键点击表输入 ——》连线至插入 / 更新
双击插入/更新对象，点击获取和更新字段按钮，再填写更新字段，查询关键字相关配置
保存转换（Ctrl+S），启动（F9）
去 mysql 查询转换运行结果【执行前，需要先将链接 MySQL 数据库的 JDBC驱动.jar 放入 lib目录下】

2. R --> R Job

需求：使用 Job 执行案例1的 Transformation，然后再额外在表student2中添加一条数据。

文件——》新建——》作业（Ctrl+Alt+N）
左侧核心对象·通用和脚本中，拉出 Start，Dummy（什么也不做），转换，SQL
双击 Start，类型选择不需要定时
双击转换，点击浏览，指定转换文件（案例1.ktr）路径。
双击 SQL，数据库连接选择已设定的 MySQL，编写 SQL脚本
保存转换（Ctrl+S），启动（F9）
去 mysql 查询转换运行结果

3. Hive --> HDFS Trans

需求：将hive表的数据输出到hdfs的一个文本文件中。

预先配置

修改Plugin配置，修改data-integration\plugins\pentaho-big-data-plugin\plugin.properties，
设置 active.hadoop.configuration=hdp26，并将集群上的同名配置文件拷贝至
data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26下进行覆盖
在Spoon.bat中第119行后面添加参数 "-DHADOOP_USER_NAME=atguigu" "-Dfile.encoding=UTF-8"

启动虚拟机相关服务：

# HDFS 分别在NN RM节点执行相应命令
start-hdfs.sh
start-yarn.sh
# hbase Master RegionServer
start-hbase.sh
# zookeeper
zkServer.sh start
# hiveserver2 jdbc 服务
# 不建议 hive --service hiveserver2 &
hiveserver2

创建 Transformation.ktr 文件

文件——》新建——》转换（Ctrl+N）
左侧核心对象拉出：输入·表输入x2，输出·文本文件输出，转换·排序记录x2·字段选择，连接·记录集连接
双击表输入，新建数据库连接，一般–> Hadoop Hive 2，设置完整选项。用户名为Linux用户名（或者beeline检测HiveServer2 连接时输入的用户名），密码为空。点击完成，再输入SQL语句，然后点击预览。dept与emp两表同
摁住shift 连接表输入与排序记录与记录集连接，对排序记录双击设置，或者不设置均可。
设置记录集连接，条件为 dept.no = dept.no。
双击字段选择，随意选择，想要看到的最终结果字段。
双击文本文件输出，字段选项卡——点击最小宽度，否则有可能因为某些字段的长度太大而报错。再点文件选项卡，点击浏览，将 Location 选择为 HDFS，New一个 Hadoop Cluster，设定好 NN与RM，ZK等等，测试连接成功。出来设定文件名，及扩展名，再点击内容选项卡，将原有的分隔符删除，点击插入TAB按钮，使用/t来分隔字段。
保存，运行，结果为：

   deptno	empno	ename	sal
   20	7369	SMITH	800
   20	7369	SMITH	800
   30	7499	ALLEN	1600
   30	7521	WARD	1250
   30	7499	ALLEN	1600
   30	7521	WARD	1250

4.HDFS --> HBase Trans

需求：读取案例3的结果——hdfs上的文件，并将sal大于1000的数据保存到hbase中

预先配置：进入HBase（hbase shell），create ‘people’,‘info’。

设置输入·文本文件输入，文件选项卡选择浏览，HDFS，选择全部文件，选择输入文件output.test；内容选项卡设置分隔符，删除分号，insert TAB，文件类型选择 CSV；字段选项卡，点击获取字段，看情况选择Minimal width，结束
设置流程·过滤记录 | 空操作，双击过滤记录，点击左边的黑框，选择字段，中间的黑框条件，右边的2个黑框一个是比较字段，一个是比较一个值，点击比较值黑框输入值，点击右上角＋号。点击确定按钮。
设置Big Data·HBase output，Configure Connection选项卡，设置Hadoop Cluster为HDFS，浏览本地的HBase-site.xml文件。再点击 Create/Edit mappings，创建 HDFS文件内容至 HBase 列的映射关系，以及RowKey的映射选取，并设定为 HBase哪个表的 XXX 映射，XXX自行取名。先选取HBase Table name，在命名此 Mapping 名称，再点击 Get incoming fields 获取字段，选择Rowkey，设定Column 名称类型，再点击Save Mapping，最后回到配置连接选项卡，点击Get table names，选择 HBase表，再点击 Get mapping for the specifiedtable 按钮，获取这个表的Mapping文件，左侧 Mapping Name下拉选择，刚刚设定好的Mapping 名称。点击确定。结束

资源库/存储库

主要用来，跨平台，协同生成，处理，使用 ETL Job 、Transformation。

分为2种，一种 Database Repository，数据库存储 Job与Transformation；另一种 File Repository，不需要用户名密码就可以访问，但是跨平台使用较为麻烦。

Database Repository

点击右上角Connect，Database connect 可以选择MySQL，Kettle自动创库创表，一步一步填写即可。创建完成后，点击立即连接，或者点击右上角connect选择刚刚创建的Database Repository，默认访问账号密码为admin。

连接完成后，Spoon就会关闭所有未连接时创建的 Job 与 Transformation，相当于新建一个 Spoon-Database Repo版的客户端。此时，文件 --> 打开，就是打开 Database Repository，查询MySQL中存储的 Job 与 Transformation，并且，此时新建的Job 或 Transformation 存储的话，也是存储至 MySQL 中。

File Repository

以本地文件系统创建的 Repository，过程与 Database Repository创建相同，只是跨平台使用比较麻烦。

调优

Spoon.sh/bat 参数
JVM
-Xmx2048m	JVM最大内存空间
-Xms1024m	JVM初始化内存空间
-Xmn2g	JVM年轻代内存空间，建议为3/8堆内存

提交Commit记录数	默认1000，可根据总数据量增加 ↑
能用SQL语句就用SQL	尽量不使用 Kettle 的 Step 如 split field
update转换为delete与insert	尽量不使用 update
尽量truncate	尽量不使用 delete

其他：
尽量使用数据库原生函数执行装载Load ；
尽量缩小输入的数据集的大小；
尽量使用数据库连接池；
插入大量数据的时候尽量把索引删掉；

Kettle发送邮件功能如何配置以实现自动化？ DengHua2203 邮件群发服务器邮件营销邮件接口 Kettle发送邮件 API接口触发式邮件
kettle发送邮件如何设置？Kettle配置发送邮件的方法？Kettle发送邮件功能能够帮助用户在数据处理过程中自动发送电子邮件，极大地提高了工作效率。AokSend将详细介绍如何配置Kettle发送邮件功能，以实现自动化操作。Kettle发送邮件：设置对象需要在Kettle中明确指定邮件的收件人和发件人地址。这样，当Kettle发送邮件时，系统就能准确无误地将邮件发送给指定的收件人。这一步骤确
2020-08-20 Kettle 无法正常启动报错：does not exist, please create it ；Unable to create the database cache 迷光缓存数据库经验分享
当我启动etl的时候出现报错找不到指定文件Lockacquired.Settingstartlevelto100E:\data-integration\system\karaf\deploydoesnotexist,pleasecreateit.于是我进行了百度根据文章我知道是缓存文件导致的这个问题缓存文件造成的错误，只需要找到..\pdi-ce-6.0.1.0-386\data-integrat
第三章可视化ETL平台——Kettle okbin1991 etl 数据仓库数据库
第三章可视化ETL平台——Kettle课程目标能够理解Kettle的主要用途能够搭建Kettle开发环境能够掌握Kettle输入组件的使用能够掌握Kettle输出组件的使用能够掌握Kettle转换组件的使用1.Kettle介绍1.1数据仓库数据仓库是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建的，对多样的业务数据进行筛选与整合。它为企业提供一定的BI能力，指导业务流程
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
MATLAB 编程风格指南 DeepLearning Matlab学习 matlab 编程文档语言测试 documentation
转载自：http://blog.csdn.net/chenyusiyuan/archive/2007/11/19/1892378.aspxMATLAB编程风格指南——RichardJohnsonVersion1.5，Oct.2002版权；Datatool所有翻译：Genial@USTC“Languageislikeacrackedkettleonwhichwebeattunedtodanceto,
二百二十三、Kettle——从Hive增量导入到ClickHouse(根据day字段判断) 天地风雷水火山泽 Kettle hive clickhouse kettle
一、目的需要用Kettle从Hive的DWS层库表数据增量同步到ClickHouse的ADS层库表中，不过这次的增量判断字段是day字段，不像之前的create_time字段因为day字段需要转换类型，而create_time字段字段不需要转换类型，因此两者的Kettle任务配置有所不同，也踩了一些坑，因此再写一篇博客整理一下，根据day字段判断的情况下kettle如何配置才能从Hive增量导入到
ETL数据集成工具DataX、Kettle、ETLCloud特点对比 RestCloud ETL 数据集成 datax kettle
ETL数据集成工具对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至的端的过程当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多，以下对开源的datax、Kettle、ETLClou
ETL数据集成工具DataX、Kettle、ETLCloud特点对比 etlkettle
ETL数据集成工具对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至的端的过程当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多，以下对开源的datax、Kettle、ETLClou
Linux下删除n天前的文件2019-01-16 dataHunter
#!/bin/bashfind/opt/kettleLogs-mtime+10-typef-name"JOB_H-*.log"-execrm-rf{}\;find/opt/kettleLogs-mtime+30-typef-name"JOB_D-*.log"-execrm-rf{}\;
Kettle发送邮箱并在正文中以表格形式展示内容[升级版] GuangHui
在上一篇关于Kettle发送邮件并在正文中以表格形式展示内容的文章中,已经提到Kettle邮箱正文中支持HTML格式,要在邮箱正文中展示表格,那就行拼出HTML,然后扔到邮箱正文中.方法就是这么简单直接,上一篇文章中拼接HTML是在数据库SQL查询时完成的,而这次咱尝试使用Kettle支持的JavaScript脚本来完成.下面就结合一个小的需求案例,来说明一下.一.需求说明结算系统每天实时接收积分
Kettle 导入优化指南 Kassadar
在“表输出”的“上一个步骤“的组件上右键选择”数据发送……”的方式为”Round-Robin”。在”表输出”组件上右键选择“改变开始复制的数量……”填入并发数量“{d}”。第一次时注意调大弹出框，默认是看不到”确定”按钮的。配置完成后，“表输出”组件左上角会有“x{d}”字样。配置目标”数据源”，在”选项”中配置”命令参数”。
ubuntu22安装和部署Kettle8.2
在Ubuntu22上安装和部署Kettle8.2，你可以按照以下步骤进行：安装Java环境：Kettle需要Java环境来运行。在终端中输入以下命令安装Java：sudoaptupdatesudoaptinstallopenjdk-8-jdk安装完成后，你可以通过命令java-version来验证Java是否安装成功。下载并解压Kettle：从Pentaho官网或者其他可信赖的源下载Kettle8
时区设置引起的一系列问题 flexitime linux
这几天都在一直研究如何使用metabase和Kettle的事，我在一台Centos上使用Docker安装了metabase是，并用Docker部署一个Postgresql作为数据库，在另一台Centos上安装了Kettle当我大概知道如何使用后，我把使用kettle把我们一个Oracle业务数据库连上，通过脚本采集数据到Postgresql上面，后来在写SQL的过程中发现PG上的数据与Oracle
kettle--文本文件输出有空格解决方案刀鋒偏冷 etl
在kettle文本文件输出时，不管如何设置字段类型和长度，导出的数据都会有空格，遇到这一问题，可以在文本文件输出控件中勾选这一项，即可解决这一问题。文本文件输出：
kettle控件-复制记录到结果/ 从结果获取记录的使用刀鋒偏冷大数据 etl
在数据采集过程中，遇到对方数据传送不及时的情况，导致数据漏采集，需要手工反复补采。为了解决这一问题，可以利用kettle的复制记录到结果/从结果获取记录控件。job的整个流程如下：设置变量：创建目录:get_time_id转换：此时的表输入：构建的的时间段的这些时间在表中不存在，即是没有采集到的数据文件。复制记录到结果：这时就是将表输入查询出来的时间复制到结果。load_file是一个job。在高
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
【kettle】pentaho/data-integration 报错：org.apache.http.NoHttpResponseException: failed to respond lisacumt apache 大数据
一、版本说明kettle版本：8.2.0.0-342【kettle】pentaho/data-integrationdebug查看日志方法二、报错说明：核心报错内容：org.apache.http.NoHttpResponseException:xxx.com:80failedtorespond执行到某一个请求时候报错，内容：2024/01/1815:24:06-获取json.0-Connecti
【kettle】pentaho/data-integration debug 查看日志方法 lisacumt 大数据
kettle版本：8.2.0.0-R修改console打印日志级别：修改root打印日志级别：使用SpoonDebug.bat，根据提示，依次输入nyn。cmd窗口即可打印详细日志。UI显示详细日志方法：
kettle在不同类型数据库之间进行数据传输并对字段进行映射好大的月亮 Mysql
官方文档https://help.pentaho.com/Documentation/7.1/0J0/0C0/020下载地址https://community.hitachivantara.com/s/article/data-integration-kettle下载完之后双击运行启动成功这边先介绍转换模式下的数据导入导出双击转换,在输入->表输入中把表输入拖拽到右边,这里的表输入其实就是我们要读
Kettle入门叶逸灵
Kettle版本：7.1，下载地址：http://mirror.bit.edu.cn/pentaho/Data%20Integration/（这个镜像是北京理工大学提供，目前只有Kettle6.1、7.0、7.1）Kettle官方地址下载：https://community.hitachivantara.com/s/article/data-integration-kettle。image.png
kettle实战-2基本知识-2.2作业 onemy kettle实战 kettle kettle教程
作业是Kettle的另一个组件，作业也包括步骤和连线，主要作用是将转换有顺序的连接起来，还可以定时执行。转换中不容易控制各步骤的顺序，结合作业就可以更精确的控制处理流程。作业是串行执行的（当然也可以选择并行），现行版本的kettle中，转换中可以调用作业，作业中又包含转换，这些组合可以设计出很复杂的处理流程。作业的串行执行路径和转换是不同的，按作者的解释是用回溯算法执行所有的作业步骤，其实就是如果
Kettle 8.2 如何创建资源库 sliver-毛毛数据同步 ETL工具 Kettle 资源库
1.为什么使用资源库如果我们是团队开发项目，除了使用SVN等版本控制软件，还可以使用Kettle的资源库，他会将转换、作业直接保存在数据库中，而且，连接资源库的话，我们就不需要每一次都新建数据库连接了，用起来还是蛮方便的。2.链接资源库Kettle8.2里面，是在右上角这个Connect来连接的2.1资源库的类型资源库有3中类型PentahoRepository（默认是如下图）要想链接下面两种类型
kettle 同步gbase8t数据到mysql时clob类型乱码终回首数据仓库大数据数据库 etl kettle 乱码
一、问题使用kettle同步gbase8t数据到mysql时clob类型乱码。varchar类型不乱码。环境：win10kettle:9.x二、解决1（有效）修改kettle编码格式打开kettle的安装目录，进入data-integration目录记事本编辑spoon.bat搜索PENTAHO_DI_JAVA_OPTIONS=在初始化设置jvm参数所在行末尾添加"-Dfile.encoding=
kettle通过severice_name连接oracle数据源踩坑 Julycaka IT相关学习总结 oracle 数据库 etl
最近在研究kettle做数据抽取核对，按照官网安装kettle后无法连接oracle坑1：kettle连接oracle的数据库名指的是sidname而非severicename，前期一直使用severicename如下始终报错注意区分下：SID:一个数据库可以有多个实例，SID是用来标识这个数据库内部每个实例的名字.SERVICE_NAME：是这个数据库服务名。我的测试服务器是一个实例，下挂了两个
Macbook M1 安装PDI(Kettle) 9.3 Pierre_ #Pipeline Java kettle macos java
MacbookM1安装PDI(Kettle)9.3当前PDI（Kettle）最新版为9.3，依赖JavaJDK11。因为没有专门用于M1的程序，需要下载并安装x86_64架构的JDK及依赖软件，并“强制在Intel模式下运行shell”的方式来实现Kettle的正常运行。参考：https://indiespark.top/software/run-command-line-apple-silico
kettle小试牛刀 Jc_Stu java 数据库
目录Kettle概述ETLKettle是什么基本使用Mysql作业作业跳为什么要用kettle进行同步单表全量同步插入/更新字段格式切换字符串替换单表增量同步作业开始转换同步本次增量数据记录本次同步时间测试错误日志入库插入/更新样本行字段选择设置变量SQL脚本多数据库表融合到一张表表输入数据库查询数据库查询增加序列(最终表主键)插入/更新验证Kettle概述ETLETL：把冷热水加到水壶，进行转换
Kettle资源库配置变为灰色，且没有connect按钮 W_枫叶 KETTLE etl
问题背景：在日常使用Kettle的过程中，有时候会发现自己打开Kettle以后，资源库配置变为灰色，且没有connect按钮，简单操作即可解决。转载别人文件后，添加自己的操作记录问题分析：Kettle作为ETL众多软件中的一员，可以说是对中文很不友好，在使用过程中我们尽可能的少使用中文，不然会带来意想不到的错误。长话短说，出现如标题的问题是因为我们在创建资源库时用中文命名或者是在描述中用到了中文，
kettle配置提升读写性能这个名字还中数据库 etl
一、使用场景在多个数据库之间进行数据的抽取，转换，处理等二、数据库配置1.增加批量写的速度useServerPrepStmts=false(关闭服务器端编译，sql语句在客户端编译好再发送给服务器端，发送语句如上。如果为true,sql会采用占位符方式发送到服务器端，在服务器端再组装sql语句)rewriteBatchedStatements=true(开启批量写功能)useCompression
Kettle 8.2 打开spoon.bat后闪退的解决办法奥利文儿 etl java big data
文章目录表现：一、JAVA环境配置问题二、JDK版本过低1.Ketlle与JDK对应版本2.查看JDK版本三.修改spoon.bat配置文件表现：双击spoon.bat后，出现黑框，然后闪退，无反应。一、JAVA环境配置问题java_home：D:\ProgramFiles\Java\jdk1.8.0_202（即jdk安装路径）classpath：;%java_home%\lib\dt.jar;%
kettle中Pan kitchen用法及bat写法 DN_XIAOXIAO kettle
kettle中Pankitchen用法及bat写法bat文件cdC:\data-integration---kettle目录例：@echooffcdC:\data-integrationpan/repmssql/useradmin/passadmin/transtrans1/dir/lianshu/TRANS:资源库目录（mssql为资源库名,/lianshu/为资源库路径）Pan.bat/rep
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {