阿T_smile

Kettle的安装及使用

转载自：https://blog.csdn.net/cs2559371050/article/details/71126655

kettle是什么？

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少。kettle支持图形化的GUI设计界面，然后可以以工作流的形式流转，在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现，其中最主要的我们通过熟练的应用它，减少了非常多的研发工作量，提高了我们的工作效率.

Kettle是一款国外开源的ETL工具，纯Java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。

Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。

Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

为什么使用kettle?

这里简单概括一下几种具体的应用场景，按网络环境划分主要包括：

表视图模式：这种情况我们经常遇到，就是在同一网络环境下，我们对各种数据源的表数据进行抽取、过滤、清洗等，例如历史数据同步、异构系统数据交互、数据对称发布或备份等都归属于这个模式；传统的实现方式一般都要进行研发（一小部分例如两个相同表结构的表之间的数据同步，如果sqlserver数据库可以通过发布/订阅实现），涉及到一些复杂的一些业务逻辑如果我们研发出来还容易出各种bug；
前置机模式：这是一种典型的数据交换应用场景，数据交换的双方A和B网络不通，但是A和B都可以和前置机C连接，一般的情况是双方约定好前置机的数据结构，这个结构跟A和B的数据结构基本上是不一致的，这样我们就需要把应用上的数据按照数据标准推送到前置机上，这个研发工作量还是比较大的；
文件模式: 数据交互的双方A和B是完全的物理隔离，这样就只能通过以文件的方式来进行数据交互了，例如XML格式，在应用A中我们开发一个接口用来生成标准格式的XML，然后用优盘或者别的介质在某一时间把XML数据拷贝之后，然后接入到应用B上，应用B上在按照标准接口解析相应的文件把数据接收过来；

综上3种模式如果我们都用传统的模式无疑工作量是巨大的，那么怎么做才能更高效更节省时间又不容易出错呢？答案是我们可以用一下Kettle-_-！

使用kettle需要了解的知识？

ž1 Kettle使用

Kettle提供了资源库方式的方式来整合所有的工作，但是因为资源库移植不方便，所以我们选择没有资源库；

1）创建一个新的transformation，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestTrans，kettle默认transformation文件保存后后缀名为ktr；

2）创建一个新的job，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestJob，kettle默认job文件保存后后缀名为kjb；

2 组件树介绍

Main Tree菜单列出的是一个transformation中基本的属性，可以通过各个节点来查看。

DB连接：显示当前transformation中的数据库连接，每一个transformation的数据库连接都需要单独配置。

Steps：一个transformation中应用到的环节列表

Hops：一个transformation中应用到的节点连接列表　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Core Objects菜单列出的是transformation中可以调用的环节列表，可以通过鼠标拖动的方式对环节进行添加。

Input：输入环节

Output：输出环节

Lookup：查询环节

Transform：转化环节

Joins：连接环节

Scripting：脚本环节

4.3 Transformation转换介绍

ž每一个环节可以通过鼠标拖动来将环节添加到主窗口中。

ž并可通过shift+鼠标拖动，实现环节之间的连接。

ž转换常用环节介绍

类别	环节名称	功能说明
Input	文本文件输入	从本地文本文件输入数据
	表输入	从数据库表中输入数据
	获取系统信息	读取系统信息输入数据
Output	文本文件输出	将处理结果输出到文本文件
	表输出	将处理结果输出到数据库表
	插入/更新	根据处理结果对数据库表机型插入更新，如果数据库中不存在相关记录则插入，否则为更新。会根据查询条件中字段进行判断
	更新	根据处理结果对数据库进行更新，若需要更新的数据在数据库表中无记录，则会报错停止
	删除	根据处理结果对数据库记录进行删除，若需要删除的数据在数据库表中无记录，则会报错停止
Lookup	数据库查询	根据设定的查询条件，对目标表进行查询，返回需要的结果字段
	流查询	将目标表读取到内存，通过查询条件对内存中数据集进行查询
	调用DB存储过程	调用数据库存储过程
Transform	字段选择	选择需要的字段，过滤掉不要的字段，也可做数据库字段对应
	过滤记录	根据条件对记录进行分类
	排序记录	将数据根据某以条件，进行排序
	空操作	无操作
	增加常量	增加需要的常量字段
Scripting	Modified Java Script Value	扩展功能，编写JavaScript脚本，对数据进行相应处理
Mapping	映射（子转换）	数据映射
Job	Sat Variables	设置环境变量
Job	Get Variables	获取环境变量

4.3 Job任务介绍

Main Tree菜单列出的是一个Job中基本的属性，可以通过各个节点来查看。

DB连接：显示当前Job中的数据库连接，每一个Job的数据库连接都需要单独配置。

Job entries：一个Job中引用的环节列表

Job entries菜单列出的是Job中可以调用的环节列表，可以通过鼠标拖动的方式对环节进行添加。

每一个环节可以通过鼠标拖动来将环节添加到主窗口中。

并可通过shift+鼠标拖动，实现环节之间的连接。

ž常用环节介绍

类别	环节名称	功能说明
Job entries	START	开始
	DUMMY	结束
	Transformation	引用Transformation流程
	Job	引用Job流程
	Shell	调用Shell脚本
	SQL	执行sql语句
	FTP	通过FTP下载
	Table exists	检查目标表是否存在，返回布尔值
	File exists	检查文件是否存在，返回布尔值
	Javascript	执行JavaScript脚本
	Create file	创建文件
	Delete file	删除文件
	Wait for file	等待文件，文件出现后继续下一个环节
	File Compare	文件比较，返回布尔值
	Wait for	等待时间，设定一段时间，kettle流程处于等待状态
	Zip file	压缩文件为ZIP包

怎么使用kettle？

一：配置环境

1、安装java JDK

1）首先到官网上下载对应JDK包，JDK1.5或以上版本就行；

2）安装JDK；

3）配置环境变量,附配置方式：

安装完成后，还要对它进行相关的配置才可以使用，先来设置一些环境变量，对于Java来说，最需要设置的环境变量是系统路径变量path。

（1）要打开环境变量的设置窗口。右击“我的电脑”，在弹出的快捷菜单中选择“属性”选项，进入“系统属性”对话框，如图所示。选择“高级”标签，进入“高级”选项卡，再单击“环境变量”按钮，进入“环境变量”对话框，如图所示：

（2）在“Administrator的用户变量”列表框中，选择变量PATH，待其所在行变高亮后，单击“编辑”按钮，如图所示。

（3）在弹出的“编辑系统变量”对话框中，将JDK安装路径下的bin目录路径设置到Path变量中，如图所示。

编辑完后，单击“确定”按钮，进行保存,环境变量Path的设置就正式完成。

注意：设置Path变量的路径，必须是JDK安装目录中的bin目录，有时候在JDK安装目录的同一层会有JRE的安装目录，因此请谨慎选取相关路径，避免将路径设置成JRE目录下的bin目录。

3、2 测试JDK配置是否成功

设置好环境变量后，就可以对刚设置好的变量进行测试，并检测Java是否可以运行。

（1）单击“开始”按钮，选择“运行”选项，在“运行”对话框中输入cmd命令。

（2）之后单击“确定”按钮，打开命令行窗口。

（3）在光标处输入：javac命令，按下Enter键执行，即可看到测试结果

3、3 运行Kettle

ž进入到Kettle目录，如果Kettle部署在windows环境下，双击运行spoon.bat或Kettle.exe文件，出现如下界面：

这样配置环境这一块基本上就完成了。

二、练习

功能简述：数据库TestA中的UserA表到数据库TestB的UserB表；

实现流程：建立一个转换和一个作业Job；

进入到Kettle目录，如果Kettle部署在windows环境下，双击运行spoon.bat或Kettle.exe文件。

不输入密码进入，可以看到主对象树和核心对象.

新建一个转换后，看到转换下有DB连接，Steps,Hops,数据库分区schemas,子服务器，kettle集群schemas

A:建立一个转换：打开Kettle.exe，选择没有资源库，进入主界面，新建一个转换，转换的后缀名为ktr，转换建立的步骤如下：

步骤1建立DB连接：创建DB连接，选择新建DB连接，如下图，我们输入相应的数据库配置信息之后点击Test按钮测试是否配置正确！

填入信息，最后要起连接名testA，先点击test测试连接，如果报错，可能是数据库信息填的不对。

选择连接的数据库类型 Oracle/MySQL/

Host Name:10.8.200.105/localhost

Database Name:lifedev

Port Number:1521

User Name:...

password:...

点击test进行连接测试。

建立好DB连接后，会出现子节点testA、testB

步骤2：建立步骤和步骤关系，

点击核心对象，我们从步骤树输入中选择【表输入】，如下图，这样拖拽一个表输入之后，我们双击表输入之后，我们自己可以随意写一个sql语句，这个语句表示可以在这个库中随意组合，只要sql语句没有错误即可，我这里只是最简单的把TestA中的所有数据查出来，语句为select * from LXX_KETTLE_TESTA

接下来我们创建另外一个步骤输出中的【插入/ 更新】，然后在【表输入】上同时按住shift键和鼠标左键滑向【插入/ 更新】，这样建立两个步骤之间的连接，【插入/ 更新】执行的逻辑是如果UserA表中的记录在UserB中不存在那么就插入，如果存在就更新，如下图，在插入更新中我们可以做一些关键条件和字段映射，这里我们是最简单的！点击保存，把我们建立的转换保存一下。

建立好转换之后，我们可以直接运行这个转换，检查一下是否有错，如图，有错误都会在下面的控制台上输出。

点击运行按钮可选择本地远程或远程执行或集群方式执行，我选择本地执行，之后提示文件已经改变，在运行转换前请先保存它，你想现在保存这个转换吗？可以选择保存下来。

步骤三:如果我们需要让这个转换定时执行怎么办呢，那么我们需要建立一个作业job

见下图，在简单表同步这个转换中，我们把在A步骤中建立的ktl配置上，注意路径的正确性；

这样我们在【Start】步骤上面双击，如图：

这样这个作业就制定好了，点击保存之后，我们就可以在图形化界面上点击开始执行了！

实例2：全面进阶的一个稍微复杂的例子

ž根据客户，帐户，交易表中的数据，生成对应的数据文件，将数据文件可以导入到对应表中，并且可以用job来调用整个流程。

ž目标：

ž1)，提交对应的Kettle文件

ž2)，Kettle流程可以正确执行，不报错

ž3)，对应的数据文件生成并格式无误，对应表中有数据并格式无误

ž说明：

ž源表：数据库etltest中存在3张表：

目标表：etltest中一张表

Kettle具体解决方式，步骤比较繁琐，大家可以直接到下载中下载Demo数据库文件和ktr、kjb来实战测试，这样是最好的，下面的操作仅供参考，转换预览图如下：

操作步骤：
在EtltestTrans页面下，点击左侧的【Core Objects】，点击【Input】，选中【表
输入】，拖动到主窗口释放鼠标。
双击【表输入】图标
数据库连接选择刚刚创建好的etltest数据库连接，在主窗口写入对应的查询
语句
Select * from trade ，如下图：

点击确定完成。
点击核心对象->查询，选中【数据库查询】，拖动到主窗口释放鼠标。
按住shift键，用鼠标点中刚才创建的【表输入】，拖动到【数据库查询】上，
则建立了两个环节之间的连接，如图：

双击【数据库查询】

步骤名称写入account 表查询，数据库连接选择刚刚创建好的etltest 数据库
连接，查询的表写入account，查询所需的关键字中，表字段写入acctno，比较
操作符写入“=”，字段1写入acctno。
在查询表返回的值里面写入custno，确定完成，如下图：

同上，再创建一个数据库查询，命名为cust表查询，查询的表写入cust，查
询所需的关键字写入custno=custno，查询表返回的值写入custname，custid，
custtype，如下图：

点击核心对象->Flow下过滤记录，拖动到主窗口释放鼠标。
点击核心对象->脚本，选中两个【Modified Java Script Value】，拖动到主窗
口释放鼠标。分别双击打开，重命名为“对公类型修改”和“对私类型修改”。
同时，分别创建【过滤记录】和【对公类型修改】，【对私类型修改】的连接。
双击过滤记录打开。
第一个里面选择custtype，点击，在Enter value 里面写入1，
确定，如图：

在发送true数据给步骤里，选择【对私类型修改】，在发送false数据给步骤
里，选择【对公类型修改】，确定保存，如图：

双击【对公类型修改】，在里面写入javascript 脚本语句
var custtype_cn='对公客户交易'
在字段中写入custtype_cn，类型选为string。确定。
同理，在【对私类型修改】中，在里面写入javascript脚本语句
var custtype_cn='对私客户交易'
在字段中写入custtype_cn，类型选为string。确定。
点击左侧的【Transform】，选中两个【增加常量】，拖动到主窗口释放鼠标。
分别双击打开，重命名为“增加对公常量”和“增加对私常量”。
分别建立【对公类型修改】和【对私类型修改】与【增加对公常量】和【增
加对私常量】的连接，如图：

双击【增加对公常量】，名称写入value，类型选择string，值写入“这是一
笔对公客户发生的交易”，确定保存。
同理，双击【增加对私常量】，名称写入value，类型选择string，值写入“这
是一笔对私客户发生的交易”，确定保存。
点击左侧的【Output】，选中【文本文件输出】，拖动到主窗口释放鼠标。
建立【增加对公常量】，【增加对私常量】和【文本文件输出】的连接，如图：

双击打开【文本文件输出】，文件名称写入D:\etltest\etltest.txt
点击内容标签，根据情况进行修改，例如
点击字段标签
名称依次写入tradeid，acctno，amt，custno，custname，custid，custtype_cn，
value，类型根据各个字段实际类型进行选择
确定保存
点击保存创建好的transformation。
点击运行这个转换。
点击launch，开始运行
当所有状态都变已完成时，则转换完成，如图：

你可能感兴趣的:(Kettle,Kettle)

Kettle发送邮件功能如何配置以实现自动化？ DengHua2203 邮件群发服务器邮件营销邮件接口 Kettle发送邮件 API接口触发式邮件
kettle发送邮件如何设置？Kettle配置发送邮件的方法？Kettle发送邮件功能能够帮助用户在数据处理过程中自动发送电子邮件，极大地提高了工作效率。AokSend将详细介绍如何配置Kettle发送邮件功能，以实现自动化操作。Kettle发送邮件：设置对象需要在Kettle中明确指定邮件的收件人和发件人地址。这样，当Kettle发送邮件时，系统就能准确无误地将邮件发送给指定的收件人。这一步骤确
2020-08-20 Kettle 无法正常启动报错：does not exist, please create it ；Unable to create the database cache 迷光缓存数据库经验分享
当我启动etl的时候出现报错找不到指定文件Lockacquired.Settingstartlevelto100E:\data-integration\system\karaf\deploydoesnotexist,pleasecreateit.于是我进行了百度根据文章我知道是缓存文件导致的这个问题缓存文件造成的错误，只需要找到..\pdi-ce-6.0.1.0-386\data-integrat
第三章可视化ETL平台——Kettle okbin1991 etl 数据仓库数据库
第三章可视化ETL平台——Kettle课程目标能够理解Kettle的主要用途能够搭建Kettle开发环境能够掌握Kettle输入组件的使用能够掌握Kettle输出组件的使用能够掌握Kettle转换组件的使用1.Kettle介绍1.1数据仓库数据仓库是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建的，对多样的业务数据进行筛选与整合。它为企业提供一定的BI能力，指导业务流程
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
MATLAB 编程风格指南 DeepLearning Matlab学习 matlab 编程文档语言测试 documentation
转载自：http://blog.csdn.net/chenyusiyuan/archive/2007/11/19/1892378.aspxMATLAB编程风格指南——RichardJohnsonVersion1.5，Oct.2002版权；Datatool所有翻译：Genial@USTC“Languageislikeacrackedkettleonwhichwebeattunedtodanceto,
二百二十三、Kettle——从Hive增量导入到ClickHouse(根据day字段判断) 天地风雷水火山泽 Kettle hive clickhouse kettle
一、目的需要用Kettle从Hive的DWS层库表数据增量同步到ClickHouse的ADS层库表中，不过这次的增量判断字段是day字段，不像之前的create_time字段因为day字段需要转换类型，而create_time字段字段不需要转换类型，因此两者的Kettle任务配置有所不同，也踩了一些坑，因此再写一篇博客整理一下，根据day字段判断的情况下kettle如何配置才能从Hive增量导入到
ETL数据集成工具DataX、Kettle、ETLCloud特点对比 RestCloud ETL 数据集成 datax kettle
ETL数据集成工具对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至的端的过程当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多，以下对开源的datax、Kettle、ETLClou
ETL数据集成工具DataX、Kettle、ETLCloud特点对比 etlkettle
ETL数据集成工具对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至的端的过程当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多，以下对开源的datax、Kettle、ETLClou
Linux下删除n天前的文件2019-01-16 dataHunter
#!/bin/bashfind/opt/kettleLogs-mtime+10-typef-name"JOB_H-*.log"-execrm-rf{}\;find/opt/kettleLogs-mtime+30-typef-name"JOB_D-*.log"-execrm-rf{}\;
Kettle发送邮箱并在正文中以表格形式展示内容[升级版] GuangHui
在上一篇关于Kettle发送邮件并在正文中以表格形式展示内容的文章中,已经提到Kettle邮箱正文中支持HTML格式,要在邮箱正文中展示表格,那就行拼出HTML,然后扔到邮箱正文中.方法就是这么简单直接,上一篇文章中拼接HTML是在数据库SQL查询时完成的,而这次咱尝试使用Kettle支持的JavaScript脚本来完成.下面就结合一个小的需求案例,来说明一下.一.需求说明结算系统每天实时接收积分
Kettle 导入优化指南 Kassadar
在“表输出”的“上一个步骤“的组件上右键选择”数据发送……”的方式为”Round-Robin”。在”表输出”组件上右键选择“改变开始复制的数量……”填入并发数量“{d}”。第一次时注意调大弹出框，默认是看不到”确定”按钮的。配置完成后，“表输出”组件左上角会有“x{d}”字样。配置目标”数据源”，在”选项”中配置”命令参数”。
ubuntu22安装和部署Kettle8.2
在Ubuntu22上安装和部署Kettle8.2，你可以按照以下步骤进行：安装Java环境：Kettle需要Java环境来运行。在终端中输入以下命令安装Java：sudoaptupdatesudoaptinstallopenjdk-8-jdk安装完成后，你可以通过命令java-version来验证Java是否安装成功。下载并解压Kettle：从Pentaho官网或者其他可信赖的源下载Kettle8
时区设置引起的一系列问题 flexitime linux
这几天都在一直研究如何使用metabase和Kettle的事，我在一台Centos上使用Docker安装了metabase是，并用Docker部署一个Postgresql作为数据库，在另一台Centos上安装了Kettle当我大概知道如何使用后，我把使用kettle把我们一个Oracle业务数据库连上，通过脚本采集数据到Postgresql上面，后来在写SQL的过程中发现PG上的数据与Oracle
kettle--文本文件输出有空格解决方案刀鋒偏冷 etl
在kettle文本文件输出时，不管如何设置字段类型和长度，导出的数据都会有空格，遇到这一问题，可以在文本文件输出控件中勾选这一项，即可解决这一问题。文本文件输出：
kettle控件-复制记录到结果/ 从结果获取记录的使用刀鋒偏冷大数据 etl
在数据采集过程中，遇到对方数据传送不及时的情况，导致数据漏采集，需要手工反复补采。为了解决这一问题，可以利用kettle的复制记录到结果/从结果获取记录控件。job的整个流程如下：设置变量：创建目录:get_time_id转换：此时的表输入：构建的的时间段的这些时间在表中不存在，即是没有采集到的数据文件。复制记录到结果：这时就是将表输入查询出来的时间复制到结果。load_file是一个job。在高
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
【kettle】pentaho/data-integration 报错：org.apache.http.NoHttpResponseException: failed to respond lisacumt apache 大数据
一、版本说明kettle版本：8.2.0.0-342【kettle】pentaho/data-integrationdebug查看日志方法二、报错说明：核心报错内容：org.apache.http.NoHttpResponseException:xxx.com:80failedtorespond执行到某一个请求时候报错，内容：2024/01/1815:24:06-获取json.0-Connecti
【kettle】pentaho/data-integration debug 查看日志方法 lisacumt 大数据
kettle版本：8.2.0.0-R修改console打印日志级别：修改root打印日志级别：使用SpoonDebug.bat，根据提示，依次输入nyn。cmd窗口即可打印详细日志。UI显示详细日志方法：
kettle在不同类型数据库之间进行数据传输并对字段进行映射好大的月亮 Mysql
官方文档https://help.pentaho.com/Documentation/7.1/0J0/0C0/020下载地址https://community.hitachivantara.com/s/article/data-integration-kettle下载完之后双击运行启动成功这边先介绍转换模式下的数据导入导出双击转换,在输入->表输入中把表输入拖拽到右边,这里的表输入其实就是我们要读
Kettle入门叶逸灵
Kettle版本：7.1，下载地址：http://mirror.bit.edu.cn/pentaho/Data%20Integration/（这个镜像是北京理工大学提供，目前只有Kettle6.1、7.0、7.1）Kettle官方地址下载：https://community.hitachivantara.com/s/article/data-integration-kettle。image.png
kettle实战-2基本知识-2.2作业 onemy kettle实战 kettle kettle教程
作业是Kettle的另一个组件，作业也包括步骤和连线，主要作用是将转换有顺序的连接起来，还可以定时执行。转换中不容易控制各步骤的顺序，结合作业就可以更精确的控制处理流程。作业是串行执行的（当然也可以选择并行），现行版本的kettle中，转换中可以调用作业，作业中又包含转换，这些组合可以设计出很复杂的处理流程。作业的串行执行路径和转换是不同的，按作者的解释是用回溯算法执行所有的作业步骤，其实就是如果
Kettle 8.2 如何创建资源库 sliver-毛毛数据同步 ETL工具 Kettle 资源库
1.为什么使用资源库如果我们是团队开发项目，除了使用SVN等版本控制软件，还可以使用Kettle的资源库，他会将转换、作业直接保存在数据库中，而且，连接资源库的话，我们就不需要每一次都新建数据库连接了，用起来还是蛮方便的。2.链接资源库Kettle8.2里面，是在右上角这个Connect来连接的2.1资源库的类型资源库有3中类型PentahoRepository（默认是如下图）要想链接下面两种类型
kettle 同步gbase8t数据到mysql时clob类型乱码终回首数据仓库大数据数据库 etl kettle 乱码
一、问题使用kettle同步gbase8t数据到mysql时clob类型乱码。varchar类型不乱码。环境：win10kettle:9.x二、解决1（有效）修改kettle编码格式打开kettle的安装目录，进入data-integration目录记事本编辑spoon.bat搜索PENTAHO_DI_JAVA_OPTIONS=在初始化设置jvm参数所在行末尾添加"-Dfile.encoding=
kettle通过severice_name连接oracle数据源踩坑 Julycaka IT相关学习总结 oracle 数据库 etl
最近在研究kettle做数据抽取核对，按照官网安装kettle后无法连接oracle坑1：kettle连接oracle的数据库名指的是sidname而非severicename，前期一直使用severicename如下始终报错注意区分下：SID:一个数据库可以有多个实例，SID是用来标识这个数据库内部每个实例的名字.SERVICE_NAME：是这个数据库服务名。我的测试服务器是一个实例，下挂了两个
Macbook M1 安装PDI(Kettle) 9.3 Pierre_ #Pipeline Java kettle macos java
MacbookM1安装PDI(Kettle)9.3当前PDI（Kettle）最新版为9.3，依赖JavaJDK11。因为没有专门用于M1的程序，需要下载并安装x86_64架构的JDK及依赖软件，并“强制在Intel模式下运行shell”的方式来实现Kettle的正常运行。参考：https://indiespark.top/software/run-command-line-apple-silico
kettle小试牛刀 Jc_Stu java 数据库
目录Kettle概述ETLKettle是什么基本使用Mysql作业作业跳为什么要用kettle进行同步单表全量同步插入/更新字段格式切换字符串替换单表增量同步作业开始转换同步本次增量数据记录本次同步时间测试错误日志入库插入/更新样本行字段选择设置变量SQL脚本多数据库表融合到一张表表输入数据库查询数据库查询增加序列(最终表主键)插入/更新验证Kettle概述ETLETL：把冷热水加到水壶，进行转换
Kettle资源库配置变为灰色，且没有connect按钮 W_枫叶 KETTLE etl
问题背景：在日常使用Kettle的过程中，有时候会发现自己打开Kettle以后，资源库配置变为灰色，且没有connect按钮，简单操作即可解决。转载别人文件后，添加自己的操作记录问题分析：Kettle作为ETL众多软件中的一员，可以说是对中文很不友好，在使用过程中我们尽可能的少使用中文，不然会带来意想不到的错误。长话短说，出现如标题的问题是因为我们在创建资源库时用中文命名或者是在描述中用到了中文，
kettle配置提升读写性能这个名字还中数据库 etl
一、使用场景在多个数据库之间进行数据的抽取，转换，处理等二、数据库配置1.增加批量写的速度useServerPrepStmts=false(关闭服务器端编译，sql语句在客户端编译好再发送给服务器端，发送语句如上。如果为true,sql会采用占位符方式发送到服务器端，在服务器端再组装sql语句)rewriteBatchedStatements=true(开启批量写功能)useCompression
Kettle 8.2 打开spoon.bat后闪退的解决办法奥利文儿 etl java big data
文章目录表现：一、JAVA环境配置问题二、JDK版本过低1.Ketlle与JDK对应版本2.查看JDK版本三.修改spoon.bat配置文件表现：双击spoon.bat后，出现黑框，然后闪退，无反应。一、JAVA环境配置问题java_home：D:\ProgramFiles\Java\jdk1.8.0_202（即jdk安装路径）classpath：;%java_home%\lib\dt.jar;%
kettle中Pan kitchen用法及bat写法 DN_XIAOXIAO kettle
kettle中Pankitchen用法及bat写法bat文件cdC:\data-integration---kettle目录例：@echooffcdC:\data-integrationpan/repmssql/useradmin/passadmin/transtrans1/dir/lianshu/TRANS:资源库目录（mssql为资源库名,/lianshu/为资源库路径）Pan.bat/rep
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {