ETL利器 Kettle实战应用解析系列(一)

springboot配置logback日志 hrthntyj spring boot logback java
SpringBoot的默认日志框架选用的是Logback)在需要记录日志的地方加上staticLoggerlogger=LoggerFactory.getLogger(Main.class);就可以使用logger.info()显示日志Logger的默认日志级别是INFO级别的,也就是说小于INFO级别的日志都不会记录，只有大于等于INFO级别的日志才会被记录。Logback的日志级别是这样的：T
2.slf4j入口 uncleqiao slf4j slf4j
文章目录一、故事引入二、原理探究三、SLF4JServiceProvider四、总结一、故事引入故事要从下面这段代码说起publicclassApp{privatestaticfinalLoggerlogger=LoggerFactory.getLogger(App.class);publicstaticvoidmain(String[]args)throwsException{logger.in
已解决RNING: pip is configured with locations that require TLS/SSL, however the ssl module in Python I'mAlex pip ssl python
pip升级报错：WARNING:pipisconfiguredwithlocationsthatrequireTLS/SSL,howeverthesslmoduleinPythonisnotavailable.Lookinginindexes:https://pypi.tuna.tsinghua.edu.cn/simpleRequirementalreadysatisfied:pipine:\an
面试经验分享-回忆版某小公司兔子宇航员0301 数据开发面经分享面试经验分享职场和发展
说说你项目中数据仓库是怎么分层的，为什么要分层？首先是ODS层，连接数据源和数据仓库，数据会进行简单的ETL操作，数据来源通常是业务数据库，用户日志文件或者来自消息队列的数据等中间是核心的数据仓库层，可以细分为DWD，DIM，DWS层。首先是DWD层主要负责对数据进行进一步测清洗规范化的操作，但是应该尽可能保持和ODS层相同的数据粒度，可以通过维度退化等方式，将维度表退化为事实表例如下单表，减少关
5分钟看懂数据中台的典型架构 java全套学习资料架构
数据中台典型架构包括数据采集层、数据存储层、数据处理层、数据服务层和数据应用层。以下是数据中台的分层概述：一、数据采集层数据采集层作为数据中台的基础，主要负责获取各种数据源。这些数据源既可以源自公司内部的业务系统，像ERP、CRM系统等，也可以是外部的数据接口，例如第三方API、社交媒体数据接口，乃至物联网设备的数据。在这一层中，运用高效的数据采集工具和技术是核心要点，常见的工具涵盖ETL（提取、
数据仓库的复用性：流程层面 PersistDZ 大数据与AI 数据仓库
在数据仓库建设中，流程层面的复用性是提高开发效率和数据质量的关键。通过标准化ETL流程、模块化设计，以及实时与离线共用的架构，可以最大化数据处理流程的复用性，降低复杂度。以下是详细的介绍和落地方案。1.标准化ETL流程1.1标准化ETL的意义提高流程一致性，减少人为失误。降低维护成本，方便团队协作。支持多项目间共享和复用。1.2标准化ETL设计方法1.2.1标准化流程定义将ETL过程拆分为抽取（E
三款顶级开源RAG (检索增强生成)工具：Verba、Unstructured 和 Neum XianxinMao 人工智能自然语言处理 RAG
三款顶级开源RAG(检索增强生成)工具：Verba、Unstructured和Neum概述随着企业对话式数据处理需求的提升，面临的挑战是数据隐私性和缺乏企业级解决方案。虽然类似LangChain能在短时间内构建RAG应用，但忽视了文档解析、多来源数据ETL、批量处理、访问控制等问题。此文评估了三款开源RAG工具的潜力，专为生产环境设计。Verba：理想的RAG选择Weaviate提供的Verba项
js map函数的使用 itwlz javascript 前端开发语言
1.概念map()方法定义在JavaScript的Array中，它返回一个新的数组。数组中的元素为原始数组调用函数处理后的值。注意：1.map()不会对空数组进行检测2.map()不会改变原始数组2.语法array.map(function(currentValue,index,arr),thisIndex)3.实例3.1把数组l里的每一项转为Number或String或Booleanletlis
PTA L1-039 古风排版今天真的好饿算法数据结构
中国的古人写文字，是从右向左竖向排版的。本题就请你编写程序，把一段文字按古风排版。输入格式：输入在第一行给出一个正整数N（usingnamespacestd;intmain(){intn;cin>>n;getchar();strings;getline(cin,s);intk;if(s.size()%n==0)k=s.size()/n;elsek=s.size()/n+1;//设定好二维字符数组的
Time-LLM ：超越了现有时间序列预测模型的学习器福安德信息科技 AI预测大模型学习人工智能 python 大模型时序预测
AI预测相关目录AI预测流程，包括ETL、算法策略、算法模型、模型评估、可视化等相关内容最好有基础的python算法预测经验EEMD策略及踩坑VMD-CNN-LSTM时序预测对双向LSTM等模型添加自注意力机制K折叠交叉验证optuna超参数优化框架多任务学习-模型融合策略Transformer模型及Paddle实现迁移学习在预测任务上的tensoflow2.0实现holt提取时序序列特征TCN时
Text2SQL的三种实现方法 AI科技分享算法线性回归回归深度学习 rnn
传统BI工具通常分为数据接入层、分析工具层和基于该工具平台的各种行业应用层面，大模型可以在这些环节发挥作用。在数据处理层面，大模型可以帮助传统的ETL过程简化难度，提高实时交互效率。在数据分析层面，大模型可以替代拖拽交互方式，让业务用户用更简单、更高效的方式以自然语言形式与底层数据交互，构建需要的报表和看板。在行业应用层面，大模型可以真正发挥对行业知识的理解能力，与具体数据结合，形成具针对客户、特
云原生周刊：Kubernetes 和 Docker 的对比云计算
开源项目推荐DokployDokploy是一个功能强大的开源平台，为开发者提供与Vercel、Netlify和Heroku类似的全栈部署与托管体验。它支持现代化的开发工作流，提供快速、可靠的部署服务，涵盖前端、后端和全栈应用。Dokploy的开源特性让开发者可以完全掌控基础设施，同时享受自动化部署、缩放和构建优化的便捷。无论是静态网站、动态应用还是微服务架构，Dokploy都是企业和个人开发者的理
万字详解数仓分层设计架构 ODS-DWD-DWS-ADS _Jordan 自己写的数据仓库
参考：万字详解数仓分层设计架构ODS-DWD-DWS-ADS数据分层的意义1、清晰数据结构2、数据血缘追踪3、数据复用，减少重复开发4、把复杂问题简单化5、屏蔽原始数据的(影响)，屏蔽业务的影响ETL操作1、数据抽取2、数据清洗3、数据转换4、数据加载数据中台包含的内容很多，对应到具体工作中的话，它可以包含下面的这些内容：系统架构：以Hadoop、Spark等组件为中心的架构体系数据架构：顶层设计
spring cache 配置缓存存活时间
SpringCache@Cacheable本身不支持keyexpiration的设置，以下代码可自定义实现SpringCache的expiration，针对Redis、SpringBoot2.0。直接上代码：@Service@ConfigurationpublicclassCustomCacheMng{privateLoggerlogger=LoggerFactory.getLogger(this
日志2025.1.16 science怪兽笔记 unity
日志2025.1.161.增加了手枪，霰弹枪，狙击枪所对应的动画//选择当前该播放的武器动画层（手枪，霰弹枪，狙击枪）privatevoidSwitchAnimationLayer(intlayerIndex){//将所有武器动画层的权重设置为0for(inti=1;i
部署及使用 etl crontab 和 etl engine
**如何部署及使用etl_crontab和etl_engine**内容详细，适合新人上手1、前置条件获取到以下文件列表code.bin(授权文件，必须)code.key(授权文件，必须)conf.cron(调度配置文件，使用etl_crontab必须)sys.properties(环境配置文件，使用etl_crontab必须)etllog_mysql.sql(日志表结构文件，使用etl_cront
消息绑定用户 yu_zheng5163 python 前端开发语言
搜索重置绑定新用户解绑{{val.roleName}}解除绑定0":total="total":page.sync="queryParams.pageNum":limit.sync="queryParams.pageSize"@pagination="getList"/>绑定取消import{deptTreeSelect}from"@/api/system/user";import{boundUs
Java 异常架构Throwable Flying_Fish_Xuan java 架构开发语言
1.Throwable类的概述在Java中，Throwable是所有错误和异常的超类。只有继承自Throwable类的实例可以被抛出或捕获。Throwable类本身是java.lang.Object的直接子类，它定义了异常处理的一些基本机制，如异常的堆栈轨迹、错误消息等。Throwable类的主要方法：getMessage()：返回异常的详细描述信息。getLocalizedMessage()：返
【职业发展】从ETL到大数据：如何规划你的数据职业生涯？
首先：ETL工程师其实是一个特别简单的岗位。为什么简单？ETL就是数据仓库项目建设和日常维护中的一种工作，ETL，就是抽取、转换、装载的英文缩写。但是这个现实中都是使用相应工具软件的。至于怎么抽取，怎么转换、怎么装载，都是与具体业务相结合的。比如：每天晚8点抽取，a+b转换成c，从A设备读出a和b，计算成c之后存到W设备上。这就是ETL要干的事。特别简单。没有技术含量。但是工作量却比较大。但是工作
axum--代码案例 rustweb
最简单的demo#[tokio::main]asyncfnmain(){//buildourapplicationwitharouteletapp=Router::new().route("/",get(handler));//runitletlistener=tokio::net::TcpListener::bind("127.0.0.1:3000").await.unwrap();printl
Quartus II SDC文件建立流程 cattao1989 verilog
QuartusIISDC文件编写教程第一步：打开TimeQuestTimingAnalyzer，也可以点击图中1所示图标。第二步：点击Netlist,点击CreateTimingNetlist第三步：按照下图所示选择。
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：pipSSL模块不可用导致无法连接的错误一、分析问题背景在使用pip安装Python包时，用户可能会遇到如下错误信息：WARNING:pipisconfiguredwithlocationsthatrequireTLS/SSL,howeverthesslmoduleinPythonisnotavailab
pip is configured with locations that require TLS/SSL, however the ssl module in Python is notable _Johnny_ Python pip ssl python
现象执行pipinstall时报错：WARNING:pipisconfiguredwithlocationsthatrequireTLS/SSL,howeverthesslmoduleinPythonisnotavailable.Hint:Itlookslikeapath.Thepathdoesexist.WARNING:pipisconfiguredwithlocationsthatrequir
使用 Python 和 Aria2 异步下载和解析磁力链接元数据教程日入百万 python
磁力链接（MagnetLinks）是一种流行的用于共享文件的链接格式。与传统的种子文件不同，磁力链接直接包含文件的哈希值，使得用户无需下载种子文件就能开始下载文件。在这篇教程中，我们将介绍如何使用Python和Aria2异步下载和解析磁力链接的元数据，并提取出文件的详细信息。步骤一：准备工作在开始之前，请确保你已经安装了以下工具和库：1.**Aria2**：一个轻量级多协议和多源命令行下载工具。你
基于鸿蒙API10的RTSP播放器(二：视频切换实现) PlumCarefree 鸿蒙实战：RTSP播放器音视频华为 harmonyos
目标：设置一个播放下一个视频的按钮，通过改变url地址实现✔设置一个视频播放底部轨道，轨道左侧固定为00:00，右侧为当前已经播放的时长差✖设置音量调节按钮，再实现滑动增减音量发✖//这里为ArkTS代码，标记为ts只是为了上色好看。注意代码放置位置//1.播放位置状态变量，在结构体之外letlocationIndex:number=0;//2.设置url组，苹果测试地址，最快@Statepriv
LSP协议被劫持导致不能上网 tgl182 LSP协议
故障现象：最近有同事电脑浏览器打不开网页，DNS没问题，外网地址可以PING通，本地连接显示正常，登陆QQ显示网络连接超时，打开浏览器不能显示网页，网络丢包率达到了100%，本地连接数据包收到为0，查杀木马、病毒也不能解决问题。原因分析：WinsockLSP全称WindowsSocketLayeredServiceProvider(分层服务提供商)，它是Windows底层网络Socker通信需要经
（力扣）删除链表的倒数第N个节点———链表爱干饭的boy 数据结构与算法题目 leetcode 链表算法
方法一：暴力破解***Definitionforsingly-linkedlist.*structListNode{*intval;*structListNode*next;*};*intgetLength(structListNode*head){intlength=0;while(head){++length;head=head->next;}returnlength;}structListN
数仓开发之DWD层完整使用 (第五章) 小坏讲微服务数据仓库 hadoop scala kafka
数仓开发之DWD层完整使用一、流量域未精加工的事务事实表1、主要任务1）数据清洗（ETL）2）新老访客状态标记修复3）分流2、思路1）数据清洗（ETL）2）新老访客状态标记修复（1）前端埋点新老访客状态标记设置规则（2）新老访客状态标记修复思路3）利用侧输出流实现数据拆分（1）埋点日志结构分析（2）分流日志分类（3）分流思路3、图解4、代码1）在KafkaUtil工具类中补充getKafkaPro
centos8 dnf/yum报错 10095b238670
locale命令结果：[root@0d77323f6fb2~]#locale-alocale:CannotsetLC_CTYPEtodefaultlocale:Nosuchfileordirectorylocale:CannotsetLC_MESSAGEStodefaultlocale:Nosuchfileordirectorylocale:CannotsetLC_COLLATEtodefault
离线数仓VS实时数仓 james二次元数据仓库数据仓库大数据
离线数据仓库（OfflineDataWarehouse）和实时数据仓库（Real-timeDataWarehouse）的实施有一些相似之处，但也存在显著的差异。以下是两者在几个关键方面的对比：相同点：数据集成：都需要从多个数据源提取、转换和加载数据（ETL/ELT）。都需要处理数据清洗、去重和规范化，以保证数据的一致性和准确性。数据建模：都需要进行数据建模，设计数据仓库的星型或雪花模型，定义事实表
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

类别	环节名称	功能说明
Input	文本文件输入	从本地文本文件输入数据
	表输入	从数据库表中输入数据
	获取系统信息	读取系统信息输入数据
Output	文本文件输出	将处理结果输出到文本文件
	表输出	将处理结果输出到数据库表
	插入/更新	根据处理结果对数据库表机型插入更新，如果数据库中不存在相关记录则插入，否则为更新。会根据查询条件中字段进行判断
	更新	根据处理结果对数据库进行更新，若需要更新的数据在数据库表中无记录，则会报错停止
	删除	根据处理结果对数据库记录进行删除，若需要删除的数据在数据库表中无记录，则会报错停止
Lookup	数据库查询	根据设定的查询条件，对目标表进行查询，返回需要的结果字段
	流查询	将目标表读取到内存，通过查询条件对内存中数据集进行查询
	调用DB存储过程	调用数据库存储过程
Transform	字段选择	选择需要的字段，过滤掉不要的字段，也可做数据库字段对应
	过滤记录	根据条件对记录进行分类
	排序记录	将数据根据某以条件，进行排序
	空操作	无操作
	增加常量	增加需要的常量字段
Scripting	Modified Java Script Value	扩展功能，编写JavaScript脚本，对数据进行相应处理
Mapping	映射（子转换）	数据映射
Job	Sat Variables	设置环境变量
Job	Get Variables	获取环境变量

类别	环节名称	功能说明
Job entries	START	开始
	DUMMY	结束
	Transformation	引用Transformation流程
	Job	引用Job流程
	Shell	调用Shell脚本
	SQL	执行sql语句
	FTP	通过FTP下载
	Table exists	检查目标表是否存在，返回布尔值
	File exists	检查文件是否存在，返回布尔值
	Javascript	执行JavaScript脚本
	Create file	创建文件
	Delete file	删除文件
	Wait for file	等待文件，文件出现后继续下一个环节
	File Compare	文件比较，返回布尔值
	Wait for	等待时间，设定一段时间，kettle流程处于等待状态
	Zip file	压缩文件为ZIP包

ETL利器 Kettle实战应用解析系列(一)

你可能感兴趣的:(etl)