你不知道的Kettle学习笔记3--Kettle资源库

一、Kettle资源库概述

1、kettle资源库保存的是Kettle元数据。
2、资源库包括文件资源库、数据库资源库。在服务端新建资源库,只能使用数据库资源库。
3、不使用资源库:直接保存为ktr或kjb文件。

二、如何选择资源库

(一)数据库资源库的缺点

1、不能存储转换或作业的多个版本。
2、严重依赖于数据库的锁机制来防止工作丢失。
3、 没有考虑到团队开发,开发人员不能锁住自己开发的某个作业。

(二)文件资源库的缺点

1、对象(如转换、作业、数据库连接等对象)之间的关联关系难以处理,所以删除、重命名等操作会比较麻烦。
2、没有版本历史。
3、难以进行团队开发。
不使用资源库:使用svn进行文件版本控制。

三、管理资源库

1、ETL开发的几个阶段:开发、测试、确认、发布。
2、各阶段对应的资源库:开发资源库、测试(确认)资源库、发布资源库。
3、各阶段推进:
(1)从开发资源库到测试资源库:注意命名规则。由一个人统一发布,避免冲突。
两种移植方法:断开重连、导出/导入。
(2)从测试(确认)资源库到发布资源库: 导出/导入
不使用资源库SVN版本控制,测试打tag(标签),发布建branch(分支)。

四、资源库参数化

(一)为什么要参数化。

在资源库之间移植作业时,因为各个阶段的环境不一样,在作业里使用的数据库连接等元数据不能硬编码。

(二)参数化的方法

1、kettle.properties,文件位于java的user.home目录下。
2、自定义properties文件,通过属性文件输入步骤读取。

你可能感兴趣的:(大数据,Kettle,资源库)