SPOON使用简述(ETL)---加班get到新技能

-----------------简单理解--------------其实是百度的-----------------------

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库

ETL包含了三方面: 
抽取:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。 
转换:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。 
装载:将转换完的数据按计划增量或全部导入到数据仓库中。

-----------------------简单的操作方式----------------SHIFT哥讲了1h------------很有耐心------加班时候get到的新技能-----

(1)SPOON解压就能够使用

(2)解压后,

  • Spoon.bat:在windows 平台运行Spoon。
  • Spoon.sh:在 Linux、Apple OSX、Solaris 平台运行 Spoon。
(3)连接数据库,初始数据库,目标数据库

(4)有时候运行不上,在lib文件夹中添加,orail18n.jar、ojdbc6.jar

(5)输入、输出

(6)分别连接输入、输出的数据库,表

  双击数据库,填信息,可以测试是否连接,可以确定


(7)直接从左边拖图标到右边作业中,详细解析

网址:http://wenku.baidu.com/link?url=1AfKapKbPGJVCHXHVz9A-eWfz3EjYNPZgFUYA-hEeRlxBO1kdSu8dZBcxYjLrm_mUYZOE4O19JyTiE4oalxqEQlcuOM40v4iMYnT02xeZza

其实很多功能用不到,自己也没有真正试过,,,有兴趣可以研究下



表输入、输出,直接拖动到作业,点击编辑,输入:

输出:

输出映射:

(8)连接 shift 拖动鼠标


(9)没啥问题就开始转换吧。。。。从A表转换为B表。。。。


-------------------------比较常使用的-----------------------------------

(1)数据库查询

,说实话,自己都不太会用,一般情况是,查询不同表的内容

相当于根据表C的id查name,插到B当中,A当中只有id没有name 


(2)转换-值映射,数据字典一一对应

双击,

(这个问题犯过几个错,其实A-B的表转换当中,可以插入很多个值映射)

例如:



-------------折腾了几个小时的问题---------------

遇到SPOON错误,无法保存,或者一打开便显示问题

解决办法:到(~/.kettle/shared.xml)

文件目录下,删除(~/.kettle/shared.xml)文件,重启SPOON

附上网址:http://forums.pentaho.com/showthread.php?93473-Unexpected-problem-reading-shared-objects-from-XML-file-null

----------------提交GIT没提交上去--------最后才发现------文件夹没进去--------------------------------------------

可以先查看 git status 查看当前git状态

在Git需要上传的文件当中,(注意:需要进到需要上传的文件夹内)

提交Git的bush    ①git add -A(上传全部文件) 

                                         ②git commit -am(表示提交全部文件)

                                         ③git pull origin master (master为所在分支对应的master)

                                         ④git push origin master(master为所在分支对应的master)

你可能感兴趣的:(SPOON使用简述(ETL)---加班get到新技能)