DataStage组成:
DataStage Designer(设计者):用来创建DataStage Job(作业)的设计接口。每个作业都指定数据源,所需的转换和数据的目的地。作业被编译成可执行的,由Director计划,由Server运行。
DataStage Director(指挥者):用来验证,计划时间,运行,监控DataStage的作业。
DataStage Manager(管理者):用来查看,编辑Repository的内容。
DataStage Administrator(主管):用于创建DataStage用户,创建,移动项目。
 
DataStage安装:
挺简单的,一路Next,当然首先你必须要有授权才行,:)
 
DataStage简单举例(以下例子均在Server Job下运行通过):
 
功能:实现将某个定长文本文件中的数据导入到Oracle数据库中。
总结:功能虽然简单,但是体现了整个ETL过程,即:从数据的抽取到数据的转换最后加载数据到指定库的过程。
附图:
DataStage实践之简单入门_第1张图片
各部分说明:
Sequential_File_0(序列文件):数据源文件,可以是.txt,.del等任何顺序文件。主要需要设置Outputs->General中的File name属性,选定来源文件;然后需要设置该文件所对应的结构,用Outputs->Columns->Load......来加载你所需要的结构。
 
Transformer(转换所用到的Stage组件):主要需要设置其“转换规则”(个人理解),当数据从Sequential_File_0中读出来的时候,按照相应的“规则”再加载到数据库中,其实也就是对数据实现清洗的过程,当然还有去重等等之类,在这里的例子比较简单,所以不需要对数据进行任何处理。该组件虽然使用很简单,但是效率却不是很好,所以在具体的实践中应尽量少用该组件。
 
Oracle_OCI_9(Oracle组件):DataStage之所以能够完成对异构数据库进行统一处理,最主要的原因我想就在于此吧!它提供了众多的数据库Stage,如DB2,Informix,Oracle,Sybase等等,即使你都不用,你还可以通过ODBC来完成对数据库的链接,一个字:强!这里对Oracle_OCI_9组件的设置主要在于对DataBase Source Name(数据库实例名称),User ID(表空间名称),Password(表空间密码)的设置,以及对某张表名,表结构的设置等等。
各部分设置附图:
Sequential_File_0:
DataStage实践之简单入门_第2张图片
 
DataStage实践之简单入门_第3张图片
Transformer:
DataStage实践之简单入门_第4张图片
Oracle_OCI_9:
DataStage实践之简单入门_第5张图片
DataStage实践之简单入门_第6张图片
DataStage实践之简单入门_第7张图片
 
经验总结:在运行时可能会遇到问题,用Director可以查看其报的错以及警告信息,不错哦!!