ETL总结

Tagetik ETL 网络结构如下:

   ETL总结_第1张图片

基础知识:

  1.一般企业系统较多,系统与系统之间要共享数据,需要建立一个数据仓库,如上图所示,ODS就是系统仓库,他的存在为系统间共享数据提供可能。ODS的表必须与数据来源系统的表一致,不应该因其他需求修改表,如建索引增加除标识字段以外的字段,以保证其他系统拿到的数据是纯净的数据。


  2.Tagetik EDW 仓库为访问ODS,一般使用数据库连接来实现。这里的EDW仓库和TA数据库代表的都是物理数据库集合。他们都是Tagetik应用直接访问的数据库,也可以说EDW等于Tagetik数据库集合。 TA的ETL是软件自集成的功能,在TA WEB后台完成。


  3.常用的ETL最终需要定时JOB。


Domain:

  整个ETL的基础配置包含在DOMAIN中,DOMAIN可以理解成ETL实例的原材料容器,其中包含:维度和字典、参数、数据源、查找表、上载目标等。


Rountine:

  ETL的实例程序,他是根据DOMAIN中的“原材料”来定制一个ETL的程序。


Job:

  批量运行ROUTINE,它只会运行ROUTINE配置时激活的配置。


TA ETL数据流动:

    ETL总结_第2张图片


对于复杂的情景无法通过ETL完成抽数,可以使用存储过程来写入数据。



问题总结:

1.运行ROUTINE/JOB在上载数据的时候,数据处理框中实例一直在运行、卡主。结束实例短时间无效。原因是因为在运行ETL的前后,上载目标表有相应DML操作没有被提交导致的。

2.对于维度上数据在数据提取前已经存在数据的情况,应该在数据源中添加该字段,并给对应维度赋值,否则会报空指针异常。

你可能感兴趣的:(ETL总结)