清晰的数据仓库ETL流程(有干货)

数据仓库ETL流程

      • 整体思路
      • 具体步骤
        • 1.工具
        • 2.流程
        • 3.小结
      • 总结

整体思路

要想开发一个完整的数据仓库etl流程必须先从整个项目的结构层次入手,逐个剖析每一层的程序,在纸上画出整个的流程图,剩下的就自然而然攻克了,下面请看具体的步骤。

具体步骤

1.工具

我们整个项目数据库用的是行云数据库,ETL工具用的是control-m,后台我用的是python语言开发的整个的流程,操作数据库是通过java程序通过jdbc连接行云数据库(此处是因为行云数据库只能通过Java程序jdbc驱动连接,一般的数据库可以通过Linux数据库客户端连接或通过python的第三方数据库模块包连接)。

2.流程

(1)比如先把每一层的存储过程开发出来,
(2)通过python程序(当然也可以是shell脚本)调用Java程序连接数据库执行加载数据或者执行存储过程的语句(公共的程序可以通过输入表名称和跑批日期区分),
(3)接下来是在control-m中通过配置shell脚本的方式将每一个表执行的程序当作一个作业配置在control-m中,
(4)通过存储过程中的来源表名配置control-m的作业依赖触发。

3.小结

相信你已经基本上了解了整个数据仓库的ETL流程了,接下来还有一个关键的问题是作为一个下游系统你知道怎么传数到程序的指定目录吗?欢迎在留言区和我分享。
清晰的数据仓库ETL流程(有干货)_第1张图片

总结

本文讲述了整个数据仓库的流程,给读者清晰的描绘了一个新项目应该怎么开发ETL流程,希望对读者有所帮助。

你可能感兴趣的:(数据,感悟,python,java,数据仓库,linux,hadoop)