python语言 实现数据仓库开发



数据仓库架构:stg—ods—dw—rep/dm/other,基本维度日期+产品。

使用python语言实现mysql oracleetl工作,文件落地方式。

定义hss函数,程序执行入口;定义general.py公共函数;开发python.py脚本。

 

数据架构,每一层根据业务设计规范规则

 

etl工作,extracttransformload

导出文件:数据库本身导出语句,

transform远程获取文件,python有封装好的包,也可以自己写

加载文件,数据库本身语句,

定义文件分隔符,定义文件格式

 

hss函数的实现,新建hsssh文本,

#!/usr/bin/bash

exec /usr/bin/python/ $0 $@($0是入参脚本名$@其他参数入参)

后面是python语言设计,检查环境配置,获取入参配置(对sh传参,再传参给python),实现灵活入参hss –s test.py –p etl_test –t 20170607 等,不像pythontest.py arg1 arg2 arg3必须指定每位的传参。

hss其实是个别名,hss = ‘sh /path/hss’

 

 

general.py定义公共函数。

 

python.py脚本,里面是一个过程,该过程被hss函数调用。

test.py

def Deal:

        try:

                  sql

        except:

                  异常


模板详见 《python语言 实现数据仓库开发 附件》

你可能感兴趣的:(python语言 实现数据仓库开发)