数据仓库实践-阿里云环境

         上一篇文章大致讲了数据仓库构建的理论部分,这一篇以实际工作为例,大致的整理下数据仓库的构建,也算是工作的总结;同时由于使用的是云平台,所以很多hadoop系列的技术问题基本都没有。

一、工作背景

       所在部门的主要业务主要做的是电商导购,主要数据分为订单业务数据和流量数据,由于不牵涉到订单结算和物流系统,所以业务相对较简单。订单数据很小,这一部分的处理不是大问题,每天定时业务库抽取,日志数据平均2000万+一天,数据落库主要由阿里云日志服务完成,整体来说落库部分较为简单。

二、整体架构

数据仓库实践-阿里云环境_第1张图片

 

三、数据表分层及调度任务构建

1、数据表分层:数据仓库实践-阿里云环境_第2张图片

2、阿里云的任务逻辑:

数据仓库实践-阿里云环境_第3张图片

3、调度任务构建

数据仓库实践-阿里云环境_第4张图片

四、后续值得完善地方

       1、现有任务的梳理,使得体系更加高效,还有就是节省计算资源

       2、基线任务的设立(我们任务量小,基本不会出现延时,大致了解下思想)

       3、任务监控的使用,由于基本没出现问题,目前暂无报警机制

       4、数据质量把控

 

五、数仓工作的必要性

      数仓规划不像大数据底层开发那么的有深度,对于一个有一定数据量的企业,个人认为还是很有必要的,如果只对大数据技术有追求,忽略数仓工作,随着数据量的增加,后续开发就会变得混乱,后续如果再回来弥补这个问题,工作变得异常复杂,新建一个房子可比拆了重建更好做一点。

你可能感兴趣的:(数据仓库,阿里云)