数据分层(方法论)

如何设计数据分层

数据仓库分为下面三个层:
数据运营层(ODS )
数据仓库层(DWD、DWB、DWS)
数据产品层(APP)

第1层:数据运营层(ODS: operational data store)

数据分层(方法论)_第1张图片
作用:数据抽取、数据溯源
在这层是简单的数据接入,原封不动地接入原始数据即可,数据的去噪、去重、异常值处理等过程放在后面的DWD层来做。

第2.1层:明细层(DWD: data warehouse detail)

数据分层(方法论)_第2张图片
作用:记账、发货使用
在这层不是简单的数据接入,而是要考虑一定的数据清洗,比如异常字段的处理、字段命名规范化、时间字段的统一等,一般这些很容易会被忽略,但是却至关重要。比如用户的资料信息来自于很多不同表,而且经常出现延迟丢数据等问题,为了方便各个使用方更好的使用数据,可以在这一层做屏蔽。

第2.2层:轻度汇总层(MID或DWB: data warehouse basis)

在这里插入图片描述
作用:用户结账,分析使用
DWB与DWD的主要区别在于二者的应用领域不同,DWD的数据来源于生产型系统,并未满足一些不可预见的需求;轻度综合层则面向分析型应用进行细粒度的统计和沉淀。

第2.3层:主题层(DM或DWS: data warehouse service)

在这里插入图片描述
作用:BI统计使用
主题层又称数据集市或宽表。按照业务划分,如流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。

第3层:应用层(APP)

应用层是根据业务需要,由前面三层数据统计而出的结果,可以直接提供查询展现,或导入至oracle/mysql中使用。比如出一张画像表:包含用户资料和用户近一年的行为。

其它层(DIM、TMP)

在这里插入图片描述
DIM作用:控制权限、分类统计使用

高基数维度数据:一般是用户资料表、商品资料表类似的资料表(数据量千万/亿级别)
低基数维度数据:一般是配置表,比如国家代码、大区代码、经销商代码;日期维表(数据量千/万级别)

你可能感兴趣的:(others,数据仓库,数据分析)