数仓建模综述

数据建模是数据开发工作中的核心与基石,好的模型体系好处很
多:
降低成本:优秀的模型设计能够提升数据复用性,减少计算/存储
资源浪费
提升开发效率:优秀的模型设计能够降低数据使用门槛,减少工
作量
提升质量:优秀的模型设计能够保证数据口径一致,降低 bug 率
数据建模的实现方式有很多,常用的比如 ER 模型,Data Vault 模
型等。目前业界使用最多的模型是 Ralph Kimball 在《数据仓库工具》
中提出的维度建模模型,其中典型的代表如星型模型,雪花模型。一个
典型的维度建模一般需要经过如下几个步骤:
1.
业务调研:调研需要建模的业务形态,划分基本的业务线/数据域
2.
层次设计:定义数仓层级,保证各层级之间职责明确,划分清晰
3.
规范设计:定义数仓中表/字段的命名规范,建立统一的指标体系
4.
事实表设计:根据单一/复合业务过程确定事实表主题,确定最小
粒度
5.
维度表设计:根据业务确定实体,补充实体属性字段 优秀的层次设计
可以保证数仓表数量在可控范围内增长,同时保证数据
产出流逻辑清晰,便于后期维护和扩展。良好的规范设计规定了统一的
命名规则,保证各个业务过程的实体/指标的完备和唯一性。

你可能感兴趣的:(网络)