构建数仓的一些基本原则

1,高内聚和低耦合

一个逻辑或者物理模型由哪些记录和字段组成,应该遵循最基本的软件设计方法的高内聚和低耦合原则。主要从数据业务特性和访问特性两个角度来考虑:将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型;将高概率同时访问的数据放一起,将低概率同时访问的数据分开储存

2,核心模型与扩展模型分离

建立核心模型与扩展模型体系,核心模型包括的字段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应用的需要,不能让扩展模型的字段过度侵入核心模型,以免破坏核心模型的架构间接性和可维护性

3,公共处理逻辑下沉及单一

越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实现,不要让公用的处理逻辑暴露给应用层实现,不要让公共逻辑多处同时存在

4,成本与性能平衡

适当的数据冗余可以换取查询和刷新的性能,但是不宜过度的冗余与数据复制

5,数据可回滚

处理逻辑不变的情况下,在不同时间多次运行数据,它的数据结果是确定不变的

6,一致性

具有相同含义的字段,在不同表中的命名必须相同,必须使用规范定义中的名称

7,命名清晰、可理解

表命名需要清晰,一直,表明易于消费者理解和使用

你可能感兴趣的:(数仓)