数仓初探

image.png

’## 数仓特征:

  • 面前主题:数据分析问题,一个主题对应一个分析领域,如:用户行为
  • 集成:面向企业级的数据,数据具有完整性,一致性,精准性
  • 变化:相对历史变化
  • 稳定:相对固定时间段数据稳定,无非幂等性操作

相对业务数据库区别

name 数仓 业务数据
状态 相对历史变化,当前稳定 实时变化
设计思想 违范式,冗余 范式,避免冗余
应用场景 面向分析 面向业务交易
处理量 高吞吐,有延迟 高并发,低延迟

建模步骤

业务模型 -----> 领域模型 ------> 逻辑模型 -------> 物理模型

  • 业务模型:对实际业务进行切切分,分解,如:电商网站,分解为交易模块,展示模块,物流模块
  • 领域模型:问自己5维度W,Who,Where,What,When,WHY
  • 逻辑模型:进行事实,度量,维度,实体间关系的构建
  • 物理模型: 具体数据库的字段类型,长度,约束等

建模方法

  • 三范式建模
    - 1NF 属性不可分,属性原子性
    - 2NF 非主属性完全依赖主属性
    - 3NF 不存在传递依赖
  • 维度建模
    - 星型模型维度有冗余
    - 雪花模型做更细粒度的维度
  • 实体建模
    将现实世界映射为:
    - 实体
    - 事件
    - 说明

建模方法选择

业务模型,领域模型阶段使用实体建模,基于事件分析
逻辑模型阶段使用维度建模

维度建模方法:

  • 选择业务过程
  • 声明粒度
  • 确定维度
  • 确定事实表

动词:事实表, 如: 启动App,观看视频
名词:维度,如:地域,日期

你可能感兴趣的:(数仓初探)