数仓规范随记

数仓分层

以《大数据之路:阿里巴巴大数据实践》中五层(ods/dwd/dws/dim/ads)分类为基础划分,有序列表记录是分层大类,分层大类下的无需列表是分层小类或者说真正落地的:

  1. ods: 近源层/贴源层/数据Stage层
    • stgb: 从业务系统同步过来的原始数据,不保留历史数据
    • stgd: 类似stgb,但利用「拉链表」保留历史数据
  2. dw: 数仓
    • dwd: 数据明细层(Data Warehouse Detail),将相同主题的数据冗余处理,汇集到一张表中,提高可用性「主题宽表」
      • 实际使用中也会在该层进行简单的数据清洗与转滤
    • dwm: 数据中间层(Data WareHouse Middle),对数据做轻度聚合,提升公共指标的复用性
      • 在 DWM 层先计算出多个小的中间表,然后再拼接成一张 DWS 的宽表
    • dws : 数据服务层(Data WareHouse Servce),按照业务划分,生成大宽表,用户后续报表/业务查询、OLAP分析
      • dws层的表实际中需要推送到关系型数据库中,所以dws附带一层
  3. ads: 未启用

命名规范

  • td: table dimension 维度表
  • tm: table master 主数据表
  • tt: table transaction 事实明细表
  • ta: table aggregation 聚合结果表
  • tc: table code 码表

你可能感兴趣的:(总结,大数据)