离线数仓常见问题

1. 数据漂移

ODS的表在同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据

2. 维度建模与ER建模

3. 缓慢变化维

维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化

4. 退化维

5. 星形模型与雪花模型

6. 拉链表、流水表、全量表、增量表

  • 全量表:每天的所有的最新状态的数据,
  • 增量表:每天的新增数据,增量数据是上次导出之后的新数据。
  • 拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。
  • 流水表: 对于表的每一个修改都会记录,可以用于反映实际记录的变更。 

7. 今天1点跑完昨天的数据,但昨天有些数据在今天3点才传过来

8. 昨天订单1000,今天有昨日订单退单的100单,如何让昨天订单刷为900

你可能感兴趣的:(大数据)