数仓拉链表逻辑

  • 全量拉链

1、数从源库抽取全量数据,存储于数仓源层表的当日分区(SA表)

2、将数仓源层表当日分区的全量数据,转储进历史层当前表(SH表)

3、处理数仓历史层拉链表(SH_H表):将存在于数仓历史层拉链表(SH_H表)中,但是不存在于历史层当前表(SH表)的数据,进行关链(开链日期不变,关链日期为当天)

4、处理数仓历史层拉链表(SH_H表):将存在于数仓历史层拉链表(SH_H表)中,并且存在于历史层当前表(SH表)的数据(该部分数据是未更新或新增的数据,开链日期不变,关链日期为永久有效),UNION ALL上,存在于历史层当前表(SH表)的数据,但是不存在于历史层拉链表(SH_H表)的数据(该部分数据是更新或新增的数据,开链日期为当天,关链日期为永久有效),进行开链

  • 增量拉链
  • 流水

你可能感兴趣的:(ETL,ETL,拉链算法)