事务事实表、周期快照事实表、累计快照事实表对比

定义

  • 事实:度量,即数值型数据,例如金额。度量有有可加性、半可加性、不可加性之分。可加性是指可以按照任意维度进行聚合;半可加性是指只能按特定维度进行聚合,例如库存,只能按仓库进行聚合,而不能按时间进行聚合;对于比率型事实则不具备可加性。
  • 事务事实表:任何类型的事件都可以被理解为种事务。比如交易过程中的创建订单、买家付款,物流过程中的揽货、发货、签收,退款中的申请退款等,都可以被理解为一种事务。事务事实表,即针对这些过程构建的一类事实表,用以跟踪定义业务过程的个体行为,提供丰富的分析能力,作为数据仓库原子的明细数据。事务事实表用来描述业务过程,跟踪空间或时间上某点的度量事件,保存的是最原子的数据,也称为原子事实表。

事务事实表、周期快照事实表、累计快照事实表对比_第1张图片

  • 周期快照事实表:以具有规律性的、可预见的时间间隔记录事实 ,时间间隔如每天、每月、每年等,通常会有截至当日×××等字段(截至当日下单金额)

事务事实表、周期快照事实表、累计快照事实表对比_第2张图片

  • 快照事实表:用来表述过程开始和结束之间关键步骤事件,覆盖过程的整个生命周期,通常具有多个日期字段来记录关键时间点,当过程随着生命周期不断变化时,记录也会随着过程的变化而被修改。

事务事实表、周期快照事实表、累计快照事实表对比_第3张图片

区别

1、事务事实表是稀疏的,只有当天发生的业务过程,事实表才会记录该业务过程的事实,如下单、支付等;而快照事实表是稠密的,无论当天是否有业务过程发生,都会记录 行,比如针对卖家的历史至今的下单和支付金额,无论当天卖家是否有下单支付事实,都会给该卖家记录一行。
2、事务事实表是可加的,周期快照是半可加的
3、累计快照会记录整个业务过程,数据是不断更新的,而事务事实和周期快照则是不更新。

事务事实表、周期快照事实表、累计快照事实表对比_第4张图片

常用时间修饰符

事务事实表、周期快照事实表、累计快照事实表对比_第5张图片

维度和粒度

  • 维度:看数据的角度
  • 粒度:用于确定实表中一行所表示业务的细节层次,即用来确定一条数据

你可能感兴趣的:(数仓,架构,hive,java,hive,数据仓库)