大数据平台数据仓库分层

1、缓冲数据层BDM

源业务系统数据的快照,保存细节数据,按天保存。

2、基础数据层FDM

按业务概念组织细节数据。

3、通用数据层GDM

根据京东核心业务价值链按照星型模型或雪花模型设计方式建设的最细业务粒度汇总层。在本层需要进行指标与维度的标准化,保证指标数据的唯一性。

4、数据层ADM

根据不同的业务需求采用星型或雪花型模型设计方法构建的数据集市。

5、维度层DIM

维度是对具体分析对象的分析角度,维度要具备丰富的属性,历史信息的可追溯性,对通用的维表要保持一致性。

6、临时层TMP

用来降低加工过程计算难度,提高运行效率的临时表层。

数据层级

简称

表命名规范

常见分区使用方法

基础数据层

FDM

fdm表名=fdm_源库名称_源表名_加载策略(拉链表_chain,增量表_无后缀),即:
1、fdm拉链表:fdm_源库名称_源表名_chain
例如:fdm_bd_dms_sorting_chain
2、fdm增量表:fdm_源库名称_源表名
例如:fdm_bd_waybill_package_state

1、fdm拉链表:
(1)dp='ACTIVE':获取昨日线上最新数据,
使用推荐度为五星。
(2)、start_date<=#date# and end_date>#date#:还原某一天线上的数据;
对开发人员,涉及到历史数据重跑,使用比较多。
对业务人员,通常只需要获取昨日线上最新数据,推荐使用dp='ACTIVE',不推荐使用start_date<= sysdate(-1) and end_date> sysdate(-1),因为前者执行效率比后者高。
使用推荐度为五星(开发人员)和二星(业务人员)。
(3)、dp='HISTORY':获取有数据转结的表(即线上有历史库的情况,但是这样的表很少),
使用推荐度为二星。
(4)、dt = #date#,dp='EXPIRED':拉链表这样写法没有多少实际意义,不推荐使用dt分区。

2、fdm增量表:
dt = #date#、dt >= #date#,使用推荐度为五星。

通用数据层

GDM

gdm表名=gdm_主题前缀_主体_加工策略(全量表_da,非全量表-无后缀),即:
1、gdm全量表:gdm_主题前缀_主体_da
例如:gdm_m04_ord_amount_da
2、gdm增量表:gdm_主题前缀_主体
例如:gdm_online_log;gdm_m04_ord_sum

1、gdm全量表:
dt = sysdate(-1),获取最新全量数据。推荐使用度为五星。

2、gdm增量表:
gdm增量表通常有两大类,一类以gdm_online_log为代表,一类以gdm_m04_ord_sum为代表。
(1)、前者数据按“昨日”增量加工(分区字段为dt):
获取某天或某一时间段的数据:dt=#date#、dt >= #date#。使用推荐度为五星。
(2)、后者数据按“归档日期”增量加工(分区字段为dt、dp):
获取某天或某一时间段的数据:dt >= #date# + 时间字段。使用推荐度为五星。

注意:
1、由于GDM表加工比较灵活,使用之前建议务必弄清楚表的加工逻辑。
2、部分GDM表除了常见分区字段(dp、dt)外,还会特有分区字段。例如,gdm_m08_ib_biz_basic表的分区字段为:dp、wms_type_cd、dt

聚合数据层

ADM

表名= adm+主题英文简称+主体+后缀(日/周/月/季/年/)

根据表加工方式使用分区

维度层

DIM

表名= dim_主体

大部分维表没有分区,但是少部分维表存在分区,使用时候一定要注意。

应用层

APP

表名= app_主体_后缀

根据表加工方式使用分区

你可能感兴趣的:(大数据相关)