数仓架构层次

1. Source, 3NF/File, 源数据

2. Stg, 3NF,暂存数据(同源同构,不对外提供服务)

3. ODS, 3NF,操作数据(简单处理,提供基于业务数据的应用)

4. BL, Star, 明细数据(面向主题域,数据加工,产生衍生指标)

5. DM, Start, 汇总数据(特定领域的应用)

6. OLAP, Cube, 多维数据

7. Report。

 

最难:需求分析、模型设计

工作量最大:ETL(60-80%)

标准化:格式,缺省值,类型,长度,范围,去空格

Load: delete/rebuild index/RI

数据源调研:值域,空值,主外键,数据字典,ER关系,样本数据,业务规则

处理: Reject,error, rerun.

不要绝对正确,但要知道为什么不正确(统计口径)

你可能感兴趣的:(数仓)