有关数据仓库基本概念

1.什么是数据仓库:
  是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
  是一个将源系统抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支撑与实现。

2.相关数据管理技术和概念:数据仓库、数据建模、数据质量、数据规范、数据安全和元数据管理。
  数据探查:对数据本身和关联关系等进行分析。
  数据集成:ETL。所需要的工具,Kettle、Talend、Hive、Spark等
  数据质量:完整性、一致性、准确性、及时性
  元数据管理:
  数据屏蔽:对数据进行脱敏,进行不可逆的处理,能满足开发测试和统计分析使用
  
3.数据仓库分层:
 ODS原始数据层(Operational Data Source):数据同步、基本保持与源数据格式一致,不必过多校验。
 DIM维度表(Dimension):一致性维度建设
 DW层:通过ODS层经过ETL清洗、转换、加载生成的,基于维度建模理论来构建,通过一致性维度和数据总线来保证各个子主题的维度一致性。(主题)
 DWD明细数据层(Data Warehouse Detail):保存最细粒度的事实表和维度表。标准化、维度补全、异常处理。是业务层与数据仓库的隔离层。去除空值,脏数据,超过极限范围的;明细解析;具体表。对ODS层做一定的清洗和主题汇总
 DWM数据中间层(Data WareHouse Middle):该层会在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。
 DWS汇总层(Data Warehouse Summary):设计主要是出于性能以及避免重复计算考虑,如何设计需要根据业务需求以及明细层实际汇总频率来确定。单业务场景、行为数据组装、提升公共指标的复用。基于DWM上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。
 例如针对统计日活的需求,DWS 主要的工作就进行以日为单位的去重操作。
 APP数据应用层(Application Model)/ADS:个性化指标加工、基于应用的数据组装。前端报表展示,主题分析,kpi报表。和业务强相关的报表层。(业务)
 1.业务个性化数据
 2.服务于特定场景,复用性不强
有关数据仓库基本概念_第1张图片
4.OLAP与OLTP
  OLTP(On-line Transaction Processing):主要用于事务处理
  OLAP(On-line Analytical Processing): 分析型数据库,满足分析人员的统计需求发展起来的
  OLAP需要列式存储:列存储的类型是固定的,可以很容易采用高压缩比的算法进行压缩和解压缩,磁盘I/O会大大减少,列存储只需要读取对应的列,不需要读取整个表的所有字段进行处理。

5.数据建模的三个阶段:
  1.概念模型:
    主要是通过分析和归纳,将业务划分成几个主题,并确定主题之间的关系。
    比如:
    电影行业:影院,影片,影人,用户,订单,渠道,发行等。
    出行行业:司机,乘客,订单,支付,车辆等。
  2.逻辑模型:
    在概念建模的基础上,定义数据仓库各种实体、属性、关系、指导后续的数据存储、组织和数据应用的开发。目前比较流行的建模理论为Inmon提出的自上而下(EDW-DM)的范式建模理论和Kimball的从下而上的(DM-DW)的维度建模理论。
    范式建模:3范式(原子性、唯一性、独立性)
        优点:节约存储、结构清晰、易于理解、适合关系数据库。
        缺点:构建比较繁琐、查询复杂、不适合构建在大数据分布式环境下。
    维度建模:星型、雪花型(在星型模型基础上,基于范式理论进一步层次化)
        优点:方便使用、适合大数据下的数据处理、适合进行OLAP操作。
        缺点:维度补全造成的数据存储的浪费、维度变化造成的数据更新量大、与范式理论差异很大,是典型的反三范式。
  3.物理模型:
    根据逻辑模型设计的结构为基础,设计数据对象的物理实现,比如表的命名规范、字段的命名规范、字段类型选择、分区设置、存储设置、更行方式等等。

6.维度建模的4个步骤
  1.选择业务过程:
    业务过程是一系列操作活动,转换为事实表中的事实,例如每个月每个账单快照。
    eg:用户购买商品的订单记录表
  2.声明粒度:
    粒度是指事实表中的一行代表什么。同一事实表不要混用粒度,最好从最小粒度开始设计维度,因其能承受用户无法预知的查询需求。
    eg:每一条记录代表一个有效订单
  3.确认维度:
    1.维度是根据粒度将表分开成多个维度表,即从不同维度(角度)去看。 
    2.维度是数据仓库的灵魂,是BI的入口和驱动。
    eg:商品维度、用户维度、支付维度、收获维度
  4.确认事实:
    事实是指一种在某个粒度下的度量,例如在销售维度中,销量和总额是良好的事实,而商店经理的工资则不允许出现在该维度中。
    eg:订单总金额

7.数据湖与数据仓库:
  数据湖存储结构化、半结构化和非结构化数据,同时存放所有数据,不仅包括现在需要用到的数据,也包括以后会用到的数据或者压根不用的数据;而数据仓库通常存放的是经过处理、结构化的数据。

8.事实表、实体表与维度表:
  事实表是数据仓库结构中的中央表,它包含联系事实与维度表的数字度量值和键。
    事务型事实表,一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。一般比如,交易流水,操作日志,出库入库记录等等。
    因为数据不会变化,而且数据量巨大,所以每天只同步新增数据即可,所以可以做成每日增量表,即每日创建一个分区存储。
    周期型事实表,一般指随着业务发生不断产生的数据。
    与事务型不同的是,数据会随着业务周期性的推进而变化。
    比如订单,其中订单状态会周期性变化。再比如,请假、贷款申请,随着批复状态在周期性变化。所以要用利用每日新增和变化表,制作一张拉链表,以方便的取到某个时间切片的快照数据。所以我们需要得到每日新增及变化量。
  实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。
    实体表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。
  维度表就是你观察该事务的角度,是从哪个角度去观察这个内容的。一般是指对应一些业务状态,编号的解释表。也可以称之为码表。
    比如地区表,订单状态,支付方式,审批状态,商品分类等等。
    维度表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。
  例如,某地区商品的销量,是从地区这个角度观察商品销量的。事实表就是销量表,维度表就是地区表。

9.数据同步策略
  数据同步策略的类型包括:全量表、增量表、新增及变化表、拉链表
  全量表:存储完整的数据。实体表、维度表
  增量表:存储新增加的数据。事务型事实表
  新增及变化表:存储新增加的数据和变化的数据。周期型事实表
  拉链表:对新增及变化表做定期合并。周期型事实表

你可能感兴趣的:(大数据)