DAMA数据治理学习笔记-数据仓库和商业智能(DW/BI)

数据仓库和商业智能(DW/BI)

企业数据仓库提供了一种减少数据冗余、提高信息一致性,让企业能够利用数据做出更优决策的方法

定义

  • 通过规划、实施和控制过程,来提供决策支持数据,支持从事报告、查询和分析的知识工作者

商业智能的两层含义

  1. 理解组织诉求和寻找商业机会的商业分析活动,分析结果用来提高组织决策的成功率
  2. 支持1这类分析活动的技术合集

业务驱动因素

  • 运营支持职能、合规需求和商务职能活动

目标

  • 建立和维护提供集成数据所需的技术环境、技术和业务流程,以支持运营功能、合规性要求和商务智能活动
  • 支持和赋能只是工作者进行有效的业务分析和决策

数仓建设目标

  • 支持商务智能活动
  • 赋能商业分析和高效决策
  • 基于数据洞察寻找创新方法

数仓建设应遵循原则

  • 聚焦业务目标
  • 以终为始
  • 全局性的思考和设计,局部性的行动和建设
  • 总结并持续优化,而不是一开始就这样
  • 提升透明度和自助服务
  • 与数据仓库一起建立元数据
  • 协同
  • 不要千篇一律

两位思想领袖比尔·恩门(Bill Inmon) 和拉尔夫·金博尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模

Inmon和Kimball相似的核心理念

  • 数据仓库存储的数据来自其他系统
  • 存储行为包括以提升数据价值的方式来整合数据
  • 数据仓库便于数据被访问和分析使用
  • 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
  • 数据仓库建设有很多目的,涵盖工作流支持、运营管理和预测分析

Inmon企业信息工厂

比尔·恩门在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合

DAMA数据治理学习笔记-数据仓库和商业智能(DW/BI)_第1张图片

  • 面向主题的
  • 整合的
  • 随时间变化的
  • 稳定的
  • 聚合数据和明细数据
  • 历史的
组成部分
  • 应用程序
  • 数据暂存区
  • 集成和转化
  • 操作型数据存储(ODS)
  • 数据集市
  • 操作型数据集市(OpDM)
  • 数据仓库
  • 运营报告
  • 参考数据、主数据和外部数据

数据从左到右流动带来的变化

  1. 目标从业务功能的执行转向数据分析
  2. 系统最重用户从一线业务人员变成企业决策者
  3. 系统使用从固定操作转向即席查询
  4. 响应时间的要求不再重要
  5. 每个操作、查询或流程设计更多数据

数据仓库和数据集市的数据与应用程序的数据不同

  1. 数据的组织形式是按主题域而不是按功能需要
  2. 数据是整合的数据,而不是‘孤立’的烟囱数据
  3. 数据是随时间变化的系列数据,而非仅当前时间的值
  4. 数据在数据仓库中的延迟比在应用程序中高
  5. 数据仓库中提供的历史数据比应用程序中提供的历史数据多

Kimball多维数据仓库

拉尔夫·金博尔在《数据仓库工具箱》(The DataWarehouse Toolkit)中提出:主张自下而上(DMDW)的方式,力推数据集市建设,他定义为“为查询和分析定制的交易数据的副本

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jYB84y4e-1668067908028)(./kimball.png)]

组件

  1. 业务源系统
  2. 数据暂存区域
  3. 数据展示区域
  4. 数据访问工具

加载处理方式

历史数据

  1. Inmon 类型的数据仓库建议所有数据存储在单个数据仓库层中。这一层中存储已清洗过的、标准化的和受管控的原子级数据。
  2. Kimball 类型的数据仓库建议,数据仓库由包含已清洗过的、标准化的和受管控数据的部门级数据集市合并而成。数据集市将在原子级别存储历史记录,由一致性维度表和一致性事实表提供企业级信息。
  3. Data Vault 作为数据暂存处理的一部分,同样进行数据清洗和标准化。历史数据以规范化的原子结构存储,每个维度定义了代理键(Surrogate key)、主键(Primary key)、备用键(Alternate key)

批量变更数据捕获

方法 对源系统要求 复杂度 事实表加载 维表加载 重叠 删除
时间戳增量加载 源系统中的变化由系统日期和时间戳标识
日志表增加加载 捕获源系统中的变化并记录在日志表 普通 普通
数据库交易日志 在交易日志记录数据库变化 普通 普通
消息增量 源系统中的变化发布在实时消息(队列) 极高
全量加载 没有更改标识符,抽取全表数据并比较判断改动 级低 普通

准实时、实时、数据加载

  • 涓流式(源端累积)
  • 消息传送(总线累积)
  • 流式传送(目标端累积)

活动

  • 理解需求
  • 定义和维护DW&BI架构(技术架构、管理流程)
  • 开发数据仓库和数据集市(数据、技术、工具并行 1.从源映射到目标 2.修正和转换数据)
  • 加载数据仓库
  • 实施BI产品组合(1.根据需要给用户分组 2.将工具与用户要求相匹配)
  • 维护数据产品 (1.发布管理 2.管理数据产品开发生命周期 3.监控和调优加载过程 4.监控和调优商务智能活动和性能)

工具

  • 元数据存储库
  • 数据集成工具
  • 商务智能工具

常见的OLAP操作

  • 切片(Slise)
  • 切块(Dice)
  • 向下/向上钻取(Drill down/up)
  • 向上卷积(Roll-up)
  • 透视

三种经典的OLAP实现方法

  • ROLAP 关系型联机分析处理
  • MOLAP 多维矩阵型联机分析处理
  • HOLAP 混合型联机分析处理

方法

  • 驱动需求的原型
  • 自助式商务智能
  • 可查询的审计数据

实施指南

  1. 就需评估/风险评估
  2. 版本路线图
  3. 配置管理
  4. 组织与文化变革

数据仓库&BI治理

  • 业务接受度
  • 客户/用户满意度
  • 服务水平协议
  • 报表策略

度量指标

  • 使用指标
  • 主题域覆盖率
  • 响应时间和性能指标

你可能感兴趣的:(DAMA数据治理学习笔记,数据仓库,学习,数据挖掘)