《数据仓库工具箱》读书笔记(三):维度建模宏观知识

第十七章 Kimball DWBI生命周期

第十八章 维度建模过程与任务

一、组织工作

1、确定参与人,特别是业务方参与人
2、业务需求评审
3、利用建模工具
4、利用数据分析工具
5、利用或建立命名规则
6、日历和设施的协调

二、维度模型设计

1、统一高层气泡图理解



2、开发详细的唯独模型
3、模型评审与验证
4、形成设计文档

第十九章 ETL子系统与技术

一、需求综合

需要考虑的点:业务需求、合规性、数据质量、安全性、数据集成、数据延迟、血缘关系、BI数据发布接口等

二、子系统

从四个方面考虑
1、获取:将数据插入到数据仓库中
2、清洗与转换
错误事件处理、数据清洗、审计维度、重复数据清洗、一致性控制
3、发布
维度管理相关组建、事实表建立、桥接表建立、迟到数据处理、聚集建立
4、管理
任务调度、备份、恢复与重启、版本控制、监控

第二十章 ETL系统设计与开发过程和任务

一、ETL开发规范

1、设计高层规划
2、选择ETL工具
3、开发默认策略
4、按照目标表钻取数据
5、历史数据填充维表
6、事实表加载
7、维度表增量处理
8、事实表增量处理
9、聚集表与OLAP加载
10、ETL系统操作与自动化

二、实时数据


1、替换批处理文件,数据源来自日志、消息队列
2、限制数据质量检查,实时数据可能数据质量检查不能太严格
3、连接事实与维度,维表可能事先加载,维度更新没办法做到非常及时
4、消除数据过渡区

第二十一章 大数据分析

一、大数据结构最佳实践

1、规划数据通道



从左到右,时效性递减
2、建立针对大数据的事实获取器
3、建立完整的生态系统
4、制定数据质量规划
5、尽可能提高数据价值
尽可能早地在切入点应用过滤、清晰、剪枝、一致性、匹配、连接和诊断。
6、实现前期缓存的回流
比如将维度等可控内容尽早与数据连接
7、实现数据流
8、避免无法扩展的限制
9、将原型移动到私有云
10、改进性能
11、监视计算资源
12、利用内置数据库分析

二、数据建模最佳实践

1、维度思考
2、集成不同的包含一致性维度的数据源
3、使用持久性代理键定位维度
4、集成结构化与非结构化数据
5、使用缓慢变化维度
6、分析时定义数据结构
7、以key-value形式加载数据
8、利用数据虚拟化快速原型

三、数据治理最佳实践

1、数据治理应高包含隐私、安全、兼容性、数据质量、元数据管理、主数据管理、环境定义、术语定义
2、数据治理前,数据应当维度化
3、不要在大数据应用已到达高峰才开始治理

你可能感兴趣的:(《数据仓库工具箱》读书笔记(三):维度建模宏观知识)