1数据仓库生命周期_技术路线(读书笔记)

1. 技术路径

3.1技术架构设计

3.1.1后台架构

  1. ETL流程

ETL处理流程主要由4个步骤:从源系统中抽取数据(Extract)、清洗(cleaning)、一致化转化(conforming)、数据提交(delivering)到呈现服务器上,以及对ETL过程和后台环境进行管理(managing)。

过程中,需要进行的工作包括:对多种类型的源数据格式的理解,数据探查、数据清洗、单元测试、系统测试、进入生产环节、文档编写。

数仓开发过程有70%时间花费在ETL过程中。

  1. 抽取

根据业务需求,确定要抽取哪些数据、应用哪些筛选条件。数据抽取相关的ETL功能:数据探查、变化数据捕捉、抽取系统。

  1. 清洗和一致化

数据从源系统抽取后,进行清洗和一致化处理,将数据转换成对业务有价值、可使用的、高质量的状态。例如,将旧的活动编码转换成新的编码、为预售查询生成虚拟用户ID。

清洗和一致化阶相关的ETL服务:数据清洗系统、错误时间跟踪、审计维的创建、复制、一致化。

  1. 提交

在对数据进行了适当的清洗和校准后,ETL过程将数据提交给呈现服务器。本阶段的服务包括:缓慢变化维(SCD)管理器、代理键发生器、分级管理器、专用维度管理器、事实表生成器、代理键管道、多值桥接表生成器、延迟到达数据处理器、维度管理器系统、事表提供者系统、聚集生成器、OLAP多维数据集生成器、数据传播管理器。

  1. ETL管理服务

包括:作业调度器、备份系统、回复和重启、版本控制、版本迁移、工作流程监视、排序、沿袭和依赖、问题自调整、并行处理和管道处理、合规性管理器、安全性、元数据知识库。

  1. ETL数据存储

实际的数据存储取决于具体的业务需求、源系统的稳定性、数据抽取和转换过程的复杂性。根据具体情况,确定数据的存储形式、备份存储时间周期。

数据质量和存储:在ETL流程中解决数据质量问题,存储清洗之前和之后的版本,便于进行数据审计和验证。

3.1.2呈现服务器架构

1.呈现服务器要满足的业务需求:

  • 支持访问所有主要业务过程数据
  • 支持访问汇总数据和原子数据
  • 支持单一来源的分析数据
  1. 设计细节原子数据维度模型:
  • 建立基于原子层的业务过程维度模型。
  • 建议将原子层数据存入维度模型,而不是规范模型中。原子层数据集使用企业总线举证定义的一致性维度和事实创建。因为维度模型是最好的用户访问模型,用户希望访问细节数据,便于跟踪维度随时间的变化情况。
  • 建立在关系型数据库而不是OLAP引擎中,因为关系型数据库能提供数据管理功能、易于访问、灵活。

3.建设聚集和聚集导航器:

  • 建立聚集逻辑层。改善汇总层性能,提高分析查询性能。可以在关系数据库、OLAP服务器或应用服务器上。

  • 建立万聚集后,需要配套建立聚集导航器,用于优化查询速度。接收基于原子层维度模型的用户查询,如果查询可以使用较小的聚集表来应答,则重写查询并提交数据库引擎。此过程对用户是无感知的。

4.呈现服务器包含以下具体内容:

  • 具有单一字段代理键的反规范化维度表
  • 类型1、2和3的缓慢变化维
  • 多值维和层次结构维
  • 基于企业总线结构的一致性维度和事实
  • 事务处理、周期快照和累计快照事实表
  • 面向性能的聚集、星型索引、位图索引和OLAP
  • 可选的实时BI应用程序专用热分区

3.1.3前台架构

  • BI应用程序类型:直接访问查询、标注报表、分析性应用程序、仪表板和记分卡、数据挖掘和模型运营BI、BI门户和自定义前端、移动端、即时BI
  • BI管理服务:元数据服务、安全服务、监控服务、查询管理、企业报表、web和门户服务。
  • BI数据存储:存储的报表、应用程序服务器缓存、局部用户数据库、一次性的分析性数据存储、分析性应用程序产生的结果、下游系统、数据存储安全。

3.2设计应用程序架构步骤

1.收集架构相关需求:收集业务需求、了解技术环境。
2.创建架构含义文档:

image.png

3.创建架构模型
4.确定架构实现的各个阶段
5.设计和描述子系统
6.创建应用程序架构设计文档
7.设计评审

3.3产品的选择和安装

  1. 硬件:评估数据规模、需要的容量、并发查询的负载量、查询工作量情况、数据的吞吐量、服务器内存及CPU配置。
  2. DBMS平台:关系型DBMS引擎、OLAP引擎的选择?
  3. ETL工具选择:
  4. BI工具:数据访问、BI工具。

你可能感兴趣的:(1数据仓库生命周期_技术路线(读书笔记))