数仓原型设计

数据仓库原型设计

  • 一.何为数据仓库
  • 二.数仓名称说明
    • 2.1.DS:数据来源
    • 2.2.ODS: 原始数据层
      • 为什么需要ODS层?
    • 2.3.DW: 数据仓库
      • 数据仓库主要有以下三个特点:
      • 数据仓库的数据要为业务提供快速高效的分析,因此数据仓库只有满足一些要求,才能方便使用:
      • 根据数据仓库处理的数据层次不同,数据仓库主要分为基础层、主体层、数据集市这三层:
    • 2.4.DM: 数据应用层
      • 大数据的分析应用主要分为以下三种形式。
    • 2.5.元数据:企业自定义维护的基础数据
  • 三、数仓原型设计

一.何为数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

二.数仓名称说明

2.1.DS:数据来源

原始数据的来源,一般而言:数据分为内部来源,外部来源,而外部往往也会存在多种形式来源,有网页、接口、附件等。
一般由基础日志数据、业务线上库和其他来源数据获得。

2.2.ODS: 原始数据层

ODS层的特性较着重于查询,变动性大。

ODS全称为Operational Data Store,翻译成中文为操作型数据存储,是面向主题的、集成的、可变的、反映当前数据值的、详细的数据的集合,用来满足企业综合的、集成的和操作性的处理要求。
对于ODS层而言,客户端用户操作日志是一个主要的数据来源,它是分析App和产品优化的基础;另一部分来源于业务的数据库。

ODS层的表通常包括两类,一类用于存储当前需要加载的数据,另一类用于存储完后的历史数据。

为什么需要ODS层?

a.	在业务系统和数据仓库之间形成一个隔离层。
一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置,不同的数据库,不同的应用之中,从这些业务系统中对数据进行抽取并不是一件容易的事情。因此,ODS层用于存放从业务系统中直接抽取来的数据,这些数据从数据结构、数据之间的逻辑关系都与业务系统基本保持一致,因此在抽取过程中极大地降低了数据转化的复杂性,而主要关注数据抽取的接口,数据量大小,抽取方式等方面的问题。

b.	转移一部分业务系统细节查询的功能
在数据仓库建立之前,大量的报表,分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统运行产生了相当大的压力。ODS层的数据在粒度、组织方式等方面都保存了与业务系统的一致,那么原来由业务系统产生的报表、详细数据的查询自然能够从ODS层进行,从而降低了业务系统的查询压力。

c.	完成数据仓库中不能完成的一些功能
一般来说,在带有ODS层的数据仓库体系结构中,数据仓库所存储的数据,都是汇总过的数据和运营指标,并不存储每笔交易产生的详细数据,但是在某些特殊的应用中,可能需要对交易详细数据进行查询。既数据仓库从宏观角度满足企业的决策支持要求,而ODS层则从微观角度反应细节交易数据或者低粒度的数据查询要求。

2.3.DW: 数据仓库

数据仓库的数据来自对ODS层的数据经过ETL(抽取Extra, 转化Transfer, 装载Load)处理。ETL是大数据平台的流水线,也可以认为是平台的血液、它维系着平台中数据的新陈代谢,而大数据平台日常的管理和维护工作的大部分精力就是保存ETL的正常与稳定。

数据仓库的主要功能是以ODS层数据为基础,通过逻辑加工产出数据仓库主题表,数据仓库又细分为基础层、主题层和数据集市。

数据仓库通常为企业层级,用来解决及实性,临时性的问题,数据集市则较偏向解决特定业务的问题,部分采用维度模型。

ODS层是当前的、不断变化的数据,而数据仓库保留的是历史的、不在变化的数据,所以一般来说会落后ODS层一天或一天以上的数据。ODS层按分钟级别捕捉生产系统的数据变化,然后可以每天将归档后的数据加载到数据仓库中,归档的标记为这条记录是否已完成。

数据仓库主要有以下三个特点:

a.	数据仓库是面向主题的,它会按照一定的主题进行组织。主体是指业务方使用数据仓库决策时所关心的重点方向,一般会根据业务线情况划分。

b.	数据仓库是集成的,数据仓库中的数据可能来源于多个数据源,数据仓库会将需要的数据从中抽取出来,然后进一步转化、清洗、再集成到数据仓库中。

c.	数据仓库是不可更新的,数据仓库主要是为了业务提供分析决策的数据,因此,对数据的主要操作都是查询。

数据仓库的数据要为业务提供快速高效的分析,因此数据仓库只有满足一些要求,才能方便使用:

a. 效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,以日为周期的数据要求的效率最高。

b. 数据质量。数据仓处理流程通常分为多个步骤,包括数据清洗、转换、装载等,如果数据质量控制不好,导致出现脏数据,就会影响整个仓库的质量,如果基于错误的数据分析,就可能导致做出错误的决策。

c. 可拓展性。可拓展性主要体现在数据建模的合理性,便于以后因为业务规模发生变化而不用重复造轮子。

根据数据仓库处理的数据层次不同,数据仓库主要分为基础层、主体层、数据集市这三层:

a. 基础层:对ODS层的数据进行轻度汇总,产出轻度汇总明细、维度表、码表、事实集等一些基础数据。

b. 主题层:为数据的高度聚合层,按照一定的维度和业务逻辑,对一类数据进行聚合,主要生成画像表和主题表。主题层的数据来源是基础层和ODS层。

c. 数据集市:也叫数据市场,主要功能是将主题层和基础层的数据按各业务需求进行聚合,生成宽表和Cube,并直接推送给数据分析和业务部门使用。

2.4.DM: 数据应用层

数据应用层主要应用于消费数据仓库的数据。

大数据的分析应用主要分为以下三种形式。

a. 描述性分析应用。主要用来描述所关注的业务的数据表现,主要关注事情表面发送了什么,在数据分析之后,把数据可视化展现出来,让用户可以了解业务的发展情况。	

b. 预测分析应用。在描述性数据的基础上,数据历史数据情况,在一定的算法和模型的指导下,进一步预测业务的数据趋势。
	
c. 指导性分析应用。基于现有的数据和对未来的预测情况,可以用来指导完成一些业务决策和建议。
如果单纯以数字的形式把数据展现给用户,那么可视化程度很低,使用者很难理解和快速获取信息,而大数据分析平台、用户行为分析平台这种平台化的产品,可以把上面提到的三种形式的分析数据已表格、折线图、地图等可视化方式展现给用户、降低数据展现的门槛,提高数据的获取效率。

2.5.元数据:企业自定义维护的基础数据

三、数仓原型设计

数仓原型设计_第1张图片

你可能感兴趣的:(数据仓库)