数据仓库知识小结(一)

定义及特点

数据仓库(Data Warehouse,简称DW)是面向主题的、集成的、稳定的、反映历史变化的数据集合。

面向主题

主题是业务数据特点的一种抽象表达,一般从主题名称字面意思即可大致了解主题下数据的业务意义。常见主题如客户主题,其下实体有客户基本信息、客户资产信息等等。

集成

包括数据的集成及编码规则的集成。数据仓库中的数据通常来自于各不同源业务应用系统,在入数据仓库时,这些数据可能被集成。另外,由于应用系统间各自独立,数据编码规则存在差异,为保证数据的一致性,编码规则需集成。如:A系统中A表存有客户张三的个人信息{name:‘张三’,sex:‘M’,address:‘长沙’},B系统中B表张三信息{name:‘张三’,sex:‘01’,age:27},那么在数仓客户主题下张三的信息为{name:‘张三’,sex:‘01’,age:27,address:‘长沙’},涉及的数据项被集成,字段sex编码规则统一处理。

稳定

数据仓库中的数据通常被用于决策分析之用,主要操作是加载、查询分析,而不是更新。

反映历史变化

数据仓库中的数据有着很长的时间周期,通过历史数据的分析可以很好得了解业务的变化情况,当然前提是数据仓库有着充足且有意义的业务数据作为积累。

组成

数据仓库系统的组成包括数据源分析、ETL、数据存储、元数据管理等。

数据源分析

数仓建设中,确定主题明确数据源是第一步。根据数据仓库中需要建设的实体分析源应用系统数据的数据范围、存储方式、更新方式等。

ETL

ETL是数据抽取(Extract)、转换(Transform)、装载(Load)的简称。抽取分为直接抽取和间接抽取,直接抽取即将数据从源应用业务库直接抽取至目标库,需要注意数据库的权限问题及不同种类库的语法问题。间接抽取即通过文件交换的方式进行传递,需要注意文件编码格式等。转换是将抽取的源数据转换成目标表所需的一个过程,如前文所述数据仓库编码统一即属于转换,又如常见的数据粒度由细到粗的聚合操作等。装载即将转换后的数据进行加载至目标库的过程,有全量加载、增量更新等。

存储结构

存储包括存储周期及存储粒度等。都是根据实际需要来确定。

元数据

元数据是数据产生的数据。包括技术元数据及业务元数据。
技术元数据:技术层面涉及的数据,如ETL中的抽取过程、加载策略等。
业务元数据:业务层面的数据,如数据模型信息及其属性等。
元数据在实际生产中具有重要作用,能帮助技术人员进行较好地维护数据质量,也能助业务人员更好地理解当前业务及系统数据。

数据仓库在逻辑上可分成操作型数据库、数据仓库层、数据集市层、数据分析应用层、报表展示层。

模型设计

数据模型是实体、属性、实体关系的一个描述。是用户需求的集中体现。可分为概念模型、逻辑模型、
物理模型。

概念模型

最高层次的数据模型,反映了数仓主题与业务的关系。主要从业务含义上进行主题划分,归纳主题域。

逻辑模型

以概念模型为基础,对概念模型进一步细化,直接反映业务部门的实际需求及业务规则。在某个主题域下进行具体业务分析,确定实体、实体属性及实体关系,一般遵循数据库第三范式。

物理模型

在物理模型的基础上,构建具体的物理机构。逻辑模型中的实体对应物理模型的表,属性对应物理模型中的列,实体间的关系即对应物理模型中的表间关联。

数据集市

数据集市是小型的数据仓库,是具有某个或某几个主题域或特定部门级的小型数仓。数据集市可以从属于数据仓库,也可独立于数仓,直接从应用系统取数。顾名思义,数据集市就是由有限个事实表及多个维表组成。模型设计通常为星型结构或雪花型结构。

星型模型:维表直接关联在事实表上,由于不需要外部其他关联,所以效率较高,但存在数据冗余情况。如区域维表中“湖南省长沙市岳麓区”及“湖南省长沙市天心区”两条记录中“湖南省长沙市”即出现了冗余。
雪花模型:星型模型的层次化,维表未直接关联在事实表上,而是通过某“主维表”进行中间关联。由于关联较多,效率较低,但无冗余。如雪花模型中区域维度将会分成省维表、市维表、区县维表等多个维表。

你可能感兴趣的:(数据仓库)