三十三、数据仓库的概述

1. 数据仓库的概述

1.1 数据仓库的基本内容

数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成和数据变换,可以看作数据挖掘的一个重要预处理步骤。此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。数据仓库的基本内容包括:

  • 什么是数据仓库
  • 操作数据库与数据仓库的区别
  • 分离的数据仓库
  • 数据仓库模型
  • 数据提取变换和转入
  • 元数据库

2. 什么是数据仓库?

2.1 数据仓库的基本概念

  • 数据仓库已有多种定义方式,很难给出一种严格的定义。通俗地讲,数据仓库是一种数据库,它与单位的操作数据库分别维护。数据仓库系统允许将各种应用集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
    三十三、数据仓库的概述_第1张图片

2.2 数据仓库的关键特征
数据仓库可以看成是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理的决策过程。

  • 面向主题的:数据仓库围绕一些重要主题,如果顾客、供应商、产品和销售组织。
  • 集成的:通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。
  • 时变的:数据存储从历史的角度提供信息。数据仓库种的关键结构都隐式或显示的包含时间元素。
  • 非易失的:数据仓库总是物理地分离存放数据,这些数据源于操作环境下的一个用数据。

3 数据的仓库的基本内容之二

3.1 操作数据库与数据仓库的区别

  • 联机操作数据库(OLTP)的主要任务式执行联机事务和查询处理。
  • 用不同的格式组织和提供数据,以便满足不同用户的形形色色的需求,这种系统称做联机分析处理(OLAP)。

三十三、数据仓库的概述_第2张图片

3.2 分离的数据仓库

  • 操作数据库中存放了大量的数据。为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造分离的数据仓库?
  • 分离的主要原因是提高两个系统的性能。
  • 数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的基于多维视图的数据
  • 织、存取方法和实现方法。在操作数据库上处理OLAP查询,可能会大大降低操作任务的性能。
  • 数据仓库与操作数据库分离式由于这两种系统的中的数据结构、内容和用法都不相同。

数据仓库的三层体系结构

  • 底层是仓库数据库服务器:通常是一个关系数据库系统。
  • 中间层是OLAP服务器
  • 顶层是前端客户层,它包括查询和报告工具,分析工具/或数据挖掘工具

三十三、数据仓库的概述_第3张图片

4 数据仓库的基本内容之三

4.1 数据仓库的模型
从结构的角度看,有三种数据仓库模型:企业仓库、数据集市和虚拟仓库。

  • 企业仓库:企业仓库搜集了关于主题的所有信息,跨越整个企业。它提供了企业范围内的数据集成,通常来自一个或多个操作系统数据库系统或外部信息提供者,并且是多功能的。
  • 数据集市:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。例如销售数据集可能限定其主题为顾客、商品和销售。
  • 虚拟仓库:虚拟仓库是操作数据库上视图的集合。为了有效地的处理查询,只有一些可能的汇总视图被物化。

4.2 数据提取、变换和装入

  • 数据提取:通常由多个异构的外部数据源收集数据。
  • 数据清理:检测数据中的错误,可能时并订正它们。
  • 数据变换:将数据由遗产或宿主格式转换成数据仓库格式。
  • 装入:排序、汇总、合并、计算视图、检查完整性,并建立索引和划分。
  • 刷新:传播由数据源到数据仓库的更新。

4.3 元数据库

  • 元数据时定义仓库对象的数据。元数据库在数据仓库体系结构的底层。-
  • 元数据库应当包括以下内容:
  • 数据仓库结构的描述:包括仓库模式、视图、维、分层结构等
  • 操作元数据:数据信息、数据流通、管理信息
  • 用于汇总的算法:包括度量和维定义算法
  • 由操作环境到数据仓库的映射
  • 关于系统性能的数据
    库模式、视图、维、分层结构等
  • 操作元数据:数据信息、数据流通、管理信息
  • 用于汇总的算法:包括度量和维定义算法
  • 由操作环境到数据仓库的映射
  • 关于系统性能的数据

你可能感兴趣的:(数据挖掘)