数据仓库的概念、特点与组成

目录

  • 1 概念
  • 2 特点
    • 2.1 面向主题
    • 2.2 集成
    • 2.3 相对稳定
    • 2.4 反映历史变化
  • 3 组成
    • 3.1 数据仓库数据库
    • 3.2 数据抽取工具
    • 3.3 元数据
    • 3.4 访问工具
    • 3.5 数据集市(Data Mart)
    • 3.6 数据仓库管理
    • 3.7 信息发布系统

1 概念

  1. 数据仓库(Data Warehouse)通常指一个数据库环境,而不是一件产品,它提供用户用于决策支持的当前的和历史数据,这些数据在传统的数据库中通常不方便得到;
  2. 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合;
  3. 通常用于辅助决策支持;

2 特点

2.1 面向主题

  1. 操作型数据库中的数据针对事务处理任务,各个业务系统之间彼此分离,而数据仓库中的数据按照一定的主题域进行组织;
  2. 主题是个抽象概念,指用户使用数据仓库进行决策时所关心的重点领域,如顾客/供应商/产品等;
  3. 一个主题通常与多个操作型数据库相关;

2.2 集成

  1. 操作型数据库通常与某些特定的应用相关,数据库之间相互独立,且往往是异构的;
  2. 而数据仓库中的数据是在原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,因此必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息;
  3. 即存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义;

2.3 相对稳定

  1. 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化;
  2. 数据仓库中的数据主要用作决策分析,涉及的数据操作主要是查询和定期更新,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作;
  3. 即数据仓库中通常有大量的查询操作及少量定期的更新操作;

2.4 反映历史变化

  1. 操作型数据库主要关心当前某一时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据;
  2. 因此数仓中通常包括一个时间维,以便研究趋势和变化;
  3. 数仓系统通常记录了一个单位从过去某一时期到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势作出定量分析和预测;

3 组成

3.1 数据仓库数据库

  1. 数仓数据库是整个数仓环境的核心,是数据信息存放的地方,对数据提供存取和检索支持;
  2. 相对传统数据库,其突出特点是对海量数据的支持和快速的检索技术;

3.2 数据抽取工具

  1. 数据抽取工具把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数仓内;
  2. 对各种不同数据存储方式的访问能力是数据抽取工具的关键,可以运用高级语言编写的程序、操作系统脚本、批命令脚本或SQL脚本等方式访问不同的数据环境;
  3. 数据转换通常包括如下内容:
    1. 删除对决策分析没有意义的数据;
    2. 转换到统一的数据名称和定义;
    3. 计算统计和衍生数据;
    4. 填补缺失数据;
    5. 统一不同的数据定义方式;

3.3 元数据

  1. 元数据是描述数据仓库内数据的结构和建立方法的数据;
  2. 元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中有什么数据、数据是怎么得到的、怎么访问这些数据;
  3. 元数据是数仓运行和维护的中心内容,数仓系统对数据的存取和更新都需要元数据信息;
  4. 根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类;
  5. 技术元数据是数仓的设计和管理人员在开发和管理数仓时使用的元数据,包括数据源信息、数据转换的描述、数仓内对象和数据结构的定义、数据清理和数据更新时用的规则、源数据到目的数据的映射表,以及用户访问权限、数据备份历史记录、数据导入历史记录和信息发布历史记录等;
  6. 业务元数据是从单位业务的角度描述数仓中的元数据,例如业务主题的描述,即业务主题包含的数据、查询及报表等信息;

3.4 访问工具

访问工具是为用户访问数仓提供的手段,如数据查询和报表工具、应用开发工具、数据挖掘工具和数据分析工具等。

3.5 数据集市(Data Mart)

  1. 数据集市是为了特定的应用目的,从数仓中独立出来的一部分数据,也称为部门数据或主题数据;
  2. 在数仓的实施过程中往往可以从一个部门的数据集市着手,再逐渐用几个数据集市组成一个完整的数仓;
  3. 注意:在实施不同的数据集市时,相同含义字段的定义一定要相容,以免未来实施数仓时出现问题;

3.6 数据仓库管理

数仓管理包括安全与权限的管理、数据更新的跟踪、数据质量的检查、元数据的管理与更新、数仓使用状态的检测与审计、数据复制与删除、数据分割与分发、数据备份与恢复、数据存储管理等。

3.7 信息发布系统

  1. 信息发布系统用于把数仓中的数据或其他相关的数据发送给不同的地点或用户;
  2. 基于Web的信息发布系统是当前流行的多用户访问的最有效方法;

你可能感兴趣的:(大数据,数据仓库,大数据,数据分析,数仓)