数据仓库系列1-什么是数据仓库

Data Warehouse

什么是数据仓库?

数据仓库(DW)是用于从不同来源收集和管理数据,以提供有意义的商业洞察力过程。数据仓库通常用于连接和分析来自异构源的业务数据。数据仓库是BI系统的核心,是为数据分析和报告而构建的。

它是技术和组件的混合体,有助于战略性地使用数据。它是企业对大量信息的电子存储,旨在用于查询和分析而不是事务处理。它是一个将数据转化为信息并及时提供给用户以发挥作用的过程。

决策支持数据库(数据仓库)与组织的操作数据库分开维护。但是,数据仓库不是产品而是环境。它是信息系统的架构构造,可为用户提供当前和历史决策支持信息,这些信息在传统的操作数据存储中难以访问或呈现。

很多人都知道,一个由 3NF 设计的库存系统数据库有很多相互关联的表。例如,关于当前库存信息的报告可以包括 12 个以上的连接条件。这会迅速减慢查询和报告的响应时间。数据仓库提供了一种新设计,可以帮助减少响应时间,并有助于提高报表和分析查询的性能。

数据仓库系统也被称为以下名称:

  • 决策支持系统 (DSS)
  • 行政信息系统
  • 管理信息系统
  • 商业智能解决方案
  • 分析应用
  • 数据仓库

数据仓库的历史

数据仓库有利于用户了解和提高其组织的绩效。随着计算机系统变得更加复杂并且需要处理越来越多的信息,存储数据的需求也在不断发展。然而,数据仓库并不是什么新鲜事。

以下是数据仓库发展过程中的一些关键事件——

1960 年 - 达特茅斯 (Dartmouth) 和通用磨坊 (General Mills) 在一个联合研究项目中,开发术语维度和事实。
1970 年 - 尼尔森和 IRI 引入了用于零售销售的维度数据集市。
1983- Tera Data Corporation 推出专为决策支持设计的数据库管理系统
数据仓库始于 1980 年代后期,当时 IBM 员工 Paul Murphy 和 Barry Devlin 开发了业务数据仓库。
然而,真正的概念是由 Inmon Bill 给出的。他被认为是数据仓库之父。他撰写了有关仓库和企业信息工厂的构建、使用和维护的各种主题的文章。

数据仓库如何工作?

数据仓库用作中央存储库,信息来自一个或多个数据源。数据从事务系统和其他关系数据库流入数据仓库。

数据可能是:

  1. 结构化的
  2. 半结构化
  3. 非结构化数据

数据经过处理、转换和摄取,以便用户可以通过商业智能工具、SQL 客户端和电子表格访问数据仓库中处理过的数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。

通过将所有这些信息合并到一个地方,组织可以更全面地分析其客户。这有助于确保它考虑了所有可用信息。数据仓库使数据挖掘成为可能。数据挖掘正在寻找可能导致更高销售额和利润的数据模式。

数据仓库的类型

三种主要类型的数据仓库 (DWH) 是:

1. 企业数据仓库(EDW):

企业数据仓库 (EDW) 是一个集中式仓库。它为整个企业提供决策支持服务。它提供了一种用于组织和表示数据的统一方法。它还提供根据主题对数据进行分类的能力,并根据这些部门提供访问权限。

2. 运营数据存储:

当数据仓库和 OLTP 系统都不支持组织报告需求时,操作数据存储(也称为 ODS)只不过是所需的数据存储。在ODS中,数据仓库是实时刷新的。因此,它被广泛用于日常活动,例如存储员工的记录。

3. 数据集市:

数据集市是数据仓库的一个子集。它专为特定业务线而设计,例如销售、财务、销售或财务。在独立的数据集市中,数据可以直接从来源收集。

数据仓库的一般阶段

早些时候,组织开始使用相对简单的数据仓库。然而,随着时间的推移,开始使用更复杂的数据仓库。

以下是使用数据仓库 (DWH) 的一般阶段:

离线操作数据库:

在这个阶段,数据只是从一个操作系统复制到另一个服务器。这样,复制数据的加载、处理和报告不会影响操作系统的性能。

离线数据仓库:

数据仓库中的数据定期从操作数据库更新。Datawarehouse 中的数据被映射和转换以满足 Datawarehouse 目标。

实时数据仓库:

在此阶段,每当操作数据库中发生任何事务时,都会更新数据仓库。例如,航空公司或铁路订票系统。

集成数据仓库:

在此阶段,当操作系统执行事务时,数据仓库会不断更新。然后,数据仓库生成传递回操作系统的事务。

数据仓库的组成部分

数据仓库的四个组件是:

负载管理器:负载管理器也称为前端组件。它执行与将数据提取和加载到仓库相关的所有操作。这些操作包括为进入数据仓库准备数据的转换。

仓库管理员:仓库管理员执行与仓库中数据管理相关的操作。它执行诸如数据分析以确保一致性、索引和视图的创建、非规范化和聚合的生成、源数据的转换和合并以及归档和烘焙数据等操作。

查询管理器:查询管理器也称为后端组件。它执行与用户查询管理相关的所有操作操作。此数据仓库组件的操作是直接查询适当的表以安排查询的执行。

最终用户访问工具:

这分为五个不同的组,例如 1. 数据报告 2. 查询工具 3. 应用程序开发工具 4. EIS 工具,5. OLAP 工具和数据挖掘工具。

重点学习

  • 数据仓库 (DWH),也称为企业数据仓库 (EDW)。
  • 数据仓库被定义为一个中央存储库,其中的信息来自一个或多个数据源。
  • 数据仓库的三种主要类型是企业数据仓库 (EDW)、操作数据存储和数据集市。
  • 数据仓库的一般状态是离线操作数据库、离线数据仓库、实时数据仓库和集成数据仓库。
  • Datawarehouse 的四个主要组件是负载管理器、仓库管理器、查询管理器、最终用户访问工具

参考

data-warehousing

你可能感兴趣的:(数据仓库系列1-什么是数据仓库)