简单来说,数据仓库是一种用于存储并分析数据最终生成分析报告的系统。数据通常来自多个系统,然后将其存入数据仓库以进行长期存储和分析。存储在数仓中的数据都是结构化的使得企业中许多部门或部门的用户可以按需访问和分析数据。
数据仓库中的数据有很多来源:数据库、日志、点击流等,这些数据被用来分析并挖掘出商业价值。
数据仓库具有双重角色:
分析工具:为许多部门的用户提供决策和报告支持。
数据档案:保存未在业务系统中维护的历史数据。
数据仓库致力于为整个企业创建一个统一且真实的数据系统。不幸的是,要在这样的数据系统中保持数据的准确性和实时性非常困难。
为什么要使用数据仓库?
因此,如果数据仓库的构建和维护是如此复杂,那么企业为什么还要自寻烦恼呢?
数据仓库可以提供:
- 对所有数据的单一访问点,而不是要求用户连接数十个甚至数百个系统来访问不同来源的数据。
- 保证数据质量。
- 存储所有的历史数据并记录数据的变更历史。
- 出于安全考虑,将常规业务系统与数据分析系统分开。
- 标准化数据语义,例如:一致性的命名约定等。
数据仓库以结构化的方式存储所有数据,意味着通过数据仓库可以回答各种复杂问题,例如:
- 在过去的十年中,我们每个产品线每月按城市和州划分的收入是多少?
- 我们的一台ATM机的平均交易规模是多少,可以按一天中的时间和总客户资产细分?
- 在过去至少开业了三年的商店中,过去一年员工流失率是多少?这些员工每周工作几小时?
数据仓库架构
构建数据仓库的方式有很多种,但是基本架构几乎都是一样的:
首先,对原始数据进行格式化,有时也称为数据清洗和规范化。您可以将其视为将原始数据从源移动到仓库的管道(后面会知道,这是ETL),以确保对数据进行适当的命名和格式化,并与其余存储的数据保持准确的关系。这通常称为数据集成层。
然后将格式化的数据存储在数据仓库本身中。访问层允许工具和应用程序以适合其需求的格式检索数据。
数据仓库的另一个重要部分是元数据,用来对存储的数据进行解释说明。维护数据仓库的数据工程师和数据科学家收集有关数据源,按照约定对数据命名,清洗和规范化,生成元数据并使用此信息来维护数据质量。
关键概念
OLTP与OLAP
通常,可以将数据库系统分为OLAP(在线分析处理)或OLTP(在线事务处理)两种。通常的玩法是:OLTP系统在联机应用程序中创建或捕获数据,而OLAP系统分析从一个或多个OLTP系统中收集的数据。数据仓库严格来说是OLAP领域的系统。
因此,OLTP和OLAP系统具有不同的技术属性和要求。
提取,转换,加载(ETL)
ETL主要用于数据在源数据系统和数据仓库之间的迁移(即在数据仓库体架构中提到的管道),以及从数据仓库到数据集市的移动。必须首先从源中提取数据,然后根据下一层存储的标准进行转换,最后必须将格式化的数据正确地加载到下一层。了解有关ETL工具的更多信息。
相关概念
数据仓库与数据库
严格来说,数据库是任何结构化的数据集合。Excel电子表格,Rolodex或通讯录都是非常简单的数据库示例。Excel,Oracle或MongoDB等软件是一种数据库管理系统(DBMS),允许用户访问和管理数据库。人们通常将DBMS称为数据库。数据仓库就是一种数据库。它专注于其存储的数据-来自许多来源的历史数据-及其用途-分析。
数据仓库与数据湖
数据库以及数据仓库的一个关键属性是它们包含结构化数据。数据存储方式(从可用的字段,日期格式以及介于两者之间的所有内容)都已事先达成协议,整个数据库都严格遵循此结构或架构。它们的相对一致性和稳定性意味着数据仓库可以为企业中多种角色的查询提供服务。这个过程非常结构化,非常可预测且非常有效,但也很难做到。
数据湖是另一种存储数据的方式,但是数据湖中的数据没有严格的结构。与数据仓库相反,数据湖中的数据schema信息只有到真正查询的时候才会确定。这意味着将数据加载到数据湖中要容易得多,但是查询的的过程更为复杂。与数据仓库相比,数据湖中执行查询的RT时间通常更长。
数据仓库与数据集市
如果数据仓库保存并集成了整个组织的数据,则数据集市是数据的较小子集,专门用于给定部门使用。通常,数据集市通常为单个部门构建或控制,数据通常来自于:用中央数据仓库、公司内部的其他系统数据以及公司外部的数据。数据集市通常只涉及一个主题领域,例如市场营销或销售。因为它们更小且更具体,所以它们通常更易于管理和维护,并具有更灵活的结构。
OLAP Cubes
OLAP系统通常包含大量数据,这可能会使在OLAP系统上上运行的特定查询速度变慢。为了加快和简化查询,可以将OLAP系统进一步细分为称为Cubes的子数据库,这些子数据库包含有限维度的数据,数据量更小,因此可以提供更快的查询时间。
商业智能工具(BI工具)
BI软件是数据仓库顶部的关键层,BI工具通过对数据仓库中数据的分析,最终制定业务决策。商业智能软件具有许多不同类型的功能,但它通常包括:用于构建和执行查询的某种引擎,以及一种存储和可视化结果的方法,从而可以将其合并到包含业务分析的文档中。
数据仓库技术
在考虑使用哪些工具时,重要的是要确保它们满足您的需求,这些方面包括可伸缩性(它会随着您的需求而增长),访问权限(哪些用户以及有多少用户需要访问您的仓库以及从何处访问)以及集成。 (此系统是否与您的数据源和BI工具集成)。
关系数据库
关系数据库是存储大多数业务数据的系统。他们已经存在了几十年,而且非常成熟,并形成了庞大的生态体系。存在用于OLTP和OLAP用例的关系数据库。
- IBM DB2。IBM将其核心关系数据库DB2与应用服务器,数据挖掘技术,用于多维数据集和BI的Cognos以及其他技术捆绑在一起。他们称此为DB2仓库。在使用IBM的硬件,软件和服务的IBM商店中,DB2最受欢迎。
- Microsoft SQL Server。Microsoft已在许多版本中构建了其核心关系数据库的功能,以支持大型数据仓库部署。他们还建立了与云产品和Hadoop的集成,从而为结构化和非结构化数据提供了更全面的产品。Microsoft还拥有最好的管理工具,并与其他Microsoft产品(包括Windows)集成在一起。SQL Server在Microsoft商店中最受欢迎,并且往往更具成本竞争力。
- Oracle数据库云服务器。与IBM一样,Oracle也是硬件供应商。Exadata是基于核心Oracle数据库构建的设备,其硬件和软件已针对大型高性能系统进行了优化。Oracle是市场上最受欢迎的数据库。数据库云服务器非常昂贵。
MPP(大规模并行处理)分析数据库
MPP数据库是一种数据仓库技术,专注于硬件和软件以支持并行处理。也就是说,查询处理被分解为许多较小的并行任务,这些任务在多个服务器上一起执行。这种方法大大加快了查询和提取时间。但是,MPP数据库可能会很昂贵,因为最受欢迎的供应商都提供封闭源产品。
流行的MPP数据库包括:
- Teradata。Teradata是使用最广泛,最成熟的。与上面列出的关系供应商不同,Teradata始终专注于数据仓库。它不开源,仅商用,并且非常昂贵。
- IBM Netezza。Netezza是另一种数据仓库设备产品,由于低廉的价格和易用性而快速占领市场。该软件部分基于开源关系数据库PostgreSQL。Netezza的关键创新之一是使用现场可编程门阵列(FPGA)来加速查询处理。Netezza于2010年被IBM收购。
- HP Vertica。Vertica是来自MIT的一项创新的面向列的MPP数据库。与当时的竞争产品不同,Vertica可以作为支持多种硬件平台的软件提供,并且由于具有新颖的SQL执行引擎和强大的压缩功能而具有出色的性能。Vertica于2011年被惠普收购。
- Pivotal Greenplum。Greenplum是基于PostgreSQL的MPP数据库。因为它基于PostgreSQL,所以它具有更广泛的工具生态系统。而且由于它是面向行的,因此与面向列的产品相比,要进行不同的权衡。它于2010年被EMC收购,然后在2015年由Pivotal开源。
- SAP Sybase IQ。Sybase IQ是最早的面向列的数据库之一,并于1990年代末进入市场。以其出色的性能而闻名,但被认为价格昂贵且难以管理和扩展。Sybase在2010年被SAP收购。
Hadoop生态
类似于MPP方法,Hadoop也能够在计算机集群之间分配计算任务。但是,Hadoop是开源的。一些数据湖之所以使用Hadoop,是因为它廉价,能快速地处理大量结构化和非结构化数据。
参考
https://www.dremio.com/what-is-a-data-warehouse/