数据仓库、数据湖、湖仓一体的基本特点

本文介绍什么是数据仓库,数据湖,湖仓一体,并简单介绍各自的特点。

1. 数据仓库

数据仓库的英文名为Data Warehouse,简写为DW。它由数据仓库之父比尔·恩门 (Bill Inmon)于1990年提出。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。它具有以下典型的特点:

  • 高执行效率:数据仓库处理的数据量巨大,且分析周期一般以天为单位,因此对分析的时效性要求相对较高,这就需要它具有高效率的数据存储和处理能力。
  • 高数据质量:进入数据仓库的数据一般会经过数据清洗的环节,因此可能导致数据失真的脏数据会被清除,从而保证数据仓库提供的信息是准确的。
  • 高扩展性:数据仓库的设计和建设一般会考虑未来3-5年的情况。
  • 面向主题:数据仓库中的数据是按照一定的主题域进行组织的。主题是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。

传统的数据仓库架构如下图所示:

数据仓库、数据湖、湖仓一体的基本特点_第1张图片 传统数据仓库的架构

2. 数据湖

数据湖的英文名为Data Lake。数据湖是一类存储数据原始格式的系统。它通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表、可视化、高级分析和机器学习。数据湖中包括来自于关系型数据库中的结构化数据、半结构化数据、非结构化数据和二进制数据等。相比数据仓库,数据湖具有以下特征:

  • 保真性:数据湖中必须要保存一份原始数据,无论是数据格式、数据模式、数据内容都不应该被修改。
  • 灵活性:在假设没办法预估业务变化的前提下,直接保持数据的原始状态,一旦需要时,再根据需求对数据进行加工处理。
  • 可管理:数据湖中的数据会不断的积累、演化。因此,对于数据管理能力要求也很高。它至少应该包含的数据管理能力包括:数据源、数据连接、数据格式、数据模式,数据权限等。
  • 可追溯:数据湖是一个企业中全量数据的存储场所,需要对数据的全生命周期进行管理,包括数据的定义、接入、存储、处理、分析、应用的全过程。它需要能做到对其间的任意一条数据的接入、存储、处理、消费过程是可追溯的,能够清楚的重现数据完整的产生过程和流动过程。
数据仓库、数据湖、湖仓一体的基本特点_第2张图片 数据仓库和数据湖的比较

传统数据湖的架构如下图所示:

数据仓库、数据湖、湖仓一体的基本特点_第3张图片 传统数据湖的架构

3. 湖仓一体

湖仓一体的英文名为Data Lakehouse。湖仓一体指的是结合了数据仓库和数据湖的元素而形成的数据解决方案。它实现了数据仓库的数据结构和数据湖的可管理特性。通常既可以用来做机器学习,也可以用来做BI分析。湖仓一体的特点包括:

  • 对数据的并发读写
  • 具有数据管理机制
  • 可直接访问原数据
  • 计算和存储的分离
  • 标准化的数据格式
  • 结构化非结构化数据
  • 端到端的流处理
数据仓库、数据湖、湖仓一体的基本特点_第4张图片 湖仓一体的特点

偶数科技湖仓一体的架构如下图所示:

数据仓库、数据湖、湖仓一体的基本特点_第5张图片 偶数湖仓一体的架构

参考文献:

  1. https://www.infoq.cn/article/rksdsdeeqhgnjvk4sxsz

你可能感兴趣的:(数据仓库,大数据)