湖仓一体(Lakehouse)是什么?

前言

本文隶属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见大数据理论体系


WHAT

湖仓一体(Lakehouse)是一种新的大数据存储架构,结合了数据仓库和数据湖的最佳功能。

关于数据仓库请参考我的这篇博客——数据仓库是什么?

关于数据湖请参考我的这篇博客——什么是数据湖?为什么需要数据湖?

湖仓一体为你的所有数据(结构化、半结构化和非结构化)提供单一的存储库,同时可以实现机器学习、商业智能(BI)和实时计算等功能。

关于 BI 请参考我的这篇博客——什么是商业智能(BI)?


优缺点

湖仓一体的优点

湖仓一体架构将数据仓库的数据结构和管理功能数据湖的低成本存储和灵活性相结合。

这种实现的好处是巨大的,包括:

  • 减少数据冗余:湖仓一体通过提供单一通用的数据存储平台来满足所有业务数据需求来减少数据重复。由于数据仓库和数据湖的优势,大多数公司选择混合解决方案。然而,这种方法可能导致数据重复,这可能代价高昂。
  • 成本效益:湖仓一体通过利用低成本的对象存储实现数据湖的高效益的存储功能。此外,湖仓一体通过提供单一的解决方案,消除了维护多个数据存储系统的成本和时间。
  • 事务的支持:在湖仓一体中,许多数据管道通常会同时读取和写入数据。对 ACID 事务的支持确保了多方同时读取或写入数据的一致性。
  • Schema 的实施和治理:湖仓一体支持 Schema 的实施和进化,支持数据仓库的模式架构,如星型模式/雪花模式。该系统有能力确保数据的完整性,因为其强大的治理和审计的机制。
  • 开放性:湖仓一体使用的存储格式是开放和标准化的,例如 Parquet,它们提供了一个API,因此各种工具和引擎,包括机器学习和 Python/R 库,可以有效地直接访问数据。
  • 存储与计算解耦:在实践中,这意味着存储和计算使用单独的集群,因此这些系统能够扩展到更多的并发用户和更大的数据大小。一些现代数据仓库也有这种属性。
  • 支持各种工作负载:包括数据科学、机器学习、SQL 和数据分析等。可能需要多个工具来支持所有这些工作负载,但它们都依赖于相同的数据存储库。
  • 端到端的流计算支持:实时报告是许多企业的常态。对流计算的支持消除了对专门为实时数据应用程序提供服务的单独系统的需求。

湖仓一体的缺点

湖仓一体的主要缺点是它仍然是一种相对较新且不成熟的技术。

因此,目前还不清楚它是否一定会符合上面的优点。

湖仓一体可能需要几年时间才能与成熟的大数据存储解决方案竞争。

但以现代创新的速度,很难预测新的数据存储解决方案最终是否会替代它。


数据仓库 VS 数据湖 VS 湖仓一体

湖仓一体(Lakehouse)是什么?_第1张图片

数据仓库是最古老的大数据存储技术,在商业智能、报告和分析应用方面有着悠久的历史。然而,数据仓库很昂贵,难以应对流数据、多样化数据等非结构化数据。

数据湖的出现是为了在机器学习和数据科学工作负载的廉价存储中处理各种格式的原始数据。虽然数据湖与非结构化数据配合得很好,但它们缺乏数据仓库的 ACID 事务功能,因此很难确保数据的一致性和可靠性。

湖仓一体最新的数据存储架构,它结合了数据湖的成本效益和灵活性以及数据仓库的可靠性和一致性。

下表总结了数据仓库与数据湖与湖仓一体之间的差异。

差异点 数据仓库 数据湖 湖仓一体
存储数据类型 很好地处理结构化数据 很好地处理半结构化和非结构化数据 能够处理结构化、半结构化和非结构化数据
目的 适用于数据分析和商业智能(BI) 适用于机器学习(ML)和人工智能(AI)工作负载 适用于数据分析和机器学习工作负载
费用 存储既昂贵又耗时 存储具有成本效益、快速性和灵活性 存储具有成本效益、快速性和灵活性
ACID 合规性 以符合ACID的方式记录数据,以确保最高水平的完整性 非 ACID 合规性:更新和删除是复杂的操作 符合 ACID,以确保多方同时读取或写入数据的一致性

湖仓一体仍然是一个不断发展的数据存储解决方案。

选择哪种大数据存储架构最终将取决于你正在处理的数据类型、数据源以及利益相关者将如何使用数据。

虽然湖仓一体结合了数据仓库和数据湖的所有好处,但我们不建议你将现有的数据存储技术交给湖仓一体。

你可能感兴趣的:(大数据理论体系,数据仓库,数据湖,湖仓一体)