Data Lake与数据仓库

数据湖和数据仓库是业务分析的关键技术,但两者之间的差异可能会令人困惑。他们有什么不同?比另一个更稳定吗?哪一个最能帮助您的业务?本文旨在揭开这两个系统的神秘面纱来处理您的数据。

什么是数据湖?

数据湖是一个集中存储库,用于存储所有结构化和非结构化数据。此外,数据湖可以使用其原生格式存储任何类型的数据,没有大小限制。数据湖的开发主要是为了处理大数据量,因此他们擅长处理非结构化数据。您通常会将所有数据移动到数据湖中而不进行转换。湖中的每个数据元素都会分配一个唯一的标识符,并对其进行广泛标记,以便您以后可以通过查询找到该元素。这样做的好处是,您永远不会丢失数据,它可以在很长一段时间内可用,并且您的数据非常灵活,因为它不需要在存储之前遵循特定模式。

什么是数据仓库?

甲数据仓库是一个大容量存储库在多个数据库上的顶部位于。它旨在存储中到大量的结构化数据,以进行频繁和可重复的分析。通常,数据仓库用于汇集来自各种结构化源的数据以进行分析,通常用于商业目的。一些数据仓库可以处理非结构化数据,但这并不常见。在集成数据之前,需要确保数据类型兼容。由于存储在仓库中的数据是结构化的,因此数据的大小受到限制,并且在将数据添加到仓库之前确定模式。

数据湖与数据仓库

想象仓库:空间有限,箱子必须放在货架上的特定槽中。每个盒子都需要按顺序存储,以便以后可以找到它,您可能需要设计仓库,以便定期清除旧库存。大多数这些相同的约束适用于数据仓库:大小是固定的,并且必须根据精心设计的模式存储每个数据,然后才能将数据添加到仓库。数据仓库针对结构化数据进行了优化。

相比之下,数据湖是无定形的,边界可以根据内容增长或缩小。就像湖泊一样,如果有更多的数据涌入,数据湖就会扩大,当数据被移除时,它会缩小。数据不需要构建,因为您在需要时使用大量标记来查找数据。数据湖针对非结构化数据进行了优化。

下表显示了数据湖和数据仓库之间的一些主要差异。

  数据湖 数据仓库
存储 数据是非结构化的,所有数据都保持原始形式。存储所有数据,并且仅在分析时进行转换。 数据通常从事务系统中提取。在将数据加载到数据仓库之前,会对数据进行清理和转换。
数据抓取 捕获半结构化和非结构化数据。 捕获结构化数据并将其组织在模式中。
目的 数据湖非常适合深入分析非结构化数据。例如,数据科学家可能会使用具有预测建模和统计分析等功能的高级分析工具。 数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。
架构 通常,在存储数据后定义架构。这需要较少的初始工作并提供更大的灵活性。 通常,在存储数据之前定义架构。这需要您清理和规范化数据,这意味着架构的灵活性要低得多。
更好...... 非结构化数据,探索,创新,灵活性。 结构化数据,高性能,可重复性,持续使用。


什么适合您,数据湖或数据仓库?

简单的答案是你可能需要两者。

数据仓库非常适用于业务实践中常见的可重复报告,例如月度销售报告,每个区域的销售跟踪或网站流量。当您执行不太直接的分析时,数据湖很有用。例如,您可能希望对网站上的流量进行行为分析。这些是互补的而不是竞争的工具。

你可能感兴趣的:(Data Lake与数据仓库)