数据中心与数据湖与数据虚拟化 Data Hub vs Data Lake vs Data Virtualization

总览

所有大型组织都拥有大量数据,通常将其分散在许多不同的系统中。这不是一个有意识的选择,而是一系列务实的权衡。筒仓是技术债务,随着软件即服务(SaaS)应用程序和其他云产品的采用,筒仓正在增加,这加剧了业务与IT之间的摩擦。众所周知,集成这些数据孤岛非常困难,并且在尝试使用传统数据仓库方法时面临明显的挑战。因此,IT组织寻求现代方法来完成工作(应企业的紧急要求)。

这种比较涵盖了三种现代的数据集成方法:数据湖,数据虚拟化或联合以及数据中心。这三种方法都简化了跨异构源的数据自助服务消耗,而不会破坏现有应用程序。但是,每种新方法都需要权衡取舍,而且这些方法并不互相排斥-许多组织继续将其数据湖与以数据中心为中心的体系结构一起使用。

比较表

image.png

image.png

image.png

什么是数据湖?

数据湖是一个中央存储库,可实现任何规模或结构的数据存储。随着Hadoop的兴起,它们变得流行起来。Hadoop是一种分布式文件系统,可以轻松地将原始数据移动到一个中央存储库中,从而可以低成本存储这些数据。在数据湖中,数据可能无法整理(丰富,掌握,统一)或不可搜索,它们通常需要Hadoop生态系统中的其他工具才能在多步骤过程中分析或操作数据。但是,数据湖的优点是在加载数据时前端不需要太多工作。

Data Lake用例包括充当分析沙箱,训练机器学习模型,提供数据准备管道或仅提供低成本数据存储。

几年前,Hadoop领域受到三个主要参与者的竞争:Cloudera,Hortonworks和MapR。今天,只有Cloudera 与Hortonworks和MapR的大减价合并之后,仍然保留。

对于许多组织而言,像Amazon S3这样的对象存储已成为事实上的数据湖,并支持从本地Hadoop环境迁移到云。

除了Hadoop核心之外,Apache生态系统中还有许多其他相关工具。例如,Spark和Kafka是两个流行的工具,用于处理事件流体系结构中的流数据和进行分析(它们分别由Databricks和Confluent进行营销)。

这些工具的详细审查超出了此比较的范围。但是,总的来说,对于大多数用例而言,这些工具是数据中心方法的补充。他们管理流数据,但仍需要数据库。例如,Kafka没有数据模型,索引或查询数据的方式。根据经验,与没有数据中心的情况相比,具有事件中心的基于事件的体系结构和分析平台将更受信任和可操作。

什么是数据虚拟化?
数据虚拟化涉及创建存储在现有数据库中的数据的虚拟视图。物理数据不会移动,但是您仍然可以在新的虚拟数据层中获得数据的集成视图。这通常称为数据联合(或虚拟数据库),而基础数据库就是联合。

例如,您可能正在运行一些Oracle和SAP数据库,而部门需要访问这些系统中的数据。架构师无需通过ETL物理移动数据并将其保存在另一个数据库中,而是可以虚拟地(快速地)检索和集成该特定团队或用例的数据。

通过数据虚拟化,查询可以访问基础数据库。在处理查询执行计划和优化时,较新的虚拟化技术变得越来越复杂。他们可以利用内存中的缓存数据或使用集成的大规模并行处理(MPP),然后将结果合并并映射以创建结果的复合视图。许多更新的数据虚拟化技术还可以写入数据(而不仅仅是读取)。较新的解决方案还显示了数据治理,屏蔽不同角色和用例的数据以及使用LDAP进行身份验证的进步。

数据虚拟化的主要优点之一是更快的价值实现时间。在您开始查询数据之前,它们需要较少的工作和费用,因为数据并未物理移动,因此对现有基础结构的破坏较小。

另一个主要好处是,数据虚拟化使用户能够在非结构化和结构化数据源上运行临时SQL查询,这是数据虚拟化的主要用例。

因此,具有所有这些优点,数据虚拟化的缺点是什么?

  • 虚拟数据库不索引数据,也没有单独的数据存储来存储索引。他们依靠底层的源系统来获得索引,这些索引通常不足
  • 虚拟数据库将每个请求映射到每个源系统的不同请求中,并在所有源系统上执行。这会在整个网络上造成性能问题,并且系统将始终面临网络容量的问题
  • 虚拟数据库无处“整理”数据,提高数据质量或跟踪数据沿袭或历史记录。它们仅在返回或处理数据时进行最小程度的数据协调。没有持久的规范数据形式可以创建单个事实来源并与下游使用者安全共享。
  • 虚拟数据库通常具有有限的(或至少实施起来更为复杂)安全控制。例如,虚拟数据库只能在表级别上保护数据,而不是每个记录。
  • 虚拟数据库的容量将始终限于基础源系统中的数据量

提供独立数据虚拟化解决方案的公司示例有SAS,Tibco,Denodo和Cambridge Semantics。其他供应商(如Oracle,Microsoft,SAP和Informatica)将数据虚拟化作为其旗舰产品的功能之一。

什么是数据中心?
数据中心是充当中心辐射型体系结构中的集成点的数据存储。他们物理地移动和集成多结构数据并将其存储在基础数据库中。

以下是数据中心的一些关键优势
数据集线器由基础的多模型数据库(数据湖和虚拟数据库没有)提供支持,这使它们能够充当具有所有必需的企业安全性(包括数据机密性(访问控制),数据)的真实系统。可用性(HA / DR)和数据完整性(分布式事务)功能
数据中心具有管理数据的工具(丰富,母版制作,协调),并且支持渐进式协调,其结果保存在数据库中。
数据中心支持操作和事务性应用程序,而数据湖并不是为某些应用程序而设计的。而且,尽管虚拟数据库可以支持事务,但是底层数据库系统的性能限制了负载
凭借这些优势,数据中心可以通过提供受监管的事务性数据层,作为数据湖和数据虚拟化的强大补充。我们将在下面对此进行更深入的讨论。

数据中心的最佳用例是什么?
以下是一些迹象表明数据中心是您的体系结构的不错选择:

当您想要集成多模型数据时-数据中心擅长集成多结构的,不断变化的数据。如果您要跟踪数据的来源并强加一个易于管理的单一安全数据模型,则它们是理想的选择。它们还提供内置的策展功能,以丰富,协调和掌握数据(包括重复数据删除)
当企业需要快速的数据服务时-数据中心在获取数据和快速获得价值方面都提供了敏捷性。它们不仅仅是分析沙箱。充满精选数据的数据中心可以在数周内开始通过数据服务交付业务价值
当您需要实时的操作视图时-数据中心既可操作又可进行事务处理,可提供实时视图并充当单一事实来源。当您的分析团队需要实时的运营分析而不是历史快照时,这使它们成为一个不错的选择
当您需要稳定的平台和受信任的集成点时-数据中心由数据库支持。它们独立于其他系统运行,因此不受其他系统的网络或基础架构约束。而且,它们可以持久存储数据,提供HA / DR,事务一致性,企业安全性以及充当稳定平台所需的所有其他功能。
我们的客户通常使用MarkLogic Data Hub Platform来处理用例,例如构建统一视图,运营分析,内容货币化,研发,工业物联网,法规遵从性,ERP集成和大型机迁移。

什么时候最适合Data Lake?
数据湖最适合流数据,当组织需要低成本的选择来存储海量数据(结构化或非结构化)时,数据湖可作为良好的存储库。大多数数据湖都有HDFS支持,可以轻松连接到更广泛的Hadoop生态系统。对于想要使用开源工具并且需要低成本分析沙箱的大型开发团队而言,这是一个不错的选择。许多组织依靠其数据湖作为其“数据科学工作台”来推动机器学习项目,数据科学家需要在该机器中存储培训数据并提供Jupyter,Spark或其他工具。

数据虚拟化何时是最佳选择?
对于某些分析用例而言,数据虚拟化是最佳选择,而这些分析用例可能不需要数据集线器对于数据集成用例的强大功能。它们可以快速部署,并且由于永不移动物理数据,因此在项目开始时就不需要太多工作来供应基础结构。数据虚拟化的另一个常见用途是数据团队在非关系数据源之上运行临时SQL查询。

数据中心,数据湖和数据虚拟化如何一起工作?
数据中心和数据虚拟化方法是两种不同的数据集成方法,它们可能会争夺同一用例。我们发现使用数据中心的客户通常也不需要实施数据虚拟化。数据中心几乎涵盖了所有相同的优势。例如,许多MarkLogic客户已经建立了元数据(或内容)存储库,以使用MarkLogic Data Hub虚拟化其关键数据资产。

就是说,可以将MarkLogic Data Hub视为要联合的数据源,就像其他任何数据源一样。例如,MarkLogic Data Hub可用于集成来自多个源的数据,并可使用诸如Spark之类的工具作为训练和评分机器学习模型的联合数据源进行访问。

数据湖与数据中心非常互补。我们有许多客户已经利用Hadoop的MarkLogic连接器将数据从Hadoop移入MarkLogic Data Hub,或将数据从MarkLogic Data Hub移至Hadoop。数据中心位于数据湖的顶部,可以访问高质量,精选,安全,去重,索引和可查询的数据。此外,为了管理庞大的数据量,MarkLogic Data Hub提供了自动数据分层功能,可以安全地存储和访问数据湖中的数据。

最常见的是,客户要么拥有一个现有的数据湖并正在迁移它,要么选择将低使用率的数据卸载到Hadoop中以获得低成本存储的优势或支持机器学习项目。

https://www.marklogic.com/product/comparisons/data-hub-vs-data-lake/

你可能感兴趣的:(数据中心与数据湖与数据虚拟化 Data Hub vs Data Lake vs Data Virtualization)