近来数据湖日益流行,而且往往与数据仓库相对比。认识到二者之间存在许多差异,不应该以同样的方式使用是十分重要的。
数据仓库保存组织中各种来源的大量数据,用于指导管理决策,而数据湖是数据存储库或简称存储库,需要使用之前以原始格式保存大量原始数据。
此外,数据库指保存在计算机上便于通过各种不同方式访问的结构化数据。
本文将进一步详细说明这三个实体之间的主要差别,以及需要考虑的风险,以便做出明智决策,选择最适合管理数据的解决方案 (或解决方案组合)。
数据:与数据湖不同,数据库和数据仓库只保存结构化数据。另一方面,数据湖对数据没有数据仓库和数据库的限制。它可以保存结构化、半结构化和非结构化等各种类型的数据。
处理:数据加载到数据仓库之前,首先进行某种格式和结构的处理。换句话说,应该建立一个模型。对数据进行某类格式和结构的处理称为写入模式。
从另一角度看,数据湖接受原始形式的数据。当需要使用这种数据时,进行格式和结构处理。这称为读取模式。与数据仓库一样,数据库采用写入模式。两种处理方法截然不同。
存储: 大数据技术主要的关键特点之一是考虑存储数据的成本。与数据仓库存储数据相比,采用大数据技术存储数据相对便宜。
这是因为数据技术通常是开放软件,许可和社区支持是免费的,数据技术专门安装在低成本商品化硬件上。
数据仓库存储成本相当高,特别是数据量很大的情况下。另一方面,数据湖主要用于低成本存储。数据库存储成本相对灵活,高低取决于需求。
敏捷性: 根据定义,数据仓库是一种高度结构化的数据存储库,因此从技术角度看改变结构并不难。不过,考虑到不同的相关业务流程,改变数据结构非常耗时。与数据仓库不同,数据湖不存在结构问题,便于数据开发人员和数据科学家配置和重置数据模型、查询和应用。
数据仓库敏捷性差,采用固定配置,而数据湖高度敏捷,并且可在需要时进行配置和重置。由于结构性质,数据库的配置不如数据湖灵活方便。
安全性:与大数据技术不同,数据仓库技术已经存在使用了几十年。大数据技术采用数据湖,是一种比较新的技术。因此,数据仓库保护数据的能力要比数据湖更加成熟。
不过,大数据行业在数据安全方面取得重大进展。与数据湖一样,数据库的数据安全性仍处于完善过程中。
用户: 数据仓库、数据湖和数据库的用户不一样,它们分别适用于不同的用户。三种不同数据存储库都可以处理大量数据,数据仓库主要适用于工商业的业务行家和专业人员。
数据湖主要供科学领域的数据科学家使用,数据库非常灵活,适用于任何用户。
数据湖的出现限制了企业数据环境下数据仓库的使用。数据仓库很久以来已成为商业智能和数据发现及存储的基础。
如上所述,数据仓库按照特定的静态结构和类别存储各种来源的数据,这些静态结构和类别决定了可以对数据进行哪种分析。这是数据仓库的局限性,也是数据湖解决的要素之一,有助于这种存储方法在数据环境中广泛使用。
数据湖的使用在企业中迅速兴起,但并不像许多人想象的那样没有弊端和缺点。新技术往往带来不同类型的挑战–有些可以预测,有些不可预测,数据湖也一样。这并不是说数据湖肯定容易出错。不过,贸然采用数据湖的企业应该谨慎行事。数据湖未必能够解决公司所有数据问题,实际上,有可能火上浇油,产生的问题可能比解决的问题更多。
数据应视为由开始、中间和结束部分组成的数据供应链。数据的发现、企业数据库采集、探索和转换应制定周密的计划。
这种方法可以优化数据的价值。数据湖完全忽略这种现象,允许用户和企业存储任何数据,不考虑是否有必要收集所有内容。这种方法实际上是错误的,数据湖用户很难获取数据中的价值。
数据湖不是按优先级和数据可用性的大小将数据输入供应链。与早期数据存储可选的数据仓库和数据库相比,缺少数据优先级排序增加了数据湖的成本。
数据只有在可用来帮助及时决策时才有价值。准备对数据湖中保存的数据进行分析的用户或企业,需要花费大量时间查找并为分析准备数据。这与平稳高效数据访问的要求相反。
如前所述,由于数据湖不支持数据优先级排序,因此往往不能清晰定义所需数据,从而降低处理速度,甚至可能造成整个分析过程中断。数据湖中采集的数据存储之前应进行汇总和相应处理。
数据湖的数据延迟明显高于数据仓库和数据库。数据湖通常用于报告和分析,获取数据滞后将影响整个过程。数据延迟推迟了交互响应,甚至放慢了组织的时钟速度。
此外,用户或企业可以存储其所有数据,无论源于何处,这种情况会使企业面临许多监管风险。缺少数据优先级排序加大了合规难度。数据湖没有规则监控采集的数据增加了企业收集数据的危险,可能使他们在某一地点面临风险。
数据湖导致数据泛滥,这种情况会造成数据组织的复杂性,增加成本和混乱,从而提供的价值非常小。因此,企业不仅要努力建立数据湖,更重要的是利用数据解决方案生成可行的结果满足业务需求。
鉴于上述情况,企业应寻找高效数据管理服务。BMC是IT解决方案组织,可以自动完成大数据批处理流程并加快速度。采用BMC解决方案,您可以通过单一控制点自动获取不同应用和数据库中的数据。BMC还提供数据管道从处理到分析每一级数据处理的端对端视图。
企业还可以管理业务服务交付的服务级别协议 (SLA),解决重要问题,避免违反SLA。BMC还支持利用作业即代码持续集成交付大数据批处理流程。