【大数据】数据湖正在成为新的数据仓库

原文链接: https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html?upd=1565169084280

像AWS Lake Formation和Delta Lake这样的平台指向了一个中央枢纽,用于决策支持和AI驱动的决策自动化

数据仓库是否再次相关,或者它们是一个垂死的品种?

如果你在这个问题上有点困惑,你会被原谅。一方面,数据仓库肯定似乎处于热门阶段。作为一个长期的行业观察者,我看到了连续创新和创业活动浪潮的行业激增。

这种趋势基本上始于十年前设备外形进入数据仓库主流,然后随着市场向新一代云数据仓库转移,几年前获得了新动力。在过去几年中,一个云数据仓库供应商 - Snowflake-在市场上获得了过多的牵引力。

[InfoWorld的基本要点:什么是Apache Spark?大数据分析平台解释 • Spark教程:Apache Spark入门 • 什么是数据挖掘?分析如何揭示洞察力。| 通过InfoWorld每日时事通讯,了解尖端企业技术的关键新闻和问题。]

 

数据仓库的黯然失色

另一方面,数据仓库不断被新的行业范例所黯然失色,例如大数据,机器学习和人工智能。这种趋势造成了数据仓库作为企业IT优先级下降的印象,但实际上大多数组织现在至少有一个且通常有多个数据仓库服务于各种下游应用程序。

数据仓库为核心的企业工作负载的坚持是为什么,几年前,我觉得我必须贡献我的想法,为什么数据仓库是离死不远了。这也可能解释了为什么其他观察者认为他们必须重新定义数据仓库的概念,以使其在数据湖泊和云计算时代保持相关性。

数据仓库作为一种实践不仅蓬勃发展,而且现在被视为云计算行业的核心可寻址增长前沿。但是,如果您严格关注以此标签进入市场的那些平台(例如Snowflake),您将错过这个领域的大部分操作。

 

数据湖的兴起

许多人称之为“数据湖”正在迅速发展成为下一代数据仓库。对于那些不熟悉这个概念的人来说,数据湖是多结构数据的系统或存储库,它们以自然格式和模式存储,通常作为对象“blob”或文件存储。

[ 数据仓库和商业智能对业务成功至关重要。参加这个在线课程并熟练掌握基础知识。]

数据湖通常用作所有企业数据的单个存储,包括源系统数据的原始副本和用于报告,可视化,分析和机器学习等任务的转换数据。它们包含分布式文件或对象存储,机器学习模型库以及高度并行化的处理和存储资源集群。并且,数据库通常在读取时使用模式,并使用统计模型从中提取有意义的相关性和模式,而不是对它们存储的对象强制执行通用模式和语义。

这些都与Inmon和Kimball核心概念不一致,这些概念为大多数专业人员的数据仓库方法提供了信息。从根本上说,存在一个数据仓库来聚合,保留和管理官方认可的“单一版本的真实”数据记录。此概念与所管理数据的特定应用程序域以及使用它的特定用例无关。

如果你怀疑我说在这一点上什么,只是看看这个讨论数据仓库的比尔·因蒙的定义和这个比较 Inmon的和Ralph Kimball的框架。数据仓库通常都是关于数据驱动的决策支持,这使得它可以很好地扩展到AI驱动的推理的新世界。

 

 

下一代数据仓库 

在过去的一年中,一些备受瞩目的行业公告标志着数据仓库角色的转变。尽管决策支持(也称为商业智能,报告和在线分析处理)仍然是大多数数据仓库的核心用例,但我们看到了向决策自动化的稳步转变。换句话说,数据仓库现在支持数据科学管道,为数据驱动的推理构建机器学习应用程序。

新一代数据仓库实际上是数据湖泊,首先设计用于管理用于构建和训练机器学习模型的清洁,整合和认可的数据。例如,去年秋天在Amazon re:Invent大会上,亚马逊网络服务公布了 AWS Lake Formation。这种新的托管服务的明确目的是简化和加速安全数据湖的设置。然而,AWS Lake Formation拥有云数据仓库的所有标志,尽管AWS并没有这样称呼它,实际上已经提供了一个面向决策支持应用程序的经典数据仓库Amazon Redshift。

AWS Lake Formation的外观,行走和行为类似于数据仓库。实际上,AWS以一种邀请这些比较的方式描述它:“数据湖是一个集中的,策划的和安全的存储库,它以原始形式存储所有数据并为分析做好准备。通过数据湖,您可以分解数据孤岛并组合不同类型的分析,以获得洞察力并指导更好的业务决策。“

实际上,AWS将AWS Lake Formation作为一种用于决策支持和AI驱动的决策自动化的超级数据仓库。具体来说,该供应商表示该服务旨在管理“您的用户随后利用的数据集......以及他们选择的分析和机器学习服务,如Amazon EMR for Apache Spark,Amazon Redshift,Amazon Athena,Amazon SageMaker和Amazon QuickSight “。

另一个例子是Databricks 最近宣布的Delta Lake开源项目。Delta Lake的明确目的,现在可以在Apache 2.0许可下使用,类似于AWS Lake格式:数据湖中维护的数据集的聚合,清理,管理和治理,以支持机器学习管道。

Delta Lake位于现有的内部部署或云数据存储平台之上,可以从Apache Spark访问,例如HDFS,Amazon S3或Microsoft Azure blob存储。Delta Lake将数据存储在Parquet中,以提供Databricks所称的“事务存储层”.Parquet是一种开源的柱状存储格式,可用于Hadoop生态系统中的任何项目,无论数据处理框架的选择如何。它通过乐观并发可串行化,快照隔离,数据版本控制,回滚和模式实施来支持ACID事务。

Delta Lake和AWS Lake Formation之间的一个关键区别是Delta Lake处理该管道中的批量和流数据。另一个是Delta Lake支持所有数据的ACID事务,允许数百个应用程序同时进行多次写入和读取。此外,开发人员可以访问每个Delta Lake的早期版本,以进行审计,回滚或重现其MLFlow机器学习实验的结果。

在最广泛的层面上,Delta Lake似乎与最广泛采用的开源数据仓库项目Apache Hive竞争,尽管Hive完全依赖基于HDFS的存储,并且直到最近才缺乏对ACID交易的支持。一年前宣布,Hive 3最终为基于Hadoop的数据仓库提供ACID支持。Hive 3使用delta文件为事务CRUD(创建读取更新删除)表提供操作的原子性和快照隔离。
 

 

AI驱动的决策自动化的基础

这些最近的行业公告 - AWS Lake Formation,Delta Lake和Hive 3预测是数据湖成为所有决策支持和决策自动化应用以及所有交易数据应用的治理中心的日子。为了加速这些趋势,Hive 3和Delta Lake等开源项目需要在供应商和用户之间获得更广泛的吸引力。

“数据仓库”这一术语可能主要指的是商业智能结构化数据的受管理的多域存储。但是,底层数据平台将继续发展,为基于云的人工智能管道提供核心数据治理基础。

AI而非BI正在推动企业数据仓库的发展。

 

你可能感兴趣的:(Big,Data,Analysis)