Delta Lake (一) 简介

Delta Lake 


一、简介

Delta Lake是一个开源存储层,为数据湖带来了可靠性。Delta Lake提供了ACID事务、可伸缩的元数据处理以及统一的流和批数据处理。Delta Lake运行在现有数据湖之上,与Apache Spark api完全兼容。

Delta Lake (一) 简介_第1张图片

二、特性

  1. Spark上的ACID事务:可序列化的隔离级别确保读者永远不会看到不一致的数据。
  2. 可伸缩的元数据处理:利用Spark的分布式处理能力,轻松处理PB级表的所有元数据和数十亿个文件。
  3. 批流统一:Delta Lake既可以批处理也可以流式处理,流数据摄取,批量历史回填,交互式查询都是开箱即用的。
  4. Schema Enforcement:Delta Lake提供了指定和实施模式的能力。这有助于确保数据类型是正确的,并且出现了所需的列,从而防止坏数据导致数据损坏。
  5. Schema Evolution:大数据在不断变化。Delta Lake使您能够对可自动应用的表模式进行更改,而不需要繁琐的DDL。
  6. 审计历史:Delta Lake事务日志详细记录了对数据所做的每个更改,提供了对这些更改的完整审计跟踪。
  7. 版本控制: 数据版本控制支持回滚、完整的历史审计跟踪和可重复的机器学习实验。
  8. 更新插入和删除:支持合并、更新和删除操作,以支持复杂的用例,如更改数据捕获、缓慢更改维度(SCD)操作、流更新等等。
  9. 完全兼容Spark API:开发人员可以将Delta Lake与他们现有的数据管道一起使用,只需要做很少的更改,因为它与常用的大数据处理引擎Spark完全兼容。

三、项目连接

官网链接:Delta官网

源码链接:Delta源码

你可能感兴趣的:(Delta,Lake)