DeltaLake 概念

Delta Lake 概念

Delta Lake 是一个开源的存储层。
(类似的存储层还有Hadoop HDFS,Azure Data Lake Storage,Amazon S3等。)
它可以为你的Data Lake带来可靠性
Delta Lake提供ACID事务,可伸缩的元数据处理,并统一流和批数据处理。
Delta Lake在你现有的Data Lake之上运行,并且与Apache Spark API完全兼容。

Delta Lake 的功能:

  • Spark上的ACID事务:可序列化的隔离级别,确保每次都能读到一致的数据。
  • 可扩展的元数据处理:利用Spark的分布式处理能力,可以轻松处理数十亿个文件的PB级表的所有元数据。
  • 统一流和批处理:Delta Lake中的表既是批处理表,又是流的源和接收器。
    流数据提取,批处理历史回填,交互式查询都可以直接使用。
  • 限制Schema类型 :自动处理Schema变化,以防止在数据写入过程中插入不良记录。
  • 数据的版本控制:数据版本控制支持回滚,支持完整的历史审核记录跟踪,也可以用来重复机器学习模型。
  • Upserts and deletes:支持合并,更新和删除操作,以启用复杂的用例,例如更改数据捕获,缓慢变化尺寸(SCD)操作,流化Upserts等。

Delta 直观理解

DeltaLake 概念_第1张图片
Delta 可以抽象看作 Parquet 的升级版。

你可能感兴趣的:(#,Delta,Lake)