Delta Lake 为 Apache Spark 数据集提供了新的功能

由Apache Spark的原始开发人员创建的Databricks公司已经发布了Delta Lake ,它是Spark的开源存储层,可提供ACID事务和其他数据管理功能,用于机器学习和其他大数据工作。

许多类型的数据工作需要以下功能:ACID事务或用于一致性的模式实施,用于安全性的元数据管理以及使用离散版本的数据的功能。 诸如此类的功能并不是所有数据源都具备的标准功能,因此Delta Lake可以为任何Spark DataFrame数据源提供这些功能。

Delta Lake可用作访问HDFS等存储系统的替代产品。 通过Delta Lake吸收到Spark中的数据以Parquet格式存储在您选择的云存储服务中。 开发人员可以使用他们选择的Java,Python或Scala访问Delta Lake的API集。

Delta Lake支持用于读取和写入数据的大多数现有Spark SQL DataFrame函数。 它还支持Spark结构化流作为源或目标,尽管不是DStream API。 每次通过Delta Lake进行的读取和写入都具有ACID事务保证,因此多个写入器将其写入序列化,并且多个读取器将看到一致的快照。

读取特定版本的数据集(Delta Lake文档称为“时间旅行”),只需读取带有相关时间戳或版本ID的DataFrame即可。 Delta Lake还确保要写入的DataFrame的架构与要写入的表相匹配; 如果不匹配,它将引发异常而不是更改架构。 (在这种情况下,Spark的文件API将替换该表。)

Delta Lake的未来版本可能会支持Spark的更多公共API集,尽管DataFrameReader / Writer是目前的主要重点。

From: https://www.infoworld.com/article/3391065/delta-lake-gives-apache-spark-data-sets-new-powers.html

你可能感兴趣的:(Delta Lake 为 Apache Spark 数据集提供了新的功能)