Apache Spark 中内存存储演进

本ppt来自于4月23-25日举行的 Spark + AI Summit 2019本文总结 Apache Spark 社区最近为增强 Spark 2.3 中的列存储而做的工作。列式存储被称为保持列连续性的有效格式。以前版本的 Spark 在一些地方使用了列式存储,并将其作为一种内部数据结构。 Spark 2.3 之前使用列式存储来读取 Apache Parquet 文件并在 SQL 中缓存这些表,但是使用了不同的内部 API 访问这些列式存储,这种差异导致表缓存的性能低效。Spark 2.3 发布了一个抽象类 ColumnVector 作为公共 API,使用 ColumnVector 可以使得 Spark 有效地支持多个柱状存储,并提高了性能。通过 ColumnVector 读取 Apache Arrow 和 Apache ORC 中的数据,而无需额外的数据转换和数据复制。

本文主要内容包括:(1)Spark 2.3 中的 ColumnVector 是一个列式存储的公共 API,用于与其他列式存储交换数据。

(2)Spark 2.3 使用 ColumnVector 以较低的开销交换 Apache Arrow 和 Apache ORC 格式的数据,并提高性能。 

(3)Spark 2.3 及更高版本通过使用 Pandas 提高了 PySpark 的性能。 

(4)Spark 2.3 及更高版本使用 ColumnVector 进行表缓存并提高性能。

关注 Hadoop技术博文 微信公众号并回复 spark列式存储 获取本文 PPT。

Apache Spark 中内存存储演进_第1张图片

Apache Spark 中内存存储演进_第2张图片

Apache Spark 中内存存储演进_第3张图片


猜你喜欢

欢迎关注本公众号:iteblog_hadoop:

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT

回复 HBase_book 下载 2018HBase技术总结 专刊

回复 all 获取本公众号所有资料

0、回复 电子书 获取 本站所有可下载的电子书

1、Apache Spark 2.4 回顾以及 3.0 展望

2、重磅 | Apache Spark 社区期待的 Delta Lake 开源了

3、Apache Spark 3.0 将内置支持 GPU 调度

4、分布式原理:一致性哈希算法简介

5、一条 SQL 在 Apache Spark 之旅(下)

6、Kafka分区分配策略

7、分布式原理:一文了解 Gossip 协议

8、列式存储和行式存储它们真正的区别是什么

9、HBase Rowkey 设计指南

10、HBase 入门之数据刷写详细说明

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档: http://flink.iteblog.com 13、Carbondata 中文文档 http://carbondata.iteblog.com

640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=jpeg

你可能感兴趣的:(Apache Spark 中内存存储演进)