2019-11-18 spark高级数据分析-第二章

spark提供了两种抽象:存储和执行

rdd以分区的形式存在集器中的多个机器上,分区定义了数据的并行单位

缓存将rdd存储为为序列化的对象,避免了重新计算和序列化。但多占用2-5倍的空间,大量小对象对gc也会造成压力。

你可能感兴趣的:(2019-11-18 spark高级数据分析-第二章)