Pyspark系列笔记--错误Unable to acquire XXXXX bytes of memory

前言

实验环境:

pyspark 1.5.0
python 2.7


今天依然在学习pyspark,感觉真的是在天天写bug…
今天又遇到了一个非常坑爹的错误。

Step1. 我在一个全新的Dataframe上面应用自己的一个函数,这个函数测试通过。
Step 2. 对这个DataFrame做了几次计算以及join以后,发生了错误:Unable to acquire XXXXX bytes of memory。

我百思不得其解,我以为是哪里格式不对,测试了半天。
我确定我自己应用到此函数的输入格式以及传入的参数都是对的。
那是为什么???

难道是我的内存不够了吗?
我又去优化了我的程序,减少了rdd的产生。
然而还是失败的。

知道我发现了这篇spark 1.5.x 错误博客,才得到解决方法。

这个问题的产生关乎一个优化器 Tungsten,它默认单元分配的内存是64MB。
如果你总共只有1g内存并且超过4个线程,这个值就太高。

通过设置:

spark.buffer.pageSize 16m

或者直接将tungsten关闭(不推荐)

spark.sql.tungsten.enabled false

这样我的问题得以解决,但是程序非常的慢,说明优化器还是很重要的。
然后要强调的一点是pageSize设置的越小越能解决这个问题,应该是允许的同时出现的线程数就越多,但是估计换入换出的次数变多,导致程序变慢。

你可能感兴趣的:(pyspark)