【问题跟踪】KryoException: java.io.IOException: No space left on device

今天在对LDA进行不同参数训练模型,记录其avglogLikelihood和logPerplexity,以便判断模型训练是否收敛时,产生了一个令人极度崩溃的事儿:程序在辛辛苦苦跑了7.3h后...挂了!证据如下:


早上一来看这张图,好像跑完了,然后点进去看...然后就没有然后了

【问题跟踪】KryoException: java.io.IOException: No space left on device_第1张图片


每次迭代都需要9min左右,迭代了近50次跟我说挂了,确实挺让人奔溃的。


先说说我的配置以及LDA参数吧

5 * 40cores cpu 

5* 500g memory

参数:



没办法,既然都崩溃了,跟进去找问题呗



磁盘没空间了!这是什么鬼...于是常规的,先从网上找找,看看有没有人有类似的问题,结果还真让我发现两个

Spark:java.io.IOException: No space left on device

spark参数配置调优

发现第一个的回答中比较有用的是这个:

【问题跟踪】KryoException: java.io.IOException: No space left on device_第2张图片


同时,结合第二个中的解释



基本上定位到应该是spark.local.dir目录用来存放shuffle产生的临时文件的空间不够用了。好吧,那看看自己的配置咯

【问题跟踪】KryoException: java.io.IOException: No space left on device_第3张图片


这下子好玩儿了!配置的local目录空间剩余杠杠的,机器上还剩大概600G(关键是总共5台啊!!!总共至少3T空间),跟我说No space left on device确定不是在逗我的?好吧,看来应该不是shuffle文件存储的空间不足了。

怎么办?问题总不能摆着儿吧,没办法,那就跟进去spark的UI慢慢研究咯

【问题跟踪】KryoException: java.io.IOException: No space left on device_第4张图片


等等!还真发现点儿规律,为什么报错的都是同一台机器!然后想到之前的一个任务也有fails,赶紧打开看看,验证一下


【问题跟踪】KryoException: java.io.IOException: No space left on device_第5张图片

【问题跟踪】KryoException: java.io.IOException: No space left on device_第6张图片


看来果然是这样了!现在规律是发现了,那为什么会这样啊?刚才看到的bigdata04上的磁盘空间是完全够用的啊,真是奇了怪了!

等等!突然想起来,我好像是在这台机启动的任务

【问题跟踪】KryoException: java.io.IOException: No space left on device_第7张图片


也就是说,bigdata04是我的driver。

原来如此,既然是driver,那么跟存储有关的就只有提交任务时配置的参数--driver-memory 50g这个了。



而且,好像刚才查看执行过程的时候,shuffle write也是很大的

【问题跟踪】KryoException: java.io.IOException: No space left on device_第8张图片

那就试着把--driver-memory这个参数调大点吧。

先记录到这里,等结果出来后再看看,如果没问题了再修改本文总结一下!


你可能感兴趣的:(Spark,FAQ)