一次spark sql 优化的经历: SparkException: Job aborted / spark.yarn.executor.memoryOverhead


某天 跑 sparkSQL 的时候,遇到报错:
org.apache.spark.SparkException: Job aborted.
org.apache.spark.SparkException: Job aborted.
通过上面的日志,大概了解到任务失败的原因应该是内存超过限定。 “Container killed by YARN for exceeding memory limits. ”,解决问题的第一思路是 sql 能不能优化下,加内存属于下下策。


先讲一下原来的 sql 思路:

SELECT a.name, a.age, b.alias
from a
left join (
    SELECT id, concat_ws(',', COLLECT_LIST(alias)) alias
	from bb
	group by id
) b

这是一个很简单的逻辑,猜测问题应该出现在 collect_ws() 函数, 当 b 表根据 id 聚合的时候,如果大量的数据 加载到 list (COLLECT_LIST)里面,将导致内存耗尽。

解决思路 应该是先把重复数据去掉,再调用 concat_ws(’,’ , COLLECT_LIST(alias)),优化后的sql 如下:

SELECT a.name, a.age, b.alias
from a
left join (
    SELECT id, collect_ws(',', COLLECT_LIST(alias)) alias
	from (
	    SELECT id, alias
		from bb 
		group by id, alias
	group by id
) b

还有更简单的一种写法,就是使用 COLLECT_SET 代替 COLLECT_LIST:

SELECT a.name, a.age, b.alias
from a
left join (
    SELECT id, collect_ws(',', COLLECT_SET(alias)) alias
	from bb
	group by id
) b

