spark SQL执行task数骤增

因为SQL中的一个表写入方式不严谨,造成小文件过多,导致task数骤增.

没有合并小文件时,文件数27000+,启动任务后task数11w+,合并后文件数70多,task数3000多.

小文件较多的表同其他表join时,猜测会每个文件同其他表的文件做关联.这两形成了文件维度的笛卡尔积.

后续追一下源码看看启动task的部分.

你可能感兴趣的:(日常工作问题记录)