Spark常见问题诊断

经常会遇到如下异常, 某一个task多次失败导致作业失败. 这种情况下因为容器退出, 无法查看日志, 已经很难判断具体的失败原因.

Spark常见问题诊断_第1张图片

可以参考如下步骤进行简单诊断问题,

1. 点击如下失败的stage链接,


Spark常见问题诊断_第2张图片

2. 进入如下task列表, 可以看到Index 396就是上面异常中的Task 396,  而对应的四次失败Attempt 的TID分别是 1165, 1318.

注意:这几次失败尝试发生的Host完全相同, 表示作业在同一台机器上反复执行这个task 4次并均告失败, 最终导致作业失败. 这种情况就极有可能是当时这台机器的状态不正常或负载偏高导致的


Spark常见问题诊断_第3张图片

你可能感兴趣的:(Spark常见问题诊断)