当 Spark 任务出现数据倾斜的问题时该如何处理呢?

前言

最近一位数仓同学问我,当 Spark 任务出现数据倾斜的问题时该如何处理呢?那么今天就来讲一下遇到了数据倾斜问题时处理的方式方法。

1)数据倾斜的定义

Spark 中的数据倾斜问题主要指 shuffle 过程中出现的数据倾斜问题,是由于不同的 key 对应的数据量不同导致的不同task所处理的数据量不同的问题。

2)数据倾斜的表现

Spark 作业的大部分 task 都执行迅速,一个或几个 task 执行的很慢,此时可能出现了数据倾斜,作业可以运 行,但是运行得非常慢;
Spark 作业的大部分 task 都执行迅速,但是有的 task 在运行过程中会突然报出 OOM,反复执行几次都在某一 个 task 报出 OOM 错误,此时可能出现了数据倾斜,作业无法正常运行。
当 Spark 任务出现数据倾斜的问题时该如何处理呢?_第1张图片
上述截图中其他任务的执行速度和处理数据记录数都差不多,但第一条处理的数据量高达 15GB,近一亿数据记录,发现了数据倾斜。

3)定位数据倾斜问题

步骤一: 看数据倾斜发生在哪个 Stage

你可能感兴趣的:(hive,hive,Spark,数据倾斜)