第十章计算层优化之数据倾斜

在MapReduce执行的过程中，会把任务的原始数据分片到多个Task中执行。想象以下场景，当任务的多数Task都在短时间内完成，只有个别Task执行的时间特别长，从而拖慢了整个任务的执行速度，浪费了资源。表现形式就是任务进度卡在99%，这种现象就是数据倾斜。

MapReduce流程：

① 文件分片，一个分片交由一个map task执行

② map task首先把数据从磁盘读入内存环形缓冲区，在缓冲区快满时触发spil，将数据溢写到磁盘多个文件中，默认根据key的hash值进行分区，写入每个文件前会进行排序。

③ map端会进行部分聚合操作，减少数据传输中的网络消耗

④ reduce节点从不同map节点拉取自己需要处理的数据

⑤ 在ruduce节点上把文件合并成一个输入reduce task，执行任务

Map倾斜：

1）导致map端数据倾斜的原因：

① 输入文件小文件过多，导致数据分布不均匀，从而产生数据倾斜

② map task做聚合时，某个key特别多，从而产生数据倾斜

2）解决map端数据倾斜方案：

针对情况①，首先上游对文件进行合并，然后通过配置参数修改map task个数、每个map task处理的数据量。

针对情况②，使用distribute by rand（）将map端分发的数据重新按照随机值进行一次再分发，使得map task的输入数据分布更加均匀

3）解决map端数据倾斜核心：

① 让map task输入数据分布均匀

② 查找导致map变慢的操作

③ 考虑这些操作是否必须发生再map阶段

Join倾斜：

1）join数据倾斜的场景：

① join的两张表，其中有一张数据量很小

② join的两张表数据量都很大，表中存在大量空值

③ join的两张表数据量都很大，由于数据本身分布不均匀导致倾斜

2）join数据倾斜解决方案

针对场景①，使用mapjoin的方式，mapjoin的原理是把小表存入每一个map节点的内存中，顺序扫描另一张表在map端完成join，避免因分发key不均匀而导致的数据倾斜。

针对场景②，表中的空值聚合导致数据倾斜，可以使用coalesce（列，随机值）将空值处理成随机值，因为空值关联不上所以处理成随机值不会影响结果

针对场景③，数据倾斜是由热点数据导致，首先将热点数据和非热点数据分别处理，非热点数据正常join，对于热点数据根据情况特殊处理（核心思想是平均数据量），最后把两部分数据联合在一起

第十章 计算层优化之数据倾斜

MapReduce流程：

Map倾斜：

Join倾斜：

你可能感兴趣的:(第十章 计算层优化之数据倾斜)

第十章计算层优化之数据倾斜

你可能感兴趣的:(第十章计算层优化之数据倾斜)