spark数据清洗解决方案

数据倾斜的解决方案 之 小表join大表转为小表broadcast+map大表实现。
适用场景:在对RDD使用join类操作,或者是在Spark SQL中使用join语句时,
并且join操作中的一个RDD或表的数据量比较小(比如几百M或者一两G)。
实现原理:普通的join是会走shuffle过程的,而一旦shuffle,
就相当于会将相同key的数据拉取到一个shuffle read task中再进行join,此时就是reduce join。
但是如果一个RDD比较小,则可以采用广播小RDD全量数据+map算子来实现与join同样的效果,也就是map join,
将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来,然后对其创建一个Broadcast变量;
接着对另外一个RDD执行map类算子,在算子函数内,从Broadcast变量中获取较小RDD的全量数据,
与当前RDD的每一条数据按照连接key进行比对,如果连接key相同的话,那么就将两个RDD的数据用需要的方式连接起来。
此时不会发生shuffle操作,也就不会发生数据倾斜。

你可能感兴趣的:(spark)