大数据开发(20)-Skew join

&&大数据学习&&
系列专栏: 哲学语录: 承认自己的无知,乃是开启智慧的大门
如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦

skew join的原理是,为倾斜的大key单独启动一个map join任务进行计算,其余key进行正常的common join。

在一般情况下,是否开启skewjoin取决于具体的使用场景。

skewjoin是一种优化技术,主要用于大数据处理中的join操作。当处理大表和大表之间的join操作时,可以考虑开启skewjoin来优化倾斜数据的处理。

具体来说,skewjoin的原理是在执行job时,将倾斜的key存储到临时的HDFS目录中,而其他数据则正常执行。对于倾斜数据开启mapjoin操作(多个map并行处理),对非倾斜值采取普通的join操作。

然而,是否需要开启skewjoin取决于你的数据和具体的业务需求。如果join操作涉及的数据倾斜并不严重,或者你可以接受较长的处理时间,那么可能并不需要开启skewjoin。另外,如果你的系统资源有限,或者你希望尽量减少内存的使用,那么也可能会选择不开启skewjoin。

你可能感兴趣的:(大数据)