在一般情况下,是否开启skewjoin取决于具体的使用场景。
skewjoin是一种优化技术,主要用于大数据处理中的join操作。当处理大表和大表之间的join操作时,可以考虑开启skewjoin来优化倾斜数据的处理。
具体来说,skewjoin的原理是在执行job时,将倾斜的key存储到临时的HDFS目录中,而其他数据则正常执行。对于倾斜数据开启mapjoin操作(多个map并行处理),对非倾斜值采取普通的join操作。
然而,是否需要开启skewjoin取决于你的数据和具体的业务需求。如果join操作涉及的数据倾斜并不严重,或者你可以接受较长的处理时间,那么可能并不需要开启skewjoin。另外,如果你的系统资源有限,或者你希望尽量减少内存的使用,那么也可能会选择不开启skewjoin。