【Spark】查询优化中分区(Partitioning)和分桶(Bucketing)是什么关系?什么时候应当分区,什么时候应当分桶?
在学习Spark的过程中,分区和分桶乍一看很像,都能为了计算加速,但是仔细一想,一查还是有些差异的,甚至说差异很大。那么具体有什么差异点,有什么相同点。我做出了如下的整理,供大家参考,欢迎指正。相同点分区(Partitioning)和分桶(Bucketing)在很多方面具有相似性,它们都是用于优化大数据查询性能的技术数据划分的目的:优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来