【大数据面试知识点】分区器Partitioner:HashPartitioner、RangePartitioner
SparkHashParitioner的弊端是什么?HashPartitioner分区的原理很简单,对于给定的key,计算其hashCode,并除于分区的个数取余,如果余数小于0,则用余数+分区的个数,最后返回的值就是这个key所属的分区ID;弊端是数据不均匀,容易导致数据倾斜,极端情况下某几个分区会拥有rdd的所有数据。RangePartitioner分区的原理及特点?原理:RangeParti