Spark中sortByKey是如何进行全局排序的

首先有一个问题
有一台服务器:24core 128G内存,要处理一个1T的数据怎么办?

要采用拆分策略,将1T的数据拆分成128G大小的块进入服务器计算。
1T数据拆分成了8个块P1-P8
而且要使P1的数据全部小于P2 P2数据全部小于P3以此类推

这就是分而治之的思想


Spark中sortByKey是如何进行全局排序的_第1张图片
SortByKey对全局排序

在sortByKey之前将数据使用partitioner根据数据范围来分区,使得p1所有数据小于p2,p2所有数据小于p3。然后利用sortByKey算子对每一个partition进行分区,这样全局的数据就被排序了

你可能感兴趣的:(Spark中sortByKey是如何进行全局排序的)