spark优化之并行度

这个其实我前面已经记录过了,这里在记录一下。

我可以通过参数人为的来控制分区大小,增加分区中即可增加任务的并行度,并行度高自然运行的就快了嘛。

官方推荐集群中每个cpu并行的任务是2-3个(也就是2-3个partition),这样对于资源使用是最充分的

那么如何调整并行度呢。

在类似 sc.textFile 的方法中的第二个参数即可调整分区滴

你可能感兴趣的:(spark优化之并行度)