Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe

下面看下union的使用:

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe_第1张图片

使用collect操作查看一下执行结果:

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe_第2张图片

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe_第3张图片

再看下groupByKey的使用:

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe_第4张图片

执行结果:



join操作就是一个笛卡尔积操作的过程,如下示例:



对rdd3和rdd4执行join操作:



使用collect查看执行结果:

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe_第5张图片


可以看出join操作完全就是一个笛卡尔积的操作;

reduce本身在RDD操作中属于一个action类型的操作,会导致job的提交和执行:

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe_第6张图片

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe_第7张图片

下面我们看下lookup的使用:

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe_第8张图片

执行结果:

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe_第9张图片

 

你可能感兴趣的:(UNION,JOIN,lookup,parallelize,groupByKey)