rdd算子中能使用rdd的引用吗?

rdd算子中调用的客户函数坚决不能出现任何形式的rdd引用,否则会报很严重的错误:
java.lang.ClassCastException: org.apache.spark.MapOutputTrackerWorker cannot be cast to org.apache.spark.MapOutputTrackerMaster

按spark的说法是trasaction中不能嵌套,这是因为客户函数将以闭包的形式发送至各个worker。若客户函数使用了rdd的引用(特别是当前rdd的引用),spark将会把当前rdd对象闭包给worker.然而,对rdd对象的执行只能由driver进行,worker并不能执行,所以会导致错误。
如:

val r1 = r0.zipWithUniqueId()
val r2 = r1.filter(_._2 / r1.partitions.length)

第二句filter算子的客户函数引用了r1,即使只是使用一个Int型的分区数目,都会导致错误。
当前情况在spark1.4是可以通过的,但在spark1.6就会出错,spark1.6在这个原则问题上处理更加严肃!

处理办法,去掉rdd引用,使用本地数据结构代替:

val r1 = r0.zipWithUniqueId()
val partitionSize = r1.partitions.length
val r2 = r1.filter(_._2 / partitionSize )

你可能感兴趣的:(spark,闭包,RDD)