Spark的stage源码解析

https://zhuanlan.zhihu.com/p/535000671?utm_id=0
stage创建划分的过程就是一个深度优先遍历rdd依赖树的过程,通过不断的循环递归形式,最早的stage被首先创建出来。然后顺序创建后续stage,stage创建完毕后会注册stage到shuffleToMapStage,这是一个map,key为shuffleId,value为stage。每一个stage的rdd是shuffleDep的rdd,就是stage的最后一个rdd,stage的shuffleDep就是下一个stage的shuffleRDD的shuffleDep。下游stage的起始rdd一般为shuffleRDD,shuffleRDD的compute计算就是shuffle read的开始

你可能感兴趣的:(大数据学习之旅,spark,大数据,分布式)