spark 源码阅读RDD(一)

1. RDD 分布式数据集合,静态模型 ,解决规划的问题 ,RDD 被运行起来后才解决实际的问题 ,对应两个操作transformation action 

2 .spark 接收到作业后的运行流程

(1)RDD之间宽窄依赖分析,RDD之间形成一个有向五环图,DAGScheduler 负责划分有向无环图。

(2)根据DAG 分析结果讲一个作业分为多个stage ,划分stage 主要依据当前的计算因子输入是否是确定的,如果是则划分到同一个stage 中。

(3) DAGScheduler 在确定完成stage 之后,会向 DAGScheduler 提交任务集合taskSet 向TASKsScheudler ,TaskScheduler 负责将任务分发的每一个计算几点 Executor

  流程图 : 


spark 任务调度

Spark 集群节点组成 (1) Driver  (2) Master (3) Worker (4) Executor

Driver 节点比较特殊 ,可以运行在 集群内部, 也可以运行在集群之外 ,例如YARN Cluster 模式中是运行在集群内的 ,YARN CLINET 运行在集群外的 

你可能感兴趣的:(spark 源码阅读RDD(一))