简述spark的架构与作业提交流程

1.首先spark在yarn下的作业提交分两种,一种是yarn-cluster模式,一种是yarn-client模式。yarn-client模式主要是用于测试,yarn-cluster模式主要是用于生产。
2.当我们用spark-submit提交任务的时候,会请求Resource Manager分配一个executor,用于启动Application Master,接着启动driver(yarn-client模式driver在提交作业的终端启动,yarn-cluster模式driver在AM处启动)。接着AM找RM要资源,RM给分配相应数量的executor。开始执行任务,拆分stage,提交stage的task,进行task的调度,分配到各个executor上面去执行。执行完成后,driver会通知RM回收资源。

你可能感兴趣的:(简述spark的架构与作业提交流程)