Spark on Yarn任务提交流程(工作中用到yarn-client模式)

       Spark on YARN是spark运行在yarn上,其中有yarn-client和yarn-cluster两种模式,它们的区别在于Driver运行的结点位置。

yarn-client模式

       yarn-client模式下的spark的Driver运行在客户端,适用于交互、调试,希望立即看到app的输出。

yarn-cluster模式

          yarn-cluster模式下的spark的Driver运行在ResourceManager(以下简称RM)启动的ApplicationMaster(以下简称AM)下,这个模式适用于生产环境,本次介绍的任务提交流程也是基于这个模式的。
先看概览图:


App Submit
首先我们写好的代码经过打包成jar文件,然后通过spark client提交给yarn的RM。RM是yarn的资源管理器,负责调度集群的资源。
启动Driver
Spark App被提交到RM后,RM会在集群的一个节点上启动AM以及Driver。
申请资源
AM向RM申请资源,提供spark程

你可能感兴趣的:(Spark,面试Interview,spark,yarn)