1、你要切换到yarn-cluster或者yarn-client模式,很简单,将我们之前用于提交spark应用程序的spark-submit脚本,加上--master参数,设置为yarn-cluster,或yarn-client,即可。如果你没设置,那么,就是standalone模式。
2、yarn集群分为主节点和从节点,一个主节点是ResourceManager(RM),多个从节点是NodeManager(NM)。
3、
3.1、如果是yarn-cluster模式,spark-submit在提交的时候请求到ResourceManager,请求来启动ApplicationMaster,ResourceManager接收到请求后会分配一个container,在某个NodeManager上启动ApplicationMaster,ApplicationMaster(AM)启动后会反过来向ResourceManager进行通讯,其实这个ApplicationMaster就相当于是driver,AM找RM请求container,启动excutor,然后RM会分配一批container,用于启动executor,AM链接其他的NM,来启动executor,这里的NM相当于worker,executor向AM反向注册。ResourceManager相当于之前的master。
3.2、yarn-client模式,spark-submit在提交的时候发送给RM,请求启动AM,分配一个container,在某个NM上,启动AM,但是这里的AM只是一个ExecutorLauncher,功能是很有限的。AM启动后会找RM申请container,启动executor,AM链接其他的NM,用container的资源来启动executor。executor会反向注册到本地的driver上。
4区别:yarn-cluster的driver相当于就是在NodeManager的某一个ApplicationMaster,yarn-client的driver还是在本地启动的一个进程,在NodeManager启动的ApplicationMaster只是一个ExecutorLauncher,ExecutorLauncher只会想ResourceManager申请资源,然后用Container资源去连接其他的NodeManager,然后去启动Executor,executor启动后会反向注册到提交应用程序的本地客户端driver进程上,然后本地客户端的driver进程里DAGScheduler,TaskScheduler会大量进行task的调度,发送到NodeManager的executor中。
yarn-client vs yarn-cluster
yarn-client主要用于测试,因为driver运行在本地客户端,负责调度Application ,会与yarn集群产生大量的网络通信,好处是执行时,本地可以看到所有的log,方便调试。
yarn-cluster用于生产环境,driver运行在nodemanager,没有网卡流量激增的问题,缺点是不方便调试,只能同过yarn application -log applacation_id查看。