standalone集群架构

集群管理器,cluster manager:Master 进程

工作节点:Worker进程

spark,Master+Worker集群架构就足够了,然后可以编写spark作业,提交到Master+Worker集群架构中运行

一般大公司,Hadoop、spark、storm、Hive、MapReduce都用到了,统一就不搭建spark集群了,(Master+Worker压根就没有)

 

YARN集群

直接部署一个spark客户端,部署一个spark安装包(解压缩+配置(hadoop的配置文件的目录 spark-env))

就可以提交spark作业给Yarn集群来运行作业

 

Master进程(cluster manager)

Worker进程(多个工作节点)

 

俩种deploy mode:

1. client:在哪台机器上,用spark submit提交spark作业,就会在哪台机器上启动driver进程

2. cluster模式:作业是提交给master,master找一台worker进程,启动driver

你可能感兴趣的:(spark)