Spark的一些问题汇总 及 Yarn与Spark架构的对比

1、Spark解决什么问题?

        海量数据的计算可以进行离线批处理以及实时流计算。

2、Spark有哪些模块?

        核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming)、图计算(Graphx)、机器学习(MLlib)

3、Spark有哪些特点?

        速度快、使用简单、通用性强、支持多种模式运行

4、Saprk的运行模式

        本地模式

        集群模式(StandAlone、YARN、K8S)

        云模式

5、Spark的运行角色(对比YARN)

        Master:集群资源管理(类同ResourceManager)

        Worker:单机资源模式(类同NodeManager)

        Driver:单任务管理者(类同ApplicationMaster)

        Executor:单任务执行者(类同YARN容器内的Task)

Yarn、Spark架构对比

1、YARN主要有4类角色,从两个层面去看:

# 资源管理层面

        1、集群资源管理者(Master):ResourceManger(RM)

        2、单机资源管理者(Worker):NodeManger

# 任务计算层面

        1、单任务管理者(Master):ApplicationMaster

        2、单任务执行者(Worker):Task(容器内计算框架的工作角色)

Spark的一些问题汇总 及 Yarn与Spark架构的对比_第1张图片

 2、Spark主要有4类角色,从两个层面去看:

# 资源管理层面

        1、集群资源管理者:Master

        2、单机资源管理者:Worker

# 任务计算层面

        1、单任务管理者:Driver

        2、单任务执行计算者:Executor (干活的)

Spark的一些问题汇总 及 Yarn与Spark架构的对比_第2张图片

你可能感兴趣的:(Spark,spark,大数据,分布式)