Spark学习之路 (七)Spark 运行流程

《2021年最新版大数据面试题全面开启更新》

欢迎关注github《大数据成神之路》

 

目录

一、Spark中的基本概念
二、Spark的运行流程
2.1 Spark的基本运行流程
三、Spark在不同集群中的运行架构
3.1 Spark on Standalone运行过程
3.2 Spark on YARN运行过程
 

正文

一、Spark中的基本概念

(1)Application:表示你的应用程序

(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext

(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式下,其进程名称为 CoarseGrainedExecutor Backend,一个CoarseGrainedExecutor Backend进程有且仅有一个executor对象,它负责将Task包装成taskRunner,并从线程池中抽取出一个空闲线程运行Task,这样,每个CoarseGrainedExecuto

你可能感兴趣的:(Spark系统性学习专栏)