Spark基本概念

术语 含义
Application 用户编写的Spark应用程序,包括一个Driver和多个executors
Application jar 包含用户程序的Jar包
Driver Program 运行main()函数并创建SparkContext进程
Cluster manager 在集群上获取资源的外部服务,如standalone manager,yarn,Mesos
deploy mode 部署模式,区别在于driver process运行的位置
worker node 集群中可以运行程序代码的节点(机器)
Executor 运行在worker node上执行具体的计算任务,存储数据的进程
Task 被分配到一个Executor上的计算单元
Job 由多个任务组成的并行计算阶段,因RDD的Action产生
Stage 每个Job被分为小的计算任务组,每组称为一个stage
DAGScheduler 根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler
TaskScheduler 将TaskSet提交给worker运行,每个executor运行什么task在此分配

你可能感兴趣的:(Spark基本概念)