Spark--Spark架构与角色介绍及Driver和Worker功能

Spark 架构与角色介绍

spark架构图.png

角色介绍

Spark架构使用了分布式计算中master-slave模型,master是集群中含有master进程的节点,slave是集群中含有worker进程的节点。

  • Driver Program :运⾏main函数并且新建SparkContext的程序。
  • Application:基于Spark的应用程序,包含了driver程序和集群上的executor。
  • Cluster Manager:指的是在集群上获取资源的外部服务。目前有三种类型
    • (1)Standalone: spark原生的资源管理,由Master负责资源的分配
    • (2)Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架
    • (3)Hadoop Yarn: 主要是指Yarn中的ResourceManager
  • Worker Node: 集群中任何可以运行Application代码的节点,在Standalone模式中指的是通过slaves文件配置的Worker节点,在Spark on Yarn模式下就是NodeManager节点
  • Executor:是在一个worker node上为某应⽤启动的⼀个进程,该进程负责运⾏行任务,并且负责将数据存在内存或者磁盘上。每个应⽤都有各自独立的executor。
  • Task :被送到某个executor上的工作单元。

spark 常见端口及功能

  • namenode的webUI端口:50070
  • yarn的web端口:8088
  • spark集群的web端口:8080
  • spark-job监控端口:4040
  • job history 端口:18080

Spark Driver功能

spark-driver.jpg
  • Driver运行应用程序的时候,具有main方法,且创建了SparkContext,是整个程序运行的调度的核心。内部会有高层调度器(DAGScheduler)和底层调度器(TaskScheduler),高层调度器把整个作业(Job)划分成几个小的阶段(Stage),底层调度器负责每个阶段内的任务(Task)该怎么去执行。由SchedulerBackend管理整个集群中为当前运行的应用程序分配的计算资源,分配的计算资源其实就是Executors,同时向Master注册当前的应用程序,如果注册成功,Master会向其分配资源。下一步根据action级别的操作出发job,job中会有一系列的RDD,从后往前推,如果是宽依赖的话就划分为不同的Stage,划分完成后提交给底层调度器TaskScheduler,TaskScheduler拿到具体的任务的集合,然后根据数据的本地性原则,把任务发放到对应的Executor上去执行,当Executor运行成功或者出现状况的话都会向Driver进行汇报,最后运行完成之后关闭SparkContext,所创建的对象也会随之关闭。

Spark worker功能

  • 主要功能:管理当前节点内存,CPU的使用状况,接收master分配过来的资源指令,通过ExecutorRunner启动程序分配任务,worker就类似于包工头,管理分配新进程,做计算的服务,相当于process服务。
  • 需要注意的是:
    • 1)worker不会汇报当前信息给master,worker心跳给master主要只有workid,它不会发送资源信息以心跳的方式给mater,master分配的时候就知道worker,只有出现故障的时候才会发送资源。
    • 2)worker不会运行代码,具体运行的是Executor是可以运行具体appliaction写的业务逻辑代码,操作代码的节点,它不会运行程序的代码的。

Spark executor功能

  • Executor是运行在Worker所在的节点上为当前应用程序而开启的进程里面的一个对象,这个对象负责了具体task的运行,具体是通过线程池并发执行和复用的方式实现的。
    • 这里要补充一点:Hadoop的MR是运行在一个又一个JVM上,而JVM比较重量级且不能被复用,而Spark中是通过线程池并发执行和复用的方式执行tasks,极大的方便了迭代式计算,所以Spark的性能大大提高。每个task的计算逻辑一样,只是处理的数据不同而已。
    • Spark应用程序的运行并不依赖于Cluster Manager,如果应用程序注册成功,Master就已经提前分配好了计算资源,运行的过程中跟本就不需要Cluster Manager的参与(可插拔的),这种资源分配的方式是粗粒度的。
    • 关于数据本地性,是在DAGScheduler划分Stage的时候确定的,TaskScheduler会把每个Stage内部的一系列Task发送给Executor,而具体发给哪个Executor就是根据数据本地性原则确定的,有关数据本地性的详细内容也会在后面的文章中进行说明。

Attention Please--文章来自互联网资料整理,如有雷同,纯属李小李抄袭,如有侵权请联系删除 From 李小李

你可能感兴趣的:(Spark--Spark架构与角色介绍及Driver和Worker功能)