spark2.0-executor分配机制源码学习

本文主要讲解一下spark2.0版本Spark-StandAlone模式下executor的分配过程和分配机制。

跟踪这一块的源代码应该从SparkContext类开始。当用户new SparkContext时，会执行该类中定义在class body中的代码。这部分代码会执行spark作业初始化之类的操作，比如校验参数、初始化spark history server、初始化blockManager等等。我们需要关注的是他构建TaskScheduler这一部分的代码。这也是executor初始化的切入点，如下图：

点开createTaskScheduler方法可以看到，他基于spark master的类型构建了SchedulerBackend。而TaskScheduler的类型基本上都是TaskSchedulerImpl。

匹配spark master类型的正则表达式如下，感兴趣的可以了解一下：

然后我们一路ctrl + alt +左箭头返回SparkContext类，看到_taskScheduler.start()，点进去。然后看到backend.start()点进去。其中backend对象就是之前在createTaskScheduler方法中创建的StandaloneSchedulerBackend。

下图中command对象封装的是在worker端启动executor的命令。而initialExecutorLimit是spark-standalone模式提供的dynamic allocation机制，他可以在executor闲置一段时间后就将其移除。对应参数spark.dynamicAllocation.enabled，默认为false。

然后看一下client.start()方法，点进去。然后看到new ClientEndpoint，再点进去。

然后会调用到这个类中的onStart方法，有人会问为什么会调到这个方法呢，这里只是将其new出来了，并没有执行任何操作啊！？答案就在前边的rpcEnv.setupEndpoint方法。在该方法中通过回调机制会重新调用到onStart方法。点进去，跟到NettyRpcEnv的setupEndpoint方法

然后继续跟踪到dispatcher.registerRpcEndpoint方法，

然后点进new EndpointData方法，然后跟踪到new Inbox。Inbox在通信机制中起到一个消息存取的作用。

在Inbox中的class body中有如下一段

然后看到OnStart event的处理

�

点开ClientEndpoint后就会看到我们接下来要执行到的onStart()方法了。

然后再看这个类中的onStart()方法，registerWithMaster方法点进去，然后再看到tryRegisterAllMasters方法点进去。在这个方法中会看到构建了一个与master通信的RPC终端，并发送了RegisterApplication事件，

在发送过程中，会将这条消息序列化，如下：

在整个spark core中搜索一下这个case class，然后在Master的receive方法中找到了对这类消息的处理逻辑如下：

在这部分代码中createApplication方法会根据当前时间创建appId，appId格式为：

app-yyyyMMddHHmmss-nextAppNumber

nextAppNumber是随着app的提交而递增的。

除此之外还会构建ApplicationInfo对象，需要注意的是该对象的desc.command中存放了在worker端启动Executor的命令。

然后看一下scheduler()方法。该方法中实现了启动driver的逻辑，以及启动executor的入口方法。该部分代码的逻辑请参考图中的注释。

然后看一下startExecutorsOnWorkers方法，该方法对多个app采用FIFO策略分配executor。首先选出内存和cpu核数满足条件的worker，作为候选worker。然后按照scheduleExecutorsOnWorkers方法实现的策略分配executor。然后通过allocateWorkerResourceToExecutors方法在指定的worker上通过事件启动该executor。方法讲解参考备注。

�

接下来我们重点的看一下scheduleExecutorsOnWorkers方法。该方法实现了在worker集群中分配executor的策略。

首先看一下局部方法canLaunchExecutor，该方法用来判断指定序号的worker能否启动executor。判断的两个主要因素是内存和cpu core数是否满足单个executor的最小要求，除此之外还会考虑app要求的总资源数，以及单个worker上能否启动多个executor的配置。具体的实现逻辑请参考截图中的代码注释。

然后看一下scheduleExecutorsOnWorkers方法中的其他代码：

这部分代码是用来实现executor分配机制的。这段代码比较清晰，master会逐个遍历当前可用的worker，如果该worker可用，直接为其分配一个executor基数的core，然后会读取一个系统参数spark.deploy.spreadOut。当该参数配置为false，master会将该worker上的core一直分配给这个app，直到当前worker没有足够资源，或者app的要求已经满足。如果配置为true，则每个worker在分配完一次资源后，会跳转到下一个worker继续再分配，直到下一次对整个workers集群的遍历重新开始。这样做的意义是尽可能的将executor分配到更多的worker上去执行，有利于计算时的本地化计算，否则在计算时计算所需的数据不在当前节点，就需要占用网络资源拉取数据。系统默认配置为true。

我在阅读这段代码时有一个疑问。Executor的分配结果不仅是core，还包含了mem和某个worker上启动executor的个数。而方法的返回值只有某个worker上分配的core数，那么如何判断executor的个数呢。对于不了解计算逻辑的人会认为oneExecutorPerWorker模式下一个executor可能会被分配了minCorePerExecutor+个core，此时如果单纯通过worker上实际分配的core个数除以minCorePerExecutor就无法正确计算出executor个数了。这时就会想为什么不在方法返回值中带有executor个数呢？

继续往下看就会找到答案，在实际启动executor时，是根据用户是否配置了coresPerExecutor来决定executor个数的，在没有配置（也就是在OneExecutorPerWorker模式下）的情况下executor个数是固定为1的，其他情况下是用已分配core数/ coresPerExecutor计算的。

然后点进launchExecutor方法看一下，在master端会向worker端发送启动executor的命令LaunchExecutor，命令包含在exec.application.desc的command中。创建完成后会向driver端发送ExecutorAdded event，driver接收到后会打印日志。

然后worker端在收到LaunchExecutor命令后，会实例化一个ExecutorRunner，然后调用其start方法，在该方法中启动了一个workerThread线程，其run方法的实现逻辑为方法fetchAndRunExecutor。这个方法就比较直观了，取出创建Executor的命令appDesc.command封装成ProcessBuilder类，用它来执行启动Executor的命令。

没错，启动的命令就是前文中提到的command对象：

spark2.0-executor分配机制源码学习

你可能感兴趣的:(spark2.0-executor分配机制源码学习)