c929833623lvcha

Hadoop_YARN资源管理系统源码解析

一、YARN产生的背景(MRv1的局限性)

二、YARN源代码结构

三、YARN基本架构

四、YARN各模块详细分析

五、MRAppMaster-MapReduce On YARN实现

六、YarnChild-MR引擎启动入口

七、总结

一、YARN产生的背景(MRv1的局限性)

YARN 是在 MRv1 基础上演化而来的，它克服了 MRv1 中的各种局限性。在正式介绍 YARN 之前，我们先要了解 MRv1 的一些局限性，这可概括为以下几个方面:

❑ 扩展性差。在 MRv1 中，JobTracker 同时兼备了资源管理和作业控制两个功能，这成为系统的一个最大瓶颈，严重制约了Hadoop集群扩展性。

❑ 可靠性差。MRv1 采用了Master/Slave结构，其中，Master(JobTracker)存在单点故障问题，一旦它出现故障将导致整个集群不可用。

❑ 资源利用率低。MRv1 采用了基于槽位的资源分配模型，槽位是一种粗粒度的资源划分单位，通常一个任务不会用完槽位对应的资源，且其他任务也无法使用这些空闲资源。此外，Hadoop 将槽位分为 Map Slot 和 Reduce Slot 两种，且不允许它们之间共享，常常会导致一种槽位资源紧张而另外一种闲置(比如一个作业刚刚提交时，只会运行Map Task，此时Reduce Slot 会闲置)。

❑ 无法支持多种计算框架。随着互联网高速发展，MapReduce这种基于磁盘的离线计算框架已经不能满足应用要求，从而出现了一些新的计算框架，包括内存计算框架、流式计算框架和迭代式计算框架等，而这些新的计算框架是无法运行在MRv1上的。

为了克服以上几个缺点，Apache开始尝试对Hadoop进行升级改造，进而诞生了更加先进的下一代MapReduce计算框架 MRv2。正是由于MRv2将资源管理功能抽象成了一个独立的通用系统YARN，直接导致下一代MapReduce的核心从单一的计算框架MapReduce转移为通用的资源管理系统YARN。为了进一步理解以YARN为核心的软件栈，我们将之与以MapReduce为核心的软件栈进行对比，在以MapReduce为核心的软件栈中，资源管理系统 YARN 是可插拔替换的，比如选择 Mesos替换YARN，一旦MapReduce接口改变，所有的资源管理系统的实现均需要跟着改变 ;但以 YARN 为核心的软件栈则不同，所有框架都需要实现 YARN 定义的对外接口以运行在YARN之上，这意味着Hadoop 2.0可以打造一个以YARN为核心的生态系统。

图1 MRV1的基本架构图2 YARN作为通用资源管理系统的的基本架构

MRv1主要由两类服务组成，分别是 JobTracker 和TaskTracker。其中，JobTracker负责集群资源资源和作业管理，TaskTracker负责单个节点的资源管理和任务管理。MRv1将资源管理和作业管理两部分混杂在一起，使得它在扩展性、容错性和多框架支持等方面存在明显缺陷。而 MRv2 则通过将资源管理和作业管理两部分剥离开，分别由YARN和ApplicationMaster负责，其中，YARN专管资源管理和调度，而ApplicationMaster则负责应用程序的生命周期。总结：MRv2将MRv1中JobTracker的集群资源管理功能抽出来变成YARN中的ResourceManager，将MRv1中的TaskTracker的节点资源管理抽出来变成YARN中的NodeManager，将MRv1中JobTracker的作业管理及TaskTracker的任务管理抽出来变成YARN中的ApplicationMaster，使得YARN在扩展性、容错性和多框架支持等方面相比MRv1都有明显的改进。

二、YARN源代码结构

在 Hadoop 的JAR压缩包解压后的目录 hadoop-{VERSION} 中包含了 Hadoop 全部的管理脚本和JAR包，下面简单对这些文件或目录进行介绍。

❑ bin：Hadoop 最基本的管理脚本和使用脚本所在目录，这些脚本是 sbin 目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用 Hadoop。

❑ etc：Hadoop 配置文件所在的目录，包括 core-site.xml、hdfs-site.xml、mapred-site. xml 等从 Hadoop 1.0 继承而来的配置文件和 yarn-site.xml 等 Hadoop 2.0 新增的配置文件。

❑ include：对外提供的编程库头文件(具体动态库和静态库在 lib 目录中)，这些头文件均是用 C++ 定义的，通常用于 C++ 语言访问 HDFS 或者编写 MapReduce 程序。

❑ lib：该目录包含了 Hadoop 对外提供的编程动态库和静态库，与 include 目录中的头文件结合使用。

❑ libexec：各个服务对应的 Shell 配置文件所在目录，可用于配置日志输出目录、启动参数(比如 JVM 参数)等基本信息。

❑ sbin：Hadoop 管理脚本所在目录，主要包含 HDFS 和 YARN 中各类服务的启动/关闭脚本。

❑ share：Hadoop 各个模块编译后的 JAR 包所在目录。

在 Hadoop 源代码压缩包解压后的目录 hadoop-{VERSION}-src 中，可看到如图1

示的目录结构，其中，比较重要的目录有 :hadoop-common-project、hadoop-mapreduce- project、hadoop-hdfs-project 和 hadoop-yarn-project 等，下面分别介绍这几个目录的作用。

❑ hadoop-common-project：Hadoop 基础库所在目录，该目录中包含了其他所有模块可能会用到的基础库，包括 RPC、Metrics、Counter 等。

图3 Hadoop源码目录结构

❑ hadoop-mapreduce-project :MapReduce 框架的实现，在 MRv1 中，MapReduce 由编程模型(map/reduce)、调度系统(JobTracker 和 TaskTracker)和数据处理引擎(MapTask 和 ReduceTask)等模块组成，而此处的 MapReduce 则不同于 MRv1 中的实现，它的资源调度功能由新增的 YARN 完成(编程模型和数据处理引擎不变)，自身仅包含非常简单的任务分配功能。

❑ hadoop-hdfs-project :Hadoop 分布式文件系统实现，不同于 Hadoop 1.0 中单 NameNode 实现，Hadoop 2.0 支持多 NameNode，同时解决了 NameNode 单点故障问题。

❑ hadoop-yarn-project :Hadoop 资源管理系统 YARN 实现。这是 Hadoop 2.0 新引入的分支，该系统能够统一管理系统中的资源，并按照一定的策略分配给各个应用程序。

下面就对Hadoop YARN源代码组织结构进行介绍。

总体上看，Hadoop YARN 分为 5 部分 :API、Common、Applications、Client 和 Server，它们的内容具体如下:

❑ YARN API(hadoop-yarn-api 目录):给出了 YARN 内部涉及的 4 个主要 RPC 协议的 Java 声明和 Protocol Buffers 定义，这 4 个 RPC 协议分别是 ApplicationClientProtocol、 ApplicationMasterProtocol、ContainerManagementProtocol 和 ResourceManagerAdministrationProtocol。

❑ YARN Common(hadoop-yarn-common 目录):该部分包含了 YARN 底层库实现，包括事件库、服务库、状态机库、Web 界面库等。

❑ YARN Applications(hadoop-yarn-applications 目录):该部分包含了两个 Application 编程实例，分别是 distributedshell 和 Unmanaged AM。

❑ YARN Client(hadoop-yarn-client 目录):该部分封装了几个与 YARN RPC 协议交互相关的库，方便用户开发应用程序。

❑ YARN Server(hadoop-yarn-server 目录):该部分给出了 YARN 的核心实现，包括ResourceManager、NodeManager、资源管理器等核心组件的实现。

图4 Hadoop YARN目录组织结构

三、YARN基本架构

YARN是Hadoop 2.0 中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务 :一个全局的资源管理器ResourceManager和每个应用程序特有的 ApplicationMaster。其中ResourceManager负责全局的资源管理及调度，而 ApplicationMaster负责单个应用程序的生命周期管理。

3.1、YARN基本组成结构

YARN 总体上仍然是 Master/Slave 结构，在整个资源管理框架中，ResourceManager 为 Master，NodeManager 为 Slave，ResourceManager 负责对各个 NodeManager 上的资源进行统一管理和调度。当用户提交一个应用程序时，需要提供一个用以跟踪和管理这个程序的 ApplicationMaster，它负责向 ResourceManager 申请资源，并要求 NodeManger 启动可以占用一定资源的任务。由于不同的 ApplicationMaster 被分布到不同的节点上，因此它们之间不会相互影响。在本小节中，我们将对 YARN 的基本组成结构进行介绍。

图 2-9 描述了 YARN 的基本组成结构，YARN 主要由 ResourceManager、NodeManager、 ApplicationMaster(图中给出了 MapReduce 和 MPI 两种计算框架的 ApplicationMaster，分别为 MR AppMstr 和 MPI AppMstr)和 Container 等几个组件构成。

1. ResourceManager(RM)

RM是一个全局的资源管理器，负责整个集群的资源管理与调度（个人理解类似于MRv1时的JobTracker，只是把JobTracker作业管理相关的这块移到了ApplicationMaster中，只负责纯粹通用的资源管理与调度，做到了计算框架无关）。主要功能是包括资源管理与调度、ApplicationMaster管理(启动应用程序的AM)、NodeManager管理等。

❑ 与客户端进行交互，处理来自于客户端的请求，如提交应用程序、查询应用的运行情况等。

❑ 启动和管理各个应用程序的ApplicationMaster，并且为ApplicationMaster申请第一个Container用于启动和在它运行失败时将它重新启动。

❑ 管理NodeManager，接收来自NodeManager的资源和节点健康情况汇报，并向NodeManager下达资源管理命令，例如kill掉某个container。

❑ 资源管理与调度，接收来自ApplicationMaster的资源申请请求，并为之分配资源。这个是它最重要的职能。YARN提供了多种直接可用的调度器，比如Fair Scheduler和Capacity Scheduler。

2. ApplicationMaster(AM)

AM是一个应用程序管理器，负责一个应用程序的生命周期管理（管理Job中的各个task，申请资源并管理Job内的资源分配）。用户提交的每个应用程序均包含一个 AM，主要功能包括:

❑ 与 RM 调度器协商以获取资源(用 Container 表示);

❑ 将得到的资源进一步分配给内部的任务;

❑ 与 NM 通信以启动 / 停止任务;

❑ 监控所有任务运行状态，并在任务运行失败时重新为任务申请资源以重启任务。

当前 YARN 自带了两个 AM 实现，一个是用于演示 AM 编写方法的实例程序

distributedshell，它可以申请一定数目的 Container 以并行运行一个 Shell 命令或者 Shell 脚本 ; 另一个是运行 MapReduce 应用程序的 AM— MRAppMaster。此外，一些其他的计算框架对应的 AM 正在开发中，比如 Open MPI、Spark 等。

3. NodeManager(NM)

NM 是单个节点上的资源管理器（个人理解类似于MRv1时的TaskTracker，只是把TaskTracker任务管理这块移到了ApplicationMaster中，只负责纯粹通用的资源管理与调度，做到了计算框架无关），一方面，它会定时地向 RM 汇报本节点上的资源使用情况和各个 Container 的运行状态;另一方面，它接收并处理来自 AM 的 Container 启动 / 停止等各种请求。

4. Container

Container 是 YARN 中的资源抽象，它封装了某个节点上的多维度资源，如内存、 CPU、磁盘、网络等，当 AM 向 RM 申请资源时，RM 为 AM 返回的资源便是用 Container 表示的。YARN 会为每个任务分配一个 Container，且该任务只能使用该 Container 中描述的资源。需要注意的是，Container 不同于 MRv1 中的 slot，它是一个动态资源划分单位，是根据应用程序的需求动态生成的。YARN 目前仅支持 CPU 和内存两种资源，且使用了轻量级资源隔离机制 Cgroups 进行资源隔离。

3.2、YARN通信协议

RPC 协议是连接各个组件的“大动脉”，了解不同组件之间的 RPC 协议有助于我们更深入地学习 YARN 框架。在 YARN 中，任何两个需相互通信的组件之间仅有一个 RPC 协议，而对于任何一个 RPC 协议，通信双方有一端是 Client，另一端为 Server，且 Client 总是主动连接 Server 的，因此，YARN 实际上采用的是拉式(pull-based)通信模型。如图 2-10 所示，箭头指向的组件是 RPC Server，而箭头尾部的组件是 RPC Client，YARN 主要由以下几个 RPC 协议组成 :

❑ JobClient(作业提交客户端)与 RM 之间的协议 — ApplicationClientProtocol : JobClient 通过该 RPC 协议向RM提交应用程序、查询应用程序状态等。

❑ Admin(管理员)与 RM 之间的通信协议— ResourceManagerAdministrationProtocol : Admin 通过该 RPC 协议更新系统配置文件，比如节点黑白名单、用户队列权限等。

❑ AM 与 RM 之间的协议— ApplicationMasterProtocol :AM 通过该 RPC 协议向 RM 注册和撤销自己，并为各个任务申请资源。

❑ AM 与 NM 之间的协议 — ContainerManagementProtocol :AM 通过该 RPC 要求 NM 启动或者停止Container，获取各个Container的使用状态等信息。

❑ NM 与 RM 之间的协议— ResourceTracker :NM 通过该 RPC 协议向 RM 注册，并定时发送心跳信息汇报当前节点的资源使用情况和Container运行情况。

图5 Hadoop YARN的RPC协议

为了提高 Hadoop 的向后兼容性和不同版本之间的兼容性，YARN 中的序列化框架采用了 Google 开源的 Protocol Buffers。

3.3、YARN工作流程

运行在 YARN 上的应用程序主要分为两类 :短应用程序和长应用程序，其中，短应用程序是指一定时间内(可能是秒级、分钟级或小时级，尽管天级别或者更长时间的也存在，但非常少)可运行完成并正常退出的应用程序，比如 MapReduce 作业、Tez DAG 作业等，长应用程序是指不出意外，永不终止运行的应用程序，通常是一些服务，比如 Storm Service(主要包括 Nimbus 和 Supervisor 两类服务)，HBase Service(包括 Hmaster 和 RegionServer 两类服务) 等，而它们本身作为一个框架提供了编程接口供用户使用。尽管这两类应用程序作用不同，一类直接运行数据处理程序，一类用于部署服务(服务之上再运行数据处理程序)，但运行在 YARN 上的流程是相同的。当用户向 YARN 中提交一个应用程序后，YARN 将分两个阶段运行该应用程序 :第一个阶段是启动 ApplicationMaster ;第二个阶段是由 ApplicationMaster 创建应用程序，为它申请资源，并监控它的整个运行过程，直到运行完成。如图 2-11 所示，YARN 的工作流程分为以下几个步骤:

图6 Hadoop YARN的工作流程

步骤 1 用户向 YARN 中提交应用程序，其中包括 ApplicationMaster 程序、启动 ApplicationMaster 的命令、用户程序等。

步骤 2 ResourceManager 为该应用程序分配第一个 Container，并与对应的 Node- Manager 通信，要求它在这个 Container 中启动应用程序的 ApplicationMaster。

步骤 3 ApplicationMaster 首先向 ResourceManager 注册，这样用户可以直接通过 ResourceManage 查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤 4~7。

步骤 4 ApplicationMaster 采用轮询的方式通过 RPC 协议向 ResourceManager 申请和领取资源。

步骤 5 一旦 ApplicationMaster 申请到资源后，便与对应的 NodeManager 通信，要求它启动任务。

步骤 6 NodeManager 为任务设置好运行环境(包括环境变量、JAR 包、二进制程序等)后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。

步骤 7 各个任务通过某个 RPC 协议向 ApplicationMaster 汇报自己的状态和进度，以让 ApplicationMaster 随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。

在应用程序运行过程中，用户可随时通过 RPC 向 ApplicationMaster 查询应用程序的当前运行状态。

步骤 8 应用程序运行完成后，ApplicationMaster 向 ResourceManager 注销并关闭自己。

四、YARN各模块详细分析

接下来将分析各个重要模块，ResourceManager、NodeManager、MRAppMaster、YarnChild。如下如所示：

图7 Hadoop YARN详细模块

4.1、ResourceManager

同MRv1一样，YARN也采用了Master/Slave结构，其中，Master实现为ResourceManager，负责整个集群的资源管理与调度；Slave实现为NodeManager，负责单个节点的资源管理与调度及任务启动。ResourceManager是整个YARN集群中最重要的组件之一，主要功能是包括资源管理与调度、ApplicationMaster管理(启动应用程序的AM)、Application管理等、NodeManager管理等。在YARN中，ResourceManager负责集群中所有资源的统一管理和分配（个人理解类似于MRv1时的JobTracker，只是把JobTracker作业管理这块移到了ApplicationMaster中，只负责纯粹通用的资源管理与调度，做到了计算框架无关），它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（ApplicationMaster）。接下来就来分析下RM内部组成的各个功能组件和他们相互的交互方式。

一、ResourceManager的交互协议与基本职能

1、ResourceManager交互协议

在整个Yarn框架中主要涉及到7个协议，分别是ApplicationClientProtocol、MRClientProtocol、ContainerManagementProtocol、ApplicationMasterProtocol、ResourceTracker、LocalizationProtocol、TaskUmbilicalProtocol，这些协议封装了各个组件交互的信息。ResourceManager现实功能需要和NodeManager以及ApplicationMaster进行信息交互，其中涉及到的RPC协议有ResourceTrackerProtocol、ApplicationMasterProtocol和ResourceTrackerProtocol。

ResourceTracker

NodeManager通过该协议向ResourceManager中注册、汇报节点健康情况以及Container的运行状态，并且领取ResourceManager下达的重新初始化、清理Container等命令。NodeManager和ResourceManager这种RPC通信采用了和MRv1类似的“pull模型”（ResourceManager充当RPC server角色，NodeManager充当RPC client角色），NodeManager周期性主动地向ResourceManager发起请求，并且领取下达给自己的命令。

ApplicationMasterProtocol

应用程序的ApplicationMaster同过该协议向ResourceManager注册、申请和释放资源。该协议和上面协议同样也是采用了“pull模型”，其中在RPC机制中，ApplicationMaster充当RPC client角色，ResourceManager充当RPC server角色。
ApplicationClientProtocol

客户端通过该协议向ResourceManager提交应用程序、控制应用程序（如杀死job）以及查询应用程序的运行状态等。在该RPC 协议中应用程序客户端充当RPC client角色， ResourceManager充当RPC server角色。

整理一下ResourceManager与NodeManager、ApplicationMaster和客户端RPC协议交互的信息：

图8 ResourceManager相关的RPC协议

上图中的ResourceTrackeService、ApplicationMasterService 、ClientRMService是ResourceManager中处理上述功能的组件，充当RPC_Servser。

2、ResourceManager基本职能

ResourceManager基本职能概括起来就以下几方面：

与客户端进行交互，处理来自于客户端的请求，如提交应用程序、查询应用的运行情况等。
启动和管理各个应用程序的ApplicationMaster，并且为ApplicationMaster申请第一个Container用于启动和在它运行失败时将它重新启动。
管理NodeManager，接收来自NodeManager的资源和节点健康情况汇报，并向NodeManager下达资源管理命令，例如kill掉某个container。
资源管理与调度，接收来自ApplicationMaster的资源申请请求，并为之分配资源。这个是它最重要的职能。

二、ResourceManager内部组成架构分析

ResourceManager在底层代码实现上将各个功能模块分的比较细，各个模块功能具有很强的独立性。下图所示的是ResourceManager中的大概的功能模块组成：

图9 ResourceManager内部架构图

ResourceManager内部架构代码概况如下：

public class ResourceManager extends CompositeService implements Recoverable {
  /**
   * Priority of the ResourceManager shutdown hook.
   */
  public static final int SHUTDOWN_HOOK_PRIORITY = 30;
  private static final Log LOG = LogFactory.getLog(ResourceManager.class);
  public static final long clusterTimeStamp = System.currentTimeMillis();
 
  // ApplicationClientProtocol协议的RPC_Server
  private ClientRMService clientRM;
  
  // ContainerManagementProtocol协议的RPC_Client，以启动应用程序的ApplicationMaster
  private ApplicationMasterLauncher applicationMasterLauncher;
  
  // ResourceTracker协议的RPC_Server
  protected ResourceTrackerService resourceTracker;

  // ApplicationMasterProtocol协议的RPC_Server
  protected ApplicationMasterService masterService;
  
  // 资源管理器
  protected ResourceScheduler scheduler;
  
  private Dispatcher rmDispatcher;
  ...
}

1、用户交互模块

用户交互模块即上图显示的User Service管理模块。在这里边还可以看到根据不同的用户类型启用了不同的服务进行处理，AdminService处理管理员相关请求，ClientRMService处理普通客户相关请求，这样使得管理员不会因为普通客户请求太多而造成堵塞。下面看看这2个服务的具体实现代码：

ClientRMService

public class ClientRMService extends AbstractService implements
    ApplicationClientProtocol {
  private static final ArrayList EMPTY_APPS_REPORT = new ArrayList();
  private static final Log LOG = LogFactory.getLog(ClientRMService.class);
  final private AtomicInteger applicationCounter = new AtomicInteger(0);
  final private YarnScheduler scheduler; // 资源调度器
  final private RMContext rmContext; // RM上下文对象，其包含了RM大部分运行时信息，如节点列表、队列列表、应用程序列表等
  private final RMAppManager rmAppManager; //应用程序管理器
  private Server server; // ApplicationClientProtocol协议的RPC_Server
  // 访问控制对象，例如，一些应用程序在提交时设置了查看权限的话，其他普通用户就无法查看。
  private final ApplicationACLsManager applicationsACLsManager;
  private final QueueACLsManager queueACLsManager;
  @Override
  protected void serviceStart() throws Exception {
    Configuration conf = getConfig();
    YarnRPC rpc = YarnRPC.create(conf);
    this.server =  // 构建ApplicationClientProtocol协议的RPC_Server
      rpc.getServer(ApplicationClientProtocol.class, this,
            clientBindAddress,
            conf, this.rmDTSecretManager,
            conf.getInt(YarnConfiguration.RM_CLIENT_THREAD_COUNT, 
                YarnConfiguration.DEFAULT_RM_CLIENT_THREAD_COUNT));
    // 启动ApplicationClientProtocol协议的RPC_Server
    this.server.start();
  }
  @Override
  public SubmitApplicationResponse submitApplication(
      SubmitApplicationRequest request) throws YarnException {
    ApplicationSubmissionContext submissionContext = request
        .getApplicationSubmissionContext();
    ApplicationId applicationId = submissionContext.getApplicationId();
    String user = null;
    try {
      // call RMAppManager to submit application directly
      rmAppManager.submitApplication(submissionContext,
          System.currentTimeMillis(), false, user);
    } catch (YarnException e) {
      LOG.info("Exception in submitting application with id " +
          applicationId.getId(), e);
    }
    SubmitApplicationResponse response = recordFactory
        .newRecordInstance(SubmitApplicationResponse.class);
    return response;
  }
  ...
}

从上面ClientRMService的基本代码架构我们可以看出：

（1）ClientRMService是一个RPC Server，主要为来自于普通客户端的各种RPC请求。从代码实现的角度看，ClientRMService实现了RPC协议ApplicationClientProtocol。

（2）之前我们已经说了，普通用户可以通过该服务来获得正在运行应用程序的相关信息，如进度情况、应用程序列表等。上面代码中都将ResourceManager运行信息封装在RMContxt接口中了，下面来看看这个接口的一个实现对象RMContextImpl:

public class RMContextImpl implements RMContext {

  // 中央异步调度器。RM中的各个服务和组件以及它们处理和输出的事件类型都是通过中央异步调度器组织在一起的，这样可以有效提高系统的吞吐量。

  private final Dispatcher rmDispatcher;

  private final ConcurrentMap applications // 应用程序列表

    = new ConcurrentHashMap();

  private final ConcurrentMap nodes // 节点列表

    = new ConcurrentHashMap();

  private final ConcurrentMap inactiveNodes // 非活跃节点列表

    = new ConcurrentHashMap();

  private AMLivelinessMonitor amLivelinessMonitor; // 正在运行中的AP心跳监控对象

  private AMLivelinessMonitor amFinishingMonitor; // 运行完毕后的AM心跳监控对象

  private RMStateStore stateStore = null; // 用于存储ResourceManager运行状态

  // 用于Container的超时监控，应用程序必须在一定时间内（默认10Min）使用分配到的Container去运行task，否则会被回收

  private ContainerAllocationExpirer containerAllocationExpirer;

  // 下面变量都是与安全管理相关的对象

  private final DelegationTokenRenewer delegationTokenRenewer;

  private final AMRMTokenSecretManager amRMTokenSecretManager;

  private final RMContainerTokenSecretManager containerTokenSecretManager;

  private final NMTokenSecretManagerInRM nmTokenSecretManager;

  private final ClientToAMTokenSecretManagerInRM clientToAMTokenSecretManager;

  private ClientRMService clientRMService;

  private RMDelegationTokenSecretManager rmDelegationTokenSecretManager;

...

}

AdminService

AdminService和ClientRMService一样都是作为RPC的服务端，它针对的处理管理员RPC请求，负责访问权限的控制，中Yarn中管理员权限的设定可以在yarn-site.xml中yarn.admi.acl项进行设置，该项的默认值是*，也就是说如果不进行设置的话就当所有的用户都是管理员。从代码上看，它是ResourceManagerAdministrationProtocol协议的一个实现：

public class AdminService extends AbstractService implements ResourceManagerAdministrationProtocol {

  private static final Log LOG = LogFactory.getLog(AdminService.class);

  private final Configuration conf;

  private final ResourceScheduler scheduler;

  private final RMContext rmContext;

  private final NodesListManager nodesListManager;



  private final ClientRMService clientRMService;

  private final ApplicationMasterService applicationMasterService;

  private final ResourceTrackerService resourceTrackerService;



  private Server server; // ResourceManagerAdministrationProtocol协议的RPC_Server

  private InetSocketAddress masterServiceAddress;



  @Override

  protected void serviceStart() throws Exception {

    Configuration conf = getConfig();

    YarnRPC rpc = YarnRPC.create(conf);

    this.server = // 构建ResourceManagerAdministrationProtocol协议的RPC_Server

      rpc.getServer(ResourceManagerAdministrationProtocol.class, this, masterServiceAddress,

          conf, null,

          conf.getInt(YarnConfiguration.RM_ADMIN_CLIENT_THREAD_COUNT,

              YarnConfiguration.DEFAULT_RM_ADMIN_CLIENT_THREAD_COUNT));

    this.server.start();

    super.serviceStart();

  }

}

AdminService代码和ClientRMService比较相似，它各类功能对象也差不多。

2、NodeManager管理模块

NodeManager管理部分主要是通过ResourceTrackerService、NMLivelinessMonitor和NodeListManager这三个服务组件来共同管理NodeManager的生命周期。

1）ResourceTrackerService

ResourceTrackerService是RPC协议ResourceTracker的一个实现，它作为一个RPC Server端接收NodeManager的RPC请求，请求主要包含2种信息，注册NodeManager和处理心跳信息。ResourceTrackerService具体的核心代码如下：

public class ResourceTrackerService extends AbstractService implements ResourceTracker {

  private final RMContext rmContext;

  private final NodesListManager nodesListManager; // NodesListManager

  private final NMLivelinessMonitor nmLivelinessMonitor; // NMLivelinessMonitor

  private final RMContainerTokenSecretManager containerTokenSecretManager;

  private final NMTokenSecretManagerInRM nmTokenSecretManager;



  private long nextHeartBeatInterval;

  private Server server; // ResourceTracker协议的RPC_Server

  private InetSocketAddress resourceTrackerAddress;



  @Override

  protected void serviceStart() throws Exception {

    super.serviceStart();

    Configuration conf = getConfig();

    YarnRPC rpc = YarnRPC.create(conf);

    this.server = // 构建ResourceTracker协议的RPC_Server

      rpc.getServer(ResourceTracker.class, this, resourceTrackerAddress,

          conf, null,

          conf.getInt(YarnConfiguration.RM_RESOURCE_TRACKER_CLIENT_THREAD_COUNT,

              YarnConfiguration.DEFAULT_RM_RESOURCE_TRACKER_CLIENT_THREAD_COUNT));

    this.server.start();

  }

  ...

}

NodeManger启动时第一件事就是像ResourceManager注册，注册时NodeManager发给ResourceTrackerService的RPC包主要包含NodeManager所在节点的可用资源总量、对外开放的htpp端口、节点的host和port等信息，具体代码看ResourceTrackerService#registerNodeManager方法：

@Override

  public RegisterNodeManagerResponse registerNodeManager(

      RegisterNodeManagerRequest request) throws YarnException,

      IOException {

    NodeId nodeId = request.getNodeId(); // NodeManager的NodeID

    String host = nodeId.getHost(); // NodeManager所在节点的host

    int cmPort = nodeId.getPort(); // NodeManager所在节点的port

    int httpPort = request.getHttpPort(); // 对外开放的http端口

    Resource capability = request.getResource(); // 获得NodeManager所在节点的资源上限

    RegisterNodeManagerResponse response = recordFactory

        .newRecordInstance(RegisterNodeManagerResponse.class);

    response.setContainerTokenMasterKey(containerTokenSecretManager

        .getCurrentKey());

    response.setNMTokenMasterKey(nmTokenSecretManager

        .getCurrentKey());   

    RMNode rmNode = new RMNodeImpl(nodeId, rmContext, host, cmPort, httpPort,

        resolve(host), capability);

    RMNode oldNode = this.rmContext.getRMNodes().putIfAbsent(nodeId, rmNode);

    if (oldNode == null) {

      this.rmContext.getDispatcher().getEventHandler().handle(

          new RMNodeEvent(nodeId, RMNodeEventType.STARTED));

    } else {

      LOG.info("Reconnect from the node at: " + host);

      this.nmLivelinessMonitor.unregister(nodeId);

      this.rmContext.getDispatcher().getEventHandler().handle(

          new RMNodeReconnectEvent(nodeId, rmNode));

    }

    this.nmTokenSecretManager.removeNodeKey(nodeId);

    this.nmLivelinessMonitor.register(nodeId);

    response.setNodeAction(NodeAction.NORMAL);

    response.setRMIdentifier(ResourceManager.clusterTimeStamp);

    return response;

  }

ResourceTrackerService另外一种功能就是处理心跳信息了，当NodeManager启动后，它会周期性地调用RPC函数ResourceTracker#nodeHeartbeat汇报心跳，心跳信息主要包含该节点的各个Container的运行状态、正在运行的Application列表、节点的健康状况等，随后ResourceManager为该NodeManager返回需要释放的Container列表、Application列表等信息。其中心跳信息处理的流程：首先，从NodeManager发来的心跳包中获得节点的状态状态信息，然后检测该节点是否已经注册过，然后检测该节点的host名称是否合法，例如是否在excluded列表中，然后再检测该次心跳是不是第一次心跳信息，这点非常重要，因为关系到心跳的重复发送与应答的相关问题。其实ResourceTrackerService和NodeManager的心跳处理机制和之前Hadoop1.x中的JobTracker与TaskTacker之间的心跳处理很相像，再然后，为NodeManager返回心跳应答信息，最后，向RMNode发送该NodeManager的状态信息并且保存最近一次心跳应答信息。再具体看看ResourceTrackerService#nodeHeart方法：

@Override

  public NodeHeartbeatResponse nodeHeartbeat(NodeHeartbeatRequest request)

      throws YarnException, IOException {

    //从RPC Clinet中获得nodeManager所在节点的健康状况

    NodeStatus remoteNodeStatus = request.getNodeStatus();

    NodeId nodeId = remoteNodeStatus.getNodeId();

    // 1. Check if it's a registered node

    RMNode rmNode = this.rmContext.getRMNodes().get(nodeId);

    if (rmNode == null) {

      /* node does not exist */

      String message = "Node not found resyncing " + remoteNodeStatus.getNodeId();

      LOG.info(message);

      resync.setDiagnosticsMessage(message);

      return resync;

    }

    // Send ping

    this.nmLivelinessMonitor.receivedPing(nodeId);

    // 2. Check if it's a valid (i.e. not excluded) node

    if (!this.nodesListManager.isValidNode(rmNode.getHostName())) {

      String message =

          "Disallowed NodeManager nodeId: " + nodeId + " hostname: "

              + rmNode.getNodeAddress();

      LOG.info(message);

      shutDown.setDiagnosticsMessage(message);

      this.rmContext.getDispatcher().getEventHandler().handle(

          new RMNodeEvent(nodeId, RMNodeEventType.DECOMMISSION));

      return shutDown;

    }

    NodeHeartbeatResponse lastNodeHeartbeatResponse = rmNode.getLastNodeHeartBeatResponse();

    if (remoteNodeStatus.getResponseId() + 1 == lastNodeHeartbeatResponse

        .getResponseId()) {

      LOG.info("Received duplicate heartbeat from node "

          + rmNode.getNodeAddress());

      return lastNodeHeartbeatResponse;

    } else if (remoteNodeStatus.getResponseId() + 1 < lastNodeHeartbeatResponse

        .getResponseId()) {

      String message =

          "Too far behind rm response id:"

              + lastNodeHeartbeatResponse.getResponseId() + " nm response id:"

              + remoteNodeStatus.getResponseId();

      LOG.info(message);

      resync.setDiagnosticsMessage(message);

      this.rmContext.getDispatcher().getEventHandler().handle(

          new RMNodeEvent(nodeId, RMNodeEventType.REBOOTING));

      return resync;

    }

    // Heartbeat response

    NodeHeartbeatResponse nodeHeartBeatResponse = YarnServerBuilderUtils

        .newNodeHeartbeatResponse(lastNodeHeartbeatResponse.

            getResponseId() + 1, NodeAction.NORMAL, null, null, null, null,

            nextHeartBeatInterval);

    rmNode.updateNodeHeartbeatResponseForCleanup(nodeHeartBeatResponse);

    populateKeys(request, nodeHeartBeatResponse);

    // 4. Send status to RMNode, saving the latest response.

    this.rmContext.getDispatcher().getEventHandler().handle(

        new RMNodeStatusEvent(nodeId, remoteNodeStatus.getNodeHealthStatus(),

            remoteNodeStatus.getContainersStatuses(),

            remoteNodeStatus.getKeepAliveApplications(), nodeHeartBeatResponse));

    return nodeHeartBeatResponse;

  }

（2）NodeListManager

NodeListManager主要分管黑名单（include列表）和白名单（exlude列表）管理功能，分别有yarnresouecemanager.nodes.include-path和yarnresourcemanager.nodes.exclude-path指定。黑名单列表中的nodes不能够和RM直接通信（直接抛出RPC异常），管理员可以对这两个列表进行编辑，然后使用$HADOOP_HOME/bin/yarn rmadmin -refreshNodes动态加载修改后的列表，使之生效。

（3）NMLivelinessMonitor

NMLivelinessMonitor主要是分管心跳异常请求。该服务会周期性地遍历集群中的所有NodeManager，如果某个NodeManager在一定时间内（默认10min，可以有参数yarn.nm.liveness-monitor.expiry-interval-ms配置）没有进行心跳汇报，那么则认为它已经死掉，同时在该节点上运行的Container也会被置为运行失败释放资源。那么这些被置为失败的Container是不会直接被RM分配执行的，RM只是负责将这些被置为失败的Container信息告诉它们所对应的ApplicationMaster，需不需要重新运行它说的算，如果需要重新运行的话，该ApplicationMaster要重新向RM申请资源，然后由ApplicationMaster与对应的NodeManager通信以重新运行之前失败的Container。

3、ApplicationMaster管理模块

ApplicationMaster的管理主要是用ResouceManager内部的3个服务组件来完成：ApplicationMasterLauncher、AMLivelinessMonitor、ApplicationMasterService，他们共同管理ApplicationMaster的生命周期。

（1）在介绍这三个服务组件之前，先说说ApplicationMaster和ResourceManager整个交互流程：

图10 ApplicationMaster与ResourceManager交互流程

步骤一：

当ResourceManager接收到客户端提交应用程序请求时就会立马向资源管理器申请一个资源用于启动该应用程序所对应的ApplicationMaster，申请到资源后由ApplicationMasterLaucher与对应的NodeManager进行通信，要求该NodemManager在其所在节点启动该ApplicationMaster。

步骤二：

ApplicationMaster启动完毕后，ApplicationMasterLuacher通过事件的形式将刚刚启动的ApplicationMaster注册到AMLivelinessMonitor,以启动心跳监控。

步骤三：

ApplicationMaster启动后主动向ApplicationMasterService注册，并将自己所在host、端口等信息向其汇报。

步骤四：

ApplicationMaster在运行的过程中不断向ApplicationMasterService发送心跳。

步骤五：

ApplicationMasterService每次收到ApplicationMaster的心跳信息后，会同时AMLivelinessMonitor更新其最近一次发送心跳的时间。

步骤六：

当应用程序运行完毕后，ApplicationMaster向ApplicationMasterService请求注销自己。

步骤七：

ApplicationMasterService收到注销请求后，会将该应用程序的运行状态标注为完成，并且同时AMLivelinessMonitor移除对该ApplicationMaster的心跳监控。

（2）接下来详细介绍下这三个服务组件的一些运行机制

ApplicationMasterLauncher

ApplicationMasterLaucher是以线程池方式实现的一个事件处理器，其主要处理AMLaucherEvent类型的事件，包括启动(LAUNCH)和清除（CLEANUP）一个ApplicationMaster的事件。

当接收到LAUNCH类型的事件，ApplicationMasterLaucher立马会和对应的NodeManager进行通信，并且带上启动该ApplicationMaster所需要的各种信息，包括：启动命令、JAR包、环境变量等信息。NodeManager接收到来自ApplicationMasterLaucher的启动命令就会启动ApplicationMaster。

当接收到CLEANUP类型事件，ApplicationMasterLaucher立马会和对应的NodeManager进行通信，要求NodeManager杀死该ApplicationMaster，并释放掉资源。

ApplicationMasterLauncher相关的核心源码如下：

public class ApplicationMasterLauncher extends AbstractService implements

    EventHandler {

  private static final Log LOG = LogFactory.getLog(

      ApplicationMasterLauncher.class);

  private final ThreadPoolExecutor launcherPool;

  private LauncherThread launcherHandlingThread;

  private final BlockingQueue masterEvents

    = new LinkedBlockingQueue();

  protected final RMContext context;

  public ApplicationMasterLauncher(RMContext context) {

    super(ApplicationMasterLauncher.class.getName());

    this.context = context;

    this.launcherPool = new ThreadPoolExecutor(10, 10, 1,

        TimeUnit.HOURS, new LinkedBlockingQueue());

    this.launcherHandlingThread = new LauncherThread();

  }

  private void launch(RMAppAttempt application) {

    Runnable launcher = createRunnableLauncher(application,

        AMLauncherEventType.LAUNCH);

    masterEvents.add(launcher);

  }

  protected Runnable createRunnableLauncher(RMAppAttempt application,

      AMLauncherEventType event) {

    Runnable launcher =

        new AMLauncher(context, application, event, getConfig());

    return launcher;

  }

  private void cleanup(RMAppAttempt application) {

    Runnable launcher = createRunnableLauncher(application, AMLauncherEventType.CLEANUP);

    masterEvents.add(launcher);

  }

  private class LauncherThread extends Thread {

    public LauncherThread() {

      super("ApplicationMaster Launcher");

    }

    @Override

    public void run() {

      while (!this.isInterrupted()) {

        Runnable toLaunch;

        try {

          toLaunch = masterEvents.take();

          launcherPool.execute(toLaunch);

        } catch (InterruptedException e) {

          LOG.warn(this.getClass().getName() + " interrupted. Returning.");

          return;

        }

      }

    }

  }

接下来再来看看AMLauncher，本质其实就是一个ContainerManagementProtocol协议的RPC_Client，让NodeManager去启动ApplicationMaster，相关的核心代码如下：

public class AMLauncher implements Runnable {

  private static final Log LOG = LogFactory.getLog(AMLauncher.class);

  private ContainerManagementProtocol containerMgrProxy;  // ContainerManagementProtocol协议的RPC_Client

  private final RMAppAttempt application;

  private final Configuration conf;

  private final AMLauncherEventType eventType;

  private final RMContext rmContext;

  private final Container masterContainer;

  @SuppressWarnings("rawtypes")

  private final EventHandler handler;

  public AMLauncher(RMContext rmContext, RMAppAttempt application,

      AMLauncherEventType eventType, Configuration conf) {

    this.application = application;

    this.conf = conf;

    this.eventType = eventType;

    this.rmContext = rmContext;

    this.handler = rmContext.getDispatcher().getEventHandler();

    this.masterContainer = application.getMasterContainer();

  }
 
  private void connect() throws IOException {

    ContainerId masterContainerID = masterContainer.getId();

    containerMgrProxy = getContainerMgrProxy(masterContainerID);

  }

  protected ContainerManagementProtocol getContainerMgrProxy(

      final ContainerId containerId) {

    final YarnRPC rpc = YarnRPC.create(conf);

    return currentUser

        .doAs(new PrivilegedAction() {

          @Override

          public ContainerManagementProtocol run() {

            return (ContainerManagementProtocol) rpc.getProxy( // 构建ContainerManagementProtocol协议的RPC_Client

                ContainerManagementProtocol.class,

                containerManagerBindAddress, conf);

          }

        });

  }

AMLivelinessMonitor

AMLivelinessMonitor的功能和NMLivelinessMonitor的功能几乎一样，只不过AMLivelinessMonitor监控的是ApplicationMaster，而NMLivelinessMonitor监控的是NodeManager。

AMLivelinessMonitor会周期性地遍历集群中的所有ApplicationMaster，如果某个ApplicationMaster在一定时间内（默认10min，可以有参数yarn.am.liveness-monitor.expiry-interval-ms配置）没有进行心跳汇报，那么则认为它已经死掉，同时该ApplicationMaster关联运行的Container也会被置为运行失败释放资源。如果Application运行失败，则有ResourceManager重新为它申请资源，并且在另外的节点上启动它（AM启动尝试次数由参数yarn.resourcemanager.am.max-attempts控制，默认2）。那么这些被置为失败的Container是不会直接被RM分配执行的，RM只是负责将这些被置为失败的Container信息告诉它们所对应的ApplicationMaster，需不需要重新运行它说的算，如果需要从新运行的话，该ApplicationMaster要从新向RM申请资源，然后由ApplicationMaster与对应的NodeManager通信以从新运行之前失败的Container。

ApplicationMasterService

ApplicationMasterService实现了RPC协议ApplicationMasterProtocol,负责处理来自ApplicationMaster的请求，请求主要包括注册、心跳、清理三种，其中注册是ApplicationMaster启动时发生的行为，请求包中包含：AM所在的节点、RPC端口、tracking url等信息；心跳是周期性行为，请求包中包含：请求资源的类型描述、待释放的Container列表等；清理是应用程序运行结束时发生的行为，ApplicationMaster向RM发送清理应用程序的请求，以回收资源和清理各种内存空间。

ApplicationMasterLauncher启动AM后，AM做的第一件事是向RM注册，这是通过RPC函数ApplicationMasterProtocol#registerApplicationMaster实现的。

AM运行过程中，需要周期性地通过RPC函数ApplicationMasterProtocol#allocate与RM通信，进行资源请求及告诉RM自己还活着。

AM运行结束后，需要通过RPC函数ApplicationMasterProtocol#finshApplicationMaster告诉RM自己运行结束，可以回收资源和清理各种数据结果。

ApplicationMasterService的核心代码如下：

public class ApplicationMasterService extends AbstractService implements

    ApplicationMasterProtocol {

  private static final Log LOG = LogFactory.getLog(ApplicationMasterService.class);

  private final AMLivelinessMonitor amLivelinessMonitor;

  private YarnScheduler rScheduler;

  private InetSocketAddress bindAddress;

  private Server server; // ApplicationMasterProtocol协议的RPC_Server

  private final RecordFactory recordFactory =

      RecordFactoryProvider.getRecordFactory(null);

  private final ConcurrentMap responseMap =

      new ConcurrentHashMap();

  private final AllocateResponse resync =

      recordFactory.newRecordInstance(AllocateResponse.class);

  private final RMContext rmContext;



  public ApplicationMasterService(RMContext rmContext, YarnScheduler scheduler) {

    super(ApplicationMasterService.class.getName());

    this.amLivelinessMonitor = rmContext.getAMLivelinessMonitor();

    this.rScheduler = scheduler;

    this.resync.setAMCommand(AMCommand.AM_RESYNC);

    this.rmContext = rmContext;

  }

  @Override

  protected void serviceStart() throws Exception {

    Configuration conf = getConfig();

    YarnRPC rpc = YarnRPC.create(conf);

    InetSocketAddress masterServiceAddress = conf.getSocketAddr(

        YarnConfiguration.RM_SCHEDULER_ADDRESS,

        YarnConfiguration.DEFAULT_RM_SCHEDULER_ADDRESS,

        YarnConfiguration.DEFAULT_RM_SCHEDULER_PORT);

    Configuration serverConf = conf;

    serverConf = new Configuration(conf);

    serverConf.set(

        CommonConfigurationKeysPublic.HADOOP_SECURITY_AUTHENTICATION,

        SaslRpcServer.AuthMethod.TOKEN.toString());

    this.server =

      rpc.getServer(ApplicationMasterProtocol.class, this, masterServiceAddress, // 构建ApplicationMasterProtocol协议的RPC_Server

          serverConf, this.rmContext.getAMRMTokenSecretManager(),

          serverConf.getInt(YarnConfiguration.RM_SCHEDULER_CLIENT_THREAD_COUNT,

              YarnConfiguration.DEFAULT_RM_SCHEDULER_CLIENT_THREAD_COUNT));

    this.server.start();

    super.serviceStart();

  }

  @Override

  public RegisterApplicationMasterResponse registerApplicationMaster(

      RegisterApplicationMasterRequest request) throws YarnException,

      IOException {

    ApplicationAttemptId applicationAttemptId = authorizeRequest();

    ApplicationId appID = applicationAttemptId.getApplicationId();

    AllocateResponse lastResponse = responseMap.get(applicationAttemptId);

    // Allow only one thread in AM to do registerApp at a time.

    synchronized (lastResponse) {

      this.amLivelinessMonitor.receivedPing(applicationAttemptId);

      RMApp app = this.rmContext.getRMApps().get(appID);

      lastResponse.setResponseId(0);

      responseMap.put(applicationAttemptId, lastResponse);

      this.rmContext

        .getDispatcher()

        .getEventHandler()

        .handle(

          new RMAppAttemptRegistrationEvent(applicationAttemptId, request

            .getHost(), request.getRpcPort(), request.getTrackingUrl()));

      // Pick up min/max resource from scheduler...

      RegisterApplicationMasterResponse response = recordFactory

          .newRecordInstance(RegisterApplicationMasterResponse.class);

      response.setMaximumResourceCapability(rScheduler

          .getMaximumResourceCapability());

      response.setApplicationACLs(app.getRMAppAttempt(applicationAttemptId)

          .getSubmissionContext().getAMContainerSpec().getApplicationACLs());

      return response;

    }

  }

  @Override

  public AllocateResponse allocate(AllocateRequest request)

      throws YarnException, IOException {

    ApplicationAttemptId appAttemptId = authorizeRequest();

    this.amLivelinessMonitor.receivedPing(appAttemptId);

    /* check if its in cache */

    AllocateResponse lastResponse = responseMap.get(appAttemptId);

    // Allow only one thread in AM to do heartbeat at a time.

    synchronized (lastResponse) {

      // Send the status update to the appAttempt.

      this.rmContext.getDispatcher().getEventHandler().handle(

          new RMAppAttemptStatusupdateEvent(appAttemptId, request

              .getProgress()));

      List ask = request.getAskList();

      List release = request.getReleaseList();  

      // Send new requests to appAttempt.

      Allocation allocation =

          this.rScheduler.allocate(appAttemptId, ask, release,

              blacklistAdditions, blacklistRemovals);

      RMApp app = this.rmContext.getRMApps().get(

          appAttemptId.getApplicationId());

      RMAppAttempt appAttempt = app.getRMAppAttempt(appAttemptId);
     
      AllocateResponse allocateResponse =

          recordFactory.newRecordInstance(AllocateResponse.class);

      allocateResponse.setAllocatedContainers(allocation.getContainers());

      allocateResponse.setCompletedContainersStatuses(appAttempt

          .pullJustFinishedContainers());

      allocateResponse.setResponseId(lastResponse.getResponseId() + 1);

      allocateResponse.setAvailableResources(allocation.getResourceLimit());

      allocateResponse.setNumClusterNodes(this.rScheduler.getNumClusterNodes());

      return allocateResponse;

    }

  }

  @Override

  public FinishApplicationMasterResponse finishApplicationMaster(

      FinishApplicationMasterRequest request) throws YarnException,

      IOException {

    ApplicationAttemptId applicationAttemptId = authorizeRequest();

    AllocateResponse lastResponse = responseMap.get(applicationAttemptId);

    // Allow only one thread in AM to do finishApp at a time.

    synchronized (lastResponse) {

      this.amLivelinessMonitor.receivedPing(applicationAttemptId);

      rmContext.getDispatcher().getEventHandler().handle(

          new RMAppAttemptUnregistrationEvent(applicationAttemptId, request

              .getTrackingUrl(), request.getFinalApplicationStatus(), request

              .getDiagnostics()));

      if (rmContext.getRMApps().get(applicationAttemptId.getApplicationId())

          .isAppSafeToUnregister()) {

        return FinishApplicationMasterResponse.newInstance(true);

      } else {

        return FinishApplicationMasterResponse.newInstance(false);

      }

    }

  }

4、资源调度器(ResourceScheduler)

资源调度器是在ResourceManager组件中进行调度的，YARN中主要有FIFO调度器、Capacity调度器、Fair调度器三种调度器，分别由FifoScheduler，CapacityScheduler，FairScheduler实现。如果业务逻辑比较简单或者刚接触Hadoop的时候建议使用FIFO调度器；如果需要控制部分应用的优先级同时又想要充分利用集群资源的情况下，建议使用Capacity调度器；如果想要多用户或者多队列公平的共享集群资源，那么就选用Fair调度器。

一、FIFO调度器

上图为FIFO调度器的执行过程示意图。FIFO调度器也就是平时所说的先进先出（First In First Out）调度器。FIFO调度器是Hadoop最早应用的一种调度策略，可以简单的将其理解为一个Java队列，它的含义在于集群中同时只能有一个作业在运行。将所有的Application按照提交时候的顺序来执行，只有当上一个Job执行完成之后后面的Job才会按照队列的顺序依次被执行。FIFO调度器以集群资源独占的方式来运行作业，这样的好处是一个作业可以充分利用所有的集群资源，但是对于运行时间短，重要性高或者交互式查询类的MR作业就要等待排在序列前的作业完成才能被执行，这也就导致了如果有一个非常大的Job在运行，那么后面的作业将会被阻塞。因此，虽然单一的FIFO调度实现简单，但是对于很多实际的场景并不能满足要求。这也就催发了Capacity调度器和Fair调度器的出现。

三、Capacity调度器

上图是Capacity调度器的执行过程示意图。Capacity调度器也就是日常说的容器调度器。可以将它理解成一个个的资源队列。这个资源队列是用户自己去分配的。例如因为工作所需要把整个集群分成了AB两个队列，A队列下面还可以继续分，比如将A队列再分为1和2两个子队列。那么队列的分配就可以参考下面的树形结构：

—A[60%]

　　|—A.1[40%]

　　|—A.2[60%]

—B[40%]

上述的树形结构可以理解为A队列占用整个资源的60%，B队列占用整个资源的40%。A队列里面又分了两个子队列，A.1占据40%，A.2占据60%，也就是说此时A.1和A.2分别占用A队列的40%和60%的资源。虽然此时已经具体分配了集群的资源，但是并不是说A提交了任务1之后任务1只能使用A队列的60%的资源，此时如果B队列的40%的资源处于空闲，任务1也可以使用B队列的资源。只要是其它队列中的资源处于空闲状态，那么有任务提交的队列可以使用空闲队列所分配到的资源，使用的多少是依据配来决定。

三、Fair调度器

上图是Fair调度器在一个队列中的执行过程示意图。Fair调度器也就是日常说的公平调度器。Fair调度器是一个队列资源分配方式，在整个时间线上，所有的Job平均的获取资源。默认情况下，Fair调度器只是对内存资源做公平的调度和分配。当集群中只有一个任务在运行时，那么此任务会占用整个集群的资源。当其他的任务提交后，那些释放的资源将会被分配给新的Job，所以每个任务最终都能获取几乎一样多的资源。

公平调度器也可以在多个队列间工作，如上图所示，例如有两个用户A和B，他们分别拥有一个队列。当A启动一个Job而B没有任务提交时，A会获得全部集群资源；当B启动一个Job后，A的任务会继续运行，不过队列A会慢慢释放它的一些资源，一会儿之后两个任务会各自获得一半的集群资源。如果此时B再启动第二个Job并且其它任务也还在运行时，那么它将会和B队列中的的第一个Job共享队列B的资源，也就是队列B的两个Job会分别使用集群四分之一的资源，而队列A的Job仍然会使用集群一半的资源，结果就是集群的资源最终在两个用户之间平等的共享。　

4.2、NodeManager

NodeManger是运行在单个节点上的代理(个人理解类似于MRv1时的TaskTracker，只是把TaskTracker任务管理这块移到了ApplicationMaster中，只负责纯粹通用的资源管理与调度，做到了计算框架无关)，它需要与应用程序的ApplicationMaster和集群管理者ResourceManager交互:从ApplicationMaster上接收有关任务的启动、停止命令；向ResourceManager汇报各个Container运行状态和节点监控状况；

一、NodeManager的交互协议与基本职能

1、NodeManager交互协议

整体上讲，NodeManager涉及到两个RPC协议，分别是ResourceTracker和ContainerManagemenetProtocol，分别用来与ResourceManager和ApplicationMaster进行交互。

ResourceTracker

NodeManager通过该协议向ResourceManager中注册、汇报节点健康情况以及Container的运行状态，并且领取ResourceManager下达的重新初始化、清理Container等命令。NodeManager和ResourceManager这种RPC通信采用了和MRv1类似的“pull模型”，ResourceManager充当RPC Server角色，NodeManager充当RPC Client角色（由内部组件NodeStatusUpdater实现），NodeManager周期性主动地向ResourceManager发起请求，并且领取下达给自己的命令。

ContainerManagemenetProtocol

应用程序的ApplicationMaster通过该RPC协议向NodeManager发起正对Container的相关操作，包括启动Container、杀死Container、获取Container执行状态等。在该协议中，ApplicationMaster扮演RPC Client角色，而NodeManager扮演RPC Server角色(由内部组件ConatinerManager实现)，换句话说，NodeManager与ApplicationMaster之间采用了“pull模型”，可大大降低时间延迟。

整理一下NodeManager与ResourceManager、ApplicationMaster的RPC协议交互的信息：

图11 NodeManager相关的RPC协议

上图中的NodeStatusUpdater、ContainerManager是NodeManager中处理上述功能的组件，NodeStatusUpdater充当RPC Client，ContainerManager充当RPC Server。

2、NodeManager基本职能

NodeManager基本职能概括起来就以下几方面：

周期性地向RM汇报本节点的资源使用情况和各个Container的运行状态。
接收并处理来自AM的Conatiner启动/停止命令。

二、NodeManager内部组成架构分析

NodeManager在底层代码实现上将各个功能模块分的比较细，各个模块功能具有很强的独立性。下图所示的是NodeManager中的大概的功能模块组成：

图12 NodeManager的内部架构图

NodeManager内部架构代码概况如下：

public class NodeManager extends CompositeService

    implements EventHandler {

  /**

   * Priority of the NodeManager shutdown hook.

   */

  public static final int SHUTDOWN_HOOK_PRIORITY = 30;

  private static final Log LOG = LogFactory.getLog(NodeManager.class);

  private NodeHealthCheckerService nodeHealthChecker;

  private Context context;

  private AsyncDispatcher dispatcher;

  // ResourceTracker协议的RPC_Client

  private NodeStatusUpdater nodeStatusUpdater;

  // ContainerManagementProtocol协议的RPC_Server

  private ContainerManagerImpl containerManager;

  ...

}

1、与RM的交互模块-NodeStatusUpdater

NodeStatusUpdater是NodeMnagaer与ResourceManager通信的唯一通道，本质其实就是一个ResourceTracker协议的RPC_Client。当NodeManager启动时，该组件负责向ResourceManager注册，并汇报节点上总的可用资源；之后，改组件周期性与ResourceManager通信，汇报各个Container的状态更新，包括节点上正运行的Container、已完成的Container等信息等。NodeStatusUpdater的核心代码如下：

public class NodeStatusUpdaterImpl extends AbstractService implements

    NodeStatusUpdater {

  public static final String YARN_NODEMANAGER_DURATION_TO_TRACK_STOPPED_CONTAINERS =

      YarnConfiguration.NM_PREFIX + "duration-to-track-stopped-containers";

  private static final Log LOG = LogFactory.getLog(NodeStatusUpdaterImpl.class);

  private final Object heartbeatMonitor = new Object();

  private final Context context;

  private final Dispatcher dispatcher;

  private NodeId nodeId;

  private long nextHeartBeatInterval;

  // NodeManager与ResourceManager进行交互的RPC_Client

  private ResourceTracker resourceTracker;

  private Resource totalResource;

  private int httpPort;

  private final NodeHealthCheckerService healthChecker;

  // 周期性心跳线程

  private Runnable statusUpdaterRunnable;

  private Thread  statusUpdater;

  @Override

  protected void serviceStart() throws Exception {

    // NodeManager is the last service to start, so NodeId is available.

    this.nodeId = this.context.getNodeId();

    this.httpPort = this.context.getHttpPort();

    try {

      // Registration has to be in start so that ContainerManager can get the

      // perNM tokens needed to authenticate ContainerTokens.

      // 构建ResourceTracker协议的RPC_Client

      this.resourceTracker = getRMClient();

      registerWithRM();

      super.serviceStart();

      startStatusUpdater();

    } catch (Exception e) {

      String errorMessage = "Unexpected error starting NodeStatusUpdater";

      LOG.error(errorMessage, e);

      throw new YarnRuntimeException(e);

    }

  }

  protected ResourceTracker getRMClient() throws IOException {

    Configuration conf = getConfig();

    // 通过YARN的RPC-API构建ResourceTracker协议的RPC_Client

    return ServerRMProxy.createRMProxy(conf, ResourceTracker.class);

  }

  // 周期性向ResourceManager发送心跳的状态更新线程逻辑

  protected void startStatusUpdater() {

    statusUpdaterRunnable = new Runnable() {

      @Override

      @SuppressWarnings("unchecked")

      public void run() {

        int lastHeartBeatID = 0;

        while (!isStopped) {

          // Send heartbeat

          try {

            NodeHeartbeatResponse response = null;

            NodeStatus nodeStatus = getNodeStatusAndUpdateContainersInContext();

            nodeStatus.setResponseId(lastHeartBeatID);

           

            NodeHeartbeatRequest request = recordFactory

                .newRecordInstance(NodeHeartbeatRequest.class);

            request.setNodeStatus(nodeStatus);

            request.setLastKnownContainerTokenMasterKey(NodeStatusUpdaterImpl.this.context

                .getContainerTokenSecretManager().getCurrentKey());

            request.setLastKnownNMTokenMasterKey(NodeStatusUpdaterImpl.this.context

                .getNMTokenSecretManager().getCurrentKey());

            // 周期性地向ResourceManager发送心跳信息

            response = resourceTracker.nodeHeartbeat(request);

            //get next heartbeat interval from response

            nextHeartBeatInterval = response.getNextHeartBeatInterval();

            lastHeartBeatID = response.getResponseId();

            List containersToCleanup = response.getContainersToCleanup();

            ...

          }

        }

      }

    };

    statusUpdater = new Thread(statusUpdaterRunnable, "Node Status Updater");

    statusUpdater.start(); // 启动周期性心跳线程

  }

2、与AM的交互模块-ContainerManager

ConatinerManager是NodeManager中最核心的组件之一，实现了RPC协议ContainerManagementProtocol，它由多个子组件构成，每个子组件负责一部分功能，协作共同管理运行在该节点上的所有Container。ConatinerManager组件中主要有两个比较重要的子组件，分别是ContainerLauncher和ContainerExecutor，ContainerLauncher维护了一个线程池以并行完成Container相关操作，比如启动或杀死Container，其中启动请求是由ApplicationMaster发起的，而杀死Container请求则可能来自ApplicationMaster或者ResourceManager。ContainerExecutor是用来跟底层的操作系统交互的，用来启动和清除Container对应的进程。目前，YARN提供了DefaultContainerExecutor和LinuxContainerExecutor两种实现。相关的核心代码如下：

public class ContainerManagerImpl extends CompositeService implements

    ServiceStateChangeListener, ContainerManagementProtocol,

    EventHandler {

  /**

   * Extra duration to wait for applications to be killed on shutdown.

   */

  private static final int SHUTDOWN_CLEANUP_SLOP_MS = 1000;

  private static final Log LOG = LogFactory.getLog(ContainerManagerImpl.class);

  final Context context;

  private final ContainersMonitor containersMonitor;

  private Server server; // ContainerManagementProtocol协议的RPC_Server

  private final ContainersLauncher containersLauncher; // ContainersLauncher维护了一个线程池用来启动或杀死Container

  protected final AsyncDispatcher dispatcher; // 异步的事件转发器，会把相应的事件转发到比如ContainersLauncher事件处理器

  public ContainerManagerImpl(Context context, ContainerExecutor exec,

      DeletionService deletionContext, NodeStatusUpdater nodeStatusUpdater,

      NodeManagerMetrics metrics, ApplicationACLsManager aclsManager,

      LocalDirsHandlerService dirsHandler) {

    super(ContainerManagerImpl.class.getName());

    // ContainerManager level dispatcher.

    dispatcher = new AsyncDispatcher(); // 异步的事件转发器，观察者模式-发布订阅模式-监听器模式

    containersLauncher = createContainersLauncher(context, exec); // 创建ContainersLauncher

    addService(containersLauncher);

    dispatcher.register(ContainerEventType.class,new ContainerEventDispatcher());

    dispatcher.register(ApplicationEventType.class,new ApplicationEventDispatcher());

    dispatcher.register(ContainersLauncherEventType.class, containersLauncher); // 添加Container启动或关闭事件处理器ContainersLauncher

    addService(dispatcher);

  }

  /**

   * Start a list of containers on this NodeManager.

   */

  @Override

  public StartContainersResponse

      startContainers(StartContainersRequest requests) throws YarnException,

          IOException {

    if (blockNewContainerRequests.get()) {

      throw new NMNotYetReadyException(

        "Rejecting new containers as NodeManager has not"

            + " yet connected with ResourceManager");

    }

    UserGroupInformation remoteUgi = getRemoteUgi();

    NMTokenIdentifier nmTokenIdentifier = selectNMTokenIdentifier(remoteUgi);

    authorizeUser(remoteUgi,nmTokenIdentifier);

    List succeededContainers = new ArrayList();

    Map failedContainers =

        new HashMap();

    for (StartContainerRequest request : requests.getStartContainerRequests()) {

      ContainerId containerId = null;

      try {

        ContainerTokenIdentifier containerTokenIdentifier =

            BuilderUtils.newContainerTokenIdentifier(request.getContainerToken());

        verifyAndGetContainerTokenIdentifier(request.getContainerToken(),

          containerTokenIdentifier);

        containerId = containerTokenIdentifier.getContainerID();

        startContainerInternal(nmTokenIdentifier, containerTokenIdentifier,

          request);

        succeededContainers.add(containerId);

      } catch (YarnException e) {

        failedContainers.put(containerId, SerializedException.newInstance(e));

      } catch (InvalidToken ie) {

        failedContainers.put(containerId, SerializedException.newInstance(ie));

        throw ie;

      } catch (IOException e) {

        throw RPCUtil.getRemoteException(e);

      }

    }

    return StartContainersResponse.newInstance(getAuxServiceMetaData(),

        succeededContainers, failedContainers);

  }

  /**

   * Stop a list of containers running on this NodeManager.

   */

  @Override

  public StopContainersResponse stopContainers(StopContainersRequest requests)

      throws YarnException, IOException {

    List succeededRequests = new ArrayList();

    Map failedRequests =

        new HashMap();

    UserGroupInformation remoteUgi = getRemoteUgi();

    NMTokenIdentifier identifier = selectNMTokenIdentifier(remoteUgi);

    for (ContainerId id : requests.getContainerIds()) {

      try {

        stopContainerInternal(identifier, id);

        succeededRequests.add(id);

      } catch (YarnException e) {

        failedRequests.put(id, SerializedException.newInstance(e));

      }

    }

    return StopContainersResponse.newInstance(succeededRequests, failedRequests);

  }

}

ContainerLauncher作为为一个EventHandler，其中维护了一个线程池可以并行启动或关闭Container，相关线程逻辑在ContainerLaunch中，最后在ContainerLaunch中会去调用ConatinerExecutor用来跟底层的操作系统进行交互，用来启动和清除Container对应的进程。相关的核心代码如下：

public class ContainersLauncher extends AbstractService

    implements EventHandler {

  private static final Log LOG = LogFactory.getLog(ContainersLauncher.class);

  private final Context context;

  private final ContainerExecutor exec;

  private final Dispatcher dispatcher;

  private final ContainerManagerImpl containerManager;

  public ExecutorService containerLauncher =

    Executors.newCachedThreadPool(

        new ThreadFactoryBuilder()

          .setNameFormat("ContainersLauncher #%d")

          .build());

  public final Map running =

    Collections.synchronizedMap(new HashMap());

  public void handle(ContainersLauncherEvent event) {

    Container container = event.getContainer();

    ContainerId containerId = container.getContainerId();

    switch (event.getType()) {

      case LAUNCH_CONTAINER:

        Application app =

          context.getApplications().get(

              containerId.getApplicationAttemptId().getApplicationId());

        ContainerLaunch launch =

            new ContainerLaunch(context, getConfig(), dispatcher, exec, app,

              event.getContainer(), dirsHandler, containerManager);

        containerLauncher.submit(launch);

        running.put(containerId, launch);

        break;

      case CLEANUP_CONTAINER:

        ContainerLaunch launcher = running.remove(containerId);

        if (launcher == null) {

          return;

        }

        try {

          launcher.cleanupContainer();

        } catch (IOException e) {

          LOG.warn("Got exception while cleaning container " + containerId

              + ". Ignoring.");

        }

        break;

    }

  }

五、MRAppMaster-MapReduce On YARN实现

MRAppMaster是MapReduce的ApplicationMaster实现，它使得MapReduce计算框架可以运行于YARN之上。在YARN中，MRAppMaster负责管理MapReduce作业的生命周期，包括创建MapReduce作业，向ResourceManager申请资源，与NodeManage通信要求其启动Container，监控作业的运行状态，当任务失败时重新启动任务等。

YARN使用了基于事件驱动的异步编程模型，它通过事件将各个组件联系起来，并由一个中央事件调度器统一将各种事件分配给对应的事件处理器。在YARN中，每种组件是一种事件处理器，当MRAppMaster启动时，它们会以服务的形式注册到MRAppMaster的中央事件调度器上，并告诉调度器它们处理的事件类型，这样，当出现某一种事件时，MRAppMaster会查询<事件，事件处理器>表，并将该事件分配给对应的事件处理器。

接下来，我们分别介绍MRAppMaster内部各种组件/服务的功能。

图12 MRAppMaster内部架构图

ContainerAllocator

ContainerAllocator负责与ResourceManager通信，本质其实就是一个ApplicationMasterProtocol协议的RPC_Client，为作业申请资源。作业的每个任务资源需求可描述为四元组，分别表示作业优先级、期望资源所在的host，资源量（当前仅支持内存），container数目。ContainerAllocator周期性通过RPC与ResourceManager通信，而ResourceManager会为之返回已经分配的container列表，完成的container列表等信息。ContainerAllocator的实现是RMContainerAllocator，它只接收和处理ContainerAllocator接口中定义的三种事件，它的运行是这三种事件驱动的，RMContainerAllocator中最核心的框架是维护了一个心跳信息，在RMCommunicator类中实现如下：

如下：

public abstract class RMCommunicator extends AbstractService

    implements RMHeartbeatHandler {

   // 资源申请心跳线程

  protected Thread allocatorThread;

  // ApplicationMasterProtocol协议的RPC_Client

  protected ApplicationMasterProtocol scheduler;

  @Override

  protected void serviceStart() throws Exception {

    scheduler= createSchedulerProxy(); // 构建ApplicationMasterProtocol协议的RPC_Client

    startAllocatorThread(); // 启动心跳线程

    super.serviceStart();

  }

  protected ApplicationMasterProtocol createSchedulerProxy() {

    final Configuration conf = getConfig();

    try {

      return ClientRMProxy.createRMProxy(conf, ApplicationMasterProtocol.class);

    } catch (IOException e) {

      throw new YarnRuntimeException(e);

    }

  }

  // 启动心跳线程

  protected void startAllocatorThread() {

    allocatorThread = new Thread(new Runnable() {

      @Override

      public void run() {

        while (!stopped.get() && !Thread.currentThread().isInterrupted()) {

          try {

            Thread.sleep(rmPollInterval);

            try {

              // 周期性的心跳，作用：（1）周期性发送心跳，告诉RM自己还活着（2）周期性询问RM，以获取新分配的资源和各个container运行状况。

              heartbeat();

            } catch (YarnRuntimeException e) {

              LOG.error("Error communicating with RM: " + e.getMessage() , e);

            }

          } 

        }

      }

    });

    allocatorThread.setName("RMCommunicator Allocator");

    allocatorThread.start();

  }

  @Override

  protected synchronized void heartbeat() throws Exception {

    scheduleStats.updateAndLogIfChanged("Before Scheduling: “);

    // 向RM申请资源

    List allocatedContainers = getResources();

    if (allocatedContainers.size() > 0) {

      // 把申请到的资源进行Job内分配，分配给任务

      scheduledRequests.assign(allocatedContainers);

    }

    ...

  }

ContainerLauncher

ContainerLauncher与NodeManager通信，要求其启动一个Container，本质其实就是一个ContainerManagemenetProtocol协议的RPC_Client。当ResourceManager为作业分配资源后，ContainerLauncher会将资源信息封装成container，包括任务运行所需资源、任务运行命令、任务运行环境、任务依赖的外部文件等，然后与对应的节点通信，要求其启动container。采用了阻塞队列+线程池的方式异步并行处理CONTAINER_REMOTE_LAUNCH和CONTAINER_REMOTE_CLEANUP这两种事件，核心代码如下：

public class ContainerLauncherImpl extends AbstractService implements

    ContainerLauncher {

  static final Log LOG = LogFactory.getLog(ContainerLauncherImpl.class);

  private ConcurrentHashMap containers =

    new ConcurrentHashMap();

  protected BlockingQueue eventQueue = // Container事件队列

      new LinkedBlockingQueue();

  private Thread eventHandlingThread; // 事件轮训线程

  protected ThreadPoolExecutor launcherPool; // 事件处理线程池

   // ContainerManagementProtocolProxy协议的RPC_Client

  private ContainerManagementProtocolProxy cmProxy;

  protected void serviceStart() throws Exception {

    launcherPool = new ThreadPoolExecutor(INITIAL_POOL_SIZE,

        Integer.MAX_VALUE, 1, TimeUnit.HOURS,

        new LinkedBlockingQueue(),

        tf);

    eventHandlingThread = new Thread() {

      @Override

      public void run() {

        ContainerLauncherEvent event = null;

        Set allNodes = new HashSet();

        while (!stopped.get() && !Thread.currentThread().isInterrupted()) {

          try {

            event = eventQueue.take(); // 从事件阻塞队列中获取Container事件

          } catch (InterruptedException e) {

            if (!stopped.get()) {

              LOG.error("Returning, interrupted : " + e);

            }

            return;

          }

          launcherPool.execute(createEventProcessor(event)); // 封装成事件处理器EventProcessor，异步交给线程池

        }

      }

    };

    eventHandlingThread.setName("ContainerLauncher Event Handler”);

    // 启动事件处理线程，轮训获取Container事件，封装成EventProcessor事件处理器，再异步交给线程池launcherPool进行任务的启动或关闭

    eventHandlingThread.start(); 

    super.serviceStart();

  }

  // 事件处理器

  class EventProcessor implements Runnable {

    private ContainerLauncherEvent event;

    EventProcessor(ContainerLauncherEvent event) {

      this.event = event;

    }

    @Override

    public void run() {

      LOG.info("Processing the event " + event.toString());

      ContainerId containerID = event.getContainerID();

      Container c = getContainer(event);

      switch(event.getType()) {

      case CONTAINER_REMOTE_LAUNCH: // Container启动事件

        ContainerRemoteLaunchEvent launchEvent

            = (ContainerRemoteLaunchEvent) event;

        c.launch(launchEvent); // 跟对应的NodeManager通信，启动Container

        break;

      case CONTAINER_REMOTE_CLEANUP: // Container杀死事件

        c.kill(); // 跟对应的NodeManager通信，关闭Container

        break;

      }

      removeContainerIfDone(containerID);

    }

  }
  // Container相关的启动或关闭

  private class Container {

    private ContainerState state;

    private TaskAttemptId taskAttemptID; // 关联的任务ID

    private ContainerId containerID; // 此任务分配的资源ContainerID

    final private String containerMgrAddress;

    // 启动Container

    public synchronized void launch(ContainerRemoteLaunchEvent event) {

      LOG.info("Launching " + taskAttemptID);

      ContainerManagementProtocolProxyData proxy = null;

      try {

        // 动态构建ContainerManagementProtocolProxyData协议的RPC_Client

        proxy = getCMProxy(containerMgrAddress, containerID);

        // Construct the actual Container

        ContainerLaunchContext containerLaunchContext =

          event.getContainerLaunchContext();

        // Now launch the actual container

        StartContainerRequest startRequest =

            StartContainerRequest.newInstance(containerLaunchContext,

              event.getContainerToken());

        List list = new ArrayList();

        list.add(startRequest);

        StartContainersRequest requestList = StartContainersRequest.newInstance(list);

        // 跟NodeManager通信，启动Container

        StartContainersResponse response =

            proxy.getContainerManagementProtocol().startContainers(requestList);

      } 

    }
    // 关闭Container

    public synchronized void kill() {

      if(this.state == ContainerState.PREP) {

        this.state = ContainerState.KILLED_BEFORE_LAUNCH;

      } else if (!isCompletelyDone()) {

        LOG.info("KILLING " + taskAttemptID);

        ContainerManagementProtocolProxyData proxy = null;

        try {

          // 动态构建ContainerManagementProtocolProxyData协议的RPC_Client

          proxy = getCMProxy(this.containerMgrAddress, this.containerID);

          // kill the remote container if already launched

          List ids = new ArrayList();

          ids.add(this.containerID);

          StopContainersRequest request = StopContainersRequest.newInstance(ids);

          // 跟NodeManager通信，关闭Container

          StopContainersResponse response =

              proxy.getContainerManagementProtocol().stopContainers(request);

        } 

      }

    }

  }

}

TaskAttemptListener

管理各个任务的心跳信息，如果一个任务一段时间内未汇报心跳，则认为它死掉了，会将其从系统中移除。同MRv1中的TaskTracker类似，它实现了TaskUmbilicalProtocol协议，任务会通过该协议汇报心跳，并询问是否能够提交最终结果。相关代码如下：

public class TaskAttemptListenerImpl extends CompositeService

    implements TaskUmbilicalProtocol, TaskAttemptListener {

  private static final JvmTask TASK_FOR_INVALID_JVM = new JvmTask(null, true);

  private static final Log LOG = LogFactory.getLog(TaskAttemptListenerImpl.class);

  private AppContext context;

  //在MRAppMaster中构建TaskUmbilicalProtocol协议的RPC_Server

  private Server server;

  protected void startRpcServer() {

    Configuration conf = getConfig();

    try {

      // 在MRAppMaster中构建TaskUmbilicalProtocol协议的RPC_Server

      server =

          new RPC.Builder(conf).setProtocol(TaskUmbilicalProtocol.class)

            .setInstance(this).setBindAddress("0.0.0.0")

            .setPort(0).setNumHandlers(

                conf.getInt(MRJobConfig.MR_AM_TASK_LISTENER_THREAD_COUNT,

                    MRJobConfig.DEFAULT_MR_AM_TASK_LISTENER_THREAD_COUNT))

                    .setVerbose(false).setSecretManager(jobTokenSecretManager)

                    .build();

      server.start();

      this.address = NetUtils.getConnectAddress(server);

    } catch (IOException e) {

      throw new YarnRuntimeException(e);

    }

  }

ClientService

ClientService是一个接口，由MRClientService实现。MRClientService实现了MRClientProtocol协议，客户端可通过该协议获取作业的执行状态（而不必通过ResourceManager）和制作业（比如杀死作业等）。

核心代码如下：

public class MRClientService extends AbstractService implements ClientService {

  static final Log LOG = LogFactory.getLog(MRClientService.class);

  private MRClientProtocol protocolHandler;

  private Server server; // MRClientProtocol协议的RPC_Server

  private WebApp webApp;

  private InetSocketAddress bindAddress;

  private AppContext appContext;

  public MRClientService(AppContext appContext) {

    super(MRClientService.class.getName());

    this.appContext = appContext;

    this.protocolHandler = new MRClientProtocolHandler();

  }

  protected void serviceStart() throws Exception {

    Configuration conf = getConfig();

    YarnRPC rpc = YarnRPC.create(conf);

    InetSocketAddress address = new InetSocketAddress(0);

    server =    // 构建MRClientProtocol协议的RPC_Server

        rpc.getServer(MRClientProtocol.class, protocolHandler, address,

            conf, appContext.getClientToAMTokenSecretManager(),

            conf.getInt(MRJobConfig.MR_AM_JOB_CLIENT_THREAD_COUNT,

                MRJobConfig.DEFAULT_MR_AM_JOB_CLIENT_THREAD_COUNT),

                MRJobConfig.MR_AM_JOB_CLIENT_PORT_RANGE);

    server.start();

    super.serviceStart();

  }

六、YarnChild-MR引擎启动入口

YarnChild是MapReduce在Yarn的Container任务子进程入口类，执行到这里，就基本已经完成了执行任务所需要的资源调度相关的工作，可以开始执行MapReduce引擎来调用MapReduc应用程序，真正开始执行某种类型的任务，进行计算。MapReduce框架的核心就在此，包括MapReduce编程模型API，MapReduce引擎等，MapReduce引擎会去回调用户的MapReduce应用程序，基本跟MRv1基本没有太大变化，这里不做展开，参考我的另一篇关于<>文章。

图13 MR引擎及MR编程模型

七、总结

本文开始从YARN产生的背景分析MRv1的一些局限性，接着从YARN的整体架构以及内部相关组件来详细分析了YARN的整个工作了流程，包括ResourceManager、NodeManagaer、MR计算框架相关的MRAppMaster和YarnChild等各个组件核心代码详细解析，作为一个大数据生态领域事实上通用的资源管理系统，值得深入学习研究。

你可能感兴趣的:(YARN)

react gsap动画库使用详解之scroll滑动动画伍哥的传说前端源码分享 react.js 前端前端框架 vue.js vue 动画 javascript
简介gsap高性能的JavaScript动画库，在现代网页设计和开发中运用。安装npminstallgsapReact框架中使用可以考滤使用react-gsap-enhancer库，或者@gasp/react。类组件使用react-gsap-enhancer高阶组件，函数组件使用@gasp/react自定义Hook。npminstallreact-gsap-enhancer#oryarnaddre
中国地图分幅编号计算工具红衣大叔 gis javascript 分幅
fenfu中国地图分幅编号计算工具，符合GB/T13989-2012国家标准。支持单点计算和范围查询，适用于测绘、GIS开发、城市规划等场景。特性✅支持8种比例尺（100万至5000）✅单点坐标转图幅编号✅矩形范围批量图幅查询✅自动处理高纬度特殊分幅规则✅输入验证与错误处理✅TypeScript类型支持安装npminstallfenfu#或yarnaddfenfu使用示例1.单点计算constMa
Node.js 常用工具沐知全栈开发开发语言
Node.js常用工具引言Node.js是一个基于ChromeV8引擎的JavaScript运行环境，它允许开发者使用JavaScript编写服务器端代码。在Node.js的开发过程中，使用一些常用的工具可以大大提高开发效率和项目质量。本文将详细介绍Node.js开发中常用的工具，包括版本管理、代码编辑、包管理、调试、测试、性能监控等。版本管理工具：npm和Yarnnpmnpm（NodePacka
YARN（Yet Another Resource Negotiator）组件和工作流程 Cachel wood 大数据开发算法 spark linq 大数据 python flink yarn
文章目录一、YARN概述1.定义与定位2.基本概念二、YARN架构与组件1.核心组件2.资源抽象与容器三、YARN工作流程1.应用程序提交流程2.资源调度流程四、YARN调度器与调度策略1.主要调度器类型2.调度器配置与选择**五、YARN高级特性**1.资源类型扩展2.容器预热（ContainerWarmup）3.服务发现与应用生命周期管理4.节点标签与资源分区**六、YARN性能优化**1.关
yarn如何用node替换 leo__520 node
Yarn是一个流行的JavaScript包管理工具，它为npm提供了更快、更可靠的体验。尽管Yarn有其优势，但在许多情况下，我们可能想使用Node.js的本地包管理机制来替代Yarn。一、基本概念在开始之前，我们要明确一些基本个念：Node.js：一个高效的JavaScript运行环境，为构建服务器端应用程序提供支持。Yarn：一个Facebook开发的JavaScript包管理工具，用于处理项
vue-monoplasty-slide-verify 滑动验证码插件使用及踩坑我的心巴 vue.js 前端 javascript
一、效果图二、安装依赖npminstall--savevue-monoplasty-slide-verify或yarnaddvue-monoplasty-slide-verify三、引入插件坑一：需要在main.js引入，在使用插件的.vue组件文件中使用按需引入的方式引入，会报错。//main.js引入vue-monoplasty-slide-verify代码importVuefrom'vue'
前端依赖管理实战手册：NPM、Yarn、PNPM 操作全指南小柒笔记前端 npm node.js
使用NPM、Yarn和PNPM进行前端依赖管理的实际操作步骤：使用NPM初始化新项目:npminit-y安装依赖包:npminstallpackage-name安装依赖包并添加到生产依赖:npminstallpackage-name--save安装依赖包并添加到开发依赖:npminstallpackage-name--save-dev更新依赖包:npmupdatepackage-name卸载依赖包
前端依赖升级完全指南：npm、pnpm、yarn 实践总结爱宇阳 NPM Vue 前端 npm node.js
在前端项目开发过程中，定期升级依赖不仅能享受新特性、修复安全问题，还能保证工具链长期稳定运行。本文全面总结npm、pnpm、yarn三大主流包管理器在依赖包升级方面的实践方法，并补充版本符、依赖安装的基础知识，适合新手与有经验开发者查阅。一、为什么要定期升级依赖？✅获取最新功能修复安全漏洞减少技术债提高团队协作时依赖一致性保证工具链与社区生态同步建议定期（如每月/每季度）安排升级任务，并做好构建测
互联网大数据求职面试：从Zookeeper到Flink的技术探讨
场景：互联网大数据求职面试在一个阳光明媚的下午，小白来到了知名互联网公司，准备接受他人生中最重要的一次面试。他的面试官是以严肃和专业著称的老黑。第一轮提问：分布式系统与协调老黑：小白，你能解释一下Zookeeper在分布式系统中的作用吗？小白：哦，这个简单，Zookeeper是一个分布式协调服务，主要用来解决分布式系统中数据一致性问题，比如选主、配置管理和命名服务。老黑：不错，那你知道Yarn是如
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
AntV F2入门教程德育处主任Pro arcgis
以下教程将系统地介绍AntV F2（移动端可视化引擎）的核心组件API，包含安装与引入、画布与图表、数据映射、几何标记、坐标轴、图例、提示、标注和滚动条等，每个API都附带完整示例代码，帮助你快速掌握F2用法。一、安装与引入#安装F2主包npminstall@antv/f2--save#或者使用yarnyarnadd@antv/f2//在小程序或浏览器中引入import{Canvas,Chart,
前端包管理工具终极对决：npm vs Yarn vs pnpm vs Bun vs Deno 吴启维前端 npm node.js yarn
还在为node_modules吞噬磁盘空间而抓狂？还在依赖安装进度条前苦苦等待？本文将揭示五大主流工具的终极差异，帮你找到最适合项目的依赖管理利器！一、痛点驱动：为什么我们需要更好的包管理？#经典噩梦场景$npminstall#等待10分钟后...node_modules占用1.2GB磁盘空间⚠️项目运行时出现幽灵依赖报错传统方案暴露三大痛点：磁盘黑洞：重复依赖填满硬盘龟速安装：串行下载耗时长依赖
Express.js 在 ts 模式下运行 npm run dev 的时候无法找到引入项的原因
一、问题描述我有个express.js写的后台，改写成了ts支持的，在使用npmrundev运行的时候出现错误C:\Users\Administrator\AppData\Roaming\npm\yarn.cmdrundevyarnrunv1.22.22$npxts-nodebin/portal.tsError:Cannotfindmodule'entity/User'Requirestack:-
从 0 到 Offer！大数据核心面试题全解析，答案精准拿捏面试官(hadoop篇) 浅谈星痕大数据
1.什么是Hadoop？Hadoop是一个开源的分布式系统基础架构，用于存储和处理大规模数据集。它主要包含HDFS（HadoopDistributedFileSystem）分布式文件系统、MapReduce分布式计算框架以及YARN（YetAnotherResourceNegotiator）资源管理器。HDFS负责数据的分布式存储，将大文件分割成多个数据块存储在不同节点上；MapReduce用于分
水晶杂谈4：手撕柏林噪声源码，跳转随机领域展望无限回忆彡美好水晶杂谈算法噪声柏林噪声我的世界 MC Fabric Java
文章目录前言柏林噪声取样器PerlinNoiseSampler取值操作顶点哈希梯度向量平滑函数了解Fade函数立方插值图样效果游戏实现参考前言该文章参考1.21.1Java版Yarn映射，详细分析柏林噪声本文存在许多数学公式，可以更好理解文章柏林噪声取样器PerlinNoiseSampler取值操作将排列表取名为permutation，permutation装有256个元素，其范围是从0到255的
HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式 2401_8554978 hdfs 架构 java
HDFSFederation（联邦）架构什么是HDFSFederation？随着数据量的增长，单一的NameNode成为了HDFS的瓶颈，因为它需要管理整个文件系统的命名空间和所有文件块的位置信息。为了克服这个限制，Hadoop引入了Federation机制，允许一个集群中有多个NameNode/NameSpace，每个NameNode管理一部分文件系统，从而分散负载。优点：提高扩展性：通过增加N
开源组件hive页面安全问题 Azoner 安全
原本直接登录无账户密码，无法通过攻防网络层面解决方法将ip换为本地127.0.0.1使用ngix代理白名单ss-ntpl配置层面解决方法：在服务器上find/-nameyarn-site.xml找到配置文件并在yarn-site.xml中增加或者修改参数yarn.nodemanager.webapp.address0.0.0.0:0重启datanodeyarn-daemon.shstopnodem
flink的多种部署模式 Azoner flink
##部署模式和运行模式###部署模式-本地local-单机无需分布式资源管理-集群-独立集群standalone-需要flink自身的任务管理工具-jobmanager接收和调度任务-taskmanager执行-on其他资源管理工具yarn/k8s-yarn-注意区分flink的和yarn的taskmanager###运行模式-session-先启动一个集群，保持一个会话，在这个会话中通过客户端提
深入理解 Hadoop MapReduce 调度原理与 YARN 架构北漂老男人 MapReduce hadoop mapreduce 架构学习方法
深入理解HadoopMapReduce调度原理与YARN架构作者：标签：大数据、Hadoop、YARN、MapReduce、调度器一、前言在大数据领域，Hadoop是最重要的分布式计算平台之一。随着数据规模的增长，Hadoop从1.x到2.x发生了巨大变革，核心就是引入了YARN资源调度框架。本文将结合图示，详细梳理HadoopMapReduce的调度原理与YARN的工作机制。二、Hadoop1.
hadoop yarn 获取日志_Hadoop YARN日志查看方式 weixin_30131105 hadoop yarn 获取日志
HadoopYARN日志查看方式实验环境CDH6.3.2Hadoop版本$hadoopversionHadoop3.0.0-cdh6.3.2Sourcecoderepositoryhttp://github.com/cloudera/hadoop-r9aff20de3b5ecccf3c19d57f71b214fb4d37ee89Compiledbyjenkinson2019-11-08T13:49
Hadoop Yarn常用命令老鼠扛刀满街找猫@ hadhoop hadoop linux
文章目录HadoopYarn常用命令1查看任务1.1yarnapplication-list1.2yarnapplication-list-appStates1.3kill调Application2.yarnlogs查看2.1查看application日志2.2查询Container日志3查看尝试运行的任务3.1列出所有Application尝试的列表3.2打印ApplicationAttemp状
什么是Hadoop Yarn ThisIsClark 大数据 hadoop 大数据分布式
HadoopYARN：分布式集群资源管理系统详解1.什么是YARN？YARN（YetAnotherResourceNegotiator）是ApacheHadoop生态系统中的资源管理和作业调度系统，最初在Hadoop2.0中引入，取代了Hadoop1.0的MapReduce1（MRv1）架构。它的核心目标是提高集群资源利用率，并支持多种计算框架（如MapReduce、Spark、Flink等）在同
关于js和vue以及项目搭建的相关问题糖心何包蛋111 javascript 前端开发语言
前端跨域//0.为什么出现跨域1.浏览器默认的一种'同源策略'2.协议-域名-端口不统一造成的跨域//1.跨域资源共享,在后端设置cors(nodejs的express服务下)1.后端安装:yarnaddcors-S2.引入:constcors=require('cors')3.直接挂载:App.use(cors())//2.后台处理CORS,加入一句话(加载设置响应头部分)header("Acc
全面解析Hadoop配置文件：架构、调整与最佳实践秦道衍
本文还有配套的精品资源，点击获取简介：Hadoop作为一个关键组件在分布式计算中处理和存储大量数据，而其配置文件则是保证系统正常运行和性能优化的核心。文章详细探讨了Hadoop配置文件的作用，包括核心配置文件及其内容，并阐述如何根据实际需求进行适当调整。同时，介绍了针对HDFS、MapReduce和YARN的主要配置文件，并通过实例说明如何细化设置以满足性能和资源管理的需求。最后，文章分享了一些最
vue3-seamless-scroll无缝滚动组件使用月伤59 javascript 开发语言 vue
Vue3.0无缝滚动组件，支持Vite2.0，支持服务端打包官网地址：https://github.com/xfy520/vue3-seamless-scrollnpm地址：vue3-seamless-scroll-npm1.安装方式：npminstallvue3-seamless-scroll--saveyarnaddvue3-seamless-scroll2.使用方式全局注册：import{c
前端犄角旮旯，非常规面试题总结（不断更新....）电饭煲饭前端
前段时间面试了一个大厂，被问了一些犄角旮旯的面试题，整场下来，一脸懵逼，决定痛定思痛，把这些题总结下来，不断更新。每天一遍，每天进步。。。目录1、npmcnpmyarnpnpm的区别，各自的优势是什么？你项目中用的什么？2、devDependencies、dependencies,peerDependencies的区别3、生产环境，开发环境，测试环境等不同的环境的面试题4、库的版本问题5、有关提升
Spark on Yarn 运行流程架构_Kylin spark 大数据分布式
1.首先客户端提交spark作业到ApplicationMananger2.向ApplicationManager申请启动ApplicationMaster,ApplicationManager选择一台NodeManager分配一个Container，在Container中开启ApplicationMaster进程。3.ApplicationMaster向Manager注册本次Applicatio
Spark 性能优化全指南 XiaoQiong.Zhang BigData 大数据 Spark
Spark性能优化涉及资源配置、代码设计、数据倾斜处理等多个维度，以下是综合官方文档与实际经验后的核心优化策略与方法：一、资源配置优化Executor配置数量与内存：--num-executors应结合集群总资源与任务特性合理设置（中小规模推荐10~100）。--executor-memory建议每个Executor分配6~10GB内存，避免超过YARN队列限制。CPU核数：--executor-
ReactNative 适配XCode打包ios18+ Kevin·Tseng react native xcode react.js javascript ecmascript
背景ios18使用环境macOS15.2+xcode16机子使用maxOS14.5(Macmini2018)+xcode15.4当执行打包操作时，报错如下：yarnrelease--appstore...2025-05-1514:39:34.293xcodebuild[xxx]Progress0%:Uploadfailed.ValidationfailedSDKversionissue.Thisa
前端领域 npm 包本地调试方法前端视界前端艺匠馆前端 npm arcgis ai
前端领域npm包本地调试方法关键词：npm、本地调试、link、workspace、yalc、verdaccio、依赖管理摘要：本文深入探讨前端开发中npm包的本地调试方法，从基础到高级方案全面覆盖。我们将详细分析npmlink的工作原理、yarn/npmworkspace的使用技巧，以及yalc和verdaccio等专业工具的配置方法。通过实际案例和代码演示，帮助开发者掌握高效可靠的本地调试技术
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc