yarn简介

    由于yarn的出现,导致Hadoop的发展从1.x版本到2.x版本经历了一个质的飞跃。Hadoop其基本结构式主从的模式,在1.x版本中,Hadoop框架对job的资源调度以及job的监督管理主要靠jobtracker,这样对于容错性以及可扩展性都有很大的影响,同时,在1.x的版本中,基本上只支持MR的编程模式,这样的局限性还是很大的。由于这些原因,yarn的横空出世还是让人眼前一亮的。

    yarn的主要特点是将资源调度与job管理分开了,并且它还支持spark、storm等任务的调度与管理。yarn主要包含四个部分:ResourceManager(RM)、ApplicationMaster(AM)、NodeManager(NM)以及Container,其架构如下图:

yarn简介_第1张图片

     很明显我们可以看出RM位于中心位置,他主要是在后台运行,负责资源的调度,在各种应用程序之间进行资源的调度与仲裁。对应于每一个job任务,都会起一个AM来负责该job的管理,负责监督协调job的运行以及重启失败的job,同时,AM可以在container中运行各种各样的任务,不再限制于MR任务,这两部分加起来就相当于以前版本的jobtracker。而对于NM来说,它是针对每一个节点上资源管理的,当AM申请到资源的时候,它就很去找相对应的NM,NM会拥有许多动态的container,当AM找到他的时候,AM就会要求NM使用申请到的资源来启动特定与该job的任务,最后说到container,简单的说,一个container就相当于一个map或者一个reduce任务。在任务运行完毕之后,AM会向RM来注销自己。

    说明一点:尽管RM不会监视job,但是他会检查AM的健康状态,如果AM失败,那么RM会立即重新启动它。我们可以理解RM负责资源调度和管理AM,而AM负责管理任务。


以上观点均来自个人理解,如有不对的地方,还请大家指正,谢谢。


你可能感兴趣的:(Hadoop)