Hadoop-Mapreduce的框架组成和运行流程

1.MapReduce的框架组成

Hadoop-Mapreduce的框架组成和运行流程_第1张图片
Hadoop-Mapreduce的框架组成和运行流程_第2张图片
MapReduce 角色:
Client:作业提交发起者

配置参数Configuration,并打包成jar文件存储在HDFS上,将文件路径提交给JobTracker的master服务,
然后由master创建每个task将它们分发到各个TaskTracker服务中去执行。

JobTracker:初始化作业,分配作业,与TaskTracker通信,协调整个作业

这是一个master服务,程序启动后,JobTracker负责资源监控和作业调度。JobTracker监控所有的TaskTracker和job的健康状况,一旦发生失败,即将之转移到其他节点上,同时JobTracker会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务调度器,而调度器会在资源出现空闲时,选择合适的任务使用这些资源。在Hadoop 中,任务调度器是一个可插拔的模块,用户可以根据自己的需要设计相应的调度器。

TaskTracker: 保持JobTracker通信,在分配的数据片段上执行MapReduce任务

运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信接受作业,并负责直接执行每个任务。
TaskTracker 会周期性地通过Heartbeat 将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)。
TaskTracker 使用“slot”等量划分本节点上的资源量。“slot”代表计算资源(CPU、内存等)。
一个Task 获取到一个slot 后才有机会运行,而Hadoop 调度器的作用就是将各个TaskTracker 上的空闲slot 分配给Task 使用。
slot 分为Map slot 和Reduce slot 两种,分别供MapTask 和Reduce Task 使用。TaskTracker 通过slot 数目(可配置参数)限定Task 的并发度。

TaskScheduler:任务调度器

TaskScheduler任务调度器的理解
TaskScheduler,顾名思义,就是MapReduce中的任务调度器。在MapReduce中,JobTracker接收JobClient提交的Job,
将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务。
然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务。
具体应该分派一些什么样的任务给这台TaskTracker,这就是TaskScheduler所需要考虑的事情。

TaskScheduler工作在JobTracker上。在JobTracker启动时,根据配置“mapred.jobtracker.taskScheduler”选定一个TaskScheduler的派生类实例作为任务调度器。
任务的分派配由JobTracker的调度框架和TaskScheduler的具体调度策略配合完成。简单来说:
1、JobTracker通过一种Listener机制,将Job的变化情况同步给TaskScheduler。然后TaskScheduler就按照自己的策略将需要调度的Job管理起来;
2、在JobTracker需要向TaskTracker分派任务时,调用TaskScheduler的assignTask()方法来获得应当分派的任务;

HDFS:保存数据和配置信息
Heartbeat:心跳(指按照一定的频率在运行,类似于心脏无休止的跳动)机制

2.MapReduce运行流程

Hadoop-Mapreduce的框架组成和运行流程_第3张图片

作业运行流程详解:

  • 在客户端启动一个作业,并向JobTracker请求一个Job ID
  • 然后检查输出说明(如输出目录已存在)、输出划分(如输入路径不存在);
    详细理解就是:将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。JAR文件默认会有10个副本(mapred.submit.replication属性控制);输入划分信息告诉了JobTracker应该为这个作业启动多少个map任务等信息。
  • 提交作业到JobTracker
  • JobTracker接收到作业后,将其放在一个作业队列里,等待作业调度器对其进行调度(这里是不是很像微机中的进程调度呢,呵呵),当作业调度器根据自己的调度算法调度到该作业时,会根据输入划分信息为每个划分创建一个map任务,并将map任务分配给TaskTracker执行。对于map和reduce任务,TaskTracker根据主机核的数量和内存的大小有固定数量的map槽和reduce槽。
    这里需要强调的是:map任务不是随随便便地分配给某个TaskTracker的,这里有个概念叫:数据本地化(Data-Local)。意思是:将map任务分配给含有该map处理的数据块的TaskTracker上,同时将程序JAR包复制到该TaskTracker上来运行,这叫**“运算移动,数据不移动**”。而分配reduce任务时并不考虑数据本地化。
  • TaskTracker每隔一段时间会给JobTracker发送一个心跳,告诉JobTracker它依然在运行,同时心跳中还携带着很多的信息,比如当前map任务完成的进度等信息。
    当JobTracker收到作业的最后一个任务完成信息的通知时,JobTracker便把整个Job(作业)状态设置成“成功”。当JobClient查询Job运行状态时(注意:这里是异步操作),客户端将得知任务已完成,便显示一条消息给用户。

3.MapReduce调度器

Hadoop-Mapreduce的框架组成和运行流程_第4张图片
mr其他参考博文调度器

http://blog.sina.com.cn/s/blog_3fe961ae01019ijc.html

你可能感兴趣的:(大数据学习)