mapreduce框架中的全局变量的设置

最近刚完成了一个基于mapreduce的autoencoder并行算法设计与实现,打算写一篇代码剖析,在此之前先整理一下用到的几个技术点。

--------------------------------------------------------------------------------------------------------------------------------

先说一下mapreduce中全局变量的设置。


全局变量的背景分析:


先简单说一下mapreduce框架,推荐一本书《Hadoop实战》,如果想对hadoop、HDFS等相关技术有更加深入的了解的话可以翻一翻这本书。mapreduce的过程主要分为对输入数据的处理形成初始键值对,map,shuffle,reduce几个过程。初始键值对在map中进行处理形成中间键值对,经过shuffle阶段的排序分片输送给reduce,reduce完成对中间键值对的处理形成最终的结果。程序员在客户端编写mapreduce的程序,然后提交job给JobTracker,JobTracker会复制该job相关的jar包,input split,配置文件等资源到JobTracker文件系统中的文件夹,然后会将任务下派到各个TaskTracker中,每个TaskTracker中可以同时执行指定数目的task任务(TaskTracker可以执行map任务也可以执行redue任务,map任务的优先级高于reduce任务)。TaskTracker分配到task任务以后会从共享文件系统中拷贝包括jar在内的资源到本地。这里要解释一下,分布式文件系统HDFS是由多个主机的文件系统构成的,不同主机通过网络互连,HDFS中以block为单位(默认64M),当要存储的文件大于64M时会被切分成不同的块分布存储(可能存在不同的主机上!),DataNode和TaskTracker分布在不同的主机上,一般TaskTracker优先处理本地DataNode上的数据。当task获得资源后,TaskTracker会为其创建一个JVM开始执行。map任务接收input split后会实例化Mapper的实现类,然后调用其中的run方法,run方法的代码如下。

  1. /** 
  2.  * Expert users can override this method for more complete control over the 
  3.  * execution of the Mapper. 
  4.  * @param context 
  5.  * @throws IOException 
  6.  */  
  7. public void run(Context context) throws IOException, InterruptedException {  
  8.   setup(context);//只运行一次,可以重载实现自己的功能,比如获得Configuration中的参数  
  9.   while (context.nextKeyValue()) {  
  10.     map(context.getCurrentKey(), context.getCurrentValue(), context);  
  11.   }  
  12.   cleanup(context);  

setup只在该task上执行一次,接下来就开始无限调用map。reduce阶段同理。

从上面的叙述过程我们可以得到以下几个结论:
一、由于不同的task共享的只是jar文件的初始版本,且分别运行在独立的JVM中,所以不同的task对Mapper(Reducer)实现类中成员变量以及主类中 的成员变量的修改相互没有影响。
三、1中的两种成员变量如果已进行初始化,值会传递下来,可以利用这个性质实现对map(reduce)函数是否为第一次调用进行判断。

mapreduce程序如何设置全局变量


mapreduce设置全局变量主要有三种方法:

一、配置Job属性

mapreduce的执行过程中task可以读取Job的属性。基于这个特性,程序可以在Job的配置代码中即main函数中利用Congfiguraion类的set函数将一些简单的数据结构封装到作业配置中;task任务启动的过程中(比如setup函数)通过Configuration类的get函数读取即可。
这种方法的优点是简单,资源消耗小;缺点则是只能共享一些小型的数据量,对大型的数据结构比较乏力。
下面的代码是在作业配置代码段中进行的全局变量的配置:
  1. int nAge = 25;
  2. Configuration conf = new Configuration();  
  3. conf.set("nAge", nAge);//主要是这一行
  4. Job job = new Job(conf, "JobName");
下面的代码段是在setup函数中完成的对全局变量的读取:
  1. protected void setup(Context context) 
  2. throws IOException, InterruptedException {
  3. try {
  4.     Configuration conf = context.getConfiguration();
  5.  int nAge = conf.get("nAge");
  6. } catch (Exception e) {                
  7.              e.printStackTrace();
  8.         }  
  9. }


二、使用DistributedCache

DistributedCache还没有用过,以后再补充。

三、利用指定的HDFS文件进行全局变量的存储

这种方法主要使用了java的API,预先定义数据的存储规则,通过读写HDFS中指定的文件按照预先定义的规则访问数据即可实现全局访问。HDFS中Java的API将在后面的文章中介绍。因为将数据存储在文件中,理论上可以存储足够所有应用可能的全局变量且能读能写还比较直观,缺点是需要使用IO,会占用系统资源,增加作业完成的资源消耗。
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------

参考资料:
博客:http://blog.sina.com.cn/s/blog_65fe6ceb01013udd.html 
书籍:《Hadoop实战》

本文系原创,如有转载或引用请附上本文链接,谢谢。

你可能感兴趣的:(hadoop)