在硬盘存储容量快速增加的同时,访问速度,即数据从硬盘读取的速度未能快速提高.1990年,一个普通的硬盘驱动器可以存储1 370 MB的数据并拥有4.4 MB/s的传输速度,只需5 min就可以读取整个磁盘的数据。20年后的今天,海量数据的出现使得使用1TB存储容量的磁盘驱动器已很正常,由于数据传输速度在100 MB/s左右,需要花2.5 h以上才能读取整个驱动器的数据.如果可以一次从多个磁盘上读取数据,那么可以大大提高数据访问效率,若拥有100个磁盘,每个磁盘存储1%的数据,让它们并行运行,那么不到2 min就可以读完存储的所有数据。Hadoop架构的引入使建立大型商业集群、解决超大数据量处理的瓶颈难题成为可能,改善了传统海量数据访问带来的访问效率低下的状况,本文基于Hadoop架构设计了职工工资统计实例,并对该实例在单节点模式、伪分布模式和完全分布模式应用中的运行效率进行了分析和比较。

1  Hadoop的工作原理

    Hadoop是Apache软件基金会所研发的分布式基础架构,于2005年推出,它使用分布式文件系统(Hadoop Distributed File System,HDFS)作为低层存储支持,HDFS有着高容错性的特点,并将其设计部署在低廉的硬件设备上,以提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。目前国内外著名的公司如Yahoo,阿里巴巴,百度,Facebook等都建立了基于Hadoop的应用,下面分别从Hadoop的MapRe-dace实现机制和HDFS低层存储来说明如何构建基于Hadoop的分布式应用。

    1.1 MapReduce实现机制

    Hadoop是MapReduce的实现,而MapRe-duce的工作过程一般分为两个阶段:map阶段和reduce阶段,每个阶段都有一批关键值对作为输入,而另一批关键值对作为输出,关键字的类型可以由程序员选择设定,程序员可以根据实际应用具体设计两个函数的实现体,在map阶段输入的是原始数据,可以选择文本文件作为输入。
    1.1.1气象数据集

    分布在全球各地的气象传感器每隔1h便收集当地的气象数据,从而累积了大量的日志数据,这些数据是可以用MapReduce来分析的最佳数据。

    1.1.2数据存放格式

    假设数据是以面向行的ASCII格式存储,每一行是一条记录,该格式支持许多气象元素,其中许多数据的长度可选或可变,为简化起见,我们将选择始终都有固定宽度的数据(如温度)进行讨论,数据文件按照日期和气象站进行组织,从1901~2010年,每一年都有一个目录,每一个目录都包含一个打包文件,文件中的每一个气象站都带有当年的数据,实际生活中有上万个气象台,所以整个数据集由大量较小的文件组成,通常情况下,我们更容易、更有效地处理数量较少的大型文件,因此,数据会被预先处理,并将每年记录的读数连接到一个单独的文件中。

    1.1.3  MapReduce过程

    使用map函数找出年份和气温,在这种情况下,map函数处理过程仅是数据的一个准备阶段,map函数输出的是能让Reduce函数在其中工作的数据,map函数也可以很好地去除损坏的记录,即在map函数中过滤掉丢失、不可靠或错误的气象数据。

    以下面的几行示例作为输入数据(一些未使用的列已经去除,为了符合页面宽度,用省略号表示):

 

    关键值是文件中的行偏移,而这往往是map函数中所忽视的,map函数的功能仅仅提取年份和空气温度(用黑体表示),并作为它的输出发送出去。温度值已被转换成整数:

    1950, 0; 1950, 22; 1950,-11;1949,111;1949 ,78.

    map函数的输出先由MapReduce中的shuffle来处理,然后再被发送到reduce函数,这种数据是一个一个键值对,因此,reduce函数有以下输入,每年的年份后面都有一系列温度的数据,所有的reduce函数现在必须重复这个列表并从中找出最大的读数:

    1949,(111,78);1950,(0,22,-11).

    最后输出的全球气温中,每年的最高温度为:

    1949,111;1950,22.

    整个数据流向如图1所示,在图1的底部是Unix的管道,以模拟整个MapReduce流程。
1.2  HDFS低层存储

    HDFS分为3个部分:客户端(client);名称节点(NameNode);数据节点(DataNode),Client是基于HDFS的应用程序;NameNode是分布式文件系统的管理者,主要负责文件系统的命名空间,集群的配置信息和数据块的复制信息等,并将文件系统的元数据存储在内存中;DataNode是文件实际存储的位置,它将块(Block)的元数据信息,存储在本地文件系统中,周期性地将所有的Block信息发给NameNode。

    HDFS的构成如图2所示,

  

    图1  MapReduce逻辑数据流

     

    图2 HDFS的构成

    NameNode上的文件名称空间信息存储在FsImage文件中,NameNode上还有一个事务日志文件EditLog,这两个文件要有备份,以防文件损坏或者NameNode宕机导致系统不可恢复,NameNode的作用主要有以下3个:一是文件映射,把一个文件映射到一批数据block,把文件数据映射到DataNode上;二是集群的配置管理,数据块的管理和复制;三是日志处理,

2职工工资统计的实现

    根据前面的Hadoop架构及其MapReduce实现机制和HDFS低层存储,我们将一个公司所有员工的工资按照员工姓名、月工资存放于不同的文本文件中,并通过编写统计工资的map和reduce函数,将计算输出的员工姓名、员工年工资存放在结果文件中,如图3所示。

  

   

    图3 工资统计的MapReduce过程
  2.1程序代码及分析

    由TokenizerMapper类和IntSumReducer类分析工资统计功能的MapReduce实现,

    2.1.1 TokenizerMapper类工资统计功能的实现

    定义TokenizerMapper类,继承Hadoop提供的Mapper类来实现个性化的map函数,map函数中,由于输入的文本内容格式固定,故将文本文件中一行数据(value)提取出name和monthSalary后,写入context,其中用到的IntWritable类是Hadoop为了统一格式所自带的封装类,与Integer无异,此类map方法将分析后的结果写入context,作为IntSumReducer类reduce方法的输入

     TokenizerMapper类中map函数的基本算法思想为:

    (1)读取文本文件中的一行数据String-Tokenizer itr=new StringTokenizer ( value. toString());

    (2)获取姓名String name = itr, nextToken();

    (3)获取月薪IntWritable monthSalary = new

    IntWritable(Integer. parseInt(itr. nextToken()));

    (4)计算结果输出将结果写入context,作为reduce方法的输入context. write ( word ,monthSalary ),

    2. 1. 2  IntSumReducer类工资统计功能的实现

    定义IntSumReducer类,继承Hadoop提供的Reducer类来实现个性化的reduce函数,reduce函数中,key为map提取出的姓名作为输出参数,values为maP之后通过combiner归并该名员工工资的集合,对每一名员工,假设其姓名是唯一的,那么可以作为主键区别,计算其对应的月工资的总和(年工资),context输出年工资,

    IntSumReduce:类中reduce函数的基本算法思想:

    (1)计算年工资总和根据key和values计算每个员工的年工资总和

    for(IntWritable val;values)

      {

    sum + =val. get();

      };

    (2)计算结果输出将结果写入context,并显示输出context. write ( key , result ).

    在完成了用于map的TokenizerMapper类和用于redace的IntSumReducer类之后,通过Hadoop所提供的应用类去设置运行时的一些参数,最主要的是Job类,其中有许多设置,包括Jar类、Mapper类、Cornbiner类、Reducer类,以及输入输出路径等,通过waitForCompletion方法执行任务,直至完成,

    2. 2运行结果

    运行完成后输出的文本文件的内容格式为员工姓名、年工资,符合预期的运行结果,程序的TokenizerMapper类实现了Mapper接口的map方法,将输入的文本文件逐行读取,并以“空格”来划分,将员工姓名作为key,其月工资作为value,map的结果集再由combiner归并后输出到reducer,对相同key的结果,求其value的和,并将其输出到对应目录下。

3职工年工资统计效率测试

    分布式计算法适合于大数据量的计算,大集群的效率无可置疑,但由于实验条件的限制,只能测试双机集群的效率。

    3.1主要配置参数

    两台主机的主要软硬件配置见表1,

  

    表1主要配置参数
3. 2测试方案

    单节点模式:不涉及分布式文件系统,在Eclipse中运行(需配置Hadoop插件和运行参数)。

    伪分布模式:运行于A机.

    分布式模式(A-B);A作为master, B作为slave;下传速度平均为2 MB左右.

    分布式模式(B-A);B作为master, A作为slave;下传速度平均为3. 6 MB左右。

    3. 3测试结果

    由1 MB数据量至1GB数据量进行测试效率的比较,运行时间结果记录见表2.

  

    表2不同测试模式下不同文件的运行时间

4结语

    基于Hadoop架构计算模式的出现,突破了传统的数据库系统对海量数据处理的速度限制,通过对大量数据的并发访问,有效缩短了数据的查询计算时间,使用户的查询响应更快速,本文通过比较不同大小文件中的工资数据在4种不同分布下的运行效率,得到分布式A一B的效率最高,单机的效率最低,Hadoop架构模式可以充分利用不同机器同时参与并发运算,提高了运算效率,目前Hadoop架构已广泛应用于信息检索领域,如Google, Baidu等,我们将继续对一些符合分布式运算的算法在Hadoop架构下的实现方案进行集中研究,并根据其特点应用于特定的场景。