Hadoop MapTask/ReduceTask各阶段耗费时间的测试

io.block.size:64M

mapred.mapinput.min.splitsize:512M

io.sort.mb:512M

每个maptask的输入为512M的数据,在每个maptask中,发生了3次spill缓存溢写。

下面是通过日志统计出的各个细分阶段所用的时间:


每个TaskTracker都使用一个队列保存JobTracker分发过来的Task,我们将一个Task出队列的时间作为时间原点。

1.  Hadoop首先将有关Task的文件(job.split,job.xml以及job.jar)从HDFS拷贝到TaskTracker的本地文件系统中,使用了不到1s的时间。这是因为job.split本来就在本地磁盘上。

2.  当所有需要的资源都已经被拷贝到本地后,Hadoop为这个Task启动一个TaskRunner线程,TaskRunner完成一些初始化工作,比如创建临时文件夹等等,最后TaskRunner启动一个子进程Child。此阶段耗时2s。

3.  子进程Child与TaskTracker进程通信,获得运行Task需要的JvmTask对象。此阶段耗时2s。

4.  Child进程一开始有一些初始化工作,耗时2s。然后开始真正的运行maptask。

5,  第一次map输出缓冲区被写满,耗时52s,然后对缓存排序耗时2s,然后将排好序的数据写入一个spill文件,耗时18s。

6,  第二次map输出缓冲区被写满,耗时39s,然后对缓存排序耗时1s,然后将排好序的数据写入一个spill文件,耗时14s。

7, 第三次是一个flush操作,将缓冲区内剩余数据写入一个spill文件,总共耗时1s。

8,  最后将3个spill文件merge,耗时不到1s。

Hadoop统计的这个Task总共耗时134s,与本次测试的时间统计加和相当,说明测试正确。


ReduceTask可以分为三个步骤:

copy:在第一批map结束的时候,copy就开始了,但是要等到所有map结束copy才有可能结束,所以这个阶段的时间统计较长,为200s


sort:由于使用了combiner,reduce阶段要处理的数据很少,这里的一个ReduceTask处理242条记录,大小约50k,用时1s


reduce:用时不到1s



Hadoop Job Tuning

http://www.searchtb.com/2010/12/hadoop-job-tuning.html



你可能感兴趣的:(Hadoop MapTask/ReduceTask各阶段耗费时间的测试)