io.block.size:64M
mapred.mapinput.min.splitsize:512M
io.sort.mb:512M
每个maptask的输入为512M的数据,在每个maptask中,发生了3次spill缓存溢写。
下面是通过日志统计出的各个细分阶段所用的时间:
每个TaskTracker都使用一个队列保存JobTracker分发过来的Task,我们将一个Task出队列的时间作为时间原点。
1. Hadoop首先将有关Task的文件(job.split,job.xml以及job.jar)从HDFS拷贝到TaskTracker的本地文件系统中,使用了不到1s的时间。这是因为job.split本来就在本地磁盘上。
2. 当所有需要的资源都已经被拷贝到本地后,Hadoop为这个Task启动一个TaskRunner线程,TaskRunner完成一些初始化工作,比如创建临时文件夹等等,最后TaskRunner启动一个子进程Child。此阶段耗时2s。
3. 子进程Child与TaskTracker进程通信,获得运行Task需要的JvmTask对象。此阶段耗时2s。
4. Child进程一开始有一些初始化工作,耗时2s。然后开始真正的运行maptask。
5, 第一次map输出缓冲区被写满,耗时52s,然后对缓存排序耗时2s,然后将排好序的数据写入一个spill文件,耗时18s。
6, 第二次map输出缓冲区被写满,耗时39s,然后对缓存排序耗时1s,然后将排好序的数据写入一个spill文件,耗时14s。
7, 第三次是一个flush操作,将缓冲区内剩余数据写入一个spill文件,总共耗时1s。
8, 最后将3个spill文件merge,耗时不到1s。
Hadoop统计的这个Task总共耗时134s,与本次测试的时间统计加和相当,说明测试正确。
ReduceTask可以分为三个步骤:
copy:在第一批map结束的时候,copy就开始了,但是要等到所有map结束copy才有可能结束,所以这个阶段的时间统计较长,为200s
sort:由于使用了combiner,reduce阶段要处理的数据很少,这里的一个ReduceTask处理242条记录,大小约50k,用时1s
reduce:用时不到1s