MapTask 第17页

Hadoop中的DistributedCache

分布式缓存在MapReduce中称之为DistributedCache，它可以方便maptask之间或者reducetask之间共享一些信息，同时也可以将第三方包添加到其classpath路径中去。

nysyxxg·2014-07-06 17:00

利用Hadoop和opencv进行处理视频的原理

这时将“帧流”以key-value的方式输入到MapTask中进行处理。其实我们之前一直存在一个误区，就是opencv的API读取的是文件路径，这两个对不上啊。但是，ope

zongquanliu·2014-07-04 00:48

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

maptask的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。InputSplit的大小，决定了一个Job拥有多少个map。

KingBoxing·2014-06-23 21:15

[置顶] Map/Reduce Task 远程调试详解

MapTask和ReduceTask都是TaskTracker的Child进程，MapTask,ReduceTask和TaskTracker是彼此完全独立的JVM。

gjt19910817·2014-06-17 22:00

Hadoop中Mapper类的setup（）函数在什么地方调用

向hadoop提交job后，hadoop会在MapTask的runNewMapper（）或者runOldMapper（）函数中使用反馈机制实例化具体的Mapper子类，然后调用这个对象的run（）函数，

善良的java·2014-06-05 21:00

新旧版本FileInputFormat获得输入分片的不同

有接触过hadoop的都应该清楚InputFormat里有个getSplits方法，用来获得输入分片，并最终影响maptask的数量。

xiao_jun_0820·2014-06-03 14:00

hadoop-mapreduce中maptask运行分析

MapTask运行通过执行.run方法： 1.生成TaskAttemptContextImpl实例，此实例中的Configuration就是job本身。

hongs_yang·2014-05-13 12:00

hadoop-mapreduce中maptask运行分析

MapTask运行通过执行.run方法：1.生成TaskAttemptContextImpl实例，此实例中的Configuration就是job本身。

u014393917·2014-05-13 12:00

hadoop作业调优参数整理及原理

1Mapsidetuning参数1.1MapTask运行内部原理当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。

雨一直下·2014-05-09 11:00

hadoop作业调优参数整理及原理

1Mapsidetuning参数1.1MapTask运行内部原理当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。

雨一直下·2014-05-09 11:00

yarn oom问题一例

线上部分job运行失败，报OOM的错误:因为是maptask报错，怀疑是map数量过少，导致oom，因此调整参数，增加map数量，但是问题依然存在。看来和map的数量没有关系。

菜菜光·2014-05-06 23:18

yarn oom问题一例

线上部分job运行失败，报OOM的错误:因为是maptask报错，怀疑是map数量过少，导致oom，因此调整参数，增加map数量，但是问题依然存在。看来和map的数量没有关系。

菜菜光·2014-05-06 23:18

hadoop作业调优参数整理及原理

1Mapsidetuning参数1.1MapTask运行内部原理当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。

u010282707·2014-04-21 14:00

Win7+Eclipse+Hadoop 运行WordCount报错：java.lang.OutOfMemoryError: Java heap space

开发环境后，运行WordCount程序的时候，有可能会报内存溢出异常：java.lang.OutOfMemoryError:Javaheapspace atorg.apache.hadoop.mapred.MapTask

majian_1987·2014-04-18 15:00

MapReduce源码分析之架构分析1

至于MapTask/ReduceTask的原理分析，JobTracker部分，以及TaskTracker如何启动一个Task这些都将在后续章节给出。MR编程模型MapReduce的编程模型

chlaws·2014-04-14 22:54

MapReduce源码分析之架构分析1

至于MapTask/ReduceTask的原理分析，JobTracker部分，以及TaskTracker如何启动一个Task这些都将在后续章节给出。MR编程模型 MapRe

chlaws·2014-04-14 22:00

hadoop 作业调优参数整理及原理

转自：http://www.oschina.net/question/12_154591Mapsidetuning参数1.1MapTask运行内部原理当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘

smile0198·2014-04-14 11:00

Hadoop MapTask/ReduceTask各阶段耗费时间的测试

io.block.size：64Mmapred.mapinput.min.splitsize：512Mio.sort.mb：512M每个maptask的输入为512M的数据，在每个maptask中，发生了

Flood_Dragon·2014-04-04 11:00

MapReduce源码分析之InputSplit分析

什么是InputSplitInputSplit是指分片，在MapReduce当中作业中，作为maptask最小输入单位。

chlaws·2014-04-03 23:55

MapReduce源码分析之InputSplit分析

什么是InputSplit InputSplit是指分片，在MapReduce当中作业中，作为maptask最小输入单位。

chlaws·2014-04-03 23:00

Hadoop学习三十五：Hadoop-MapReduce MapTask and ReduceTask

zy19982004.iteye.com/blog/2037549从整体上描述了Job执行的过程，大致分为三步准备数据mapreduce清理其中最主要的当然是mapreduce的过程，map由MapTask

zy19982004·2014-03-28 11:00

Hadoop学习三十五：Hadoop-MapReduce MapTask and ReduceTask

zy19982004.iteye.com/blog/2037549从整体上描述了Job执行的过程，大致分为三步准备数据mapreduce清理其中最主要的当然是mapreduce的过程，map由MapTask

zy19982004·2014-03-28 11:00

Hadoop学习三十五：Hadoop-MapReduce MapTask and ReduceTask

http://zy19982004.iteye.com/blog/2037549从整体上描述了Job执行的过程，大致分为三步准备数据mapreduce清理其中最主要的当然是mapreduce的过程，map由MapTask

zy19982004·2014-03-28 11:00

Hadoop MapReduce两种常见的容错场景分析

另外一种是，作业的MapTask全部运行完成后，在ReduceTask运行过程中，某个MapTask所在节点挂了，或者某个MapTask结果存放磁盘损坏了，该如何处理？

Johnny_Lee·2014-03-26 23:00

hadoop maptask

hadoop MapTask 1.通过Job的inputFormmat获得对应InputFormat然后获得RecordReader 2.numReduceTasks从前面conf计算的得到，numReduceTasks

tcxiang·2014-03-12 16:00

hadoop作业调优参数整理及原理

1Mapsidetuning参数1.1MapTask运行内部原理当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。

恶魔在江湖·2014-03-10 17:00

hadoop调优

hadoop作业调优参数整理及原理1Mapsidetuning参数1.1MapTask运行内部原理当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。

chjf2010·2014-03-06 23:00

map的collect和spill过程解析

初始时kvstart=kvend=kvindex=01、MapTask的collect过程 collect是一个向缓冲区放东西的过程。

zcc_0015·2014-03-06 21:00

Hadoop中的Shuffle(17)

Shuffle描述着数据从MapTask输出到ReduceTask输入的这段过程。

肖鋭·2014-03-04 21:00

[Hadoop源码解读]（六）MapReduce篇之MapTask类

MapTask类继承于Task类，它最主要的方法就是run()，用来执行这个Map任务。

Mrknowledge·2014-02-27 11:00

Hadoop中Mapper类的setup（）函数在什么地方调用

向hadoop提交job后，hadoop会在MapTask的runNewMapper（）或者r

laodalinwenfu·2014-02-11 23:08

Hadoop中maptask数量的决定因素

刚开始接触hadoop平台的时候部分初学者对于mapreduce中的maptask的数量是怎么确定的可能有点迷惑，如果看了jobclient里面的maptask初始化的那段源码，那么就比较清楚了，MapTask

shenxiaoming77·2014-01-16 15:00

MapReduce实例——ChainMapper的使用

按照API上的说明：/** *TheChainMapperclassallowstousemultipleMapperclasseswithinasingle *Maptask. * *TheMapperclassesareinvokedinachained

wzhg0508·2014-01-11 19:00

hadoop-ID分析

Task包括MapTask和ReduceTask，是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D

cookqq·2014-01-05 20:00

hadoop作业分片处理以及任务本地性分析（源码分析第一篇）

(一)Map输入数据块的切分算法（基于hadoop源码1.0.1）：（1）分片算法 MapTask的个数据主要取决于InputFormat通过对输入数据调用getSplit()方法分割为若干个分片数据

zengzhaozheng·2014-01-02 17:59

hadoop作业分片处理以及任务本地性分析（源码分析第一篇）

(一)Map输入数据块的切分算法（基于hadoop源码1.0.1）：（1）分片算法MapTask的个数据主要取决于InputFormat通过对输入数据调用getSplit()方法分割为若干个分片数据，即

zengzhaozheng·2014-01-02 17:59

Hadoop map task中Partitioner执行时机

MapTask.runNewMapper() -> ...

heipark·2013-12-18 09:00

Hadoop二次排序关键点和出现时机（也叫辅助排序、Secondary Sort）

关键点1、Partitioner 它的作用是决定数据分区，说白了就是决定map输出key-value由哪个reduce处理，每个maptask输出的key-value都会执行Partitioner的

·2013-12-16 07:00

hadoop作业调优参数整理及原理

文章出处：http://www.alidata.org/archives/14701Mapsidetuning参数1.1MapTask运行内部原理当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘

evo_steven·2013-12-09 13:00

hive在实际运行压缩模式中出现的问题

_2013-12-05_14-11-45_842_4285479348256958995/-ext-10033/000267_0.snappy atorg.apache.hadoop.mapred.MapTask

chenyi8888·2013-12-05 15:00

Task运行过程分析

2Task运行过程分析MapTask分解成Read、Map、Collect、Spill、Combine五个阶段，ReduceTask分解成Shuffle、Merge、Sort、Reduce、Write五个阶段

szjian·2013-12-03 09:00

Hadoop MapReduce之MapTask任务执行（四）

Map任务执行完前会对spill文件进行合并操作，每次spill都会生成一个spill文件，在传向reduce前，map会把这些文件合并为一个文件，文件合并不是一次性把所有文件合并的，每次合并的个数可以通过参数io.sort.factor指定，当实际spill文件数量超过该值的时候，会生成相应的中间临时文件，总之，每次合并文件的数量不会超过io.sort.factor。文件合并由mergePar

lihm0_1·2013-11-23 14:00

Hadoop 故障：java.lang.OutOfMemoryError: Java heap space

一个作业运行时，在maptask阶段出现了如下错误：FATALorg.apache.hadoop.mapred.Child:Errorrunningchild:java.lang.OutOfMemoryError

lihm0_1·2013-11-19 14:00

[Hadoop源码解读]（六）MapReduce篇之MapTask类<转>

MapTask类继承于Task类，它最主要的方法就是run()，用来执行这个Map任务。

yongjian_luo·2013-11-18 11:00

Hadoop MapReduce之MapTask任务执行（三）

前面讲到KV的输出，会先写入KVbuffer，当buffer用完或达到一定比例的时候spillThread会将buffer中的数据写入磁盘，以便buffer重用，刷新过程并不是直接写入的，写入前会先进行一个排序操作，写入时会将一个partition的数据写在一起，并且会生成一个index文件作为标记文件。每次spill都会生成一个新的数据文件，数据文件和索引文件的结构图如下： spil

lihm0_1·2013-11-16 13:00

Hadoop MapReduce Task Log 无法查看syslog问题

现象：由于多个maptask共用一个JVM，所以只输出了一组log文件datanode01:/data/hadoop-x.x.x/logs/userlogs$ls-R.

yangjun2·2013-11-14 19:00

Hadoop MapReduce之MapTask任务执行（二）

（为了简单起见，我们这里分析官方文档中使用的WordCount程序）上一篇我们已经看到自己的map函数是如何被调用的，这是一个循环调用的过程，这里我们分析下，从KV读入到KV写出的过程，通常我们只要写map函数就可以了，但在一些特殊的情况下我们也可以覆盖run函数，来实现自己的执行流程。这个例子中我们使用默认的InputFormat，在初始化的时候被初始化为TextInputFormat，循环

lihm0_1·2013-11-14 18:00

hadoop作业调优参数整理及原理

原文地址：http://www.tbdata.org/archives/1470hadoop作业调优参数整理及原理1Mapsidetuning参数1.1MapTask运行内部原理当maptask开始运算

lihm0_1·2013-11-12 14:00

MAP TASK内存泄露

这几天于遇到一个略诡异的CASE：线上报警一个MRJob的一个MAPTASK使用的物理内存过大，仔细一看超过了Xmx=1.3GB，而物理内存消耗到1.7GB，第一反应是不是遇到JVM内存泄露了.先对MAPTASK

MIKE老毕·2013-11-12 02:55

MAP TASK内存泄露

这几天于遇到一个略诡异的CASE：线上报警一个MRJob的一个MAPTASK使用的物理内存过大，仔细一看超过了Xmx=1.3GB，而物理内存消耗到1.7GB，第一反应是不是遇到JVM内存泄露了.先对MAPTASK

MIKE老毕·2013-11-12 02:55

推荐频道

MapTask

Hadoop中的DistributedCache

利用Hadoop和opencv进行处理视频的原理

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

[置顶] Map/Reduce Task 远程调试详解

Hadoop中Mapper类的setup（）函数在什么地方调用

新旧版本FileInputFormat获得输入分片的不同

hadoop-mapreduce中maptask运行分析

hadoop-mapreduce中maptask运行分析

hadoop作业调优参数整理及原理

hadoop作业调优参数整理及原理

yarn oom问题一例

yarn oom问题一例

hadoop作业调优参数整理及原理

Win7+Eclipse+Hadoop 运行WordCount报错：java.lang.OutOfMemoryError: Java heap space

MapReduce源码分析之架构分析1

MapReduce源码分析之架构分析1

hadoop 作业调优参数整理及原理

Hadoop MapTask/ReduceTask各阶段耗费时间的测试

MapReduce源码分析之InputSplit分析

MapReduce源码分析之InputSplit分析

Hadoop学习三十五：Hadoop-MapReduce MapTask and ReduceTask

Hadoop学习三十五：Hadoop-MapReduce MapTask and ReduceTask

Hadoop学习三十五：Hadoop-MapReduce MapTask and ReduceTask

Hadoop MapReduce两种常见的容错场景分析

hadoop maptask

hadoop作业调优参数整理及原理

hadoop调优

map的collect和spill过程解析

Hadoop中的Shuffle(17)

[Hadoop源码解读]（六）MapReduce篇之MapTask类

Hadoop中Mapper类的setup（）函数在什么地方调用

Hadoop中maptask数量的决定因素

MapReduce实例——ChainMapper的使用

hadoop-ID分析

hadoop作业分片处理以及任务本地性分析（源码分析第一篇）

hadoop作业分片处理以及任务本地性分析（源码分析第一篇）

Hadoop map task中Partitioner执行时机

Hadoop二次排序关键点和出现时机（也叫辅助排序、Secondary Sort）

hadoop作业调优参数整理及原理

hive在实际运行压缩模式中出现的问题

Task运行过程分析

Hadoop MapReduce之MapTask任务执行（四）

Hadoop 故障：java.lang.OutOfMemoryError: Java heap space

[Hadoop源码解读]（六）MapReduce篇之MapTask类<转>

Hadoop MapReduce之MapTask任务执行（三）

Hadoop MapReduce Task Log 无法查看syslog问题

Hadoop MapReduce之MapTask任务执行（二）

hadoop作业调优参数整理及原理

MAP TASK内存泄露

MAP TASK内存泄露