MapTask 第15页

正确理解hadoop 2.x 的环形缓冲区: (一) MR环形缓冲区的结构

从这周开始,开始学习shuffle的整个过程,今天带来的是hadoop环形缓冲区的理解二.初始化mr环形缓冲区(maptask.MapOutputBuffer):hadoopd的环形缓冲区其实只是一个简单的

大数据交流官方群·2015-11-01 19:12

MapReduce的MapTask任务的运行源码级分析

Task分为两种类型：MapTask和ReduceTask

·2015-11-01 12:13

MapReduce中TextInputFormat分片和读取分片数据源码级分析

即org.apache.hadoop.mapreduce.lib.input.InputFormat)，提供以下两个功能：　　(1)数据切分：按照某个策略将输入数据切分成若干个split，以便确定MapTask

·2015-11-01 09:58

MapReduce的ReduceTask任务的运行源码级分析

　　MapReduce的MapTask任务的运行源码级分析这篇文章好不容易恢复了。。。谢天谢地。。。这篇文章讲了MapTask的执行流程。咱们这一节讲解ReduceTask的执行流程。

·2015-11-01 09:57

hadoop中的recordreader和split以及block之间的关系

通常来讲，Inputformat会为没有一个split产生一个recordreader来提供给maptask使用，进而，MapTask能够读取属于自己管辖处理的那部分split。

水东流·2015-10-31 20:00

hadoop2.0 和1.0的区别

Hadoop，内核主要由HDFS和MapReduce两个系统组成，其中，MapReduce是一个离线处理框架，由编程模型（新旧API）、运行时环境（JobTracker和TaskTracker）和数据处理引擎（MapTask

·2015-10-27 12:49

Hadoop如何计算map数和reduce数

reduce数原地址：http://www.songyafei.cn/post/a0d5b_140a7cfHadoop在运行一个mapreducejob之前，需要估算这个job的maptask

wangjin161·2015-10-15 14:00

MapReduce 从作业、任务（task）、管理员角度调优

Combiner可减少MapTask中间输出的结果，从而减少各个ReduceTask的远程拷贝数据量，最终表现为Ma

微笑丶·2015-10-14 00:00

MapReduce 从作业、任务（task）、管理员角度调优

Combiner可减少MapTask中间输出的结果，从而减少各个ReduceTask的远程拷贝数据量，最终表现为MapTa

微笑丶·2015-10-14 00:00

mapreduce-shuffling

(这样描述不是很准确) MapTask每个map任务都有一个环形内存缓冲区用于存储任务的输出.默认100MB(MRJobConfig.IO_SORT_MB修改)一旦缓冲达到阈值(MRJobConfig.MAP_SORT_SPILL_PERCENT

呆萌的我·2015-10-13 20:00

MapReduce(四)：shuffer原理

每个maptask都有一个环状的内存缓冲区，存储着map的输出结果，默认100m，在写磁盘时，根据reduce的数量把数据划分为相应的分区，在每个分区中数据进行内排序。

u013360022·2015-09-18 20:00

spark core源码分析12 spark缓存清理

http://blog.csdn.net/yueqian_zhu/spark缓存清理机制：MetadataCleaner对象中有一个定时器，用于清理下列的元数据信息：MAP_OUTPUT_TRACKER：Maptask

yueqian_zhu·2015-09-02 18:00

hadoop中shuffle详解（mapreduce）

后面我会具体描述Shuffle的事实情况，所以这里你只要清楚Shuffle的大致范围就成－怎样把maptask的输出结果有效地传送到reduce端。

suibianshen2012·2015-09-02 18:00

hadoop作业map过程调优使用到的参数笔记

参数：io.sort.mb（default100）当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。

osenlin·2015-09-02 11:00

Hadoop与Spark常用配置参数总结

mlljava1111·2015-08-30 20:00

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

Combiner可减少MapTask中间

baolibin528·2015-07-04 20:00

Hive merge（小文件合并）

当Hive的输入由很多个小文件组成时，如果不涉及文件合并的话，那么每个小文件都会启动一个maptask。

Free World·2015-06-23 22:05

Hive merge（小文件合并）

当Hive的输入由很多个小文件组成时，如果不涉及文件合并的话，那么每个小文件都会启动一个maptask。

jiangshouzhuang·2015-06-23 22:00

Spark SQL中实现Hive MapJoin

在Hive中，如果一个很大的表和一个小表做join，Hive可以自动或者手动使用MapJoin，将小表的数据加载到DistributeCache中，从而在使用MapTask扫描大表的同时，完成join

superlxw1234·2015-06-23 08:00

Spark SQL中实现Hive MapJoin

在Hive中，如果一个很大的表和一个小表做join，Hive可以自动或者手动使用MapJoin，将小表的数据加载到DistributeCache中，从而在使用MapTask扫描大表的同时，完成join

superlxw1234·2015-06-23 08:00

Hadoop源代码分析（MapTask辅助类，III）

接下来讨论的是key，value的输出，这部分比较复杂，不过有了前面kvstart，kvend和kvindex配合的分析，有利于我们理解返部分的代码。输出缓冲区中，和kvstart，kvend和kvindex对应的是bufstart，bufend和bufmark。这部分还涉及到变量bufvoid，用与表明实际使用的缓冲区结尾（见后面BlockingBuffer.reset分析），和变量bufmar

超人学院66·2015-06-03 11:20

Hadoop源代码分析（MapTask辅助类，III）

接下来讨论的是key，value的输出，这部分比较复杂，不过有了前面kvstart，kvend和kvindex配合的分析，有利于我们理解返部分的代码。输出缓冲区中，和kvstart，kvend和kvindex对应的是bufstart，bufend和bufmark。这部分还涉及到变量bufvoid，用与表明实际使用的缓冲区结尾（见后面BlockingBuffer.reset分析），和变量bufmar

超人学院66·2015-06-03 11:20

Hadoop源代码分析（MapTask辅助类，III）

接下来讨论的是key，value的输出，这部分比较复杂，不过有了前面kvstart，kvend和kvindex配合的分析，有利于我们理解返部分的代码。输出缓冲区中，和kvstart，kvend和kvindex对应的是bufstart，bufend和bufmark。这部分还涉及到变量bufvoid，用与表明实际使用的缓冲区结尾（见后面BlockingBuffer.reset分析），和变量bufmar

超人学院·2015-06-03 11:00

Hadoop源代码分析（MapTask辅助类，II）

有了上面Mapper输出的内存存储结构和硬盘存储结构讨论，我们来仔细分析MapOutputBuffer的流程。首先是成员变量。最先初始化的是作业配置job和统计功能reporter。通过配置，MapOutputBuffer可以获取本地文件系统（localFs和rfs），Reducer的数目和Partitioner。SpillRecord是文件spill.out{spill号}.index在内存中的

超人学院·2015-06-02 18:00

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类I）MapTask的辅劣类主要针对Mapper的输入和输出。首先我们来看MapTask中用的的Mapper输入，在类图中，返部分位于右上角。

超人学院66·2015-06-01 17:51

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类I）MapTask的辅劣类主要针对Mapper的输入和输出。首先我们来看MapTask中用的的Mapper输入，在类图中，返部分位于右上角。

超人学院66·2015-06-01 17:51

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类I）MapTask的辅劣类主要针对Mapper的输入和输出。首先我们来看MapTask中用的的Mapper输入，在类图中，返部分位于右上角。

超人学院·2015-06-01 16:00

Hadoop源代码分析（IDs类和Context类）

Task包括MapTask和ReduceTask，是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D

超人学院·2015-05-26 11:00

Hadoop源代码分析（IDs类和Context类）

Task包括MapTask和ReduceTask，是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D

超人学院66·2015-05-26 10:03

Hadoop源代码分析（IDs类和Context类）

Task包括MapTask和ReduceTask，是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D

超人学院66·2015-05-26 10:03

Combine过程的作用

在Reduce过程前进行数据预处理，提升Reduce过程的性能它是本地化的过程，即跟MapTask运行在同一个机子上一个典型的例子：统计文件中单词出现次数：一个文件中有很多单词，需要统计每个单词的出现次数

DSLZTX·2015-05-22 16:00

MapReduce中Map Task和Reduce Task的数量

一、MapTask的数量一般通过Fileblocksize来控制，Filetotalsize/Fileblocksize的值一般就是MapTask的数量二、ReduceTask的数量可通过配置参数进行精确控制

AllInCode·2015-05-22 16:56

MapReduce中Map Task和Reduce Task的数量

一、MapTask的数量一般通过Fileblocksize来控制，Filetotalsize/Fileblocksize的值一般就是MapTask的数量二、ReduceTask的数量可通过配置参数进行精确控制

DSLZTX·2015-05-22 16:00

Hadoop源代码分析（MapTask）

接下来我们来分析Task的两个子类，MapTask和ReduceTask。MapTask的相关类图如下： MapTask其实不是很复杂，复杂的是支持MapTask工作的一些辅助类。

超人学院·2015-05-21 14:00

Hadoop源代码分析（MapTask）

接下来我们来分析Task的两个子类，MapTask和ReduceTask。MapTask的相关类图如下： MapTask其实不是很复杂，复杂的是支持MapTask工作的一些辅助类。

超人学院66·2015-05-21 11:00

Hadoop源代码分析（MapTask）

接下来我们来分析Task的两个子类，MapTask和ReduceTask。MapTask的相关类图如下： MapTask其实不是很复杂，复杂的是支持MapTask工作的一些辅助类。

超人学院66·2015-05-21 11:00

Hadoop源代码分析（MapTask）

接下来我们来分析Task的两个子类，MapTask和ReduceTask。MapTask的相关类图如下：MapTask其实不是很复杂，复杂的是支持MapTask工作的一些辅助类。

超人学院66·2015-05-21 11:00

两个Mapper初始化输出类错误的心得：Unable to initialize any output collector

结果接连两次都出现了同样的一个错误：Error:java.io.IOException:Unabletoinitializeanyoutputcollectoratorg.apache.hadoop.mapred.MapTask.createSortingCollector

infovisthinker·2015-04-20 17:13

Hadoop深入学习：MapTask详解

我们主要来学习MapTask的内部实现。

李超100·2015-04-03 15:00

mapreduce的shuffle，partition，combine

shuffle：是描述着数据从map端传输到reduce端的过程，而且我们知道的是hadoop的集群环境中，大部分maptask和reducetask是在不同的node上执行，主要的开销是网络开销和磁盘

liuxiao723846·2015-03-20 17:00

MapReduce源码分析之InputSplit分析

什么是InputSplit InputSplit是指分片，在MapReduce当中作业中，作为maptask最小输入单位。

baolibin528·2015-03-16 14:00

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

Combiner可减少MapTask中间输出的结果，从而减少各个ReduceTask的远程拷贝数据量，最终表现为MapTask和Redu

nysyxxg·2015-03-15 15:00

Storm实时计算：流操作入门编程实践

TopologyStorm中Topology的概念类似于Hadoop中的MapReduceJob，是一个用来编排、容纳一组计算逻辑组件（Spout、Bolt）的对象（HadoopMapReduce中一个Job包含一组MapTask

抓哇小王子·2015-03-13 09:06

hadoop1.0和hadoop2.0的区别

Hadoop，内核主要由HDFS和MapReduce两个系统组成，其中，MapReduce是一个离线处理框架，由编程模型（新旧API）、运行时环境（JobTracker和TaskTracker）和数据处理引擎（MapTask

zhangxiong0301·2015-03-10 14:00

【Spark六十三】Hadoop MapReduce Task的进程模型与Spark Task的线程模型

Hadoop的MapReduce的MapTask和ReduceTask都是进程级别的；而SparkTask则是基于线程模型的。

bit1129·2015-02-15 18:00

【Spark六十三】Hadoop MapReduce Task的进程模型与Spark Task的线程模型

Hadoop的MapReduce的MapTask和ReduceTask都是进程级别的；而SparkTask则是基于线程模型的。

bit1129·2015-02-15 18:00

Hadoop CombineFileInputFormat实现原理及源码分析

这里的小文件通常指文件大小显著小于HDFSBlockSize的文件），其主要原因是因为FileInputFormat在为这些小文件生成切片的时候，会为每一个小文件生成一个切片，如果小文件数目众多，会导致大量的MapTask

demigelemiao·2015-02-09 21:00

【Spark三十三】Spark Sort based Shuffle

1.N个partition，会产生N个MapTask，如果不指定ReduceTask的个数，那么默认情况下，ReduceTask个数也为N2.N个partition，即N个MapTask，同时有N个ReduceTask

bit1129·2015-01-29 21:00

【Spark三十三】Spark Sort based Shuffle

N个partition，会产生N个MapTask，如果不指定ReduceTask的个数，那么默认情况下，ReduceTask个数也为N 2.

bit1129·2015-01-29 21:00

Hadoop中的NLineInputFormat

也就是说，TextInputFormat当一行很长或分片很小时，获取的分片很可能只包含很少的K-V对，这样一个MapTask处理的K-V对就很少，这是不太理想的。

lzm1340458776·2015-01-15 20:00

推荐频道

MapTask

正确理解hadoop 2.x 的环形缓冲区: (一) MR环形缓冲区的结构

MapReduce的MapTask任务的运行源码级分析

MapReduce中TextInputFormat分片和读取分片数据源码级分析

MapReduce的ReduceTask任务的运行源码级分析

hadoop中的recordreader和split以及block之间的关系

hadoop2.0 和1.0的区别

Hadoop如何计算map数和reduce数

MapReduce 从作业、任务（task）、管理员角度调优

MapReduce 从作业、任务（task）、管理员角度调优

mapreduce-shuffling

MapReduce(四)：shuffer原理

spark core源码分析12 spark缓存清理

hadoop中shuffle详解（mapreduce）

hadoop作业map过程调优使用到的参数笔记

Hadoop与Spark常用配置参数总结

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

Hive merge（小文件合并）

Hive merge（小文件合并）

Spark SQL中实现Hive MapJoin

Spark SQL中实现Hive MapJoin

Hadoop源代码分析（MapTask辅助类，III）

Hadoop源代码分析（MapTask辅助类，III）

Hadoop源代码分析（MapTask辅助类，III）

Hadoop源代码分析（MapTask辅助类，II）

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（*IDs类和*Context类）

Hadoop源代码分析（*IDs类和*Context类）

Hadoop源代码分析（*IDs类和*Context类）

Combine过程的作用

MapReduce中Map Task和Reduce Task的数量

MapReduce中Map Task和Reduce Task的数量

Hadoop源代码分析（MapTask）

Hadoop源代码分析（MapTask）

Hadoop源代码分析（MapTask）

Hadoop源代码分析（MapTask）

两个Mapper初始化输出类错误的心得：Unable to initialize any output collector

Hadoop深入学习：MapTask详解

mapreduce的shuffle，partition，combine

MapReduce源码分析之InputSplit分析

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

Storm实时计算：流操作入门编程实践

hadoop1.0和hadoop2.0的区别

【Spark六十三】Hadoop MapReduce Task的进程模型与Spark Task的线程模型

【Spark六十三】Hadoop MapReduce Task的进程模型与Spark Task的线程模型

Hadoop CombineFileInputFormat实现原理及源码分析

【Spark三十三】Spark Sort based Shuffle

【Spark三十三】Spark Sort based Shuffle

Hadoop中的NLineInputFormat

Hadoop源代码分析（IDs类和Context类）

Hadoop源代码分析（IDs类和Context类）

Hadoop源代码分析（IDs类和Context类）