E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MapTask
正确理解hadoop 2.x 的环形缓冲区: (一) MR环形缓冲区的结构
从这周开始,开始学习shuffle的整个过程,今天带来的是hadoop环形缓冲区的理解二.初始化mr环形缓冲区(
maptask
.MapOutputBuffer):hadoopd的环形缓冲区其实只是一个简单的
大数据交流官方群
·
2015-11-01 19:12
hadoop
mapreduce
源码
shuffle
hadoop
MapReduce的
MapTask
任务的运行源码级分析
Task分为两种类型:
MapTask
和ReduceTask
·
2015-11-01 12:13
mapreduce
MapReduce中TextInputFormat分片和读取分片数据源码级分析
即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能: (1)数据切分:按照某个策略将输入数据切分成若干个split,以便确定
MapTask
·
2015-11-01 09:58
mapreduce
MapReduce的ReduceTask任务的运行源码级分析
MapReduce的
MapTask
任务的运行源码级分析 这篇文章好不容易恢复了。。。谢天谢地。。。这篇文章讲了
MapTask
的执行流程。咱们这一节讲解ReduceTask的执行流程。
·
2015-11-01 09:57
mapreduce
hadoop中的recordreader和split以及block之间的关系
通常来讲,Inputformat会为没有一个split产生一个recordreader来提供给
maptask
使用,进而,
MapTask
能够读取属于自己管辖处理的那部分split。
水东流
·
2015-10-31 20:00
hadoop2.0 和1.0的区别
Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中,MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(
MapTask
·
2015-10-27 12:49
hadoop2
Hadoop如何计算map数和reduce数
reduce数 原地址:http://www.songyafei.cn/post/a0d5b_140a7cfHadoop在运行一个mapreducejob之前,需要估算这个job的
maptask
wangjin161
·
2015-10-15 14:00
MapReduce 从作业、任务(task)、管理员角度调优
Combiner可减少
MapTask
中间输出的结果,从而减少各个ReduceTask的远程拷贝数据量,最终表现为Ma
微笑丶
·
2015-10-14 00:00
mapreduce调优
hadoop操作系统调优
hadoop硬件调优
MapReduce 从作业、任务(task)、管理员角度调优
Combiner可减少
MapTask
中间输出的结果,从而减少各个ReduceTask的远程拷贝数据量,最终表现为MapTa
微笑丶
·
2015-10-14 00:00
mapreduce调优
hadoop操作系统调优
hadoop硬件调优
mapreduce-shuffling
(这样描述不是很准确)
MapTask
每个map任务都有一个环形内存缓冲区用于存储任务的输出.默认100MB(MRJobConfig.IO_SORT_MB修改)一旦缓冲达到阈值(MRJobConfig.MAP_SORT_SPILL_PERCENT
呆萌的我
·
2015-10-13 20:00
mapreduce
shuffle
shuffling
MapReduce(四):shuffer原理
每个
maptask
都有一个环状的内存缓冲区,存储着map的输出结果,默认100m,在写磁盘时,根据reduce的数量把数据划分为相应的分区,在每个分区中数据进行内排序。
u013360022
·
2015-09-18 20:00
shuffer
spark core源码分析12 spark缓存清理
http://blog.csdn.net/yueqian_zhu/spark缓存清理机制:MetadataCleaner对象中有一个定时器,用于清理下列的元数据信息:MAP_OUTPUT_TRACKER:
Maptask
yueqian_zhu
·
2015-09-02 18:00
源码
spark
spark
core
hadoop中shuffle详解(mapreduce)
后面我会具体描述Shuffle的事实情况,所以这里你只要清楚Shuffle的大致范围就成-怎样把
maptask
的输出结果有效地传送到reduce端。
suibianshen2012
·
2015-09-02 18:00
mapreduce
hadoop
shuffle
hadoop作业map过程调优使用到的参数笔记
参数:io.sort.mb(default100)当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
osenlin
·
2015-09-02 11:00
Hadoop与Spark常用配置参数总结
资源相关参数(1)mapreduce.map.memory.mb:一个
MapTask
可使用的资源上限(单位:MB),默认为1024。如果
MapTask
实际使用的资源量超过该值,则会被强
mlljava1111
·
2015-08-30 20:00
hadoop
优化
hadoop MapReduce - 从作业、任务(task)、管理员角度调优
Combiner可减少
MapTask
中间
baolibin528
·
2015-07-04 20:00
mapreduce
hadoop
-
从
Hive merge(小文件合并)
当Hive的输入由很多个小文件组成时,如果不涉及文件合并的话,那么每个小文件都会启动一个
maptask
。
Free World
·
2015-06-23 22:05
Hive merge(小文件合并)
当Hive的输入由很多个小文件组成时,如果不涉及文件合并的话,那么每个小文件都会启动一个
maptask
。
jiangshouzhuang
·
2015-06-23 22:00
Spark SQL中实现Hive MapJoin
在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用
MapTask
扫描大表的同时,完成join
superlxw1234
·
2015-06-23 08:00
sparksql
mapjoin
Spark SQL中实现Hive MapJoin
在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用
MapTask
扫描大表的同时,完成join
superlxw1234
·
2015-06-23 08:00
sparksql
mapjoin
Hadoop源代码分析(
MapTask
辅助类,III)
接下来讨论的是key,value的输出,这部分比较复杂,不过有了前面kvstart,kvend和kvindex配合的分析,有利于我们理解返部分的代码。输出缓冲区中,和kvstart,kvend和kvindex对应的是bufstart,bufend和bufmark。这部分还涉及到变量bufvoid,用与表明实际使用的缓冲区结尾(见后面BlockingBuffer.reset分析),和变量bufmar
超人学院66
·
2015-06-03 11:20
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类,III)
接下来讨论的是key,value的输出,这部分比较复杂,不过有了前面kvstart,kvend和kvindex配合的分析,有利于我们理解返部分的代码。输出缓冲区中,和kvstart,kvend和kvindex对应的是bufstart,bufend和bufmark。这部分还涉及到变量bufvoid,用与表明实际使用的缓冲区结尾(见后面BlockingBuffer.reset分析),和变量bufmar
超人学院66
·
2015-06-03 11:20
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类,III)
接下来讨论的是key,value的输出,这部分比较复杂,不过有了前面kvstart,kvend和kvindex配合的分析,有利于我们理解返部分的代码。输出缓冲区中,和kvstart,kvend和kvindex对应的是bufstart,bufend和bufmark。这部分还涉及到变量bufvoid,用与表明实际使用的缓冲区结尾(见后面BlockingBuffer.reset分析),和变量bufmar
超人学院
·
2015-06-03 11:00
hadoop
大数据
超人学院
Hadoop源代码分析(
MapTask
辅助类,II)
有了上面Mapper输出的内存存储结构和硬盘存储结构讨论,我们来仔细分析MapOutputBuffer的流程。首先是成员变量。最先初始化的是作业配置job和统计功能reporter。通过配置,MapOutputBuffer可以获取本地文件系统(localFs和rfs),Reducer的数目和Partitioner。SpillRecord是文件spill.out{spill号}.index在内存中的
超人学院
·
2015-06-02 18:00
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类 I)
Hadoop源代码分析(
MapTask
辅助类I)
MapTask
的辅劣类主要针对Mapper的输入和输出。首先我们来看
MapTask
中用的的Mapper输入,在类图中,返部分位于右上角。
超人学院66
·
2015-06-01 17:51
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类 I)
Hadoop源代码分析(
MapTask
辅助类I)
MapTask
的辅劣类主要针对Mapper的输入和输出。首先我们来看
MapTask
中用的的Mapper输入,在类图中,返部分位于右上角。
超人学院66
·
2015-06-01 17:51
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类 I)
Hadoop源代码分析(
MapTask
辅助类I)
MapTask
的辅劣类主要针对Mapper的输入和输出。首先我们来看
MapTask
中用的的Mapper输入,在类图中,返部分位于右上角。
超人学院
·
2015-06-01 16:00
hadoop
超人学院
Hadoop源代码分析(*IDs类和*Context类)
Task包括
MapTask
和ReduceTask,是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D
超人学院
·
2015-05-26 11:00
hadoop
超人学院
Hadoop源代码分析(*IDs类和*Context类)
Task包括
MapTask
和ReduceTask,是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D
超人学院66
·
2015-05-26 10:03
hadoop
源代码分析
超人学院
Hadoop源代码分析(*IDs类和*Context类)
Task包括
MapTask
和ReduceTask,是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D
超人学院66
·
2015-05-26 10:03
hadoop
源代码分析
超人学院
Combine过程的作用
在Reduce过程前进行数据预处理,提升Reduce过程的性能它是本地化的过程,即跟
MapTask
运行在同一个机子上一个典型的例子:统计文件中单词出现次数:一个文件中有很多单词,需要统计每个单词的出现次数
DSLZTX
·
2015-05-22 16:00
MapReduce中Map Task和Reduce Task的数量
一、
MapTask
的数量一般通过Fileblocksize来控制,Filetotalsize/Fileblocksize的值一般就是
MapTask
的数量二、ReduceTask的数量可通过配置参数进行精确控制
AllInCode
·
2015-05-22 16:56
大数据
MapReduce中Map Task和Reduce Task的数量
一、
MapTask
的数量一般通过Fileblocksize来控制,Filetotalsize/Fileblocksize的值一般就是
MapTask
的数量二、ReduceTask的数量可通过配置参数进行精确控制
DSLZTX
·
2015-05-22 16:00
Hadoop源代码分析(
MapTask
)
接下来我们来分析Task的两个子类,
MapTask
和ReduceTask。
MapTask
的相关类图如下:
MapTask
其实不是很复杂,复杂的是支持
MapTask
工作的一些辅助类。
超人学院
·
2015-05-21 14:00
hadoop
超人学院
Hadoop源代码分析(
MapTask
)
接下来我们来分析Task的两个子类,
MapTask
和ReduceTask。
MapTask
的相关类图如下:
MapTask
其实不是很复杂,复杂的是支持
MapTask
工作的一些辅助类。
超人学院66
·
2015-05-21 11:00
hadoop
map
task
超人学院
Hadoop源代码分析(
MapTask
)
接下来我们来分析Task的两个子类,
MapTask
和ReduceTask。
MapTask
的相关类图如下:
MapTask
其实不是很复杂,复杂的是支持
MapTask
工作的一些辅助类。
超人学院66
·
2015-05-21 11:00
hadoop
map
task
超人学院
Hadoop源代码分析(
MapTask
)
接下来我们来分析Task的两个子类,
MapTask
和ReduceTask。
MapTask
的相关类图如下:
MapTask
其实不是很复杂,复杂的是支持
MapTask
工作的一些辅助类。
超人学院66
·
2015-05-21 11:00
Hadoop
map
task
超人学院
两个Mapper初始化输出类错误的心得:Unable to initialize any output collector
结果接连两次都出现了同样的一个错误:Error:java.io.IOException:Unabletoinitializeanyoutputcollectoratorg.apache.hadoop.mapred.
MapTask
.createSortingCollector
infovisthinker
·
2015-04-20 17:13
大数据
hadoop
mapreduce
编程
IOExeption
Hadoop深入学习:
MapTask
详解
我们主要来学习
MapTask
的内部实现。
李超100
·
2015-04-03 15:00
MapTask详解
mapreduce的shuffle,partition,combine
shuffle: 是描述着数据从map端传输到reduce端的过程,而且我们知道的是hadoop的集群环境中,大部分
maptask
和reducetask是在不同的node上执行,主要的开销是网络开销和磁盘
liuxiao723846
·
2015-03-20 17:00
mapreduce
partition
shuffle
combine
MapReduce源码分析之InputSplit分析
什么是InputSplit InputSplit是指分片,在MapReduce当中作业中,作为
maptask
最小输入单位。
baolibin528
·
2015-03-16 14:00
hadoop MapReduce - 从作业、任务(task)、管理员角度调优
Combiner可减少
MapTask
中间输出的结果,从而减少各个ReduceTask的远程拷贝数据量,最终表现为
MapTask
和Redu
nysyxxg
·
2015-03-15 15:00
Storm实时计算:流操作入门编程实践
TopologyStorm中Topology的概念类似于Hadoop中的MapReduceJob,是一个用来编排、容纳一组计算逻辑组件(Spout、Bolt)的对象(HadoopMapReduce中一个Job包含一组
MapTask
抓哇小王子
·
2015-03-13 09:06
大数据
hadoop1.0和hadoop2.0的区别
Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中,MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(
MapTask
zhangxiong0301
·
2015-03-10 14:00
hadoop
【Spark六十三】Hadoop MapReduce Task的进程模型与Spark Task的线程模型
Hadoop的MapReduce的
MapTask
和ReduceTask都是进程级别的;而SparkTask则是基于线程模型的。
bit1129
·
2015-02-15 18:00
mapreduce
【Spark六十三】Hadoop MapReduce Task的进程模型与Spark Task的线程模型
Hadoop的MapReduce的
MapTask
和ReduceTask都是进程级别的;而SparkTask则是基于线程模型的。
bit1129
·
2015-02-15 18:00
mapreduce
Hadoop CombineFileInputFormat实现原理及源码分析
这里的小文件通常指文件大小显著小于HDFSBlockSize的文件),其主要原因是因为FileInputFormat在为这些小文件生成切片的时候,会为每一个小文件生成一个切片,如果小文件数目众多,会导致大量的
MapTask
demigelemiao
·
2015-02-09 21:00
【Spark三十三】Spark Sort based Shuffle
1.N个partition,会产生N个
MapTask
,如果不指定ReduceTask的个数,那么默认情况下,ReduceTask个数也为N2.N个partition,即N个
MapTask
,同时有N个ReduceTask
bit1129
·
2015-01-29 21:00
【Spark三十三】Spark Sort based Shuffle
N个partition,会产生N个
MapTask
,如果不指定ReduceTask的个数,那么默认情况下,ReduceTask个数也为N 2.
bit1129
·
2015-01-29 21:00
shuffle
Hadoop中的NLineInputFormat
也就是说,TextInputFormat当一行很长或分片很小时,获取的分片很可能只包含很少的K-V对,这样一个
MapTask
处理的K-V对就很少,这是不太理想的。
lzm1340458776
·
2015-01-15 20:00
hadooop
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他