E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MapTask
Hadoop MapReduce 任务执行流程源代码详细解析
Heartbeat3.4JobTracker接收Heartbeat并向TaskTracker分配任务3.5TaskTracker接收HeartbeatResponse3.6MapReduce任务的运行3.6.1
MapTask
caodaoxi
·
2012-12-30 16:00
mapreduce
Hadoop中shuffle阶段流程分析
对于Mapphase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reducephase,同样包含四个子阶段:从各个
maptask
上读相应的数据
caodaoxi
·
2012-12-30 16:00
shuffle
运行MapReduce的时候OOM
出错如下:java.lang.OutOfMemoryError:Javaheapspaceatorg.apache.hadoop.mapred.
MapTask
$MapOutputBuffer.
吐槽达达仔
·
2012-12-13 23:48
Hadoop
运行MapReduce的时候OOM
出错如下: java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.mapred.
MapTask
$MapOutputBuffer
dacoolbaby
·
2012-12-13 23:00
hadoop
oom
reduce task 数量
wiki.apache.org/hadoop/HowManyMapsAndReduces)对这个问题有较详细的解释,大致有以下几个观点:增加task的数量,一方面增加了系统的开销,另一方面增加了负载平衡和减小了任务失败的代价;
maptask
shuhuai007
·
2012-10-31 22:00
Hadoop中shuffle阶段流程分析
对于Mapphase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reducephase,同样包含四个子阶段:从各个
maptask
上读相应的数据
xrzs
·
2012-10-29 21:00
Map/reduce 输出格式化
查看原文在运行
mapTask
或者reduceTask,输出的结果可能需要进行格式化才能满足我们的需求.hadoop提供了OutputFormat供我们转换使用。
azhao_dn
·
2012-10-15 16:00
hadoop
null
Integer
input
encoding
newline
[Hadoop源码解读](六)MapReduce篇之
MapTask
类
MapTask
类继承于Task类,它最主要的方法就是run(),用来执行这个Map任务。
posa88
·
2012-09-08 01:00
mapreduce
hadoop
api
input
Constructor
output
[Hadoop源码解读](六)MapReduce篇之
MapTask
类
MapTask
类继承于Task类,它最主要的方法就是run(),用来执行这个Map任务。
cloudtech
·
2012-09-08 01:00
mapreduce
Hadoop 任务流程
简单的来说分为四个阶段:InputFormat/
MapTask
/Shuffle/ReduceTaskInputFormat: 输入文件 --> 转化 --> <
Genie13
·
2012-09-07 16:00
hadoop
任务流程
Hadoop如何计算map数和reduce数
Hadoop在运行一个mapreducejob之前,需要估算这个job的
maptask
数和reducetask数。
lpxuan151009
·
2012-09-03 14:00
mapreduce
JOIN
sql
hadoop
input
output
hadoop作业调优参数整理及原理
1 Mapsidetuning 参数1.1
MapTask
运行内部原理 当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
macyang
·
2012-09-01 14:00
[转发]hadoop作业调优参数整理及原理
转发:http://www.tbdata.org/archives/1470 1 Map side tuning参数 1.1
MapTask
运行内部原理 当map task开始运算,并产生中间数据时
marsorp
·
2012-06-04 14:00
hadoop
hadoop作业调优参数整理及原理
转载自:http://www.oschina.net/question/12_154591Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘
you12345678901234567
·
2012-05-31 15:00
hadoop
Stream
buffer
merge
作业
磁盘
hadoop作业调优参数整理及原理
转自:http://www.tbdata.org/archives/1470 hadoop作业调优参数整理及原理1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,
ZHB_McCoy
·
2012-05-24 13:00
hadoop
Hadoop MapReduce Job性能调优——修改Map和Reduce个数
maptask
的数量即mapred.map.tasks的参数值,用户不能直接设置这个参数。InputSplit的大小,决定了一个Job拥有多少个map。
chenwq1988
·
2012-05-20 23:14
Hadoop
MapReduce
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
zhangll98
·
2012-05-15 08:00
hadoop
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
xiaoping8411
·
2012-05-15 08:00
hadoop
Stream
buffer
merge
作业
磁盘
设置hadoop Job允许map task失败的比例
hadoop任务分为
maptask
和reducetask,当
maptask
执行失败后会重试,超过重试次数(mapred.map.max.attempts指定,默认为4),整个job会失败,这是我们不想看到的
liuxincumt
·
2012-04-16 13:00
hadoop
任务
Hadoop之MapReduce任务的优化
1.任务调度 (1)计算方面:Hadoop总会优先将Task分配给空闲的机器,所有的人物能公平地分享系统资源 (2)I/O方面:Hadoop尽量将
mapTask
分配给InputSplit所在的机器,
VLTIC
·
2012-04-06 17:00
MR任务中默认counter意义
FileInputFormatCounters 这个group表示
maptask
读取文件内容(总输入数据)的统计 CounterMapReduceTotalFil
wf1982
·
2012-03-02 17:00
hadoop学习笔记(三)——
MapTask
和ReduceTask
MapTask
和ReduceTask 我们知道每一个Task都对应着一个jvm的执行,但是每一个Task都是在Child进程中执行的!
luliangy
·
2012-02-17 02:00
hadoop
ReduceTask
MapTask
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
andyxm
·
2012-02-02 18:00
hadoop作业调优参数整理及原理
一并转载过来http://www.tbdata.org/archives/1470/comment-page-1#comment-5341hadoop作业调优参数整理及原理1Mapsidetuning参数1.1
MapTask
wf1982
·
2012-01-14 11:00
hadoop
Stream
buffer
merge
作业
磁盘
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
Christophe2008
·
2012-01-12 16:00
hadoop
Stream
buffer
merge
作业
磁盘
Job的map任务分配
在前面的博文中,我介绍了Job的调度以及Job的任务分解,但对于Job的调度我只是从宏观的角度作了详细的说明,而关于JobInProgress具体是如何给TaskTracker分配本地
MapTask
xhh198781
·
2011-12-09 20:00
集群
任务
作业
hadoop map-reduce数据过程
对上一篇的补充,介绍map-reduce之间数据的流通,主要代码都在
MapTask
.java和ReduceTask.java两个文件中。
chenxinl
·
2011-10-24 00:00
hadoop
任务
merge
output
hadoop作业调优参数整理及原理
转自:http://www.tbdata.org/archives/1470/comment-page-1#comment-52921Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
hjwang1
·
2011-09-29 15:00
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
dy_252
·
2011-09-21 09:00
Hadoop集群参数配置原则
运行在每个TaskTracker上,用于处理
maptask
输出。大集群,可以将其设为40~50。dfs.replication 文件副本数
liuzhoulong
·
2011-08-28 21:00
hadoop debug 以及ReduceTask的部分分析
分析基于hadoop-0.19.2
MapTask
和ReduceTask的入口是 org.apache.hadoop.mapred.Child.main(String[] args){ } 传入的
bupt04406
·
2011-07-29 00:00
hadoop
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
jiedushi
·
2011-07-04 16:33
hadoop
职场
调优
休闲
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
jiedushi
·
2011-07-04 16:33
职场
休闲
hadoop
调优
hadoop
Hadoop性能调优(二)--Map and Reduce tasks 数量
wiki.apache.org/hadoop/HowManyMapsAndReduces)对这个问题有较详细的解释,大致有以下几个观点:增加task的数量,一方面增加了系统的开销,另一方面增加了负载平衡和减小了任务失败的代价;
maptask
npucloud
·
2011-05-18 15:00
Hadoop
Hadoop参数性能调优(二)--Map and Reduce tasks 数量
wiki.apache.org/hadoop/HowManyMapsAndReduces)对这个问题有较详细的解释,大致有以下几个观点:增加task的数量,一方面增加了系统的开销,另一方面增加了负载平衡和减小了任务失败的代价;
maptask
xiejava
·
2011-05-18 10:00
Hadoop
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
iteye_10679
·
2011-04-15 14:11
Hadoop
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
samuschen
·
2011-04-15 14:00
apache
mapreduce
多线程
数据结构
hadoop
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
starxu85
·
2011-02-27 23:00
hadoop
hadoop作业调优参数整理及原理
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
starxu85
·
2011-02-27 23:00
hadoop
优化
buffer
merge
作业
磁盘
hadoop作业调优参数整理及原理(1)
1Mapsidetuning参数1.1
MapTask
运行内部原理当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
cookey77
·
2011-02-09 16:39
hadoop
参数
原理
休闲
作业调优
Nutch1
nutch搏斗之一问题描述: 在用nutch1.0做generate包括5亿url的crawldb时,它默认按照64M分块,分成777个
maptask
,在运行的后期出现 CouldnotfindtaskTracker
rongrong0206
·
2010-12-20 23:00
java
String
null
url
360
任务
map的环形内存缓冲区
1、找到环形内存缓冲区在运行job时,有条输出:09/04/0712:34:35INFOmapred.
MapTask
:io.sort.mb=100上面的io.sort
yunsamzhang
·
2010-07-11 01:00
apache
mapreduce
hadoop
工作
Hadoop源代码分析(
MapTask
辅助类,III)
接下来讨论的是key,value的输出,这部分比较复杂,不过有了前面kvstart,kvend和kvindex配合的分析,有利于我们理解这部分的代码。输出缓冲区中,和kvstart,kvend和kvindex对应的是bufstart,bufend和bufmark。这部分还涉及到变量bufvoid,用于表明实际使用的缓冲区结尾(见后面BlockingBuffer.reset分析),和变量bufmar
caibinbupt
·
2009-06-05 16:00
hadoop
idea
Hadoop源代码分析(
MapTask
辅助类,II)
有了上面Mapper输出的内存存储结构和硬盘存储结构讨论,我们来仔细分析MapOutputBuffer的流程。首先是成员变量。最先初始化的是作业配置job和统计功能reporter。通过配置,MapOutputBuffer可以获取本地文件系统(localFs和rfs),Reducer的数目和Partitioner。SpillRecord是文件spill.out{spill号}.index在内存中的
caibinbupt
·
2009-06-04 23:00
thread
数据结构
工作
hadoop
Hadoop源代码分析(
MapTask
辅助类 I)
MapTask
的辅助类主要针对Mapper的输入和输出。首先我们来看
MapTask
中用的的Mapper输入,在类图中,这部分位于右上角。
caibinbupt
·
2009-06-03 23:00
数据结构
hadoop
Hadoop源代码分析(
MapTask
)
接下来我们来分析Task的两个子类,
MapTask
和ReduceTask。
MapTask
的相关类图如下:
MapTask
其实不是很复杂,复杂的是支持
MapTask
工作的一些辅助类。
caibinbupt
·
2009-05-29 09:00
apache
mapreduce
多线程
工作
hadoop
Hadoop源代码分析(类Task)
Task是一个虚基类,它有两个子类:
MapTask
,ReduceTask,分别对应着Map和Reduce。
caibinbupt
·
2009-05-25 15:00
apache
mapreduce
hadoop
框架
配置管理
Hadoop源代码分析(类TaskStatus)
Task是一个虚类,它有两个子类,
MapTask
和ReduceTask,分别是Map任务和Reduce任务的抽象。 在分析Task相关类之前,我们来分析和ID,JobID,TaskID相关的类。
caibinbupt
·
2009-03-10 17:00
mapreduce
hadoop
工作
Hadoop源代码分析(*IDs类和*Context类)
Task包括
MapTask
和ReduceTask,是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D
caibinbupt
·
2009-03-10 17:00
apache
mapreduce
hadoop
虚拟机
配置管理
MapReduce的一个子Task的启动过程
内部类是每一个运行的子task的main类2)TaskTracker的lauchTask是TaskTracker启动一个子Task的入口函数3)TaskTracker的lauchTask通过Task(
MapTask
VIV777
·
2008-08-28 19:00
java
mapreduce
log4j
shell
任务
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他