MapReduce个人学习之路——Five

1.MapReduce

1.1工作流程

MapReduce个人学习之路——Five_第1张图片
MapReduce运行机制
MapReduce个人学习之路——Five_第2张图片
MapReduce框架的组成

按照时间顺序包括:
输入分片(input split)、
map阶段、
combiner阶段、
shuffle阶段
和 reduce阶段。

①输入分片阶段
 在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务 输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组,输入分片(input split)往往和hdfs的block(块)关系很密切。

②map阶段
 程序员编写好的map函数了,因此map函数效率相对好控制,而且一般map操作都是本地化操作也就是在数据存储节点上进行。

③Combiner阶段
 是一个本地化的reduce操作,它是map运算的后续操作,主要是在map计算出中间文件前做一个简单的合并重复key值的操作。
 例如我们对文件里的单词频率做统计,map计算时候如果碰到一个hadoop的单词就会记录为1,但是这篇文章里hadoop可能会出现n多次,那么map输出文件冗余就会很多,因此在reduce计算前对相同的key做一个合并操作,那么文件会变小,这样就提高了宽带的传输效率,毕竟hadoop计算力宽带资源往往是计算的瓶颈也是最为宝贵的资源,但是combiner操作是有风险的,使用它的原则是combiner的输入不会影响到reduce计算的最终输入。

④shuffle阶段
 将map的输出作为reduce的输入的过程就是shuffle了。

⑤reduce阶段
 和map函数一样也是程序员编写的,最终结果是存储在hdfs上的。


1.2参数意义

map的方法
 public void map(Object key, Text value, Context context) throws IOException, InterruptedException {…} 这里有三个参数, 前面两个Object key, Text value就是输入的key和value, 第三个参数Context context这是可以记录输入的key和value。

reduce函数的方法
 public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {…} reduce函数的输入也是一个key/value的形式, 不过它的value是一个迭代器的形式Iterable values, 也就是说reduce的输入是一个key对应一组的值的value,reduce也有context和map的context作用一致。

2.FileInputFormat

 FileInputFormat和FileOutputFormat可以设置输入输出文件路径,mapreduce计算时候,输入文件必须存在,要不直Mr任务直接退出。输出一般是一个文件夹,而且该文件夹不能存在。

3.InputSplit

 InputSplit是在map端,在InputSplit中含有DataNode中的数据,每一个InputSplit都会分配一个Mapper任务,Mapper任务结束后产生的输出,这些输出先存放在缓存中,每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spil l.percent),一个后台线程就把内容写到(spill)Linux本地磁盘中的指定目录(mapred.local.dir)下的新建的一个溢出写文件。

4.sort去重算法

①Map

MapReduce个人学习之路——Five_第3张图片
Map

②Reduce


MapReduce个人学习之路——Five_第4张图片
Reduce

你可能感兴趣的:(MapReduce个人学习之路——Five)