MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系

参考文档
yarn原理

一 Mapreduce Yarn Hdfs三者联系

(比喻有不恰当的地方,但更容易理解三者之间的关系)
Mapreduce,Yarn,Hdfs三者之间的关系,可以用电脑来进行解释。大体可以理解为:windows系统电脑上的一个视频播放软件(mapreduce),通过windows操作系统(yarn)找到存在电脑硬盘(hdfs)上的电影,然后视频播放器播放电影

  • Yarn 相当于电脑的操作系统,统管电脑的资源调配
  • Mapreduce相当于电脑上的一个应用程序,电脑上可以有很多应用程序
  • Hdfs相当于电脑的硬盘,存储文件
    Yarn,Mapreduce,Hdfs三者是解藕的,电脑必须要有操作系统,目前Yarn比较合适,电脑必须要有硬盘存储数据,目前一般用Hdfs;但是电脑可以有很多应用程序,所以Spark,Mapreduce,Kafka等都可以当作运行在Yarn系统上的应用程序。
    Yarn Mapreduece Hdfs 联系
    MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系_第1张图片
  • 1.mapreduce在客户端启动mapreduce application master(简称mam),mam
  • 2.mam想resourcemanager申请运算资源
  • 3.mam拿到运算资源后,遍历hdfs上的文件,然后规划启动多少个maptask和reducetask
  • 4.mam把mapreduce程序分发到各个节点
  • 5.各个节点利用nodemanager管理运算资源,各个节点启动container容器进行运算,即执行maptask,reduecetask

二 Mapreduce

2.1.Mapreduce介绍

Maprecude是一个分布式程序运算框架,是用户基于hadoop的数据分析应用的核心框架
Mapreduce: 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式程序,并运行在一个hadoop集群上
maprecude运行全流程
MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系_第2张图片

mapreduce原理
MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系_第3张图片
Maptask任务切片机制
MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系_第4张图片
mapreduce 的shuffle原理
MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系_第5张图片
Mapreduce Yarn 工作机制
MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系_第6张图片

你可能感兴趣的:(bigdata,Mapreduce,Yarn,hdfs)