Hadoop的简单概述以及架构

Hadoop的简单概述以及架构

1、hadoop概述:hadoop是一个适合海量数据分布式存储和分布式计算的平台。
2、hadoop是一个统称,hadoop主要包含三大组件:
(1)hdfs:是一个分布式存储框架,适合海量数据存储
(2)mapreduce:是一个分布式计算框架,适合海量数据计算

(3)yarn:是一个资源调度平台,负责给计算机框架分配计算资源

一、hdfs架构分析

​ 1、负责数据的分布式存储

​ 2、主从结构:主节点 namenode 从节点 datanode

​ 3、namenode负责:接收用户的操作请求,是用户操作的入口

​ 维护文件系统的目录结构,称为命名空间

​ 4、datenode负责:存储数据

二、yarn架构分析

​ 1、资源的调度和管理平台

​ 2、主从结构:主节点:ResourceManger 从节点:NodeManger

​ 3、ResourcManger负责:集群资源的分配和调度,MapReduce、Storm、Spark等应用,必须实现

​ Application接口才能被RM管理

​ 4、NodeManger负责:单节点资源的管理(cpu+内存)

三、mapreduce架构分析

​ 1、依赖磁盘io的批量处理计算模型

​ 2、主从结构 :主节点:MRAppMaster 从节点 :task

​ 3、MRAppMaster负责:接收客户端提交的计算任务

 把计算任务分给NodeManager的Container中执行,即任务调度
   Container是YARN中资源的抽象,它封装了某个节点上一定量的资源(CPU和内存两类资源)
   Container由ApplicationMaster向ResourceManager申请的,由ResouceManager中的资源调度器异步        		分配给ApplicationMaster
   Container的运行是由ApplicationMaster向资源所在的NodeManager发起的
	监控Container中Task的执行情况

​ 4、Task负责:处理数据

3、hadoop特点

1、扩容能力:能可靠的存储和处理pb级别的数据,如果数据量更大,增加节点就可以了
2、成本低:可以通过普通机器组成的服务器集群来分发和处理数据,这些服务器的节点可 以达到上千个
3、高效率:通过分发计算程序,hadoop可以在数据所在的节点上(本地)并行的处理他 们,这使得处理非常的迅速
4、可靠性:hadoop能够自动的维护数据的多份副本,并且在任务失败后能够自动的重新 部署计算任务

你可能感兴趣的:(hadoop)