模块一:Hadoop核心框架(四)----Apache Hadoop的重要组成部分

Hadopp=HDFS+MapReduce+Yarn+Common

1.Hadoop HDFS: 一个高可用、高吞吐量的分布式文件系统。

数据切割、制作副本、分散存储
模块一:Hadoop核心框架(四)----Apache Hadoop的重要组成部分_第1张图片
图中涉及到几个角色
NameNode(nn):存储文件的原数据,比如文件名、文件目录结构、文件属性(生产时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
SecondaryNameNode(2nn):辅助NameNode更好的工作,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS状态的辅助后台程序,每隔一段时间获取HDFS元素据快照。
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验
NN&&DN:既是角色名称也是进程名称,也代指电脑节点
HDFS:Master/slave

Master节点:管理和维护元数据,元数据记录了文件的块列表以及块所在的DataNode节点信息
slave:辅助存储文件数据块(DataNode)

注意:NN\2NN\DN这些既是角色名称、进程名称、也代指电脑节点

存入:对大数据拆分得到数据块由DataNode存储,可能得到多个数据块。
获取:向NameNode请求获取到之前存入文件的块以及块所在的DataNode的信息,分别下载并最后合并,就得到之前的文件

2.Hadoop MapReduce:一个分布式的离线并行计算框架

拆解任务、分散处理、汇整结果
MapReduce计算=Map阶段+Reduce阶段
Map阶段就是分的阶段,并行处理输入数据;
Reduce阶段就是"合"的阶段,对Map阶段结果进行汇总;
模块一:Hadoop核心框架(四)----Apache Hadoop的重要组成部分_第2张图片

3.Hadoop Yarn:作业调度与集群资源管理的框架

计算资源协调
模块一:Hadoop核心框架(四)----Apache Hadoop的重要组成部分_第3张图片
主节点 Master:Resource Manager
从节点 Slave: NodeManager

ResourceManager(rm):处理客户端请求、启动/监控ApplicaitonMaster、监控NodeManager、资源分配与调度;
NodeManager(nm):点个节点上的资源管理、处理来自ResouceManager的命令、处理来自ApplicationMaster的命令;
ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。

MR任务的实际运行是需要调度执行的。

4.Hadoop Common:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)

你可能感兴趣的:(大数据)