什么是Hadoop以及Hadoop集群

一、简单理解

Hadoop是一个大象:
什么是Hadoop以及Hadoop集群_第1张图片

一个hadoop集群主要包含三个主要的模块:Mapreduce,hdfs,yarn。mapreduce是一个分离在合并的计算框架,注意他不是一个集群,而是一个编程框架。hdfs是一个分布式文件系统,是一个分布式集群,用于存放数据。yarn集群是负责集群任务调度和运算资源管理的分布式集群。
什么是Hadoop以及Hadoop集群_第2张图片

后面还会说到HBASE,这里先不提及。后面在来理解。

二、HDFS集群

比如一个很大的文件需要拆分成多个小的文件,然后每个小文件存放在不同的节点上,而这些小文件和大文件之间的映射关系则保存则由namenode来负责。client读写文件需要先去namenode查询文件的元数据信息然后再进行读写操作。
什么是Hadoop以及Hadoop集群_第3张图片

你可能感兴趣的:(什么是Hadoop以及Hadoop集群)