Hadoop简介

Hadoop简介

Hadoop是什么

  1. hadoop是有Apache基金会所开发的分布式系统基础架构
  2. hadoop主要解决,海量数据的存储和海量数据的分析计算问题
  3. 广义来说,Hadoop通常是指Hadoop生态圈

Hadoop优势

  1. 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
  2. 高扩展性:在集群间分配任务数据,可方便的扩展数以前计的结点
  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
  4. 高容错性:能够自动将失败的任务重新分配

Hadoop三大版本的区别

Hadoop简介_第1张图片

Hadoop组成

HDFS

Hadop Distributed File System 简称 HDFS ,是一个分布式文件系统

  1. NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
  2. DataNode(dn):本地文件系统存储文件块数据,以及块数据的校验和。
  3. Secondary NameNode(2nn):每隔一端时间对NameNode元数据备份。防止集群挂掉。

YARN

Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是Hadoop的资源管理器

Hadoop简介_第2张图片

MapReduce

MapReduce将计算过程分为两个阶段:Map和Reduce

  1. Map阶段并行处理输入数据
  2. Reduce阶段对Map结果进行汇总

你可能感兴趣的:(hadoop,hadoop,大数据,hdfs)