大数据概述----《大数据系列》

学习框架最简单快捷的方法是看官网：http://hadoop.apache.org/

Hadoop是一个框架，它可以允许分布式处理大数据集可以用简单工程模式实现计算机集群。它涉及有一个简单服务器转换成千上万机器，每一个本地计算和存储。然而硬件传送高可用，框架自己可以监测和处理错误在应用层，所以传送高可用服务在计算机集群。

1、hadoop通用模块:这是一个通用工具支持其他hadoop的模块。
2、HDFS：一个分布式文件系统，它提供高流量传递应用数据。
3、YARN:一个工作调度和资源管理的框架。
4、MapReduce:一个基于YARN之上的并行计算大数据集的计算框架。

hadooop家族图.png

HDFS是一个主要的hadoop应用常用的分布式存储系统。一个HDFS主要包括一个NameNode和多个DataNodes。

1、NameNode是负责管理文件系统元数据，
2、DataNodes是存储真实的数据的

HDFS原理图.png

YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：

1、ResourceManager负责整个系统的资源管理和分配
2、ApplicationMaster负责单个应用程序的管理。

YARN工作原理图.png

MapReduce是一个可以在可靠的，有容错性大数据集群上面并行的进行逻辑计算的计算框架。

一个MapReduce的作业通常分为输入数据集到独立原型，它可以处理map任务在完整的并行方法。它也可以对maps的输出进行排序，然后减少任务。通常地输入和输出作业是被存储到文件系统。它主要关注的是计划的任务和监控这些任务，如果任务失败了就重启这些任务。

通常地，计算节点和存储节点都是相同的，MapReduce框架和hdfs是运行在相同的节点上的。者配置可以使框架有效地安排任务在以前的数据在这个节点上，计算结果通过带宽整合到集群上。

MapReduce包含一个单主节点ResourceManager和一个从节点NodeManager ，按每一个应用都有的MRAppMaster最低限度，应用需要输入和输出位置和提供map方法和reduce方法实现接口或者抽象方法。

MapReduce.png

后面还有系列大数据总结。

欢迎各位关注，一起探讨各种IT相关的知识：

ZeroStory.png