Hadoop:适合海量数据的分布式存储与计算平台


Hadoop核心项目:

HDFS:Hadoop Distributed File System  分布式文件系统

MapReduce:并行计算框架


HDFS的架构


主从结构

- 主节点,只有一个:namenode

- 从节点,有很多歌:datanodes


namenode负责:

- 接收用户操作请求

- 维护文件系统的目录结构

- 管理文件与block之间关系,block与datanode之间关系


datanode负责:

- 存储文件

- 文件被分成block存储在磁盘上

- 为保证数据安全,文件会有多个副本


MapReduce的架构


主从结构

- 主节点,只有一个:JobTracker

- 从节点,有很多个:TaskTrackers


JobTracker负责:

- 接收客户提交的计算任务

- 把计算任务分给TaskTrackers执行

- 监控TaskTracker的执行情况


TaskTrackers负责:

- 执行JobTracker分配的计算任务


Hadoop的特点

扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。

成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。

可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能够自动地重新部署(redeploy)计算任务。