hadoop

Hadoop构成

  • 分布式存储HDFS
  • 分布式计算MapReduce
  • 资源调度引擎Yarn

HDFS: 块级别的分布式文件存储系统

  1. NameNode 存储文件的元数据,如文件名,文件目录结构,文件属性(文件权限, 生成时间,副本数)
  2. DataNode 在本地文件系统存储文件块数据以及块数据的校验和
  3. Secondary 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照

MapReduce:分布式计算框架

实际上他这个名字就是他的作用:map分发映射任务, reduce汇总结果

  • MapReduce是把一个大任务拆分成很多小任务,然后分发给下面的服务器并行执行,最后再将接收小任务的服务器返回的结果进行汇总
    hadoop_第1张图片
    image.png

Yarn: 分布式资源管理器

依据不同服务器的计算力和计算资源,分配合适大小的任务。计算力强的分配任务计算量大一点,计算力弱的接收小任务,充分利用计算资源加快运行。

你可能感兴趣的:(hadoop)