分布式系统组件简介

HDFS简介
MapReduce简介
Yarn简介

Hadoop

  • Apache官方版本
    • 1.x
    • 2.x
    • 2.6.4
  • 商业发行版
    • CDH 5.7.x

分布式文件系统HDFS

* 端口50070
  • 具有分布式的集群结构,我们把实际存储数据的节点Datanode
  • 具有一个统一对外提供查询,存储,搜索的机器节点Namenode
    • 对外能够和客户端打交道
    • 对内跟实际存储数据的节点打交道
  • 具有备份机制 解决了单点故障
  • 具有统一的API 对客户端来说无需担心集群内部的事情 只要我们调用API,就可以进行文件的读取,存储,搜索等,甚至可以提供统一的文件引用
    例:fs =new FileSyatem( )
    fs.add fs.copy fs.rm 等等

分布式编程模型MapReduce

  • 解决分布式数据计算 (处理)问题
  • 思想 分而治之 局部并行计算 全局统计
    • map(映射) reduce(聚合)
  • 使用规范
    • 继承mapper 实现业务逻辑
    • 继承reducer 实现业务逻辑
    • 提供可供用户进行相关配置的类或配置文件
  • 程序总管(AppMaster
    • 用来管理分布式计算框架的内部问题:启动 衔接 等

分布式资源管理Yarn

端口8088
  • 解决了分布式系统的资源管理问题
  • 为了管理集群资源,设计成分布式架构
    • 资源管理者(ResourceManager

      • 统一对外提供服务的节点(某一机器 某一机器上的一个进程 一个服务)
    • 节点管理者(NodeManager

      • 在集群中的每台机器上有一个角色,用来进行每台机器资源的管理 汇报

你可能感兴趣的:(分布式系统架构)