【基础知识】Hadoop生态系统

Hadoop是一个开源的分布式计算框架,主要用于大数据的存储和处理,即一个包含多种组件的综合分布式系统,组件相互协作完成从数据存储到计算分析的完整功能。

关键词——容灾

主从结构、多副本

主要特点

  1. 分布式存储 - Hadoop采用HDFS文件系统,可以将大数据分布式存储在集群中的多台服务器上。
  2. 分布式计算 - Hadoop的计算框架MapReduce可以在分布式服务器上并行处理大量数据。
  3. 高容错性 - Hadoop可以自动保存数据的多个副本,并且可以在节点失败时自动将失败节点上的工作转移到另一个节点上。
  4. 高扩展性 - Hadoop集群可以方便地扩展到数以千计的节点。Hadoop的计算和存储能力可以随着新节点的加入线性扩展。
  5. 低成本 - Hadoop可以在廉价的商用服务器上运行,大大降低了大数据处理的成本。

组件相关信息

核心组件

  • HDFS(Hadoop Distributed File System):Hadoop 的分布式文件系统,用于存储和访问大量数据。
  • YARN(Yet Another Resource Negotiator): Hadoop 的资源管理和作业调度平台。
  • MapReduce:Hadoop 的分布式并行计算框架,用于大规模数据集的批处理计算。

功能性组件

  • Hive:基于 Hadoop 的数据仓库,提供 SQL 查询功能。
  • Sqoop:用于 Hadoop 和关系型数据库之间导入导出数据。
  • Flume:实时收集、聚合和传输大量日志数据的系统。
  • HBase:Hadoop 的分布式列存储数据库。
  • ZooKeeper:用于构建分布式应用的协调服务。
  • Ambari:Hadoop 集群的provision、管理和监控工具。

其他组件

  • Pig:基于 Hadoop 的高级数据流语言,用于分析大规模数据集。
  • Common:Hadoop 的通用工具和实用程序,包括 IO、RPC、序列化、配置等。
  • Oozie:Hadoop 的工作流调度和协调系统。
  • Avro:Hadoop 的数据序列化系统。
  • Mahout:Hadoop 的机器学习算法库。

你可能感兴趣的:(hadoop,大数据,分布式)