《Hadoop权威指南 第4版》 - 第一章:初识Hadoop

1. HDFS是Hadoop的文件管理体系, 全称为Hadoop Distribute FileSystem

2. MapReduce适用于处理整个数据集或者大多数数据集

MapReduce的优势

  • 离线计算, 等待较长时间
  • 一个基本的批处理系统

3. YARN (Yet another resource negotiator) 是Hadoop的新的处理模型,集群资源管理系统

作用

  • 允许任何一个分布式程序基于Hadoop集群的数据来运行
  • 基于Hadoop2 以上版本

4. 更多的协作模式

举例

  • 交互式SQL
  • 迭代处理
  • 流系统,如Spark Streaming运行实时/分布式计算,并向Hadoop或者外界发布结果
  • 搜索引擎,如solr 底层可以使用hdfs的文件系统

5. 相较于其他系统的优势

比RDS的优势:

  • 海量数据下,可以大幅降低磁盘寻址的时间;
  • 但仅适用于处理整个数据集,Hadoop采用流数据的读取模式,仅取决于传输速率
    《Hadoop权威指南 第4版》 - 第一章:初识Hadoop_第1张图片
    ** 可以看出Hadoop体系更擅长炒大锅饭,味道(精度)可能不是很高;mysql之类的RDS更擅长炒小菜,费时,味道可以。 **
  • 可以实现网格计算、志愿计算

你可能感兴趣的:(《Hadoop权威指南 第4版》 - 第一章:初识Hadoop)