《Hadoop权威指南4》第1章 初识Hadoop

Hadoop权威指南4

  • 第1章 初识Hadoop
    • 1.1 数据!数据!
    • 1.2 数据的存储和分析
    • 1.3 查询所有数据
    • 1.4 不仅仅是批处理
    • 1.5 相较于其他系统的优势
      • 1.5.1 关系型数据库管理系统
      • 1.5.2 网格计算(grid computing)
      • 1.5.3志愿计算
    • 1.6 Apache Hadoop发展简史
    • 1.7 本书包含的内容

第1章 初识Hadoop

1.1 数据!数据!

未来的数据很大,个人,公共网页的数据等等都很多。
大数据胜于好算法。

1.2 数据的存储和分析

硬盘的读写速度很慢跟不上数据存储分析的需要。
Hadoop的,hdfs和mapreduce解决了数据的存储和分析的问题。

1.3 查询所有数据

mapreduce进行每一次查询时要处理整个数据集,适合定时批处理。

1.4 不仅仅是批处理

Hadoop有时被用于指代一个更大的、多项目组成的生态系统。这些系统都属于分布式计算和大规模数据处理的范畴。
Hbase提供在线访问,一种使用HDFS做底层存储的键值存储模型。可以对单行在线读写,也可以对数据块读写。
YARN是一个集群资源管理系统,允许任何一个分布式程序基于Hadoop集群的数据而运行。
能与Hadoop协调工作的处理模式:
交互式sql(impala、Hive)、
迭代处理(Spark)、
流处理(Storm、Spark Streaming、Samza)、
搜索(Solr)。

1.5 相较于其他系统的优势

1.5.1 关系型数据库管理系统

许多情况下,可以将MapReduce视为关系型数据库管理系统的补充。MapReduce比较适合解决需要以批处理方式分析整个数据集的问题;RDBMS适用于索引后数据的点查询和更新。MapReduce适合一次写入多次读取数据的应用,关系型数据库则更适合持续更新的数据集。当然两者渐渐也增加了对方的一些特性,区别变得模糊了。
关系型数据库操作结构化数据,Hadoop处理非结构化或半结构化的数据。

1.5.2 网格计算(grid computing)

网格计算适合计算密集型的作业,如果数据量庞大,计算节点会因为集群网络带宽的瓶颈而不得不闲下来等待数据。Hadoop尽量在计算节点存储数据,已实现数据的本地快速访问。数据本地化特性是Hadoop数据处理的核心。而且这种方式下并没有降低Hadoop处理计算密集型作业的能力。
MapReduce程序员不需要考虑数据流机制,MPI程序员要显示的处理数据流。
MapReduce程序员不必关心程序的执行顺序以及部分任务是否失效,这些都交由分布式处理框架来考虑。MPI程序员需要显示的控制作业检查点和恢复机制。

1.5.3志愿计算

志愿计算是CPU密集型的,计算所花的时间远超过工作单元数据的传输时间。志愿者贡献的是CPU周期,而不是网络带宽。
MapReduce的三大设计目标:(1)作业往往只需要几分钟或者几个小时;(2)运行在一个高速网络连接的数据中心内;(3)数据中心内的计算机都是可靠的,专门的硬件。
志愿计算接入互联网,计算机不可信,带宽也不同,数据本地化没有要求。

1.6 Apache Hadoop发展简史

Hadoop由Doug Cutting的开源搜索引擎Nutch发展而来,HDFS是GFS的开源版,MapReduce也是根据google的论文实现的。
Hadoop现在已经成为通用的大数据存储和分析平台。

1.7 本书包含的内容

​​《Hadoop权威指南4》第1章 初识Hadoop_第1张图片

你可能感兴趣的:(大数据)