浅析大数据框架 Hadoop～

作者：幻好

来源：恒生LIGHT云社区

Hadoop 概念及其发展

Hadoop 最早起源于 Nutch。Nutch 的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决方案。

分布式文件系统（GFS），可用于处理海量网页的存储。
分布式计算框架 MAPREDUCE，可用于处理海量网页的索引计算问题。

Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE，并从 Nutch 中剥离成为独立项目 HADOOP，到 2008 年 1 月，HADOOP 成为 Apache 顶级项目(同年，cloudera 公司成立)，迎来了它的快速发展期。

广义上来说，Hadoop 指代大数据的一个生态圈，包括很多其他的软件。
狭义上来说，Hadoop 就是单独指代 Hadoop 这个软件。

Hadoop 的历史版本介绍

0.x 系列版本：hadoop 当中最早的一个开源版本，国外使用较多，因为当时国内大数据还没发展起来，在此基础上演变而来的 1.x 以及 2.x 的版本

1.x 版本系列：hadoop 版本当中的第二代开源版本，主要修复 0.x 版本的一些 bug 等，是存在时间最短的一代。

2.x 版本系列：架构产生重大变化，引入了 yarn 平台等许多新特性，国内目前使用最多的版本，因为当时国内正处于大数据爆发的阶段。

3.x 版本系列：引入了一些重要的功能和优化，包括 HDFS 纠删码、多 Namenode 支持(两个以上)、MR Native Task 优化、YARN 基于 cgroup 的内存和磁盘 IO 隔离等，且对 JDK 最低版本要求为 JDK1.8。发行时间较晚，目前使用不多，但未来必将成为主流。

hadoop 三大公司发型版本介绍

-免费开源版本 apache

官网：http://hadoop.apache.org/

优点：拥有全世界的开源贡献者，代码更新迭代版本比较快

缺点：版本的升级，版本的维护，版本的兼容性，版本的补丁都可能考虑不太周到，学习可以用，实际生产工作环境尽量不要使用

apache 所有软件的下载地址（包括各种历史版本）：

http://archive.apache.org/dist/

-免费开源 hortonWorks

官网：https://hortonworks.com/

hortonworks 主要是雅虎主导 Hadoop 开发的副总裁，带领二十几个核心成员成立 Hortonworks，核心产品软件 HDP（ambari），HDF 免费开源，并且提供一整套的 web 管理界面，供我们可以通过 web 界面管理我们的集群状态，web 管理界面软件 HDF 网址（http://ambari.apache.org/）

-软件收费版本 ClouderaManager

官网：https://www.cloudera.com/

cloudera 主要是美国一家大数据公司在 apache 开源 hadoop 的版本上，通过自己公司内部的各种补丁，实现版本之间的稳定运行，大数据生态圈的各个版本的软件都提供了对应的版本，解决了版本的升级困难，版本兼容性等各种问题

Hadoop 的模块组成

Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统。
Hadoop MapReduce：一个分布式的离线并行计算框架。
Hadoop YARN：作业调度与集群资源管理的框架。
Hadoop Common：支持其他模块的工具模块。

Hadoop 的架构模型

NameNode 与 ResourceManager 单节点架构模型

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据
secondaryNameNode：主要能用于 hadoop 当中元数据信息的辅助管理
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

数据计算核心模块：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配
NodeManager：主要用于接收 applicationMaster 分配的任务
applicationMaster: resourcemanager 为每个计算任务启动一个 appMaster, appMatser 主要负责资源的申请, 任务的分配
NameNode 与 ResourceManager 高可用架构模型

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，一般都是使用两个，实现 HA 高可用
JournalNode：元数据信息管理进程，一般都是奇数个
DataNode：从节点，用于数据的存储

数据计算核心模块：

ResourceManager：Yarn 平台的主节点，主要用于接收各种任务，通过两个，构建成高可用
NodeManager：Yarn 平台的从节点，主要用于处理 ResourceManager 分配的任务

Hadoop 目前的现状

自 2015 年开始 Hadoop 暴露出诸多问题引起注意。随后 Gartner、IDG 等公司分析师、Hadoop 用户和 Hadoop 和大数据圈内人士越来越多的反映出各种问题。

究其原因，主要如下：

Hadoop 栈过于复杂，组件众多，集成困难，玩转代价过高
Hadoop 创新速度不够（或者说起点过低），且缺乏统一的理念和管控，使得其众多组件之间的集成非常复杂
受到 Cloud 技术的冲击，特别是类 S3 对象存储提供了比 HDFS 更廉价、更易用、更可伸缩的存储，撬动了 Hadoop 的根基 HDFS
对 Hadoop 期望过高，Hadoop 发迹于廉价存储和批处理，而人们期望 Hadoop 搞定大数据所有问题，期望不匹配造成满意度很低
人才昂贵，且人才匮乏

总结

综上，作为第一代大数据方案的 Hadoop 巅峰已过，大数据进入第二代：分布式数据库。

分布式数据库特别是 MPP 数据库已经很好的解决了大数据基本分析层面的问题，未来持续向着更易用更快的方向发展。

高级数据分析向着下沉到数据库内部的方向发展。高级数据分析层面的难点不在分析，而在于数据本身的数量和质量。期待这一方面有更多创新涌现。