6.HADOOP发展史与发行版

hadoop 版本

当前Hadoop版本比较混乱,让很多用户不知所措。

实际上,目前Hadoop有三个版本:Hadoop 1.0和Hadoop 2.0,在2017年,又发布了3.0,但是3.0 还远没有被大众用户接受,所以我们常用的是2.X
hadoop官网版本

其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReducev2。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。

6.HADOOP发展史与发行版_第1张图片
mapreduce v2

hadoop 发展史

6.HADOOP发展史与发行版_第2张图片
发展史.png

常用发行版:

  • Apache Hadoop 原生版
  • CDH(Cloudera)
  • HDP(Hortonworks)

HADOOP的发行版除了社区的 Apache hadoop 外, Cloudera , Hortonworks ,MapR , EMC , IBM , Intel , 华为 等都提供了自己的商业版本。商业版主要是提供了 专业的技术支持 ,这对一些大型企业尤其重要。每个发行版都有自己的一些特点,本文就各个发行版做简单介绍。

2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop的商用解决方案,主要是包括 支持 , 咨询服务 , 培训 。 2009 年 Hadoop 的创始人DougCutting 也加盟 Cloudera 公司。 Cloudera 产品主要为 CDH , Cloudera Manager , Cloudera Support 。 CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强。 Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一个 Hadoop 集群,并对集群的节点及服务进行实时监控。 Cloudera Support 即是对 Hadoop 的技术支持。 Cloudera 的标价为 每年每个节点 4000 美元 。

cloudera 使用 cloudera manager 图形界面监控这个hadoop集群,易配置,出现问题,在图形界面上会有明显提示,而且大部分配置项都可以在图形界面进行修改,适用于没有专业hadoop研发人员的公司。CDH 劣势:版本更新较慢,虽然在很大程度上解决了HADOOP组件的版本问题,但是整体组建版本稍旧

2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建的公司。公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述工程师均在 2005 年开始协助雅虎开发 Hadoop ,这些工程师贡献了 Hadoop 80%的代码。雅虎工程副总裁、雅虎 Hadoop 开发团队负责人 Eric Baldeschwieler 出任 Hortonworks 的首席执行官。 Hortonworks 的主打产品是 Hortonworks Data Platform (HDP) ,也同样是 100% 开源的产品, HDP 除了常见的项目外还包含了 Ambari ,一款开源的安装和管理系统。 HCatalog ,一个元数据管理系统, HCatalog 现已集成到 Facebook 开源的 Hive 中。

传统的 硬件厂商 , Intel , 华为 也提供了 Hadoop 发行版。
HDP版本是比较新的版本,目前与apache基本同步,因为Hortonworks内部大部分员工都是apache代码贡献者,尤其是Hadoop 2.0的贡献者

优缺点说明:

原生版

我们常说的原生版,也叫做apache hadoop
优点:
• 完全开源免费。
• 社区活跃
• 文档、资料详实
缺点:
•复杂的版本管理。版本管理比较混乱的,各种版本层出不穷,让很多使用者不知所措。
•复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。
•复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,如ganglia,nagois等,运维难度较大。
•复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。

CDH版

优点:
•基于Apache协议,100%开源。版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等
•比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。
•版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。
•基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch
•提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。
•运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

你可能感兴趣的:(6.HADOOP发展史与发行版)