(1)2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。
(2)2003 年 Google 发表了一篇技术学术论文关于 Google 文件系统(GFS)。GFS 也就是 Google File System,是 Google 公司为了存储海量搜索数据而设计的专用文件系统。
(3)2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。
(4)2004年 Google 又发表了一篇技术学术论文,向全世界介绍了 MapReduce。2005年 Doug Cutting 又基于 MapReduce,在 Nutch 搜索引擎实现了该功能。
(5)2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。
(6)2006年1月,Doug Cutting加入Yahoo!(雅虎)。Doug Cutting 将 NDFS 和MapReduce 升级命名为 Hadoop,Hadoop正式诞生!Yahoo! 开建了一个独立的团队给 Goug Cutting 专门研究发展 Hadoop。
(7)2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
(8)2006年11月,Google发表了Bigtable论文,这最终激发了HBase的创建。
(9)2007年,百度、中国移动开始使用使用Hadoop技术。
(9)2008年1月,Hadoop 成为了 Apache 顶级项目。之后 Hadoop 被成功的应用在了其他公司,其中包括 Last.fm、Facebook、《纽约时报》等。
(10)2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。
(11)2009 年3月,Cloudera推出世界上首个Hadoop发行版——CDH(Cloudera’s Distribution including Apache Hadoop)平台,完全由开放源码软件组成。
(12)2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
(13)2009年10月,首届Hadoop World大会在纽约召开。
(14)2011年1月,ZooKeeper 脱离Hadoop,成为Apache顶级项目。
(15)2011年7月,Yahoo!和硅谷风险投资公司 Benchmark Capital创建了Hortonworks 公司,旨在让Hadoop更加可靠,并让企业用户更容易安装、管理和使用Hadoop。
(16)2012年3月,企业必须的重要功能HDFS NameNode HA被加入Hadoop主版本。
(17)2012年8月,另外一个重要的企业适用功能YARN成为Hadoop子项目。
(18)2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。
Hadoop 包含以下模块:
其他与 Apache Hadoop 的相关项目包括:
(1) Apache Hadoop
Apache Hadoop最原始版本,所有其他发行版均基于该发行版实现的。
官网地址http://hadoop.apache.org/,Logo如下
3.0:已发行多个测试版,正式稳定版尚未发布
(2)CDH
CDH(Cloudera’s Distribution for Hadoop)是Cloudera 公司的的Hadoop 发行版。
官方是https://www.cloudera.com/,Logo如下。
包含CDH4 和CDH5 两个版本
CDH4 ;基于Apache Hadoop 0.23.0 版本开发
CDH5 :基于Apache Hadoop 2.2.0 版本开发
(3)HDP
HDP(The Hortonworks Data Platform)是Hortonworks 公司的发行版。
官网地址是https://hortonworks.com/,Logo如下。
(4) 发行版选择
- 作为学习,建议选择Apache Hadoop最新的稳定版;
- 作为工作(生产环境),建议选择CDH或HDP稳定版。
(5) 不同发行版兼容性
架构、部署和使用方法一致,不同之处仅在若干内部实现。