1、hadoop发展历程
1)、. 这一切是如何开始的—Web上庞大的数据!
2)、使用Nutch抓取Web数据
3)、 要保存Web上庞大的数据——HDFS应运而生
4)、如何使用这些庞大的数据?
5)、采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析
6)、 如何获取Web日志,点击流,Apache日志,服务器日志等非结构化数据——fuse,webdav, chukwa, flume, Scribe
7)、 Hiho和sqoop将数据加载到HDFS中,关系型数据库也能够加入到Hadoop队伍中
8)、 MapReduce编程需要的高级接口——Pig, Hive, Jaql
9)、 具有先进的UI报表功能的BI工具- Intellicus
10)、 Map-Reduce处理过程使用的工作流工具及高级语言
11)、 监控、管理hadoop,运行jobs/hive,查看HDFS的高级视图—Hue, karmasphere, eclipse plugin, cacti, ganglia
12)、支持框架—Avro (进行序列化), Zookeeper (用于协同)
13)、 更多高级接口——Mahout, Elastic map Reduce
14)、 同样可以进行OLTP——Hbase
2、如何选择Hadoop版本
当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。
当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:
(1)是否为开源软件,即是否免费。
(2) 是否有稳定版,这个一般软件官方网站会给出说明。
(3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。
(4) 是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。
考虑到以上几个因素,我们分析一下开源软件Hadoop。对于Hadoop 2.0而言,目前尚不稳定,无法用于生产环境,因此,如果当前你正准备使用Hadoop,那么只能从Hadoop 1.0中选择一个版本,而目截至目前(2016年1月13日),最新的稳定版分别是Hadoop 1.2.1因此,你可以从中任选一个使用。
下载地址
3、Apache版本下载
(1) 各版本说明:http://hadoop.apache.org/releases.html。
(2) 下载稳定版:找到一个镜像,下载stable文件夹下的版本。
(3) Hadoop最全版本:http://svn.apache.org/repos/asf/hadoop/common/branches/,可直接导到eclipse中。
4、CDH版本下载
(1) 版本含义介绍:
https://ccp.cloudera.com/display/DOC/CDH+Version+and+Packaging+Information
(2)各版本特性查看:
https://ccp.cloudera.com/display/DOC/CDH+Packaging+Information+for+Previous+Releases
(3)各版本下载:
CDH3:http://archive.cloudera.com/cdh/3/
CDH4:http://archive.cloudera.com/cdh4/cdh/4/
注意,Hadoop压缩包在这两个链接中的最上层目录中,不在某个文件夹里
5、另附
常见的下载hadoop不同版本的地址:
http://archive.apache.org/dist/hadoop/core/
http://archive.cloudera.com/cdh/3/
http://archive.cloudera.com/cdh4/cdh/4/
另外附注一个 hadoop各商业发行版的比较:
http://www.xiaohui.org/archives/795.html
http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-terms-explained/
http://dongxicheng.org/mapreduce-nextgen/how-to-select-hadoop-versions/