Hadoop历史和简介

.Hadoop的历史:

hadoop之父DougCutting

hadoop一开始只是ApacheLucene的子项目。

ApacheLucene

1.全球第一个开源的全文检索引擎工具包

2.完整的查询引擎和索引引擎

3.部分文本分析引擎

4.开发人员可在此基础上建立起完整的全文检索引擎。

Nutch

1.开源的基于Lucene的网页搜索引擎

2.加入网页抓取/解析等功能

3.类似于Google等商业搜索引擎

Goole的两篇重要论文

GoogleFile System

MapReduceSimplifiedData Processing on Large Clusters

HadoopLOGO的名字由来:DougCutting 家小孩儿为一直黄色大象玩具起得名字。

1.2002 Nutch项目开始运行

2.2003 谷歌发表GFS论文

3.2004 Doug根据GFS设计了NDFS

4.2005 Nutch移植到新的框架,Hadoop早期版本在20个节点上运行

5.20061 Doug加盟雅虎

6.20062 ApacheHadoop项目启动

7.2008 Hadoop赢得世界1TB数据排序冠军

8.201311 Hadoop技术峰会召开,标志Hadoop进入2.0时代

.创建本地Hadoop集群

1.操作系统的支持

a).Linux

b).Windows

--Cygwin

--hadoop-for-windows

2.JDK的支持

a).下载JDK

b).解压:sudotar -zxvf jdk压缩包)

c).设置环境变量:sudovi /etc/profile

在文件末尾加入

exportJAVA_HOME=jdk的工作路径)

exportPATH = $PATH:$JAVA_HOME/bin:$PATH:

d).hadoop版本















3.Hadoop安装:

a).下载安装:

b).设置环境:

设置环境变量

设置用户路径

修改配置文件

c).配置SSH免密码登录


.创建托管的Hadoop集群

AmazonWeb Services---亚马逊云服务:

a).ElasticCompute Cloud (EC2)---弹性计算云

2006825日发布

弹性云服务器

虚拟主机

多种操作系统

负载均衡

安全防护

按使用时长付费

b).SimpleStorage Service (S3)---简单存储服务

2006314日发布

提供了一种简单的键值存储服务:用户可以通过网络界面/命令行/API接口创建对象,这些对象既可以是文本,也可以是图片/音频/视频等多媒体对象。

我们把S3存储数据的容器称之为“桶”,每个桶都有唯一的标识符,而且桶中的对象都是唯一命名的

S3支持的单文件最大为5TB

按存储量付费

c).ElasticMapReduce (EMR)---弹性mapReduce

200942日发布

支持多种接口:网页控制台/命令行/API

集群配置简单

支持多种开发语言:Java/Python/Ruby

经典模式

创建托管的Hadoop集群操作示例:

a.创建AWS账号

b.注册必须的服务

c.登录AWS管理控制台

d.创建桶

e.创建任务流






你可能感兴趣的:(hadoop)