Hadoop学习笔记—1.初识hadoop

Hadoop学习笔记—1.初识hadoop

一、Hadoop的发展历史

Hadoop的起源不得不说如今IT巨头Google。Google是云计算概念的提出者,为了在自身的搜索引擎业务中获得突破,设计了分布式文件系统,从此进入了分布式时代。

2004年,Google公开发表论文,向全世界介绍了MapReduce。 2005年,Nutch的开发者基于Google发布的MapReduce报告,在Nutch上开发了一个可工作的MapReduce应用,后来Yahoo也成立了专门的团队支持Hadoop的发展。2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2007年开始,国内优秀的IT公司如百度,阿里等开始研究hadoop系统,并将之使用在自己的业务中。在2008年中,Hadoop打破1TB数据排序基准测试记录,从此,hadoop声名鹊起,风靡全球。

Hadoop是一个搭建在廉价PC上的分布式集群系统架构,它具有高可用性、高容错性和高可扩展性等优点由于它提供了一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。Hadoop的普及也让许多互联网公司能够从IOE(IBM小型机、Oracle数据库以及EMC存储)中解脱出来。
Hadoop学习笔记—1.初识hadoop_第1张图片

二、Hadoop的基础框架

Hadoop学习笔记—1.初识hadoop_第2张图片Hadoop学习笔记—1.初识hadoop_第3张图片
    
  Hadoop2.0主要由HDFS、MapReduce、YARN组成。
   分布式存储系统HDFSHadoop Distributed File System):
1、分布式存储系统
2、
提供了高可靠性、高扩展性和高吞吐率的数据存储服务
3、适合PB级以上海量数据的存储

 资源管理系统YARN:
负责集群资源的统一管理和调度 

分布式计算框架MapReduce:
1、分布式计算框架
2、具有易于编程、高容错性和高扩展性等优点
3、适合PB级以上海量数据的离线处理

三、Hadoop的生态系统

随着Hadoop的发展,越来越多优秀的工具构建在Hadoop之上。

Hadoop学习笔记—1.初识hadoop_第4张图片

Hive(基于MR的数据仓库)数据计算使用MR,数据存储使用HDFS。提供完整的Hql(类SQL)查询功能,可以将hql语句转换为MapReduce任务进行运行。

Pig:是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。

HBase:是一个开源的,基于列存储模型的分布式数据库。
ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态    
 Sqoop(数据库同步工具)连接Hadoop与传统数据库之间的桥梁
 Flume(日志收集工具)


你可能感兴趣的:(Hadoop)