什么是Hadoop
按照正式的定义,Hadoop是一个开源的框架,可编写与运行分布式应用处理大规模数据。
分布式计算是一个宽泛并且不断变化的领域,但Hadoop与众不同之处在于以下几点。
1、方便一-Hadoop运行在由一般商用机器构成的大型集群上,或者如亚马逊弹性计算云
(EC2) 等云计算服务之上。
2、健壮一-Hadoop致力千在一般商用硬件上运行, 其架构假设硬件会频繁地出现失效。
它可以从容地处理大多数此类故障。
3、可扩展一-Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。
4、简单一-Hadoop允许用户快速编写出高效的井行代码。
Hadoop的方便和简单让其在编写和运行大型分布式程序方面占尽优势。即使是在校的大学
生也可以快速、廉价地建立自己的Hadoop集群。另一方面,它的键壮性和可扩展性又使它胜任
雅虎和Facebook最严苛的工作。这些特性使Hadoop在学术界和工业界都大受欢迎。
图1-1 解释了如何与Hadoop集群交互。Hadoop集群是在同一地点用网络互连的一组通用机器。数据存储和处理都发生在这个机器"云"中 。不同的用户可以从独立的客户端提交计算"作业"到Hadoop ,这些客户端可以是远离Hadoop集群的个人台式机。
并非所有分布式系统的构建都如图1-1 所示的-样。下面,我们简要介绍一下其他的分布式
系统,以便更好地展现Hadoop所依据的设计理念。