Hadoop快速入门系列(2) | Hadoop详细介绍

生活很美好,明天很艳丽。
Hadoop快速入门系列(2) | Hadoop详细介绍_第1张图片

目录

  • 一.Hadoop介绍
  • 二.主要子项目
  • 三.相关项目
  • 四.知名用户
    • 1.Hadoop在Yahoo!的应用
    • 2其他用户
  • 五.Hadoop与Sun Grid Engine
  • 六.Hadoop与Condor

一.Hadoop介绍

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理
Hadoop快速入门系列(2) | Hadoop详细介绍_第2张图片
Hadoop框架透明地为应用提供可靠性数据移动。它实现了名MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上运行或重新运行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据连接起来。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等

二.主要子项目

  1. Hadoop Common:在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common

  2. HDFS:Hadoop分布式文件系统(Distributed File System) HDFS(Hadoop DistributedFile System)

  3. MapReduce:并行计算框架,0.20前使用org.apache.hadoop.mapred旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API

三.相关项目

  1. Apache HBase:分布式NoSQL列数据库,类似谷歌公司BigTable。

  2. Apache Hive:构建于hadoop之上的数据仓库,通过一种类SQL语言HiveQL为用户提供数据的归纳、查询和分析等功能。Hive最初由Facebook贡献。

  3. Apache Mahout:机器学习算法软件包。

  4. Apache Sqoop结构化数据(如关系数据库)与Apache Hadoop之间的数据转换工具。

  5. Apache ZooKeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

  6. Apache Avro新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

四.知名用户

1.Hadoop在Yahoo!的应用

2008年2月19日,雅虎使用10,000个微处理器核心的Linux计算机集群运行一个Hadoop应用程序

2其他用户

A9.comFacebookFox Interactive Media华为IBMImageShack信息学研究院JoostLast.fmPowerset纽约时报RackspaceVeoh中华电信中国移动

五.Hadoop与Sun Grid Engine

昇阳电脑的Sun Grid Engine可以用来调度Hadoop Job

六.Hadoop与Condor

威斯康辛大学麦迪逊分校的Condor计算机集群软件也可以用作Hadoop Job的调度。

注:文章内容摘抄维基百科Hadoop内容

后面我会持续更新,喜欢的小伙伴可以关注或者点赞评论哟…

你可能感兴趣的:(【Hadoop生态圈】)