Hadoop生态圈简单介绍

Hadoop生态地图

Hadoop生态圈简单介绍_第1张图片

 

  1. 网络浏览器:可以理解为海量数据源。

  2. Nutch:一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

  3. HDFS:分布式文件系统(Hadoop Distributed File System),设计有着为大数据处理“私人订制”的意思,提供高吞吐量的数据访问,非常适合大规模数据集上的应用。并且他是一个高度容错的系统,适合部署在廉价的机器上。

  4. 搜索出结果

  5. MapReduce: 核心成员,是一种编程模型,使得大规模数据可以并行计算。(并行一边看电影一边嗑瓜子,非并行,先刷牙,再洗脸)。简单的一句话解释MapReduce就是“任务的分解与结果的汇总”(举例洗牌)。HDFS为分布式计算存储提供了底层支持。

  6. Flume: 日志数据采集框架,最早由Cloudera提供,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据,可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase。(Scribe是Facebook开源的日志收集系统

  7. RDBMS: RDBMS即关系数据库管理系统(Relational Database Management System),是将数据组织为相关的行和列的系统,而管理关系数据库的计算机软件就是关系数据库管理系统,常用的数据库软件有Oracle、SQL Server、MySQL 等。

    Sqoop 是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(MySQL 、Oracle...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

  8. Hive:基于Hadoop的一个数据仓库工具,数据存储在 HDFS 中,可以将结构化的数据文件映射为一张数据库表,并提供简单的类sql查询功能,称为 HQL。可以将SQL语句转换为MapReduce任务进行运行。可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

  9. 数据分析产出图标信息

  10. oozie: 一个工作流调度系统用来管理 Hadoop 作业。Oozie支持 Hadoop 中多种类型的作业(如 MapReduce Pig Hive Sqoop Distcp)和系统专有的任务(如 java程序 shell脚本)。

  11. Hue: Hadoop User Experience开源的Apache Hadoop UI系统,使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。

  12. Avro: 支持高效、跨语言的RPC(远程过程调用Remote Procedure Call)及永久存储数据的序列化系统,负责数据的序列化。

  13. Mahout: 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。

 

 

 

你可能感兴趣的:(大数据)