hadoop重点组件及用途

快速步入Hadoop的世界

Apache Hadoop为可靠的,可扩展的分布式计算开发开源软件。广义上说是Hadoop生态圈

Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量数据)

Hadoop Common:支持其他Hadoop模块的常用工具。

Hadoop的分布式文件系统(HDFS):一种分布式文件系统,可提供对应用程序数据库的高吞吐量访问。

Hadoop YARN:作业调度和集群资源管理的框架。

Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统。

Hadoop的的重点组件:

    ●HDFS:分布式文件系统

    ●MapReduce的的:分布式运算程序开发框架

    ●HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

    ●HBASE:基于HADOOP的分布式海量数据库

    ●ZOOKEEPER:分布式协调服务基础组件

    ●Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

    ●Oozie的的:工作流调度框架

    ●Sqoop:数据导入导出工具

    ●水槽:日志数据采集框架

分布式软件系统:利用更多的机器,处理更多的数据。

网页服务器集群:单台服务器的性能和资源都是有限的,支持的连接和并发数都有上线,因此必须采用多服务器集群的方法才能提高连接并发数连接并发数=带台服务器并发数量之和。

数据处理流程:数据采集:定制开发采集程序,或使用开源框架flume

数据预处理:定制开发的MapReduce程序运行于Hadoop的集群

数据仓库技术:基于Hadoop的之上的hive

数据导出:基于Hadoop的的sqoop数据导入导出工具

数据可视化:定制开发web程序或使用kettle等产品

整个过程的流程调度:Hadoop的生态圈中的Oozie的工具或其他类似开源产品

你可能感兴趣的:(hadoop相关)