HADOOP生态圈以及各组成部分的简介

传智大数据day06

HADOOP生态圈以及各组成部分的简介_第1张图片


重点组件:

Hdfs:分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘

         主:namenode,secondarynamenode

         从:datanode

Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等)

         主:ResourceManager

         从:NodeManager

Mapreduce:分布式运算程序开发框架,类似于Spring。

Hive:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具可以将结构化的数据文件映射为一张数据库   表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

Hbase:基于HADOOP的分布式海量数据库

Zookeeper:分布式协调服务基础组件

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架


你可能感兴趣的:(大数据,分布式)