Hadoop技术生态简介

文章来源:加米谷大数据

大数据的发展历史当中,Hadoop技术框架是占据着重要地位的,历经十多年的时间,依然是企业搭建大数据平台基础架构的主流选择,围绕着Hadoop而生的大数据生态组件,也都各自发挥着各自的作用。今天的Hadoop大数据培训分享,我们来坐Hadoop技术生态做一个简单的介绍。

Hadoop可以说是第一代大数据技术框架的主流选择,很多早期开始搭建大数据系统平台的企业,都是从Hadoop开始的,面对海量数据,Hadoop通过分布式集群,实现稳定的大数据储存和大数据计算,这是Hadoop的核心。

分布式文件系统HDFS

HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。

分布式计算框架Mapreduce

MapReduce是一种分布式计算模型,用以进行大数据量的计算。它屏蔽了分布式计算框架细节,将计算抽象成map和reduce两部分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

分布式列存数据库HBASE

HBase是一个建立在HDFS之上,面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。

分布式协作服务Zookeeper

解决分布式环境下的数据管理问题,包括统一命名,状态同步,集群管理,配置同步等。

数据仓库HIVE

Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

数据ETL/同步工具Sqoop

Sqoop是SQL-to-Hadoop的缩写,主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和容错性。

日志收集工具Flume

Flume是一个可扩展、适合复杂环境的海量日志收集系统。

分布式资源管理器Yarn

YARN主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的。作为通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行。

关于Hadoop大数据培训,Hadoop技术生态,以上就是简单的介绍了。大数据发展迅速,大数据技术也在快速更新迭代,想入行发展,主流技术框架一定要掌握牢靠。

你可能感兴趣的:(Hadoop技术生态简介)