大数据核心技术是什么 怎么掌握Hadoop知识

  大数据核心技术是什么?怎么掌握Hadoop知识?很多人听说过大数据,但对于大数据所包含的核心技术却并不了解,下面就给大家介绍一下大数据工程师必须要掌握的技术——Hadoop相关知识。

大数据核心技术是什么 怎么掌握Hadoop知识_第1张图片

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。整个Hadoop家族由以下几个子项目组成:

  Hadoop Common:

  Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

  HDFS:

  是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。

  MapReduce:

  是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

  Hive:

  Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。

  Pig:

  Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。

  HBase:

  Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。其核心是Google Bigtable论文的开源实现、分布式列式存储。它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。

  ZooKeeper:

  Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。

  Avro:

  Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。

  Sqoop:

  Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

  Mahout:

  Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:推荐挖掘、聚集、分类和频繁项集挖掘。

  Cassandra:

  Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。

  Chukwa:

  Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

  Ambari:

  Apache Ambari是一个基于Web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

  HCatalog

  Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,包括提供一个共享模式和数据类型机制,以及提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。

  Chukwa:

  Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。

  大数据工程师需要掌握的知识点很多,由浅入深、由易到难是一个比较长期的过程。如果你想快速而系统的掌握大数据技术,最有效的方式就是参加专业学习,学员在学习理论知识的同时,还能积累较多的项目经验,毕业当然更受企业青睐!

你可能感兴趣的:(大数据核心技术是什么 怎么掌握Hadoop知识)