Hadoop大数据生态系统笔记

前言

第一次更新于2022.3.6(未发布)
第二次更新于2022.3.8

本章主要用来记录回顾总结一下2021上学期的《大数据的技术原理及应用》,因为内容超级多,在本章我只记录关于Hadoop的内容以及整体主要的框架组件。

Hadoop1.0与Hadoop2.0的区别

Hadoop1.0 Hadoop2.0
HDFS单一NameNode节点,容易出现单点故障 HDFS HA 和热备份机制
HDFS单一命名空间,无法隔离资源 HDFS联邦
MapReduce资源管理效率低,负载大 新一代资源管理框架YARN
Hadoop大数据生态系统笔记_第1张图片

Hadoop是Apache软件基金会下的一个开源分布式平台。Hadoop是基于谷歌公司所发布的三驾马车论文的开源实现。他们分别是HDFS,MapReduce,Hbase(各自对应谷歌GFS MapReduce Bigtable)。这三大组件也是Hadoop2.0的核心。当然还有一些其他作用的组件,他们的作用各不相同,每个组件都有他们自身的特点来完成大数据繁多的任务。从设计实现经过多年的发展,在零几年的时候达到巅峰,生态完善,社区活跃,实质已经成大数据领域的标准。同时也对近几年其他大数据框架产生深远影响例如Spark Flink等。或许Hadoop的计算模型MR已经跟不上企业的发展需要,在此记录Hadoop平台的核心思想以及他们的运行实现原理。

  1. HDFS
    分布式文件系统,他的英文名字我忘记了,这是Hadoop的三大核心组件之一(另外二个是MR,Yarn),HDFS是专注于解决海量大数据存储的,所以单一节点无法满足存储需要,所以才出现了HDFS分布式文件系统,它的特点提供了高可靠的冗余备份,默认冗余因子3。在我的理解来看,这就和我们的Windows的NTFS文件系统一样,都是提供底层存储的,本质区别是一个是本地系统,一个是分布式系统。

Hadoop大数据生态系统笔记_第2张图片

  1. MapReduce
    Hadoop的计算模型,为海量大数据提供计算服务,这是Hadoop的计算引擎,主要用于计算批处理数据,分为MAp端和Reduce端,由于其延迟性较高,不适合实时计算。现在已经很少有企业使用了。

Hadoop大数据生态系统笔记_第3张图片

  1. Yarn

通用资源调度框架,主要作用就是资源管理和任务调度的,Yarn是,Hadoop2.0版本新出的组件。主要对资源(CPU,内存等)进行管理分配,还有一些job任务的调度,它的出现主要是解决Hadoop1.0的单点故负载较大问题。
Hadoop大数据生态系统笔记_第4张图片

  1. Hbase

Hbase非关系型数据库,属于键值数据库,这个关系型数据库和非关系型有着根本的区别,关系型数据库主要用于处理事务性数据,例如对数据的增删改查。

Hadoop大数据生态系统笔记_第5张图片

  1. Hive

数据仓库是Apache下的子项目,它位于MR之上,主要提供一种类SQL的编成语言Hsql,主要作用就是可以通过编写sql的形式写mr程序,其实就是将sql转换成MR程序,只是转换这个过程被隐藏啦。这相比直接写MR应用要简单的多。Hadoop大数据生态系统笔记_第6张图片

  1. Zookeeper
    分布式协调工作服务属于Hadoop的组件之一,它可以为HDFS HA提供自动实时的进行单一节点的选举切换。比如NameNode的出错,它可以监控到故障,自动根据备用的节点推举出一个新的Name Node节点,并且快速顶替已经出现故障的节点,这通常只在几秒内就可以完成。
    Hadoop大数据生态系统笔记_第7张图片
  2. Sqoop(SQL-to-Hadoop)
    主要是Hadoop和关系型数据库的数据互相转换。比如可以将Mysql数据库输入到Hadoop中,包括HDFS,Hbase或Hive,反之亦然。
    Hadoop大数据生态系统笔记_第8张图片

注:文章所有图片资源均来于网络,如有侵权,请联系作者删除。

你可能感兴趣的:(hadoop,big,data,mapreduce,hive,hdfs)