HDFS HA和Yarn HA架构的概念和区别

文章目录

    • 1.HDFS HA的概念和架构
    • 2.Yarn HA概念和架构
    • 3.HDFS HA和YARN HA架构区别
    • 4.其他一些问题
      • 4.1 hdfs dfs -ls 结果是哪个目录
      • 4.2.双写的理解
      • 4.3.小文件的理解
      • 4.4.主从架构的hbase读写经过master进程吗?
    • 5.参考博客:

最近开始学习大数据,学习过程中将一些知识点整理一下,方便自己复习

1.HDFS HA的概念和架构

什么是HA? HA全称是High Availability,也就是高可用的意思。在企业中往往会使用集群来解决可用性问题,实现高可用。在HDFS的架构中,NameNode是负责客户端请求的响应以及元数据的管理(查询,修改等),所以NameNode就是HDFS集群中的单点故障(SPOF)发生点,一旦运行NameNode的机器挂了,那么整个HDFS就不可用了。 在hadoop 1.x版本中,是没有ha的实现方式的,它只有可以看做是冷备份的Secondary NameNode来起到冷备份的作用的,当NameNode挂掉的时候,我们需要手工启动Secondary NameNode。这样做能够提高一定的可用性,但是切换SNN仍然有一段时间空闲而在此期间整个服务都是不可用的。在hadoop 2.x版本后,提供了NameNode HA With QJMNameNode HA With NFS两种HA方式,一般QJM方式使用较多这里也对此作出介绍。
首先看一个简单的架构图:
HDFS HA和Yarn HA架构的概念和区别_第1张图片
这是一个基本的HA架构。首先对图中的名词和功能作出讲解。

NN(NameNode)和DN(DataNode)是HDFS文件系统的核心组件,在HA架构中,设置了两个NN,他们分别有两种不同的状态:Active(活动的)和Standby(后备的),Active NN负责接收client的rpc请求并处理,写一份自己的editlog,同时也向JN(JournalNode)的共享存储上的写一份editlog。同时也接收来自DN的block report,block location updates 和 heartbeat。这里为JN是什么东西呢?JN即JournalNode,Journal中文意思是日志的意思,顾名思义JournalNodes的作用就是用于Active NN和Standby NN间的数据同步,本身由一组的JN节点组成的集群,它负责收集Active NN的editlog以便Standby NN使用。而Standby NN就是我们的后备NN,它从JN上读取的editlog并执行这些log操作,使自己的NN的元数据和Active NN的元数据是同步的,也就是说Standby是active NN的一个热备。一旦Active挂了自己便上位切换为active状态,并能够立即马上对外提供NN角色的服务。为了能够实现“立即”的效果,它同时也接收DN的block report,block location updates 和 heartbeat。

简而言之
把整个系统看成一个山寨,Active NN就是老大,它接收客户端发来的请求并将数据交给小弟DN,而Standby就是二大王,在老大ActiveNN在位的时候,他是没有权利直接接收客户端的请求的,但是老大Active NN有个习惯就是将自己的行为写一份日记到自己的日记本(JournalNode)中,而老二随时都可已读老大的日记本(读取JournalNodes中的editlog)了解寨中大事。同时小弟们(DN)向老大Active NN汇报时,也向老二汇(Standby)汇报自己的情况。这样老二不仅对寨中情况完全了解(读了老大的editlog),同时也对小弟们的情况(接收来自DN的block report,heartbeat等)这样在老大外出(Active NN挂了)时,老二能够马上上位,无缝切换。

两个NN,到底谁当Active谁当Standby,是由Zookeeper集群选举决定的,ZK就类似于选举委员会,所以ZK集群一般是由多台机器(2n+1)台组成的。在Active NN出问题的时候,立即投票选举其他Sandby的NN来提供服务。

最后是ZKFC组件,它的全称ZooKeeperFailoverController 即 Zookeepr故障转移控制器。它运行在每个NN节点中,作为一个ZK集群的客户端,用来监控NN的健康状态。它向ZK集群定期发送心跳 ,让自己被选举,当自己被ZK选举时,zkfc进程通过rpc调用让NN转换为active状态。

2.Yarn HA概念和架构

YARN是Hadoop 2.0中的资源管理系统,它也提供了一套HA架构,和HDFS的HA架构十分相似。
先上架构图
HDFS HA和Yarn HA架构的概念和区别_第2张图片
和NM(NodeManager)是Yarn的核心组件,ResourceManager负责接收客户端的任务请求,接收和监控NodeManager的资源的汇报,负责资源的分配与调度,启动和监控 ApplicationMaster(AM),是集群中单点故障的发生点,RM挂了整个服务也就挂了。借鉴HDFS HA的思想,Yarn的RM也分Active和Standby两种状态。在Active RM机器挂掉后,Standby RM作为备用而提供服务。RM在启动时会通过向ZK的/hadoop-ha目录写一个lock文件,写成功则为Active,否则Standby,Standby RM会一直监控lock文件的是否存在,如果不存在就会尝试去创建,争取为Active RM。Active RM在运行的时候,会将作业信息存储在ZK的/zkrmstore下,并向这个目录写入app信息。当Active RM挂了后,且另外一个Standby RM成为Active RM后,它会从/rmstore中读取相应的作业信息,并重新构建作业信息。然后启动内部服务,开始接收NM的心跳,构建集群资源的信息,并接收客户端的提交作业的请求等。在Yarn HA中,ZKFC自动故障转移作用和HDFS HA中的ZKFC作用类似,监控RM的健康状态,向ZK集群定期发送心跳 ,让自己被选举,当自己被ZK选举时,zkfc进程通过rpc调用让RM转换为active状态。区别在于Yarn HA的ZKFC只作为RM进程的一个线程 ,而非独立的守护进程来启动。

3.HDFS HA和YARN HA架构区别

HDFS HA Yarn HA 相似点 不同点
NameNode ResourceManger 都有Active和Standby两种状态,NN会写editlog到JN,而 RM会写app信息到RMstatestore Standby NN会实时读取JN中的editlog并执行这些log操作,保持与Active NN的元数据同步,能够立即切换状态,客户端感受不到切换,而Standby RM只会在ActiveRM挂了只会才从/rmstore目录读取相应的作业信息,然后重新构建作业的内存信息 ,不能够立即切换状态,系统会中断服务一定时间,客户端能够感受到切换
JournalNode RMstatestore 都提供一定的存储能力,JournalNode 记录NN的editlog,RMstatestore记录RM的app作业信息 JournalNode 是由一组的JN节点组成的集群,有自己的存储能力而RMstatestore只是将数据存储在ZK的/rmstore下
ZKFC ZKFC 都提供监控和被选举功能,HDFS HA中ZKFC负责监控NN健康并向ZK集群定期发送心跳 ,让自己被选举;Yarn HA中ZKFC负责监控RM监控并向ZK集群定期发送心跳 ,让自己被选举 在HDFS HA中ZKFC单独作为一个守护进程而在Yarn HA中仅仅只作为RM进程的一个线程

4.其他一些问题

4.1 hdfs dfs -ls 结果是哪个目录

直接执行hdfs dfs -ls不加参数的话会访问当前用户目录
如当前用户名为hadoop001,則会访问路径/user/hadoop001
而执行hdfs dfs -ls /則会访问根目录

4.2.双写的理解

在生产中,往往会对数据进行双写,即数据库中(MySQL,HBase等)写一份数据,缓存(ElasticSearch,Redis)中写一份数据。一般情况数据库中会存储全部数据,而缓存中存储近期数据。这样双写的目的能够提高系统对数据的读取速度,增强并发性能。读的时候,先读缓存,缓存没有的话,就读数据库,然后取出数据后放入缓存,同时返回响应。

4.3.小文件的理解

什么的小文件?
小文件一般是指明显小于Hadoop的block size的文件,HDFS中文件是按Block来存储的,默认一个Block的长度一般是128MB。
危害?
当HDFS中存在大量小文件(长度小于128MB)时,不仅占用大量存储空间,而且也占用大量的Namespace,给Namenode带来了内存压力。
如何避免?
小文件产生前,文件是许多记录(Records)组成的,那么可以通过调用HDFS的sync()方法(和append方法结合使用),每隔一定时间生成一个大文件。小文件产生后,可用通过一些方法对小文件进行合并。

4.4.主从架构的hbase读写经过master进程吗?

不经过
HBase主从架构有Master和RegionServer进程,但是读写是不经过Master进程的,以下是读写流程
读取流程:
(1) Client访问Zookeeper,查找-ROOT-表,获取.META.表信息。
(2) 从.META.表查找,获取存放目标数据的Region信息,从而找到对应的RegionServer。
(3) 通过RegionServer获取需要查找的数据。
写流程:
(1) Client通过Zookeeper的调度,向RegionServer发出写数据请求,在Region中写数据。
(2) 数据被写入Region的MemStore,直到MemStore达到预设阈值。
(3) MemStore中的数据被Flush成一个StoreFile。
(4) 随着StoreFile文件的不断增多,当其数量增长到一定阈值后,触发Compact合并操作,将多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除。
(5) StoreFiles通过不断的Compact合并操作,逐步形成越来越大的StoreFile。
(6) 单个StoreFile大小超过一定阈值后,触发Split操作,把当前Region Split成2个新的Region。父Region会下线,新Split出的2个子Region会被HMaster分配到相应的RegionServer上,使得原先1个Region的压力得以分流到2个Region上。
可以看出读写操作都是不经过Master进程的。

5.参考博客:

hadoop ha的实现方式原理介绍 https://blog.csdn.net/czz1141979570/article/details/86738013
HDFS高可用(HA)之ZKFC详解 https://blog.csdn.net/u012736748/article/details/79541311
Hadoop解决小文件存储思路 https://blog.csdn.net/LINBE_blazers/article/details/82861981
译[Hadoop]大量小文件问题及解决方案 https://blog.csdn.net/SunnyYoona/article/details/53870077
redis缓存学习笔记、双写一致性 https://blog.csdn.net/weixin_39446980/article/details/90450866
Hbase框架详解和读写流程分析 https://blog.csdn.net/u011833033/article/details/79773421

你可能感兴趣的:(HDFS,HA,Yarn,HA,BigData,Hadoop)