(1)所谓 HA(High Availablity),即高可用(7*24 小时不中断服务)。
(2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制:HDFS 的 HA 和 YARN 的 HA。
(3)NameNode 主要在以下两个方面影响 HDFS 集群
➢ NameNode 机器发生意外,如宕机,集群将无法使用,直到管理员重启
➢ NameNode 机器需要升级,包括软件、硬件升级,此时集群也将无法使用
HDFS HA 功能通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将 NameNode 很快的切换到另外一台机器。
当前 HDFS 集群的规划
naenode206 | naenode120 | naenode101 |
---|---|---|
NameNode | SecondaryNameNode | |
DataNode | DataNode | DataNode |
HA 的主要目的是消除 namenode 的单点故障,需要将 hdfs 集群规划成以下模样
naenode206 | naenode120 | naenode101 |
---|---|---|
NameNode | NameNode | NameNode |
DataNode | DataNode | DataNode |
1)怎么保证三台 namenode 的数据一致
a.Fsimage:让一台 nn 生成数据,让其他机器 nn 同步
b.Edits:需要引进新的模块 JournalNode 来保证 edtis 的文件的数据一致性
2)怎么让同时只有一台 nn 是 active,其他所有是 standby 的
a.手动分配
b.自动分配
3)2nn 在 ha 架构中并不存在,定期合并 fsimage 和 edtis 的活谁来干
由 standby 的 nn 来干
4)如果 nn 真的发生了问题,怎么让其他的 nn 上位干活
a.手动故障转移
b.自动故障转移
naenode206 | naenode120 | naenode101 |
---|---|---|
NameNode | NameNode | NameNode |
JournalNode | JournalNode | JournalNode |
DataNode | DataNode | DataNode |
1)官方地址:http://hadoop.apache.org/
2)将hadoop目录解压放到目录/home/nae/opt/module下,并将用户组权限设置为nae,如果之前目录下有data和log目录需要将其删除
3)配置 core-site.xml
<property>
<name>fs.defaultFSname>
<value>hdfs://myclustervalue>
property>
<property>
<name>hadoop.tmp.dirname>
<value>/home/nae/opt/module/hadoop-3.1.3/datavalue>
property>
4)配置 hdfs-site.xml
<property>
<name>dfs.namenode.name.dirname>
<value>file://${hadoop.tmp.dir}/namevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>file://${hadoop.tmp.dir}/datavalue>
property>
<property>
<name>dfs.journalnode.edits.dirname>
<value>${hadoop.tmp.dir}/jnvalue>
property>
<property>
<name>dfs.nameservicesname>
<value>myclustervalue>
property>
<property>
<name>dfs.ha.namenodes.myclustername>
<value>nn206,nn120,nn101value>
property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn206name>
<value>naenode206:8020value>
property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn120name>
<value>naenode120:8020value>
property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn101name>
<value>naenode101:8020value>
property>
<property>
<name>dfs.namenode.http-address.mycluster.nn206name>
<value>naenode206:9870value>
property>
<property>
<name>dfs.namenode.http-address.mycluster.nn120name>
<value>naenode120:9870value>
property>
<property>
<name>dfs.namenode.http-address.mycluster.nn101name>
<value>naenode101:9870value>
property>
<property>
<name>dfs.namenode.shared.edits.dirname>
<value>qjournal://naenode206:8485;naenode120:8485;naenode101:8485/myclustervalue>
property>
<property>
<name>dfs.client.failover.proxy.provider.myclustername>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
property>
<property>
<name>dfs.ha.fencing.methodsname>
<value>sshfencevalue>
property>
<property>
<name>dfs.ha.fencing.ssh.private-key-filesname>
<value>/home/nae/.ssh/id_rsavalue>
property>
5)分发配置好的 hadoop 环境到其他节点
1)将 HADOOP_HOME 环境变量更改到 HA 目录(三台机器)
sudo vim /etc/profile.d/my_env.sh
## 将 HADOOP_HOME 部分改为如下
#HADOOP_HOME
export HADOOP_HOME=/opt/ha/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
去三台机器上 source 环境变量
source /etc/profile
2)在各个 JournalNode 节点上,输入以下命令启动 journalnode 服务
hdfs --daemon start journalnode
3)在[nn206]上,对其进行格式化,并启动
hdfs namenode -format
hdfs --daemon start namenode
4)在[nn120]和[nn101]上,同步 nn1 的元数据信息
hdfs namenode -bootstrapStandby
5)启动[nn120]和[nn101]
hdfs --daemon start namenode
6)查看是否为Active
hdfs haadmin -getServiceState nn206
## 此时所有的节点均为standby
7)在所有节点上,启动 datanode
hdfs --daemon start datanode
9)将[nn206]切换为 Active,手动模式下,进行Active的提升,需要所有的nn节点都启动,这样是为了防止出现脑裂
hdfs haadmin -transitionToActive nn206
10)查看是否 Active
hdfs haadmin -getServiceState nn206
## 此时nn206成为Active
自动故障转移为 HDFS 部署增加了两个新组件:ZooKeeper 和 ZKFailoverController(ZKFC)进程,如图所示。ZooKeeper 是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务。
HDFS-HA故障转移机制
在这里插入图片描述
naenode206 | naenode120 | naenode101 |
---|---|---|
NameNode | NameNode | NameNode |
JournalNode | JournalNode | JournalNode |
DataNode | DataNode | DataNode |
Zookeeper | Zookeeper | Zookeeper |
ZKFC | ZKFC | ZKFC |
1)具体配置
(1)在 core-site.xml 中配置
<property>
<name>fs.defaultFSname>
<value>hdfs://myclustervalue>
property>
<property>
<name>hadoop.tmp.dirname>
<value>/home/nae/opt/module/hadoop-3.1.3/datavalue>
property>
<property>
<name>ha.zookeeper.quorumname>
<value>naenode206:2181,naenode120:2181,naenode101:2181value>
property>
(2)在 hdfs-site.xml 中配置
<property>
<name>dfs.ha.automatic-failover.enabledname>
<value>truevalue>
property>
<property>
<name>dfs.namenode.name.dirname>
<value>file://${hadoop.tmp.dir}/namevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>file://${hadoop.tmp.dir}/datavalue>
property>
<property>
<name>dfs.journalnode.edits.dirname>
<value>${hadoop.tmp.dir}/jnvalue>
property>
<property>
<name>dfs.nameservicesname>
<value>myclustervalue>
property>
<property>
<name>dfs.ha.namenodes.myclustername>
<value>nn206,nn120,nn101value>
property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn206name>
<value>naenode206:8020value>
property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn120name>
<value>naenode120:8020value>
property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn101name>
<value>naenode101:8020value>
property>
<property>
<name>dfs.namenode.http-address.mycluster.nn206name>
<value>naenode206:9870value>
property>
<property>
<name>dfs.namenode.http-address.mycluster.nn120name>
<value>naenode120:9870value>
property>
<property>
<name>dfs.namenode.http-address.mycluster.nn101name>
<value>naenode101:9870value>
property>
<property>
<name>dfs.namenode.shared.edits.dirname>
<value>qjournal://naenode206:8485;naenode120:8485;naenode101:8485/myclustervalue>
property>
<property>
<name>dfs.client.failover.proxy.provider.myclustername>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
property>
<property>
<name>dfs.ha.fencing.methodsname>
<value>sshfencevalue>
property>
<property>
<name>dfs.ha.fencing.ssh.private-key-filesname>
<value>/home/nae/.ssh/id_rsavalue>
property>
(3)修改后分发配置文件
2)启动
(1)在[nn206]上,对其进行格式化,并启动
hdfs namenode -format
hdfs --daemon start namenode
(2)在[nn120]和[nn101]上,同步 nn206 的元数据信息
hdfs namenode -bootstrapStandby
(3)启动Zookeeper,然后再初始化 HA 在 Zookeeper 中状态:
hdfs zkfc -formatZK
(4)启动 HDFS 服务:
start-dfs.sh
(5)可以去 zkCli.sh 客户端查看 Namenode 选举锁节点内容:
[zk: localhost:2181(CONNECTED) 0] get -s /hadoop-ha/mycluster/ActiveStandbyElectorLock
myclusternn206
naenode206 �>(�>
cZxid = 0xa00d0c05a
ctime = Tue Jan 25 15:29:11 CST 2022
mZxid = 0xa00d0c05a
mtime = Tue Jan 25 15:29:11 CST 2022
pZxid = 0xa00d0c05a
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x7800000b2e040016
dataLength = 36
numChildren = 0
此时naenode206为active节点,而其他节点为standby
3)验证
将 Active NameNode 进程 kill,查看网页端三台 Namenode 的状态变化,可以看到自动进行了故障转移。
并且所有的读写操作必须在active节点进行,不能在standby节点操作。因此需要进行上传时需要的active节点操作,或者使用以下语句
hadoop fs -put README.txt hdfs://mycluster/
自动故障转移配置好以后,然后使用 start-dfs.sh 群起脚本启动 hdfs 集群,有可能会遇到 NameNode 起来一会后,进程自动关闭的问题。查看 NameNode 日志,报错信息如下:
2020-08-17 10:11:40,658 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop104/192.168.6.104:8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2020-08-17 10:11:40,659 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop102/192.168.6.102:8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2020-08-17 10:11:40,659 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop103/192.168.6.103:8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
查看报错日志,可分析出报错原因是因为 NameNode 连接不上 JournalNode,而利用 jps 命令查看到三台 JN 都已经正常启动,为什么 NN 还是无法正常连接到 JN 呢?这是因为 start-dfs.sh 群起脚本默认的启动顺序是先启动 NN,再启动 DN,然后再启动 JN,并且默认的 rpc 连接参数是重试次数为 10,每次重试的间隔是 1s,也就是说启动完 NN以后的 10s 中内,JN 还启动不起来,NN 就会报错了。
core-default.xml 里面有两个参数如下:
<property>
<name>ipc.client.connect.max.retriesname>
<value>10value>
property>
<property>
<name>ipc.client.connect.retry.intervalname>
<value>1000value>
property>
解决方案:遇到上述问题后,可以稍等片刻,等 JN 成功启动后,手动启动下三台
hdfs --daemon start namenode
也可以在 core-site.xml 里面适当调大上面的两个参数:
<property>
<name>ipc.client.connect.max.retriesname>
<value>20value>
property>
<property>
<name>ipc.client.connect.retry.intervalname>
<value>5000value>
property>
1)官方文档:http://hadoop.apache.org/docs/r3.1.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html
2)YARN-HA 工作机制
naenode206 | naenode120 | naenode101 |
---|---|---|
ResourceManager | ResourceManager | ResourceManager |
NodeManager | NodeManager | NodeManager |
Zookeeper | Zookeeper | Zookeeper |
核心问题
a .如果当前 active rm 挂了,其他 rm 怎么将其他 standby rm 上位
核心原理跟 hdfs 一样,利用了 zk 的临时节点
b. 当前 rm 上有很多的计算程序在等待运行,其他的 rm 怎么将这些程序接手过来接着跑
rm 会将当前的所有计算程序的状态存储在 zk 中,其他 rm 上位后会去读取,然后接
yarn-site.xml
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>
<property>
<name>yarn.resourcemanager.ha.enabledname>
<value>truevalue>
property>
<property>
<name>yarn.resourcemanager.cluster-idname>
<value>cluster-yarn1value>
property>
<property>
<name>yarn.resourcemanager.ha.rm-idsname>
<value>rm206,rm120,rm101value>
property>
<property>
<name>yarn.resourcemanager.hostname.rm206name>
<value>naenode206value>
property>
<property>
<name>yarn.resourcemanager.webapp.address.rm206name>
<value>naenode206:8088value>
property>
<property>
<name>yarn.resourcemanager.address.rm206name>
<value>naenode206:8032value>
property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm206name>
<value>naenode206:8030value>
property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm206name>
<value>naenode206:8031value>
property>
<property>
<name>yarn.resourcemanager.hostname.rm120name>
<value>naenode120value>
property>
<property>
<name>yarn.resourcemanager.webapp.address.rm120name>
<value>naenode120:8088value>
property>
<property>
<name>yarn.resourcemanager.address.rm120name>
<value>naenode120:8032value>
property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm120name>
<value>naenode120:8030value>
property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm120name>
<value>naenode120:8031value>
property>
<property>
<name>yarn.resourcemanager.hostname.rm101name>
<value>naenode101value>
property>
<property>
<name>yarn.resourcemanager.webapp.address.rm101name>
<value>naenode101:8088value>
property>
<property>
<name>yarn.resourcemanager.address.rm101name>
<value>naenode101:8032value>
property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm101name>
<value>naenode101:8030value>
property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm101name>
<value>naenode101:8031value>
property>
<property>
<name>yarn.resourcemanager.zk-addressname>
<value>naenode206:2181,naenode120:2181,naenode101:2181value>
property>
<property>
<name>yarn.resourcemanager.recovery.enabledname>
<value>truevalue>
property>
<property>
<name>yarn.resourcemanager.store.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStorevalue>
property>
<property>
<name>yarn.nodemanager.env-whitelistname>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>
property>
<property>
<name>yarn.log.server.urlname>
<value>http://naenode206:19888/jobhistory/logsvalue>
property>
<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
property>
<property>
<name>yarn.log-aggregation.retain-secondsname>
<value>604800value>
property>
<property>
<name>yarn.nodemanager.local-dirsname>
<value>file:///home/nae/opt/module/hadoop-3.2.2/yarnData/nmvalue>
property>
同步更新其他节点的配置信息,分发配置文件
执行启动脚本
start-yarn.sh
查看服务状态
yarn rmadmin -getServiceState rm206
通过浏览器去访问的话所有standby节点会自动跳转到active节点。
naenode206 | naenode120 | naenode101 |
---|---|---|
NameNode | NameNode | NameNode |
JournalNode | JournalNode | JournalNode |
DataNode | DataNode | DataNode |
Zookeeper | Zookeeper | Zookeeper |
ZKFC | ZKFC | ZKFC |
ResourceManager | ResourceManager | ResourceManager |
NodeManager | NodeManager | NodeManager |