Hadoop-HA高可用集群部署

Hadoop HA

HA 概述

(1)所谓 HA(High Availablity),即高可用(7*24 小时不中断服务)。

(2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制:HDFS 的 HA 和 YARN 的 HA。

(3)NameNode 主要在以下两个方面影响 HDFS 集群

➢ NameNode 机器发生意外,如宕机,集群将无法使用,直到管理员重启

➢ NameNode 机器需要升级,包括软件、硬件升级,此时集群也将无法使用

HDFS HA 功能通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将 NameNode 很快的切换到另外一台机器。

HDFS-HA 集群搭建

当前 HDFS 集群的规划

naenode206 naenode120 naenode101
NameNode SecondaryNameNode
DataNode DataNode DataNode

HA 的主要目的是消除 namenode 的单点故障,需要将 hdfs 集群规划成以下模样

naenode206 naenode120 naenode101
NameNode NameNode NameNode
DataNode DataNode DataNode

HDFS-HA 核心问题

1)怎么保证三台 namenode 的数据一致

​ a.Fsimage:让一台 nn 生成数据,让其他机器 nn 同步

​ b.Edits:需要引进新的模块 JournalNode 来保证 edtis 的文件的数据一致性

2)怎么让同时只有一台 nn 是 active,其他所有是 standby 的

​ a.手动分配

​ b.自动分配

3)2nn 在 ha 架构中并不存在,定期合并 fsimage 和 edtis 的活谁来干

​ 由 standby 的 nn 来干

4)如果 nn 真的发生了问题,怎么让其他的 nn 上位干活

​ a.手动故障转移

​ b.自动故障转移

HDFS-HA 手动模式

规划集群

naenode206 naenode120 naenode101
NameNode NameNode NameNode
JournalNode JournalNode JournalNode
DataNode DataNode DataNode

配置 HDFS-HA 集群

1)官方地址:http://hadoop.apache.org/

2)将hadoop目录解压放到目录/home/nae/opt/module下,并将用户组权限设置为nae,如果之前目录下有data和log目录需要将其删除

3)配置 core-site.xml


<property>
    <name>fs.defaultFSname>
    <value>hdfs://myclustervalue>
property>

<property>
    <name>hadoop.tmp.dirname>
    <value>/home/nae/opt/module/hadoop-3.1.3/datavalue>
property>

4)配置 hdfs-site.xml


<property>
    <name>dfs.namenode.name.dirname>
    <value>file://${hadoop.tmp.dir}/namevalue>
property>

<property>
    <name>dfs.datanode.data.dirname>
    <value>file://${hadoop.tmp.dir}/datavalue>
property>

<property>
    <name>dfs.journalnode.edits.dirname>
    <value>${hadoop.tmp.dir}/jnvalue>
property>

<property>
    <name>dfs.nameservicesname>
    <value>myclustervalue>
property>

<property>
    <name>dfs.ha.namenodes.myclustername>
    <value>nn206,nn120,nn101value>
property>

<property>
    <name>dfs.namenode.rpc-address.mycluster.nn206name>
    <value>naenode206:8020value>
property>
<property>
    <name>dfs.namenode.rpc-address.mycluster.nn120name>
    <value>naenode120:8020value>
property>
<property>
    <name>dfs.namenode.rpc-address.mycluster.nn101name>
    <value>naenode101:8020value>
property>

<property>
    <name>dfs.namenode.http-address.mycluster.nn206name>
    <value>naenode206:9870value>
property>
<property>
    <name>dfs.namenode.http-address.mycluster.nn120name>
    <value>naenode120:9870value>
property>
<property>
    <name>dfs.namenode.http-address.mycluster.nn101name>
    <value>naenode101:9870value>
property>

<property>
    <name>dfs.namenode.shared.edits.dirname>
    <value>qjournal://naenode206:8485;naenode120:8485;naenode101:8485/myclustervalue>
property>

<property>
    <name>dfs.client.failover.proxy.provider.myclustername>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
property>

<property>
    <name>dfs.ha.fencing.methodsname>
    <value>sshfencevalue>
property>

<property>
    <name>dfs.ha.fencing.ssh.private-key-filesname>
    <value>/home/nae/.ssh/id_rsavalue>
property>

5)分发配置好的 hadoop 环境到其他节点

启动 HDFS-HA 集群

1)将 HADOOP_HOME 环境变量更改到 HA 目录(三台机器)

sudo vim /etc/profile.d/my_env.sh

## 将 HADOOP_HOME 部分改为如下
#HADOOP_HOME
export HADOOP_HOME=/opt/ha/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

去三台机器上 source 环境变量

source /etc/profile

2)在各个 JournalNode 节点上,输入以下命令启动 journalnode 服务

hdfs --daemon start journalnode

3)在[nn206]上,对其进行格式化,并启动

hdfs namenode -format
hdfs --daemon start namenode

4)在[nn120]和[nn101]上,同步 nn1 的元数据信息

hdfs namenode -bootstrapStandby

5)启动[nn120]和[nn101]

hdfs --daemon start namenode

6)查看是否为Active

hdfs haadmin -getServiceState nn206
## 此时所有的节点均为standby

7)在所有节点上,启动 datanode

hdfs --daemon start datanode

9)将[nn206]切换为 Active,手动模式下,进行Active的提升,需要所有的nn节点都启动,这样是为了防止出现脑裂

hdfs haadmin -transitionToActive nn206

10)查看是否 Active

hdfs haadmin -getServiceState nn206
## 此时nn206成为Active

HDFS-HA 自动模式

HDFS-HA 自动故障转移工作机制

自动故障转移为 HDFS 部署增加了两个新组件:ZooKeeper 和 ZKFailoverController(ZKFC)进程,如图所示。ZooKeeper 是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务。

HDFS-HA故障转移机制

在这里插入图片描述

HDFS-HA 自动故障转移的集群规划

naenode206 naenode120 naenode101
NameNode NameNode NameNode
JournalNode JournalNode JournalNode
DataNode DataNode DataNode
Zookeeper Zookeeper Zookeeper
ZKFC ZKFC ZKFC

配置 HDFS-HA 自动故障转移

1)具体配置

(1)在 core-site.xml 中配置


<property>
    <name>fs.defaultFSname>
    <value>hdfs://myclustervalue>
property>

<property>
    <name>hadoop.tmp.dirname>
    <value>/home/nae/opt/module/hadoop-3.1.3/datavalue>
property>

<property>
    <name>ha.zookeeper.quorumname>
    <value>naenode206:2181,naenode120:2181,naenode101:2181value>
property>

(2)在 hdfs-site.xml 中配置


<property>
    <name>dfs.ha.automatic-failover.enabledname>
    <value>truevalue>
property>

<property>
    <name>dfs.namenode.name.dirname>
    <value>file://${hadoop.tmp.dir}/namevalue>
property>

<property>
    <name>dfs.datanode.data.dirname>
    <value>file://${hadoop.tmp.dir}/datavalue>
property>

<property>
    <name>dfs.journalnode.edits.dirname>
    <value>${hadoop.tmp.dir}/jnvalue>
property>

<property>
    <name>dfs.nameservicesname>
    <value>myclustervalue>
property>

<property>
    <name>dfs.ha.namenodes.myclustername>
    <value>nn206,nn120,nn101value>
property>

<property>
    <name>dfs.namenode.rpc-address.mycluster.nn206name>
    <value>naenode206:8020value>
property>
<property>
    <name>dfs.namenode.rpc-address.mycluster.nn120name>
    <value>naenode120:8020value>
property>
<property>
    <name>dfs.namenode.rpc-address.mycluster.nn101name>
    <value>naenode101:8020value>
property>

<property>
    <name>dfs.namenode.http-address.mycluster.nn206name>
    <value>naenode206:9870value>
property>
<property>
    <name>dfs.namenode.http-address.mycluster.nn120name>
    <value>naenode120:9870value>
property>
<property>
    <name>dfs.namenode.http-address.mycluster.nn101name>
    <value>naenode101:9870value>
property>

<property>
    <name>dfs.namenode.shared.edits.dirname>
    <value>qjournal://naenode206:8485;naenode120:8485;naenode101:8485/myclustervalue>
property>

<property>
    <name>dfs.client.failover.proxy.provider.myclustername>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
property>

<property>
    <name>dfs.ha.fencing.methodsname>
    <value>sshfencevalue>
property>

<property>
    <name>dfs.ha.fencing.ssh.private-key-filesname>
    <value>/home/nae/.ssh/id_rsavalue>
property>

(3)修改后分发配置文件

2)启动

(1)在[nn206]上,对其进行格式化,并启动

hdfs namenode -format
hdfs --daemon start namenode

(2)在[nn120]和[nn101]上,同步 nn206 的元数据信息

hdfs namenode -bootstrapStandby

(3)启动Zookeeper,然后再初始化 HA 在 Zookeeper 中状态:

hdfs zkfc -formatZK

(4)启动 HDFS 服务:

start-dfs.sh

(5)可以去 zkCli.sh 客户端查看 Namenode 选举锁节点内容:

[zk: localhost:2181(CONNECTED) 0] get -s /hadoop-ha/mycluster/ActiveStandbyElectorLock

        myclusternn206
naenode206 �>(�>
cZxid = 0xa00d0c05a
ctime = Tue Jan 25 15:29:11 CST 2022
mZxid = 0xa00d0c05a
mtime = Tue Jan 25 15:29:11 CST 2022
pZxid = 0xa00d0c05a
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x7800000b2e040016
dataLength = 36
numChildren = 0

此时naenode206为active节点,而其他节点为standby

3)验证

将 Active NameNode 进程 kill,查看网页端三台 Namenode 的状态变化,可以看到自动进行了故障转移。

并且所有的读写操作必须在active节点进行,不能在standby节点操作。因此需要进行上传时需要的active节点操作,或者使用以下语句

hadoop fs -put README.txt hdfs://mycluster/ 

解决 NN 连接不上 JN 的问题

自动故障转移配置好以后,然后使用 start-dfs.sh 群起脚本启动 hdfs 集群,有可能会遇到 NameNode 起来一会后,进程自动关闭的问题。查看 NameNode 日志,报错信息如下:

2020-08-17 10:11:40,658 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop104/192.168.6.104:8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2020-08-17 10:11:40,659 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop102/192.168.6.102:8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2020-08-17 10:11:40,659 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop103/192.168.6.103:8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

查看报错日志,可分析出报错原因是因为 NameNode 连接不上 JournalNode,而利用 jps 命令查看到三台 JN 都已经正常启动,为什么 NN 还是无法正常连接到 JN 呢?这是因为 start-dfs.sh 群起脚本默认的启动顺序是先启动 NN,再启动 DN,然后再启动 JN,并且默认的 rpc 连接参数是重试次数为 10,每次重试的间隔是 1s,也就是说启动完 NN以后的 10s 中内,JN 还启动不起来,NN 就会报错了。

core-default.xml 里面有两个参数如下:


<property>
    <name>ipc.client.connect.max.retriesname>
    <value>10value>
property>

<property>
    <name>ipc.client.connect.retry.intervalname>
    <value>1000value>
property>

解决方案:遇到上述问题后,可以稍等片刻,等 JN 成功启动后,手动启动下三台

hdfs --daemon start namenode

也可以在 core-site.xml 里面适当调大上面的两个参数:


<property>
    <name>ipc.client.connect.max.retriesname>
    <value>20value>
property>

<property>
    <name>ipc.client.connect.retry.intervalname>
    <value>5000value>
property>

YARN-HA 配置

YARN-HA 工作机制

1)官方文档:http://hadoop.apache.org/docs/r3.1.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html

2)YARN-HA 工作机制

Hadoop-HA高可用集群部署_第1张图片

配置 YARN-HA 集群

规划集群

naenode206 naenode120 naenode101
ResourceManager ResourceManager ResourceManager
NodeManager NodeManager NodeManager
Zookeeper Zookeeper Zookeeper

核心问题

a .如果当前 active rm 挂了,其他 rm 怎么将其他 standby rm 上位

核心原理跟 hdfs 一样,利用了 zk 的临时节点

b. 当前 rm 上有很多的计算程序在等待运行,其他的 rm 怎么将这些程序接手过来接着跑

rm 会将当前的所有计算程序的状态存储在 zk 中,其他 rm 上位后会去读取,然后接

具体配置

yarn-site.xml

<property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
property>

<property>
    <name>yarn.resourcemanager.ha.enabledname>
    <value>truevalue>
property>

<property>
    <name>yarn.resourcemanager.cluster-idname>
    <value>cluster-yarn1value>
property>


<property>
    <name>yarn.resourcemanager.ha.rm-idsname>
    <value>rm206,rm120,rm101value>
property>


<property>
    <name>yarn.resourcemanager.hostname.rm206name>
    <value>naenode206value>
property>

<property>
    <name>yarn.resourcemanager.webapp.address.rm206name>
    <value>naenode206:8088value>
property>

<property>
    <name>yarn.resourcemanager.address.rm206name>
    <value>naenode206:8032value>
property>

<property>
    <name>yarn.resourcemanager.scheduler.address.rm206name>
    <value>naenode206:8030value>
property>

<property>
    <name>yarn.resourcemanager.resource-tracker.address.rm206name>
    <value>naenode206:8031value>
property>


<property>
    <name>yarn.resourcemanager.hostname.rm120name>
    <value>naenode120value>
property>
<property>
    <name>yarn.resourcemanager.webapp.address.rm120name>
    <value>naenode120:8088value>
property>
<property>
    <name>yarn.resourcemanager.address.rm120name>
    <value>naenode120:8032value>
property>
<property>
    <name>yarn.resourcemanager.scheduler.address.rm120name>
    <value>naenode120:8030value>
property>
<property>
    <name>yarn.resourcemanager.resource-tracker.address.rm120name>
    <value>naenode120:8031value>
property>

<property>
    <name>yarn.resourcemanager.hostname.rm101name>
    <value>naenode101value>
property>
<property>
    <name>yarn.resourcemanager.webapp.address.rm101name>
    <value>naenode101:8088value>
property>
<property>
    <name>yarn.resourcemanager.address.rm101name>
    <value>naenode101:8032value>
property>
<property>
    <name>yarn.resourcemanager.scheduler.address.rm101name>
    <value>naenode101:8030value>
property>
<property>
    <name>yarn.resourcemanager.resource-tracker.address.rm101name>
    <value>naenode101:8031value>
property>


<property>
    <name>yarn.resourcemanager.zk-addressname>
    <value>naenode206:2181,naenode120:2181,naenode101:2181value>
property>

<property>
    <name>yarn.resourcemanager.recovery.enabledname>
    <value>truevalue>
property>

<property>
    <name>yarn.resourcemanager.store.classname>
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStorevalue>
property>

<property>
    <name>yarn.nodemanager.env-whitelistname>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>
property>



<property>
    <name>yarn.log.server.urlname>
    <value>http://naenode206:19888/jobhistory/logsvalue>
property>


<property>
    <name>yarn.log-aggregation-enablename>
    <value>truevalue>
property>

<property>
    <name>yarn.log-aggregation.retain-secondsname>
    <value>604800value>
property>


<property>
    <name>yarn.nodemanager.local-dirsname>
    <value>file:///home/nae/opt/module/hadoop-3.2.2/yarnData/nmvalue>
property>

同步更新其他节点的配置信息,分发配置文件

启动 YARN

执行启动脚本

start-yarn.sh

查看服务状态

yarn rmadmin -getServiceState rm206

通过浏览器去访问的话所有standby节点会自动跳转到active节点。

Hadoop-HA 最终集群

naenode206 naenode120 naenode101
NameNode NameNode NameNode
JournalNode JournalNode JournalNode
DataNode DataNode DataNode
Zookeeper Zookeeper Zookeeper
ZKFC ZKFC ZKFC
ResourceManager ResourceManager ResourceManager
NodeManager NodeManager NodeManager

你可能感兴趣的:(hadoop,hdfs,big,data)