Hadoop: High Available

序言

  • 在Hadoop 2.X以前的版本,NameNode面临单点故障风险(SPOF),也就是说,一旦NameNode节点挂了,整个集群就不可用了,而且需要借助辅助NameNode来手工干预重启集群,这将延长集群的停机时间。
  • Hadoop 2.X版本只支持一个备用节点用于自动恢复NameNode故障,即HDFS 支持一主一备的架构
  • Hadoop 3.X版本则支持多个备用NameNode节点,最多支持 5 个,官方推荐使用 3 个

基于Hadoop3.x. 总的来说就是要借助Zookeeper来实现高可用,然后就是编辑Hadoop的配置文件已实现高可用[email protected]

High Available Of HDFS

总体架构图如下所示

Hadoop: High Available_第1张图片

Hadoop 实现自动故障切换需要用到下面的组件:

  • ZooKeeper
  • ZKFailoverController 进程(ZKFC)

ZooKeeper 

ZooKeeper quorum 是一种集中式服务,主要为分布式应用提供协调、配置、命名空间等功能。它提供组服务和数据同步服务,它让客户端可以实时感知数据的更改,并跟踪客户端故障。HDFS故障自动切换的实现依赖下面两个方面:

  • 故障监测:ZooKeeper维护一个和NameNode之间的会话。如果NameNode发生故障,该会话就会过期,会话一旦失效了,ZooKeeper将通知其他NameNode启动故障切换进程。

  • 活动NameNode选举:ZooKeeper提供了一种活动节点选举机制。只要活动的NameNode发生故障失效了,其他NameNode将从ZooKeeper获取一个排它锁,并把自身声明为活动的NameNode。

ZKFailoverController(ZKFC)

ZKFC 是 ZooKeeper 的监控和管理 namenode 的一个客户端。所以每个运行 namenode 的机器上都会有 ZKFC。

那ZKFC具体作用是什么?主要有以下3点:

状态监控:ZKFC 会定期用 ping 命令监测活动的 NameNode,如果 NameNode 不能及时响应ping 命令,那么 ZooKeeper 就会判断该活动的 NameNode 已经发生故障了。

ZooKeeper会话管理:如果 NameNode 是正常的,那么它和 ZooKeeper 会保持一个会话,并持有一个 znode 锁。如果会话失效了,那么该锁将自动释放。

基于ZooKeeper的选举:如果 NameNode 是正常的,ZKFC 知道当前没有其他节点持有 znode 锁,那么 ZKFC 自己会试图获取该锁,如果锁获取成功,那么它将赢得选举,并负责故障切换工作。这里的故障切换过程其实和手动故障切换过程是类似的;先把之前活动的节点进行隔离,然后把 ZKFC 所在的机器变成活动的节点。

要求

  • 如此来讲NameNode之间不会有直接的交互,NameNode只通过ZKFC跟ZooKeeper连接,以此来保证可用性,
  • 各个NameNode会实时监控JournalNode,查看是否有新的变化,如果有就自动更新到自己的环境中,以此来保证一致性[email protected]

NameNode服务器:运行NameNode的服务器应该有相同的硬件配置

JournalNode服务器:运行的JournalNode进程非常轻量,可以部署在其他的服务器上。注意:必须允许至少3个节点。当然可以运行更多,但是必须是奇数个,如3、5、7、9个等等。

当运行N个节点时,系统可以容忍至少(N-1)/2(N至少为3)个节点失败而不影响正常运行。

在HA集群中,standby状态的NameNode可以完成checkpoint操作,因此没必要配置Secondary NameNode、CheckpointNode、BackupNode。如果真的配置了,还会报错。

配置

core-site.xml

 
    
    
        fs.defaultFS
        hdfs://mycluster
    


    
    
        hadoop.tmp.dir
        /opt/hadoop3.2/data
    

    
    
        ha.zookeeper.quorum
        centos1:2181,centos2:2181,centos3:2181
    



    
    
        hadoop.http.staticuser.user
        bigdata
    

    
    
        hadoop.proxyuser.bigdata.hosts
        *
    

    
        hadoop.proxyuser.bigdata.groups
        *
    

hdfs-site.xml

 


  
  
    dfs.nameservices
    mycluster
  


  
  
    dfs.ha.namenodes.mycluster
    nn1,nn2,nn3
  


  
  
    dfs.namenode.rpc-address.mycluster.nn1
    centos1:8020
  
  
    dfs.namenode.rpc-address.mycluster.nn2
    centos2:8020
  
  
    dfs.namenode.rpc-address.mycluster.nn3
    centos3:8020
  


  
  
    dfs.namenode.http-address.mycluster.nn1
    centos1:9870
  
  
    dfs.namenode.http-address.mycluster.nn2
    centos2:9870
  
  
    dfs.namenode.http-address.mycluster.nn3
    centos3:9870
  


  
  
    dfs.namenode.shared.edits.dir
    qjournal://centos1:8485;centos2:8485;centos3:8485/mycluster
  



  

  
    dfs.client.failover.proxy.provider.mycluster
 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
  



  
  
    dfs.ha.fencing.methods
    sshfence
    shell(/bin/true)
  
  
    dfs.ha.fencing.ssh.private-key-files
    /home/bigdata/.ssh/id_rsa
  
  
    dfs.ha.nn.not-become-active-in-safemode
    true
  


  
  
    dfs.ha.automatic-failover.enabled
    true
  


  
  
    dfs.namenode.name.dir
    ${hadoop.tmp.dir}/name
  


  
  
    dfs.namenode.data.dir
    ${hadoop.tmp.dir}/data
  


  
  
    dfs.journalnode.edits.dir
    ${hadoop.tmp.dir}/jn
  

yarn-site.xml

yarn也支持高可用,同时依赖于zookeeper

 
      


    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    





    
        yarn.nodemanager.env-whitelist
        
       JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
    

    
    
        yarn.application.classpath
        
          /opt/hadoop3.2/etc/hadoop:/opt/hadoop3.2/share/hadoop/common/lib/*:/opt/hadoop3.2/share/hadoop/common/*:/opt/hadoop3.2/share/hadoop/hdfs:/opt/hadoop3.2/share/hadoop/hdfs/lib/*:/opt/hadoop3.2/share/hadoop/hdfs/*:/opt/hadoop3.2/share/hadoop/mapreduce/lib/*:/opt/hadoop3.2/share/hadoop/mapreduce/*:/opt/hadoop3.2/share/hadoop/yarn:/opt/hadoop3.2/share/hadoop/yarn/lib/*:/opt/hadoop3.2/share/hadoop/yarn/*
    


 
    
        yarn.resourcemanager.ha.enabled
        true
    

 
    
        yarn.resourcemanager.cluster-id
        yarn-cluster
    


    
    
        yarn.resourcemanager.ha.rm-ids
        rm1,rm2,rm3
    




    
    
        yarn.resourcemanager.hostname.rm1
        centos1
    

    
    
        yarn.resourcemanager.webapp.address.rm1
        centos1:8088
    

    
    
        yarn.resourcemanager.address.rm1
        centos1:8032
    

    
    
        yarn.resourcemanager.scheduler.address.rm1
        centos1:8030
    

    
    
        yarn.resourcemanager.resource-tracker.address.rm1
        centos1:8031
    

    
    
        yarn.resourcemanager.hostname.rm2
        centos2
    

    
    
        yarn.resourcemanager.webapp.address.rm2
        centos2:8088
    

    
    
        yarn.resourcemanager.address.rm2
        centos2:8032
    

    
    
        yarn.resourcemanager.scheduler.address.rm2
        centos2:8030
    

    
    
        yarn.resourcemanager.resource-tracker.address.rm2
        centos2:8031
    


    
    
        yarn.resourcemanager.hostname.rm3
        centos3
    

    
    
        yarn.resourcemanager.webapp.address.rm3
        centos3:8088
    

    
        yarn.resourcemanager.address.rm3
        centos3:8032
    

    
    
        yarn.resourcemanager.scheduler.address.rm3
        centos3:8030
    

    
    
        yarn.resourcemanager.resource-tracker.address.rm3
        centos3:8031
    


 
    
        yarn.resourcemanager.zk-address
        centos1:2181,centos2:2181,centos3:2181
    

    
    
        yarn.resourcemanager.recovery.enabled
        true
    

    
    
        yarn.resourcemanager.store.class
     org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
    

    
    
        yarn.log-aggregation-enable
        true
    

    
    
        yarn.log.server.url
        http://centos1:19888/jobhistory/logs
    

    
    
        yarn.log-aggregation.retain-seconds
        604800
    

mapred-site.xml

这个配置文件没什么变动

 
    
        mapreduce.framework.name
        yarn
    
    
    
        mapreduce.jobhistory.address
        centos1:10020
    
    
    
        mapreduce.jobhistory.webapp.address
        centos1:19888
    

workers------从主节点上启动,会去启动这里面包含的子节点。

这里增加工作节点的ip或者机器名,如:

centos1
centos2
centos3

启动

启动zookeeper集群

初始化ZKFC

ZKFC用于监控active namenode节点是否挂掉,通知其它节点上的ZKFC强行杀死自己ZKFC节点上的namenode(防止其假死状态产生集群namenode脑裂的发生),然后选举出其他namenode为active节点。首次在主节点执行

shell ${HADOOP_HOME}/bin/hdfs zkfc -formatZK

启动journalnode进程

每个节点执行

 ${HADOOP_HOME}/bin/hdfs --daemon start journalnode

启动namenode

主节点执行

/bin/hdfs namenode -format

/bin/hdfs --daemon start namenode

其它节点执行

/bin/hdfs namenode -bootstrapStandby

验证

测试HDFS高可用

kill -9 active namenode进程,查看页面状态,可发现另外某个namenode自动切换成active状态。

验证YARN高可用

访问任意resourcemanager节点的8088都会跳转到固定的一个resourcemanager节点上,说明高可用配置成功。

你可能感兴趣的:(Big,Data,Storage,Big,Data,Computing,hadoop)