BigData~03:Hadoop05 ~ HA集群搭建

Hadoop是一个环境敏感的框架,在Win和类Unix上安装的差别较大,但是一般我们都在Linux上进行安装,这里安装的版本为2.6.4,apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编译;

一、环境准备

  • 修改主机名,修改IP,添加主机名和IP的映射关系(/etc/hosts),配置免密登录,配置防火墙(也可以直接关闭);
  • 安装JDK和配置环境变量;

二、集群安装规划

  • 由于是HA集群,所以牵扯到的机器比以前稍多几台,当然也可以共用,提前做好集群的安装规划还是比较好的选择:
    主机名 规划IP 要安装软件 角色
    hdp1 192.168.70.130 JDK、hadoop NameNode、DFSZKFailoverController
    hdp2 192.168.70.131 JDK、hadoop NameNode、DFSZKFailoverController(zkfc)
    hdp3 192.168.70.132 JDK、hadoop ResourceManager
    hdp4 192.168.70.133 JDK、hadoop ResourceManager
    hdp5 192.168.70.135 JDK、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain
    hdp6 192.168.70.136 JDK、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain
    hdp7 192.168.70.137 JDK、hadoop、zookeeper DataNode、NodeManager、JournalNode、QuorumPeerMain
  • 注意:
    1. 在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby状态的NameNode则不对外提供服务,仅同步Active状态的NameNode的状态,以便能够在它失败时快速进行切换。hadoop2.0官方提供了两种HDFS的HA解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。对于QJM,主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数JournalNode即认为写入成功,所以通常配置奇数个JournalNode;这里还配置了一个ZooKeeper集群,用于ZKFC(DFSZKFailoverController)故障转移,当Active状态的NameNode挂掉了,会自动切换Standby状态的NameNode为Active状态;
    2. hadoop-2.2.0中依然存在一个问题,就是ResourceManager只有一个,存在单点故障,hadoop-2.6.4解决了这个问题,有两个ResourceManager,一个是Active,一个是Standby,状态由zookeeper进行协调;

三、开始安装

  1. 安装ZooKeeper集群:
    • 解压tar.gz安装包:tar -zxvf zookeeper-3.4.5.tar.gz -C /usr/local/apps
    • 修改配置:
      • 进入ZK的安装目录(后面简称:)的conf文件夹:cp zoo_sample.cfg zoo.cfg
      • zoo.cfg文件最后添加
        1. 数据输出目录dataDir=,默认是在/tmp文件夹下,不安全,并确保这个文件夹存在;
        2. 节点间的关系,以及通讯接口:2888端口号是zookeeper服务之间通信的端口。 3888端口是zookeeper与其他应用程序通信的端口:
          server.1=hdp5:2888:3888
          server.2=hdp6:2888:3888
          server.3=hdp7:2888:3888
          
      • 把配置好的hadoop安装目录拷贝到hdp6和hdp7:
        scp -r /zookeeper-3.4.5/hdp6:
        scp -r /zookeeper-3.4.5/hdp7:
        
      • 并把节点编号写入各自节点数据输出目录的myid目录,这里的节点编号分别是:1,2,3:
        echo  > /myid
        
  2. 安装Hadoop集群:
    • 解压hadoop-2.6.4.tar.gz
    • 配置环境变量,包括根路径(HADOOP_HOME)和bin;
    • 修改配置文件,这些配置文件全部位于/etc/hadoop目录下:
      • 在hadoo-env.sh文件中添加JAVA_HOME
        export JAVA_HOME=
        
      • 修改core-site.xml,在最后添加:
        
            
                fs.defaultFS
                hdfs://192.168.100.101:9000
                The name of the default file system
            
            
                hadoop.tmp.dir
                /home/hadoop/app/hdpdata/
                A base for other temporary directories
            
            
                ha.zookeeper.quorum
                hdp5:2181,hdp6:2181,hdp7:2181
                A list of ZooKeeper server addresses, separated by commas, that are to be used by the ZKFailoverController in automatic failover.
            
        
        
      • 修改hdfs-site.xml,在最后添加:
        
            
                dfs.nameservices
                ns
                指定hdfs的nameservice为ns,需要和core-site.xml中的保持一致
            
            
                dfs.ha.namenodes.ns
                nn1,nn2
                ns下面有两个NameNode,分别是nn1,nn2
            
            
                dfs.namenode.rpc-address.ns.nn1
                hdp1:9000
                nn1的RPC通信地址
            
            
                dfs.namenode.http-address.ns.nn1
                hdp1:50070
                nn1的http通信地址
            
            
                dfs.namenode.rpc-address.ns.nn2
                hdp2:9000
                nn2的RPC通信地址
            
            
                dfs.namenode.http-address.ns.nn2
                hdp2:50070
                nn2的http通信地址
            
            
                dfs.namenode.shared.edits.dir
                qjournal://hdp5:8485;hdp6:8485;hdp7:8485/ns
                指定NameNode的edits元数据在JournalNode上的存放位置
            
            
                dfs.journalnode.edits.dir
                /home/hdp5/journaldata
                指定JournalNode在本地磁盘存放数据的位置
            
            
                dfs.ha.automatic-failover.enabled
                true
                开启NameNode失败自动切换
            
            
                dfs.client.failover.proxy.provider.ns
                org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
                配置失败自动切换实现方式
            
            
                dfs.ha.fencing.methods
                
                sshfence
                shell(/bin/true)
                
                配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行
            
            
                dfs.ha.fencing.ssh.private-key-files
                /home/shreker/.ssh/id_rsa
                使用sshfence隔离机制时需要ssh免登陆
            
            
                dfs.ha.fencing.ssh.connect-timeout
                30000
                配置sshfence隔离机制超时时间
            
        
        
      • 修改mapred-site.xml,在最后添加:
        
            
                mapreduce.framework.name
                yarn
                指定MR资源调度框架为yarn
            
          
        
      • 修改yarn-site.xml,在最后添加:
        
            
                yarn.resourcemanager.ha.enabled
                true
                开启RM高可用
            
            
                yarn.resourcemanager.cluster-id
                yrc
                指定RM的cluster id
            
            
                yarn.resourcemanager.ha.rm-ids
                rm1,rm2
                指定RM的名字
            
            
                yarn.resourcemanager.hostname.rm1
                hdp3
                指定RM的地址
            
            
                yarn.resourcemanager.hostname.rm2
                hdp4
                指定RM的地址
            
            
                yarn.resourcemanager.zk-address
                hdp5:2181,hdp6:2181,hdp7:2181
                指定zk集群地址
            
            
                yarn.nodemanager.aux-services
                mapreduce_shuffle
                指定服务名称
            
        
        
      • 指定当前节点的子节点,修改slaves文件:
        hdp5
        hdp6
        hdp7
        
  3. 分发配置好的Hadoop到后面的机器:
    scp -r  @:
    
  4. 启动集群
    • 在hdp5、hdp6、hdp7上启动zookeeper集群:
      zkServer.sh start
      
    • 在hdp5、hdp6、hdp7上启动JournalNode:
      hadoop-daemon.sh start journalnode
      
    • 分别在ns的nn1和nn2上初始化HDFS的NameNode,注意两个cluster-id必须一致,完成之后就会把元数据拷贝到对应的StandBy的机器上:
      hdfs namenode -format -clusterID 
      
    • 初始化ZKFC操作:
      hdfs zkfc -formatZK
      
    • 启动HDFS(根据规划在hdp1上执行):
      start-dfs.sh
      
    • 启动YARN(为了性能把NameNode和ResourceManager放在不同的机器上,选择hdp2):
      start-yarn.sh
      

四、验证测试

  1. 访问浏览器:http://hdp1:50070和http://hdp2:50070;
  2. 验证HA
    • 上传文件;
    • 浏览器访问,如1;
    • 干掉hdp1上Active的NameNode:kill -9
    • 浏览器访问,如1,发现hdp2上NameNode的状态已经切换为Active;
    • 启动刚才干掉的NameNode,状态切换为StandBy;

五、常用集群测试命令

  1. 查看hdfs的各节点状态信息
    hdfs dfsadmin -report
    
  2. 获取一个NameNode节点的HA状态
    hdfs haadmin -getServiceState nn1
    
  3. 单独启动一个NameNode进程
    hadoop-daemon.sh start namenode
    
  4. 单独启动一个zkfc进程
    hadoop-daemon.sh start zkfc
    

你可能感兴趣的:(BigData~03:Hadoop05 ~ HA集群搭建)