BigData~03：Hadoop05 ~ HA集群搭建

Hadoop是一个环境敏感的框架，在Win和类Unix上安装的差别较大，但是一般我们都在Linux上进行安装，这里安装的版本为2.6.4，apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编译；

一、环境准备

修改主机名，修改IP，添加主机名和IP的映射关系(/etc/hosts)，配置免密登录，配置防火墙(也可以直接关闭)；
安装JDK和配置环境变量；

二、集群安装规划

由于是HA集群，所以牵扯到的机器比以前稍多几台，当然也可以共用，提前做好集群的安装规划还是比较好的选择：

主机名	规划IP	要安装软件	角色
hdp1	192.168.70.130	JDK、hadoop	NameNode、DFSZKFailoverController
hdp2	192.168.70.131	JDK、hadoop	NameNode、DFSZKFailoverController(zkfc)
hdp3	192.168.70.132	JDK、hadoop	ResourceManager
hdp4	192.168.70.133	JDK、hadoop	ResourceManager
hdp5	192.168.70.135	JDK、hadoop、zookeeper	DataNode、NodeManager、JournalNode、QuorumPeerMain
hdp6	192.168.70.136	JDK、hadoop、zookeeper	DataNode、NodeManager、JournalNode、QuorumPeerMain
hdp7	192.168.70.137	JDK、hadoop、zookeeper	DataNode、NodeManager、JournalNode、QuorumPeerMain

注意：
1. 在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby状态的NameNode则不对外提供服务，仅同步Active状态的NameNode的状态，以便能够在它失败时快速进行切换。hadoop2.0官方提供了两种HDFS的HA解决方案，一种是NFS，另一种是QJM。这里我们使用简单的QJM。对于QJM，主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功，所以通常配置奇数个JournalNode；这里还配置了一个ZooKeeper集群，用于ZKFC(DFSZKFailoverController)故障转移，当Active状态的NameNode挂掉了，会自动切换Standby状态的NameNode为Active状态；
2. hadoop-2.2.0中依然存在一个问题，就是ResourceManager只有一个，存在单点故障，hadoop-2.6.4解决了这个问题，有两个ResourceManager，一个是Active，一个是Standby，状态由zookeeper进行协调；

三、开始安装

安装ZooKeeper集群：
- 解压tar.gz安装包：tar -zxvf zookeeper-3.4.5.tar.gz -C /usr/local/apps；
- 修改配置：
  - 进入ZK的安装目录(后面简称：)的conf文件夹：cp zoo_sample.cfg zoo.cfg；
  - 在zoo.cfg文件最后添加
    1. 数据输出目录dataDir=，默认是在/tmp文件夹下，不安全，并确保这个文件夹存在；
    2. 节点间的关系，以及通讯接口：2888端口号是zookeeper服务之间通信的端口。 3888端口是zookeeper与其他应用程序通信的端口：
```
server.1=hdp5:2888:3888
server.2=hdp6:2888:3888
server.3=hdp7:2888:3888
```
  - 把配置好的hadoop安装目录拷贝到hdp6和hdp7：
```
scp -r /zookeeper-3.4.5/hdp6:
scp -r /zookeeper-3.4.5/hdp7:
```
  - 并把节点编号写入各自节点数据输出目录的myid目录，这里的节点编号分别是：1，2，3：
```
echo  > /myid
```

安装Hadoop集群：

解压hadoop-2.6.4.tar.gz
配置环境变量，包括根路径(HADOOP_HOME)和bin；

修改配置文件，这些配置文件全部位于/etc/hadoop目录下：

在hadoo-env.sh文件中添加JAVA_HOME
```
export JAVA_HOME=
```

修改core-site.xml，在最后添加：


    
        fs.defaultFS
        hdfs://192.168.100.101:9000
        The name of the default file system
    
    
        hadoop.tmp.dir
        /home/hadoop/app/hdpdata/
        A base for other temporary directories
    
    
        ha.zookeeper.quorum
        hdp5:2181,hdp6:2181,hdp7:2181
        A list of ZooKeeper server addresses, separated by commas, that are to be used by the ZKFailoverController in automatic failover.

修改hdfs-site.xml，在最后添加：


    
        dfs.nameservices
        ns
        指定hdfs的nameservice为ns，需要和core-site.xml中的保持一致
    
    
        dfs.ha.namenodes.ns
        nn1,nn2
        ns下面有两个NameNode，分别是nn1，nn2
    
    
        dfs.namenode.rpc-address.ns.nn1
        hdp1:9000
        nn1的RPC通信地址
    
    
        dfs.namenode.http-address.ns.nn1
        hdp1:50070
        nn1的http通信地址
    
    
        dfs.namenode.rpc-address.ns.nn2
        hdp2:9000
        nn2的RPC通信地址
    
    
        dfs.namenode.http-address.ns.nn2
        hdp2:50070
        nn2的http通信地址
    
    
        dfs.namenode.shared.edits.dir
        qjournal://hdp5:8485;hdp6:8485;hdp7:8485/ns
        指定NameNode的edits元数据在JournalNode上的存放位置
    
    
        dfs.journalnode.edits.dir
        /home/hdp5/journaldata
        指定JournalNode在本地磁盘存放数据的位置
    
    
        dfs.ha.automatic-failover.enabled
        true
        开启NameNode失败自动切换
    
    
        dfs.client.failover.proxy.provider.ns
        org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
        配置失败自动切换实现方式
    
    
        dfs.ha.fencing.methods
        
        sshfence
        shell(/bin/true)
        
        配置隔离机制方法，多个机制用换行分割，即每个机制暂用一行
    
    
        dfs.ha.fencing.ssh.private-key-files
        /home/shreker/.ssh/id_rsa
        使用sshfence隔离机制时需要ssh免登陆
    
    
        dfs.ha.fencing.ssh.connect-timeout
        30000
        配置sshfence隔离机制超时时间

修改mapred-site.xml，在最后添加：


    
        mapreduce.framework.name
        yarn
        指定MR资源调度框架为yarn

修改yarn-site.xml，在最后添加：


    
        yarn.resourcemanager.ha.enabled
        true
        开启RM高可用
    
    
        yarn.resourcemanager.cluster-id
        yrc
        指定RM的cluster id
    
    
        yarn.resourcemanager.ha.rm-ids
        rm1,rm2
        指定RM的名字
    
    
        yarn.resourcemanager.hostname.rm1
        hdp3
        指定RM的地址
    
    
        yarn.resourcemanager.hostname.rm2
        hdp4
        指定RM的地址
    
    
        yarn.resourcemanager.zk-address
        hdp5:2181,hdp6:2181,hdp7:2181
        指定zk集群地址
    
    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
        指定服务名称

指定当前节点的子节点，修改slaves文件：
```
hdp5
hdp6
hdp7
```

分发配置好的Hadoop到后面的机器：
```
scp -r  @:
```
启动集群
- 在hdp5、hdp6、hdp7上启动zookeeper集群：
```
zkServer.sh start
```
- 在hdp5、hdp6、hdp7上启动JournalNode：
```
hadoop-daemon.sh start journalnode
```
- 分别在ns的nn1和nn2上初始化HDFS的NameNode，注意两个cluster-id必须一致，完成之后就会把元数据拷贝到对应的StandBy的机器上：
```
hdfs namenode -format -clusterID 
```
- 初始化ZKFC操作：
```
hdfs zkfc -formatZK
```
- 启动HDFS(根据规划在hdp1上执行)：
```
start-dfs.sh
```
- 启动YARN(为了性能把NameNode和ResourceManager放在不同的机器上，选择hdp2)：
```
start-yarn.sh
```

四、验证测试

访问浏览器：http://hdp1:50070和http://hdp2:50070；
验证HA
- 上传文件；
- 浏览器访问，如1；
- 干掉hdp1上Active的NameNode：kill -9 ；
- 浏览器访问，如1，发现hdp2上NameNode的状态已经切换为Active；
- 启动刚才干掉的NameNode，状态切换为StandBy；

五、常用集群测试命令

查看hdfs的各节点状态信息
```
hdfs dfsadmin -report
```
获取一个NameNode节点的HA状态
```
hdfs haadmin -getServiceState nn1
```
单独启动一个NameNode进程
```
hadoop-daemon.sh start namenode
```
单独启动一个zkfc进程
```
hadoop-daemon.sh start zkfc
```

BigData~03：Hadoop05 ~ HA集群搭建

一、环境准备

二、集群安装规划

三、开始安装

四、验证测试

五、常用集群测试命令

你可能感兴趣的:(BigData~03：Hadoop05 ~ HA集群搭建)