Hadoop生态圈即全部组件
1) 故障检测:
故障检测:集群中的每个 NameNode 在 ZooKeeper 中维护了一个持久会话,如果
机器崩溃,ZooKeeper 中的会话将终止,ZooKeeper 通知另一个 NameNode 需要触发故障转
移。
2)现役 NameNode 选择:
现役 NameNode 选择:ZooKeeper 提供了一个简单的机制用于唯一的选择一个节点
为 active 状态。如果目前现役 NameNode 崩溃,另一个节点可能从 ZooKeeper 获得特殊的
排外锁以表明它应该成为现役 NameNode。
ZKFC 是自动故障转移中的另一个新组件,是 ZooKeeper 的客户端,也监视和管理
NameNode 的状态。每个运行 NameNode 的主机也运行了一个 ZKFC 进程,ZKFC 负责:
1)健康监测:ZKFC 使用一个健康检查命令定期地 ping 与之在相同主机的 NameNode,
只要该 NameNode 及时地回复健康状态,ZKFC 认为该节点是健康的。如果该节点崩溃,冻
结或进入不健康状态,健康监测器标识该节点为非健康的。
2 )ZooKeeper 会话管理:当本地 NameNode 是健康的,ZKFC 保持一个在 ZooKeeper
中打开的会话。如果本地 NameNode 处于 active 状态,ZKFC 也保持一个特殊的 znode 锁,
该锁使用了 ZooKeeper 对短暂节点的支持,如果会话终止,锁节点将自动删除。
3)于 基于 ZooKeeper 的选择:如果本地 NameNode 是健康的,且 ZKFC 发现没有其它的
节点当前持有 znode 锁,它将为自己获取该锁。如果成功,则它已经赢得了选择,并负责运
行故障转移进程以使它的本地 NameNode 为 Active。故障转移进程与前面描述的手动故障转
移相似,首先如果必要保护之前的现役 NameNode,然后本地 NameNode 转换为 Active 状
态。
1. 修改 IP
2. 修改主机名及主机名和 IP 地址的映射
3. 关闭防火墙
4. ssh 免密登录
5. 安装 JDK,配置环境变量等
表 3-1
master1 |
slave1 |
slave2 |
NameNode | NameNode | |
JournalNode | JournalNode |
JournalNode |
DataNode | DataNode |
DataNode |
ZK |
ZK | ZK |
ResourceManager | ||
NodeManager | NodeManager |
NodeManager |
[hadoop@master1 module]$ vim /opt/module/hadoop-2.6.0/etc/hadoop/core-site.xml
[hadoop@master1 module]$ vim /opt/module/hadoop-2.6.0/etc/hadoop/hdfs-site.xml
[hadoop@master1 module]$ vim /opt/module/hadoop-2.6.0/etc/hadoop/yarn-site.xml
[hadoop@master1 module]$ vim /opt/module/hadoop-2.6.0/etc/hadoop/mapred-site.xml
1. 官方地址:
http://hadoop.apache.org/
2. 创建 ha 文件夹
[hadoop@master1 module]$ mkdir ha
3. 将的 hadoop-2.6.0 拷贝到/ha/ 目录下
[hadoop@master1 module]$ cp -r hadoop-2.6.0/ ha/
4. 重新配置hdfs-site.xml
[hadoop@master1 module]$ vim ha/hadoop-2.6.0/etc/hadoop/hdfs-site.xml
全替换为如下内容:
指定了两个NameNode,和它的rpa的通信地址,以及它的HTTP 50070 web访问地址
dfs.replication
1
副本
dfs.nameservices
总服务
dfs.ha.namenodes.mycluster
nn1,nn2
NameNode
dfs.namenode.rpc-address.mycluster.nn1
master1:8020
dfs.namenode.rpc-address.mycluster.nn2
slave1:8020
dfs.namenode.http-address.mycluster.nn1
master1:50070
dfs.namenode.http-address.mycluster.nn2
slave1:50070
dfs.namenode.shared.edits.dir
协议://master1:8485;slave1:8485;slave2:8485/总服务名字
协议
dfs.client.failover.proxy.provider.mycluster
代理类/value>
dfs.permissions.enable
false
dfs.ha.fencing.methods
隔离机制
dfs.ha.fencing.ssh.private-key-files
ssh
ssh
5、配置文件系统core-site.xml
[hadoop@master1 module]$ vim ha/hadoop-2.6.0/etc/hadoop/core-site.xml
全替换为如下内容:
fs.defaultFS
hdfs://前面的总服务名字
hadoop.tmp.dir
节点上本地的hadoop临时文件夹(前面自己自定义的目录)
dfs.journalnode.edits.dir
自定义jn的data数据存储目录
5、删除data/和logs/目录
因为是新的集群、需要重新格式化NameNode
[hadoop@master1 hadoop-2.6.0]$ rm -rf data/ logs/
6、分发 ha/ 到从机
[hadoop@master1 module]$ xsync ha/
1. 在各个 JournalNode 节点上,输入以下命令启动 journalnode 服务
[hadoop@master1 hadoop-2.6.0]$ sbin/hadoop-daemon.sh start journalnode
[hadoop@master1 hadoop-2.6.0]$ sbin/hadoop-daemon.sh start journalnode
[hadoop@master1 hadoop-2.6.0]$ sbin/hadoop-daemon.sh start journalnode
[hadoop@master1 hadoop-2.6.0]$ jps
8176 Jps
8129 JournalNode
2. 查看此时目录下新生成的 logs/
都是 journalnode 启动后的日志文件
[hadoop@master1 hadoop-2.6.0]$ ll logs
total 44
-rw-rw-r-- 1 hadoop hadoop 33103 Nov 26 01:40 hadoop-hadoop-journalnode-master1.log
-rw-rw-r-- 1 hadoop hadoop 716 Nov 26 01:40 hadoop-hadoop-journalnode-master1.out
-rw-rw-r-- 1 hadoop hadoop 2805 Nov 26 01:38 hadoop-hadoop-journalnode-master1.out.1
-rw-rw-r-- 1 hadoop hadoop 0 Nov 26 01:38 SecurityAuth-hadoop.audit
3. 在[nn1]上,对其进行格式化,并启动
[hadoop@master1 hadoop-2.6.0]$ bin/hdfs namenode -format
[hadoop@master1 hadoop-2.6.0]$ sbin/hadoop-daemon.sh start namenode
[hadoop@master1 hadoop-2.6.0]$ jps
6305 JournalNode
6625 Jps
6547 NameNode
4. 在[nn2]上,同步 nn1 的元数据信息
[hadoop@slave1 hadoop-2.6.0]$ bin/hdfs namenode -bootstrapStandby
出现如下反馈信息,则OK!
5. 启动[nn2]的NameNode
[hadoop@slave1 hadoop-2.6.0]$ sbin/hadoop-daemon.sh start namenode
[hadoop@slave1 hadoop-2.6.0]$ jps
8900 Jps
8550 JournalNode
8830 NameNode
6. 查看 web 页面显示,如图所示
访问web网页查看:
master1(nn1):http://192.168.65.161:50070/
slave1(nn2):http://192.168.65.162:50070/
7. 在[nn1]上,启动所有 datanode
关系:start 调 hadoop-daemons的群起脚本 ,daemons去调用遍历slaves.sh 调用它们 daemon 命令。
群起(daemons)、单启(daemon)都可以
[hadoop@master1 hadoop-2.6.0]$ sbin/hadoop-daemons.sh start datanode
datanode虽然启动了,但是现在只能看,不能用
8. 将[nn1]切换为 Active
[hadoop@master1 hadoop-2.6.0]$ bin/hdfs haadmin -transitionToActive nn1
激活了nn1
9. 查看是否 Active
[hadoop@master1 hadoop-2.6.0]$ bin/hdfs haadmin -getServiceState nn1
1. 具体配置
dfs.ha.automatic-failover.enabled
true
ha.zookeeper.quorum
master1:2181,slave1:2181,slave2:2181
[hadoop@master1 hadoop-2.6.0]$ xsync etc/hadoop
2. 启动
[hadoop@master1 hadoop-2.6.0]$ sbin/stop-dfs.sh
[hadoop@master1 hadoop-2.6.0]$ zk.sh start
[hadoop@master1 hadoop-2.6.0]$ bin/hdfs zkfc -formatZK
此时在Zk客户端 可以查看到初始化了什么内容(创建了HA节点)
[hadoop@master1 zookeeper-3.4.5]$ bin/zkCli.sh
.........
[zk: localhost:2181(CONNECTED) 2] ls /
[cluster, ...., zookeeper, hadoop-ha, ....,hbase]
[zk: localhost:2181(CONNECTED) 3] ls /hadoop-ha
[mycluster]
[zk: localhost:2181(CONNECTED) 4] ls /hadoop-ha/mycluster
[]
[hadoop@master1 hadoop-2.6.0]$ sbin/start-dfs.sh
查看启动的进程
个机器的 NameNode 就是 Active NameNode
[hadoop@master1 hadoop-2.6.0]$ sbin/hadoop-daemin.sh start zkfc
3. 验证
kill -9 namenode 的进程 id
[hadoop@master1 hadoop-2.6.0]$ jps
10535 Jps
10008 DataNode
10201 JournalNode
9514 QuorumPeerMain
10381 DFSZKFailoverController
9902 NameNode
[hadoop@master1 hadoop-2.6.0]$ kill -9 9902
PS:此时web端可以看到,master1的页面已经死掉了。而slave1的页面 standby 由变成了 active
此时在启动master1的nodename,那么他就是 standby 因为 slacve1 的锁没掉
hadoop@master1 hadoop-2.6.0]$ sbin/hadoop-daemon.sh start namenode
service network stop