现在已经有了Federation集群,这样就能提供Hadoop大集群的解决方案。不过对于单个namenode server,还是需要HA QJM来提供单点故障的解决方案,使得其可以自动的故障切换。
之前我已经有了两个namenode1和namenode2 server,分别用于管理两个namespace。现在把它们看成active machine, 并clone出两个虚拟机,作为它们的standby machine.
同时QJM需要至少3个JournalNodes,为了省机器,就用datanode1, datanode2和datanode3作为namenode1的JournalNodes. 再创建三个datanode server,同时也作为namenode2的JournalNodes.
架构图:
从datanode1中clone出虚拟机,然后复制到另一台物理主机中,安装后,再克隆出2份
完成之后,发现一个奇怪的现象,每个namenode只能看到3台datanode server, 而且每次看到的还不同。
hduser@namenode1:~$ hdfs dfsadmin -printTopology Rack: /168/1 192.168.1.73:50010 (datanode1) 192.168.1.74:50010 (datanode2) 192.168.1.75:50010 (datanode3) hduser@namenode1:~$ hdfs dfsadmin -printTopology Rack: /168/1 192.168.1.74:50010 (datanode2) 192.168.1.75:50010 (datanode3) 192.168.1.78:50010 (datanode6)
hduser@namenode2:~$ hdfs dfsadmin -printTopology Rack: /168/1 192.168.1.74:50010 (datanode2) 192.168.1.75:50010 (datanode3) 192.168.1.78:50010 (datanode6)
这个可能是hdfs的设计问题,应该不是datanode启动失败,因为我检查了日志,似乎没看到错误信息。先记在这里,以后再查。
(这里已经查明是rackawareness脚本错误导致, 修正后如下) 20140924
还有参数可以看更详细的信息:
hduser@namenode1:/opt$ hdfs dfsadmin -report Configured Capacity: 492139745280 (458.34 GB) Present Capacity: 444624171008 (414.09 GB) DFS Remaining: 444623925248 (414.09 GB) DFS Used: 245760 (240 KB) DFS Used%: 0.00% Under replicated blocks: 0 Blocks with corrupt replicas: 0 Missing blocks: 0 ------------------------------------------------- Live datanodes (5):
更新中...