CG国斌

HDFS 集群无法启动 DataNode 节点以及管理界面缺少 DataNode 节点的解决方法

文章目录

前言

1 问题描述
2 尝试解决

2.1 解决 ISSUE 2
2.1 解决 ISSUE 1

3 总结

前言

搭建了一个 HDFS 集群，用了 3 台虚拟机，1 台虚拟机是master作为NameNode节点；2 台虚拟机分别是slave1和slave2作为DataNode节点，具体的集群搭建过程可参考「快速搭建 HDFS 系统（超详细版）」这篇博文。

1 问题描述

在搭建 HDFS 集群的过程中，难免会遇到一些稀奇古怪的问题，就如我遇到的这个问题一样：

ISSUE 1，HDFS 集群搭建并启动成功，1 个NameNode节点和 2 个DataNode节点也运行正常，可以在各自的虚拟机中用jps命令查看正在运行的 Java 进程，但是通过http://master:50070/dfshealth.html#tab-datanode查看数据节点，却发现可视化管理界面仅显示了一个DataNode节点，另一个数据节点缺失。

在尝试解决这个问题的时候，又遇到了另一个问题，即

ISSUE 2，在 HDFS 集群关闭后，使用hdfs namenode -format命令刷新NameNode节点格式，重新启动集群，发现仅能成功启动NameNode节点，而两个DataNode节点启动失败。

接下来，我们就尝试解决上面的两个问题。

2 尝试解决

虽然我们是先遇到ISSUE 1，后遇到ISSUE 2的，但想要继续调试集群，我们显然要先解决ISSUE 2，让集群正常跑起来；否则的话，集群连一个数据节点都连接不上，何谈界面显示的问题啊？因此，我们首先来看看ISSUE 2该如何解决。

2.1 解决 ISSUE 2

在启动集群的时候，我们可以通过集群日志来查看错误信息，默认的日志位置在 Hadoop 的安装目录的logs的目录下，例如：

如上图所示，在我们进入到logs目录之后，可以使用tail命令来还查看日志，例如：

tail -1000f hadoop-root-namenode-localhost.localdomain.log

同理，我们也可以到各个DataNode对应的logs目录查看数据节点的日志信息，其会记录集群在启动和运行过程中的日志信息，如果出现异常或者错误，查看对应的日志文件是一个很好的定位问题的方法。

而之所以会出现ISSUE 2这样的问题，其根本原因在于我们使用hdfs namenode -format命令刷新NameNode节点的格式后，会重新生成集群的相关信息，特别是clusterID，每次刷新都会生成一个新的clusterID；但是当我们在NameNode节点所在的虚拟机刷新格式后，并不会影响DataNode节点，也就是说，那 2 台配置DataNode节点的虚拟机上关于集群的信息并不会刷新，仍保留上一次（未刷新NameNode格式前）的集群信息，这就导致了NameNode节点和DataNode节点的clusterID不一致的情况，因此DataNode节点不能连接到NameNode节点。我们可以到 Hadoop 安装目录下的/etc/hadoop目录下：

查看hdfs-site.xml文件来获取 Hadoop 数据存储的位置，当然，这个位置也是我们之前在配置集群时设置的：

其中，hadoopData目录为我事先创建的存储 Hadoop 数据的目录，而/dfs/name和/dfs/data目录则会通过配置在集群启动时自动生成。

如上图所示，在hadoopData/dfs/name/current目录下，有一个名为VERSION的文件，该文件就包含了 HDFS 集群的信息，我们可以使用cat VERSION命令来查看VERSION文件的内容。同样，在DataNode节点也会自动生成该文件！因此，在出现ISSUE 2问题的时候，如果我们分别查看NameNode节点和DataNode节点的VERSION文件的话，我们将会发现两者的clusterID不一样。

解决ISSUE 2的方法：停止 HDFS 集群后，同时删除NameNode节点和DataNode节点中配置的存储 Hadoop 数据的文件目录的所有子目录及文件，如我们配置的hadoopData目录下的所有子目录及文件。接下来，再使用hdfs namenode -format命令重新格式化NameNode节点，然后重新启动 HDFS 集群，即可！

在把ISSUE 2的问题解决之后，我们再看看ISSUE 1该如何解决？

2.1 解决 ISSUE 1

为了解决ISSUE 1，我也在网上搜了很多文章，这些文章给出的解决方法可以归纳为两个，分别为：

方法 1：修改各个节点的hdfs-site.xml配置文件中配置的dfs.datanode.data.dir目录，保持在NameNode节点和DataNode节点中，该配置的数据存储路径各不相同。例如


<property>
   <name>dfs.datanode.data.dirname>
   <value>/home/hdfs-cg/hadoopData/dfs/datavalue>
property>


<property>
   <name>dfs.datanode.data.dirname>
   <value>/home/hdfs-cg/hadoopData/dfs/slave1datavalue>
property>


<property>
   <name>dfs.datanode.data.dirname>
   <value>/home/hdfs-cg/hadoopData/dfs/slave2datavalue>
property>

方法 2：在各个节点的hdfs-site.xml配置文件中配置dfs.namenode.datanode.registration.ip-hostname-check属性，并将其值设置为false，例如

<property>
   <name>dfs.namenode.datanode.registration.ip-hostname-checkname>
   <value>falsevalue>
property>

说实话，无论是 方法 1 还是 方法 2，我都尝试了，但都没有成功。不过看大家的反馈，既有说通过 方法 1 解决问题的，也有说通过 方法 2 解决问题的！具体效果如何，大家可以自行尝试。特别的，对于 方法 2，我特意查了查该属性的含义，该属性默认为ture，表示NameNode节点连接DataNode时会进行host解析查询，感觉这个方法还是比较靠谱的。实际上，对于我遇到的问题，方法 2 理论上应该是可以解决问题的，但实际上并没有解决，可能是某些配置冲突了，或者是有优先级的问题。

不过在观察Datanode usage histogram的时候，我发现了一个问题，那就是唯一显示出来的DataNode节点的主机名显示为localhost，而且随着我多次重启 HDFS 集群，虽然主机名不变，都为localhost，但是主机名后面跟着的IP会变化，在两个启动的数据节点中不断切换，因此我怀疑这可能和我配置的hosts文件有关。

呃，不要纠结于上面的图为啥会显示两个数据节点，因为这是我把上述的问题解决之后的效果，懒得恢复原先的配置重新截图了，大家凑合看吧，捂脸！既然怀疑hosts文件有问题，那我们就看看我的hosts文件到底都配置啥了：

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

10.123.456.38 master
10.123.456.39 slave1
10.123.456.40 slave2

如上述所示，我配置的 3 台虚拟机的hosts文件的内容均是如此，而在我把前两个映射注释掉之后，也就是修改为：

#127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

10.123.456.38 master
10.123.456.39 slave1
10.123.456.40 slave2

这时，再次验证集群的启动效果，我们就会发现ISSUE 1也随之解决啦！因此，我们也知道了ISSUE 1的解决方法。

解决ISSUE 1的方法：修改虚拟机的hosts文件，保证每个节点的主机名都各不相同。

3 总结

在集群环境中，节点加入集群的一个条件就是节点与集群拥有统一的标识，如 HDFS 集群的clusterID，也如 es 集群的cluster.name，因此对于ISSUE 2这样由于clusterID不一致而导致数据节点不能加入集群的问题，也就再正常不过了。因此，要么在格式化之后，保持各节点的标识信息一致，要么就不要格式化。

通过解决ISSUE 1，我们知道了在 HDFS 集群的图形化管理界面的Datanode usage histogram中，显示的数据节点是根据主机名进行区分的，如果数据节点的主机名都相同，就是导致虽然数据节点正常启动，但却不会在管理界面中显示的问题。至于我们如何判断数据节点是否正常启动，可以使用如下命令：

hdfs dfsadmin -report

该命令执行的效果为：

最后，在实际操作中，遇到问题是难免的，也是正常的，虽然看到问题还是会让我们感到闹心，但当问题解决的一刹那，我们得到幸福感和愉悦感是难以形容的，而且每解决一个问题，都会让我们的自信心得到提升，加油吧，少年！

你可能感兴趣的:(工具及其它)

MathType7.9破解版最新安装补丁包下载及应用介绍 ehviewer2023 MathType许可证秘钥 android 其他
MathType7应用介绍MathType可适用于800+软件应用程序和网站，支持在任何文字处理软件、演示程序、页面程序、HTML编辑工具及其它类型的软件，用来建立公式。应用范围：期刊杂志、科研机构、教育教学、工程学、统计学、论文、报告写作、word文档；兼容程序：WPSOffice(Win)、MicrosoftOffice2019、MicrosoftOffice365、CorelOffice、Q
书摘《才能评鉴法》4/n 砚墨01
重视次序、品质与精确重视次序，反应出降低环境不确定性的潜在动机，至于其它重视次序、品质和精确的名称包括有：监控重视明确降低不确定性持续追踪关于次序及品质的评量等级行为说明－1.缺乏次序，许多问题发生由于缺乏秩序次序不适用，正式的次序不适用，或事虽然缺乏相关次序，也不会发生问题。**保持一个秩序良好的工作场所**，把工作桌椅、档案、工具及其它物品，井然有序的排列整齐。呈现一个整体的秩序与整齐，明确的
cdr软件中度量工具及其它工具使用方法 wangziokokok
CorelDRAW软件中度量工具是一个很好用测量工具，一些尺寸的标注都会用到，下面小编就为大家介绍cdr软件中度量工具使用方法，顺便介绍一下折线，三曲线，连接器），来看看吧！1、折线工具（跟手绘功能有点类似，不常用）如图2、三点曲线工具如图3、连接器工具（交互式连线工具）如图制这种图表才会用到（也不常用）4、度量工具自动度量就是自动检测垂直或水平进行度量（垂直度量及水平度量只能单独检测垂直或水平）
共同基金实用投资指南（读书笔记）流风下沙
基本概念共同基金：汇集具有相同投资目标人群手中的资金，并将这些自己资金用于购买如下投资品种（企业股票、债券、货币市场工具及其它共同基金等），通过所购买投资品种的价值上升或给付利息等，给与投资收益。共同基金包括开放式基金和封闭式基金（书中把共同基金和封闭式基金列为不同投资品种，个人认为包括封闭式基金）开放式基金：共同基金在工作日向投资者开放申购赎回（工作日收盘前买入卖出操作，价格基于当天收盘时基金净
基于selenium的web自动化测试框架搭建（1） yong3773 selenium
1.目的本文档对系统项目引入自动化测试框架的可行性进行评估，为测试经理提供决策参考。目的是通过自动化测试工具及其它手段减轻手工回归测试的工作量，提高大家的工作效率。 2.范围目前主要涉及XX系统、XX系统。对现有测试工作流程、已有的测试用例等进行自动化转换。并给出测试结果，以供评估。本文档中讨论的自动化测试工具主要是功能测试工具。 3.涉及语言和工具本文档主要涉及以下一些工具：
常用EDA工具简介 ConanYang 制造项目管理 layout 嵌入式工具平台
随着计算机在国内的逐渐普及，EDA(ElectronicDesignAutomatic,电路设计自动化)软件在电路行业的应用也越来越广泛。这些软件包括电路设计与仿真工具、PCB设计软件、IC设计软件、PLD设计工具及其它EDA软件，这里主要对原理图和PCB图设计工具进行介绍。当然了，很多EDA软件已经涵盖了所有功能甚至更多功能。1.1第1个不可不提的软件系列：从Protel到Altium--澳大利
点滴收集-Editplus V3/UE V15工具及其它信息（花维音乐网址） customer html PHP .net 音乐
Editplus V3.1.1.342 (破解中文) rar包名：EditPlus 3_XiaZaiBa.rar(1.1MB)，下载UTL: http://www.xiazaiba.com/ ------------------------------------------------ UE V15.10.0.1026 (共享中文版)
常用电路设计EDA软件简介 zyboy2000 制造项目管理 layout 嵌入式工具平台
随着计算机在国内的逐渐普及，EDA(ElectronicDesignAutomatic,电路设计自动化)软件在电路行业的应用也越来越广泛。这些软件包括电路设计与仿真工具、PCB设计软件、IC设计软件、PLD设计工具及其它EDA软件，这里主要对原理图和PCB图设计工具进行介绍。当然了，很多EDA软件已经涵盖了所有功能甚至更多功能。1.1 第1个不可不提的软件系列：从Protel到Alt
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》