最近工作需要,摸索着搭建了Hadoop 2.2.0(YARN)集群,中间遇到了一些问题,在此记录,希望对需要的同学有所帮助。
本篇文章不涉及hadoop2.2的编译,编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明,本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。
由于spark的兼容问题,我们后面使用了Hadoop 2.0.5-alpha的版本(2.2.0是稳定版本),2.0.5的配置有一点细微的差别,文中有特别提示。
【本节摘自http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html】
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。
对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作;集群中的DataNode管理存储的数据。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。
从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
cat output/*
机器 | IP | HOSTNAME | 角色 |
---|---|---|---|
master | 192.168.216.135 | master | namenode, datanode |
slave | 192.168.216.136 | slave1 | datanode |
HOSTNAME=<new_name>
192.168.216.135 master 192.168.216.136 slave1namenode与datanode的/etc/hosts内容都必须是ip位址与host name的对应,不能使用127.0.0.1代替本机的ip地址,否则hadoop使用hostname找ip时,会以"127.0.0.1"作为ip位址。
setenforce 1 设置SELinux 成为enforcing模式 setenforce 0 设置SELinux 成为permissive模式
SELINUX=disabled关闭iptables的方法
service iptables stop service ip6tables stop如果需要永久关闭(各个运行级别)
chkconfig iptables off chkconfig ip6tables off
我们在根目录下建立$HADOOP_DATA_HOME目录(/home/<hostname>/hadoop-data/, 其中<hostname>是你的用户名), 将dfs和mapred目录建立在这里,包括:
$HADOOP_DATA_HOME/dfs/name
$HADOOP_DATA_HOME/dfs/data
$HADOOP_DATA_HOME/mapred/local
$HADOOP_DATA_HOME/mapred/system
<configuration>
<property>
<name>io,native.lib.available</name>
<value>true</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://master:54310</value>
<final>true</final>
</property>
</configuration>
<configuration> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/<hostname>/hadoop-data/dfs/name</value> <description>Determines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories,then name table is replicated in all of the directories,for redundancy.</description> <final>true</final> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/<hostname>/hadoop-data/dfs/data</value> <description>Determines where on the local filesystem an DFS data node should store its blocks.If this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored. </description> <final>true</final> </property> <property> <name>dfs.replication</name> <value>1</value> <description>副本数目</description> </property> <property> <name>dfs.permission</name> <value>false</value> </property> </configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<description>设置MapReduce的执行框架为YARN,这样mr job会被提交到ResourceManager</description>
</property>
<property>
<name>mapreduce.job.tracker</name>
<value>hdfs://master:9001</value>
<final>true</final>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>1536</value>
</property>
<property>
<name>mapreduce.map.java.opts</name>
<value>-Xmx1024M</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>3072</value>
</property>
<property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xmx2560M</value>
</property>
<property>
<name>mapreduce.task.io.sort.mb</name>
<value>512</value>
</property>
<property>
<name>mapreduce.task.io.sort.factor</name>
<value>100</value>
</property>
<property>
<name>mapreduce.reduce.shuffle.parallelcopies</name>
<value>50</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>file:/home/hadoop/mapred/system</value>
<final>true</final>
</property>
<property>
<name>mapred.local.dir</name>
<value>file:/home/hadoop/mapred/local</value>
<final>true</final>
</property>
</configuration>
<configuration> <property> <name>yarn.resourcemanager.address</name> <value>master:8080</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:8081</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:8082</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>
注意这里的配置文件里面,有两处mapreduce_shuffle(原本配置是mapreduce.shuffle,启动时会报错,原因是**命名不能包含.字符)。
2.0.5.alpha版本中,这里需要配置成mapreduce.shuffle,否则会报错【java.lang.IllegalStateException: Invalid shuffle port number -1 returned】
yarn中shuffle部分被独立成一个service,需要在nodemanager启动的时候作为auxiliary service一起启动,这样可以自定义第三方的shuffle provider,和ShuffleConsumer,比如可以替换现阶段的HTTP Shuffle为RDMA Shuffle,对于中间结果merge可以采用更合适的策略来得到更好的性能提升。
master
slaves文件,告诉系统哪些节点是slave,填写的是所有slave节点的hostname,每行一个。注意事项同master。
slave1
格式化HDFS:
$HADOOP_HOME/bin/hdfs namenode -format
注意,如果不是第一次格式化,那么需要先清理tmp目录中的数据(默认的tmp目录在/tmp/hadoop-<username>下面),以及hdfs-site.xml中配置的dfs.datanode.data.dir目录,否则可能出错。
启动集群
$HADOOP_HOME/sbin/start-all.sh
该命令会依次启动hdfs和yarn,分别调用start-hdfs.sh和start-yarn.sh;
start-hdfs.sh依次启动namenode、secondarynamenode、datanode,也可以单独启动,对应的命令为
hdfs namenode hdfs secondarynamenode hdfs datanode
3716 ResourceManager 3456 DataNode 4193 Jps 3350 NameNode 3587 SecondaryNameNode 3807 NodeManager
2032 DataNode 2118 NodeManager 2274 Jps
netstat -nap | grep 54310
hdfs dfs -mkdir /xxx hdfs dfs -ls /
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi 2 2
yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi -Dmapreduce.clientfactory.class.name=org.apache.hadoop.mapred.YarnClientFactory -libjars $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar 2 2
// 将数据上传到hdfs,如果这时出现 SafeModeException 异常,不用担心,等待几分钟即可。因为hadoop刚刚启动时,会进入安全模式进行自检。 bin/hadoop fs -put etc/hadoop/*.xml input // 运行 Hadoop 自带的例子:hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar grep input output 'dfs[a-z.]+'// 查看运行结果hadoop fs -cat output/*
Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库。 如果加载成功,输出为:DEBUG util.NativeCodeLoader - Trying to load the custom-built native-hadoop library...INFO util.NativeCodeLoader - Loaded the native-hadoop library如果加载失败,则报错为Unable to load native-hadoop library for your platform...相关的配置:在Hadoop的配置 文件core-site.xml中可以设置是否使用本地库:<property><name>hadoop.native.lib</name><value>true</value><description>Should native hadoop libraries, if present, be used.</description></property>Hadoop默认的配置为启用本地库。另外,可以在环境变量中设置使用本地库的位置:
export JAVA_LIBRARY_PATH=/path/to/hadoop-native-libs
出错原因:
检查native库的版本信息,32bit的版本和64bit的版本在不匹配的机器上会加载失败,检查的命令是file <native-so-file>。
native库依赖的glibc的版本问题。如果在高版本gcc(glibc)的机器上编译的native库,放到低版本的机器上使用,会由于glibc版本不一致导致该错误。
2. java.io.IOException: Failed on local exception: java.io.EOFException; Host Details : local host is: "master/192.168.216.135"; destination host is: "master":54310;
重新格式化namenode
3. maps to localhost, but this does not map back
是因为DNS服务器把 192.168.x.x 的地址都反向解析成 localhost ,而DNS服务器不是自己的,不能改。 解决的办法就是,编辑 ssh 客户端的 /etc/hosts 文件,把出问题的IP 地址和主机名加进去,就不会报这样的错了。
4. java.io.IOException: Incompatible clusterIDsin /home/wangming/hadoop-data/dfs/data
format 前 rm 一下
5. jps命令正常,但是8088端口的WEB页面无法访问
检查一下防火墙,selinux & iptables
6. 8088端口访问正常,但是看不到datanode节点
查看配置中,发现yarn-site.xml中,yarn.resourcemanager.address属性配置的端口号为8080,启动的时候,打开这个端口失败(可能是被其它进程占用,maybe tomcat等),改成8085,重新启动,问题解决。
7. java.io.IOException: Failed on local exception: java.io.EOFException; Host Details : local host is: "master/192.168.216.135"; destination host is: "master":54310;
不知道为什么,重新格式化namenode,再启动,没有再报错。
参见yarn-site.xml的配置, 2.0.5.alpha版本中,这里需要配置成mapreduce.shuffle
一是检查slave机器到master机器的连通性;二是检查master机器上,是否打开了192.168.216.131:54310的监听(netstat -nap | grep 54310)注意hostname的问题, 同时,namenode与data node的/etc/hosts内容都必须是ip位址与host name的对应,不能使用127.0.0.1代替本机的ip地址,否则hadoop使用hostname找ip时,会以"127.0.0.1"作为ip位址。
hostname不在hosts列表里面,检查hostname和/etc/hosts文件
fs.data.dir参数设置的目录权限必需为755,要不启动datanode节点启动就会因为权限检测错误而自动关闭。