Hadoop 2.2.0 (YARN)搭建笔记

最近工作需要,摸索着搭建了Hadoop 2.2.0(YARN)集群,中间遇到了一些问题,在此记录,希望对需要的同学有所帮助。

        本篇文章不涉及hadoop2.2的编译,编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明,本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。

        由于spark的兼容问题,我们后面使用了Hadoop 2.0.5-alpha的版本(2.2.0是稳定版本),2.0.5的配置有一点细微的差别,文中有特别提示

1. 简介

     【本节摘自http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html】

     Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。

  对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作;集群中的DataNode管理存储的数据。MapReduce框 架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任 务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由主节点指派的任务。当一个Job被提交 时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。

  从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现分布式文件系统MapReduce在集群上实现了分布式计算任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。


2. 系统环境

系统版本

CentOS 6.4  64bit
uname -a
Linux ** 2.6.32_1-7-0-0 #1 SMP *** x86_64 x86_64 x86_64 GNU/Linux

JAVA环境

安装Java 1.6
将jdk解压到local目录下
添加JAVA_HOME环境变量到.bashrc文件中

export JAVA_HOME="/home/<hostname>/local/jdk1.6.0_45/"
export JRE_HOME="/home/<hostname>/local/jdk1.6.0_45/jre/"
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

HADOOP解压hadoop-2.2.0-bin_64.tar.gz(这个包是我在CentOS6.4 64bit的环境下编译得到的) 到用户根目录

export HADOOP_HOME=/home/<hostname>/hadoop-2.2.0

[html] view plaincopyprint?

  1. export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH  

测试本地模式

hadoop默认情况下配置为本地模式,所以解压后不修改任何配置,可以执行本地测试
// 创建本地目录
mkdir input 
// 填充数据
cp conf/*.xml input 
// 执行hadoop
bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 
// 查看结果

[html] view plaincopyprint?

  1. cat output/*  


3. 网络环境

由于前期只是测试环境和配置,所以简单的使用两个节点:
master机器,充当namenode & datanode
slave机器,充当datanode

设置hostname
HDFS用hostname而不是IP来相互之间进行通信,hadoop会反向解析hostname,即使是用了IP,也会使用hostname 来启动TaskTracker,所以所有配置文件只能用hostname,不能用IP(满满的都是泪)。我们给两个机器分别设置如下:

机器 IP HOSTNAME 角色
master 192.168.216.135 master namenode, datanode
slave 192.168.216.136 slave1 datanode


临时更改hostname的命令是(root权限)
hostname <new_name>
永久更改需要修改配置文件/etc/sysconfig/network

[html] view plaincopyprint?

  1. HOSTNAME=<new_name>  


修改hosts文件

设置/etc/hosts文件(每台机器上都要设置),添加如下内容

[html] view plaincopyprint?

  1. 192.168.216.135 master  

  2. 192.168.216.136 slave1  

namenode与datanode的/etc/hosts内容都必须是ip位址与host name的对应,不能使用127.0.0.1代替本机的ip地址,否则hadoop使用hostname找ip时,会以"127.0.0.1"作为ip位址。

设置ssh无密码访问

master和所有的slave之间,需要实现双向ssh无密码访问(slave和slave之间可以不用实现)。


请参见《ssh无密码访问》文章,本文不再详述


防火墙设置

严格来说,应该是打开某些对应的端口。为了简单起见,我们这里关闭selinux和iptalbes.

关闭selinux的方法

[html] view plaincopyprint?

  1. setenforce 1 设置SELinux 成为enforcing模式  

  2. setenforce 0 设置SELinux 成为permissive模式   

如果永久关闭,编辑/etc/selinux/config

[html] view plaincopyprint?

  1. SELINUX=disabled  

关闭iptables的方法

[html] view plaincopyprint?

  1. service iptables stop  

  2. service ip6tables stop  

如果需要永久关闭(各个运行级别)

[html] view plaincopyprint?

  1. chkconfig iptables off  

  2. chkconfig ip6tables off  


4. 配置

我们只需要在master机器上配置好所有的配置文件,然后全部拷贝到各个slave机器上即可。

注意配置文件中涉及到的一些访问地址,都写成master:port的形式。很多文档中写为localhost或者127.0.0.1,这个是不对的,在多机器集群中,每一个机器上的这些配置,都是指向master节点的。


配置文件位于$HADOOP_HOME/etc/hadoop/目录下


建立数据目录

        我们在根目录下建立$HADOOP_DATA_HOME目录(/home/<hostname>/hadoop-data/, 其中<hostname>是你的用户名), 将dfs和mapred目录建立在这里,包括:

        $HADOOP_DATA_HOME/dfs/name

        $HADOOP_DATA_HOME/dfs/data

        $HADOOP_DATA_HOME/mapred/local

        $HADOOP_DATA_HOME/mapred/system

HDFS配置

配置hadoop-env.sh

         将该脚本中的JAVA_HOME设置为JAVA安装的位置,该配置文件中,只有JAVA_HOME变量是必须配置的,其它变量都是可选配置的。

         由于我们在.bashrc中添加了JAVA_HOME环境变量,这一步可以省略。

配置core-site.xml

[html] view plaincopyprint?

  1. <span style="background-color:rgb(240,240,240)"><configuration></span>  

  2. <property>  

  3. <name>io,native.lib.available</name>  

  4. <value>true</value>  

  5. </property>  

  6.    

  7. <property>  

  8. <name>fs.default.name</name>  

  9. <value>hdfs://master:54310</value>  

  10. <final>true</final>  

  11. </property>  

  12.    

  13. </configuration>  

     

 hdfs-site.xml          

[html] view plaincopyprint?

  1. <configuration>  

  2. <property>  

  3. <name>dfs.namenode.name.dir</name>  

  4. <value>file:/home/<hostname>/hadoop-data/dfs/name</value>  

  5. <description>Determines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories,then name table is replicated in all of the directories,for redundancy.</description>  

  6. <final>true</final>  

  7. </property>  

  8.    

  9. <property>  

  10. <name>dfs.datanode.data.dir</name>  

  11. <value>file:/home/<hostname>/hadoop-data/dfs/data</value>  

  12. <description>Determines where on the local filesystem an DFS data node should store its blocks.If this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored.  

  13. </description>  

  14. <final>true</final>  

  15. </property>  

  16.    

  17. <property>  

  18. <name>dfs.replication</name>   

  19. <value>1</value>  

  20. <description>副本数目</description>  

  21. </property>  

  22.    

  23. <property>  

  24. <name>dfs.permission</name>  

  25. <value>false</value>  

  26. </property>  

  27.   

  28. </configuration>  


dfs.datanode.name.dir是NameNode持久存储名字空间及事务日志的本地文件系统路径。 当这个值是一个逗号分割的目录列表时,nametable数据将会被复制到所有目录中做冗余备份。


dfs.datanode.data.dir是DataNode存放块数据的本地文件系统路径,逗号分割的列表。 当这个值是逗号分割的目录列表时,数据将被存储在所有目录下,通常分布在不同设备上。


dfs.replication是数据需要备份的数量,默认是3,如果此数大于集群的机器数会出错。


map-reduce配置

mapred-env.sh

类似hadoop-env.sh,配置JAVA_HOME即可

mapred-site.xml

[html] view plaincopyprint?

  1. <configuration>  

  2. <property>  

  3. <name>mapreduce.framework.name</name>  

  4. <value>yarn</value>   

  5. <span style="text-align:justify"><description>设置MapReduce的执行框架为YARN,这样mr job会被提交到ResourceManager</description></span>  

  6. </property>  

  7.    

  8. <property>  

  9. <name>mapreduce.job.tracker</name>  

  10. <value>hdfs://master:9001</value>  

  11. <final>true</final>  

  12. </property>  

  13.    

  14. <property>  

  15. <name>mapreduce.map.memory.mb</name>  

  16. <value>1536</value>  

  17. </property>  

  18.    

  19. <property>  

  20. <name>mapreduce.map.java.opts</name>  

  21. <value>-Xmx1024M</value>  

  22. </property>  

  23.    

  24. <property>  

  25. <name>mapreduce.reduce.memory.mb</name>  

  26. <value>3072</value>  

  27. </property>  

  28.    

  29. <property>  

  30. <name>mapreduce.reduce.java.opts</name>  

  31. <value>-Xmx2560M</value>  

  32. </property>  

  33.    

  34. <property>  

  35. <name>mapreduce.task.io.sort.mb</name>  

  36. <value>512</value>  

  37. </property>  

  38.    

  39. <property>  

  40. <name>mapreduce.task.io.sort.factor</name>  

  41. <value>100</value>  

  42. </property>  

  43.    

  44. <property>  

  45. <name>mapreduce.reduce.shuffle.parallelcopies</name>  

  46. <value>50</value>  

  47. </property>  

  48.    

  49. <property>  

  50. <name>mapred.system.dir</name>  

  51. <value>file:/home/hadoop/mapred/system</value>  

  52. <final>true</final>  

  53. </property>  

  54.    

  55. <property>  

  56. <name>mapred.local.dir</name>  

  57. <value>file:/home/hadoop/mapred/local</value>  

  58. <final>true</final>  

  59. </property>  

  60. </configuration>  


Yarn配置

yarn-site.xml

[html] view plaincopyprint?

  1. <configuration>  

  2.    

  3. <property>  

  4. <name>yarn.resourcemanager.address</name>  

  5. <value><span style="font-family:Arial,Helvetica,sans-serif">master</span><span style="font-family:Arial,Helvetica,sans-serif">:8080</value></span>  

  6. </property>  

  7.    

  8. <property>  

  9. <name>yarn.resourcemanager.scheduler.address</name>  

  10. <value>master:8081</value>  

  11. </property>  

  12.    

  13. <property>  

  14. <name>yarn.resourcemanager.resource-tracker.address</name>  

  15. <value>master:8082</value>  

  16. </property>  

  17.    

  18. <property>  

  19. <name>yarn.nodemanager.aux-services</name>  

  20. <value>mapreduce_shuffle</value>   

  21. </property>  

  22.    

  23. <property>  

  24. <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>  

  25. <value>org.apache.hadoop.mapred.ShuffleHandler</value>  

  26. </property>  

  27.    

  28. </configuration>  

注意这里的配置文件里面,有两处mapreduce_shuffle(原本配置是mapreduce.shuffle,启动时会报错,原因是**命名不能包含.字符)。

2.0.5.alpha版本中,这里需要配置成mapreduce.shuffle,否则会报错【java.lang.IllegalStateException: Invalid shuffle port number -1 returned】

yarn中shuffle部分被独立成一个service,需要在nodemanager启动的时候作为auxiliary service一起启动,这样可以自定义第三方的shuffle provider,和ShuffleConsumer,比如可以替换现阶段的HTTP Shuffle为RDMA Shuffle,对于中间结果merge可以采用更合适的策略来得到更好的性能提升。

masters & slaves文件

masters文件,告诉系统那个节点是master,填写的是master节点的hostname(由于我们配置了其就叫master,所以内容填master,注意这里必须是hostname,如果填IP,会出错)

[html] view plaincopyprint?

  1. master  


slaves文件,告诉系统哪些节点是slave,填写的是所有slave节点的hostname,每行一个。注意事项同master。

[html] view plaincopyprint?

  1. slave1  


默认的环境里面可能没有masters和slaves文件,自己建立即可。


5. 启动集群

格式化HDFS:

$HADOOP_HOME/bin/hdfs namenode -format

注意,如果不是第一次格式化,那么需要先清理tmp目录中的数据(默认的tmp目录在/tmp/hadoop-<username>下面),以及hdfs-site.xml中配置的dfs.datanode.data.dir目录,否则可能出错。


启动集群

$HADOOP_HOME/sbin/start-all.sh 

该命令会依次启动hdfs和yarn,分别调用start-hdfs.sh和start-yarn.sh;

start-hdfs.sh依次启动namenode、secondarynamenode、datanode,也可以单独启动,对应的命令为

[html] view plaincopyprint?

  1. hdfs namenode  

  2. hdfs secondarynamenode  

  3. hdfs datanode  

6. 测试

JPS测试

在master上执行jps,输出:

[html] view plaincopyprint?

  1. 3716 ResourceManager  

  2. 3456 DataNode  

  3. 4193 Jps  

  4. 3350 NameNode  

  5. 3587 SecondaryNameNode  

  6. 3807 NodeManager  


在slaver上执行jps,输出:

[html] view plaincopyprint?

  1. 2032 DataNode  

  2. 2118 NodeManager  

  3. 2274 Jps  


WebUI访问

查看端口打开状态

[html] view plaincopyprint?

  1. netstat -nap | grep 54310  


访问http://<master-ip>:8088


NameNode:http://<master-ip>:50070


JobTracker:http://<master-ip>:50030 


HDFS访问

在HDFS上创建新目录,可进一步测试HDFS是否工作正常:

[html] view plaincopyprint?

  1. hdfs dfs -mkdir /xxx  

  2. hdfs dfs -ls /  


简单任务执行

简单的map-reduce任务,在hadoop的根目录下执行:

[html] view plaincopyprint?

  1. hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi 2 2  

其中最后两个参数是map数和reduce数目


或者使用如下方式调用:

[html] view plaincopyprint?

  1. yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi -Dmapreduce.clientfactory.class.name=org.apache.hadoop.mapred.YarnClientFactory -libjars $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar 2 2  


其它的例子:

[html] view plaincopyprint?

  1. // 将数据上传到hdfs,如果这时出现 <span style="padding-right:0.3em; padding-left:0.3em; border:1px solid rgb(221,221,221); display:inline-block; margin-top:-1px; margin-bottom:-1px">SafeModeException</span> 异常,不用担心,等待几分钟即可。因为hadoop刚刚启动时,会进入安全模式进行自检。  

  2. bin/hadoop fs -put etc/hadoop/*.xml input  

  3. // 运行 Hadoop 自带的例子:  

  4. <pre name="code" class="html">hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar grep input output 'dfs[a-z.]+'</pre><pre name="code" class="html">// 查看运行结果</pre>hadoop fs -cat output/*  



7. 扩展性

添加datanode节点

添加一个新的节点到现有的Hadoop集群需要做的事情包括:

       1.  将这个新节点添加到网络环境中,处理好ssh免密码登录(包括从master到该机器以及从该机器到master)

       2.  在该机器上部署hadoop,并设置masters文件中的master为现有集群的master(name node)

       3.  在master的slaves文件中添加该新的机器

       4.  start-all.sh启动系统

然后可以通过http://(Masternode的主机名):50070查看新添加的DataNode


8. 问题记录

出错的时候,可以设置logger级别,看下具体原因:export HADOOP_ROOT_LOGGER=DEBUG,console


1.  INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable -- hadoop的本地库加载失败。

Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库。如果加载成功,输出为:

DEBUG util.NativeCodeLoader - Trying to load the custom-built native-hadoop library... 

INFO util.NativeCodeLoader - Loaded the native-hadoop library

如果加载失败,则报错为Unable to load native-hadoop library for your platform...

相关的配置

在Hadoop的配置文件core-site.xml中可以设置是否使用本地库:

[html] view plaincopyprint?

  1. <property>  

[html] view plaincopyprint?

  1. <name>hadoop.native.lib</name>  

[html] view plaincopyprint?

  1. <value>true</value>  

[html] view plaincopyprint?

  1. <description>Should native hadoop libraries, if present, be used.</description>  

[html] view plaincopyprint?

  1. </property>  

Hadoop默认的配置为启用本地库。另外,可以在环境变量中设置使用本地库的位置:

export JAVA_LIBRARY_PATH=/path/to/hadoop-native-libs

出错原因

检查native库的版本信息,32bit的版本和64bit的版本在不匹配的机器上会加载失败,检查的命令是file <native-so-file>。

native库依赖的glibc的版本问题。如果在高版本gcc(glibc)的机器上编译的native库,放到低版本的机器上使用,会由于glibc版本不一致导致该错误。

2.  java.io.IOException: Failed on local exception: java.io.EOFException; Host Details : local host is: "master/192.168.216.135"; destination host is: "master":54310;

重新格式化namenode

3. maps to localhost, but this does not map back

是因为DNS服务器把 192.168.x.x 的地址都反向解析成 localhost ,而DNS服务器不是自己的,不能改。 解决的办法就是,编辑 ssh 客户端的 /etc/hosts 文件,把出问题的IP 地址和主机名加进去,就不会报这样的错了。


4. java.io.IOException: Incompatible clusterIDsin /home/wangming/hadoop-data/dfs/data

format 前 rm 一下

5. jps命令正常,但是8088端口的WEB页面无法访问

检查一下防火墙,selinux & iptables

6.  8088端口访问正常,但是看不到datanode节点

查看配置中,发现yarn-site.xml中,yarn.resourcemanager.address属性配置的端口号为8080,启动的时候,打开这个端口失败(可能是被其它进程占用,maybe tomcat等),改成8085,重新启动,问题解决。

7.  java.io.IOException: Failed on local exception: java.io.EOFException; Host Details : local host is: "master/192.168.216.135"; destination host is: "master":54310;

不知道为什么,重新格式化namenode,再启动,没有再报错。


8. java.lang.IllegalStateException: Invalid shuffle port number -1 returned

参见yarn-site.xml的配置,2.0.5.alpha版本中,这里需要配置成mapreduce.shuffle


9. org.apache.hadoop.ipc.Client: Retrying connect to server: master/192.168.216.131:54310

一是检查slave机器到master机器的连通性;

二是检查master机器上,是否打开了192.168.216.131:54310的监听(netstat -nap | grep 54310)

注意hostname的问题,同时,namenode与data node的/etc/hosts内容都必须是ip位址与host name的对应,不能使用127.0.0.1代替本机的ip地址,否则hadoop使用hostname找ip时,会以"127.0.0.1"作为ip位址。


10. FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMain:

hostname不在hosts列表里面,检查hostname和/etc/hosts文件

     


11. INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode 或者 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool

fs.data.dir参数设置的目录权限必需为755,要不启动datanode节点启动就会因为权限检测错误而自动关闭。



9. 参考资料

1.  在CentOS上安装Hadoop

2.  Hadoop-2.0.5-alpha部署

3.  Hadoop集群(第5期)Hadoop安装配置

4.  Hadoop Cluster Setup

5.  YARN安装配置初体验


    Apache有另一个项目叫做Ambari,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能,本文没有涉及到这个工具,有兴趣的同学可以一试。




你可能感兴趣的:(Hadoop 2.2.0 (YARN)搭建笔记)