Hadoop 2.0:分布式环境搭建安装配置

集群环境:

1 NameNode(真实主机):

Linux yan-Server 3.4.36-gentoo #3 SMP Mon Apr 1 14:09:12 CST 2013 x86_64 AMD Athlon(tm) X4 750K Quad Core Processor AuthenticAMD GNU/Linux

2 DataNode1(虚拟机):

Linux node1 3.5.0-23-generic #35~precise1-Ubuntu SMP Fri Jan 25 17:13:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

3 DataNode2(虚拟机):

Linux node2 3.5.0-23-generic #35~precise1-Ubuntu SMP Fri Jan 25 17:13:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

4 DataNode3(虚拟机):

Linux node3 3.5.0-23-generic #35~precise1-Ubuntu SMP Fri Jan 25 17:13:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

1.安装VirtualBox虚拟机

Gentoo下直接命令编译安装,或者官网下载二进制安装包直接安装:

emerge -av virtualbox

2.虚拟机下安装Ubuntu 12.04 LTS

使用Ubuntu镜像安装完成后,然后再克隆另外两台虚拟主机(这里会遇到克隆的主机启动的时候主机名和MAC地址会是一样的,局域网会造成冲突)

主机名修改文件

/etc/hostname

MAC地址修改需要先删除文件

/etc/udev/rules.d/70-persistent-net.rules

然后在启动之前设置VirtualBox虚拟机的MAC地址

Hadoop 2.0:分布式环境搭建安装配置_第1张图片

启动后会自动生成删除的文件,配置网卡的MAC地址。

为了更方便的在各主机之间共享文件,可以启动主机yan-Server的NFS,将命令加入/etc/rc.local中,让客户端自动挂载NFS目录。

删除各虚拟机的NetworkManager,手动设置静态的IP地址,例如node2主机的/etc/network/interfaces文件配置如下:

  
  
  
  
  1. auto lo 
  2. iface lo inet loopback 
  3. auto eth0 
  4. iface eth0 inet static 
  5. address 192.168.137.202 
  6. gateway 192.168.137.1 
  7. netmask 255.255.255.0 
  8. network 192.168.137.0 
  9. broadcast 192.168.137.255 

主机的基本环境设置完毕,下面是主机对应的IP地址

类型

主机名

IP

NameNode

yan-Server

192.168.137.100

DataNode

node1

192.168.137.201

DataNode

node2

192.168.137.202

DataNode

node3

192.168.137.203

为了节省资源,可以设置虚拟机默认启动字符界面,然后通过主机的TERMINAL ssh远程登录。(SSH已经启动服务,允许远程登录,安装方法不再赘述)

设置方式是修改/etc/default/grub文件将下面的一行解除注释

GRUB_TERMINAL=console

然后update-grub即可。

3.Hadoop环境的配置

3.1配置JDK环境(之前就做好了,这里不再赘述)

3.2在官网下载Hadoop,然后解压到/opt/目录下面(这里使用的是hadoop-2.0.4-alpha)

然后进入目录/opt/hadoop-2.0.4-alpha/etc/hadoop,配置hadoop文件

修改文件hadoop-env.sh

  
  
  
  
  1. export HADOOP_FREFIX=/opt/hadoop-2.0.4-alpha 
  2. export HADOOP_COMMON_HOME=${HADOOP_FREFIX} 
  3. export HADOOP_HDFS_HOME=${HADOOP_FREFIX} 
  4. export PATH=$PATH:$HADOOP_FREFIX/bin 
  5. export PATH=$PATH:$HADOOP_FREFIX/sbin 
  6. export HADOOP_MAPRED_HOME=${HADOOP_FREFIX} 
  7. export YARN_HOME=${HADOOP_FREFIX} 
  8. export HADOOP_CONF_HOME=${HADOOP_FREFIX}/etc/hadoop 
  9. export YARN_CONF_DIR=${HADOOP_FREFIX}/etc/hadoop 
  10. export JAVA_HOME=/opt/jdk1.7.0_21 

修改文件hdfs-site.xml

  
  
  
  
  1. <configuration> 
  2. <property> 
  3.   <name>dfs.namenode.name.dir</name> 
  4.   <value>file:/opt/hadoop-2.0.4-alpha/workspace/name</value> 
  5.   <description>Determines where on the local filesystem the DFS name node should store the 
  6. name table.If this is a comma-delimited list of directories,then name table is 
  7. replicated in all of the directories,for redundancy.</description> 
  8.   <final>true</final> 
  9. </property> 
  10. <property> 
  11.   <name>dfs.datanode.data.dir</name> 
  12.   <value>file:/opt/hadoop-2.0.4-alpha/workspace/data</value> 
  13.   <description>Determines where on the local filesystem an DFS data node should 
  14. store its blocks.If this is a comma-delimited list of directories,then data will 
  15. be stored in all named directories,typically on different devices.Directories that do not exist are ignored. 
  16.   </description> 
  17.   <final>true</final> 
  18. </property> 
  19. <property> 
  20.   <name>dfs.replication</name> 
  21.   <value>1</value> 
  22. </property> 
  23. <property> 
  24.   <name>dfs.permission</name> 
  25.   <value>false</value> 
  26. </property> 
  27. </configuration> 

修改文件mapred-site.xml

  
  
  
  
  1. <configuration> 
  2. <property> 
  3.   <name>mapreduce.framework.name</name> 
  4.   <value>yarn</value> 
  5. </property> 
  6. <property> 
  7.   <name>mapreduce.job.tracker</name> 
  8.   <value>hdfs://yan-Server:9001</value> 
  9.   <final>true</final> 
  10. </property> 
  11. <property> 
  12.   <name>mapreduce.map.memory.mb</name> 
  13.   <value>1536</value> 
  14. </property> 
  15. <property> 
  16.   <name>mapreduce.map.java.opts</name> 
  17.   <value>-Xmx1024M</value> 
  18. </property> 
  19. <property> 
  20.   <name>mapreduce.reduce.memory.mb</name> 
  21.   <value>3072</value> 
  22. </property> 
  23. <property> 
  24.   <name>mapreduce.reduce.java.opts</name> 
  25.   <value>-Xmx2560M</value> 
  26. </property> 
  27. <property> 
  28.   <name>mapreduce.task.io.sort.mb</name> 
  29.   <value>512</value> 
  30. </property> 
  31. <property> 
  32.   <name>mapreduce.task.io.sort.factor</name> 
  33.   <value>100</value> 
  34. </property> 
  35. <property> 
  36.   <name>mapreduce.reduce.shuffle.parallelcopies</name> 
  37.   <value>50</value> 
  38. </property> 
  39. <property> 
  40.   <name>mapred.system.dir</name> 
  41.   <value>file:/opt/hadoop-2.0.4-alpha/workspace/systemdir</value> 
  42.   <final>true</final> 
  43. </property> 
  44. <property> 
  45.   <name>mapred.local.dir</name> 
  46.   <value>file:/opt/hadoop-2.0.4-alpha/workspace/localdir</value> 
  47.   <final>true</final> 
  48. </property> 
  49. </configuration> 

修改文件yarn-env.xml

  
  
  
  
  1. export HADOOP_FREFIX=/opt/hadoop-2.0.4-alpha 
  2. export HADOOP_COMMON_HOME=${HADOOP_FREFIX} 
  3. export HADOOP_HDFS_HOME=${HADOOP_FREFIX} 
  4. export PATH=$PATH:$HADOOP_FREFIX/bin 
  5. export PATH=$PATH:$HADOOP_FREFIX/sbin 
  6. export HADOOP_MAPRED_HOME=${HADOOP_FREFIX} 
  7. export YARN_HOME=${HADOOP_FREFIX} 
  8. export HADOOP_CONF_HOME=${HADOOP_FREFIX}/etc/hadoop 
  9. export YARN_CONF_DIR=${HADOOP_FREFIX}/etc/hadoop 
  10. export JAVA_HOME=/opt/jdk1.7.0_21 

修改文件yarn-site.xml

  
  
  
  
  1. <configuration> 
  2. <property> 
  3.   <name>yarn.resourcemanager.address</name> 
  4.   <value>yan-Server:8080</value> 
  5. </property> 
  6. <property> 
  7.   <name>yarn.resourcemanager.scheduler.address</name> 
  8.   <value>yan-Server:8081</value> 
  9. </property> 
  10. <property> 
  11.   <name>yarn.resourcemanager.resource-tracker.address</name> 
  12.   <value>yan-Server:8082</value> 
  13. </property> 
  14. <property> 
  15.   <name>yarn.nodemanager.aux-services</name> 
  16.   <value>mapreduce.shuffle</value> 
  17. </property> 
  18. <property> 
  19.   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> 
  20.   <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
  21. </property> 
  22. </configuration> 

将配置好的Hadoop复制到各DataNode(这里DataNode的JDK配置和主机的配置是一致的,不需要再修改JDK的配置)

3.3 修改主机的/etc/hosts,将NameNode加入该文件

192.168.137.100yan-Server

192.168.137.201node1
192.168.137.202node2
192.168.137.203node3

3.4 修改各DataNode的/etc/hosts文件,也添加上述的内容

192.168.137.100yan-Server
192.168.137.201node1
192.168.137.202node2
192.168.137.203node3

3.5 配置SSH免密码登录(所有的主机都使用root用户登录)

主机上运行命令

ssh-kengen -t rsa

一路回车,然后复制.ssh/id_rsa.pub为各DataNode的root用户目录.ssh/authorized_keys文件

然后在主机上远程登录一次

ssh root@node1

首次登录可能会需要输入密码,之后就不再需要。(其他的DataNode也都远程登录一次确保可以免输入密码登录)

4.启动Hadoop

为了方便,在主机的/etc/profile配置hadoop的环境变量,如下:

  
  
  
  
  1. export HADOOP_PREFIX="/opt/hadoop-2.0.4-alpha" 
  2. export PATH=$PATH:$HADOOP_PREFIX/bin 
  3. export PATH=$PATH:$HADOOP_PREFIX/sbin 
  4. export HADOOP_MAPRED_HOME=${HADOOP_PREFIX} 
  5. export HADOOP_COMMON_HOME=${HADOOP_PREFIX} 
  6. export HADOOP_HDFS_HOME=${HADOOP_PREFIX} 
  7. export YARN_HOME=${HADOOP_PREFIX} 

4.1 格式化NameNode

hdfs namenode -format

4.2 启动全部进程

start-all.sh

Hadoop 2.0:分布式环境搭建安装配置_第2张图片
在浏览器查看,地址:

http://localhost:8088/

所有数据节点DataNode正常启动。

4.3 关闭所有进程

stop-all.sh

Hadoop 2.0:分布式环境搭建安装配置_第3张图片

至此,Hadoop环境搭建基本结束。

你可能感兴趣的:(Hadoop 2.0:分布式环境搭建安装配置)