Hadoop集群搭建

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。

对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作;集群中的DataNode管理存储的数据。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。

从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。


具体安装步骤如下:

一、安装Linux Centos6.7操作系统,配置网络信息如下,具体步骤略

配置host主机名

[root@master ~]# vim /etc/sysconfig/network 

NETWORKING=yes

HOSTNAME=master #另外两台是slave1和slave2

NTPSERVERARGS=iburst

需要重启后才能生效

临时更改主机名的方法是

[root@master ~]# hostname master

[root@master ~]# bash


配置IP

[root@master ~]# vi /etc/sysconfig/network-scripts/ifcfg-eth0

修改IP

IPADDR=192.168.101.230


机器分部信息如下:

192.168.101.230 master

192.168.101.231 slave1

192.168.101.230 slave2


二、添加3台虚拟机hosts文件

slave1和slave2都要添加,hosts文件的作用,它主要用于确定每个结点的IP地址,方便后续master结点能快速查到并访问各个结点

[root@master ~]# vim /etc/hosts

#127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

#::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.101.230 master

192.168.101.231 slave1

192.168.101.232 slave2


三、建立hadoop运行账号密码hadoop,三台机器上都需要建立

[root@master ~]# useradd hadoop

[root@master ~]# passwd hadoop

更改用户 hadoop 的密码 。

新的 密码:

无效的密码: 它基于字典单词

无效的密码: 过于简单

重新输入新的 密码:

passwd: 所有的身份验证令牌已经成功更新


赋予hadoop用户执行所有命令的权限 ,三台主机上都添加,之后使用sudo + 命令就增加权限了

[root@master ~]# vim /etc/sudoers

root    ALL=(ALL)        ALL

hadoop  ALL=(ALL)ALL


四、 配置ssh免密码登录

Hadoop在运行中需要远程管理Hadoop守护进程,在Hadoop启动之后,NameNode是通过SSH来启动和停止各个DateNode上的守护进程,这就必须在主从节点之间实现无密码登录执行指令,所以这里使用SSH无密码公钥认证方式,这样NameNode使用SSH无密码登录并启动DateNode进程,同样原理DateNode上也能使用SSH无密码登录到NameNode


1、SSH无密码登录原理

Master(NameNode | JobTracker)作为客户端,要实现无密码公钥认证,连接到服务器Salve(DataNode | Tasktracker)上时,需要在Master上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到所有的Slave上。当Master通过SSH连接Salve时,Salve就会生成一个随机数并用Master的公钥对随机数进行加密,并发送给Master。Master收到加密数之后再用私钥解密,并将解密数回传给Slave,Slave确认解密数无误之后就允许Master进行连接了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端Master复制到Slave上。


2、确认三台机器安装好OpenSSH的Server和Client

[root@master ~]# rpm -qa | grep openssh

openssh-server-5.3p1-112.el6_7.i686

openssh-askpass-5.3p1-112.el6_7.i686

openssh-5.3p1-112.el6_7.i686

openssh-clients-5.3p1-112.el6_7.i686

[root@master ~]# rpm -qa | grep  rsync

rsync-3.0.6-12.el6.i686


如果没有安装,使用如下命令进行安装

yum install -y ssh

yum install -y rsync

service sshd restart


确认三台机器的sshd配置文件允许无密码登录

[hadoop@master root]$ vi /etc/ssh/sshd_config

去掉注释符号“#”:

RSAAuthentication yes

PubkeyAuthentication yes

AuthorizedKeysFile      .ssh/authorized_keys


3、hadoop用户Master机器上生成dsa加密方式的密码对,注意:使用hadoop用户登录虚拟机

[hadoop@master root]$ whoami

hadoop

生成密钥对,-t 加密类型dsa -P原密码空,-f指定加密后文件keyfile导入到.ssh/id_dsa

[hadoop@master root]$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  


把公钥文件加入到验证文件中 

[hadoop@master root]$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 


修改权限

[hadoop@master ~]$ chomod 700 ~/.ssh

[hadoop@master root]$ chmod 600 ~/.ssh/authorized_keys 


测试ssh无密码登录

[hadoop@master root]$ ssh localhost  #这里不需要输入密码即可直接登录

Last login: Wed Feb 24 11:50:14 2016 from localhost 


4、拷贝id_dsa.pub到slave并追加到authorized_keys中

拷贝id_dsa.pub到slave1上/home/hadoop/目录下

[hadoop@master ~]$ scp ~/.ssh/id_dsa.pub hadoop@slave1:/home/hadoop/

[email protected]'s password:

id_dsa.pub                                    100%  603     0.6KB/s   00:00

相同方法拷贝到slave2上,略


hadoop用户首先在两台slave上新建/home/hadoop/.ssh文件

[hadoop@slave1 root]$ mkdir ~/.ssh

[hadoop@slave2 root]$ ls -la ~/

drwxrwxr-x   2 hadoop hadoop 4096 2月  24 12:07 .ssh

[hadoop@slave1 ~]$ pwd;ls

/home/hadoop

id_dsa.pub


5、追加公钥id_dsa.pub内容到authorized_keys中

[hadoop@slave1 ~]$ cat ~/id_dsa.pub >> ~/.ssh/authorized_keys

[hadoop@slave2 ~]$ cat ~/id_dsa.pub >> ~/.ssh/authorized_keys


修改文件权限

[hadoop@slave1 ~]$ chomod 700 ~/.ssh

[hadoop@slave1 ~]$ chmod 600 ~/.ssh/authorized_keys

同样修改slave2机器上.ssh和.ssh/quthorized_key的权限 


测试master登录slave机器,可以免密码直接登录了

[hadoop@master ~]$ ssh slave1

Last login: Wed Feb 24 13:02:07 2016 from master 


到此,hadoop用户可以在master机器上使用ssh免密码登录slave1和slave2,注意,现在需要在slave1和slave2上执行上面的操作,让用户hadoop使用ssh免密码密钥登录master,具体配置省略,最终三台虚拟机之前全部可以通过密钥免密码登录


五、安装java 参考http://daixuan.blog.51cto.com/5426657/1730140


六、下载并解压hadoop安装包

1、下载hadoop2.6安装包

[hadoop@master local]# cd /usr/local/src/

[hadoop@master src]# sudo wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz


2、解压hadoop2.6,拷贝hadoop2.6到/usr/local目录下

[hadoop@master src]#sudo tar -zxvf hadoop-2.6.0.tar.gz

[hadoop@master src]# ls

hadoop-2.6.0   

[hadoop@master src]# mv hadoop-2.6.0 /usr/local/

[hadoop@master local]$ cd /usr/local/hadoop-2.6.0/ 


修改hadoop文件夹的属主和属组

[hadoop@master local]$ sudo chown -R hadoop:hadoop hadoop-2.6.0/


添加环境变量

sudo vim /etc/profile

#hadoop variable settings
HADOOP_HOME=/usr/local/hadoop-2.6.0/
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native


七、修改hadoop的配置文件

1、配置之前,先在本地文件系统创建以下文件夹:/hadoop/tmp、/dfs/data、/dfs/name

[hadoop@master local]$ cd /usr/local/hadoop/

[hadoop@master hadoop-2.6.0]$ mkdir tmp

[hadoop@master hadoop-2.6.0]$ mkdir -p dfs/data

[hadoop@master hadoop-2.6.0]$ mkdir dfs/name


2、进入hadoop配置文件目录,修改配置文件

主要涉及的配置文件有7个:都在/hadoop-2.6.0/etc/hadoop文件夹下

hadoop-2.6.0/etc/hadoop/hadoop-env.sh

hadoop-2.6.0/etc/hadoop/yarn-env.sh

hadoop-2.6.0/etc/hadoop/slaves

hadoop-2.6.0/etc/hadoop/core-site.xml

hadoop-2.6.0/etc/hadoop/hdfs-site.xml

hadoop-2.6.0/etc/hadoop/mapred-site.xml

hadoop-2.6.0/etc/hadoop/yarn-site.xml

[hadoop@master hadoop-2.6.0]$ cd etc/hadoop/

[hadoop@master hadoop]$ ls

capacity-scheduler.xml      httpfs-env.sh            mapred-env.sh

configuration.xsl           httpfs-log4j.properties  mapred-queues.xml.template

container-executor.cfg      httpfs-signature.secret  mapred-site.xml.template

core-site.xml               httpfs-site.xml          slaves

hadoop-env.cmd              kms-acls.xml             ssl-client.xml.example

hadoop-env.sh               kms-env.sh               ssl-server.xml.example

hadoop-metrics2.properties  kms-log4j.properties     yarn-env.cmd

hadoop-metrics.properties   kms-site.xml             yarn-env.sh

hadoop-policy.xml           log4j.properties         yarn-site.xml

hdfs-site.xml               mapred-env.cmd


(1)配置 hadoop-env.sh文件,修改JAVA_HOME

[hadoop@master hadoop]$ sudo vim hadoop-env.sh

JAVA_HOME=/usr/local/jdk1.8.0_20/

(2)配置 yarn-env.sh 文件,修改JAVA_HOME

[hadoop@master hadoop]$ sudo vim yarn-env.sh

# some Java parameters
 export JAVA_HOME=/usr/local/jdk1.8.0_20/

(3)配置slaves文件,增加slave节点 

[hadoop@master hadoop]$ sudo vim slaves

slave1
slave2

(4)配置 core-site.xml文件,增加hadoop核心配置(hdfs文件端口是9000、file:/usr/local/hadoop-2.6.0/tmp)

[hadoop@master hadoop]# vim core-site.xml


 
  fs.defaultFS
  hdfs://master:9000
 
 
  io.file.buffer.size
  131072
 
 
  hadoop.tmp.dir
    file:/usr/local/hadoop-2.6.0/tmp
  Abasefor other temporary directories.
 
 
  hadoop.proxyuser.hadoop.hosts
  *
 

  hadoop.proxyuser.hadoop.groups
  *
 

(5)配置  hdfs-site.xml 文件,增加hdfs配置信息(namenode、datanode端口和目录位置)

[hadoop@master hadoop]# vim hdfs-site.xml


 
  dfs.namenode.secondary.http-address
  master:9001
 
  
   dfs.namenode.name.dir
   file:/usr/local/hadoop-2.6.0/dfs/name
 
 
  dfs.datanode.data.dir
  file:/usr/local/hadoop-2.6.0/dfs/data
  
 
  dfs.replication
  3
 
 
  dfs.webhdfs.enabled
  true
 

(6)配置  mapred-site.xml 文件,增加mapreduce配置(使用yarn框架、jobhistory使用地址以及web地址)

 [hadoop@master hadoop]# vim mapred-site.xml


  
   mapreduce.framework.name
   yarn
 
 
  mapreduce.jobhistory.address
  master:10020
 
 
  mapreduce.jobhistory.webapp.address
  master:19888
 

(7)配置   yarn-site.xml  文件,增加yarn功能

[hadoop@master hadoop]# vim yarn-site.xml


  
   yarn.nodemanager.aux-services
   mapreduce_shuffle
  
  
   yarn.nodemanager.aux-services.mapreduce.shuffle.class
   org.apache.hadoop.mapred.ShuffleHandler
  
  
   yarn.resourcemanager.address
   master:8032
   
  
   yarn.resourcemanager.scheduler.address
   master:8030
  
  
   yarn.resourcemanager.resource-tracker.address
   master:8035
  
  
   yarn.resourcemanager.admin.address
   master:8033
    
  
   yarn.resourcemanager.webapp.address
   master:8088
  

3、使用下面的命令将配置好的hadoop文件copy到另外两台slave1和slave2机器上

 scp -r /usr/local/hadoop-2.6.0/ hadoop@slave1:/usr/local/

确认slave1和slave2机器上的/hadoop-2.6.0文件夹和子文件夹属主和属组都是hadoop,否则使用下面的命令修改

[hadoop@slave1 local]$ sudo chown -R hadoop:hadoop /usr/local/hadoop-2.6.0/


八、验证hadoop

1、格式化namenode:

[hadoop@master hadoop-2.6.0]$ cd /usr/local/hadoop-2.6.0/

[hadoop@master hadoop-2.6.0]$ ./bin/hdfs namenode -format


[hadoop@master hadoop-2.6.0]$ ssh slave1

Last login: Wed Feb 24 20:53:43 2016 from master

[hadoop@slave1 ~]$ cd /usr/local/hadoop-2.6.0/

[hadoop@slave1 hadoop-2.6.0]$ ./bin/hdfs namenode -format


[hadoop@master hadoop-2.6.0]$ ssh slave2

Last login: Wed Feb 24 21:05:35 2016 from master

[hadoop@slave2 ~]$ cd /usr/local/hadoop-2.6.0/

[hadoop@slave2 hadoop-2.6.0]$ ./bin/hdfs namenode -format


2、启动hadoop:

[hadoop@master hadoop-2.6.0]$ ./sbin/start-all.sh

[hadoop@master hadoop-2.6.0]$ jps

5552 SecondaryNameNode

6281 Jps

5690 ResourceManager

5373 NameNode


3、 用jps检验各后台进程是否成功启动

[hadoop@master hadoop-2.6.0]$ jps

7170 ResourceManager

6853 NameNode

7512 Jps

7033 SecondaryNameNode


4、其他相关命令

启动hdfs

[hadoop@master hadoop-2.6.0]$ ./sbin/start-dfs.sh 

停止hdfs: 

[hadoop@master hadoop-2.6.0]$ ./sbin/stop-dfs.sh 

启动yarn:


[hadoop@master hadoop-2.6.0]$ ./sbin/start-yarn.sh

停止yarn:


[hadoop@master hadoop-2.6.0]$ ./sbin/stop-yarn.sh 

查看集群状态:

[hadoop@master hadoop-2.6.0]$ ./bin/hdfs dfsadmin -report http://192.168.101.230:50070/


5、查看hdfs

http://192.168.101.230:50070/

Hadoop集群搭建_第1张图片


http://192.168.101.230:8088/Hadoop集群搭建_第2张图片