Hadoop 2.x分布式集群部署

服务组件的规划

  • 机器的配置需要根据实际情况考虑。由于我用的虚拟机,所以各个容量大小设置的都很低。* 注意:搭建分布式至少三台机器。 *
机器1 机器2 机器3
主机名:bigdata-00 主机名:bigdata-01 主机名:bigdata-02
内存大小:1G 内存大小:1G 内存大小:1G
CPU核数:1核 CPU核数:1核 CPU核数:1核
硬盘容量:15G 硬盘容量:15G 硬盘容量:15G
  • HDFS和YARN的服务规划和配置(hadoop版本-2.5.0)。因为NameNode、ResourceManager、SecondaryNameNode都是比较消耗内存的,所以放在不同的机器上可以减轻机器的负载;MRHistoryServer不消耗过多的内存可以任意放置。
机器1 机器2 机器3
NameNode ResourceManager SecondaryNameNode
DateNode DateNode DateNode
NodeManager NodeManager NodeManager
MRHistroyServer

克隆虚拟机及配置步骤

  1. 对克隆完成的虚拟机修改其主机名
  • 先临时修改

[wulei@bigdata-00 ~]$ hostname bigdata-00

  • 永久修改

[wulei@bigdata-00 ~]$ vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=bigdata-00

  1. 会发现 /etc/udev/rules.d/70-persistent-net.rules(记录了mac地址、网卡名等信息) 下有两条信息。可以选择清空这个文件夹,也可以删去其中一条,并在另外一条中修改mac地址和网卡名。我这里选择清空。

[root@bigdata-02 ~]# >/etc/udev/rules.d/70-persistent-net.rules

  1. 配置网卡信息,修改配置文件 /etc/sysconfig/network-scripts/ifcfg-eth0。 几处重要的修改如下。配置完成后重启,ping外网测试。

    HWADDR=00:0C:29:A8:EA:9D
    IPADDR=192.168.200.7
    NETMASK=255.255.255.0
    GATEWAY=192.168.200.2
    [root@bigdata-00 ~]# ping www.baidu.com

  2. 在配置文件 /etc/hosts 中添加主机名映射

192.168.200.5 bigdata-00
192.168.200.6 bigdata-01
192.168.200.7 bigdata-02

Hadoop集群的安装和配置

  1. 规划集群的安装目录。为了方便管理,一个集群的相同组件应该放在相同的目录。

[root@bigdata-00 ~]# mkdir /opt/app

  1. 一般操作不会一直在root用户下操作,因此修改这个目录的用户主。

[root@bigdata-02 ~]# chown wulei:wulei /opt/app
[root@bigdata-02 ~]# ll -d /opt/app
drwxr-xr-x 2 wulei wulei 4096 Oct 19 09:10 /opt/app

  1. 安装和配置JDK

[root@bigdata-01 opt]# tar -zxf softwares/jdk-8u101-linux-x64.tar.gz -C modules/
[root@bigdata-01 opt]# vim /etc/profile
##java7
export JAVA_HOME=/opt/modules/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH
source /etc/profile

  1. 解压Hadoop 2.5.0至app目录下。删除hadoop目录下share/doc(文档)目录,以节约磁盘空间。

[root@bigdata-01 opt]# tar -zxf softwares/hadoop-2.5.0.tar.gz -C app/
[root@bigdata-00 opt]# rm -rf app/hadoop-2.5.0/share/doc

  1. 指定运行hadoop各组件的JAVA_HOME路径。需要设置三个配置文件:hadoop-env.sh、mapred-env.sh、yarn-env.sh。

export JAVA_HOME=/opt/modules/jdk1.8.0_101

  1. 配置相关服务组件XML文件,其中包括指定哪台机器作为NameNode节点和NameNode文件存储的目录。
  • core-site.xml配置NameNode
        
                fs.defaultFS
                hdfs://bigdata-00:8020
        
        
                hadoop.tmp.dir
                /opt/app/hadoop-2.5.0/data/tmp
        
  • 在slaves文件中设置DataNode
192.168.200.5  bigdata-00
192.168.200.6  bigdata-01
192.168.200.7  bigdata-02
  • hdfs-site.xml配置SecondaryNameNode。把它部署在 bigdata-02 机器上。
        
                dfs.namenode.secondary.http-address
                bigdata-02:50090
        
  • yarn-site.xml配置YARN。各个参数的解释:
    yarn.resourcemanager.hostname 指定resoucemanager节点
    yarn.nodemanager.aux-services 需要配置成mapreduce_shuffle才能运行mapreduce程序。
    yarn.log.aggregation-enable 是否启动日志聚集功能。日志聚集是YARN提供的日志中央化管理功能,启动它可以将container和任务产生的相关日志文件上传到HDFS上(从而实现中央化管理功能),默认情况下个日志文件是存储在各个NodeManager节点上的。
    yarn.log.aggregation.retain-seconds 设置聚集日志在HDFS保存的时间(单位为秒)。
        
                yarn.resourcemanager.hostname
                bigdata-01
        
        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
        
                yarn.log.aggregation-enable
                true
        
        
                yarn.log-aggregation.retain-seconds
                18000
        
  • mapred-site.xml配置mapreduce。各参数的解释:
    mapreduce.framework.name 指定mapreduce的运行在什么框架上。默认值为本地。
    mapreduce.jobhistory.address 指定MapReduce JobHistory Server地址。
    mapreduce.jobhistory.webapp.address 指定MapReduce JobHistory Server Web UI地址。
        
                mapreduce.framework.name
                yarn
        
        
                mapreduce.jobhistory.address
                bigdata-00:10020
        
        
                mapreduce.jobhistory.webapp.address
                bigdata-00:19888
        
  1. 先在一台机器上测试各个服务;然后分发配置文件到其他节点上;最后在其他节点上测试各个服务。注:如果不能正常启动服务,应该在logs下面查看相应的启动日志文件。
  • 测试HDFS服务能否正常启动

[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4402 Jps
4234 NameNode
4331 DataNode

  • 测试HDFS能否创建目录、上传文件、读取文件。

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -mkdir -r /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -ls /
Found 1 items
drwxr-xr-x - wulei supergroup 0 2016-10-19 16:01 /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -put /etc/hosts /test/

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -text /test/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

  • 测试YARN服务能否正常启动

[wulei@bigdata-00 hadoop-2.5.0]$ sbin/yarn-daemon.sh start nodemanager
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/mr-jobhistory-daemon.sh start historyserver
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4769 NodeManager
4887 JobHistoryServer
4234 NameNode
4331 DataNode

  • 分发配置文件到其余两个节点并启动相应的服务,然后测试其余节点HDFS是否正常,和上面的步骤一样。

[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-01:/opt/app/hadoop-2.5.0/
[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-02:/opt/app/hadoop-2.5.0/

  • 在管理界面查看所有namenode(bigdata-00:50070)


    datanode.png
  • 测试mapreduce能否跑在YARN集群上。需要注意jar包必须运行在namenode节点上,因为只有从该节点才能使用分布式文件系统的目录结构。在wb管理界面(bigdata-01:8088)查看mapreduce运行进度。

[wulei@bigdata-00 hadoop-2.5.0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /test/ /test/out

yarn.png
  • 在此检查各个节点运行的组件
Hadoop 2.x分布式集群部署_第1张图片
zujian1.png
Hadoop 2.x分布式集群部署_第2张图片
zujian2.png
Hadoop 2.x分布式集群部署_第3张图片
zujian3.png

至此hadoop 2.5.0分布式集群搭建完毕

你可能感兴趣的:(Hadoop 2.x分布式集群部署)