Hadoop完全分布式环境搭建开发文档

Hadoop完全分布式环境搭建开发文档_第1张图片

一. 准备工作

1.1软硬件环境

  • 主机操作系统:内存:20G,Windows64
  • 虚拟机软件:VMware Workstation 15.5
  • 虚拟操作系统:Centos 7 64位
  • JDk:1.8 64位
  • Hadoop:2.7
  • 宝塔面板

1.2集群网络环境

  • 此集群包括3个节点,1个Namenode、2个Datanode,其中节点之间可以相互ping通。
  • 节点IP地址和主机名如下:
    Hadoop完全分布式环境搭建开发文档_第2张图片

二. 环境搭建

2.1操作系统安装

  • 2.1.1安装centos7
    Hadoop完全分布式环境搭建开发文档_第3张图片
    Hadoop完全分布式环境搭建开发文档_第4张图片

Hadoop完全分布式环境搭建开发文档_第5张图片
Hadoop完全分布式环境搭建开发文档_第6张图片

  • 2.1.2安装宝塔面板

    • yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh
    • 因为宝塔面板有可视化界面,操作方便,易于上传解压发送
      Hadoop完全分布式环境搭建开发文档_第7张图片
  • 2.1.3克隆虚拟机
    Hadoop完全分布式环境搭建开发文档_第8张图片
    Hadoop完全分布式环境搭建开发文档_第9张图片
    Hadoop完全分布式环境搭建开发文档_第10张图片
    Hadoop完全分布式环境搭建开发文档_第11张图片

    • 对于Hadoop完全分布式安装,可以先安装一个系统,然后利用VMWare的克隆功能,克隆多个相同的系统
  • 2.1.4 登录宝塔页面

    • bt default #查看各虚拟机宝塔面板的登录地址
      Hadoop完全分布式环境搭建开发文档_第12张图片
      Hadoop完全分布式环境搭建开发文档_第13张图片
      Hadoop完全分布式环境搭建开发文档_第14张图片

Hadoop完全分布式环境搭建开发文档_第15张图片

2.2本地环境配置

  • 2.2.1 以root用户登录虚拟机

  • 2.2.2.修改网卡配置(其余节点同步)

    • cd /etc/sysconfig/network-scripts/
      vi ifcfg-ens33
      在这里插入图片描述
  • 2.2.3.生效网卡的IP配置

    • 3.1重启网卡,将ip配置生效

      • systemctl restart network #centos7与6的重启网卡命令不一样
    • 3.2连接网关,看是否丢包
      Hadoop完全分布式环境搭建开发文档_第16张图片

    • 3.3宿主机(window操作系统)能联网
      Hadoop完全分布式环境搭建开发文档_第17张图片

  • 2.2.4 设置节点的局域网访问名称

    • 由于在安装虚拟机的过程中已经改好了master主机的名称所以只需要修改剩余两台节点的名称

    • 查看虚拟机的主机名
      Hadoop完全分布式环境搭建开发文档_第18张图片

    • 设置虚拟机主机名 hostname

      • vi /etc/sysconfig/network
      • chmod +x /etc/hostname #永久生效
      • Hadoop完全分布式环境搭建开发文档_第19张图片
        Hadoop完全分布式环境搭建开发文档_第20张图片
        Hadoop完全分布式环境搭建开发文档_第21张图片
    • 配置hosts文件

      • vi /etc/hosts

      • Hadoop完全分布式环境搭建开发文档_第22张图片

      • “/etc/hosts”这个文件是用来配置主机将用的DNS服务器信息,是记载LAN内接续的各主机的对应[HostName IP]用的。当用户在进行网络连接时,首先查找该文件,寻找对应主机名对应的IP地址。

      • 在进行Hadoop集群配置中,需要在”/etc/hosts”文件中添加集群中所有机器的IP与主机名,这样Master与所有的Slave机器之间不仅可以通过IP进行通信,而且还可以通过主机名进行通信。

  • 2.2.5 同步以上配置在Slave1与Slave2

2.3 操作系统设置

  • 永久关闭防火墙,并同步到其余节点
    Hadoop完全分布式环境搭建开发文档_第23张图片

2.4 hadoop集群时间同步

Hadoop完全分布式环境搭建开发文档_第24张图片

2.5 SSH无密码验证配置

  • 准备工作

    • 在三个虚拟机上新增一个普通的用户Hadoop

      • adduser Hadoop #在root用户下
      • passwd Hadoop #输入两次密码
    • 在Hadoop用户下建立.ssh文件夹

      • mkdir /home/Hadoop/.ssh
    • Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式,故我们需要配置SSH运用无密码公钥认证的形式,这样NameNode使用SSH无密码登录并启动DataName进程,同样原理,DataNode上也能使用SSH无密码登录到 NameNode。

  • 配置过程

    • 在Master节点上执行以下命令:

      • ssh-keygen –t rsa –P ”

        • 运行后询问其保存路径时直接回车采用默认路径。生成的密钥对:id_rsa(私钥)和id_rsa.pub(公钥),默认存储在”/home/用户名/.ssh”目录下。
          Hadoop完全分布式环境搭建开发文档_第25张图片
    • 接着在Master节点上做如下配置,把id_rsa.pub追加到授权的key里面去。

      • cat /home/Hadoop/.ssh/id_rsa.pub >> /home/Hadoop/.ssh/authorized_keys
        Hadoop完全分布式环境搭建开发文档_第26张图片
    • 设置权限

      • vi /etc/ssh/sshd_config

      • Hadoop完全分布式环境搭建开发文档_第27张图片

      • sudo chmod 700 /home/Hadoop/.ssh

      • sudo chmod 600 /home/Hadoop/.ssh/authorized_keys

    • 重启SSH服务

      • service sshd restart
    • 测试免密登录
      Hadoop完全分布式环境搭建开发文档_第28张图片

    • 将公钥发给Slave1,Slave2(设置权限)
      Hadoop完全分布式环境搭建开发文档_第29张图片
      Hadoop完全分布式环境搭建开发文档_第30张图片

    • 测试免密登录

      • 其余节点亦是如此
        Hadoop完全分布式环境搭建开发文档_第31张图片

三. 软件安装及环境配置 (软件安装先在Master上安装,全部安装完后,再通过宝塔发送到其余Slave中即可)

3.1Java安装及其环境配置

  • 建立相关文件夹
    Hadoop完全分布式环境搭建开发文档_第32张图片

  • 上传并解压jdk压缩包
    在这里插入图片描述

  • 配置 JDK 环境变量

    • vi /etc/profile
    • 在这里插入图片描述
  • 加载修改的配置,查看是否成功
    在这里插入图片描述

3.2 Hadoop安装及其环境配置

  • (1)上传并解压Hadoop压缩包
    在这里插入图片描述

  • (2)把Hadoop的安装路径添加到”/etc/profile”中,并使配置文件生效
    Hadoop完全分布式环境搭建开发文档_第33张图片

  • (3)配置hadoop-env.sh,并确认生效
    Hadoop完全分布式环境搭建开发文档_第34张图片

  • (4)测试Hadoop是否安装成功
    在这里插入图片描述

3.3 分布式集群配置文件

  • 配置core-site.xml文件
    Hadoop完全分布式环境搭建开发文档_第35张图片
<configuration>
 <property>
 <name>fs.defaultFSname>
 <value>hdfs://master:9000value>
 property>
 <property>
 <name>hadoop.tmp.dirname>
 <value>/home/Hadoop/tmpvalue>
 property>
configuration>

  • 配置hdfs-site.xml文件
    Hadoop完全分布式环境搭建开发文档_第36张图片
    (图片有误)
<configuration>
 <property>
 <name>dfs.namenode.secondary.http-addressname>
 <value>slave1:50090value>
 property>
 <property>
 <name>dfs.replicationname>
 <value>3value>
 property>
configuration>
  • 配置mapred-site.xml文件
    Hadoop完全分布式环境搭建开发文档_第37张图片
<configuration>
 <property>
 <name>mapreduce.framework.namename>
 <value>yarnvalue>
 property>
configuration>
  • 配置yarn-site.xml文件
    Hadoop完全分布式环境搭建开发文档_第38张图片
<configuration>
 <property>
 <name>yarn.nodemanager.aux-servicesname>
 <value>mapreduce_shufflevalue>
 property>
 <property>
 <name>yarn.resourcemanager.hostnamename>
 <value>mastervalue>
 property>
 <property>
 <name>yarn.nodemanager.resource.memory-mbname>
 <value>1024value>
 property>
 <property>
 <name>yarn.nodemanager.resource.cpu-vcoresname>
 <value>1value>
 property>
configuration>
  • 配置slaves文件
    Hadoop完全分布式环境搭建开发文档_第39张图片

3.3Slave服务器上的文件安装及配置

  • 将master主机目录下面的 /home/Hadoop/server/hadoop2.7/etc/hadoop 文件夹使用宝塔发送到其余两台虚拟机(路径一致)
    Hadoop完全分布式环境搭建开发文档_第40张图片

  • 用户组改为Hadoop用户,设置权限为755
    Hadoop完全分布式环境搭建开发文档_第41张图片

4.启动及验证

4.1 启动

  • (1)格式化HDFS文件系统

    • hadoop namenode –format
  • (2)启动hadoop

    • start-dfs.sh start-yarn.sh

4.2 验证测试

  • 用”jps”命令测试

    • Mater
      Hadoop完全分布式环境搭建开发文档_第42张图片

    • slave1
      Hadoop完全分布式环境搭建开发文档_第43张图片

    • slave2
      Hadoop完全分布式环境搭建开发文档_第44张图片

  • 查看Web界面(安全组放行以上xml文件涉及到的端口号)

    • HDFS集群状态
      Hadoop完全分布式环境搭建开发文档_第45张图片
      Hadoop完全分布式环境搭建开发文档_第46张图片
      Hadoop完全分布式环境搭建开发文档_第47张图片

    • YARN集群状态
      Hadoop完全分布式环境搭建开发文档_第48张图片

你可能感兴趣的:(Hadoop,hadoop,大数据)