基于CentOS7的Hadoop3.2.0完全分布式集群部署记录

文章目录

  • 3台服务器部署结构
  • 目录规划
  • 一、前提
    • 1、安装Java,具体参考:https://blog.csdn.net/wangkai_123456/article/details/53612806
    • 2、永久修改CentOS服务器hostname主机名,主机名和IP一一对应
    • 3、配置hosts文件【集群的所有节点】
    • 4、设置SSH无密码登录
      • 4.1、 在hadoopSvr1上生成公钥
      • 4.2、分发公钥
      • 4.3、设置hadoopSvr3、hadoopSvr4到其他机器的无密钥登录
    • 5、关闭防火墙
  • 二、在第一台机器上安装hadoop
    • 1、在hadoopSvr1、hadoopSvr3、hadoopSvr4中配置Hadoop环境变量
    • 2、配置Hadoop JDK路径,定义集群操作用户,在hadoop-env.sh文件中添加如下内容
    • 3、配置core-site.xml
    • 4、配置hdfs-site.xml
    • 5、配置workers
    • 6、配置yarn-site.xml
    • 7、配置mapred-site.xml
    • 8、复制Hadoop配置好的包到其他Linux主机
    • 9、格式化NameNode
  • 三、启动集群
    • 1、启动HDFS
    • 2、启动YARN
    • 3、启动日志服务
    • 4、查看HDFS Web页面
    • 5、查看YARN Web页面

3台服务器部署结构

hostname hadoopSvr1 hadoopSvr3 hadoopSvr4
IP 10.62.124.41 10.62.124.43 10.62.124.44
HDFS NameNode SecondaryNameNode
HDFS DataNode DataNode DataNode
YARN ResourceManager
YARN NodeManager NodeManager NodeManager
HistoryServer

目录规划

#hadoop临时目录hadoop.tmp.dir
/data/hadoop/tmp

#hadoop的NameNode节点保存元数据的目录dfs.namenode.name.dir
/data/hadoop/hdfs/name

#hadoop的DataNode节点保存数据的目录dfs.datanode.data.dir
/data/hadoop/hdfs/data

一、前提

1、安装Java,具体参考:https://blog.csdn.net/wangkai_123456/article/details/53612806

2、永久修改CentOS服务器hostname主机名,主机名和IP一一对应

vi /etc/hostname
打开文件后,将默认的 主机名 修改为想要的主机名即可(如hadoopSvr3)

3、配置hosts文件【集群的所有节点】

vi /etc/hosts

打开文件后,增加

10.62.124.41 hadoopSvr1
10.62.124.43 hadoopSvr3
10.62.124.44 hadoopSvr4

4、设置SSH无密码登录

Hadoop集群中的各个机器间会相互地通过SSH访问,每次访问都输入密码是不现实的,所以要配置各个机器间的

SSH是无密码登录的。

4.1、 在hadoopSvr1上生成公钥

ssh-keygen -t rsa

一路回车,都设置为默认值,然后再当前用户的Home目录下的.ssh目录中会生成公钥文件(id_rsa.pub)和私钥文件(id_rsa)。

4.2、分发公钥

ssh-copy-id hadoopSvr1
ssh-copy-id hadoopSvr3
ssh-copy-id hadoopSvr4

4.3、设置hadoopSvr3、hadoopSvr4到其他机器的无密钥登录

同样的在hadoopSvr3、hadoopSvr4上生成公钥和私钥后,将公钥分发到三台机器上。

5、关闭防火墙

#永久关闭防火墙

sudo systemctl disable firewalld

#查看防火墙状态

sudo systemctl status firewalld

#打开防火墙

sudo systemctl start firewalld

#关闭防火墙

sudo systemctl stop firewalld

二、在第一台机器上安装hadoop

我们采用先在第一台机器上解压、配置Hadoop,然后再分发到其他两台机器上的方式来安装集群。

1、在hadoopSvr1、hadoopSvr3、hadoopSvr4中配置Hadoop环境变量

vi /etc/profile

打开后,在文档最下方添加如下配置:

export HADOOP_HOME=/usr/local/hadoop-3.2.0
export PATH=$HADOOP_HOME/bin:$PATH
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

修改完后,保存退出,执行如下命令,使更改生效

source /etc/profile

2、配置Hadoop JDK路径,定义集群操作用户,在hadoop-env.sh文件中添加如下内容

export JAVA_HOME=/usr/java/jdk1.8.0_111

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

export HADOOP_PID_DIR=/data/hadoop/pids
export HADOOP_LOG_DIR=/data/hadoop/logs

3、配置core-site.xml

<configuration>
	<property>
		  <name>fs.defaultFS</name>
		  <value>hdfs://hadoopSvr1:8020</value>
	</property>
	<property>
		  <name>hadoop.tmp.dir</name>
		  <value>/data/hadoop/tmp</value>
	</property>
</configuration>

fs.defaultFS为NameNode的地址,hadoop.tmp.dir为hadoop临时目录的地址。

4、配置hdfs-site.xml

<configuration>
   <property>
	     <name>dfs.namenode.secondary.http-address</name>
	     <value>hadoopSvr4:50090</value>
   </property>
   <property>
	     <name>dfs.replication</name>
	     <value>2</value>
   </property>
   <property>
	     <name>dfs.namenode.name.dir</name>
	     <value>file:/data/hadoop/hdfs/name</value>
   </property>
   <property>
	     <name>dfs.datanode.data.dir</name>
	     <value>file:/data/hadoop/hdfs/data</value>
   </property>
</configuration>

dfs.namenode.secondary.http-address是指定secondaryNameNode的http访问地址和端口号,因为在规划中,我们将hadoopSvr4规划为SecondaryNameNode服务器。

5、配置workers

hadoopSvr1
hadoopSvr3
hadoopSvr4

workers文件是指定HDFS上有哪些DataNode节点。

6、配置yarn-site.xml

<configuration>
    <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
   </property>
   <property>
      <name>yarn.nodemanager.localizer.address</name>
      <value>0.0.0.0:8140</value>
   </property>
   <property>
       <name>yarn.resourcemanager.hostname</name>
       <value>hadoopSvr3</value>
   </property>
   <property>
       <name>yarn.log-aggregation-enable</name>
       <value>true</value>
   </property>
   <property>
       <name>yarn.log-aggregation.retain-seconds</name>
       <value>604800</value>
   </property>
   <property>
       <name>yarn.log.server.url</name>
       <value>http://hadoopSvr4:19888/jobhistory/logs</value>
   </property>
</configuration>

根据规划yarn.resourcemanager.hostname这个指定resourcemanager服务器指向hadoopSvr3。
yarn.log-aggregation-enable是配置是否启用日志聚集功能。
yarn.log-aggregation.retain-seconds是配置聚集的日志在HDFS上最多保存多长时间。

7、配置mapred-site.xml

<configuration>
   <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
   </property>
   
   <property>
       <name>yarn.app.mapreduce.am.env</name>
       <value>HADOOP_MAPRED_HOME=/usr/local/hadoop-3.2.0</value>
   </property>
   <property>
       <name>mapreduce.map.env</name>
       <value>HADOOP_MAPRED_HOME=/usr/local/hadoop-3.2.0</value>
   </property>
   <property>
       <name>mapreduce.reduce.env</name>
       <value>HADOOP_MAPRED_HOME=/usr/local/hadoop-3.2.0</value>
   </property>
   
   <property>
       <name>mapreduce.jobhistory.address</name>
       <value>hadoopSvr4:10020</value>
   </property>
   <property>
       <name>mapreduce.jobhistory.webapp.address</name>
       <value>hadoopSvr4:19888</value>
   </property>
</configuration>

mapreduce.framework.name设置mapreduce任务运行在yarn上。
mapreduce.jobhistory.address是设置mapreduce的历史服务器安装在hadoopSvr4机器上。
mapreduce.jobhistory.webapp.address是设置历史服务器的web页面地址和端口号。

8、复制Hadoop配置好的包到其他Linux主机

[root@hadoopSvr3 local]# scp -r [email protected]:/usr/local/hadoop-3.2.0 .
[root@hadoopSvr4 local]# scp -r [email protected]:/usr/local/hadoop-3.2.0 .

9、格式化NameNode

在NameNode机器上执行格式化

[root@hadoopSvr1 hadoop-3.2.0]# hdfs namenode -format

注意
如果需要重新格式化NameNode,需要先将原来NameNode和DataNode下的文件全部删除,不然会报错,NameNode和DataNode所在目录是在core-site.xml中hadoop.tmp.dir、dfs.namenode.name.dir、dfs.datanode.data.dir属性配置的。

因为每次格式化,默认是创建一个集群ID,并写入NameNode和DataNode的VERSION文件中(VERSION文件所在目录为hdfs/name/current 和 hdfs/data/current),重新格式化时,默认会生成一个新的集群ID,如果不删除原来的目录,会导致namenode中的VERSION文件中是新的集群ID,而DataNode中是旧的集群ID,不一致时会报错。

三、启动集群

1、启动HDFS

在hadoopSvr1上执行

[root@hadoopSvr1 hadoop]# /usr/local/hadoop-3.2.0/sbin/start-dfs.sh

2、启动YARN

[root@hadoopSvr1 hadoop]# /usr/local/hadoop-3.2.0/sbin/start-yarn.sh

3、启动日志服务

因为我们规划的是在hadoopSvr4服务器上运行jobhistoryserver服务,所以要在hadoopSvr4上启动。

[root@hadoopSvr4 hadoop-3.2.0]# mapred --daemon start historyserver

4、查看HDFS Web页面

http://10.62.124.41:9870/
其中,10.62.124.41为服务器hadoopSvr1的IP地址。

5、查看YARN Web页面

http://10.62.124.43:8088/
其中,10.62.124.43为服务器hadoopSvr3的IP地址。

你可能感兴趣的:(hadoop)