大数据Hadoop--3.1.3——完全分布式搭建、分发(入门)第一部分

首先准备三台一样的虚拟机,配置好相关设置

集群部署规划

注意:NameNode和SecondaryNameNode不要安装在同一台服务器
注意:ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。

大数据Hadoop--3.1.3——完全分布式搭建、分发(入门)第一部分_第1张图片

1、配置集群

(1)配置:hadoop-env.sh
如果是从搭建好的伪分布式拷贝过来的hadoop,因为已经配置过,可以直接跳

过,如果是新解压的hadoop,需要配置该项.

Linux系统中获取JDK的安装路径:

 echo $JAVA_HOME

/opt/module/jdk1.8.0_212
修改JAVA_HOME 路径:

export JAVA_HOME=/opt/module/jdk1.8.0_212

(2)核心配置文件
配置core-site.xml
cd $HADOOP_HOME/etc/hadoop
vim core-site.xml
文件内容如下:

"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?>

    <!-- 指定NameNode的地址-->   

   fs.defaultFS</name>      
   hdfs://hadoop101:9820</value>
</property>
<!-- 指定hadoop数据的存储目录  
      官方配置文件中的配置项是hadoop.tmp.dir
,用来指定hadoop数据的存储目录,此次配置用的hadoop.data.dir是自己定义的变量, 因为在hdfs-site.xml中会使用此配置的值来具体指定namenode
和 datanode存储数据的目录 
-->

   hadoop.data.dir</name>
   /opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 下面是兼容性配置,先跳过 -->
<!-- 配置该caron(superUser)允许通过代理访问的主机节点 -->
      
   hadoop.proxyuser.caron.hosts</name>
   *</value>
</property>
<!-- 配置该caron(superuser)允许代理的用户所属组 -->
     
    hadoop.proxyuser.caron.groups</name>
    *</value>
</property>
<!-- 配置该caron(superuser)允许代理的用户-->

    hadoop.proxyuser.caron.users</name>
    *</value>
</property>
</configuration>

(3)HDFS配置文件
配置hdfs-site.xml
vim hdfs-site.xml
文件内容如下:

"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?> 

 <!-- 指定NameNode数据的存储目录--> 
   
dfs.namenode.name.dir</name>   
file://${hadoop.data.dir}/name</value> 
</property>
 <!--指定Datanode数据的存储目录--> 
  
dfs.datanode.data.dir</name>   
file://${hadoop.data.dir}/data</value> 
</property>    
 <!--指定SecondaryNameNode数据的存储目录-->   
 
dfs.namenode.checkpoint.dir</name>  
file://${hadoop.data.dir}/namesecondary</value> 
</property>
   <!-- 兼容配置,先跳过 -->   
   
dfs.client.datanode-restart.timeout</name>   
30s</value> 
</property>
  <!-- nn web端访问地址-->
 
dfs.namenode.http-address</name> 
hadoop101:9870</value>
</property>
  <!-- 2nn web端访问地址-->
   
dfs.namenode.secondary.http-address</name>  
hadoop103:9868</value>
</property>
</configuration>

(4)YARN配置文件
配置yarn-site.xml
vim yarn-site.xml
文件内容如下:

"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?> 
   
      
yarn.nodemanager.aux-services</name>       
mapreduce_shuffle</value>
</property>
<!--指定ResourceManager的地址-->   
       
yarn.resourcemanager.hostname</name>       
hadoop102</value>
</property>
<!-- 环境变量的继承-->   
     
yarn.nodemanager.env-whitelist</name>       
JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value> 
</property>
</configuration>

(5)MapReduce配置文件
配置mapred-site.xml
vim mapred-site.xml
文件内容如下:

"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?>

 <!--指定MapReduce程序运行在Yarn上-->
   
mapreduce.framework.name</name>   
yarn</value>
</property>
</configuration>

2、在集群上分发配置好的hadoop

xsync集群分发脚本之前需要创建脚本
(a)在/home/atguigu目录下创建bin目录,并在bin目录下创建xsync文件

[caron@hadoop101 hadoop] cd /home/caron
[caron@hadoop101 ~] mkdir  bin 
[caron@hadoop101 bin] touch xsync
[caron@hadoop101 bin] vim xsync

在该文件中编写如下代码

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop101 hadoop102 hadoop103
do
  echo ====================  $host  ====================
  #3. 遍历所有目录,挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

(b)修改脚本 xsync 具有执行权限

chmod +x xsync

(d)测试脚本

xsync /home/caron/xsync

分发配置命令:

xsync /opt/module/hadoop-3.1.3

3、集群单点启动

(1)如果集群是第一次启动,需要格式化NameNode

hdfs namenode -format

(2)在hadoop101上启动NameNode

hdfs --daemon start namenode

完成后执行jps命令,看到如下结果(进程号可能不同):
3461 NameNode
(3)在hadoop101、hadoop102以及hadoop103上执行如下命令(三台都要执行)

hdfs --daemon start datanode

(4)在Hadoop103上执行如下命令

 hdfs --daemon start secondarynamenode

(5)web界面查看
http://hadoop101:9870
http://hadoop103:9868
(6)在hadoop102上执行如下命令

yarn --daemon start resourcemanager

(7)在hadoop101、hadoop102以及hadoop103上执行如下命令(三台都要执行)

yarn --daemon start nodemanager

(8)web界面查看
http://hadoop102:8088 如下图所示,搭建成功
大数据Hadoop--3.1.3——完全分布式搭建、分发(入门)第一部分_第2张图片

你可能感兴趣的:(Hadoop)