首先准备三台一样的虚拟机,配置好相关设置
注意:NameNode和SecondaryNameNode不要安装在同一台服务器
注意:ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。
(1)配置:hadoop-env.sh
如果是从搭建好的伪分布式拷贝过来的hadoop,因为已经配置过,可以直接跳
过,如果是新解压的hadoop,需要配置该项.
Linux系统中获取JDK的安装路径:
echo $JAVA_HOME
/opt/module/jdk1.8.0_212
修改JAVA_HOME 路径:
export JAVA_HOME=/opt/module/jdk1.8.0_212
(2)核心配置文件
配置core-site.xml
cd $HADOOP_HOME/etc/hadoop
vim core-site.xml
文件内容如下:
"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- 指定NameNode的地址-->
fs.defaultFS</name>
hdfs://hadoop101:9820</value>
</property>
<!-- 指定hadoop数据的存储目录
官方配置文件中的配置项是hadoop.tmp.dir
,用来指定hadoop数据的存储目录,此次配置用的hadoop.data.dir是自己定义的变量, 因为在hdfs-site.xml中会使用此配置的值来具体指定namenode
和 datanode存储数据的目录
-->
hadoop.data.dir</name>
/opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 下面是兼容性配置,先跳过 -->
<!-- 配置该caron(superUser)允许通过代理访问的主机节点 -->
hadoop.proxyuser.caron.hosts</name>
*</value>
</property>
<!-- 配置该caron(superuser)允许代理的用户所属组 -->
hadoop.proxyuser.caron.groups</name>
*</value>
</property>
<!-- 配置该caron(superuser)允许代理的用户-->
hadoop.proxyuser.caron.users</name>
*</value>
</property>
</configuration>
(3)HDFS配置文件
配置hdfs-site.xml
vim hdfs-site.xml
文件内容如下:
"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- 指定NameNode数据的存储目录-->
dfs.namenode.name.dir</name>
file://${hadoop.data.dir}/name</value>
</property>
<!--指定Datanode数据的存储目录-->
dfs.datanode.data.dir</name>
file://${hadoop.data.dir}/data</value>
</property>
<!--指定SecondaryNameNode数据的存储目录-->
dfs.namenode.checkpoint.dir</name>
file://${hadoop.data.dir}/namesecondary</value>
</property>
<!-- 兼容配置,先跳过 -->
dfs.client.datanode-restart.timeout</name>
30s</value>
</property>
<!-- nn web端访问地址-->
dfs.namenode.http-address</name>
hadoop101:9870</value>
</property>
<!-- 2nn web端访问地址-->
dfs.namenode.secondary.http-address</name>
hadoop103:9868</value>
</property>
</configuration>
(4)YARN配置文件
配置yarn-site.xml
vim yarn-site.xml
文件内容如下:
"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?>
yarn.nodemanager.aux-services</name>
mapreduce_shuffle</value>
</property>
<!--指定ResourceManager的地址-->
yarn.resourcemanager.hostname</name>
hadoop102</value>
</property>
<!-- 环境变量的继承-->
yarn.nodemanager.env-whitelist</name>
JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
(5)MapReduce配置文件
配置mapred-site.xml
vim mapred-site.xml
文件内容如下:
"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--指定MapReduce程序运行在Yarn上-->
mapreduce.framework.name</name>
yarn</value>
</property>
</configuration>
xsync集群分发脚本之前需要创建脚本
(a)在/home/atguigu目录下创建bin目录,并在bin目录下创建xsync文件
[caron@hadoop101 hadoop] cd /home/caron
[caron@hadoop101 ~] mkdir bin
[caron@hadoop101 bin] touch xsync
[caron@hadoop101 bin] vim xsync
在该文件中编写如下代码
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
echo Not Enough Arguement!
exit;
fi
#2. 遍历集群所有机器
for host in hadoop101 hadoop102 hadoop103
do
echo ==================== $host ====================
#3. 遍历所有目录,挨个发送
for file in $@
do
#4 判断文件是否存在
if [ -e $file ]
then
#5. 获取父目录
pdir=$(cd -P $(dirname $file); pwd)
#6. 获取当前文件的名称
fname=$(basename $file)
ssh $host "mkdir -p $pdir"
rsync -av $pdir/$fname $host:$pdir
else
echo $file does not exists!
fi
done
done
(b)修改脚本 xsync 具有执行权限
chmod +x xsync
(d)测试脚本
xsync /home/caron/xsync
分发配置命令:
xsync /opt/module/hadoop-3.1.3
(1)如果集群是第一次启动,需要格式化NameNode
hdfs namenode -format
(2)在hadoop101上启动NameNode
hdfs --daemon start namenode
完成后执行jps命令,看到如下结果(进程号可能不同):
3461 NameNode
(3)在hadoop101、hadoop102以及hadoop103上执行如下命令(三台都要执行)
hdfs --daemon start datanode
(4)在Hadoop103上执行如下命令
hdfs --daemon start secondarynamenode
(5)web界面查看
http://hadoop101:9870
http://hadoop103:9868
(6)在hadoop102上执行如下命令
yarn --daemon start resourcemanager
(7)在hadoop101、hadoop102以及hadoop103上执行如下命令(三台都要执行)
yarn --daemon start nodemanager