1.注:本文只是hadoop搭建大概流程,供参考和复习使用,可以用来检验自己的步骤某些具体操作可以自行上网搜索
2.前置操作:先安装好第一台虚拟机,最好分配50G一台,方便后续学习使用,这个50G是虚拟机的内存上限,实际使用不会占到那么多,首先配置第一台虚拟机的IP,主机名称(参考:192.168.10.102,hadoop102)
3.使用工具 Finalshell,VMwareWorkstation Pro
1.删除自带java,装入自己的java
2.装入hadoop在/opt/module
中,
3./opt/module
用来存软件,/opt/software
存压缩包
4.配置环境变量
ip
和hostname
连接finalshell
(虚拟机连接界面)
配置xsync
分发脚本,用户目录下创建一个bin
目录,写一个xsync
在里面,内容如下
使用方式,xsync 文件名(路径)
#!/bin/bash
#1 获取输入参数个数,如果没有参数,直接退出
pcount=$#
if [ $pcount -lt 1 ]
then
echo Not Enough Arguement!
exit;
fi
#2. 遍历集群所有机器
# 也可以采用:
# for host in hadoop{102..104};
for host in hadoop102 hadoop103 hadoop104
do
echo ==================== $host ====================
#3. 遍历所有目录,挨个发送
for file in $@
do
#4 判断文件是否存在
if [ -e $file ]
then
#5. 获取父目录
pdir=$(cd -P $(dirname $file); pwd)
echo pdir=$pdir
#6. 获取当前文件的名称
fname=$(basename $file)
echo fname=$fname
#7. 通过ssh执行命令:在$host主机上递归创建文件夹(如果存在该文件夹)
ssh $host "mkdir -p $pdir"
#8. 远程同步文件至$host主机的$USER用户的$pdir文件夹下
rsync -av $pdir/$fname $USER@$host:$pdir
else
echo $file does not exists!
fi
done
done
1.使用ssh-keygen -t rsa
生成公钥私钥
2.使用ssh-copy-id hadoop102(主机名)
拷贝公钥
在opt/modle/hadoop3.3.2/etc/hadoop
下
1.配置核心配置文件core-site.xml
fs.defaultFS
hdfs://hadoop102:8020
hadoop.tmp.dir
/opt/module/hadoop-3.3.2/data
2.配置HDFS配置文件hdfs-site.xml
dfs.namenode.http-address
hadoop102:9870
dfs.namenode.secondary.http-address
hadoop104:9868
3.配置MapReduce-site.xml
mapreduce.framework.name
yarn
4.配置yarn-site.xml
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.hostname
hadoop103
1.在路径/opt/module/hadoop3.3.2/etc
下
2.使用编写好的脚本xsync
分发刚才修改配置的目录给其他虚拟机
vim /opt/module/hadoop-3.3.2/etc/hadoop/workers
添加:
hadoop102
hadoop103
hadoop104
本结尾不能有空格,文件不能有空行
xsync
分发同步配置1.启动hadoop集群sbin/start-dfs.sh
,再在hadoop103
上启动yarn-dfs.sh
2.在/opt/module/hadoop-3.3.2
中先进行初始化,执行hdfs namenode -format
初始化
配置windows
的hosts映射
,给当前window用户修改host文件的权限,然后添加
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
1.通过浏览器访问hadoop102:9870
和hadoop103:8088
2.添加yarn配置hadoop classpath
1.配置历史服务器
2.重启yarn
3.启动历史服务器mapred --daemon start historyserver
注意:hadoop集群刚启动的时候会处于安全模式
手动退出安全模式hadoop dfsadmin -safemode leave
使用hadoop fs -(指令)
,对HDFS进行操作
hadoop fs -mkdir /input
hadoop fs -put wcinput/word.txt /input
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.2.jar wordcount /input /output
1.在core-site.xml
配置日志聚集到HDFS
yarn.log-aggregation-enable
true
yarn.log.server.url
http://hadoop102:19888/jobhistory/logs
yarn.log-aggregation.retain-seconds
604800
2.重启yarn和历史服务器,停止命令mapred --daemon stop historyserver
编写hadoop常用集群脚本,写在家目录的bin目录下面(建议文件名后面加上.sh),写完后记得要赋予执行权限
1.hadoop集群启停
脚本
#!/bin/bash
if [ $# -lt 1 ]
then
echo "No Args Input..."
exit ;
fi
case $1 in
"start")
echo " =================== 启动 hadoop集群 ==================="
echo " --------------- 启动 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.3.2/sbin/start-dfs.sh"
echo " --------------- 启动 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.3.2/sbin/start-yarn.sh"
echo " --------------- 启动 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.3.2/bin/mapred --daemon start historyserver"
;;
"stop")
echo " =================== 关闭 hadoop集群 ==================="
echo " --------------- 关闭 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.3.2/bin/mapred --daemon stop historyserver"
echo " --------------- 关闭 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.3.2/sbin/stop-yarn.sh"
echo " --------------- 关闭 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.3.2/sbin/stop-dfs.sh"
;;
*)
echo "Input Args Error..."
;;
esac
2.在用户家目录的bin目录下,创建jpsall
文件,配置查看所有虚拟机上的jps
#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
echo =============== $host ===============
ssh $host jps
done
可以配置时间服务器,方便不能连接外网的生产环境同步时间
需要在在core-site.xml
中添加
hadoop.http.staticuser.user
log
个人遇到的其中一个问题,namenode关不掉:此时需要配置pid!