准备三个虚拟机
使用vagrant安装虚拟机环境
1、首先安装jdk(三台机器都需要)
https://www.jianshu.com/p/8829bc3a9217
2、安装hadoop2.9.2 下载hadoop2.9.2,下载地址:http://archive.apache.org/dist/hadoop/core/
放到 /opt 目录下 ,解压
tar -zxvf hadoop-2.9.2.tar.gz
mv hadoop-2.9.2 hadoop
配置hadoop环境变量 vi /etc/profile 添加如下配置
export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
重新刷新配置 source /etc/profile,查看版本 hadoop version
配置env文件
vi /opt/hadoop/etc/hadoop/hadoop-env.sh
找到 “ export JAVA_HOME ” 这行,用来配置jdk路径,修改为:export JAVA_HOME=/opt/jdk1.8
配置核心组件文件
Hadoop的核心组件文件是core-site.xml,用vi编辑core-site.xml文件,需要将下面的配置代码放在文件的
执行编辑core-site.xml文件的命令:
vi /opt/hadoop/etc/hadoop/core-site.xml
需要在
fs.defaultFS
hdfs://master:9000
hadoop.tmp.dir
/opt/hadoop/tmp
编辑完成后,退出并保存即可!
配置文件系统
Hadoop的文件系统配置文件是hdfs-site.xml,用vi编辑该文件,需要将以下代码放在文件的
执行编辑hdfs-site.xml文件的命令:
vi /opt/hadoop/etc/hadoop/hdfs-site.xml
需要在
dfs.replication
1
编辑完成后,退出保存即可!
配置 yarn-site.xml 文件
Yarn的站点配置文件是yarn-site.xml,依然用vi编辑该文件,将以下代码放在文件的
执行编辑yarn-site.xml文件的命令:
vi /opt/hadoop/etc/hadoop/yarn-site.xml
需要在
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.address
master:18040
yarn.resourcemanager.scheduler.address
master:18030
yarn.resourcemanager.resource-tracker.address
master:18025
yarn.resourcemanager.admin.address
master:18141
yarn.resourcemanager.webapp.address
master:18088
配置MapReduce计算框架文件
在/opt/hadoop/etc/hadoop目录下,系统已经有一个mapred-site.xml.template文件,我们需要将其复制并改名,位置不变。
执行复制和改名操作命令:
cp mapred-site.xml.template mapred-site.xml
然后 vi mapred-site.xml 文件,需要将下面的代码填充到文件的
mapreduce.framework.name
yarn
配置master的slaves文件
slaves文件给出了Hadoop集群的slave节点列表,该文件十分的重要,因为启动Hadoop的时候,系统总是根据当前slaves文件中的slave节点名称列表启动集群,不在列表中的slave节点便不会被视为计算节点。
执行编辑slaves文件命令:
vi /opt/hadoop/etc/hadoop/slaves
注意:vi slaves 文件,应该根据读者您自己所搭建集群的实际情况进行编辑。
例如:我这里已经安装了slave0和slave1,并且计划将它们全部投入Hadoop集群运行。
所以应当加入以下代码:
slave0
slave1
注意:删除slaves文件中原来localhost那一行!
复制master上的Hadoop到slave节点
通过复制master节点上的hadoop,能够大大提高系统部署效率,假设我们有200台需要配置…笔者岂不白头
由于我这里有slave0和slave1,所以复制两次。
scp -r /opt/hadoop [email protected]:/opt
scp -r /opt/hadoop [email protected]:/opt
Hadoop集群的启动-配置操作系统环境变量(三个节点都做)
vi ~/.bash_profile
最后把以下代码追加到文件的尾部:
#HADOOP
export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
保存退出后,执行命令:source ~/.bash_profile
创建Hadoop数据目录(只在master做)
mkdir /opt/hadoopdata
格式化文件系统(只在master做)
hadoop namenode -format
启动和关闭Hadoop集群(只在master做)
cd /opt/hadoop/sbin
start-all.sh
参考:
https://blog.csdn.net/weixin_44198965/article/details/89603788