Hadoop安装与配置详细教程

准备三个虚拟机
使用vagrant安装虚拟机环境

1、首先安装jdk（三台机器都需要）
https://www.jianshu.com/p/8829bc3a9217

2、安装hadoop2.9.2 下载hadoop2.9.2，下载地址：http://archive.apache.org/dist/hadoop/core/
放到 /opt 目录下，解压

tar -zxvf hadoop-2.9.2.tar.gz    
mv hadoop-2.9.2 hadoop

配置hadoop环境变量 vi /etc/profile 添加如下配置

export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

重新刷新配置 source /etc/profile，查看版本 hadoop version

配置env文件

vi /opt/hadoop/etc/hadoop/hadoop-env.sh
找到 “ export JAVA_HOME ” 这行，用来配置jdk路径，修改为：export JAVA_HOME=/opt/jdk1.8

配置核心组件文件

Hadoop的核心组件文件是core-site.xml，用vi编辑core-site.xml文件，需要将下面的配置代码放在文件的和之间。
执行编辑core-site.xml文件的命令：
vi /opt/hadoop/etc/hadoop/core-site.xml
需要在和之间加入的代码：


    fs.defaultFS
    hdfs://master:9000


    hadoop.tmp.dir
    /opt/hadoop/tmp

编辑完成后，退出并保存即可！

配置文件系统

Hadoop的文件系统配置文件是hdfs-site.xml，用vi编辑该文件，需要将以下代码放在文件的和之间。
执行编辑hdfs-site.xml文件的命令：
vi /opt/hadoop/etc/hadoop/hdfs-site.xml
需要在和之间加入的代码：


    dfs.replication
    1

编辑完成后，退出保存即可！

配置 yarn-site.xml 文件

Yarn的站点配置文件是yarn-site.xml，依然用vi编辑该文件，将以下代码放在文件的和之间。
执行编辑yarn-site.xml文件的命令：
vi /opt/hadoop/etc/hadoop/yarn-site.xml
需要在和之间加入的代码：


    yarn.nodemanager.aux-services
    mapreduce_shuffle


    yarn.resourcemanager.address
    master:18040


    yarn.resourcemanager.scheduler.address
    master:18030


    yarn.resourcemanager.resource-tracker.address
    master:18025


    yarn.resourcemanager.admin.address
    master:18141


    yarn.resourcemanager.webapp.address
    master:18088

配置MapReduce计算框架文件

在/opt/hadoop/etc/hadoop目录下，系统已经有一个mapred-site.xml.template文件，我们需要将其复制并改名，位置不变。
执行复制和改名操作命令：
cp mapred-site.xml.template mapred-site.xml
然后 vi mapred-site.xml 文件，需要将下面的代码填充到文件的和之间。


    mapreduce.framework.name
    yarn

配置master的slaves文件

slaves文件给出了Hadoop集群的slave节点列表，该文件十分的重要，因为启动Hadoop的时候，系统总是根据当前slaves文件中的slave节点名称列表启动集群，不在列表中的slave节点便不会被视为计算节点。

执行编辑slaves文件命令：
vi /opt/hadoop/etc/hadoop/slaves
注意：vi slaves 文件，应该根据读者您自己所搭建集群的实际情况进行编辑。
例如：我这里已经安装了slave0和slave1，并且计划将它们全部投入Hadoop集群运行。
所以应当加入以下代码：

slave0
slave1

注意：删除slaves文件中原来localhost那一行！

复制master上的Hadoop到slave节点

通过复制master节点上的hadoop，能够大大提高系统部署效率，假设我们有200台需要配置…笔者岂不白头
由于我这里有slave0和slave1，所以复制两次。

scp -r /opt/hadoop [email protected]:/opt
scp -r /opt/hadoop [email protected]:/opt

Hadoop集群的启动-配置操作系统环境变量（三个节点都做）

vi ~/.bash_profile
最后把以下代码追加到文件的尾部：

#HADOOP
export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

保存退出后，执行命令：source ~/.bash_profile

创建Hadoop数据目录（只在master做）

mkdir /opt/hadoopdata

格式化文件系统（只在master做）

hadoop namenode -format

启动和关闭Hadoop集群（只在master做）

cd /opt/hadoop/sbin
start-all.sh

参考：
https://blog.csdn.net/weixin_44198965/article/details/89603788